28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

68 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Aus dieser Definition ¢ ¡ ¥<br />

<br />

folgt,<br />

<br />

daß eine periodische Version der "wahren" ¡ ¥<br />

<br />

Größe<br />

ist, die bestimmt werden soll.<br />

Das Sprachsignal wird im ersten Schritt mittels Windowing in Frames zerlegt. Nun wird der entstandene<br />

Frame<br />

¥ künstlich verlängert und mit Nullen aufgefüllt, diesen Vorgang nennt<br />

<br />

man Zero Padding. Da das short-term real cepstrum unendliche Dauer hat, ist Aliasing<br />

<br />

unvermeidbar<br />

[9]. Es ist aber möglich, die Artefakte klein zu halten. Dies kann bei der Berechnung<br />

mit Hilfe der DFT durch das obengenannte Zero Padding erreicht werden. Der nächste Schritt<br />

besteht nun darin, die short-term DFT <strong>für</strong> diesen Frame zu berechnen. Nun wird der Absolutbetrag<br />

des entstehenden Spektrums gebildet und anschließend logarithmiert. Das Ergebnis dieser<br />

Operation wird nun mittels inverser DFT in den Zeitbereich zurücktransformiert (vergleiche Abbildung<br />

3.17). Das short-term real cepstrum läßt sich effizient mit Hilfe der FFT berechnen.<br />

s(n)<br />

w(m-n)<br />

Zero-<br />

padding<br />

¢¡¤£¦¥¤§¨¥<br />

stDFT IDFT<br />

Abbildung 3.17: Berechnung der stRC mittels DFT<br />

¤<br />

©<br />

Abbildung 3.18 zeigt das Blockdiagramm eines auf dem short-term real cepstrum basierenden<br />

Pitch-Detektions-Algorithmus.<br />

3.4.4 Zusammenfassung<br />

Dieses Kapitel stellte verschiedene Ansätze zur Bestimmung der Pitch eines Sprachsignals vor.<br />

Keiner dieser Ansätze kann perfekte Ergebnisse liefern. In der Einführung dieses Kapitels<br />

wurden die Probleme angedeutet. Die tatsächlichen Implementationen beinhalten in der Regel<br />

einen erheblichen Nachverarbeitungsaufwand, um die berechneten Pitch-Verläufe den tatsächlichen<br />

Verläufen anzugleichen. Es handelt sich bei der Bestimmung der Pitch mit diesen Mitteln<br />

also um eine mehr oder weniger gute Schätzung der tatsächlichen vorhandenen Werte.<br />

Für die Berechnung der Pitch im Rahmen des pitchbasierten Segmentierungsalgorithmus (vergleiche<br />

Kapitel 4.2) kommt der ModifiedACF-PDA zur Anwendung. Da das Postprocessing<br />

der in der Literatur beschriebenen <strong>Algorithmen</strong> sehr aufwendig ist, wurde ein einfacheres Verfahren<br />

<strong>für</strong> diesen PDA entwickelt, das ausreichend gute Resultate erzielt. Der Pitch-Detektions-<br />

Algorithmus als Ganzes ergab sich durch das Studium der in der Literatur vorhandenen PDAs<br />

und lieferte (subjektiv) die besten Werte. Da keine Referenzdaten vorlagen, kann aber keine genaue<br />

Aussage über die Genauigkeit des Verfahrens gemacht werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!