Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
68 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Aus dieser Definition ¢ ¡ ¥<br />
<br />
folgt,<br />
<br />
daß eine periodische Version der "wahren" ¡ ¥<br />
<br />
Größe<br />
ist, die bestimmt werden soll.<br />
Das Sprachsignal wird im ersten Schritt mittels Windowing in Frames zerlegt. Nun wird der entstandene<br />
Frame<br />
¥ künstlich verlängert und mit Nullen aufgefüllt, diesen Vorgang nennt<br />
<br />
man Zero Padding. Da das short-term real cepstrum unendliche Dauer hat, ist Aliasing<br />
<br />
unvermeidbar<br />
[9]. Es ist aber möglich, die Artefakte klein zu halten. Dies kann bei der Berechnung<br />
mit Hilfe der DFT durch das obengenannte Zero Padding erreicht werden. Der nächste Schritt<br />
besteht nun darin, die short-term DFT <strong>für</strong> diesen Frame zu berechnen. Nun wird der Absolutbetrag<br />
des entstehenden Spektrums gebildet und anschließend logarithmiert. Das Ergebnis dieser<br />
Operation wird nun mittels inverser DFT in den Zeitbereich zurücktransformiert (vergleiche Abbildung<br />
3.17). Das short-term real cepstrum läßt sich effizient mit Hilfe der FFT berechnen.<br />
s(n)<br />
w(m-n)<br />
Zero-<br />
padding<br />
¢¡¤£¦¥¤§¨¥<br />
stDFT IDFT<br />
Abbildung 3.17: Berechnung der stRC mittels DFT<br />
¤<br />
©<br />
Abbildung 3.18 zeigt das Blockdiagramm eines auf dem short-term real cepstrum basierenden<br />
Pitch-Detektions-Algorithmus.<br />
3.4.4 Zusammenfassung<br />
Dieses Kapitel stellte verschiedene Ansätze zur Bestimmung der Pitch eines Sprachsignals vor.<br />
Keiner dieser Ansätze kann perfekte Ergebnisse liefern. In der Einführung dieses Kapitels<br />
wurden die Probleme angedeutet. Die tatsächlichen Implementationen beinhalten in der Regel<br />
einen erheblichen Nachverarbeitungsaufwand, um die berechneten Pitch-Verläufe den tatsächlichen<br />
Verläufen anzugleichen. Es handelt sich bei der Bestimmung der Pitch mit diesen Mitteln<br />
also um eine mehr oder weniger gute Schätzung der tatsächlichen vorhandenen Werte.<br />
Für die Berechnung der Pitch im Rahmen des pitchbasierten Segmentierungsalgorithmus (vergleiche<br />
Kapitel 4.2) kommt der ModifiedACF-PDA zur Anwendung. Da das Postprocessing<br />
der in der Literatur beschriebenen <strong>Algorithmen</strong> sehr aufwendig ist, wurde ein einfacheres Verfahren<br />
<strong>für</strong> diesen PDA entwickelt, das ausreichend gute Resultate erzielt. Der Pitch-Detektions-<br />
Algorithmus als Ganzes ergab sich durch das Studium der in der Literatur vorhandenen PDAs<br />
und lieferte (subjektiv) die besten Werte. Da keine Referenzdaten vorlagen, kann aber keine genaue<br />
Aussage über die Genauigkeit des Verfahrens gemacht werden.