28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

62 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

<br />

¥<br />

¡¡¢¡<br />

¦ ¤ ¡ £ ¢<br />

¡ ¡ £<br />

Man muß in diesem Beispiel die AKF also nur im ¥ Intervall<br />

hin untersuchen. Angenommen, der Spitzenwert liege nun bei <br />

Frequenz von<br />

¡ <br />

¥<br />

¦¥¤ ¤ <br />

<br />

<br />

¥<br />

¡<br />

¦<br />

¡<br />

¢£¢<br />

¦<br />

(3.24)<br />

auf einen Spitzenwert<br />

¢£¢<br />

. Dies entspricht nun einer<br />

<br />

(3.25)<br />

<br />

Dies ist die gesuchte Pitch. Man erkennt aus den Gleichungen (3.23), (3.24) und (3.25) leicht,<br />

daß die Auflösung bezüglich der Frequenz von der ¥ Abtastfrequenz abhängt. Je höher die Abtastfrequenz<br />

ist, umso besser ist das Auflösungsvermögen. Da die Abtastfrequenz nicht beliebig<br />

hoch gewählt werden kann, behilft man sich damit, eine Interpolation der Werte der AKF durchzuführen<br />

und den Spitzenwert bezüglich dieser Interpolation zu berechnen [5].<br />

Sind <strong>für</strong> die Sprachdatei alle Pitch-Werte berechnet, so schließt sich nun das Postprocessing<br />

an. Dies ist nötig, da das Verfahren noch Fehler macht. Mögliche, leicht zu erkennende und<br />

behebbare, Fehler sind:<br />

1. Die detektierte Frequenz ist halb so groß, wie sie sein sollte, ¡<br />

¡ ¥ ¥ <br />

2. Die detektierte Frequenz ist doppelt so groß, wie sie sein sollte, ¡<br />

§¦©¨<br />

. <br />

¥ <br />

Einen möglichen Pitch-Verlauf ohne Nachbearbeitung zeigt Abbildung 3.14(a). Die Glättung<br />

des Pitch-Verlaufs kann auf unterschiedliche Art und Weise geschehen. Eine Möglichkeit besteht<br />

in der Anwendung von Filtern, wie beipielsweise Median-Filtern oder linearen Filtern<br />

(vergleiche Kapitel 2.3.4). Eine andere Möglichkeit ist die Interpolation der Pitch-Werte. Sowohl<br />

BOERSMA als auch DE MORI, OMOLOGO gehen über eine Filterung hinaus und ermitteln<br />

mehrere Pitch-Kandidaten. Mittels dynamischer Programmierung wird anschließend der<br />

"korrekte" Pitch-Verlauf berechnet. Für den ModifiedACF-PDA wurde in dieser Diplomarbeit<br />

ein Postprocessing entwickelt, das die Fehlerbeseitigung und Glättung wie folgt angeht:<br />

© <strong>für</strong> <br />

¡ ¥ ¥ ¡<br />

¢¡<br />

<br />

1. Betrachte die Pitch-Werte<br />

¥<br />

¢£¢ <br />

ein Zeitintervall<br />

<strong>für</strong><br />

¢ ¥<br />

¢ ¢ <br />

<br />

¢£¢£¢ ¥<br />

¢ ¢ <br />

. bezeichnet die Länge der Sprachdatei be-<br />

<br />

<br />

züglich der Zeitdauer. Aufgrund der verwendeten <br />

¢ <br />

Schrittweite von bei der Framebildung<br />

enthält jedes Zeitintervall demnach 50 Pitch-Werte. Diese Anzahl hat sich <strong>für</strong><br />

dieses Pitch-Detektions-Verfahren als guter Wert herausgestellt.<br />

2. Berechne den Mittelwert der<br />

<br />

betrachteten Pitch-Werte<br />

. Pitch-Werte<br />

¡<br />

¢<br />

mit<br />

werden bei der Mittelwertbildung nicht berücksichtigt.<br />

¡ ¡<br />

3. Gehe nun die Pitch-Werte ¢¡<br />

¢<br />

¡ <br />

<br />

<br />

© der ¦<br />

<br />

¡<br />

falls<br />

¢¡ ¡ <br />

¡<br />

¥<br />

¦.<br />

Reihe nach durch und berechne ¡ wie folgt:<br />

¡<br />

© ¡<br />

falls<br />

sonst<br />

© <br />

¢¡ <br />

© ¤ <br />

¥<br />

¥<br />

¡¢<br />

<br />

<br />

¡¢

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!