28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

50 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Frequenzanteile enthält. Dieses Maß kann zusammen mit der short-term energy zur Endpunkt-<br />

Detektion eingesetzt werden. Das Problem, die Endpunkte einer diskreten Aussage zu bestimmen,<br />

ist ein wichtiges Problem in vielen Sprachverarbeitungsanwendungen. Bei der Erkennung von<br />

Wörtern durch Vergleichen des akustischen Signals mit einer "Vorlage" ist es beispielsweise notwendig,<br />

das zu erkennende Wort von "nichtsprachlichen" Bereichen zu befreien, die Fehler bei<br />

der Erkennung hervorrufen können. Auf den ersten Blick scheint dies relativ einfach zu sein.<br />

In der Praxis hat sich herausgestellt, daß dies nur bei sehr hohen signal-to-noise-ratio-Werten<br />

der Fall ist [9]. Ein verwandtes Problem stellt die Klassifikation von Sprache in stimmhafte und<br />

stimmlose Bereiche dar. Will man beispielsweise wissen, wann die Bestimmung der Pitch nötig<br />

ist, kann die short-term zero crossing rate in Verbindung mit der short-term energy dazu herangezogen<br />

werden, um mögliche stimmhafte Bereiche zu bestimmen. Während die short-term<br />

energy üblicherweise in stimmhaften Segmenten größer ist, ist die short-term zero crossing rate<br />

dagegen in stimmlosen Segmenten größer. Viele Pitch-Detektions-<strong>Algorithmen</strong> verwenden diese<br />

Maße zur Klassifikation des Sprachsignals. Einige dieser Pitch-Detektions-<strong>Algorithmen</strong> werden<br />

in den folgenden Abschnitten vorgestellt. ZHANG, KUO nutzen die short-term zero crossing rate<br />

auch zur Klassifikation von Umgebungsgeräuschen [40][41].<br />

Formal läßt sich die short-term zero crossing rate wie folgt definieren:<br />

Definition 3.4 Sei eine Signalfolge der Länge , die zum Zeitpunkt endet. Dann<br />

läßt sich die short-term zero crossing rate durch<br />

mit<br />

¨<br />

¡<br />

¥<br />

¡ <br />

berechnen. Hierbei stellt<br />

¡©£ §<br />

¡<br />

<br />

¨<br />

<br />

© <br />

eine Window dar.<br />

¨<br />

© <br />

¦<br />

¦ <br />

<br />

(3.15)<br />

<br />

<br />

¨<br />

<br />

<br />

©<br />

¢ (3.16)<br />

<br />

<br />

§ ¢<br />

<br />

Für wird in den meisten Fällen ein Rechteck-Fenster verwendet. Abbildung 3.5 zeigt den<br />

zeitlichen Verlauf der short-term zero crossing rate anhand eines Beispiels aus [24].<br />

3.4 Fundamentalfrequenz (Pitch) ¢ ¢<br />

Der Verlauf der Pitch und damit die Satzmelodie einer Äußerung ist <strong>für</strong> diverse Anwendungen<br />

und Probleme der Sprachverarbeitung von großer Bedeutung. Er ist beispielsweise nützlich <strong>für</strong><br />

die Sprechererkennung und gibt wertvolle Einblicke in die Natur der Anregungsquelle <strong>für</strong> die<br />

Sprachproduktion. In dieser Arbeit soll mit Hilfe von Betonungen versucht werden, einen aufgezeichneten<br />

Vortrag in inhaltliche Teilabschnitte zu segmentieren. Hintergrund dessen ist die Feststellung,<br />

daß es eine hohe Korrelation von Tonhöhenvariabilität und der Einführung<br />

neuer Themengebiete gibt. Es zeigte sich, daß ein Anstieg der Pitch ein guter Indikator hier<strong>für</strong><br />

ist [15][17]. Betonungen sind oft verbunden mit einem Anstieg der Pitch.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!