28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

52 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Probleme bei der Bestimmung der Pitch<br />

Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal<br />

extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus<br />

der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein<br />

Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist<br />

einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies <strong>für</strong> Sprachsignale<br />

nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb<br />

der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt<br />

und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform<br />

signifikant verändern können. Das dritte Problem besteht in der<br />

exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente.<br />

Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise<br />

unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die<br />

Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude<br />

dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb<br />

schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch<br />

weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen<br />

starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die<br />

Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem<br />

spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem<br />

genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz<br />

und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der<br />

Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies<br />

bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt<br />

wird, was die Bestimmung der Pitch weiter erschwert [28].<br />

Pitch-Detektion<br />

Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung<br />

zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber<br />

auf die einzelnen <strong>Algorithmen</strong> eingegangen wird, soll grob die Vorgehensweise skizziert werden,<br />

die sich bei den betrachteten <strong>Algorithmen</strong> nur in Details unterscheidet. Abbildung 3.6 verdeutlicht<br />

den Vorgang.<br />

Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge<br />

unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff<br />

Windowing in Kapitel 3.1 eingeführt. Übliche Werte <strong>für</strong> die Länge der Frames liegen im Bereich<br />

¢ <br />

bis ¥<br />

¢ <br />

. Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche<br />

Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal<br />

von¦<br />

innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die<br />

Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren<br />

bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!