Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
52 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Probleme bei der Bestimmung der Pitch<br />
Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal<br />
extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus<br />
der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein<br />
Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist<br />
einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies <strong>für</strong> Sprachsignale<br />
nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb<br />
der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt<br />
und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform<br />
signifikant verändern können. Das dritte Problem besteht in der<br />
exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente.<br />
Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise<br />
unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die<br />
Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude<br />
dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb<br />
schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch<br />
weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen<br />
starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die<br />
Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem<br />
spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem<br />
genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz<br />
und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der<br />
Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies<br />
bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt<br />
wird, was die Bestimmung der Pitch weiter erschwert [28].<br />
Pitch-Detektion<br />
Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung<br />
zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber<br />
auf die einzelnen <strong>Algorithmen</strong> eingegangen wird, soll grob die Vorgehensweise skizziert werden,<br />
die sich bei den betrachteten <strong>Algorithmen</strong> nur in Details unterscheidet. Abbildung 3.6 verdeutlicht<br />
den Vorgang.<br />
Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge<br />
unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff<br />
Windowing in Kapitel 3.1 eingeführt. Übliche Werte <strong>für</strong> die Länge der Frames liegen im Bereich<br />
¢ <br />
bis ¥<br />
¢ <br />
. Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche<br />
Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal<br />
von¦<br />
innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die<br />
Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren<br />
bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut