Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

52 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES Probleme bei der Bestimmung der Pitch Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies für Sprachsignale nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform signifikant verändern können. Das dritte Problem besteht in der exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente. Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt wird, was die Bestimmung der Pitch weiter erschwert [28]. Pitch-Detektion Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber auf die einzelnen Algorithmen eingegangen wird, soll grob die Vorgehensweise skizziert werden, die sich bei den betrachteten Algorithmen nur in Details unterscheidet. Abbildung 3.6 verdeutlicht den Vorgang. Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff Windowing in Kapitel 3.1 eingeführt. Übliche Werte für die Länge der Frames liegen im Bereich ¢ bis ¥ ¢ . Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal von¦ innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡ Sprache/Pause Sprachsignal Windowing des Signals Ermittlung der short-term energy und der short-term zero crossing rate Sprache/Pause-Entscheidung Verfahren zur Bestimmung der Pitch Entscheidung stimmhaft / stimmlos stimmhaft / stimmlos Abbildung 3.6: System zur Pitch-Detektion [12] Pitch F0 beinhaltet. Im Falle eines stimmhaften Lautes wird die Pitch berechnet und ausgeben, andernfalls wird in der Regel die Pitch gleich Null gesetzt. Die Bestimmung, ob ein Frame einen stimmhaften oder einen stimmlosen Laut enthält, geschieht in den einzelnen Algorithmen auf unterschiedliche Art und Weise. Oft wird die Klassifikation aus einer bestimmten Kombination von ¢¡ , £¥¤§¦¨¡ und Spitzenwert der Periodenberechnungsfunktion ermittelt. Beispielsweise verwenden ROSS, ET AL. [30] eine ausgeklügelte Logik im Anschluß an die Periodenbestimmung. BOERSMA [5] bestimmt für jeden Frame eine Menge von möglichen Kandidaten, die durch eine Gewichtungsfunktion bewertet werden. Daran anschließend wird mit Hilfe von dynamischer Programmierung ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Als Nebenprodukt der Bestimmung der Pitch erhält man durch die Klassifikation in stimmhafte, stimmlose und stille Segmente eine (einfache) Pausendetektion. Zur Verdeutlichung, wie ein Pitch-Verlauf aussehen kann, zeigt die Abbildung 3.7 Ausschnitte aus Pitch-Verläufen verschiedener Sprecher, die [23] und [24] entstammen. Es ist gut erkennbar, daß der Pitch-Verlauf der Dozentin insgesamt höher angesiedelt ist, als der der männlichen Vortragenden. Für die Bestimmung der Pitch gibt es eine Vielzahl verschiedener Ansätze. Im Rahmen dieser Arbeit werden nur Pitch-Detektions-Algorithmen (PDA) vorgestellt, die versuchen, die Periode des Signals zu bestimmen. Hierzu wird idealisierend angenommen, das Sprachsignal sei ein Zufallsprozeß und für eine gewisse Zeit von etwa © stationär. Fünf Ansätze zur Bestimmung der Pitch, die auch (teilweise vereinfacht) zu Versuchszwecken implementiert wurden, werden in den folgenden Kapiteln genauer beschrieben, wobei nur die dahinterstehende Idee vermittelt werden soll. Es wird sich zeigen, daß die Pitch allein mit Ausführung der jeweiligen Funktion nicht zufriedenstellend bestimmt werden kann. In der Regel muß sich noch 53
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13: 12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71: Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 86 und 87: 86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89: 88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91: 90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93: 92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95: 94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97: 96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99: 98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101: 100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?