Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

Kapitel 4 Segmentierungsverfahren In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features, wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente, die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber nicht Teil dieser Arbeit. 4.1 Pausenbasierte Segmentierung (PBS) Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz, einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen- ¥ ¢ £ ¢ ¢ dauer reicht typischerweise von . Die Mehrzahl der Pausen haben von¦ eine ¢ Länge von ¢£¢ etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und ¥ ¥ nicht unter der Kontrolle etwa¦ ¢£¢ des ¥ ¢ Sprechers liegen, dauern . Sogenannte Juncture- Pausen, die der Sprecher kontrollieren kann, haben ¥ ¢£¢ ¢ ¢£¢ eine Länge von . ¢ ¢ Atempausen dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit. ¦ 70
4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 71 Es soll jetzt ein erstes Verfahren zur Segmentierung eines Sprachsignals vorgestellt werden. Es beruht darauf, das Sprachsignal in Segmente aufzuteilen, die Sprache enthalten, und solche, die Sprachpausen beinhalten. Die jeweiligen Segmente bestehen in der Regel aus mehreren Frames. In den Pausen-Segmenten muß nicht völlige Stille herrschen. Sie können allerlei Hintergrundgeräusche enthalten. Hierin besteht auch eine Schwierigkeit bei der Klassifikation und Zuweisung der Frames zu den entsprechenden Segmenten. Wie in der Einleitung zu diesem Kapitel angedeutet wurde, wird zur Klassifikation der Frames des Sprachsignals die short-term energy und die short-term zero crossing rate herangezogen. Mit Hilfe der Energie-Werte werden Bereiche lokalisiert, die stimmhafte Laute beinhalten. Die Nulldurchgangsrate dient dazu, Bereiche mit stimmlosen Lauten zu identifizieren. Ein Merkmal stimmloser Laute ist, daß die zu ihnen korres- ¡ ¥ pondierende hoch ist, da sie in der Regel einen hohen Rauschanteil enthalten. Leider kann ¨ das Sprachsignal insgesamt sehr verrauscht sein. Dies kann zum einen durch die Aufnahmetechnik bedingt sein, zum anderen aber auch durch Hintergrundgeräusche wie beispielsweise ¡ laute Lüfter. Unter Umständen ist es bei ¨ ¥ einer hohen schwierig zu entscheiden, ob nun ein stimmloser Laut oder einfach nur Hintergrundrauschen vorliegt. Ein möglicher Ansatz zum Umgang mit diesem Problem wird im Laufe dieses Abschnitts vorgestellt. Die Identifizierung von Sprachsegmenten entspricht dem klassischen Problem der Endpunkt- Detektion innerhalb der Sprachverarbeitung. Zu diesem Thema gibt es eine Vielzahl von Arbeiten. Im Rahmen dieser Arbeit wurde ein Algorithmus verwendet, der von LAMEL ET. AL [20] stammt und von ARONS [2] modifiziert wurde. Dieser Algorithmus zur Endpunkt-Detektion wurde ursprünglich für Aufnahmen von Telefongesprächen entwickelt. Das Telefonsignal ist im allgemeinen mehr oder weniger stark verrauscht. Ein Algorithmus, der für solche Signale gute Ergebnisse erzielt, sollte auch für den Einsatz bei aufgezeichneten Vorlesungen geeignet sein, da es auch hier durch die Aufnahmetechnik oder durch Hintergrundgeräusche bedingt, zu einem starkem Rauschanteil im aufgezeichneten Signal kommen kann. 4.1.1 Der Pausen-Detektions-Algorithmus Im folgenden soll der verwendete Algorithmus genauer erläutert werden, der eine leicht modifizierte Version des in [2] (Kap. 5.9.3) verwendeten Algorithmus ist, welcher wiederum eine modifizierte Version des oben genannten Ansatzes von LAMEL ET. AL darstellt. Die vorgestellte Technik arbeitet laut den Autoren unter einer Vielzahl von Umgebungsbedingungen. Die Autoren zeichneten Sprache in einer Büroumgebung mit Lüftergeräuschen von Computern und Vorträge in Vorlesungssäalen mit über 40 Studenten auf und behaupten, daß diese Aufnahmen erfolgreich mit ihrer Methode in Sprache und Hintergrundgeräusche segmentiert wurden. Abbildung 4.1 zeigt die schematische Darstellung des pausenbasierten Segmentierungsverfahrens. Bei diesem Ansatz werden die durch einen Windowing-Prozeß erzeugten Frames, die sich nicht überlappen, mehrere Male durchlaufen. Jeder Frame hat eine Länge ¢ von und wurde mit Hilfe eines Rechteck-Fensters aus dem Sprachsignal ausgeschnitten. Im ersten Schritt werden short-term energy und short-term zero crossing rate für jeden dieser Frames bestimmt. Um den Level der Hintergrundgeräusche zu bestimmen, wird ein Histogramm der Energie-Werte be-
Seite 1 und 2:
ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3:
Vorwort Ich möchte mich bei Prof.
Seite 6 und 7:
6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9:
Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11:
Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13:
12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 14 und 15:
Seite 16 und 17:
Seite 18 und 19:
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 86 und 87: 86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89: 88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91: 90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93: 92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95: 94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97: 96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99: 98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101: 100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103: 102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105: Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107: Anhang A Beispiel einer Text-Transk
Seite 108 und 109: 108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111: Anhang B Segmentierung am Beispiel
Seite 112 und 113: 112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115: 114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117: Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119: 118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?