28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 77<br />

4.2 Emphasis-Detection-basierte Segmentierung (EDBS)<br />

Dieses Kapitel beschäftigt sich mit einem anderen Ansatz zur Segmentierung, der auch benutzt<br />

werden kann, um besonders betonte Wörter oder Sätze zu lokalisieren. Der Ansatz geht auf<br />

ARONS [2][3][4] zurück und beschreibt ein pitchbasiertes Verfahren zur Segmentierung und Betonungslokalisation.<br />

Die Pitch kann nicht nur wichtige Informationen <strong>für</strong> das Verstehen und das<br />

Verständnis liefern, sie kann auch herangezogen werden, um andere high level-Informationen aus<br />

dem Sprachsignal zu extrahieren. Es gibt eine Vielzahl von <strong>Algorithmen</strong>, um den Pitch-Verlauf<br />

eines Sprachsignals zu bestimmen, einige Verfahren wurden in Kapitel 3.4 vorgestellt.<br />

Es existieren verschiedene Arbeiten darüber, wie sich die Pitch unter verschiedenen Bedingungen<br />

verhält. HIRSCHBERG, GROSZ [15][17] fanden in einer empirischen Studie heraus, daß der<br />

Pitch-Bereich Hinweise auf den Beginn und das Ende von inhaltlichen Zusammenhängen sowie<br />

auf direkte Zitate gibt. Die Einführung eines neuen Themengebiets korrespondiert oft mit<br />

einer größeren Streuung der Pitch-Werte. Das Ende eines Satzes ist oft verbunden mit einem<br />

Abfallen der Pitch-Werte. Untergebiete und beiläufige Bemerkungen werden oft mit einem komprimierteren<br />

Pitch-Bereich assoziiert. Weitere Studien zeigten, daß Sprecher den Pitch-Bereich<br />

erhöhen, um Informationen in einem bestimmten Satz zu betonen, und daß der Pitch-Bereich am<br />

Anfang eines neuen Themengebiets erweitert wird. Diese Ergebnisse sollen nun genutzt werden,<br />

um Sprachaufzeichnungen zu segmentieren und besondere Hervorhebungen des Sprechers zu<br />

finden. Die Untersuchung, inwieweit dies überhaupt möglich ist, insbesondere in Bezug auf die<br />

zu untersuchenden Daten, ist der zweite Hauptbestandteil dieser Arbeit.<br />

In einer früheren Studie versuchten CHEN, WITHGOTT [6] mit Hilfe von<br />

Hidden-Markov-Modellen (HMM) Betonungen auf der Basis von Pitch- und Energiegehalt zu<br />

ermitteln. Dabei zeigte sich, daß betonte Abschnitte erfolgreich zur Erstellung von Zusammenfassungen<br />

der von Ihnen benutzten Aufzeichnungen herangezogen werden können. Die Verwendung<br />

von Hidden-Markov-Modellen hat allerdings einen entscheidenden Nachteil. Hidden-<br />

Markov-Modelle stellen sehr komplexe statistische Modelle dar, die eine große Anzahl von<br />

Trainings- und Testdaten benötigen und deshalb nicht <strong>für</strong> jede Anwendung geeignet sind. ARONS<br />

konnte jedoch nachweisen, daß signifikante Information über Betonungen allein in der Pitch enthalten<br />

ist. Er verglich den Verlauf der Pitch mit einer von Hand "gelabelten" Aufzeichnung. Ein<br />

Monolog eines männlichen Sprechers wurde transkribiert und manuell von einem Linguisten<br />

mit Anmerkungen versehen. Dabei stellte sich heraus, daß es eine hohe Korrelation von großer<br />

Pitch-Variabilität und der Einführung neuer Themen und betonten Abschnitten gibt. STIFELMAN<br />

bestätigte diese Ergebnisse in einer Studie [35]. Ziel von ARONS war nun, einen Algorithmus zu<br />

entwerfen, der direkt nach Mustern im Pitch-Verlauf sucht und dem kein komplexes statistisches<br />

Modell, wie das der Hidden-Markov-Modelle zugrunde liegt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!