Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

94 KAPITEL 5. EVALUATION Analyse Eine genauere Analyse der Daten ergab, daß die häufigen False Alarms in der Regel durch folgende Situationen zustande kamen: Die Sprecher legen weder vor neuen Topics, noch vor neuen Sätzen, einheitlich lange Pausen ein. Dadurch ist es nicht möglich, anhand der Pausendauer auf Topic Beginnings zu schließen. Aktionen am elektronischen Whiteboard führen in aller Regel zu langen Sprechpausen, nicht nur zwischen einzelnen Sätzen, sondern auch innerhalb eines Satzes. Die Dozenten versprechen sich oder ihr Redefluß stockt. Diese Fehler werden auch disfluencies genannt. Beispiele hierfür sind: Typ Beispiel gefüllte Pause er äh . . . mochte es Wiederholung er . . . er mochte es Reparatur er . . . sie mochte es falscher Start es war. . . er mochte es Der erste Punkt ist dem gewollten Live-Charakter der Aufzeichnung zuzuschreiben und läßt sich nicht vermeiden. Der zweite Punkt hängt mit der Art des Vorlesungsdarbietung zusammen. Im vorliegenden Datenmaterial benutzen die Vortragenden das elektronische Whiteboard für ihre Vorträge. Die Verwendung dieses Whiteboards führte zu häufigen, unfreiwilligen Unterbrechungen im Redefluß. Es wurden aber auch Animationen abgespielt, die die Sprecher nur spärlich kommentierten. Da das Segmentierungsverfahren keine Kenntnis davon hat, zu welchen Zeitpunkten Aktionen am Whiteboard ausgeführt wurden, gehen die dadurch entstandenen Pausen negativ in die Bewertung ein. Disfluencies treten zum einen kontextbedingt, aber auch sprecherabhängig auf. Beispielsweise ist von einem Nachrichtensprecher zu erwarten, daß solche Unterbrechungen nicht vorkommen. Im Falle von freier Rede ist man diesbezüglich sicherlich toleranter. Für die automatische Erkennung von Topic Beginnings ist dies natürlich trotzdem ein Problem. Es existieren allerdings Forschungsansätze, die sich mit der Erkennung der disfluencies beschäftigen und zu guten Erkennungsraten führen [31]. Nachteil dieser Verfahren ist, daß sie auf statistischen Modellen beruhen und somit eine große Menge an Trainings- und Testdaten benötigen. Diese zu erstellen , ist mit sehr hohem Zeitaufwand verbunden. Zudem hat man mit der Erkennung und möglicherweise Beseitigung der disfluencies nur einen kleinen Teil der Probleme beseitigt.
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95 Fazit Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren insbesondere für die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie- Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren zu schlechten Resultaten. In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann. 5.3 Emphasis-Detection-basierte Segmentierung Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche 4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨ , ¦ , £ ¥ und und unterschiedlichen Pitch-Schwellwerten ¢ £¤ ( ¤ , ¤ , ¥ ¤ und £ ¤ ) getestet. Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift für Recall und Precision zu finden, insbesondere für Fensterlängen ,¦ ¦. Dieses Problem wurde bereits im Abschnitt 5.1 angedeutet. ¨©¤ STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt, ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2 deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤ und einen von¦ ¥ ¤ Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam. Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere bei den in dieser Arbeit untersuchten Sprachdateien, wurde für die Evaluation ein wesentlich strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ ¦© und ¨ den Pitch-Schwellwerten © ¤ ¡ ¨ ¨ ¤ £ ¤§© untersucht. ¤ ¤ ¦ ¤ ¥
Seite 1 und 2:
ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3:
Vorwort Ich möchte mich bei Prof.
Seite 6 und 7:
6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9:
Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11:
Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13:
12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 14 und 15:
Seite 16 und 17:
Seite 18 und 19:
Seite 20 und 21:
Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23:
22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 30 und 31:
Seite 32 und 33:
Seite 34 und 35:
Seite 36 und 37:
Seite 38 und 39:
Seite 40 und 41:
Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43:
42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 44 und 45: 44 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71: Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 86 und 87: 86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89: 88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91: 90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93: 92 KAPITEL 5. EVALUATION Datei: ga7
Seite 96 und 97: 96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99: 98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101: 100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103: 102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105: Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107: Anhang A Beispiel einer Text-Transk
Seite 108 und 109: 108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111: Anhang B Segmentierung am Beispiel
Seite 112 und 113: 112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115: 114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117: Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119: 118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?