Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

102 KAPITEL 5. EVALUATION Precision ¥ ¤ von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer ¦ ¢£¤ maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt. Dies ist dem Benutzer nicht zuzumuten. Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet, ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger mit einer leichten Präferenz zum Segment-Level 4 hin. Nun stellt sich die Frage, welche Gründe es für die schlechten Ergebnisse gibt. Die Idee, die diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren für Topic Beginnings sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den vorliegenden Sprachdateien folgende Vorteile: 1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze Pausen) klar trennen. 2. Die obengenannten disfluencies sollten nicht vorkommen. 3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen, sollten bei Nachrichtensendungen nicht der Fall sein. 4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten absieht. 5. Die Aufnahmequalität ist besser. Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur für die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 103 oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen. Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich. Ein weiterer Grund für die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen. Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe, die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden) ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1 angeführten Probleme nach sich ziehen. Fazit Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren in dieser Form, für diesen Zweck und insbesondere für die untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.
Seite 1 und 2:
ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3:
Vorwort Ich möchte mich bei Prof.
Seite 6 und 7:
6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9:
Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11:
Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13:
12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 14 und 15:
Seite 16 und 17:
Seite 18 und 19:
Seite 20 und 21:
Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23:
22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 30 und 31:
Seite 32 und 33:
Seite 34 und 35:
Seite 36 und 37:
Seite 38 und 39:
Seite 40 und 41:
Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43:
42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 44 und 45:
Seite 46 und 47:
Seite 48 und 49:
Seite 50 und 51:
Seite 52 und 53: 52 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71: Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 86 und 87: 86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89: 88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91: 90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93: 92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95: 94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97: 96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99: 98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101: 100 KAPITEL 5. EVALUATION Segment-L
Seite 104 und 105: Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107: Anhang A Beispiel einer Text-Transk
Seite 108 und 109: 108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111: Anhang B Segmentierung am Beispiel
Seite 112 und 113: 112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115: 114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117: Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119: 118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?