Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
102 KAPITEL 5. EVALUATION<br />
Precision ¥<br />
¤<br />
von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende<br />
Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu<br />
geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic<br />
Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer<br />
¦<br />
¢£¤<br />
maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch<br />
vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt.<br />
Dies ist dem Benutzer nicht zuzumuten.<br />
Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet,<br />
ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall<br />
auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger<br />
mit einer leichten Präferenz zum Segment-Level 4 hin.<br />
Nun stellt sich die Frage, welche Gründe es <strong>für</strong> die schlechten Ergebnisse gibt. Die Idee, die<br />
diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es<br />
Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren <strong>für</strong> Topic Beginnings<br />
sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu<br />
schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen<br />
in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den<br />
Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen<br />
aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den<br />
vorliegenden Sprachdateien folgende Vorteile:<br />
1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze<br />
Pausen) klar trennen.<br />
2. Die obengenannten disfluencies sollten nicht vorkommen.<br />
3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen,<br />
sollten bei Nachrichtensendungen nicht der Fall sein.<br />
4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten<br />
absieht.<br />
5. Die Aufnahmequalität ist besser.<br />
Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur<br />
<strong>für</strong> die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen<br />
auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei<br />
Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten<br />
Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen<br />
gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser<br />
Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge<br />
gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden<br />
Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt