28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

102 KAPITEL 5. EVALUATION<br />

Precision ¥<br />

¤<br />

von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende<br />

Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu<br />

geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic<br />

Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer<br />

¦<br />

¢£¤<br />

maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch<br />

vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt.<br />

Dies ist dem Benutzer nicht zuzumuten.<br />

Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet,<br />

ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall<br />

auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger<br />

mit einer leichten Präferenz zum Segment-Level 4 hin.<br />

Nun stellt sich die Frage, welche Gründe es <strong>für</strong> die schlechten Ergebnisse gibt. Die Idee, die<br />

diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es<br />

Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren <strong>für</strong> Topic Beginnings<br />

sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu<br />

schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen<br />

in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den<br />

Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen<br />

aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den<br />

vorliegenden Sprachdateien folgende Vorteile:<br />

1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze<br />

Pausen) klar trennen.<br />

2. Die obengenannten disfluencies sollten nicht vorkommen.<br />

3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen,<br />

sollten bei Nachrichtensendungen nicht der Fall sein.<br />

4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten<br />

absieht.<br />

5. Die Aufnahmequalität ist besser.<br />

Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur<br />

<strong>für</strong> die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen<br />

auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei<br />

Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten<br />

Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen<br />

gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser<br />

Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge<br />

gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden<br />

Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!