Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
94 KAPITEL 5. EVALUATION<br />
Analyse<br />
Eine genauere Analyse der Daten ergab, daß die häufigen False Alarms in der Regel durch<br />
folgende Situationen zustande kamen:<br />
Die Sprecher legen weder vor neuen Topics, noch vor neuen Sätzen, einheitlich lange Pausen<br />
ein. Dadurch ist es nicht möglich, anhand der Pausendauer auf Topic Beginnings zu<br />
schließen.<br />
Aktionen am elektronischen Whiteboard führen in aller Regel zu langen Sprechpausen,<br />
nicht nur zwischen einzelnen Sätzen, sondern auch innerhalb eines Satzes.<br />
Die Dozenten versprechen sich oder ihr Redefluß stockt. Diese Fehler werden auch<br />
disfluencies genannt. Beispiele hier<strong>für</strong> sind:<br />
Typ Beispiel<br />
gefüllte Pause er äh . . . mochte es<br />
Wiederholung er . . . er mochte es<br />
Reparatur er . . . sie mochte es<br />
falscher Start es war. . . er mochte es<br />
Der erste Punkt ist dem gewollten Live-Charakter der Aufzeichnung zuzuschreiben und läßt sich<br />
nicht vermeiden.<br />
Der zweite Punkt hängt mit der Art des Vorlesungsdarbietung zusammen. Im vorliegenden Datenmaterial<br />
benutzen die Vortragenden das elektronische Whiteboard <strong>für</strong> ihre Vorträge. Die Verwendung<br />
dieses Whiteboards führte zu häufigen, unfreiwilligen Unterbrechungen im Redefluß.<br />
Es wurden aber auch Animationen abgespielt, die die Sprecher nur spärlich kommentierten.<br />
Da das Segmentierungsverfahren keine Kenntnis davon hat, zu welchen Zeitpunkten Aktionen<br />
am Whiteboard ausgeführt wurden, gehen die dadurch entstandenen Pausen negativ in die Bewertung<br />
ein.<br />
Disfluencies treten zum einen kontextbedingt, aber auch sprecherabhängig auf. Beispielsweise<br />
ist von einem Nachrichtensprecher zu erwarten, daß solche Unterbrechungen nicht vorkommen.<br />
Im Falle von freier Rede ist man diesbezüglich sicherlich toleranter. Für die automatische Erkennung<br />
von Topic Beginnings ist dies natürlich trotzdem ein Problem. Es existieren allerdings<br />
Forschungsansätze, die sich mit der Erkennung der disfluencies beschäftigen und zu guten Erkennungsraten<br />
führen [31]. Nachteil dieser Verfahren ist, daß sie auf statistischen Modellen beruhen<br />
und somit eine große Menge an Trainings- und Testdaten benötigen. Diese zu erstellen , ist<br />
mit sehr hohem Zeitaufwand verbunden. Zudem hat man mit der Erkennung und möglicherweise<br />
Beseitigung der disfluencies nur einen kleinen Teil der Probleme beseitigt.