Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 103<br />
oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein<br />
vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen.<br />
Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen<br />
führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung<br />
zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich.<br />
Ein weiterer Grund <strong>für</strong> die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar<br />
nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem<br />
Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist<br />
die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies<br />
spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien<br />
der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen.<br />
Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe,<br />
die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren<br />
Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab<br />
bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen<br />
nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden)<br />
ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus<br />
zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1<br />
angeführten Probleme nach sich ziehen.<br />
Fazit<br />
Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden<br />
Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic<br />
Beginnings macht das Verfahren in dieser Form, <strong>für</strong> diesen Zweck und insbesondere <strong>für</strong> die<br />
untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren<br />
wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse<br />
finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser<br />
Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.