28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 103<br />

oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein<br />

vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen.<br />

Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen<br />

führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung<br />

zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich.<br />

Ein weiterer Grund <strong>für</strong> die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar<br />

nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem<br />

Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist<br />

die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies<br />

spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien<br />

der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen.<br />

Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe,<br />

die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren<br />

Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab<br />

bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen<br />

nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden)<br />

ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus<br />

zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1<br />

angeführten Probleme nach sich ziehen.<br />

Fazit<br />

Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden<br />

Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic<br />

Beginnings macht das Verfahren in dieser Form, <strong>für</strong> diesen Zweck und insbesondere <strong>für</strong> die<br />

untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren<br />

wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse<br />

finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser<br />

Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!