28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95<br />

Fazit<br />

Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor<br />

allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren<br />

insbesondere <strong>für</strong> die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die<br />

Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der<br />

Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie-<br />

Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der<br />

Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten<br />

Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen<br />

sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren<br />

zu schlechten Resultaten.<br />

In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus<br />

dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien<br />

sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen<br />

einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer<br />

bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann.<br />

5.3 Emphasis-Detection-basierte Segmentierung<br />

Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche<br />

4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden<br />

Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨<br />

, ¦ , £ ¥ <br />

und und unterschiedlichen Pitch-Schwellwerten<br />

¢ £¤<br />

( <br />

¤<br />

,<br />

¤<br />

, ¥<br />

¤<br />

und £ ¤<br />

) getestet.<br />

Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift <strong>für</strong> Recall<br />

und Precision zu finden, insbesondere <strong>für</strong> Fensterlängen<br />

,¦ ¦. Dieses Problem wurde bereits<br />

im Abschnitt 5.1 angedeutet.<br />

¨©¤<br />

STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase<br />

eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht<br />

zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt,<br />

ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2<br />

deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤<br />

und einen<br />

von¦ ¥<br />

¤<br />

Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise<br />

False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen<br />

wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam.<br />

Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere<br />

bei den in dieser Arbeit untersuchten Sprachdateien, wurde <strong>für</strong> die Evaluation ein wesentlich<br />

strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht<br />

wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ <br />

¦©<br />

und<br />

¨ <br />

den Pitch-Schwellwerten © <br />

¤<br />

¡ ¨<br />

¨ <br />

¤ £ ¤§©<br />

untersucht.<br />

¤<br />

¤ ¦ ¤ ¥

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!