Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95<br />
Fazit<br />
Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor<br />
allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren<br />
insbesondere <strong>für</strong> die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die<br />
Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der<br />
Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie-<br />
Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der<br />
Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten<br />
Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen<br />
sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren<br />
zu schlechten Resultaten.<br />
In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus<br />
dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien<br />
sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen<br />
einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer<br />
bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann.<br />
5.3 Emphasis-Detection-basierte Segmentierung<br />
Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche<br />
4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden<br />
Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨<br />
, ¦ , £ ¥ <br />
und und unterschiedlichen Pitch-Schwellwerten<br />
¢ £¤<br />
( <br />
¤<br />
,<br />
¤<br />
, ¥<br />
¤<br />
und £ ¤<br />
) getestet.<br />
Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift <strong>für</strong> Recall<br />
und Precision zu finden, insbesondere <strong>für</strong> Fensterlängen<br />
,¦ ¦. Dieses Problem wurde bereits<br />
im Abschnitt 5.1 angedeutet.<br />
¨©¤<br />
STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase<br />
eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht<br />
zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt,<br />
ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2<br />
deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤<br />
und einen<br />
von¦ ¥<br />
¤<br />
Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise<br />
False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen<br />
wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam.<br />
Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere<br />
bei den in dieser Arbeit untersuchten Sprachdateien, wurde <strong>für</strong> die Evaluation ein wesentlich<br />
strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht<br />
wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ <br />
¦©<br />
und<br />
¨ <br />
den Pitch-Schwellwerten © <br />
¤<br />
¡ ¨<br />
¨ <br />
¤ £ ¤§©<br />
untersucht.<br />
¤<br />
¤ ¦ ¤ ¥