Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.1. MESSGRÖSSEN 89<br />
Emphasis<br />
4<br />
3<br />
2<br />
1<br />
¢¡¤£<br />
¢¡¦¥<br />
¢¡¨§<br />
¢¡¨©<br />
¢¡¤<br />
¢¡¤<br />
1 2 3 4 5 6 7 8<br />
topic beginning<br />
Zeit (Sek.)<br />
Emphasis<br />
4<br />
3<br />
2<br />
1<br />
¢¡¨£<br />
¢¡¦¥<br />
¢¡¨§<br />
¢¡¨©<br />
¢¡¤<br />
¢¡¤<br />
¢¡¤<br />
1 2 3 4 5 6 7 8<br />
topic beginning<br />
Zeit (Sek.)<br />
(a) § ¨ ¡ (b) § ¨ ¡§¦<br />
Abbildung 5.1: Beispiele <strong>für</strong> die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis-<br />
Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von § ¨ ¡ und im Diagramm (b) eine<br />
Länge von § ¨ ¡§¦ .<br />
<br />
¦<br />
¡ ¢ <br />
Betonungen bestehen. <br />
Diese Ergebnisse<br />
<br />
<br />
<br />
<br />
an, daß zu den Zeitpunkten , , , und<br />
stimmen nicht exakt mit den Topic Beginnings überein. Es stellt sich nun die Frage, wie diese<br />
Werte zu interpretieren sind. Das Problem besteht in der Messung der Betonung über ein Zeitfenster,<br />
das sich über mehrere Sekunden erstrecken kann. Angenommen, es existiert ein Topic<br />
Beginning zum Zeitpunkt und es wurde <strong>für</strong> das Verfahren ein Zeitfenster mit einer Länge<br />
von gewählt (vergleiche Abbildung 5.1(a)). Die eigentliche Betonung wurde vom Verfahren<br />
im Superframe, der mit der 5. Sekunde beginnt, detektiert. Die Zeitfenster ¡ § und liefern<br />
einen Wert ¢ <br />
<br />
<br />
¦<br />
von¦<br />
nur¦<br />
¢¡ <br />
¢¡<br />
<br />
<br />
. Die Zeitfenster liefern den Wert . Das Verfahren sagt also, daß zum<br />
Zeitpunkt ein Topic Beginning existiert. (Es wird angenommen, daß bei mehreren aufeinanderfolgenden<br />
Betonungswerten, die größer als Null sind, der erste Wert als vorausgesagtes<br />
Topic Beginning angesehen wird.) Es besteht also eine Differenz zwischen vorausgesagtem<br />
Topic Beginning und dem tatsächlichen Ereignis. Idealerweise hätte hier die Ausgabe von<br />
als Hinweis auf ein Topic Beginning stattfinden müssen. Beträgt die Länge des Zeitfensters<br />
, dann liefern die Zeitfenster den Wert 0 (vergleiche Abbildung 5.1(b)). Erst<br />
das Zeitfenster liefert den Wert 4. Das vorausgesagte Topic Beginning tritt zum Zeitpunkt<br />
auf. Die Differenz zum tatsächlichen Topic Beginning beträgt jetzt nur noch . Dies wirft<br />
die Frage auf, wie groß die Toleranz in Abhängigkeit von der Länge des Zeitfensters sein soll und<br />
wie die Länge des Zeitfensters gewählt werden muß, damit die Ausgabe des Verfahrens sinnvoll<br />
zur Segmentierung einer Sprachdatei eingesetzt werden kann.<br />
Die eben beschriebenen Probleme betreffen die Ermittlung des Recalls <strong>für</strong> das pitchbasierte Verfahren.<br />
Das Beispiel in Tabelle 5.3 wirft ein weiteres Problem auf. Zum Zeitpunkt <br />
zeigt ¦<br />
das pitchbasierte Verfahren eine Betonung an, die eigentlich als False Alarm gewertet werden<br />
müsste. Nun könnte diese Betonung aber beispielsweise zu einem Satz gehören, der zwischen<br />
der 2. und 3. Sekunde beginnt und zwischen der 6. und 7. Sekunde endet. Dann dürfte diese Betonung<br />
nicht als FA angesehen werden. Auch hier stellt sich die Frage nach der zu gewährenden<br />
Toleranz, die eventuell <strong>für</strong> die Precision von Bedeutung sein könnte. Diese Fragen werden in<br />
Kapitel 5.3 beantwortet, wenn das Verfahren mit verschiedenen Zeitfensterlängen und unterschiedlichen<br />
Schwellwerten ausgewertet wird.