28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.1. MESSGRÖSSEN 87<br />

5.1 Messgrößen<br />

Gliederung Überschrift Startzeitpunkt<br />

innerhalb der<br />

Audiodatei<br />

1. Begrüßung 0:00,00<br />

2. Einleitung 0:08,92<br />

3. Gliederung 0:30,41<br />

3.1. Problemformulierung 0:36,47<br />

3.2. Konfigurationsraum 0:45,12<br />

3.3. Einfaches Problem 0:58,63<br />

3.4. Minkowski-Summen 1:14,70<br />

3.4.1. Eigenschaft von Minkowski-S. 1:28,43<br />

3.5. Problemlösung 1:46,62<br />

4. Problemstellung 2:05,89<br />

4.1. Veranschaulichung 2:24,02<br />

4.2. Beispiel 2:45,04<br />

. . .<br />

Tabelle 5.2: Auszug aus einer manuellen Segmentierung<br />

In der Einleitung zu diesem Kapitel wurde erläutert, wie die Referenzdaten <strong>für</strong> die Evaluation<br />

zustande kommen. Es ist aber noch nicht klar, was und wie gemessen werden soll. Die manuell<br />

erstellte Segmentierung eines Vortrages liefert, wie die Tabelle 5.2 zeigt, eine Liste von Zeitpunkten,<br />

die einem Beginn eines Topics (engl.: Topic Beginning) entsprechen. Die untersuchten<br />

Verfahren sollen diese Zeitpunkte nun möglichst genau aus der Sprachdatei extrahieren. Dabei<br />

sollen sie nicht nur möglichst viele dieser Topic Beginnings finden, sondern auch so wenig wie<br />

möglich falsche Alarme (engl.: False Alarms) auslösen. Dies führt zu den Begriffen Recall und<br />

Precision.<br />

Recall und Precision<br />

Eine erste Definition dieser Begriffe könnte wie folgt sein: Der Recall liefert ein Maß <strong>für</strong> die<br />

Trefferhäufigkeit des Verfahrens; je mehr der Topic Beginnings erkannt werden, umso höher ist<br />

der Wert <strong>für</strong> den Recall. Die Precision zeigt die Genauigkeit des Verfahrens an. Je weniger False<br />

Alarms das Verfahren produziert, umso höher ist der Wert <strong>für</strong> die Precision. Es ist sehr wichtig<br />

beide Metriken zu berechnen, wie folgendes Beispiel zeigt: Ein Segmentierungsverfahren findet<br />

alle Satzanfänge und identifiziert alle Sätze als Topic Beginnings. Es erreicht damit einen Recall<br />

<br />

¢ ¢§¤<br />

von ; allerdings ist dann die Precision sehr niedrig, da auch Satzanfänge gefunden werden,<br />

die nicht einer Segmentgrenze entsprechen. Findet das Verfahren nur genau ein tatsächliches<br />

Topic Beginning und erzeugt keine False Alarms, so erhält man zwar eine Precision <br />

¢£¢§¤<br />

von ,<br />

jedoch einen sehr niedrigen Recall.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!