28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1.2. ZIEL DIESER DIPLOMARBEIT 15<br />

Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen<br />

von Informatik-Vorlesungen (siehe Kapitel 1.4).<br />

Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man<br />

ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren,<br />

daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der<br />

Dozent liest die Transkription durch und markiert die Stellen im Text, die er <strong>für</strong> einen Anfang<br />

eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben.<br />

Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der<br />

Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu<br />

navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis<br />

anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle<br />

in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile:<br />

Es muß eine Text-Transkription der Aufzeichnung erstellt werden.<br />

Die Transkription muß (manuell) gegliedert werden.<br />

Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden.<br />

Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung<br />

automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst<br />

genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben<br />

würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch<br />

die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich<br />

der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt<br />

sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet.<br />

Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität<br />

des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem<br />

erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen<br />

Gliederung ist ein offenes Problem.<br />

Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das<br />

gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen.<br />

Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst<br />

nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten<br />

eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise<br />

aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden,<br />

diese mit der Gliederung der Audio-Datei abzugleichen.<br />

In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl<br />

von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen<br />

Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig<br />

trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!