Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.2. ZIEL DIESER DIPLOMARBEIT 15<br />
Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen<br />
von Informatik-Vorlesungen (siehe Kapitel 1.4).<br />
Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man<br />
ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren,<br />
daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der<br />
Dozent liest die Transkription durch und markiert die Stellen im Text, die er <strong>für</strong> einen Anfang<br />
eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben.<br />
Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der<br />
Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu<br />
navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis<br />
anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle<br />
in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile:<br />
Es muß eine Text-Transkription der Aufzeichnung erstellt werden.<br />
Die Transkription muß (manuell) gegliedert werden.<br />
Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden.<br />
Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung<br />
automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst<br />
genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben<br />
würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch<br />
die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich<br />
der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt<br />
sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet.<br />
Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität<br />
des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem<br />
erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen<br />
Gliederung ist ein offenes Problem.<br />
Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das<br />
gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen.<br />
Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst<br />
nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten<br />
eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise<br />
aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden,<br />
diese mit der Gliederung der Audio-Datei abzugleichen.<br />
In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl<br />
von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen<br />
Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig<br />
trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren