Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

14 KAPITEL 1. EINLEITUNG, MOTIVATION ¡ ¡ ¢¡¢¡¢ ¢¡¢¡¢ ¡ ¡ Story Segmentation disjunkte, homogene Bereiche (Stories) Topic Identification neues Ereignis Topic Tracking £¡£¡£ ¤¡¤¡¤ ¥¡¥¡¥ ¦¡¦ §¡§ ¦¡¦ §¡§ ¨¡¨ ¨¡¨ ¥¡¥¡¥ ¤¡¤¡¤ £¡£¡£ mehr Stories zum vorhergehenden Ereignis Abbildung 1.1: Story Segmentation, Topic Detection und Topic Tracking of Standards and Technology) unterstützt. Hierbei gibt es drei verschiedene Aufgaben zu lösen [10][37] (vergleiche Abbildung 1.1): Story Segmentation Der Datenstrom muß in einzelne Stories zerlegt werden und kann sowohl ein Audiosignal als auch ein Textdokument sein. Im Falle eines Audiostroms kann die Segmentierung direkt auf dem Signal ausgeführt werden, sie kann aber auch über eine Text-Transkription ermittelt werden. Topic Identification Die Topic Identification-Aufgabe ist definiert als die Aufgabe der Erkennung und Weiterverfolgung von Topics, die dem System noch nicht bekannt sind. Das System hat noch kein Wissen darüber, was das Topic ist. Es muß also ein Verständnis davon haben, was ein Topic ausmacht und dieses Verständnis muß unabhängig von spezifischen Topics sein. Topic Tracking Neue Stories müssen bekannten Topics zugeordnet werden. Ein Topic ist bekannt durch die Assoziationen mit Stories, die dieses Topic diskutieren. Die Aufgabe besteht also in der Klassifikation aller neuen Stories, dahingehend ob sie ein bekanntes Topic diskutieren oder nicht. Es existieren zudem Systeme, die die angesprochenen Teilgebiete vereinen. Hierzu gehören das in den AT&T-Labs entwickelte Sprach-Retrieval-System SCAN (Spoken Content-Based Audio Navigation) [8] und MAESTRO (Multimedia Annotation and Enhancement via a Synergy of Technologies and Reviewing Operators) [29]. 1.2 Ziel dieser Diplomarbeit Im vorangehenden Abschnitt wurden verschiedene Möglichkeiten zur Informationssuche in Audio-Dokumenten vorgestellt. Die vorliegende Diplomarbeit beschäftigt sich mit der
1.2. ZIEL DIESER DIPLOMARBEIT 15 Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen von Informatik-Vorlesungen (siehe Kapitel 1.4). Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren, daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der Dozent liest die Transkription durch und markiert die Stellen im Text, die er <strong>für</strong> einen Anfang eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben. Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile: Es muß eine Text-Transkription der Aufzeichnung erstellt werden. Die Transkription muß (manuell) gegliedert werden. Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden. Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet. Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen Gliederung ist ein offenes Problem. Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen. Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden, diese mit der Gliederung der Audio-Datei abzugleichen. In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13: 12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 64 und 65:
64 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 66 und 67:
Seite 68 und 69:
Seite 70 und 71:
Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73:
72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89:
88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91:
90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93:
92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95:
94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97:
96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99:
98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101:
100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?