Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

12 KAPITEL 1. EINLEITUNG, MOTIVATION Anwendungsgebiet gibt es mächtige Algorithmen, die aber für die Suche in Audio-Dateien und Multimedia-Dokumenten im allgemeinen nicht anwendbar sind. Des weiteren könnte versuchen werden, die untersuchte Audio-Datei anhand der oben genannten Indizien zu segmentieren, so daß beispielweise ein schnelles Navigieren innerhalb des Dokuments erleichtert wird. Diese einleitenden Worte verdeutlichen, aus welchen Begriffen sich der Titel dieser Arbeit zusammensetzt und in welchem Kontext sie zu sehen sind. 1.1 Einleitung 1.1.1 Das Problem: Suche in Audio-Dateien Das Problem der Suche in Audio-Dateien ist jedem bekannt, der einen Anrufbeantworter sein Eigen nennt. Wurde er eine längere Zeit nicht abgehört, so finden sich (möglicherweise) eine Vielzahl von Nachrichten auf dem Band. Viele davon sind unwichtig. Trotzdem müssen alle Nachrichten angehört werden und wenn man Pech hat, ist erst die letzte Nachricht auf dem Band die einzig wichtige. Angenehm wäre eine Art Suchmaschine, wie sie es für Textdokumente im WWW gibt. Dies ist Ziel verschiedener Forschungsarbeiten, auf die im nächsten Abschnitt kurz eingegangen wird. Das klassische Informationssuche-Problem besteht in der Auffindung eines Textdokuments, indem eine Suchanfrage, bestehend aus einem oder mehreren Schlüsselwörtern, an eine Menge von Textdokumenten gestellt wird. In der Regel werden die relevanten Dokumente dadurch gefunden, daß die Schlüsselwörter innerhalb dieser Textdokumente lokalisiert werden. Ein Dokument, in dem die Schlüsselwörter häufiger vorkommen als in anderen Dokumenten, wird dann als relevanter angesehen. Die Textdokumente können dem Benutzer daraufhin bezüglich ihrer Relevanz sortiert präsentiert werden. Die Informationssuche-Algorithmen für Textdokumente basieren auf Pattern-Matching. Wenn man davon ausgeht, daß es keine Text- Transkription einer Sprachdatei 2 durch ein Spracherkennungssystem gibt, so läßt sich der Pattern- Matching-Ansatz nicht so einfach auf diese Art von Dateien übertragen. Dies liegt am Fehlen von identifizierbaren Wörtern oder vergleichbaren Einheiten in der Sprachdatei. Noch schwieriger wird das Problem, wenn die Audio-Dateien außer Sprache beispielsweise Musik enthalten. Bislang wurde die Verarbeitung und die Problematik von Suchanfragen betrachtet. Auch das Navigieren und das schnelle Browsen in Audio-Dateien ist ungleich problematischer als in reinen Text-Dateien. Audio-Dateien müssen vollständig durchgehört werden, wenn man sicher gehen will, daß alle wichtigen Informationen gefunden werden. Dies liegt an der Linearität von Audioströmen. Allerdings benötigt das Abhören von Audio-Dateien unter Umständen sehr viel Zeit. Die Text-Transkription einer minutenlangen Nachricht kann hingegen mit dem Auge in wenigen Sekunden überflogen werden. 2 Der Begriff Sprachdatei steht für eine Audio-Datei, die nur Sprache enthält.
1.1. EINLEITUNG 13 1.1.2 Arbeiten mit ähnlichem Thema Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen Zielen: Suche nach bestimmten Wörtern in Audio-Dokumenten. Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition) werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt, Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen (HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den trainierten HMMs existieren effiziente Algorithmen, um die wahrscheinlichste Modell- Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis ¡£¢£¤ über reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt, daß Text-Transkriptionen sehr hilfreich für die Informationssuche sein können, auch wenn Erkennungsraten von nur ¥ ¢ –¦ ¢§¤ erreicht werden [14]. Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov- Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt. Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise in Stille, Sprache, Musik und sonstige Geräusche. Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter anderem Sprecheridentifikation [19], Szenenklassifikation für das Video-Indexing [21][25] [33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen werden. Story Segmentation / Topic Detection / Topic Tracking. Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten. Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research Projects Agency), NSF (National Science Foundation) und NIST (National Institute
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 14 und 15: 14 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 62 und 63:
62 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 64 und 65:
Seite 66 und 67:
Seite 68 und 69:
Seite 70 und 71:
Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73:
72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89:
88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91:
90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93:
92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95:
94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97:
96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99:
98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101:
100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?