Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.1. EINLEITUNG 13<br />
1.1.2 Arbeiten mit ähnlichem Thema<br />
Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen<br />
Zielen:<br />
Suche nach bestimmten Wörtern in Audio-Dokumenten.<br />
Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es<br />
im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von<br />
sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition)<br />
werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann<br />
anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt,<br />
Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen<br />
durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen<br />
(HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter<br />
werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den<br />
trainierten HMMs existieren effiziente <strong>Algorithmen</strong>, um die wahrscheinlichste Modell-<br />
Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die<br />
begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis<br />
¡£¢£¤<br />
über<br />
reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei<br />
sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt,<br />
daß Text-Transkriptionen sehr hilfreich <strong>für</strong> die Informationssuche sein können, auch wenn<br />
Erkennungsraten von nur ¥<br />
¢ –¦<br />
¢§¤<br />
erreicht werden [14].<br />
Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht<br />
man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen<br />
Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov-<br />
Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt.<br />
Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise<br />
in Stille, Sprache, Musik und sonstige Geräusche.<br />
Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter<br />
anderem Sprecheridentifikation [19], Szenenklassifikation <strong>für</strong> das Video-Indexing [21][25]<br />
[33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der<br />
Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise<br />
Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften<br />
werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen<br />
werden.<br />
Story Segmentation / Topic Detection / Topic Tracking.<br />
Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens<br />
neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein<br />
Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten.<br />
Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research<br />
Projects Agency), NSF (National Science Foundation) und NIST (National <strong>Institut</strong>e