28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1.1. EINLEITUNG 13<br />

1.1.2 Arbeiten mit ähnlichem Thema<br />

Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen<br />

Zielen:<br />

Suche nach bestimmten Wörtern in Audio-Dokumenten.<br />

Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es<br />

im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von<br />

sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition)<br />

werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann<br />

anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt,<br />

Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen<br />

durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen<br />

(HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter<br />

werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den<br />

trainierten HMMs existieren effiziente <strong>Algorithmen</strong>, um die wahrscheinlichste Modell-<br />

Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die<br />

begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis<br />

¡£¢£¤<br />

über<br />

reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei<br />

sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt,<br />

daß Text-Transkriptionen sehr hilfreich <strong>für</strong> die Informationssuche sein können, auch wenn<br />

Erkennungsraten von nur ¥<br />

¢ –¦<br />

¢§¤<br />

erreicht werden [14].<br />

Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht<br />

man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen<br />

Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov-<br />

Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt.<br />

Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise<br />

in Stille, Sprache, Musik und sonstige Geräusche.<br />

Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter<br />

anderem Sprecheridentifikation [19], Szenenklassifikation <strong>für</strong> das Video-Indexing [21][25]<br />

[33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der<br />

Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise<br />

Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften<br />

werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen<br />

werden.<br />

Story Segmentation / Topic Detection / Topic Tracking.<br />

Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens<br />

neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein<br />

Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten.<br />

Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research<br />

Projects Agency), NSF (National Science Foundation) und NIST (National <strong>Institut</strong>e

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!