DIPLOMARBEIT

Weitere Magazine

Empfehlungen

Info

2.3 Spracherkennung 2.3.4.4 Linguistische Modellierung Mit Hilfe der linguistischen Modellierung soll die Wahrscheinlichkeit für das Auftreten einer be‐ stimmten Satzhypothese berechnet werden. Diese lässt sich berechnen, indem man das Produkt der bedingten Wahrscheinlichkeiten aller im Satz enthaltenen Wörter bildet. Die Wahrscheinlichkeit für das Auftreten eines einzelnen Wortes ist dabei immer von allen vorhergegangenen Wörtern abhän‐ gig. Da es jedoch sehr viele unterschiedliche Folgen von Vorgängerworten geben kann, werden zur Vereinfachung nur die beiden letzten betrachtet. Die so erhaltene Gruppe aus drei Wörtern wird als Trigramm bezeichnet. Die Wahrscheinlichkeiten für das Auftreten der Trigramme wird in einem vorher separat durchge‐ führten Training ermittelt. Hier ist es wichtig, einen großen Textkorpus zu verwenden, der für das spätere Anwendungsgebiet typisch ist. Da nicht jedes mögliche Trigramm im Trainingstext vorkom‐ men kann, wird auch auf die Wahrscheinlichkeiten für das Auftreten von Wortpaaren (Bigrammen) und Einzelwörtern (Unigrammmen) zurückgegriffen. 2.3.4.5 Die Suche 26 Ich rufe an 80 von neun bis 77 Anfang nächster Woche 69 Ihnen das recht 67 lassen Sie uns 61 am Freutag den 59 am Dienstag den 59 wenn Ihnen das 58 rufe an wegen 58 ich weiß nicht 54 am Mittwoch den 54 am Donnerstag den 53 halten wir das 52 wäre Ihnen das 52 oder Anfang nächster 50 ich freue mich 49 es geht um 49 wenn es Ihnen 49 von mir aus 44 paßt es Ihnen 44 Tabelle 8: Trigramm‐Häufigkeiten in einem Beispieltext Das Ziel der Suche ist es, diejenige Wortfolge zu ermitteln, für die das Produkt aus akustischer und linguistischer Wahrscheinlichkeit am größten ist. Es können natürlich nicht alle möglichen Wortfolgen betrachtet werden, da der Aufwand dabei zu gigantisch wäre. Zudem sind bei der Erkennung sowohl die Wörter als auch die Wortgrenzen unbekannt. Der folgende Algorithmus führt die Optimierung über diese beiden Arten von Unbekannten in einem Schritt durch.
2.3 Spracherkennung Zunächst wird ein dreidimensionales Gitter aufgespannt. Die erste Achse entspricht dabei der Zeit‐ achse. Auf der zweiten Achse liegen die Zustandsketten der einzelnen Wörter und auf der dritten Achse befinden sich die zugehörigen Wortindizes. Innerhalb der Wörter sind nur die Transitionen der Hidden‐Markov‐Modelle erlaubt. An den Wortenden existieren Transitionen zu den Anfängen weite‐ rer Wörter. Diese Übergänge werden mit Hilfe des Sprachmodells bewertet. Die Aufgabe der Suche liegt nun darin, den 'besten' Pfad durch das Gitter zu finden und somit über Wortgrenzen und Wörter zu optimieren. Für die Reduzierung des Aufwandes ist es wichtig, dass un‐ wahrscheinliche Pfade relativ früh verworfen werden. Abbildung 10: Worthypothesengraph Der wahrscheinlichste Pfad, der bei der Suche ermittelt worden ist, entspricht dem erkannten Satz. 2.3.5 Schwierigkeiten Obwohl im Bereich der Spracherkennung etliche Fortschritte gemacht wurden, ist eine komplett fehlerfreie Erkennung bisher noch nicht möglich. Folgende Umstände wirken sich erschwerend auf die Erkennung aus [Hab98]: • Die Aussprache eines Lautes kann von einer Äußerung zur anderen stark variieren, selbst beim gleichen Wort und Sprecher. • In der Sprechgeschwindigkeit treten starke Schwankungen auf. • Die akustische Realisierung eines Lautes hängt im Allgemeinen von den vorangegangenen und den nachfolgenden Lauten ab. Dieser Effekt wird auch als Koartikulation bezeichnet. • Im kontinuierlichen Redefluss gibt es keine deutlichen Laut‐ und Wortgrenzen. • In der praktischen Anwendung treten häufig Störungen auf, wie z.B. Hintergrundgeräusche (Bürolärm, Fahrgeräusche) oder Rauschen (Telefonleitung). • Gesprochene Äußerungen sind nicht immer grammatikalisch korrekt, d. h. Satzhypothesen, die grammatikalisch keinen Sinn ergeben, können nicht ausgeschlossen werden. 27
Seite 1 und 2: DIPLOMARBEIT Fachgebiet der Diploma
Seite 3 und 4: Inhaltsverzeichnis Inhaltsverzeichn
Seite 5 und 6: Inhaltsverzeichnis 3.2.2.2 Die wich
Seite 7 und 8: 1 Aufgabenstellung 1 Aufgabenstellu
Seite 9 und 10: 2.1 Voice‐over‐IP 2 Grundlagen
Seite 11 und 12: 2.1 Voice‐over‐IP Adresse in de
Seite 13 und 14: 2.1 Voice‐over‐IP 2.1.5 Problem
Seite 15 und 16: 2.1 Voice‐over‐IP Nachteile Tei
Seite 17 und 18: 2.2 Session Initiation Protocol (SI
Seite 19 und 20: 2.2 Session Initiation Protocol (SI
Seite 21 und 22: 2.3 Spracherkennung 2.3.3 Anwendung
Seite 23 und 24: 2.3 Spracherkennung 2.3.4.2 Signala
Seite 25: 2.3 Spracherkennung Ein Phonem‐Mo
Seite 29 und 30: 2.4 Sprachsynthese Die Entwicklung
Seite 31 und 32: 2.4 Sprachsynthese Ziel‐Prosodie
Seite 33 und 34: 2.5 VoiceXML 2.5.4 Weitere VoiceXML
Seite 35 und 36: 3.1 Rahmenbedingungen 3 Implementie
Seite 37 und 38: 3.2 Vorstellung der Komponenten Das
Seite 39 und 40: 3.2 Vorstellung der Komponenten Bei
Seite 41 und 42: 3.2 Vorstellung der Komponenten 3.2
Seite 43 und 44: 3.2 Vorstellung der Komponenten 3.
Seite 45 und 46: 3.2 Vorstellung der Komponenten 3.2
Seite 47 und 48: 3.3 Vorbereitungen Die Archivdatei
Seite 49 und 50: 3.3 Vorbereitungen Im Dialog System
Seite 51 und 52: 3.3 Vorbereitungen Auf dem Entwickl
Seite 53 und 54: 3.3 Vorbereitungen Abbildung 33: Im
Seite 55 und 56: 3.3 Vorbereitungen Abbildung 36: Au
Seite 57 und 58: 3.3 Vorbereitungen Nun kann der Que
Seite 59 und 60: 3.3 Vorbereitungen Abbildung 40: Ei
Seite 61 und 62: 3.4 Verbinden der Komponenten Als n
Seite 63 und 64: 3.4 Verbinden der Komponenten 3.4.1
Seite 65 und 66: 3.4 Verbinden der Komponenten 3.4.1
Seite 67 und 68: 3.4 Verbinden der Komponenten numBy
Seite 69 und 70: 3.4 Verbinden der Komponenten // nu
Seite 71 und 72: 3.4 Verbinden der Komponenten Die I
Seite 73 und 74: 3.4 Verbinden der Komponenten Die A
Seite 75 und 76: 3.4 Verbinden der Komponenten Abbil
Seite 77 und 78:
3.4 Verbinden der Komponenten Nach
Seite 79 und 80:
3.5 Anpassung Wort‐basierte Erken
Seite 81 und 82:
3.5 Anpassung Drückt der Benutzer
Seite 83 und 84:
3.5 Anpassung Ist eine DTMF‐Erken
Seite 85 und 86:
3.6 Erstellen eines Beispieldialogs
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
Seite 101 und 102:
Seite 103 und 104:
4 Zusammenfassung Die Ursache dafü
Seite 105 und 106:
5 Verbesserungsmöglichkeiten Mehrb
Seite 107 und 108:
6 Literaturverzeichnis [Spr08] —.
Seite 109 und 110:
7 Abbildungsverzeichnis 7 Abbildung
Seite 111 und 112:
Anhang Anhang A Inhalt der CD Die n
Alle anzeigen

DIPLOMARBEIT

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?