DIPLOMARBEIT

Weitere Magazine

Empfehlungen

Info

2.3 Spracherkennung 2.3.4.3 Akustische Modellierung Mit Hilfe der akustischen Modellierung kann einer Folge von Merkmalsvektoren ein bestimmtes Wort aus dem Vokabular zugeordnet werden. Dies geschieht in zwei Schritten. Der erste Schritt ist, die Wörter des Vokabulars als eine Abfolge von Phonemen zu beschreiben. Un‐ ter Phonemen versteht man dabei die kleinsten bedeutungsunterscheidenden Lautelemente einer Sprache. Im Deutschen sind etwa die Laute, die in Lautschrift mit [d] und [t] notiert werden und zwi‐ schen der Bedeutung von `Dorf´ und `Torf´ unterscheiden, Phoneme. Ein Spracherkennungssystem für die deutsche Sprache benutzt in der Regel zirka 40 derartiger Phoneme. Für diesen Zweck kommt ein Aussprachelexikon zum Einsatz. Dort ist jedem Wort eine Phonem‐Folge zugeordnet, die der Standardaussprache entspricht (vergleichbar mit der Lautschrift im Duden). Da bei einem großen Vokabular der Suchvorgang nach einer passenden Phonem‐Folge sehr aufwän‐ dig sein kann, wird dort das Aussprachelexikon als Baum organisiert. Dabei werden Wörter, die mit der gleichen Phonem‐Kette beginnen, zu Gruppen zusammengefasst. An den Blättern des Baumes stehen die Wörter des Lexikons und der Pfad vom Stamm zu einem Blatt entspricht der Phonem‐ Kette eines Wortes. Durch die Anordnung als Baum wird der Aufwand für den Suchvorgang gegenü‐ ber der linearen Anordnung etwa um den Faktor 1,5 bis 6 reduziert. 24 Abbildung 8: Beispiel für ein Aussprachelexikon mit Baumstruktur Der zweite Schritt besteht darin, die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren für die einzelnen Phoneme zu modellieren. Die Sprechgeschwindigkeit kann mitunter sehr stark schwanken, deshalb wird ein Modell benötigt, das diese Schwankungen berücksichtigt. Hier kommen die soge‐ nannten Hidden Markov Modelle zum Einsatz. „Das Verborgene Markow‐Modell (VMM, engl. Hidden Markov Model, HMM), benannt nach dem russischen Mathematiker Andrei Andrejewitsch Markow, ist ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow‐Kette, die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (sie sind verborgen, hidden). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsab‐ hängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Aus‐ gabesymbole auf die Sequenz der verborgenen Zustände zu schließen.“ [Wik081] Jedes Phonem wird dabei durch ein Hidden‐Markov‐Modell repräsentiert, wodurch sich der zeitliche Ablauf des Auftretens bestimmter Merkmale selbst innerhalb einzelner Phoneme optimal modellie‐ ren lässt.
2.3 Spracherkennung Ein Phonem‐Modell besteht aus mehreren Zuständen. Jeder Zustand ist verknüpft mit einer soge‐ nannten Emissionsverteilung für die Merkmalsvektoren und mit Transitionswahrscheinlichkeiten für die drei möglichen Übergänge. Mit den Emissionsverteilungen wird einem Merkmalsvektor eine Wahrscheinlichkeit zugeordnet, mit der er im zugehörigen Zustand beobachtet wird. Die Parameter der Emissionsverteilungen werden in einer Trainingsphase anhand von umfangreichen Trainingsda‐ ten geschätzt. Durch die drei möglichen Übergänge zwischen den Zuständen lässt sich die Variation der Sprechge‐ schwindigkeit modellieren. Der direkte Übergang zum Nachfolgezustand entspricht einer normalen Sprechgeschwindigkeit, das Wiederholen eines Zustandes drückt eine langsamere Geschwindigkeit aus und das Überspringen von Zuständen eine schnellere. Abbildung 9: Variation der Sprechgeschwindigkeit bei Hidden Markov Modellen Die Übergänge der Hidden Markov Modelle und die Abfolge der Merkmalsvektoren werden schließ‐ lich zu einer Gitterstruktur kombiniert. Es ist derjenige Pfad durch das Gitter zu finden, der das Pro‐ dukt aus den zugehörigen Emissions‐ und Transitionswahrscheinlichkeiten maximiert. Das erhaltene Produkt entspricht dann der akustischen Wahrscheinlichkeit des Wortes. 25
Seite 1 und 2: DIPLOMARBEIT Fachgebiet der Diploma
Seite 3 und 4: Inhaltsverzeichnis Inhaltsverzeichn
Seite 5 und 6: Inhaltsverzeichnis 3.2.2.2 Die wich
Seite 7 und 8: 1 Aufgabenstellung 1 Aufgabenstellu
Seite 9 und 10: 2.1 Voice‐over‐IP 2 Grundlagen
Seite 11 und 12: 2.1 Voice‐over‐IP Adresse in de
Seite 13 und 14: 2.1 Voice‐over‐IP 2.1.5 Problem
Seite 15 und 16: 2.1 Voice‐over‐IP Nachteile Tei
Seite 17 und 18: 2.2 Session Initiation Protocol (SI
Seite 19 und 20: 2.2 Session Initiation Protocol (SI
Seite 21 und 22: 2.3 Spracherkennung 2.3.3 Anwendung
Seite 23: 2.3 Spracherkennung 2.3.4.2 Signala
Seite 27 und 28: 2.3 Spracherkennung Zunächst wird
Seite 29 und 30: 2.4 Sprachsynthese Die Entwicklung
Seite 31 und 32: 2.4 Sprachsynthese Ziel‐Prosodie
Seite 33 und 34: 2.5 VoiceXML 2.5.4 Weitere VoiceXML
Seite 35 und 36: 3.1 Rahmenbedingungen 3 Implementie
Seite 37 und 38: 3.2 Vorstellung der Komponenten Das
Seite 39 und 40: 3.2 Vorstellung der Komponenten Bei
Seite 41 und 42: 3.2 Vorstellung der Komponenten 3.2
Seite 43 und 44: 3.2 Vorstellung der Komponenten 3.
Seite 45 und 46: 3.2 Vorstellung der Komponenten 3.2
Seite 47 und 48: 3.3 Vorbereitungen Die Archivdatei
Seite 49 und 50: 3.3 Vorbereitungen Im Dialog System
Seite 51 und 52: 3.3 Vorbereitungen Auf dem Entwickl
Seite 53 und 54: 3.3 Vorbereitungen Abbildung 33: Im
Seite 55 und 56: 3.3 Vorbereitungen Abbildung 36: Au
Seite 57 und 58: 3.3 Vorbereitungen Nun kann der Que
Seite 59 und 60: 3.3 Vorbereitungen Abbildung 40: Ei
Seite 61 und 62: 3.4 Verbinden der Komponenten Als n
Seite 63 und 64: 3.4 Verbinden der Komponenten 3.4.1
Seite 65 und 66: 3.4 Verbinden der Komponenten 3.4.1
Seite 67 und 68: 3.4 Verbinden der Komponenten numBy
Seite 69 und 70: 3.4 Verbinden der Komponenten // nu
Seite 71 und 72: 3.4 Verbinden der Komponenten Die I
Seite 73 und 74: 3.4 Verbinden der Komponenten Die A
Seite 75 und 76:
3.4 Verbinden der Komponenten Abbil
Seite 77 und 78:
3.4 Verbinden der Komponenten Nach
Seite 79 und 80:
3.5 Anpassung Wort‐basierte Erken
Seite 81 und 82:
3.5 Anpassung Drückt der Benutzer
Seite 83 und 84:
3.5 Anpassung Ist eine DTMF‐Erken
Seite 85 und 86:
3.6 Erstellen eines Beispieldialogs
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
Seite 101 und 102:
Seite 103 und 104:
4 Zusammenfassung Die Ursache dafü
Seite 105 und 106:
5 Verbesserungsmöglichkeiten Mehrb
Seite 107 und 108:
6 Literaturverzeichnis [Spr08] —.
Seite 109 und 110:
7 Abbildungsverzeichnis 7 Abbildung
Seite 111 und 112:
Anhang Anhang A Inhalt der CD Die n
Alle anzeigen

DIPLOMARBEIT

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?