Sprachliche Mensch-Maschine-Kommunikation
Sprachliche Mensch-Maschine-Kommunikation
Sprachliche Mensch-Maschine-Kommunikation
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Ivica Rogina<br />
<strong>Sprachliche</strong><br />
<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong><br />
25. Februar 2005<br />
xxxxxxxx-Verlag<br />
yyyyyyyy yyyyyyyyyyyyyyyy<br />
zzzzzzzz zzzzzzzz zzzzzzzz<br />
aaaaaaaa
Vorwort<br />
Dieses Buch ist ein Lehrbuch, das sich vor allem an Studierende richtet,<br />
die die Methoden der sprachlichen <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong> kennen<br />
lernen wollen. Es dient seit einigen Jahren als Skriptum zur gleichnamigen<br />
Vorlesung an der Universität Karlsruhe. Über den eigentlichen Lesestoff zur<br />
Einführung in die Spracherkennung hinaus enthält es eine Sammlung von<br />
Java Applets anhand derer wichtige Schritte im Prozeß der Entwicklung<br />
eines Spracherkenners nachvollzogen werden können. Es wurde Java gewählt,<br />
weil dieses auf den meisten Computern unverändert einsetzbar ist, und es<br />
erlaubt, die beiliegenden Programme auf einem beliebigen Rechner mit einem<br />
aktuellen Java-fähigen WWW-Browser – selbst über eine Internetverbindung<br />
– auszuführen und die Experimente durchzuführen.<br />
Die Kapitel sind so angeordnet, daß die Themen in etwa in der Reihenfolge<br />
behandelt werden, wie sie von jemandem angegangen würden,<br />
der ohne einschlägige Vorerfahrungen einen Spracherkenner entwickelt.<br />
So ist zum Beispiel der Themenbereich der akustischen Modellierung in<br />
mehrere Kapitel eingeteilt, weil die Verwendung von kontextabhängigen<br />
Modellen nicht benötigt wird, um die restlichen Verfahren der kontinuierlichen<br />
Spracherkennung zu bearbeiten. So sind dann auch zwischen der<br />
Einführung des akustischen Modells und dem Kapitel über kontextabhängige<br />
Modellierung Kapitel über einfache Suchalgorithmen und die Verwendung<br />
von Sprachmodellen eingefügt. Entsprechend ist die Thematik der Suchalgorithmen<br />
unterteilt in einen ersten Teil, der benötigt wird, um überhaupt<br />
kontinuierliche Sprache zu erkennen, und einige Kapitel später einen Teil,<br />
der sich mit den elaborierteren Algorithmen zu diesem Thema befaßt. Dies<br />
ist bewußt so gehalten, da nicht der Anspruch erhoben wird, ein umfassendes<br />
Nachschlagewerk für den aktiven Forscher bereitzustellen, sondern<br />
vielmehr ein Buch, das den Interessierten beim Einstieg in das inzwischen<br />
sehr umfangreiche Gebiet begleitet. Die zwangsläufig nötige Auswahl der<br />
Teilgebiete wurde vor allem unter Berücksichtigung der am Lehrstuhl von<br />
Prof. Waibel durchgeführten Projekte vorgenommen.<br />
Neben der Einführung in die Spracherkennung beschreiben die beiden<br />
letzten Kapitel Forschungsarbeiten des Autors, die nach seiner Promotion an<br />
den Interactive Systems Labs des Lehrstuhls von Prof. Waibel an der Fakultät<br />
für Informatik der Universität Karlsruhe durchgeführt wurden.
Inhaltsverzeichnis<br />
Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX<br />
Verzeichnis der Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI<br />
1. Nutzen und Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />
1.1 Vorteile und Nachteile der Sprache als Eingabemodus . . . . . . . 2<br />
1.2 Anwendungsbeispiele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.2.1 Diktieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.2.2 Steuerung von Geräten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
1.2.3 Sprach-zu-Sprach-Übersetzung . . . . . . . . . . . . . . . . . . . . . 7<br />
1.2.4 Hilfe für Behinderte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
1.2.5 Indexierung akustischer Dokumente. . . . . . . . . . . . . . . . . 8<br />
1.2.6 Sprecheridentifikation und Authentifikation . . . . . . . . . . 9<br />
1.2.7 Identifikation von Sprachen . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.2.8 Unterhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.2.9 Hilfe beim Lesen und Sprechen Lernen . . . . . . . . . . . . . . 11<br />
1.2.10 Erkennung im fahrenden Fahrzeug . . . . . . . . . . . . . . . . . . 11<br />
1.2.11 Persönliche Digitale Assistenten (PDAs). . . . . . . . . . . . . 13<br />
1.2.12 Mobile Informationssysteme . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.2.13 Das Heim-Multimedia-Terminal im Intelligenten Raum 14<br />
1.2.14 Ein provokativer Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.1 Sprecherabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.2 Kontinuierlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.3 Spontaneität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.3.1 Grammatikalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.3.2 Wortabbrüche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.3.3 Deutlichkeit der Aussprache . . . . . . . . . . . . . . . . . . . . . . . 21<br />
2.3.4 Betonte und unbetonte Pausen . . . . . . . . . . . . . . . . . . . . . 21<br />
2.3.5 Wiederholungen und Stottern . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.3.6 Artikulatorische Geräusche . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.3.7 Varianz der Sprechgeschwindigkeit . . . . . . . . . . . . . . . . . . 23
VIII Inhaltsverzeichnis<br />
2.4 Erkennungsszenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.5 Perplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.6 Die Signalqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.6.1 Nahbesprechungsmikrophone. . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.6.2 Telefongespräche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.6.3 Hintergrundgeräusche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
2.7 Das Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.8 <strong>Kommunikation</strong>sart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.9 Wie schwierig ist Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . 30<br />
3. Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
3.1 Geschichte der (D)ARPA Evaluationen . . . . . . . . . . . . . . . . . . . . 36<br />
4. Anatomie Sprachproduktion und Perzeption . . . . . . . . . . . . . 41<br />
4.1 Anatomie des Artikulationsapparates . . . . . . . . . . . . . . . . . . . . . 42<br />
4.1.1 Bestandteile des Artikulationsapparates . . . . . . . . . . . . . 43<br />
4.1.2 Der Prozeß der Sprachproduktion . . . . . . . . . . . . . . . . . . 45<br />
4.1.3 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
4.1.4 Modelle des Vokaltraktes . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />
4.2 Anatomie des Gehörs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />
5. Akustische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
5.1 Was ist Schall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
5.2 Messung der Schallintensität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />
6. Phonetische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
6.1 Lautliche Einheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
6.2 Die IPA Lautemenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
6.3 Gruppierung von Phonemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
6.3.1 Vokale und Konsonanten . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
6.3.2 Artikulationsarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
6.3.3 Artikulationsorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
6.3.4 Besondere Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />
7. Grundlagen der Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . 77<br />
7.1 Analog/Digital Wandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />
7.2 Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
7.2.1 Die Dirac Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />
7.2.2 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
7.2.3 Impulsantwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />
7.3 Fourieranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />
7.4 Die diskrete Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . 99<br />
7.5 Codierung akustischer Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Inhaltsverzeichnis IX<br />
8. Verarbeitung von Sprachsignalen . . . . . . . . . . . . . . . . . . . . . . . . 105<br />
8.1 Eigenschaften des Signals im Zeitbereich . . . . . . . . . . . . . . . . . . 105<br />
8.1.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
8.1.2 Nulldurchgangsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
8.1.3 Energie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
8.2 Spektralranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />
8.2.1 Langzeitspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />
8.2.2 Kurzzeitspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110<br />
8.2.3 Spektrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
8.2.4 Filterbänke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />
8.3 Cepstralanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119<br />
8.4 Codierung durch Lineare Vorhersage . . . . . . . . . . . . . . . . . . . . . . 121<br />
8.5 Einfache Signalnormalisierungen . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />
8.5.1 Offsetnachführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />
8.5.2 Mittelwertssubtraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />
8.6 Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />
9. Klassifikation und Mustererkennung . . . . . . . . . . . . . . . . . . . . . 127<br />
9.1 Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />
9.1.1 Deterministische und stochastische Klassifikatoren . . . . 127<br />
9.1.2 Parametrische und nichtparametrische Schätzer . . . . . . 128<br />
9.1.3 Überwachtes und unüberwachtes Lernen. . . . . . . . . . . . . 128<br />
9.1.4 Neuronale Netze als Klassifikatoren . . . . . . . . . . . . . . . . . 129<br />
9.1.5 Vektor Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129<br />
9.1.6 Codebücher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />
9.1.7 Bayes Klassifikator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />
9.1.8 Gaußklassifikatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />
9.2 Der Expectation Maximization Algorithmus . . . . . . . . . . . . . . . 144<br />
9.3 Diskriminanzoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145<br />
9.3.1 Hauptachsentransformation und Lineare Diskriminanzanalyse<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145<br />
9.3.2 Dimensionalitätsreduktion . . . . . . . . . . . . . . . . . . . . . . . . . 148<br />
10. Erkennung statischer Sprachsignale . . . . . . . . . . . . . . . . . . . . . . 151<br />
10.1 Zeitsignalbasierte Erkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />
10.1.1 Endpunktdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />
10.1.2 Kombination von Merkmalen . . . . . . . . . . . . . . . . . . . . . . 155<br />
10.2 Das Vokaldreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156<br />
10.3 Vergleich von Spektrogrammen . . . . . . . . . . . . . . . . . . . . . . . . . . . 156<br />
11. Erkennung dynamischer Sprachsignale . . . . . . . . . . . . . . . . . . . 159<br />
11.1 Minimale Editierdistanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />
11.2 Dynamisches Programmieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />
11.2.1 Distanz zwischen zwei Sprachsignalen . . . . . . . . . . . . . . 167<br />
11.3 Spracherkennung mittels Dynamic Time Warping . . . . . . . . . . . 169
X Inhaltsverzeichnis<br />
11.3.1 Einschränkungen des Suchraums . . . . . . . . . . . . . . . . . . . 171<br />
11.3.2 Dynamisches Programmieren mit Strahlsuche . . . . . . . 174<br />
12. Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177<br />
12.1 Probleme mit einfachen Mustervergleichern . . . . . . . . . . . . . . . . 177<br />
12.2 Sprache als stochastischer Prozeß . . . . . . . . . . . . . . . . . . . . . . . . . 180<br />
12.3 Der HMM-Formalismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186<br />
12.4 Die drei Probleme der Hidden Markov Modelle . . . . . . . . . . . . . 187<br />
12.4.1 Das Evaluierungsproblem. . . . . . . . . . . . . . . . . . . . . . . . . . 188<br />
12.4.2 Das Dekodierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . 192<br />
12.4.3 Das Optimierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . 194<br />
12.5 Spracherkennung mit Hidden Markov Modellen. . . . . . . . . . . . . 198<br />
12.5.1 Ein einfacher HMM Einzelkommandoerkenner . . . . . . . 199<br />
12.5.2 Abbildung von Wörtern auf Markov Modelle . . . . . . . . . 200<br />
12.5.3 Numerische Probleme in der Praxis . . . . . . . . . . . . . . . . 203<br />
13. Das Trainieren von Spracherkennern . . . . . . . . . . . . . . . . . . . . . 205<br />
13.1 Überblick über den HMM-Entwicklungsprozeß . . . . . . . . . . . . . 205<br />
13.1.1 Initialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205<br />
13.1.2 Iterative Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208<br />
13.2 Aufteilung der Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . 210<br />
13.3 Trainingsparadigmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215<br />
13.3.1 Diskriminatives Trainieren . . . . . . . . . . . . . . . . . . . . . . . . . 216<br />
13.3.2 Trainieren ohne Transkriptionen . . . . . . . . . . . . . . . . . . . 219<br />
13.3.3 Momentum und adaptives Training . . . . . . . . . . . . . . . . . 221<br />
14. Das akustische Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223<br />
14.1 Die Fundamentalformel der Spracherkennung . . . . . . . . . . . . . . 223<br />
14.2 Der Parameterraum des Akustischen Modells . . . . . . . . . . . . . . 224<br />
14.2.1 Emissionswahrscheinlichkeitsmodelle . . . . . . . . . . . . . . . . 224<br />
14.2.2 Kontinuierlichkeitsgrade . . . . . . . . . . . . . . . . . . . . . . . . . . 225<br />
14.3 Mehrere Datenströme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229<br />
14.4 Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231<br />
14.5 Mehrdimensionale Hidden-Markov-Modelle . . . . . . . . . . . . . . . . 233<br />
14.6 Aussprachemodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236<br />
14.6.1 Aussprachelexika und Text-To-Speech Systeme . . . . . . . 236<br />
14.6.2 Neue Wörter einbinden . . . . . . . . . . . . . . . . . . . . . . . . . . . 237<br />
14.6.3 Aussprachevarianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239<br />
14.6.4 Flexible Transkriptionen . . . . . . . . . . . . . . . . . . . . . . . . . . 244<br />
15. Erkennung kontinuierlicher Sprache . . . . . . . . . . . . . . . . . . . . . . 247<br />
15.1 Bewertung von Erkennungshypothesen . . . . . . . . . . . . . . . . . . . . 248<br />
15.2 One Stage Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . 251<br />
15.3 Hidden Markov Modelle für kontinuierliche Sprache . . . . . . . . 256<br />
15.4 Einbindung eines einfachen Sprachmodells . . . . . . . . . . . . . . . . . 258
Inhaltsverzeichnis XI<br />
16. Verwendung von Sprachmodellen . . . . . . . . . . . . . . . . . . . . . . . . 261<br />
16.1 Wozu Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261<br />
16.2 Wahrscheinlichkeiten von Wortfolgen. . . . . . . . . . . . . . . . . . . . . . 262<br />
16.3 N-Gramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265<br />
16.4 Perplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266<br />
16.5 Glättung und Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271<br />
16.5.1 Cutoffs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271<br />
16.5.2 Discounting. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272<br />
16.5.3 Backoff-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272<br />
16.6 Verschiedene weitere Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . 274<br />
16.6.1 Trigger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274<br />
16.6.2 Cache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274<br />
16.6.3 Klassenbasierte Sprachmodelle . . . . . . . . . . . . . . . . . . . . . 275<br />
16.6.4 Spezielle Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 276<br />
16.6.5 Gewichtung von Akustik und Linguistik . . . . . . . . . . . . . 281<br />
16.7 Adaption von Sprachmodellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 282<br />
16.7.1 Auswahl vorberechneter Modelle . . . . . . . . . . . . . . . . . . . 282<br />
16.7.2 Hypothesis driven lexicon adaptation . . . . . . . . . . . . . . . 284<br />
16.7.3 Kompositabildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286<br />
17. Kontextabhängige akustische Modelle . . . . . . . . . . . . . . . . . . . . 289<br />
17.1 Suche nach der optimalen Spracheinheit . . . . . . . . . . . . . . . . . . . 289<br />
17.2 Ballung von Kontexten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297<br />
17.2.1 Optimierungskriterien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297<br />
17.2.2 Ballungsalgorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299<br />
17.2.3 Agglomerative Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 300<br />
17.2.4 Divisive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302<br />
17.2.5 Laufzeitbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309<br />
17.2.6 Einbindung von Modalitätenfragen . . . . . . . . . . . . . . . . . 311<br />
17.3 Wortübergangskontexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312<br />
18. Effiziente Decodierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315<br />
18.1 Decoderarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315<br />
18.2 Beschneidung des Suchraumes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 318<br />
18.3 Baumdarstellung des Such-HMMs . . . . . . . . . . . . . . . . . . . . . . . . 320<br />
18.3.1 Verzögerte Bigramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322<br />
18.4 Sprachmodelle höherer Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 323<br />
18.5 Suche ohne Sprachmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324<br />
18.6 Längenmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325<br />
18.7 Mehrpaßsuchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
XII Inhaltsverzeichnis<br />
19. Parameterraumoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329<br />
19.1 Parameterarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330<br />
19.1.1 Mittelwertsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330<br />
19.1.2 Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331<br />
19.1.3 Mixturgewichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331<br />
19.2 Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331<br />
19.2.1 Kopplung von<br />
Zustandsübergangswahrscheinlichkeiten . . . . . . . . . . . . . 332<br />
19.2.2 Arten der Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . 333<br />
19.3 Architekturentwurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334<br />
19.4 Kompaktifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336<br />
19.4.1 Typen von Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . 336<br />
19.4.2 Vereinfachung von Kovarianztypen . . . . . . . . . . . . . . . . . 339<br />
19.4.3 Selektive Radialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 340<br />
19.4.4 Kopplung von Kovarianzparametern . . . . . . . . . . . . . . . . 342<br />
19.5 Lose gekoppelte Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343<br />
20. Erkennung von Spezialvokabular . . . . . . . . . . . . . . . . . . . . . . . . . 345<br />
20.1 Buchstabiererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345<br />
20.2 Erkennung beliebiger Namen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348<br />
21. Robustheit und Adaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353<br />
21.1 Sprecherabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354<br />
21.2 Spontane Effekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356<br />
21.3 Geräuschmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357<br />
21.4 Adaptionsziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359<br />
21.5 Adaptionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361<br />
21.5.1 MLLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362<br />
21.5.2 Label-Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363<br />
21.5.3 SAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364<br />
21.5.4 MAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365<br />
21.5.5 VTLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366<br />
22. Künstliche Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371<br />
22.1 Probleme reiner HMM-Erkenner . . . . . . . . . . . . . . . . . . . . . . . . . . 372<br />
22.2 Architekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373<br />
22.2.1 Netze zur Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 373<br />
22.2.2 Elman-Netze und Jordan-Netze . . . . . . . . . . . . . . . . . . . . 374<br />
22.2.3 LVQ – Learning Vector Quantization . . . . . . . . . . . . . . . 375<br />
22.2.4 Kohonens selbstorganisierende Karten. . . . . . . . . . . . . . . 377<br />
22.2.5 MS-TDNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379<br />
22.2.6 LPNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382<br />
22.2.7 Hierarchische Mixturen von Experten . . . . . . . . . . . . . . 384
Inhaltsverzeichnis XIII<br />
23. Verstehen von Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389<br />
23.1 Verstehen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . 389<br />
23.2 Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390<br />
23.3 Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394<br />
23.3.1 Grammatische Zerteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . 394<br />
23.3.2 Suchstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395<br />
23.3.3 Repräsentation von Bedeutung . . . . . . . . . . . . . . . . . . . . . 398<br />
23.3.4 Fallschablonenzerteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400<br />
24. Dialogsteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401<br />
24.1 Einheiten der sprachlichen <strong>Kommunikation</strong> . . . . . . . . . . . . . . . . 403<br />
24.2 Sprechakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405<br />
24.3 Diskursmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406<br />
24.4 Entwicklung von Dialogsystemen . . . . . . . . . . . . . . . . . . . . . . . . . 407<br />
24.4.1 Vorgehensweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407<br />
24.4.2 Gesprochene Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409<br />
24.4.3 Wizard-of-Oz Experimente . . . . . . . . . . . . . . . . . . . . . . . . 410<br />
25. Erkennung verschiedener Sprachen . . . . . . . . . . . . . . . . . . . . . . . 413<br />
25.1 Eigenschaften verschiedener Sprachen . . . . . . . . . . . . . . . . . . . . . 413<br />
25.1.1 Definition eines Wortes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 414<br />
25.1.2 Flektierende Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414<br />
25.1.3 Komposition von Wörtern . . . . . . . . . . . . . . . . . . . . . . . . . 415<br />
25.2 Identifikation von Sprachen (LID) . . . . . . . . . . . . . . . . . . . . . . . . 415<br />
26. Zusätzliche Modalitäten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419<br />
26.1 Lippenlesen auf Videoaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . 419<br />
26.2 Sprecherlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422<br />
26.2.1 Akustisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422<br />
26.2.2 Mit Videoaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425<br />
26.3 Handschrifterkennung, Gestikerkennung . . . . . . . . . . . . . . . . . . . 426<br />
26.4 Fehlerbehandlungsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426<br />
26.5 Multimodale Zeitzuordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428<br />
27. Entwicklung von Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . 431<br />
27.1 Ein Erkenner für eine neue Aufgabe . . . . . . . . . . . . . . . . . . . . . . 431<br />
27.1.1 Vorbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432<br />
27.1.2 Datensammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432<br />
27.1.3 Datenaufbereitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433<br />
27.1.4 Erzeugen der Erkennerumgebung . . . . . . . . . . . . . . . . . . . 434<br />
27.1.5 Training und Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 435<br />
27.1.6 Qualitätsanforderungen überprüfen und erfüllen . . . . . . 437<br />
27.2 Beispiel: Videorecorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438<br />
27.3 Beispiel: Adressenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
XIV Inhaltsverzeichnis<br />
28. Der moderne Vortragsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443<br />
28.1 Die Rolle der Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 444<br />
28.1.1 Automatische Bedienung der Medien. . . . . . . . . . . . . . . . 445<br />
28.1.2 Verfolgen von Vorträgen. . . . . . . . . . . . . . . . . . . . . . . . . . . 446<br />
28.1.3 Verwalten einer Vortragsdatenbank . . . . . . . . . . . . . . . . . 448<br />
28.2 Verfolgen eines Laserpointers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448<br />
28.2.1 Unterstützung des Vortragsverfolgers . . . . . . . . . . . . . . . 452<br />
28.2.2 Algorithmen zur Detektion von Laserpointern . . . . . . . . 454<br />
28.3 Erkennung spontaner Vortragssprache . . . . . . . . . . . . . . . . . . . . . 455<br />
28.3.1 Adaption des Sprachmodells . . . . . . . . . . . . . . . . . . . . . . . 456<br />
28.4 Das FAME Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460<br />
28.4.1 Ziele des Projektes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460<br />
28.4.2 Die FAME Blackboard Architektur . . . . . . . . . . . . . . . . . 461<br />
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465<br />
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Tabellenverzeichnis<br />
1.1 Eingabegeschwindigkeiten verschiedener Modalitäten (Zeichen<br />
pro Minute) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />
2.1 Einige Beispiele für Vokabulargrößen . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
5.2 Schalldruckpegel für verschiedene Geräusche . . . . . . . . . . . . . . . . . . . 60<br />
6.1 Deutsche Aussprachebeispiele für einige IPA-Symbole . . . . . . . . . . . 66<br />
7.2 Verschiede Bedeutungen des Begriffs ” Spektrum“ . . . . . . . . . . . . . . . 91<br />
8.2 Durchschnittliche Längen (in ms) von Lauten im Englischen (gemessen<br />
auf dem Wall-Street-Journal Korpus [Rog97] ). . . . . . . . . . . 111<br />
11.1 Editierschritte und entsprechende Zustandsübergänge . . . . . . . . . . . 163<br />
12.1 Beispiel für 14 Tage Wetterbeobachtungen . . . . . . . . . . . . . . . . . . . . . 182<br />
14.1 Vor- und Nachteile verschiedener zeitlicher Ausdehnung von<br />
Spracheinheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232<br />
14.2 Vor- und Nachteile verschiedener räumlicher Ausdehnung von<br />
Spracheinheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233<br />
16.1 Perplexitäten verschiedener Erkennungsaufgaben . . . . . . . . . . . . . . . 270
XVI Tabellenverzeichnis<br />
17.1 Modellierung des Wortes ” Hallo“ mit verschiedenen Spracheinheiten290<br />
17.2 Abdeckung des Vokabulars durch Quasi-Ganzwortmodelle . . . . . . . 292<br />
17.3 Vor- und Nachteile unterschiedlicher zeitlicher Modellausdehnung . 294<br />
17.4 Vor- und Nachteile unterschiedlicher räumlicher Modellausdehnung 294<br />
17.5 Wortpositionsabhängige Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . 295<br />
19.1 Fehlerraten bei Kovarianzballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343<br />
21.1 Vorkommen von Geräuschen in spontaner Sprache . . . . . . . . . . . . . . 358<br />
21.2 Wortfehlerraten mit und ohne VTLN . . . . . . . . . . . . . . . . . . . . . . . . . 369<br />
27.1 Perplexitätsreduktion durch vorgegebene Adressenkomponenten . . 441<br />
28.1 Fehlerrate des Vortragsverfolgers ohne/mit Sprachmodelladaption 459
Abbildungsverzeichnis<br />
2.1 Wortfehlerrate über Sprechgeschwindigkeit. . . . . . . . . . . . . . . . . . . . . 23<br />
2.2 Elemente der Sprachkommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
2.3 Drei Aufnahmen des Wortes ” sieben“ . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
3.1 Zeitplan von Allan Sears (DARPA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
3.2 Entwicklung der Worterkennungsraten mit der Zeit . . . . . . . . . . . . . 37<br />
4.1 Überlagerung und Übergänge von Lauten . . . . . . . . . . . . . . . . . . . . . . 43<br />
4.2 Anatomie des Artikulationsapparates . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
4.3 Verschiedene Formen des Vokaltraktes bei verschiedenen Vokalen . 46<br />
4.4 Resonatoren für deutsche Vokale nach Christian Gottlieb von<br />
Kratzenstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />
4.5 Ein frühes mechanisches Sprachsynthesesystem . . . . . . . . . . . . . . . . 49<br />
4.6 Ein physikalisches Model des Vokaltraktes . . . . . . . . . . . . . . . . . . . . 50<br />
4.7 Ein System von Helmholtz-Resonatoren . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.8 Formanten und Impulsantwort eins Systems von Helmholtz-<br />
Resonatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
4.9 Das Quelle-Filter-Modell der Sprachproduktion. . . . . . . . . . . . . . . . . 51<br />
4.10 Die wichtigsten Bestandteile des <strong>Mensch</strong>lichen Ohrs . . . . . . . . . . . . 52<br />
4.11 Querschnitt durch das Innenohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />
4.12 Frequenzabhängige Empfindlichkeit einzelner Basilarmembranbereiche<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
XVIII Abbildungsverzeichnis<br />
5.1 Energie eines Luftmoleküls bei der Schallübertragung . . . . . . . . . . . 56<br />
5.2 Schallenergie nimmt im Quadrat zur Entfernung ab . . . . . . . . . . . . . 57<br />
5.3 Die Hörfläche: Sprache und Musik im Frequenz/Lautstärke-Raum 59<br />
5.4 Schalldruckpegel und Lautstärke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
6.1 Die Laute des International Phonetic Alphabet . . . . . . . . . . . . . . . . . 65<br />
6.2 Das Vokalviereck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
6.3 Dorsumweg bei den DiphthongenÁ,Ç,Íund eÁ. . . . . . . . . . . . . . 70<br />
6.4 Sagittalschnitte verschiedener Plosivlaute . . . . . . . . . . . . . . . . . . . . . . 70<br />
6.5 Sagittalschnitte verschiedener nasaler Konsonanten . . . . . . . . . . . . . 71<br />
6.6 Sagittalschnitte verschiedener Frikative . . . . . . . . . . . . . . . . . . . . . . . . 72<br />
7.1 Verschiedene Arten von Signalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
7.2 Funktionen eines A/D Wandlers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
7.3 Veranschaulichung der Dirac Distribution δ . . . . . . . . . . . . . . . . . . . . 82<br />
7.4 Die Stufenfunktion σ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
7.5 Darstellung von Impulsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
7.6 Die Fouriertransformierte des Einheitsimpulses . . . . . . . . . . . . . . . . . 93<br />
7.7 Die Fouriertransformierte zweier Impulse . . . . . . . . . . . . . . . . . . . . . . 93<br />
7.8 Fouriertransformierte von Impulsen mit unterschiedlichen<br />
Abständen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />
7.9 Fouriertransformierte mehrerer Impulse . . . . . . . . . . . . . . . . . . . . . . . 95<br />
7.10 Fouriertransformierte unendlicher Impulsfolgen . . . . . . . . . . . . . . . . . 96<br />
7.11 Fouriertransformierte abgetasteter Signale . . . . . . . . . . . . . . . . . . . . . 97<br />
7.12 Illustration des Abtasttheorems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Abbildungsverzeichnis XIX<br />
8.1 Signale für stimmhafte und stimmlose Laute . . . . . . . . . . . . . . . . . . . 106<br />
8.2 Unendlich verstärkte Sprachsignale sind immer noch verständlich . 107<br />
8.3 Zerteilung von Signalen in einzelne Segmente . . . . . . . . . . . . . . . . . . 112<br />
8.4 Verschiedene Fensterfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
8.5 Fouriertransformierte verschiedener Fensterfunktionen (Breite<br />
N = 51) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
8.6 Entstehung eines Spektrogramms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
8.7 Spektrogramm der Wortfolge ” eins zwei drei“ . . . . . . . . . . . . . . . . . . 115<br />
8.8 Filterbänke gleicher Größe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />
8.9 Filterbänke wachsender Größe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />
8.10 Die Mel-Skala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118<br />
8.11 verschiedene Berechnungen für Filterbänke: 1. Linear nichtüberlappend,<br />
2. logarithmisch nichtüberlappend, 3. logarithmisch<br />
überlappend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118<br />
8.12 Das Cepstrum ist die Spektralanalyse des Spektrums. . . . . . . . . . . . 120<br />
8.13 Filtern und Liftern eines Signals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121<br />
8.14 Nur-Pole-Funktion eines Linearen Vorhersagesystems. . . . . . . . . . . . 122<br />
8.15 Nur-Pole-Funktion beschränkt auf den Einheitskreis . . . . . . . . . . . . 122<br />
9.1 Arbeitsweise eines stochastischen parametrischen Klassifikators . . . 129<br />
9.2 Nachteile äquidistanter Merkmalsraumunterteilung . . . . . . . . . . . . . 131<br />
9.3 Nachteil der Nächste-Nachbar-Klassifikation . . . . . . . . . . . . . . . . . . . 131<br />
9.4 Klassifikator mit Mahalanobis-Distanzen . . . . . . . . . . . . . . . . . . . . . . 132<br />
9.5 k-nächste-Nachbar-Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133<br />
9.6 Merkmalsraum als hierarchische Baumstruktur . . . . . . . . . . . . . . . . . 134<br />
9.7 Auftrennen einer Gauß-Verteilung in zwei . . . . . . . . . . . . . . . . . . . . . 137<br />
9.8 Das Bucket-Voronoi-Intersection Verfahren . . . . . . . . . . . . . . . . . . . . 139<br />
9.9 Funktionsweise eines Bayes-Klassifikators . . . . . . . . . . . . . . . . . . . . . . 141<br />
9.10 Veranschaulichung der Hauptachsentransformation. . . . . . . . . . . . . . 146<br />
9.11 Idealvorstellung der Wirkung einer LDA-Transformation . . . . . . . . 147<br />
9.12 Fehlerbestimmung bei der ” moving targets“ Methode . . . . . . . . . . . 148
XX Abbildungsverzeichnis<br />
10.1 Energiebasierter Sprachdetektor mit Schwellwertvergleich . . . . . . . . 153<br />
10.2 Sprachdetektor als Zustandsautomat . . . . . . . . . . . . . . . . . . . . . . . . . . 154<br />
10.3 Vokaldreieck nach [Lip89] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />
11.1 Zwei Spektrogramme zweier Aufnahmen des Wortes ” sieben“ . . . . 159<br />
11.2 Längennormalisierung durch lineare Zuordnung . . . . . . . . . . . . . . . . 160<br />
11.3 Nichtlineare Zuordnung von Abschnitten zweier Aufnahmen . . . . . 161<br />
11.4 Zuordnung einander entsprechender Buchstaben zweier Wörter . . . 162<br />
11.5 Optimierungsschritt beim Dynamischen Programmieren . . . . . . . . . 163<br />
11.6 Kostenberechnung für einen Editierschritt . . . . . . . . . . . . . . . . . . . . . 164<br />
11.7 Berechnung der Editierdistanz mit dynamischem Programmieren . 166<br />
11.8 DTW-Pfad in Matrixdarstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167<br />
11.9 Verschiedene Zustandsübergangsschemata . . . . . . . . . . . . . . . . . . . . . 169<br />
11.10 Einzelworterkennung mit DTW-Algorithmus . . . . . . . . . . . . . . . . . . . 170<br />
11.11 Erwartungen an DTW-Pfade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />
11.12 Einschränkungen des DTW-Suchraumes . . . . . . . . . . . . . . . . . . . . . . . 173<br />
11.13 Eingeschränktes Bakis-Modell ist problematisch für unterschiedlich<br />
lange Aufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174<br />
11.14 DTW mit Strahlsuche: nur wahrscheinliche Zustände werden expandiert<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175<br />
12.1 Verschiedene Topologien für Hidden-Markov-Modelle . . . . . . . . . . . . 182<br />
12.2 HMM zur Modellierung des Wetters . . . . . . . . . . . . . . . . . . . . . . . . . . 183<br />
12.3 Berechnung von αt(. . .) aus αt−1(. . .) . . . . . . . . . . . . . . . . . . . . . . . . . 190<br />
12.4 Der Schritt im Forward-Algorithmus: αt(j) = bj(xt) <br />
i aijαt−1(i) 190<br />
12.5 Berechnung von zt(. . .) aus zt−1(. . .) . . . . . . . . . . . . . . . . . . . . . . . . . . 193<br />
12.6 Der Viterbi-Schritt: zt(j) = bj(xt)maxi aijzt−1(i) . . . . . . . . . . . . . . . 194<br />
12.7 Berechnung der ξ aus den α und β . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197<br />
12.8 Komposition eines Wort-HMMs aus Phonem-HMMs . . . . . . . . . . . . 202<br />
12.9 Komposition eines Wort-HMMs aus sich wiederholenden Phonemen202
Abbildungsverzeichnis XXI<br />
13.1 Training mit Viterbi statt Forward-Backward . . . . . . . . . . . . . . . . . . 208<br />
13.2 Der Overfitting-Effekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211<br />
13.3 Angleichung einer Punktmenge durch Polynome . . . . . . . . . . . . . . . . 211<br />
13.4 Korrektives Trainieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218<br />
14.1 Rein diskretes Modell (keine Codebücher) . . . . . . . . . . . . . . . . . . . . . 225<br />
14.2 Voll kontinuierliches Modell (keine gemeinsame Nutzung von Codebüchern)<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226<br />
14.3 Semikontinuierliches Modell (ein Codebuch, viele Mixturgewichteverteilungen)<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227<br />
14.4 Phonetisch gekoppeltes semikontinuierliches Modell (ein Codebuch<br />
je Phonem) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228<br />
14.5 Verschiedene Ebenen der Parameterkopplung . . . . . . . . . . . . . . . . . . 234<br />
14.6 Eindimensionales und zweidimensionales HMM . . . . . . . . . . . . . . . . . 235<br />
14.7 Suchraumbeschneidung bei vielen Varianten . . . . . . . . . . . . . . . . . . . 243<br />
15.1 Erweiterung des DTW-Algorithmus für kontinuierliche Sprache . . . 252<br />
15.2 Ein DTW-Pfad über mehrere Wörter . . . . . . . . . . . . . . . . . . . . . . . . . 253<br />
15.3 Grauwertdarstellung der Emissionswahrscheinlichkeiten . . . . . . . . . 253<br />
15.4 Möglicher Pfad für die Wortfolge B D A A C . . . . . . . . . . . . . . . . . . 254<br />
15.5 Möglicher Pfad für die Wortfolge D A C B D A . . . . . . . . . . . . . . . . 255<br />
15.6 Übergänge innerhalb der Wörter, dann Übergänge zwischen den<br />
Wörtern. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255<br />
15.7 Aufbau eines HMMs für einen ganzen Satz. . . . . . . . . . . . . . . . . . . . . 256<br />
15.8 Satz-HMM mit verschiedenen Aussprachen . . . . . . . . . . . . . . . . . . . . 257<br />
15.9 Satz-HMM mit optionalen Füllwörtern . . . . . . . . . . . . . . . . . . . . . . . . 258<br />
15.10 Ein einziges HMM aus vielen einzelnen Wort-HMMs . . . . . . . . . . . . 258<br />
15.11 HMM für kontinuierliche Sprache linear dargestellt. . . . . . . . . . . . . . 259
XXII Abbildungsverzeichnis<br />
16.1 Sprachmodelle mit wenig (links) und viel (rechts) Informationsgehalt267<br />
16.2 Perplexität und Verwechselbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271<br />
16.3 Sprachmodellauswahl mit einem HMM . . . . . . . . . . . . . . . . . . . . . . . . 277<br />
16.4 Automat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279<br />
16.5 Entscheidungsalgorithmus zur Kompositabildung . . . . . . . . . . . . . . . 288<br />
17.1 Beispiel für generalisierte Triphone . . . . . . . . . . . . . . . . . . . . . . . . . . . 293<br />
17.2 Beispiel für Senones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293<br />
17.3 Anzahl Polyphone für verschiedene Kontextbreiten . . . . . . . . . . . . . 295<br />
17.4 Wieviele Polyphone gibt es, die x mal vorkommen? . . . . . . . . . . . . . 296<br />
17.5 Agglomerative Ballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299<br />
17.6 Divisive Ballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300<br />
17.7 Blallung ergibt Querschnitt durch Ballungsbaum) . . . . . . . . . . . . . . 300<br />
17.8 Agglomerative Ballung kann zu Vokabularabhängigkeit führen. . . . 302<br />
17.9 Kontextentscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304<br />
17.10 Auswahl der Kontextfragen in Abhängigkeit von der Baumtiefe. . . 307<br />
17.11 Ausschnitt aus mehrstufigem Kontextentscheidungsbaum . . . . . . . . 308<br />
17.12 unterschiedlich ” scharfe“ Emissionswahrscheinlichkeitenmatrizen . . 310<br />
17.13 Ballungsbaum mit Modalitätenfragen . . . . . . . . . . . . . . . . . . . . . . . . . 311<br />
17.14 Ballung deutscher Dialektregionen in vier Klassen . . . . . . . . . . . . . . 313
Abbildungsverzeichnis XXIII<br />
18.1 Zustandsbezogene und Wortbezogene Rückwärtszeiger . . . . . . . . . . 316<br />
18.2 Rückwärtszeigertabelle für die Wortfolge A C B D . . . . . . . . . . . . . . 316<br />
18.3 Synchrone und asynchrone Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317<br />
18.4 Identische Bereiche des Suchraums. . . . . . . . . . . . . . . . . . . . . . . . . . . . 320<br />
18.5 Lineare und baumartige Anordnung des Suchraumes . . . . . . . . . . . . 321<br />
18.6 Umgestaltung der Modellachse der Suchmatrix . . . . . . . . . . . . . . . . . 321<br />
18.7 Bigrammwahrscheinlichkeit nicht bei Übergang anwendbar. . . . . . . 322<br />
18.8 Such-HMM für Trigramm-Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . 324<br />
18.9 Expansionder Wortendezustände ohne/mit Sprachmodellk . . . . . . . 325<br />
18.10 Ein aus phonetischer Sicht sehr unwahrscheinlicher Pfad . . . . . . . . . 326<br />
18.11 Wortaktivitätsmatrix zur Beschneidung des Suchraumes . . . . . . . . . 327<br />
19.1 Ein typischer schlechter Viterbi-Pfad . . . . . . . . . . . . . . . . . . . . . . . . . . 338<br />
19.2 Fehlerrate nach Radialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341<br />
20.1 Kombination von n-besten Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 346<br />
20.2 Endlicher Mealy-Automat zum Buchstabieren von Maier, Mayer,<br />
Miller und Minsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347<br />
21.1 Fehlerraten für verschiedene Sprecher und Erkenner . . . . . . . . . . . . . 355<br />
21.2 Verschiedene Ziele für die Adaption: Signal oder Modelle) . . . . . . . 360<br />
21.3 Label-Boosting Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364<br />
21.4 Sprecheradaptives Training (SAT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365<br />
21.5 Spektren für verschiedene Vokaltraktlängen . . . . . . . . . . . . . . . . . . . . 366<br />
21.6 Einfache VTLN-Filterbanktransformation . . . . . . . . . . . . . . . . . . . . . 367<br />
21.7 Verteilung der Spektren für verschiedene Vokaltraktlängen . . . . . . . 368
XXIV Abbildungsverzeichnis<br />
22.1 Maximum Likelihood und Maximum A-Posteriori Klassifikatoren . 373<br />
22.2 Rekurrentes Neuronales Netz nach Jordan und Elman . . . . . . . . . . . 375<br />
22.3 LVQ-Algorithmus als Neuronales Netz . . . . . . . . . . . . . . . . . . . . . . . . 377<br />
22.4 Kohonens selbstorganisierende Karte . . . . . . . . . . . . . . . . . . . . . . . . . . 379<br />
22.5 Typische Folge aktivster Neuronen für das finnische Wort ” humppila“<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380<br />
22.6 Time Delay Neural Network (TDNN) zur Erkennung von b, d, und g381<br />
22.7 Ein Time Delay Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382<br />
22.8 Multi-State TDNN für die Wörter W1, . . .Wn . . . . . . . . . . . . . . . . . . 383<br />
22.9 Linked Predictive Neural Networks für kontinuierliche Spracherkennung<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384<br />
22.10 Hierarchische Mixtur von Experten . . . . . . . . . . . . . . . . . . . . . . . . . . . 385<br />
22.11 Domänenadaption mit Hierarchischen Mixturen von Experten . . . . 386<br />
23.1 Verstehen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391<br />
23.2 Verschiedene Arten von Zerteilern (Parsern) . . . . . . . . . . . . . . . . . . . 395<br />
23.3 Der Suchraum beim Bottom-Up-Parsing . . . . . . . . . . . . . . . . . . . . . . . 397<br />
23.4 Der Suchraum beim Top-Down-Parsing . . . . . . . . . . . . . . . . . . . . . . . 398<br />
24.1 Dialogs mit anpaßbarer Freiheit für Benutzereingaben . . . . . . . . . . . 402<br />
24.2 Dialogsystem mit Sprachein- und Sprachausgabe . . . . . . . . . . . . . . . 403<br />
24.3 Wizard-of-Oz-Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . . . . 411<br />
26.1 Schallquellenortung mit 2 Mikrophonen . . . . . . . . . . . . . . . . . . . . . . . 423<br />
26.2 Geschätzter Winkel zur Schallquelle. . . . . . . . . . . . . . . . . . . . . . . . . . . 423<br />
26.3 Zeiten zum Eingeben und Korrigieren eines Textes . . . . . . . . . . . . . . 428<br />
26.4 mehrdimensionaler DTW Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 429
Abbildungsverzeichnis XXV<br />
28.1 Verschiedene Bereiche der (maschineninvolvierten) <strong>Kommunikation</strong>443<br />
28.2 Synchronisierung von Folien mit Erkennerhypothesen . . . . . . . . . . . 446<br />
28.3 Tracking-Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447<br />
28.4 Beispielaufnahmen von Projektionsflächen . . . . . . . . . . . . . . . . . . . . . 449<br />
28.5 Berechnen der Position des Laserpointers auf der Folie . . . . . . . . . . 450<br />
28.6 Positionsbestimmung bei zusätzlicher optischer Krümmung . . . . . . 451<br />
28.7 Beispiel für eine Wortklasse im Sprachmodell von [RS01] . . . . . . . . 458<br />
28.8 Die FAME Blackboard Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
1. Nutzen und Anwendungen<br />
Der Einsatz automatischer Spracherkennung kann vielerlei Motive haben.<br />
Zahlreiche Arbeiten, die von <strong>Mensch</strong>en durchgeführt werden, bestehen<br />
darin, gesprochene Sprache in irgend einer Form in Text umzuwandeln. Das<br />
augenscheinlichste Beispiel dafür ist die Bürokraft, die diktierte Briefe tippt.<br />
Oft sind Computer beziehungsweise die auf ihnen laufende Software als<br />
sogenannte Job-Killer verschrien. Die Vergangenheit hat aber gezeigt, daß<br />
kaum Bürokräfte durch den Einsatz eines computergestützten Diktiersystems<br />
überflüssig geworden sind. Im Gegenteil, wie in vielen anderen Bereichen<br />
auch, so hat die Computertechnik auch hier die Arbeit der <strong>Mensch</strong>en eher<br />
erleichtert und um neue Aspekte und Möglichkeiten bereichert. Wir wollen<br />
aber an dieser Stelle nicht weiter ins Philosophisch-Politische abschweifen.<br />
Festzuhalten bleibt, daß Spracherkennung durchaus eingesetzt wird, um<br />
Kosten zu sparen, wo menschliche Arbeitskräfte teuer sind. Die Verschriftung<br />
von Sprache ist aber nur ein kleiner Anwendungsbereich. Ein viel größerer<br />
ist der Bereich der <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong>. Dabei geht es weniger<br />
darum, menschliche Arbeit zu automatisieren, als vielmehr darum, den<br />
ohnehin nötigen Umgang mit <strong>Maschine</strong>n zu erleichtern.<br />
Schließlich gibt es noch einen dritten Bereich nämlich das Ermöglichen<br />
von Aktionen, die ohne automatische Erkennung kaum oder gar nicht<br />
durchführbar wären, wie z.B. das Bedienen von Geräten für Behinderte.<br />
Aber auch für nicht Behinderte gibt es Situationen, in denen eine normale<br />
Bedienung aus verschiedenen Gründen unangebracht ist, wie zum Beispiel<br />
das Wählen einer Telefonnummer auf einem Mobiltelefon oder das Eingeben<br />
eines Reisezieles während der Autofahrt. In diesem Kapitel wollen wir<br />
die Vorteile der Sprache gegenüber anderen Arten der <strong>Kommunikation</strong><br />
beleuchten, den Einsatz automatischer Spracherkennungssysteme anhand<br />
einiger Anwendungsbeispiele motivieren und schließlich einige wichtige<br />
Begriffe im Zusammenhang mit Spracherkennungssystemen einführen und<br />
einen ersten Eindruck von der Schwierigkeit der Materie gewinnen.
2 1. Nutzen und Anwendungen<br />
1.1 Vorteile und Nachteile der Sprache als<br />
Eingabemodus<br />
Die typischen Alternativen zur Sprache für die Eingabe von Informationen<br />
in ein technisches System sind Tastaturen oder auch die Handschrift, wie<br />
man vor allem bei den kleinen Handflächencomputern (Palmtop), die auch<br />
als personal digital assistant (PDA) bezeichnet werden, beobachten kann.<br />
Hin und wieder werden auch ungewöhnliche Eingabemethoden verwendet,<br />
wie z.B. eingeblendete Tastaturen auf PDAs oder die Art wie der berühme<br />
Physiker Stephen Hawking schreibt: Dabei werden im wesentlichen alle<br />
eingebbaren Einheiten (Zeichen oder auch Wörter) zyklisch hervorgehoben,<br />
und es genügt, einen einzigen Auslöser zu betätigen, um das gerade hervorgehobene<br />
Symbol zu übernehmen. Mit einiger Übung und mit einer etwas<br />
intelligenten Auswahl der Reihenfolge der Präsentation der Zeichen kann<br />
auf dieser Art immer noch eine recht brauchbare Eingabegeschwindigkeit<br />
erreicht werden. Es ist allerdings so, daß für den durchschnittlichen Benutzer<br />
von Computern die Sprache immer noch der schnellste Modus der<br />
Informationsübertragung vom <strong>Mensch</strong>en in die <strong>Maschine</strong> ist. Ein Vergleich<br />
verschiedener ” Übertragungsraten“ ist in Tabelle 1.1 angegeben.<br />
Eingabemodus Durchschnitt Spitzenleistung<br />
Handschrift 200 500<br />
Tastatur 200 1000<br />
Stenographie 500 2000<br />
Sprache 1000 4000<br />
Tabelle 1.1. Eingabegeschwindigkeiten verschiedener Modalitäten (Zeichen pro<br />
Minute)<br />
Außer der reinen Eingabegeschwindigkeit bietet die Spracherkennung<br />
auch einen Produktivitätsgewinn dadurch, daß andere Handlungen<br />
ermöglicht werden, die sonst nicht einfach möglich wären. Wenn z.B. die<br />
Hände nicht zum Bedienen einer Tastatur benötigt werden, können diese<br />
in der Zeit andere Aufgaben erledigen. So kann eine Person eine Inventur<br />
durchführen, dabei mit den Händen die Waren sortieren und gleichzeitig per<br />
Sprache ein Protokoll aufnehmen. Ein Chirurg kann mit den Händen eine<br />
Operation durchführen und per Sprache den Assistenzroboter bedienen.<br />
Neben der Entlastung der Hände bietet die Spracheingabe für viele Leute<br />
auch eine Entlastung der Augen. Viele Aufgaben mit Informationseingabe
1.1 Vorteile und Nachteile der Sprache als Eingabemodus 3<br />
können nur dann gut erledigt werden, wenn der Blick auf die Tastatur<br />
gerichtet ist oder zumindest auf den Bildschirm, um sicherzustellen, daß<br />
beim Tippen keine Fehler gemacht werden. Wenn es sinnvoll ist, daß die<br />
Aufmerksamkeit auf etwas anderes gerichtet ist als den Computer, wie<br />
zum Beispiel in einem fahrenden Auto, dann ist eine Dateneingabe per<br />
Sprache besonders sinnvoll. Sprachgesteuerte Autotelefone sind heute schon<br />
Standard. Erste Navigationssysteme mit Spracheingabe sind auf dem Weg<br />
zum Produkt.<br />
Sprache kann auch als zusätzliche Eingabemodalität neben anderen eingesetzt<br />
werden. So kann man Sprache zusammen mit Handschrifterkennung<br />
und der Erkennung von Gesten koppeln. Als Beispiel dafür stellt [?] und<br />
[?] einen Terminkalender vor. Man kann wie bei PDAs Termine per Stift<br />
(Handschrift) oder Tastatur eingeben, man kann Bereiche auswählen und<br />
verschieben, Wörter unterstreichen oder durchstreichen. So kann man zum<br />
Beispiel einen Termin mit dem Stift auswählen und sagen ” Verschiebe diesen<br />
Termin auf Mittwoch“.<br />
Sprache ist nicht nur die natürlichste Art der <strong>Kommunikation</strong> für<br />
<strong>Mensch</strong>en, sie ist auch für einige Übertragungskanäle am besten geeignet.<br />
So zum Beispiel das Telefon. Um einen Videorecorder von unterwegs zu programmieren,<br />
wäre es am einfachsten, diesen per (Mobil-)Telefon anzurufen<br />
und ihm zu sagen, ” was man möchte“.<br />
Aber selbst in Situationen, in denen Dateneingaben selten sind, Sprache<br />
keinen Geschwindigkeitsvorteil gegenüber anderen Modalitäten hätte und<br />
auch kein Problem mit der Aufmerksamkeit oder der Verfügbarkeit der<br />
Hände besteht, gibt es viele Fällen, in denen Sprache trotzdem das <strong>Kommunikation</strong>smittel<br />
der Wahl ist. Dies zum Beispiel deshalb, weil Mikrophone<br />
wesentlich leichter und kleiner sind als Tastaturen. Damit sind sie einfacher<br />
zu transportieren und am Körper beziehungsweise der Kleidung zu befestigen<br />
und man kann sogar während der Bewegung Daten eingeben oder Texte<br />
diktieren.<br />
Schließlich bleibt noch zu erwähnen, das Sprache nicht nur für Blinde<br />
sondern auch für Sehende in der Dunkelheit zur <strong>Kommunikation</strong> geeignet ist.<br />
Allerdings gibt es auch ebenso Situationen, in denen Sprache unerwünscht<br />
ist, zum Beispiel wenn dadurch andere Personen gestört werden könnten<br />
(Restaurant, Theater), oder in Umgebungen, in denen die Erkennungsrate<br />
besonders schlecht ist (Fußballstadion, Cocktailparty) oder nahezu bei null<br />
wäre (beim Schnorcheln). In solchen Fällen wird man in absehbarer Zukunft<br />
auch weiterhin Tastaturen verwenden.
4 1. Nutzen und Anwendungen<br />
1.2 Anwendungsbeispiele<br />
Seit es kommerzielle Diktiersysteme sehr günstig zu kaufen gibt und<br />
Sprachsteuerung sogar bei einigen Betriebssystemen und Anwendungsprogrammen<br />
mit dabei ist, hört man oft die Meinung, daß das Problem der<br />
Spracherkennung schon gelöst ist. Vergleicht man aber die Fähigkeiten<br />
dieser Diktiersysteme mit denen von <strong>Mensch</strong>en, stellt man schnell fest, daß<br />
noch sehr viel Potential für Verbesserungen vorhanden ist und noch viel<br />
Entwicklungsaufwand zu erwarten ist. Selbst unter idealen Bedingungen –<br />
stille Umgebung, saubere Artikulation, gutes Nahbesprechungsmikrophon<br />
und ein dem System bekannter Sprecher – machen Diktiersysteme immer<br />
noch wesentlich mehr Fehler als <strong>Mensch</strong>en.<br />
In einigen Untersuchungen [?] [?] wurde bei Versuchspersonen, denen<br />
Aufnahmen von Diktaten einiger Journalisten vorgespielt wurden, eine<br />
Wortfehlerrate von deutlich unter 1% gemessen. Ein Großteil der Fehler<br />
bestand zudem aus entschuldbaren falschen Schreibweisen von Eigennamen<br />
oder unterschiedlicher Interpretation verschiedener Wörtern mit gleicher<br />
Aussprache (sog. Homophone wie ” two“ und ” too“).<br />
Wenn wir aber von den Idealbedingungen für automatische Spracherkennung<br />
abweichen, stellen wir schnell fest, daß die Genauigkeit dramatisch<br />
nachläßt. Selbst das Wechseln des Teppichbodens in einem Büro kann schon<br />
dazu führen, daß die Zahl der Fehler eines Diktiersystems spürbar ansteigt.<br />
Bei zahlreichen Anwendungen für automatische Spracherkenner, die über<br />
das Diktieren hinausgehen, herrschen keine Idealbedingungen. Dort gibt es<br />
noch sehr viel Forschungsbedarf. Im folgenden werden einige Gebiete für den<br />
Einsatz von Spracherkenner vorgestellt und diskutiert.<br />
1.2.1 Diktieren<br />
Für viele ist die naheliegendste Anwendung für Spracherkennung das<br />
Diktieren. Das kommt auch daher, daß bereits zahlreiche Produkte dafür<br />
erhältlich sind. Das erste auf handelsüblichen Personalcomputern wirklich<br />
sinnvoll nutzbare Diktiersystem wurde Anfang der neunziger Jahre von der<br />
amerikanischen Firma Dragon Systems unter dem Namen ” Dragon Dictate“<br />
eingeführt. Es war ein sprecherabhängiges Einzelworterkennungssystem.<br />
Dabei mußten Diktate so gesprochen werden, daß zwischen je zwei Wörtern<br />
eine Pause mit einer Mindestlänge (ca. 1/10 Sekunde) gemacht werden mußte.<br />
Inzwischen sind PC-basierte Diktiersysteme in der Lage, kontinuierlich<br />
gesprochene Sprache zu erkennen. Die Sprecherabhängigkeit nimmt auch<br />
ständig ab.
1.2 Anwendungsbeispiele 5<br />
Die Erkennungsleistungen kommerziell erhältlicher Erkenner sind schon<br />
im sprecherunabhängigen Zustand (also noch bevor der Erkenner auf einen<br />
bestimmten Sprecher eintrainiert wurde) so hoch, daß damit bestimmte<br />
kleinere Aufgaben relativ zuverlässig gelöst werden können. Um beim<br />
fließenden Diktieren jedoch so wenige Fehler wie möglich zu machen, ist es<br />
immer noch hilfreich, den Erkenner auf die Stimme des Diktierenden zu<br />
adaptieren. Diktiersysteme funktionieren um so besser, je bekannter und<br />
eingeschränkter die Domäne, das Themengebiet des Diktats, ist. Wenn ein<br />
Diktiersystem zum Diktieren beliebiger Briefe verwendet wird, macht es<br />
mehr Fehler als wenn es in einer relativ kleinen bekannten Domäne wie<br />
zum Beispiel das Diktieren von ärztlichen Diagnosen oder pathologischen<br />
Berichten oder Anklageschriften eines Anwalts verwendet wird. Dabei<br />
haben automatische Spracherkenner mit komplizierten Wörtern, wie sie<br />
oft von Fachleuten eines Gebietes verwendet werden, überraschenderweise<br />
sehr wenige Schwierigkeiten, während ihnen alltägliche Begriffe meist mehr<br />
Probleme bereiten. Dieser Sachverhalt wird in späteren Kapiteln erklärt.<br />
1.2.2 Steuerung von Geräten<br />
Während noch vor wenigen Generationen die Eltern ihren Kindern die<br />
Benutzung von ” Geräten“ in Haus und Hof zunächst verbaten und wenn sie<br />
alt genug waren, erklärten, kann man heute immer öfter den Fall beobachten,<br />
daß Kinder ihren Eltern erklären müssen, wie der Computer funktioniert,<br />
wie man ins Internet kommt, den neuen Herd, die Kaffeemaschine, den<br />
Wecker oder den Videorecorder programmiert. Offensichtlich übersteigt<br />
die Komplexität vieler moderner Geräte die Bereitschaft vieler <strong>Mensch</strong>en,<br />
den Umgang mit Ihnen zu lernen. Es gibt zwar Tendenzen, die Bedienung<br />
komplizierter Geräte zu vereinfachen, allerdings steigt oft auch parallel dazu<br />
Funktionsumfang derselben immer weiter an.<br />
Eine Studie der Universität Dortmund [?] kommt zu dem Schluß:<br />
” Betrachtet man die Zugriffsmöglichkeiten, so erscheint einem die<br />
sprachliche <strong>Kommunikation</strong> am geeignetsten, weil sie für den Bewohner am<br />
einfachsten zu benutzen ist und wohl auch die gewünschten Informationen<br />
am schnellsten vermittelt.“<br />
Auf die Frage, welches Gerät im Haushalt am schwierigsten zu bedienen<br />
ist, nennen die meisten <strong>Mensch</strong>en den Videorecorder, obwohl es inzwischen<br />
recht viele Vereinfachungen für seine Programmierung gibt. So gibt es relativ<br />
verständliche Menüs, den Zugriff über Videotext-Seiten, die Verwendung<br />
von ShowView Nummern und ähnliches. Die Ausschreibung zu einer Di-
6 1. Nutzen und Anwendungen<br />
plomarbeit der ETH Zürich [?] meint sogar:<br />
” Moderne Geräte sind sehr flexibel und bieten eine große Zahl von Parametern,<br />
welche überwacht und eingestellt werden können. Diese Freiheit wird<br />
aber schnell zu einem Nachteil, wenn dadurch die Bedienung so kompliziert<br />
wird, daß der Anwender die Übersicht verliert. Man denke z.B. an gewisse<br />
Videorecorder, welche praktisch nur noch von Spezialisten bedient werden<br />
können.“<br />
und von Wiener Verein für Konsumenteninformation [?] stammt ein<br />
Gerätetest, dessen Ergebnis für die Designer von Benutzerschnittstellen ein<br />
vernichtendes Urteil ausstellt:<br />
” Die Programmierung eines Videorecorders ist nicht nur für technische<br />
Laien ein Problem. Auch erfahrene Tester der Zeitschrift Konsument hatten<br />
Probleme, anhand der Bedienungsanleitung die beschriebenen Programmierschritte<br />
nachzuvollziehen. In seinem Hifi-Videorecodertest nahm Konsument<br />
insgesamt 17 Modelle der neuen Generation unter die Lupe und prüfte<br />
auch die Bedienungsfreundlichkeit der Geräte. Abgesehen von der sehr<br />
zeitraubenden Tätigkeit, scheiterten die Tester auch an der Programmierung<br />
von vier Modellen. Gründe für die Misere sind die meist unverständlich<br />
formulierten Gebrauchsanleitungen und die verunglückten Konstruktionen<br />
der Fernbedienungen.“<br />
Wäre es da nicht wesentlich besser, ganz ohne Bedienungsanleitungen<br />
auszukommen? Wenn wir uns fragen, wie die Bedienung eines Gerätes<br />
aussehen müßte, damit man es benutzen kann, ohne sich vorher über die<br />
Funktionsweise informiert zu haben, dann lautet die häufigste Antwort:<br />
” Am besten wäre es, wenn man dem Gerät einfach sagt, was man will“. Das<br />
gilt nicht nur für komplizierte Geräte wie Videorecorder sondern auch für<br />
vermeintlich einfache, wie Fahrkartenautomaten. Der Autor selbst ist schon<br />
vor einem solchen der Münchner U-Bahn gestanden und mußte zugeben,<br />
daß es ihm nicht möglich war innerhalb einer Minute festzustellen, welche<br />
Karte wohl am geeignetsten war, damit zwei Personen ein Wochenende in<br />
München verbringen und dabei ein paar anvisierte Ziele besuchten. Wäre<br />
es nicht besser gewesen, wenn man dem Automaten einfach hätte sagen<br />
können: Wir zwei wollen bis Sonntag abend bleiben, das Olympiastadion,<br />
”<br />
das Deutsche Museum, das Platzl, die Wiesn und noch so zwei drei andere<br />
Attraktionen besuchen. Bitte das dafür günstigste Ticket.“.
1.2.3 Sprach-zu-Sprach-Übersetzung<br />
1.2 Anwendungsbeispiele 7<br />
Im Jahr 1992 wurde vom Bundesministerium für Forschung und Technik<br />
das Projekt VERBMOBIL ausgeschrieben, das zum Ziel hatte, ein kleines,<br />
portables Sprach-zu-Sprach-Übersetzungssystem zu entwickeln, mit dem sich<br />
Geschäftsleute mit Partnern, deren Sprache sie nicht sprechen, unterhalten<br />
können. Es konnte zwar ein Vorführgerät entwickelt werden, aber die<br />
Leistung – insbesondere der Komponenten, die nach der Erkennung für die<br />
Übersetzung des Erkannten zuständig waren – hinter den ursprünglichen<br />
Hoffnungen zurückblieb. Eine brauchbare Übersetzungsrate konnte nur für<br />
stark eingeschränkte Aufgaben wie zum Beispiel die Vereinbarung eines<br />
Termins erreicht werden.<br />
1.2.4 Hilfe für Behinderte<br />
Für blinde <strong>Mensch</strong>en ist meist das Gehör der wichtigste der Sinne. So<br />
ist hat auch die akustische <strong>Kommunikation</strong> einen wesentlich höheren<br />
Stellenwert als bei Sehenden. Wie sehr wir auf die visuelle Information<br />
um uns herum angewiesen sind, merken wir erst, wenn wir sie nicht mehr<br />
haben. Wir brauchen sie nicht nur, um selbst Nachrichten zu empfangen,<br />
wir brauchen sie auch, um Nachrichten abzuschicken. Um einen Text in<br />
das Textverarbeitungssystem einzugeben müssen wir uns vorher die visuelle<br />
Information über die Position der Tasten besorgen. Und weil wir beim<br />
Schreiben viele Fehler machen, brauchen wir ständiges Feedback, um zu<br />
kontrollieren, ob das was wir tippen wollten, auch wirklich angekommen ist.<br />
Für Blinde fehlt sowohl die visuelle Orientierung als auch das Feedback.<br />
Obwohl viele Blinde erstaunliche Fähigkeiten entwickeln, um trotzdem in<br />
ihrer Umgebung zurecht zu kommen, so sind die Problemlösungsstrategien<br />
oft mit erheblichem Mehraufwand – sowohl zeitlich als auch technisch –<br />
verbunden. Computertastaturen können mit einer zusätzlichen Braille-Zeile<br />
ausgestattet sein, aber das Lesen von Braille geht selbst für den schnellsten<br />
Leser immer noch viel langsamer als das Lesen von gedrucktem Text mit<br />
sehenden Augen. Das Leben könnte für Blinde wesentlich erleichtert werden,<br />
wenn sie weniger auf die oben beschriebenen Orientierungs- und Feedbackinformationen<br />
angewiesen wären. Wäre es nicht wesentlich einfacher, in einen<br />
Fahrstuhl zu steigen und das gewünschte Ziel zu sagen, statt erst die Wände<br />
nach den Knöpfen abzusuchen und dann mit etwas Glück aus der Anordnung<br />
dieser herauszuinterpretieren, welcher was bedeuten könnte. Zwar sieht man<br />
oft auch mit Braille beschriftete Tasten in Fahrstühlen, aber es gibt immer<br />
noch zahlreiche Geräte und <strong>Maschine</strong>n, für die das nicht gilt. Versuchen Sie<br />
einmal, ohne Hinzusehen Ihren Videorecorder zu programmieren, sofern das<br />
nicht auch mit Hinsehen problematisch ist.
8 1. Nutzen und Anwendungen<br />
Wo immer eine ” mechanische“ Bedienung für bestimmte Personen problematisch<br />
ist, sei dies mangels visuellen Informationskanals oder mangels<br />
Mobilität, bietet sich die natürliche Sprache an. Dies gilt vor allem für<br />
Gelähmte oder auf andere Art körperlich beeinträchtigte.<br />
Aber auch normalerweise nicht behinderte <strong>Mensch</strong>en finden sich hin und<br />
wieder in Situationen, in denen sie in ihrer Mobilität den Behinderten nicht<br />
im Vorteil sind. So zum Beispiel als Patient im Krankenhaus. Das Rufen<br />
nach Hilfe wird auch heute schon in einigen Krankenhäusern per Stimme<br />
und nicht nur per Drücken auf einen Schalter ermöglicht. Viele einfache<br />
Handlungen, wie zum Beispiel das Einstellen der Temperatur, das Wählen<br />
des Fernsehsenders oder das Ein- und Ausschalten des Lichts können in<br />
solchen Fällen vom Patienten allein ohne fremde Hilfe durchgeführt werden.<br />
1.2.5 Indexierung akustischer Dokumente<br />
Im Zeitalter des Internets mit E-Mails und dem World Wide Web und in<br />
Zeiten, in denen Fernsehnachrichten einen viel größeren Beitrag zur Verbreitung<br />
von Nachrichten leisten als Zeitschriften, verwischt die Bedeutung<br />
des Begriffs Dokument. Während vor nicht allzu langer Zeit darunter nur<br />
beschriebenes Papier gemeint war werden heute damit auch Daten auf<br />
Datenträgern und Video- oder Audioaufnahmen bezeichnet. In den Archiven<br />
der Fernsehanstalten lagern Millionen von Bändern mit Aufzeichnungen von<br />
Nachrichten, Reportagen, Spielfilmen und anderem. Alle diese ” Dokumente“<br />
müssen mühsam durchsucht und angesehen werden um eine Datenbasis mit<br />
deren Inhalten zu erstellen. Wenn die Inhaltsangaben sehr detailliert sein<br />
sollen, dann erfordert das viel Zeit und viel menschliche Arbeitsleistung.<br />
Aber nicht nur die Indexerstellung für archivierte Dokumente, sondern auch<br />
die für die Flut der täglich neu auf uns einstürzenden Informationsfluten<br />
ruft nach einer Automatisierung.<br />
Die Spracherkennung bietet dafür ein brauchbares Mittel. Auch wenn die<br />
Erkennungsraten noch deutlich unter 100% liegen, so genügt doch meistens<br />
die Erkennung einiger wichtiger inhaltstragender Wörter um das Thema<br />
einer Sendung oder eines Nachrichtenblocks zu identifizieren.<br />
Mehrere Projekte (z.B. das Informedia Projekt Informedia an der Carnegie<br />
Mellon University in Pittsburgh, USA [?] [?] und das View4You Projekt<br />
der Universität Karlsruhe [?] [?] [?]) beschäftigen sich mit dem Thema, auf<br />
mündliche Anfrage des Benutzers Videoclips aus den Nachrichten der letzten<br />
Zeit herauszusuchen. So kann der Benutzer zum Beispiel fragen ” Was gibt<br />
es Neues von der Börse?“ und das System liefert daraufhin Nachrichten zum
Thema Börse.<br />
1.2 Anwendungsbeispiele 9<br />
Diese Vorgehensweise wird auch immer mehr für die im Internet erhältlichen<br />
Dokumente interessant. Die gestiegenen Übertragungsraten und<br />
die immer größeren zur Verfügung stehenden Bandbreiten verleiten die<br />
Netzgemeinde dazu mehr Audio- und Videodokumente zu publizieren. Wenn<br />
Suchmaschinen irgendwann auch WWW-Seiten finden sollen, in denen ein<br />
Film über ein bestimmtes Thema vorkommt, dann wird die automatische<br />
Spracherkennung dazu gute Dienste leisten.<br />
1.2.6 Sprecheridentifikation und Authentifikation<br />
Die Erkenntnis, daß sprecherabhängige Spracherkenner wesentlich bessere<br />
Erkennungsleistungen erreichen als sprecherunabhängige, hat schon früh<br />
dazu geführt, daß die Eigenschaften der Stimme, die einen Sprecher vom<br />
anderen unterscheiden, detektiert und dazu verwendet werden, den aktuellen<br />
Sprecher zu identifizieren. In den heutigen Zeiten, in denen die meiste<br />
<strong>Kommunikation</strong> elektronisch stattfinden und in denen die Prüfung der<br />
Korrektheit einer Urkunde aus Papier sich schwieriger gestalten kann als<br />
die Prüfung eines elektronischen Dokuments werden immer mehr Methoden<br />
gesucht, die eine möglichst sichere Identifikation von Personen garantieren.<br />
Dazu gehört auch die Authentifikation per Stimme. Automatische Portale,<br />
die durchgehende Personen filmen und zum Sprechen eines Paßwortes auffordern,<br />
können nur sehr schwer getäuscht werden. Es gibt zwar Eigenschaften<br />
des menschlichen Körpers, die noch eindeutiger sind als seine Stimme (z.B.<br />
die Fingerabdrücke oder die Muster der Blutgefäße in der Retina), aber<br />
nicht immer ist es opportun, diese Eigenschaften zu messen. Insbesondere<br />
bei akustischen Dokumenten, von denen es im Internet- und Multimedia-<br />
Zeitalter immer mehr gibt, wird die Feststellung der Authentizität immer<br />
wichtiger werden.<br />
Allerdings gab es den Bedarf für Sprecheridentifikation schon sehr früh.<br />
Schon zur Zeit des zweiten Weltkriegs, als der Einsatz von Telekommunikationseinrichtungen<br />
(Telefonen, Funkgeräten) vermehrt vorkam, entstand die<br />
Notwendigkeit der Feststellung, daß diejenige Person am anderen Ende der<br />
Leitung autorisiert ist, Kommandos zu geben, bzw. diejenige ist, für die sie<br />
sich ausgibt. So wurden schon damals Forschungsarbeiten durchgeführt, die<br />
die automatische Überprüfung der ” ID-of-Command“ zum Ziel hatten.<br />
Auch bei der Untersuchung von Flugzeugabstürzen wurden schon zur<br />
damaligen Zeit Tonbandaufnahmen aus dem Cockpit verwendet, auf denen<br />
die Sprecher automatisch identifiziert wurden. Und in der Forensik kommt<br />
es immer wieder vor, daß akustische Aufnahmen eindeutig einer Person
10 1. Nutzen und Anwendungen<br />
zugeordnet werden müssen. Dabei ist es auch möglich, Stimmenimitatoren,<br />
die die Stimme eines anderen für menschliche Ohren täuschend ähnlich<br />
nachmachen können, zu entlarven.<br />
1.2.7 Identifikation von Sprachen<br />
Es gibt verschiedene Gründe, warum die Identifikation einer Sprache in<br />
einer Aufnahme nützlich sein kann. Immer dann, wenn eine Entscheidung<br />
aufgrund der Sprache getroffen werden muß, z.B. bei einem automatischen<br />
Übersetzungssystem oder einer Anrufer-Hotline, bei der <strong>Mensch</strong>en aus aller<br />
Welt anrufen können, kann die <strong>Kommunikation</strong> bequemer gemacht werden,<br />
wenn die Sprache, in der der Sprecher spricht, automatisch erkannt wird, und<br />
die entsprechende Übersetzungsmaschine aufgerufen wird oder der Anrufer<br />
mit einer Person verbunden wird, die seine Sprache spricht. Ein derartiges<br />
System wurde eine Zeit lang in Südkalifornien eingesetzt. Dort ist es nicht<br />
unüblich, daß viele <strong>Mensch</strong>en des Englischen nicht ausreichend mächtig sind,<br />
um z.B. bei einem Anruf der Nummer 911 wegen eines Notfalls ihr Problem<br />
zu beschreiben. Viele reden einfach auf spanisch oder chinesisch oder in einer<br />
anderen Sprach los. Das eingesetzte System war in der Lage, automatisch<br />
zu erkennen, welche Sprache der Anrufer sprach und konnte so diesen mit<br />
einem seine Sprache verstehenden menschlichen Telefonisten verbinden.<br />
1.2.8 Unterhaltung<br />
Eine nicht zu unterschätzende Bedeutung für die automatische Spracherkennung<br />
ist die Unterhaltung. Hiermit ist nicht die deutsche Übersetzung<br />
des englischen conversation sondern des englischen entertainment gemeint.<br />
Sprachgesteuerte Computerspiele und sprachgesteuertes Spielzeug werden in<br />
naher Zukunft völlig normal sein. Viele technische Neuerungen haben ihren<br />
Siegeszug im Bereich der Unterhaltungssoftware oder der Spielzeugwelt<br />
angetreten bevor sie dann später in ” ernsthafteren“ Anwendungen Einsatz<br />
fanden. So wurden zum Beispiel zahlreiche graphische Algorithmen aufgrund<br />
der Anforderungen von Computerspielen entwickelt. Schließlich sollte man<br />
sich auch bewußt machen, daß in der heutigen Welt auch die Unterhaltungsindustrie<br />
einen wichtigen Anteil an unserem Wohlstand hat. Die Umsätze,<br />
die mit Spielesoftware und -hardware gemacht werden, sind in etwa in der<br />
gleichen Größenordnung wie sie mit Bürosoftware gemacht werden.
1.2.9 Hilfe beim Lesen und Sprechen Lernen<br />
1.2 Anwendungsbeispiele 11<br />
Mitte der neunziger Jahre wurde an der Carnegie Mellon University (CMU)<br />
ein Projekt durchgeführt, das zum Ziel hatte, Kindern das Lesenlernen zu<br />
erleichtern. Motiviert wurde es durch die Meldung der US-Regierung, daß<br />
der Schaden, der in den USA jährlich durch Analphabetismus entsteht, sich<br />
auf ca. 100 Millionen Dollar beziffern läßt. Auch wenn die häufigsten Gründe<br />
für Analphabetismus eher sozialer Natur sind und weniger auf Probleme mit<br />
dem Lernen zurückzuführen sind, so gibt es doch viele Kinder, denen das<br />
Lesen und Schreiben leichter gemacht werden kann, indem man sie mit Spaß<br />
bereitenden Lernhilfeprogrammen dabei unterstützt. Das CMU-Projekt<br />
LISTEN [?] [?], verwendet automatische Spracherkenner, um Kindern beim<br />
Vorlesen von auf dem Bildschirm eingeblendeten Texten, ein Feedback zu<br />
geben. Wenn der Text korrekt vorgelesen wird und das System mit lustigen<br />
ermunternden Antworten reagiert, wird das Kind gelobt und dazu motiviert,<br />
noch mehr zu lesen. In einigen Experimenten konnte gezeigt werden, daß<br />
Kinder, die solche Systeme verwenden, im Durchschnitt schneller lernen als<br />
andere.<br />
1.2.10 Erkennung im fahrenden Fahrzeug<br />
Eine ganz besonders sinnvolle Anwendung für automatische Spracherkennung<br />
ist die Bedienung von Geräten in fahrenden Fahrzeugen. In den letzten<br />
Jahren wurde in den meisten Ländern Europas das Telefonieren während der<br />
Fahrt aus Sicherheitsgründen gesetzlich eingeschränkt. In einigen Ländern<br />
dürfen während der Fahrt sogar nur Telefone verwendet werden, die es<br />
ermöglichen, die Nummer des gewünschten Gesprächspartners per Stimme<br />
einzugeben. Oft ist es nämlich der Wählprozeß, bei dem die Autofahrer am<br />
meisten abgelenkt werden und am längsten den Blick von der Straße nehmen.<br />
Bereits heute gibt es relativ gut funktionierende Spracherkenner, die das<br />
Wählen per Stimme ermöglichen. Typischerweise erwarten sie eine kurze<br />
Einlernphase, in der der Benutzer die Namen der möglichen Gesprächspartner<br />
vorsprechen und so eintrainieren muß. Dadurch werden die Erkenner<br />
sprecherabhängig. Einige Systeme ermöglichen sogar eine sprecherunabhängige<br />
Erkennung der Ziffern 0 bis 9 und einiger spezieller vorgegebener<br />
Kommandos. Außer der Bedienung von Mobiltelefonen gibt es auf ähnliche<br />
Weise funktionierende Systeme zur Steuerung bestimmter Funktionen<br />
elektrischer und elektronischer Geräte im Auto. Über die Sinnhaftigkeit, die<br />
Lautstärke oder den Sender des Autoradios per Stimme einzustellen, mag<br />
man streiten. Typischerweise sind die dazu nötige Zeit und Aufmerksamkeit<br />
relativ gering. Die Steuerung sicherheitsrelevanter Funktionen wie Bremsen,<br />
Beleuchtung und so weiter wird man auf absehbare Zeit nicht automatischen
12 1. Nutzen und Anwendungen<br />
Spracherkennern überlassen, solange die Erkennungsgenauigkeit nicht sehr<br />
nahe bei 100% liegt.<br />
Es ist aber zu erwarten, daß in Zukunft im Auto einige zusätzliche<br />
Funktionen einziehen werden, die heute noch gar nicht oder nur wenig<br />
verbreitet sind. Alle Hersteller von Automobilen planen für die Zukunft<br />
sogenannte Car-PCs, also vollwertige Computer mit leistungsstarker Hardware,<br />
einem Betriebsystem und vielfältiger Software. Viele Funktionen, die<br />
heute in verschiedenen Geräten stecken (Radio, Navigation, Bordelektronik,<br />
Fahrtenbuch etc.) können dann in einem Gerät vereint werden. Das wird<br />
zum einen Kosten senken und zum anderen neue interessante Möglichkeiten<br />
eröffnen. Insbesondere wird es möglich sein, während der Fahrt Arbeiten zu<br />
erledigen, die heute kaum machbar sind. So werden Autofahrer das Auto<br />
auch als mobiles Büro nutzen können. Das Auto wird eine Verbindung zum<br />
Internet haben, es wird möglich sein, E-Mails zu diktieren, abzuschicken<br />
oder E-Mails von anderen Leuten zu empfangen. Man wird während der<br />
Fahrt im World-Wide-Web surfen können, das Navigationssystem wird<br />
nicht nur den Weg zum Ziel weisen, sondern wird sich mit dem Fahrer<br />
unterhalten können und auch über freie Hotelzimmer und Zimmerpreise, die<br />
Speisekarten naheliegender Restaurants oder die aktuellen Programme der<br />
Kinos in der Umgebung informieren. Eine derart komplizierte Interaktion<br />
kann – wenn überhaupt – nur mit natürlicher Sprache gemacht werden. Es<br />
wäre dem Fahrer weder zuzumuten, seine Eingaben per Tastatur oder Mini-<br />
Joystick zu machen, noch daß er eine Sammlung von Kommandowörtern<br />
oder Sequenzen derselben auswendig lernen müßte, um die Funktionen des<br />
Car-PCs zu steuern. Spontane unvorbereitete Sprache ist aber wesentlich<br />
schwieriger zu erkennen als zum Beispiel sorgfältig vorgelesene Sprache. Die<br />
grammatikalische Korrektheit und die Freiheit von Aussprachefehlern wird<br />
auch nachlassen, wenn wie beim Autofahren davon auszugehen ist, daß die<br />
Hauptkonzentration des Sprecher bei anderen Aktivitäten als dem Sprechen<br />
liegt, nämlich dem Beobachten des Verkehrs und dem Führen des Fahrzeugs.<br />
Schließlich kommt noch eine dritte Problematik hinzu: Die akustischen<br />
Verhältnisse in Fahrenden Autos sind alles andere als ideal. Störgeräusche<br />
kommen vom Motor, dem Autoradio, Blinkern, Scheibenwischern, dem<br />
Fahrtwind, eventuellem Regen und von anderen Verkehrsteilnehmern. Die<br />
Qualität des Sprachsignals, hängt zudem von der Kopfstellung des Fahrers<br />
ab und davon, ob die Fenster geöffnet oder geschlossen sind.<br />
Die Anstrengungen auf dem Gebiet der Spracherkennung im Auto zielen<br />
vor allem auf die Problematik der großen Variabilität und der niedrigen<br />
Qualität der Sprachsignale ab. In [?] [?] wird gezeigt, wie es möglich ist,<br />
basierend auf Spracherkennern, die für Erkennung in einer Büroumgebung<br />
entwickelt wurden, durch kleine Änderung und durch das Wissen über die<br />
typischen Geräusche in Autos, automatisch Erkenner zu erzeugen, die in
1.2 Anwendungsbeispiele 13<br />
Fahrenden Fahrzeugen mindestens so gut funktionieren wie Erkenner, die<br />
speziell für die Erkennung im Auto mit im Auto gesammelten Beispieldaten<br />
trainiert wurden.<br />
1.2.11 Persönliche Digitale Assistenten (PDAs)<br />
Mobilität macht sich heute nicht nur durch Auto-Mobilität bemerkbar, sondern<br />
vor allem auch dadurch, daß Dinge, die früher stationär waren, relativ<br />
leicht portabel werden. Dazu gehören Geräte wie Telefone, Fernsehempfänger<br />
und Computer. Diese verschmelzen sogar immer mehr miteinander. PDAs<br />
werden heute schon mit Mobilfunkfähigkeit ausgestattet, und so manches<br />
Mobiltelefon bietet seinem Benutzer nicht nur die Möglichkeit, einfach<br />
Spiele zum Zeitvertreib zu spielen, sondern sogar volle Programmierbarkeit<br />
in verschiedenen Programmiersprachen und die Funktionalität, die typischerweise<br />
in PDAs vorhanden ist, wie Terminkalender, Notizblock und<br />
Adressensammlung. Im Hinblick auf die baldige Einführung der UMTS<br />
Technik wird heute schon neben der Möglichkeit der Bildtelefonie davon<br />
gesprochen, daß Internetinhalte wie Videos oder sogar Live-Empfang von<br />
digitalem Fernsehen dargestellt werden können.<br />
Die meisten Benutzer bevorzugen leichte und kleine Geräte, die unproblematisch<br />
mitzuführen sind. Aber je kleiner die Geräte werden, umso<br />
schwieriger wird es, Tastaturen oder andere Eingabegeräte unterzubringen.<br />
Die meisten Mobiltelefone haben eine Tastatur mit nur wenigen Tasten,<br />
so daß Eingeben von Texten zum Beispiel für SMS sehr umständlich und<br />
langwierig ist. Selbst mit viel Übung dauert es wesentlich länger als auf<br />
einer Standard Computertastatur. Einige Geräte bieten die Möglichkeit<br />
an, Eingaben mit Hilfe eines Stiftes auf einer berührungsempfindlichen<br />
Oberfläche zu machen. Dabei können Zeichen nach vorgegebenem Muster<br />
oder sogar in der eigenen vorher einzutrainierender Handschrift geschrieben<br />
werden. Dies kann zwar mit etwas Übung deutlich schneller gehen als mit<br />
einer kleinen Telefontastatur, allerdings braucht man in der Regel dazu beide<br />
Hände und den freien Blick auf die Geräte, was sie in vielen Situationen<br />
kaum benutzbar macht.<br />
Einige PDAs bieten schon heute Spracherkennungsfähigkeiten. Allerdings<br />
sind diese vor allem wegen der noch zu geringen Rechenleistung der<br />
Geräte sehr schwach. Das erkennen einzelner isolierter Kommandos aus<br />
einer vorgegebenen relativ kleinen Menge von Kommandos funktioniert<br />
ausreichend gut, aber das Diktieren von Briefen oder gar freies spontanes<br />
Sprechen beliebiger Inhalte wird auf PDAs noch etwas länger dauern als<br />
es ohnehin schon für Desktop PCs dauern wird. Zweifellos wird aber die
14 1. Nutzen und Anwendungen<br />
Spracherkennung die Verwendbarkeit von PDAs wesentlich verbessern.<br />
1.2.12 Mobile Informationssysteme<br />
Betrachten wir die Entwicklung in der Informationstechnologie der letzten<br />
Jahre und Jahrzehnte, so läßt sich eins deutlich erkennen. Eine der am<br />
meisten florierenden Sparten ist die der mobilen <strong>Kommunikation</strong>. Die<br />
Mobiltelefonie hat seit Anfang der neunziger Jahre einen Aufschwung erlebt,<br />
den damals niemand ernsthaft vorherzusagen wagte. Die Geschwindigkeit,<br />
mit der neue Telefon-Hardware und neue Dienste angeboten werden ist<br />
atemberaubend. Bereits heute übertrifft der Leistungsumfang und die Miniaturisierung<br />
der Geräte bei weitem das, was man sich zum Beispiel in den<br />
sechziger Jahren in Science-Fiction Serien wie dem ” Startrek“ erst für die<br />
Zeit in zweihundert Jahren vorgestellt hatte. Ein in diesem Zusammenhang<br />
erkennbarer Trend ist die Nutzung der Mobiltelefone für immer mehr Zwecke<br />
als für die reine sprachliche <strong>Kommunikation</strong>. Fotografie, Internetzugang,<br />
ja sogar einige Aspekte des mobilen Büros werden angeboten. Die Geräte<br />
Mobiltelefon und PDA verschmelzen immer mehr miteinander und sie werden<br />
recht bald zusätzlich nicht nur Diktiersysteme und Navigationssysteme<br />
enthalten, sie werden sich zum persönlichen mobilen Informationssystem<br />
entwickeln, das seinen Benutzer und dessen Profil kennt und jederzeit die<br />
für ihn interessanten Informationen zu Verfügung hält und entsprechende<br />
Fragen beantworten kann. Prototypen für sprachgesteuerte tragbare Touristeninformationssysteme<br />
existieren bereits [?] [?]. Solche Systeme erlauben<br />
es ihren Benutzern, nach dem Weg zu fragen und sich durch eine fremde<br />
Stadt navigieren zu lassen, sich Informationen über Sehenswürdigkeiten<br />
geben zu lassen, ja sogar in den wichtigsten touristischen Szenarien wie<br />
Hotelankunft, Souvenireinkauf, Restaurantbesuch und so weiter zwischen<br />
verschiedenen Sprachen übersetzen zu lassen.<br />
1.2.13 Das Heim-Multimedia-Terminal im Intelligenten Raum<br />
Eine andere Entwicklung der letzten Zeit ist die Technisierung vieler<br />
alltäglicher Vorgänge und Geräte. Hierbei ist nicht nur ein Zuwachs des<br />
Leistungsumfangs viele technischer und unterhaltungselektronischer Geräte<br />
zu beobachten, auch die Verschmelzung dieser ist ein Trend. So erfüllen<br />
heutige Personal Computer immer mehr Zwecke und vereinen immer<br />
mehr Geräte wie zum Beispiel das Telefon – für Computer-Telephony-<br />
Integration hat sich das Kürzel CTI schon eingebürgert – Faxgeräte, CDund<br />
Videoabspielgeräte, Videorecorder [?] [?] und Raumsteuerung [?]. Die<br />
Erweiterung der Befriedigung des Informationsbedarfs durch das World-<br />
Wide-Web geht einher mit einer kaum noch persönlich zu bewältigenden
1.2 Anwendungsbeispiele 15<br />
Informationsflut. Deshalb ist zu erwarten, daß in Zukunft in vielen Heimen<br />
eine Art Heim-Multimedia-Terminal zu finden sein wird, welches seine<br />
Nutzer kennt, Nachrichten für sie aussucht und aufbereitet und per Sprache<br />
bedienbar sein wird. Die Benutzer werden nach Hause kommen und ihr<br />
Multimedia-Terminal fragen ” Was gibt’s Neues?“ und dieses wird dann dem<br />
Sportinteressierten die neuesten Fußballergebnisse nennen und dem politisch<br />
interessierten über die neuesten Kabinettsbeschlüsse berichten. Es wird<br />
auch als intelligenter Anrufbeantworter fungieren und die meisten Aufgaben<br />
einer Bürokraft erledigen wie die Verwaltung und teilweise autonome<br />
Durchführung der Korrespondenz oder das Organisieren von Ereignissen und<br />
Reisen. Um diesen enormen Funktionsumfang benutzerfreundlich anbieten<br />
zu können wird es um die sprachliche Bedienung keinen Weg herum geben.<br />
Auf lange Sicht wird das Multimedia-Terminal keinen konkreten Platz<br />
im Raum einnehmen, sondern überall, wo es der Benutzer gerne benutzen<br />
möchte, verfügbar sein. So werden Projektoren Informationen auf vielen<br />
verschiedenen Wänden im Haus darstellen können. Wenn der Benutzer sich<br />
aufs Sofa setzt, werden die Nachrichten auf dem Fernsehgerät dargestellt,<br />
wenn er im Flur ist, am LCD-Display, das an der Wand hängt und sonst<br />
zumeist ein Gemälde darstellt, wenn er im Bürozimmer ist, dann auf<br />
dem Computer-Monitor und so weiter. Das intelligente Haus wird voller<br />
intelligenter Räume sein die alle die Aktivitäten der Benutzer verfolgen<br />
– nicht nur was diese sagen, sondern auch wo sie sich befinden, welche<br />
Gesten sie machen und sogar in welcher Gemütslage sie sich befinden – um<br />
jederzeit die passenden Dienste anzubieten und erwartungsgemäß auf die<br />
Benutzerwünsche reagieren zu können.<br />
1.2.14 Ein provokativer Ausblick<br />
Woran denken wir, wenn wir uns die Spracherkennung in ferner Zukunft vorstellen?<br />
Den meisten von uns werden vermutlich Szenen aus Science-Fiction<br />
Filmen einfallen, in denen Sprache auf irgend eine Art von <strong>Maschine</strong>n<br />
erkannt wird. Schon in der Ersten Staffel der Serie ” Raumschiff Enterprise“<br />
gibt es eine Folge, in der jemand spricht und eine mechanische Schreibmaschine<br />
das Gesprochene tippt. Während dies vor 30 Jahren noch ziemlich<br />
realitätsfremd war, wäre diese Szene heute kein Science-Fiction mehr. Aber<br />
es gibt viele andere Szenen, in denen die <strong>Maschine</strong>n nicht nur erkennen, was<br />
gesprochen wurde, sondern auch noch verstehen, was der <strong>Mensch</strong> meint.<br />
Der Computer weiß, wann er angesprochen wird, und wann er nicht mehr<br />
gebraucht wird. Er ist meist zwar logisch, aber versteht trotzdem auch<br />
Konzepte wie Humor und mehrdeutige Äußerungen. Die Ultimative Sprache<br />
erkennende <strong>Maschine</strong> ist der Android. Diese <strong>Maschine</strong> ist in vielen Beziehungen<br />
dem <strong>Mensch</strong>en nachempfunden. Dabei ist das Gesamtbild ” künstlicher
16 1. Nutzen und Anwendungen<br />
<strong>Mensch</strong>“ so dominant, daß das Detail ” die <strong>Maschine</strong> erkennt Sprache“ so<br />
selbstverständlich und unwichtig ist, daß es nicht einen Moment in Frage<br />
gestellt wird. Auch die perfekte Funktionsweise wird stets erwartet. Ein<br />
Android in einem Science-Fiction hat bestenfalls algorithmische Probleme.<br />
Er weiß nicht, wie er sich verhalten soll, oder er hat mechanische Probleme,<br />
aber eine fehlerhafte Erkennung von Sprache kommt genauso selten oder<br />
noch seltener vor als bei lebenden <strong>Mensch</strong>en. Was ist es, das viele von uns so<br />
fasziniert, wenn wir daran denken, Spracherkennungssysteme zu entwerfen.<br />
Abgesehen von einigen, die die ganze Sache sehr nüchtern sehen und alles nur<br />
als Mittel zur Verbesserung der Lebensqualität (nicht zuletzt der eigenen)<br />
sehen, steckt doch oft in einigen Forschen ein kleiner Dr. Frankenstein. Der<br />
Wunsch, Eigenschaften natürlichen Lebens nachzubauen, zu mechanisieren,<br />
automatisch reproduzierbar zu machen, die Erfüllung des Traumes des deus<br />
ex machina erhebt uns ein wenig zu Halbgöttern.
2. Eigenschaften und Taxonomie von Sprache<br />
und Spracherkennern<br />
In diesem Kapitel wollen wir einige Eigenschaften von Spracherkennern und<br />
Spracherkennungsaufgaben besprechen. Diese werden uns helfen, schneller<br />
beurteilen zu können, wie schwierig einzelne Aufgaben mit der heutigen Technik<br />
zu lösen sind, und welche Aufgaben welche Ressourcen und welche Erfolgsaussichten<br />
haben. So werden wir im folgenden auch eine Taxonomie der<br />
Spracherkennung einführen, eine Sammlung von Begriffen, mit denen Erkennungssysteme<br />
beschrieben werden, wie Automobile mit PS, Hubraumzahlen<br />
und Beschleunigungszeiten.<br />
2.1 Sprecherabhängigkeit<br />
Da wir nicht ausreichendes Wissen darüber haben, was genau die Akustik<br />
eines Wortes oder eines Phonems ausmacht, haben bisher alle Ansätze,<br />
Sprache rein wissensbasiert zu erkennen keinen zufriedenstellenden Erfolg<br />
gehabt. Das größte Problem ist, daß ein und dasselbe Wort, ja sogar ein<br />
und derselbe Laut auf quasi unendliche viele verschiedene Arten artikuliert<br />
werden kann. Wir <strong>Mensch</strong>en besitzen die faszinierende Gabe, bestimmte<br />
Laute sofort identifizieren zu können, egal ob sie normal gesprochen oder<br />
geschrien oder geflüstert oder gesungen werden. Es ist auch egal, von welcher<br />
Person sie gesprochen werden. Unser Gehirn befähigt uns, sehr schnell diese<br />
sprecherspezifischen Eigenschaften eines Sprachsignals von denen, die über<br />
alle Sprecher hinweg in etwas konstant sind, zu trennen und die Erkennung<br />
der Sprache auf dem sprecherunabhängigen Teil des Signals durchzuführen.<br />
In der automatischen Spracherkennung sind einige andere Abhängigkeiten<br />
des Sprachsignals bekannt und haben ähnliche Probleme wie die Sprecherabhängigkeit.<br />
Im allgemeinen kann man sagen, die akustische Ausprägung<br />
eines Lautes oder Wortes variiert mit einigen Variablen wie zum Beispiel<br />
der Variablen ” Sprecher“ oder ” Übertragungsleitung“ oder ” Hintergrundgeräusche“<br />
oder ” Sprechstil“. Es leuchtet ein, daß statistische Verfahren,<br />
die wir mangels Wissen über das Sprachsignal verwenden müssen, größere<br />
Probleme haben, Modelle für bestimmte sprachliche Einheiten zu schätzen,<br />
wenn die Beispielmuster stark variieren. Daher funktionieren Erkenner, die
18 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
mit uniformen bzw. wenig variierenden Daten trainiert wurden und auf<br />
passenden Daten eingesetzt werden, besser. Die Parameter der Modelle für<br />
eine sprecherabhängige Datenmenge sind viel ” schärfer“ und leichter von<br />
anderen Modellen zu unterscheiden als bei sprecherunabhängigen Daten.<br />
In einigen Situationen ist es unproblematisch, sprecherabhängige Erkenner<br />
zu verwenden. Bei persönlichen Diktiersystemen zum Beispiel, oder<br />
erst recht bei sicherheitskritischen Anwendungen, die sowieso nur von<br />
einer bestimmten Person verwendet werden dürfen. In solchen Situation<br />
ist man gut beraten, die höhere Leistungsfähigkeit sprecherabhängiger<br />
Systeme auszunutzen. Im allgemeinen jedoch wird man auf Anwendungen<br />
treffen, bei denen der Sprecher keine Zeit hat, erst langwierig seine Stimme<br />
einzutrainieren. Wer will schon erst einen langen Text vorlesen, ehe er<br />
am Fahrkartenautomaten sein Ziel eingeben kann? Daher fokussiert sich<br />
die Spracherkennungsforschung auf die sprecherunabhängige Erkennung,<br />
bestenfalls gesteht man ein, daß wenige Sekunden Sprache verwendet werden,<br />
um die Parameter der Erkenner an den Sprecher zu adaptieren. Ein Teil der<br />
Forschungsanstrengungen versucht das Sprachsignal so zu verarbeiten, daß<br />
die sprecherspezifischen Eigenschaften ausgeblendet werden und möglichst<br />
nur noch sprecherunabhängige übrigbleiben.<br />
2.2 Kontinuierlichkeit<br />
Die Erkennung einzelner Kommandos ist aus verschiedenen Gründen, die<br />
in den folgenden Kapiteln beleuchtet werden, einfacher als die Erkennung<br />
fließender Sprache. Bei gleichen zur Verfügung stehenden Ressourcen<br />
und gleich großem Vokabular funktioniert die Einzelkommandoerkennung<br />
präziser als die Erkennung kompletter beliebig formbarer Sätze. Das heißt,<br />
daß insbesondere bei Anwendungen, die mit wenig Ressourcen auskommen<br />
müssen, wie zum Beispiel Mobiltelefone, und bei Anwendungen, die kein<br />
großes Vokabular benötigen, wie zum Beispiel das Eingeben einer Telefonnummer,<br />
die Wahl eines Einzelkommandoerkenners naheliegt.<br />
In vielen Situationen ist aber ein fließendes Sprechen natürlicher. Eines<br />
der wichtigsten Ziele der automatische Spracherkennung ist es, die <strong>Kommunikation</strong><br />
von <strong>Mensch</strong>en mit <strong>Maschine</strong>n natürlicher zu machen. Daher<br />
beschäftigen sich die meisten Spracherkennungsforscher mit der Problematik<br />
der kontinuierlichen Spracherkennung.
2.3 Spontaneität<br />
2.3 Spontaneität 19<br />
Eine der wichtigsten Qualitäten einer Spracherkennungsaufgabe ist die Spontaneität<br />
der dabei gesprochenen Sprache. Man unterscheidet verschiedene<br />
Spontaneitätsgrade. Am einen Ende der Skala steht die sauber vorgelesene<br />
grammatikalisch korrekte Sprache. In der Praxis sind Situationen, in denen<br />
eine solch hoch qualitative Sprache erkannt werden soll, recht selten. Wenn<br />
die Texte, die vorgelesen werden, sowieso schon als Text vorliegen, ist es<br />
sicher einfacher, die Textvorlage zu verwenden als die Audioaufnahme des<br />
Vorgelesenen – immerhin machen heutige OCR-Systeme immer noch wesentlich<br />
weniger Fehler als Spracherkenner. Dennoch wurde lange Zeit bis Mitte<br />
der 90er Jahre zum größten Teil mit gelesen Daten (Resource Management<br />
Task [?], Wall Street Journal Task [?]) experimentiert, weil man von den<br />
Problemen, die eine größere Spontaneität mit sich bringt abstrahieren wollte.<br />
Am anderen Ende der Skala liegt die völlig ungeplante Sprache, so wie<br />
sie zwischen einander gut bekannten <strong>Mensch</strong>en stattfindet. Zu den die Erkennung<br />
erschwerende Eigenschaften der spontanen Sprache gehören solche<br />
Effekte wie stark variable Sprechgeschwindigkeit, Lautstärke und Betonung,<br />
grammatikalisch falsche Konstrukte, abgebrochene oder wiederholte Wörter,<br />
Stottern, vermehrt auftretende nichtsprachliche Geräusche wie Atmen und<br />
andere Geräusche des Artikulationsapparates (Schmatzen, Husten, Zungenund<br />
Lippenbewegungen etc.), schlechte oder unkorrekte Aussprache vieler<br />
Wörter, vermehrte Verwendung von Akzenten oder Dialekten, hyperartikulierte<br />
und auch schwach artikulierte Wörter und Phrasen, stille und<br />
emphatische ( ” äh“) Pausen. In der Praxis kommt oft noch hinzu, daß die<br />
Erkennung solcher Sprache zusätzlich noch dadurch erschwert wird, daß<br />
die <strong>Kommunikation</strong> in nicht schallisolierten Räumen stattfindet, sondern<br />
in geräuschbehafteten Umgebungen mit Mikrophonen, deren Position und<br />
Qualität eventuell unbekannt sind.<br />
2.3.1 Grammatikalität<br />
Beim fließenden spontanen Sprechen werden viele grammatikalisch unkorrekte<br />
Sätze gesprochen, teilweise unbeabsichtigt, weil weniger Zeit zur Planung<br />
eines Satzes als beim Schreiben zur Verfügung steht, und teilweise beabsichtigt,<br />
um kürzere Äußerungen zu formulieren, die die gewünschte Information<br />
trotzdem übertragen. In einigen Sprachen entstehen grammatikalische<br />
Unkorrektheiten auch indirekt durch eine Veränderung der Aussprache. Im<br />
Deutschen zum Beispiel wird der Akkusativ des unbestimmten Artikels ein“<br />
”<br />
also das Wort einen“ oft verkürzt wie der Nominativ gesprochen. Zum<br />
”<br />
Beispiel würde der folgende Satz beim Hörer keine Probleme verursachen:<br />
” Lassen Sie uns ein Termin ausmachen“. Eine geübte Bürokraft würde beim
20 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
Diktat dieses Satzes auch ohne großes Nachdenken die Akkusativform zu<br />
Papier bringen. Für einen automatischen Spracherkenner gehört aber schon<br />
ein wenig Intelligenz dazu, dies zu erkennen. Grammatikalisch falsche Sätze<br />
entstehen auch als mittelbare Folge anderer spontansprachlicher Effekte, die<br />
im folgenden beschrieben werden.<br />
Warum sollte ungrammatikalische Sprache schwieriger zu erkennen sein<br />
als grammatikalisch korrekte? In der Tat sollte da kein Unterschied sein,<br />
wenn jedes Wort isoliert und ohne Wissen um seinen Kontext erkannt werden<br />
müßte. Aber selbst, wenn isolierte Wörter erkannt werden müssen, ist das<br />
Wissen um den Kontext, in dem es gesprochen wird, für die Erkennung<br />
hilfreich, weil in einem bestimmten Kontext nicht jedes Wort erwartet oder<br />
zumindest nicht für wahrscheinlich angesehen wird. So läßt sich also eine<br />
Auswahl oder eine Gewichtung der zu erkennenden Wörter treffen, die<br />
bei der Erkennung hilfreich sein kann. Und bei fließender Sprache haben<br />
ungrammatikalische Phasen in einem Satz auch oft eine Unterbrechung<br />
des Redeflusses zur Folge oder bringen den Sprecher zum Stottern, was<br />
wiederum schlecht für die Erkennung ist.<br />
2.3.2 Wortabbrüche<br />
Ein typisches Phänomen beim spontanen Sprechen sind abgebrochene<br />
Wörter. Es gibt unterschiedliche Gründe dafür. In manchen Fällen kommt es<br />
daher, daß wir eine etwas unwahrscheinliche Wortfolge sagen wollen und uns<br />
eine dazu ähnliche aber viel wahrscheinlichere Folge ” herausrutscht“. Man<br />
kann sich vorstellen, daß in unserem Gehirn einige festgefahrene Denkstrukturen<br />
existieren, auch Engramme genannt, die immer wieder ablaufende<br />
Prozesse quasi vorberechnen und bei Bedarf als aufrufbare Unterprozedur<br />
bereitstellen. Wenn nun solche Engramme dadurch in Aktion treten, daß sie<br />
zwar teilweise ablaufen sollen aber an irgendeiner Stelle davon abgewichen<br />
werden soll, dann geschieht es leicht, daß unser Denkprozeß in diesem<br />
Engramm quasi eine Weile festgehalten wird und sich erst ” befreien“ muß.<br />
Dabei schießt er zunächst über den Punkt hinaus, an dem vom Standardweg<br />
abgezweigt werden sollte. Wir merken aber dann schnell, daß wir im Begriff<br />
sind, etwas ganz anderes zu artikulieren als wir eigentlich sagen wollten.<br />
Manchmal rutscht uns ein ganzes Wort oder sogar mehrere Wörter heraus,<br />
manchmal bemerken wir den Fehler mitten in einem Wort und brechen<br />
dieses ab.<br />
In anderen Fällen kommen die Wortabbrüche daher, daß wir zwar bewußt<br />
etwas sagen, uns aber mitten im Satz entschließen, die Sache anders zu<br />
formulieren. Üblicherweise wird dann die angefangene Formulierung nicht zu<br />
Ende gebracht, sondern sofort abgebrochen, gegebenenfalls auch mitten in
einem Wort.<br />
2.3 Spontaneität 21<br />
Zu erkennen, daß ein akustisches Fragment einen Wortabbruch darstellt<br />
und kein eigenständiges kurzes Wort ist, ist meist nur mit Intelligenz und<br />
Wissen über den Kontext machbar. Deshalb stellen abgebrochene Wörter<br />
automatische Spracherkenner vor besondere Probleme.<br />
2.3.3 Deutlichkeit der Aussprache<br />
Spontane Sprache zeichnet sich auch dadurch aus, daß man sich keine<br />
Zeit nimmt, jedes Wort deutlich zu artikulieren. Das führt zum Weglassen<br />
(Elision) einzelner Laute, ja sogar ganzer Silben. So entstellte Wörter sind<br />
schwieriger zu erkennen. Oft kommt es vor, daß verschiedene Wörter zu den<br />
gleichen kleinen Fragmenten zusammenschrumpfen. Ohne Kontextwissen ist<br />
es nicht möglich festzustellen ob der Laut s“ die Abkürzung für es“, für<br />
” ”<br />
” das“ oder für ist“ ist. Genauso schwierig ist es zu bestimmen, ob der Laut<br />
”<br />
” n“ von ” den“, ” ein“ oder einen“ kommt.<br />
”<br />
Neben Elisionen gibt es auch andere Undeutlichkeiten. So werden Laute<br />
entstellt, indem beim spontanen Sprechen vermehrt Koartikulationseffekte<br />
durch sich überlagernde oder gegenseitig beeinflussende Laute auftreten. Es<br />
werden nicht nur einzelne Laute anders artikuliert als bei sorgfältig geplanter<br />
Sprache, sondern ganze Lautfolgen werden durch andere ersetzt. Nicht selten<br />
geht das so weit, daß eine Wortfolge wie ” haben wir“ ersetzt wird durch<br />
etwas wie ” hammer“. Solche extremen Koartikulationen kommen nicht nur<br />
in Dialektsprache sondern auch bei Sprache vor, die man auf den ersten<br />
Blick als Hochdeutsch bezeichnen würde.<br />
2.3.4 Betonte und unbetonte Pausen<br />
Da beim spontanen Sprechen nur ein Minimum an Planung stattfindet, aber<br />
manchmal doch viel Planung nötig, muß das Sprechen für diese unterbrochen<br />
werden. <strong>Mensch</strong>en verwenden vier Methoden, um die Planungspausen<br />
zu überbrücken. Die erste und einfachste ist, einfach nicht zu sprechen<br />
und während der Denkphase still zu sein. Die zweite ist das berühmte<br />
” äh“, das in verschiedenen Ausprägungen existiert. Im Deutschen sind<br />
die Formen äh“ und ähm“ die beliebtesten, aber auch mh“ wird gerne<br />
” ” ”<br />
verwendet. In anderen Sprachen sind andere solcher betonter (emphatischer)<br />
Pausen üblich. In einigen Sprachen werden sogar komplizierte Lautfolgen,<br />
ja sogar mehrsilbige Wörter zum Pausenfüllen benutzt wie zum Beispiel im<br />
Japanischen das Wort ano“. Die dritte Technik besteht darin, die zuletzt<br />
”
22 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
gesprochene Silbe in die Länge zu ziehen bis die Planung beendet ist, und<br />
der Redefluß fortgesetzt werden kann. Die vierte wird häufiger bei Sprachen<br />
mit vielen einsilbigen Wörtern (z.B. im ostasiatischen Raum) beobachtet.<br />
Dabei wird eine Silbe mehrfach hintereinander wiederholt. Das hört sich<br />
für manche Hörer ähnlich an wie Stottern, es handelt sich aber um einen<br />
anderen Effekt.<br />
2.3.5 Wiederholungen und Stottern<br />
Wiederholungen entstehen zum Beispiel, wenn man nach einer Unterbrechung<br />
z.B. durch eine betonte oder unbetonte Pause weiterspricht und dabei<br />
eine Phrase vollständig sprechen will: ” Da drüben steht eine - eine Vase.“<br />
Bei diesem Satz wurde nach der Pause die Nominalphrase ” eine Vase“ als<br />
komplette Einheit gesprochen.<br />
Andere Wiederholungen entstehen wie im vorigen Abschnitt beschrieben<br />
durch Ausfüllen von Planungspausen, dann aber normalerweise nur mit<br />
einsilbigen Wörtern.<br />
Mehrsilbige Wörter werden manchmal wiederholt, wenn der Sprecher den<br />
Eindruck hat, daß die erste Version nicht korrekt oder schwer verständlich<br />
ausgesprochen wurde.<br />
Schließlich gibt es auch noch beabsichtigte Wiederholungen, teilweise um<br />
der Verständlichkeit Willen, teilweise aus rhetorischen Gründen. Solche Fälle<br />
sind aber, da beabsichtigt, keine spontansprachlichen Effekte im eigentliche<br />
Sinne.<br />
Das Wiederholen von einzelnen Wortfragmenten, oft nur Fragmente<br />
von Silben oder einzelne Phoneme, landläufig auch Stottern genannt, stellt<br />
Spracherkenner vor Probleme. Stottern kann verschiedene Ursachen haben,<br />
auf die wir hier aber nicht eingehen wollen.<br />
2.3.6 Artikulatorische Geräusche<br />
Häufiger als bei geplanter oder vorgelesener Sprache tauchen bei spontaner<br />
Sprache Geräusche auf, die wir <strong>Mensch</strong>en leicht ” herausfiltern“ und so<br />
ignorieren können. Für einen automatischen Spracherkenner sind aber<br />
Atemgeräusche, Schmatzlaute und andere Geräusche, die durch den Artikulationsapparat<br />
verursacht werden kaum anders als reguläre Phoneme auch.<br />
Die häufigste Methode, dieses Problem anzugehen, besteht darin, solche
2.3 Spontaneität 23<br />
Geräusche wie jedes sprachliche Wort zu behandeln, und womöglich sogar<br />
die Kenntnis auszunutzen, daß einige Geräusche vermehrt an bestimmten<br />
Stellen auftreten. So werden Atempausen gerne zwischen vollständigen<br />
Phrasen gemacht und selten innerhalb dieser.<br />
2.3.7 Varianz der Sprechgeschwindigkeit<br />
In einem interessanten Experiment wurden Personen, die sich spontan<br />
unterhielten, aufgenommen und die Aufnahmen von Experten so transkribiert,<br />
daß jeder spontane Effekt und jedes artikulatorische Geräusch<br />
in der Verschriftung festgehalten wurde. Daraufhin wurden die Sprecher<br />
aufgefordert, die Verschriftungen noch einmal vorzulesen, dabei aber so<br />
spontan wie möglich zu klingen, also zu versuchen, das gleiche, was sie zuvor<br />
spontan gesprochen hatten, noch einmal möglichst exakt nachzusprechen.<br />
Schließlich wurden Spracherkenner auf beide Versionen angesetzt, und wie<br />
erwartet waren die Erkennungsraten auf den ursprünglichen Aufnahmen<br />
wesentlich schlechter als auf den nachgesprochenen Aufnahmen. Ein Grund<br />
für diese Beobachtung liegt darin, daß die Sprechgeschwindigkeit beim<br />
Vorlesen konstanter ist, als wenn völlig spontan gesprochen wird.<br />
Wortfehlerrate [%]<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
2 2.2 2.4 2.6 2.8 3 3.2 3.4<br />
Abb. 2.1. Wortfehlerrate über Sprechgeschwindigkeit<br />
Sprechgeschwindigkeit [Wörter/Sekunde]
24 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
In Abb. 2.1 ist die durchschnittliche (über die einzelnen Teilnehmer der<br />
DARPA Evaluation gemittelte) Wortfehlerrate auf den Wall Street Journal<br />
Daten von 1994 in Abhängigkeit von der Sprechgeschwindigkeit aufgetragen.<br />
Man erkennt nicht nur, daß die Fehlerrate bei sehr hohen Sprechgeschwindigkeiten<br />
dramatisch ansteigt. Auch bei besonders langsamer Sprechweise<br />
treten mehr Fehler auf als bei der mittleren Geschwindigkeit. Vergleichbare<br />
Beobachtungen werden bei Spracherkennern immer wieder gemacht. Je<br />
mehr die Testbedingungen vom Durchschnitt abweichen, umso schwieriger<br />
ist die Erkennung. Bei erhöhter Sprechgeschwindigkeit kommt zusätzlich<br />
zu der schlechten Übereinstimmung der Trainings- und Testdaten noch die<br />
Problematik hinzu, daß beim schnellen Sprechen viel öfter einzelne Laute<br />
extrem kurz und verfälscht ausgesprochen werden oder schlimmstenfalls<br />
sogar ganz ausgelassen werden.<br />
2.4 Erkennungsszenario<br />
Je kompakter das Szenario ist, umso wahrscheinlicher ist es, daß ein guter<br />
Erkenner dafür gebaut werden kann. Dies hängt zum einen damit zusammen,<br />
daß das Vokabular eines kompakten Szenarios kleiner ist, zum anderen damit,<br />
daß die Menge der verwendeten Sprachkonstrukte und Wortfolgen auch klein<br />
ist. Durch ein Szenario wird eine Erwartung vorgegeben. Erkennung bedeutet<br />
Vergleichen der aufgenommenen Sprache mit möglichen Erwartungen. Je<br />
kleiner die Menge der Erwartungen, umso weniger wahrscheinlich ist eine<br />
Verwechslung.<br />
2.5 Perplexität<br />
Auch wenn wir den Begriff der Perplexität erst in Kapitel 16 formal<br />
definieren, so wollen wir ihn doch schon hier verwenden. Zunächst genügt<br />
es zu wissen, daß die Perplexität ein Maß dafür ist, wie viele Wörter<br />
ein Erkenner im Schnitt gleichzeitig erkennen können muß. Eine niedrige<br />
Perplexität bedeutet, daß nur wenige Wörter zu einem Zeitpunkt<br />
zu unterscheiden sind, was bedeutet, daß die Erkennungsaufgabe leicht<br />
ist. Eine hohe Perplexität heißt, daß die Verwechslungsgefahr höher ist<br />
und damit auch die Fehlerwahrscheinlichkeit und die Schwierigkeit der<br />
Erkennungsaufgabe. So ist es zum Beispiel wesentlich einfacher, von einem<br />
Arzt diktierte Diagnosen zu erkennen, als den Name einer Person, die sich<br />
vorstellt. Während die Sprache von ärztlichen Diagnosen relativ uniform<br />
ist und an einer Stelle nur wenige verschiedene Wörter erwarten läßt,
2.6 Die Signalqualität 25<br />
muß beim Erkennen eines Namens dieser aus einer Menge von mehreren<br />
Millionen ausgewählt werden. Im Gegensatz zu so manchem ersten Eindruck<br />
ist es auch keineswegs schwierig, Wörter wie ” Desoxyribonukleinsäure“<br />
zu erkennen. Womit könnte denn so ein Wort überhaupt verwechselt werden?<br />
2.6 Die Signalqualität<br />
Eine interessante Beobachtung kann man mit fast jedem Spracherkenner machen:<br />
Wenn die Übereinstimmung der zu erkennenden Aufnahme mit einem<br />
Muster oder einem Modell über der Zeit gemessen wird, hat die Meßkurve<br />
stets in etwa den gleichen Verlauf, unabhängig vom Vergleichsmuster oder<br />
dem zugrundegelegten Modell. Das heißt, die Varianz der Übereinstimmung,<br />
die durch den Vergleich mit verschiedenen Modellen entsteht, ist meist<br />
deutlich kleiner als die Varianz, die durch das Signal beziehungsweise seine<br />
Qualität selbst entsteht. Dies mag auf den ersten Blick als Problem für die<br />
Spracherkennung erscheinen. In der Praxis kommt es aber auf die Varianz<br />
der Signalqualität gar nicht so sehr an. Denn wenn es darum geht, das am<br />
besten passende Modell zu einer Aufnahme zu finden, werden tatsächlich nur<br />
die Übereinstimmungsunterschiede bei Vergleich mit verschiedenen Modellen<br />
gemessen und davon das Optimum für die Klassifikation verwendet.<br />
Trotzdem hat die Qualität des Signals einen großen Einfluß auf die Erkennungsrate.<br />
Dabei sind manche Störungen, die der <strong>Mensch</strong> als unerträglich<br />
empfindet (z.B. Rauschen) für Spracherkenner weniger problematisch und<br />
andere, die der <strong>Mensch</strong> fast überhören kann (z.B. laute Hintergrundmusik,<br />
Stimmen anderer <strong>Mensch</strong>en) vom Erkenner sehr schwer in den Griff zu<br />
bekommen.<br />
Die Signalqualität hängt von der Aufnahmeumgebung ab. Welche<br />
Geräusche außer der zu erkennenden Sprache gibt es noch? Was für ein<br />
Mikrophon wird verwendet und wie ist es relativ zum Sprecher positioniert?<br />
Was für ein Übertragungskanal wird verwendet (störungsfrei oder Telefon)?<br />
2.6.1 Nahbesprechungsmikrophone<br />
Nahbesprechungsmikrophone haben die Eigenschaft, daß sie die Leistung<br />
des Audiosignals messen, welche umgekehrt proportional zum Quadrat des<br />
Abstands der Schallquelle vom Mikrophon ist. Das heißt, daß ein Mikrophon,<br />
das im Abstand von ca. 2 cm vom Mund – typisch für sogenannte Headsets<br />
oder Bügelmikrophone – befestigt ist, den Sprachschall 2000- bis 3000-facher
26 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
stärker aufnimmt, als gleichlaute Geräusche in etwa 1 m Entfernung. Der<br />
Autor hat selbst die Erfahrung gemacht, daß bei Verwendung eines billigen<br />
Nahbesprechungsmikrophons die Erkennungsgenauigkeit des auf mehreren<br />
Messen vorgeführten Spracherkenners nicht merklich darunter leidet, wenn<br />
am 10 m entfernten Nachbarstand so laute Musik gespielt wird, daß man sich<br />
dort fast nur schreiend unterhalten kann. Fast die gesamte Forschung auf<br />
dem Gebiet der Spracherkennung bis Mitte der neunziger Jahre wurde im<br />
wesentlichen mit Nahbesprechungsmikrophonen gemacht. Die Signalqualität<br />
von fernbesprechbaren Mikrophonen – oft auch Raummikrophone genannt<br />
– ist selbst bei vorherigem Wissen über den Abstand der Schallquelle zum<br />
Mikrophon deutlich schlechter. Die größten Schwierigkeiten aber kommen<br />
dadurch zum Vorschein, daß Störgeräusche jeglicher Art viel stärker in<br />
die Aufnahmen eingehen, vor allem dadurch, daß die Variationen der<br />
Signale, hervorgerufen durch viel mehr verschiedene mögliche Abstände und<br />
Eigenschaften der Raumakustik, stark zunehmen.<br />
Man kann feststellen, daß selbst bei großem Abstand (von ca. 2 bis 3<br />
Metern) Sprache noch verhältnismäßig gut erkannt werden kann, wenn zuvor<br />
dieser Abstand genau bekannt ist und keine Störgeräusche vorhanden sind.<br />
Das gelingt nur deshalb gut, weil der Spracherkenner auf diese besonderen<br />
Abstands- und Raumakustikverhältnisse spezialisiert wird. Wenn aber keine<br />
idealen Bedingungen vorliegen, und der Abstand nicht bekannt ist, fällt die<br />
Erkennungsgenauigkeit dramatisch ab.<br />
2.6.2 Telefongespräche<br />
Auch wenn in den Zeiten der Breitband-Individualkommunikation es immer<br />
mehr möglich ist, Sprache nahezu unverfälscht zu übertragen, so ist dennoch<br />
damit zu rechnen, daß in vielen Teilen der Welt noch eine Zeit lang Sprachkommunikation<br />
über das Medium Telefon geführt wird, so wie es seit über<br />
hundert Jahren praktiziert wird.<br />
Fast alle Telefonnetze der Welt verwenden einen Bandpaßfilter, der<br />
nur einen Teil des akustischen Spektrums durch die Leitungen überträgt –<br />
typischerweise in etwa zwischen 300 Hz und 3000 Hz. Nicht nur automatische<br />
Spracherkenner, auch <strong>Mensch</strong>en haben größere Probleme, Telefonsprache<br />
zu verstehen, als breitbandige Sprache. Insbesondere diejenigen Laute, die<br />
sich vor allen durch Frequenzanteile jenseits der oberen Grenze von 3000<br />
Hz manifestieren sind schwerer zu unterscheiden. So kann man z.B. am<br />
Telefon ein S von einem F viel schwerer trennen, als wenn man dem Sprecher<br />
gegenüber steht.
2.6 Die Signalqualität 27<br />
Allerdings besteht die Problematik bei der Telefonspracherkennung nicht<br />
nur in der kleineren Bandbreite der Signale, sondern auch darin, daß die<br />
Telefonleitungen und die Übertragungsgeräte (Telefone, Vermittlungsstellen,<br />
usw.) die Signale zusätzlich verzerren.<br />
Schließlich bleibt noch zu erwähnen, daß der Sprechstil beim Telefonieren<br />
sich vom Sprechen mit einem direkt sichtbaren Gegenüber unterscheidet.<br />
Gestik und Mimik werden bei rein akustischen Telefonen nicht übertragen<br />
und können somit nicht als zusätzliches <strong>Kommunikation</strong>smittel verwendet<br />
werden. Daher werden oft Sachverhalte, die sonst mittels Gesten ausgedrückt<br />
werden, mit Worten umschrieben. Auch das Wissen um die Verschlechterung<br />
des Sprachsignals führt dazu, daß man teilweise versucht, überdeutlich zu<br />
sprechen (Hyperartikulation).<br />
2.6.3 Hintergrundgeräusche<br />
Auch wenn bei Nahbesprechungsmikrophonen nur wenige Probleme mit<br />
Hintergrundgeräuschen zu beobachten sind, so kann man dennoch feststellen,<br />
daß bei hochspezialisierten Erkennern, zum Beispiel solchen, die stark auf<br />
einen bestimmten Sprecher in einer bestimmten Umgebung eingestellt sind,<br />
wie die ersten kommerziell erhältlichen Erkennungssyteme, der Wechsel der<br />
Umgebung oder auch das Hinzukommen von Hintergrundgeräuschen, die in<br />
der Trainingsphase noch nicht vorhanden waren, zu geringerer Erkennungsleistung<br />
führt.<br />
In vielen Fällen ist die Verwendung von Nahbesprechungsmikrophonen<br />
nicht opportun. Das Tragen eines Bügelmikrophons schränkt in einigen<br />
Situationen die (Bewegungs-)Freiheit des Sprechers zu sehr ein. Bei der<br />
Bedienung von Automaten, z.B. eines Fahrkartenautomaten am Bahnhof,<br />
kann nicht erwartet werden, daß der Benutzer sich ein Mikrophon zum<br />
Munde führt oder seinen Mund nahe an das Mikrophon halten muß.<br />
Auch beim Autofahren ist es angenehmer, wenn das Mikrophon nicht am<br />
Kopf befestigt ist, sondern sich beispielsweise irgendwo am Armaturenbrett<br />
befindet. Bei dieser Entfernung sind aber zahlreiche Geräusche wie das<br />
Motorengeräusche, der Lärm der anderen Verkehrsteilnehmer, die Geräusche<br />
von Geräten am und im Auto (Blinker, Scheibenwischer, Radio) deutlich in<br />
der Sprachaufnahme zu hören.<br />
Während es bei einigen Autogeräuschen wie dem eigenen Motor und<br />
dem Radio möglich ist, diese dort abzugreifen, wo sie entstehen und dann<br />
mittels relativ einfacher Filter aus der Sprachaufnahme nahezu komplett<br />
zu entfernen, so ist dies bei anderen Geräuschen, vor allem der Sprache
28 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
anderer Personen, kaum möglich. Der so genannte Cocktail-Party-Effekt<br />
beschreibt die Problematik, eine einzelne Stimme aus einem Wirrwarr vieler<br />
verschiedener Stimmen herauszuhören. Wir <strong>Mensch</strong>en sind bei dieser Aufgabe<br />
erstaunlich gut. Wir können selbst relativ leise Stimme von Personen<br />
verfolgen und mithören, die sich in einer <strong>Mensch</strong>enmenge weiter weg von uns<br />
befinden, als manche in unmittelbarer Nachbarschaft sprechende <strong>Mensch</strong>en.<br />
Wenn wir uns konzentrieren, können wir aus einer Aufnahme, auf der zwei<br />
bis drei Leute mit gleicher Lautstärke sprechen jeden einzelnen Sprecher<br />
heraushören und erkennen, was er sagt. Die Spracherkennungstechnik ist bei<br />
weitem noch nicht in der Lage diese Fähigkeit auch nur annährend so gut<br />
nachzuahmen.<br />
2.7 Das Vokabular<br />
Ein Kriterium, das die Anfänge der Entwicklung der Spracherkennungsforschung<br />
begleitet hat war die Größe des Erkennervokabulars, das heißt<br />
die Zahl der verschiedenen Wörter, die ein Erkenner gleichzeitig erkennen<br />
kann. Während man früher vor allem an der Erkennung einzelner Laute<br />
und später einzelner vollständiger Wörter arbeitete, wurde klar, daß die<br />
Schwierigkeit mit der Zahl der zu erkennenden Wörter schnell steigt.<br />
Spracherkennungssysteme waren nur für sehr eingeschränkte eng umrissene<br />
Aufgaben möglich. Anfang und Mitte der Achtziger Jahre sprach man<br />
noch von großen Vokabularen ab ca. 1000 Wörtern. In den Neunzigern war<br />
die Größe von 64000 Wörtern lange Zeit Standard für große Vokabulare<br />
(LVCSR = Large Vocabulary Continuous Speech Recognition). Diese Größe<br />
hatte drei Ursachen: Zum einen läßt sich so das Vokabular mit 16 Bits<br />
codieren, zum anderen genügt diese Größe, um im Englischen mehr als<br />
99% der in Zeitungstexten verwendeten Wörter abzudecken, und drittens<br />
wurde der in den Neunzigern beliebte Benchmarktest, der auf vorgelesenen<br />
Wall-Street-Journal-Artikeln basiert, auf eine Vokabulargröße von 60000<br />
Wörtern festgelegt.<br />
2.8 <strong>Kommunikation</strong>sart<br />
Einen wichtigen Einfluß auf die Schwierigkeit einer Erkennungsaufgabe hat<br />
die Art der <strong>Kommunikation</strong>. Damit meinen wir, ob sich zwei Personen<br />
miteinander unterhalten, also ein Dialog stattfindet, oder ob eine Person<br />
allein redet (z.B. Briefe diktiert oder einen Vortrag hält).
2.8 <strong>Kommunikation</strong>sart 29<br />
zu erkennende Aufgabe Vokabulargröße<br />
Ein/Aus-Schalter, Not-Aus-Schalter 1<br />
Triviales Menü (Ja/Nein) 2<br />
Ziffern 0 bis 9 (z.B. Telefonwahl) 10 + x<br />
Einfache <strong>Maschine</strong>n bedienen 20 − 500<br />
Informationssysteme<br />
(Zugfahrplan, Flugbuchung, Resource Management) 500 − 5 000<br />
Alltägliche <strong>Kommunikation</strong> 10 000 − 20 000<br />
Bürokorrespondenz 20 000 − 60 000<br />
Normales Englisch −200000<br />
Deutsche Zeitschrift (Süddeutsche) während eines Jahres 1 600 000<br />
Tabelle 2.1. Einige Beispiele für Vokabulargrößen<br />
Bei Dialogen oder gar bei Diskussionen mit mehreren Beteiligten kommen<br />
Probleme hinzu, die bei einzelnen Sprechern nicht zu erwarten sind, wie zum<br />
Beispiel das Abbrechen des Sprachflusses mitten im Satz, weil gerade eine<br />
andere Person spricht, oder auch das Inswortfallen oder Gleichzeitigsprechen<br />
mehrerer Sprecher.<br />
Der Stil der Sprache hängt auch stark davon ab, was man vom <strong>Kommunikation</strong>spartner<br />
erwartet. Mit einer vertrauten Person spricht man viel<br />
umgangssprachlicher, verwendet häufiger Dialekte, akustische Verschmierungen<br />
und Floskeln, die alle Gesprächspartner kennen. Beim Reden mit<br />
Fremden spricht man in der Regel deutlicher und vorsichtiger.<br />
Solange das Sprechen mit <strong>Maschine</strong>n nicht alltäglich ist - und vermutlich<br />
auch dann nicht, wenn es soweit ist - ist der Dialog mit <strong>Maschine</strong>n oft<br />
irgendwie unangenehm. Als Anrufbeantworter noch eine Besonderheit waren<br />
und in Deutschen Telefonbüchern sogar durch ein Q neben der Telefonnummer<br />
gekennzeichnet waren, empfanden viele Leute das Sprechen einer<br />
Aufnahme als sehr unnatürlich und irgendwie seltsam. Anrufbeantworter<br />
sind inzwischen alltäglich geworden. Dennoch sprechen sehr viele anders als<br />
mit einem menschlichen Gesprächspartner.<br />
Wenn man <strong>Mensch</strong>en dabei beobachtet, wie sie sich mit <strong>Maschine</strong>n unterhalten<br />
(z.B. mit einer Zugfahrplanauskunft oder einem System, das Auskunft<br />
über das Kinoprogramm gibt) kann man oft zwei Extreme beobachten.<br />
Manche <strong>Mensch</strong>en sprechen übervorsichtig und artikulieren übertrieben<br />
langsam mit vielen Pausen, verwenden ein vereinfachtes Vokabular und<br />
reden ähnlich wie mit einem Kind oder einem <strong>Mensch</strong>en der die Sprache
30 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
nicht versteht. Andere wiederum versuchen sich so zu verhalten als würden<br />
sie mit einem <strong>Mensch</strong>en reden, was oft dazu führt, daß die Grenzen des<br />
Erkennungssystems überschritten werden, und das System sich nicht wie<br />
erwartet verhält. Teilweise wird dann versucht, das System ins Lächerliche<br />
zu ziehen oder zu provozieren. Meist endet das damit, daß der Benutzer<br />
enttäuscht (oder manchmal auch erheitert) die <strong>Kommunikation</strong> aufgibt.<br />
2.9 Wie schwierig ist Spracherkennung<br />
Im Jahr 1971 hat die von der US-Amerikanischen Regierungsagentur ARPA<br />
eingesetzte ” Speech Understanding Systems Study Group“ einen Bericht [?]<br />
verfaßt, in dem die so genannten 19 Dimensionen von sprachverstehenden<br />
Systemen aufgelistet werden. Diese 19 Eigenschaften beschreiben insbesondere<br />
die Schwierigkeit der Erkennungsaufgabe. Es waren dies im einzelnen:<br />
Art der Sprache (Speech) einzelne Kommandos oder fließend<br />
Anzahl der Spracher einer oder mehrere<br />
Art der Sprecher Muttersprachler, Dialekt, etc.<br />
Art der Umgebung Geräusche, Lärm<br />
<strong>Kommunikation</strong>ssystem Übertragungsmedium, Telefon<br />
Systemtraining Menge der Trainingsdaten<br />
Sprechertraining Vorbereitung der Benutzer<br />
Vokabulars Größe und ” Freiheit“ des Wortschatzes<br />
Art der Sprache (Language) Menge der syntaktischen Regeln<br />
Aufgabe des Systems Menge der semantischen Regeln<br />
Sprecherpsychologie Modell des Benutzers<br />
Interaktivität Komplexität des Dialogs<br />
Zuverlässigkeit Welche/Wieviele Fehler sind tolerierbar<br />
Rechenzeit Wie schnell muß das Ergebnis vorliegen<br />
Rechnerleistung Anforderung an die Hardware<br />
Speicher Anforderung an den Rechnerspeicher<br />
Systemorganisation Komplexität des gesamten Systems<br />
Kosten Preis aller Bestandteile<br />
Fertigstellungstermin Wann wird das System fertig sein<br />
Abgesehen davon, daß uns heute einige Punkte als überspezifiziert erscheinen,<br />
insbesondere die Menge der Punkte über die Systemanforderungen,<br />
gibt es einzelne Dimensionen, die wir heute anders formulieren würden als<br />
1971. Immerhin war die Erkennung völlig freier Sprache mit Vokabularen in<br />
der Größenordnung von 10 5 Wörtern damals noch nicht machbar. So würden<br />
wir heute die Dimension ” Vokabular“ ergänzen durch die Perplexität der<br />
Aufgabe (die Zahl der im Mittel an einer Stelle des Erkennungsvorgangs zu
erwartenden Wörter).<br />
2.9 Wie schwierig ist Spracherkennung 31<br />
In der obigen Liste beziehen sich die meisten Punkte auf die Komplexität<br />
der Aufgabe. Zweifelsohne war der Rechen- und Speicheraufwand lange Zeit<br />
ein die Forschung stark einschränkendes Kriterium. Selbst heute, da die Leistung<br />
gewöhnlicher verbreiteter Prozessoren um mehrere Größenordnungen<br />
über derer von 1971 liegt, wären wir nicht so weit, wie wir sind, wenn nicht<br />
schon damals viel Energie darin investiert worden wäre, Spracherkennung<br />
mit den wenigen zur Verfügung stehenden Ressourcen zu machen. Es ist<br />
auch heute nicht abzusehen, daß die Leistung von Standardrechnern so<br />
dramatisch zunehmen wird, daß ein ökonomischer Umgang mit Zeit und<br />
Speicherplatz nicht mehr wichtig wäre.<br />
Dennoch kann man sagen, daß der größte Teil der Probleme der Spracherkennung<br />
nicht von der Komplexität sondern eher von der Variabilität<br />
kommt. Es ist so, daß aus den wenigen Bits pro Sekunde, die im Gehirn<br />
eines <strong>Mensch</strong>en entstehen, um eine Nachricht zu formulieren, schließlich<br />
eine Folge von typischerweise 256000 Bits pro Sekunde wird (s. Abb. 2.2).<br />
Ohne bedeutenden Informationsverlust, lassen sich diese 256 KBit um<br />
ca. 90% reduzieren. Diese Datenflut läßt sich relativ einfach und schnell<br />
verarbeiten. In einem Bruchteil der Zeit, in der die Daten anfallen, werden sie<br />
verarbeitet und in komprimierter Form dem eigentlichen Erkenner zugeführt.<br />
Technisches Gegenstück<br />
Sprachgenerierung<br />
gedruckter Text<br />
(50 bps)<br />
Phonemfolgen/Prosodie<br />
Formulierung<br />
der Nachricht<br />
(200 bps)<br />
diskret<br />
Codierung<br />
mit Sprache<br />
kontinuierlich neuromuskuläre<br />
Aktionen<br />
artikulatorische<br />
Bewegungsparameter<br />
(2000 bps)<br />
Schallquelle<br />
Stimmbänder<br />
Sprecher<br />
Artikulattionsapparat<br />
(30000 bps)<br />
Datenübertragung<br />
Abb. 2.2. Elemente der Sprachkommunikation<br />
Sprachverstehen<br />
Verstehen<br />
der Nachricht<br />
Sprachdekodierung<br />
Neuroübertragung<br />
Basilarmembran<br />
Zuhörer<br />
Bedeutung/Semantik<br />
Phoneme, Wörter,<br />
Sätze, Prosodie<br />
diskret<br />
kontinuierlich<br />
Merkmalsextraktion<br />
Spektralanalyse
32 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />
Aus der Sicht des automatischen Spracherkenners besteht Sprache aus<br />
einer über der Zeitachse aufgetragenen Folge von Spannungsmessungen, die<br />
am Mikrophon durch Luftdruckänderungen ausgelöst werden. In Abb. 2.3<br />
sind drei Aufnahmen des Wortes ” sieben“ von der selben Person dargestellt.<br />
Obwohl es sich jedes Mal um dasselbe Wort handelt, sehen die Aufnahmen<br />
sehr verschieden aus. Bis jetzt ist es noch niemandem gelungen definitiv<br />
festzulegen, wie bestimmte Laute in einer Aufnahme aussehen müßten oder<br />
welche Eigenschaften die Aufnahme haben müßte. Man kann sehr wohl<br />
einige Eigenschaften für die meisten Laute angeben. Allerdings zeigt sich in<br />
der Praxis, daß zum einen diese Eigenschaften nicht immer leicht zu messen<br />
sind und deren konkrete Ausprägung sehr stark schwanken kann, zum<br />
anderen genügt selbst die Feststellung dieser Eigenschaften nicht immer, um<br />
einen Laut zu identifizieren.<br />
Es ist faszinierend, mit welcher Selbstverständlichkeit, wir <strong>Mensch</strong>en einen<br />
Laut oder ein Wort verstehen können, unabhängig davon, ob sie laut oder<br />
leise, schnell oder langsam gesprochen sind, ob sie normal gesagt, geflüstert,<br />
geschrien oder gesungen werden, unabhängig davon, wer sie spricht, in welcher<br />
Gemütslage der Sprecher sind befindet, und unabhängig von vielen anderen<br />
das Signal maßgeblich verändernden Kriterien.<br />
Abb. 2.3. Drei Aufnahmen des Wortes ” sieben“
3. Geschichte der Spracherkennung<br />
Die Idee, Sprache automatisch zu erkennen, hat schon die <strong>Mensch</strong>en im<br />
Altertum fasziniert. Weltbekannt sind die Geschichten um Ali Baba, der<br />
versuchte, mittels des Paßwortes ” Sesam öffne dich“ in eine Höhle zu<br />
kommen. In Sizilien nahe der antiken Stadt Syrakus gibt es noch heute eine<br />
Höhle, die das Ohr des Dionysos genannt wird. Sie ist so geformt, daß sie wie<br />
eine riesige Ohrmuschel wirkt und im Altertum von den Syrakusern dazu<br />
benutzt wurde, die Geräusche von Angreifern frühzeitig zu erkennen.<br />
Die ersten Versuche, Sprache auf irgend eine algorithmische Art zu<br />
bearbeiten, gehen wohl auf Homer Dudley zurück. Der in vielen Abhandlungen<br />
über Spracherkennung zitierte Artikel [?] von 1939 ” Remaking<br />
Speech“ und schon zuvor in [?] beschreibt eine Erfindung, die Homer<br />
Dudley, ein Mitarbeiter der Bell Telephony Laboratories, 1928 gemacht<br />
hatte, die es ermöglichen sollte, Sprache über ein im selben Jahr verlegtes<br />
transatlantisches Kabel zu übertragen, obwohl das Kabel nur Frequenzen<br />
bis maximal 100 Hz übertragen konnte. Zwar waren 100 Hz für die damalige<br />
Zeit und für eine so weite Entfernung enorm, jedoch viel zu wenig, um damit<br />
verständliche Sprache zu übertragen. Dudleys Idee war es nun, einen so<br />
genannten ” Vocoder“ zu bauen, der bestimmte Eigenschaften des Sprachsignals<br />
extrahiert, diese codiert und über das Kabel schickt. Auf der anderen<br />
Seite könnte dann das Sprachsignal aus den übertragenen Eigenschaften<br />
wieder synthetisiert werden. Sprachübertragung durch elektromagnetische<br />
Wellen war damals schon weit verbreitet, selbst transatlantisch war dies<br />
schon gelungen, und im Hinblick darauf, daß damals nicht klar war, welche<br />
Eigenschaften des Sprachsignals übertragen werden sollten – die Bestimmung<br />
der Zustände des Artikulationsapparates war zwar angedacht aber technisch<br />
nicht machbar – war es nicht weiter verwunderlich, daß die Erfindung gute<br />
zehn Jahre benötigte um zum ersten Mal ernsthaft eingesetzt zu werden.<br />
Im Jahr 1939 wurde ein riesiger Apparat aus vielen Röhrenverstärkern und<br />
anderen klobigen Bauteilen auf der Weltausstellung in New York vorgeführt,<br />
der die spektralen Eigenschaften des Signals analysieren und codieren<br />
konnte. Vermutlich war die Hauptattraktion des Gerätes das Abspielen<br />
von lustig klingender Sprache, nachdem diese auf 1551 Bit pro Sekunde<br />
komprimiert worden war. Im zweiten Weltkrieg allerdings wurde es nötig,
34 3. Geschichte<br />
eine abhörsichere Leitung zwischen dem Weißen Haus in Washington und<br />
London zu verwenden auf der auch Sprache übertragen werden konnte. Da<br />
Dudleys Erfindung die Sprache digitalisierte, war es ein Leichtes, die digitale<br />
Version zu verschlüsseln und über das Atlantikkabel zu übertragen. Schon<br />
bald wurden höhere Übertragungsraten möglich, und die Verwendung der<br />
Halbleitertechnik ermöglichte weiteren Fortschritt, so daß Dudleys Vocoder<br />
bald nicht mehr aktuell war. Jedoch ist es ihm zu verdanken, daß viele<br />
Sprachforscher sich Gedanken gemacht haben, welche Eigenschaften ein<br />
Sprachsignal ausmachen, was benötigt wird, um den Inhalt des Gesprochenen<br />
wiederzuerkennen, und wie diese Eigenschaften sinnvoll codiert werden<br />
können. Auch spätere Sprachanalysesysteme (z.B. [?]) bedienten sich des<br />
Begriffs ” Vocoder“.<br />
Schon Ende der vierziger, Anfang der fünfziger Jahre [?] [?] wurden<br />
Forschungsarbeiten durchgeführt, um aus digitalisierten Sprachsignalen<br />
deren Inhalt zu extrahieren. Die ersten Experimente wurden noch auf<br />
dem reinen Signal gemacht. Später ging man dazu über, das Signal so<br />
vorzuverarbeiten, daß als Merkmalsraum für die Erkennung nicht mehr der<br />
Zeitbereich, sondern der Frequenzbereich des Signals verwendet wurde. Die<br />
erstaunlich guten Leistungen von Experten [?], die anhand einer vorliegenden<br />
Spektralanalyse eines Sprachsegments das Gesagte korrekt herauslesen<br />
konnten, ermunterte die Forscher dazu, das Spektrum als das Merkmal der<br />
Wahl für die automatische Spracherkennung zu verwenden.<br />
Die frühen Forschungsarbeiten wurden mit Aufnahmen von Vokalen eines<br />
Sprechers durchgeführt [?] [?]. Erst später fing man an, größere Spracheinheiten<br />
zu erkennen. Als es möglich war, ganze Wörter zu erkennen [?] [?],<br />
entstanden verschiedene Anwendungen, wie zum Beispiel die Steuerung von<br />
Geräten oder die Identifizierung von Sprechern. Der Benutzer mußte jedes<br />
zu erkennende Wort ein oder mehrere Male sprechen, damit der Erkenner<br />
Referenzmuster anlegen konnte. Während der Erkennung wurde dann das<br />
Gesprochene mit den gespeicherten Referenzen verglichen und die Klasse<br />
des am besten passenden Musters identifiziert.<br />
In den siebziger Jahren wurde die Erkennung von kontinuierlicher<br />
sowie sprecherunabhängiger Sprache vorangetrieben [?]. Die Größen der<br />
verwendeten Wortschätze und die Vielfalt der akustischen Eigenschaften<br />
verschiedener Sprecher machten es nicht mehr praktikabel, für jedes zu<br />
erkennende Wort Referenzmuster zu sammeln und abzuspeichern. Die<br />
angelegten Referenzmuster bezogen sich nun auf kleinere Spracheinheiten,<br />
wie Phoneme, aus denen jedes Wort des Erkennervokabulars konkateniert<br />
werden konnte. Der Einsatz kontinuierlicher Sprache brachte einen weiteren<br />
Schwierigkeitsgrad mit sich. Nun waren die Grenzen der einzelnen Wörter<br />
nicht mehr vorgegeben und mußten vom Erkenner selbst gefunden werden,
3. Geschichte 35<br />
so daß neuartige Fehler wie das Nichterkennen gesprochener Wörter oder das<br />
fälschlicherweise Erkennen nicht gesprochener Wörter auftraten. Außerdem<br />
werden die Wörter in kontinuierlicher Sprache anders ausgesprochen, die<br />
Satzmelodie fängt an eine Rolle zu spielen, und an den Wortgrenzen<br />
treten Koartikulationseffekte auf. Zur Lösung all dieser Probleme boten<br />
sich Hidden Markov Modelle als die geeignetste Lösung an. Sie boten die<br />
Möglichkeit, komplexe Spracheinheiten wie Wörter oder Sätze aus kleineren<br />
Einheiten leicht zusammenzusetzen. Suchtechniken ermöglichten es, unter<br />
Zuhilfenahme von Sprachmodellen Wortfolgen zu erkennen, die nie zuvor<br />
in der Entwicklung der Erkenner oder der Sprachmodelle beobachtet wurden.<br />
Verschiedene Anwendungen für das Erkennen sprecherunabhängiger<br />
Sprache wurden entwickelt. Dazu gehörten so einfache Dinge wie das<br />
Bedienen von Geräten, aber auch so komplizierte wie die Übersetzung in<br />
eine andere Sprache [?]. Lange Zeit war eine ausreichend gute Erkennung<br />
nur bei einer Einschränkung der Domäne gesichert. Das Diktieren beliebiger<br />
Texte war dennoch nur mit kurzen Pausen zwischen je zwei Wörtern sinnvoll<br />
möglich. Bis heute hat sich auf dem Markt noch kein Produkt etabliert,<br />
das es erlaubt, beliebige Diktate von beliebigen Sprechern mit zufriedenstellender<br />
Genauigkeit zu erkennen. Selbst die Forschungsprototypen sind<br />
nur wenig besser als die käuflich erhältlichen. Die Anforderungen an ein<br />
Diktiersystem sind normalerweise so hoch, daß jedes mißverstandene Wort<br />
als unakzeptabler Fehler angesehen wird. Bei anderen Anwendungen, bei<br />
denen die Sprache dazu verwendet wird, eine bestimmte Aktion zu initiieren,<br />
können Fehlerkennungen toleriert werden, solange immer noch die korrekte<br />
Aktion durchgeführt wird. Diktierte Sprache ist in der Regel anders als<br />
spontane Sprache, weil der Diktierende sorgfältiger spricht und versucht,<br />
grammatikalische Fehler und Störungen wie Geräusche oder Stottern zu<br />
vermeiden. Das heißt, daß die Erkennung spontaner Sprache eine größere<br />
Herausforderung darstellt, was sich auch in der Praxis durchweg in Form<br />
schlechterer Erkennungsraten bemerkbar macht. Dennoch lassen sich die<br />
meisten Erkenntnisse, die in der Forschung mit diktierter Sprache gewonnen<br />
werden, auch auf die Erkennung spontaner Sprache anwenden.<br />
Einer der wichtigsten Motoren der Spracherkennungsforschung waren<br />
die Programme der Defense Advanced Research Projects Agency“<br />
”<br />
(DARPA – zeitweise auch nur ARPA genannt) der US Regierung, von<br />
deren Seite zunehmend Wert darauf gelegt wird, Sprache unter widrigen<br />
Bedingungen (schlechte Aufnahmequalität, laute Hintergrundgeräusche,<br />
Nichtmuttersprachler, Telefonsprache etc.) zu erkennen. Obwohl diese Ziele<br />
erstrebenswert sind, ist die Leistung der weltbesten Erkenner auf sogenannter<br />
” sauberer“ Sprache noch lange nicht gut genug, um das Problem als gelöst<br />
zu betrachten. Aus Untersuchungen [?] [?] weiß man, daß <strong>Mensch</strong>en beliebige<br />
klare Aufnahmen in ihrer Muttersprache mit weniger als einem Prozent
36 3. Geschichte<br />
Fehler erkennen können. Davon sind die heutigen Spracherkenner noch eine<br />
Größenordnung entfernt. Abb. 3.1 zeigt die Beschreibung der Situation und<br />
die etwas zu optimistischen Erwartungen der DARPA Mitte der neunziger<br />
Jahre, die bis heute nocht nicht in vollem Umfang erfüllt werden konnten.<br />
Mobilität Einsatzmöglichkeiten<br />
Panzer, Hubschrauber<br />
(überall)<br />
Geräuschumgebung<br />
Automobilgeräusche<br />
Funkverbindungen<br />
Mobiltelefone<br />
normales Büro<br />
verschiedene Mikrophone<br />
Telefongespräche<br />
Sprechstil<br />
geplante<br />
Sprache<br />
stiller Raum<br />
hochqualitative<br />
Mikroph.<br />
natürlichsprachlicher<br />
<strong>Mensch</strong>-<strong>Maschine</strong> Dialog<br />
alle Sprechstile, incl.<br />
<strong>Mensch</strong>-zu-<strong>Mensch</strong> Dialoge<br />
alle Sprecher einer Sprache<br />
auch Nichtmuttersprachler<br />
regionale Akzente<br />
mehrere Sprachen<br />
sprecherabängig<br />
vorsichti- anwendungs-<br />
ges Lesen spezifisch<br />
Englisch<br />
sprecheradaptiv<br />
mehrere Expertenjahre<br />
für Sprachmodell<br />
Abb. 3.1. Zeitplan von Allan Sears (DARPA)<br />
ein Ingengieurjahr<br />
mit spezifischen Daten<br />
Benutzermenge<br />
Portierbarkeit auf neue Anwendungen<br />
anwendungsunabhängig<br />
oder -adaptiv<br />
Verfügbarkeit Kosten<br />
1985 1995 1999 2002<br />
3.1 Geschichte der (D)ARPA Evaluationen<br />
Abb. 3.2 zeigt die Entwicklung der Fehlerraten der besten Erkenner bei<br />
DARPA Evaluationen. Noch vor Beginn der Zeitachse in Abb. 3.2, in der Zeit<br />
von 1971 bis 1976, initiierte die DARPA das SUR (Speech Understanding<br />
Research) Projekt mit dem Ziel, Spracherkenner zu entwickeln, die bis dahin<br />
unerreichte Leistungen erbringen sollten. So wurde erwartet, daß zusammenhängende<br />
Sprache erkannt werden sollte. Dabei sollte es möglich sein,<br />
mehrere Sprecher zu verstehen. Das System sollte nicht notwendigerweise<br />
vollständig sprecherunabhängig sein, aber zumindest sollte die Menge and<br />
Daten, die benötigt würde um auf einen neuen Sprecher umzustellen, gering
% Wortfehlerrate<br />
100<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
6<br />
5<br />
vorgelesene spontane<br />
Sprache Sprache<br />
RM<br />
5000<br />
Wörter<br />
3.1 Geschichte der (D)ARPA Evaluationen 37<br />
Telefonkonversationen<br />
WSJ<br />
20000<br />
Wörter<br />
unbeschränktes<br />
Vokabular<br />
1000Wörter 60000Wörter<br />
Nachrichten<br />
SWB<br />
4<br />
’87 ’88 ’89 ’90 ’91 ’92 ’93 ’94 ’95 ’96 ’97 ’98 ’99 ’00 ’01 ’02 ’03 ’04<br />
BN<br />
Abb. 3.2. Entwicklung der Worterkennungsraten mit der Zeit<br />
STT<br />
Meetings<br />
gehalten werden. Die Größe des Vokabulars wurde mit mindestens 1000<br />
Wörtern veranschlagt, und die Menge der erlaubten Äußerungen wurde<br />
durch eine künstliche Grammatik mit einem mittleren Verzweigungsgrad<br />
von 33 definiert. Die zu entwickelnden Systeme sollten auf einem 100<br />
MIPS Rechner weniger als 10% Fehler machen und dabei nur wenige Male<br />
langsamer als in Echtzeit laufen.<br />
Das erfolgreichste System des SUR Projektes wurde 1976 an der Carnegie<br />
Mellon University in Pittsburgh entwickelt und erfüllte alle Erwartungen.<br />
Bei nur ca. 20 Adaptionssätzen je Sprecher konnte HARPY die Sprache von<br />
fünf Sprechern mit weniger als 5% Fehlern erkennen. Auf einem 4 MIPS<br />
Rechner (einer PDP-10 von digital) lief der Erkenner in ca. 80-facher Echtzeit.<br />
Seit dem SUR Projekt wurden bis heute verschiedene Evaluationen von<br />
Spracherkennern organisiert. Ende der Achtziger und Anfang der Neunziger<br />
war noch die so genannte Resource Management Task der internationale<br />
Standard Benchmark für die Leistungsmessung von Erkennern für sprecherunabhängige<br />
kontinuierliche Sprache. Die Resource Management Task (RM)<br />
bot für das Training der Erkenner mehrere Stunden Sprachaufnahmen von<br />
ca. 80 verschiedenen Sprechern. Ebenso wie im SUR Projekt wurde auch bei<br />
RM eine künstliche Grammatik verwendet die geeignet war, die Kommandos<br />
zu beschreiben, die ein Marineoffizier zur Kontrolle und Steuerung der<br />
weltweiten US-Marineressourcen sprechen sollte. Die Vokabulargröße betrug
38 3. Geschichte<br />
auch hier ca. 1000 Wörter.<br />
Als abzusehen war, daß RM der Forschung kaum noch Herausforderungen<br />
bot, ging die DARPA dazu über, schwierigere Aufgaben zu verfolgen. Anfang<br />
der Neunziger wurden die ATIS (Air Travel Information System) und WSJ<br />
(Wall Street Journal) Benchmarks definiert. Bei ATIS bestand die Aufgabe<br />
darin, nicht nur die Sprache einer Person zu erkennen, die einen Flug buchen<br />
möchte, sondern auch das Gesprochene zu verstehen und mit dem Sprecher<br />
einen Dialog zu führen, bis der gewünschte Flug gefunden und gebucht<br />
war. Die größte Herausforderung gegenüber RM stellte jetzt die spontane<br />
Sprache dar. Zwar waren die zu sprechenden Sätze in der Regel nicht sehr<br />
kompliziert, aber es wurde keine feste Grammatik vorgegeben, die Benutzer<br />
konnten frei sprechen. Die Behandlung spontaner Sprache mußte mit neuen<br />
Problemen (fehlerhafte Aussprache, Geräusche, Wortabbrüche etc.) fertig<br />
werden. Die neue Herausforderung bei WSJ bestand vor allem in dem großen<br />
Vokabular. Ausgehend von zunächst 5000 Wörtern wurde der Benchmark<br />
in wenigen Jahren auf schließlich offiziell unbeschränkte (praktisch aber<br />
60000 Wörter große) Vokabulare ausgeweitet. Derart große Vokabulare<br />
brachten nicht nur die Problematik mit sich, mehr verwechselbare Wörter<br />
zu besitzen, sie trieben auch die entwickelten Erkenner an die Grenzen der<br />
Rechnerkapazitäten. Die zur Verfügung gestellten Trainingsdaten übertrafen<br />
beim WSJ alle bis dahin verfügbaren. Mit insgesamt fast 200 Stunden<br />
Sprachaufnahmen von mehreren hundert Sprechern standen so viele Trainingsdaten<br />
zur Verfügung, daß die Parameterräume der Akustischen Modelle<br />
sehr groß gewählt werden konnten. Auch die Textdaten, die zum Trainieren<br />
der linguistischen Sprachmodelle verwendet wurden hatten mit 300 000 000<br />
Worten eine enorme Größe. Die WSJ Aufnahmen bestanden aus diktierten<br />
und vorgelesenen Zeitungsartikeln. Die Qualität der Aufnahmen war wie bei<br />
SUR, RM und ATIS sehr gut. Die Sprache wurde immer in einem ruhigen<br />
Büro mit einem Nachbesprechungsmikrophon aufgenommen.<br />
Mitte der Neunziger, als die Fehlerraten der besten Erkenner, die an den<br />
alljährlichen Evaluationen teilnahmen, für unbeschränkte Vokabulare bei ca.<br />
6% war, ging die DARPA dazu über, Erkennungsaufgaben zu definieren,<br />
bei denen die Umstände deutlich schwieriger waren. Dabei wurden dann<br />
zunächst die SWB (Switchboard) Task und die BN (Broadcast News) Task<br />
definiert. Bei SWB ging es darum, Sprache von Personen zu erkennen, die<br />
sich über das Telefon über ein vorgegebenes Thema unterhalten. In einer<br />
späteren Varianten (Call Home Task) wurde auf die Vorgabe des Themas<br />
verzichtet, und die Personen durften sich mit Bekannten oder Verwandten<br />
am Telefon über beliebige Themen unterhalten. Die Gespräche wurden<br />
mitgeschnitten und in Handarbeit transkribiert. Für die SWB-Evaluation<br />
im Jahre 2004 wurde die Trainingsdatenmenge um ein Größenordnung<br />
von 250 auf ca. 2500 Stunden erweitert. Die ersten Evaluationen auf
3.1 Geschichte der (D)ARPA Evaluationen 39<br />
SWB ergaben bei allen Teilnehmern sehr hohe Fehlerraten um 50%. Experimente<br />
ergaben, daß weniger die die Signalqualität verschlechternden<br />
Eigenschaften der Telefonleitungen, sondern vielmehr die sehr spontane<br />
völlig freie Sprache für den großen Fehlerzuwachs verglichen mit WSJ<br />
verantwortlich war. Im Laufe weniger Jahre verbesserten sich die bei den<br />
Evaluationen gemessenen Fehlerraten auf schließlich nahe 20%. Mit den<br />
extrem erweiterten Trainingsdaten des Jahres 2004 konnten die Fehlerraten<br />
noch einmal deutlich auf schließlich ca. 15% reduziert werden. Die neue<br />
Herausforderung bei BN bestand vor allem darin, daß die Audiodaten aus<br />
vielen verschiedenen Quellen stammten. Die aufgezeichneten Nachrichtensendungen<br />
bestanden nicht nur aus der Sprache des Nachrichtensprechers,<br />
sondern enthielten auch Sprache von Interviewpartner, Korrespondenten,<br />
telefonisch übermittelten Berichten und sogar von Titelmusik, Jingles,<br />
und der zwischendurch gesendeten Werbeblöcken. 2004 wurde in die Reihe<br />
der DARPA Evaluationen unter dem Bereich ” Speech-to-Text (STT)“ die<br />
Erkennung von spontanen Besprechungen aufgenommen. Die beiden Punkte<br />
in Abb. 3.2 geben die Wortfehlerraten der besten Systeme für Nahbesprechungsmikrophone<br />
(32.7%) und für ein einzelnes Tischmikrophon (49.8%) an.<br />
Die Tendenz der am häufigsten bearbeiteten Erkennungsaufgaben<br />
geht heute in die Richtung von maschinenunterstützter <strong>Mensch</strong>-<strong>Mensch</strong>-<br />
<strong>Kommunikation</strong>, wie sie zum Beispiel bei Verhandlungen, Besprechungen<br />
und auch Vorträgen oder Vorlesungen zu finden ist. Die Schwierigkeiten<br />
dieser Aufgaben liegen zum einen in der größeren Spontaneität als zum Beispiel<br />
beim Diktieren oder bei geplanter Sprache in Fernsehnachrichten, zum<br />
anderen im größeren (Spezial-)Vokabular und einer größeren Spezialisierung<br />
bei den verwendeten Phrasen als bei alltäglichen Telefondialogen.
4. Anatomie Sprachproduktion und Perzeption<br />
In diesem Kapitel werden einige Grundlagen der Biologie der Sprachkommunikation<br />
behandelt. Ein Verständnis der Prozesse, die in der Natur des<br />
Sprechens und Hörens liegen, kann helfen, die Modelle, die wir uns von<br />
der Natur machen, leichter zu verstehen. Ohne das Bewußtsein, daß alle<br />
Mathematik zur automatischen Spracherkennung im Prinzip das nachbilden<br />
soll, was in der Natur abläuft, laufen wir leicht gefahr, die Modelle für die<br />
Realität zu halten. So manches schwer erklärliche Verhalten der Programme,<br />
die wir entwickeln, ist darauf zurückzuführen, daß das zugrundegelegte<br />
Modell der Wirklichkeit nicht ausreichend genau entspricht.<br />
Bei der Frage nach der besten Art, Funktionen der Natur nachzubilden,<br />
hört man oft das Argument, daß es nicht nötig sei, der Natur genau auf die<br />
Finger zu schauen. Schließlich schlagen Flugzeuge ja auch nicht mit ihren<br />
Flügeln. Aber auch wenn Flugzeuge starre Flügel haben und Autos keine<br />
Beine, so ist ein Studium der Vorgänge in der Natur nicht grundsätzlich<br />
wertlos.<br />
Gerade in der automatischen Spracherkennung ist es so, daß die Art der<br />
Modellierung der natürlichen Prozesse nicht wirklich überzeugend ist. Das<br />
größte Problem ist, daß wir gar nicht wissen, was eigentlich modelliert werden<br />
soll und welches das geeignetste Modell ist. Die am besten funktionierenden<br />
Spracherkennungssysteme basieren fast ausschließlich auf Statistik. Wenn wir<br />
einen Spracherkenner bauen, dann leiten wir keine Regeln dafür ab, welche<br />
Eigenschaften bestimmte Laute haben, und wie man diese Eigenschaften<br />
messen kann. Wir wissen nämlich gar nicht, welche Eigenschaften zum<br />
Beispiel der Laut ” ah“ hat. Wir können uns vielleicht viele ” ah“-Laute hören<br />
oder auch die aufgezeichneten und verarbeiteten Signale betrachten, wir<br />
werden aber nur statistische Aussagen machen können, weil wir feststellen<br />
müssen, daß häufig beobachtete Eigenschaften nicht notwendigerweise<br />
vorhanden sein müssen. Und wenn wir dann noch verschiedene ” ah“-Laute<br />
unter verschiedenen Bedingungen betrachten (geschrien, geflüstert, gesungen,<br />
von Kindern gesprochen, von Rauchern gesprochen, usw.), stellen wir<br />
sogar fest, daß sogar eine statistische Aussage über ihre Eigenschaften nur<br />
schwer möglich ist. Zum einen kann es vorkommen, daß die akustischen
42 4. Anatomie Sprachproduktion und Perzeption<br />
Eigenschaften eines ah“, das auf eine bestimmte Art gesprochen wurde,<br />
”<br />
den Eigenschaften eines oh“ ähnlicher sind, als den Eigenschaften eines<br />
”<br />
” ah“, das auf eine andere Art gesprochen wurde. Zum anderen ist es so,<br />
daß selbst der Laut, den wir als ah“ bezeichnen, sich ganz unterschiedlich<br />
”<br />
anhören kann, je nachdem von welchem <strong>Mensch</strong>en er artikuliert wird, und<br />
in welchem Kontext er gesprochen wird. Neben der großen Variabilität der<br />
möglichen Aussprachen desselben Lautes stellt die Menge an Daten, die<br />
bei Sprachaufnahmen anfallen, ein weiteres Problem dar. Erst Anfang der<br />
80er Jahre war die Technik in der Lage, digitalisierte Audioaufnahmen in<br />
zufriedenstellender Qualität zu verarbeiten und der breiten Bevölkerung<br />
zugänglich zu machen. Während eine Schreibmaschinenseite Text etwa 2<br />
KByte (unkomprimiert) Speicher benötigt, braucht man zu Speichern einer<br />
Sprachaufnahme in der diese Seite vorgelesen wird – angenommen, das<br />
dauert zwei Minuten – in CD-Mono-Qualität immerhin ca. 10 MByte, also<br />
das 5000-fache. Selbst mit sehr guten Kompressionsverfahren läßt sich ein<br />
Zwei-Minuten-Sprachsignal nicht auf nennenswert weniger als 100 KByte<br />
komprimieren, wenn es hinterher noch verständlich sein soll. Allein schon die<br />
Tatsache, daß sich Sprachaufnahmen so drastisch komprimieren lassen, läßt<br />
darauf schließen, daß sie sehr viel für das Verstehen redundante Information<br />
enthalten. Eine wichtige Aufgabe der Sprachsignalverarbeitung besteht<br />
demnach darin, möglichst viel von dieser Redundanz zu entfernen und nur<br />
das übrig zu lassen, was wirklich benötigt wird, um die Sprache zu erkennen.<br />
Leider sind wir von der idealen Lösung dieses Problems noch sehr weit<br />
entfernt. Um zu verstehen, was in einem Sprachsignal wirklich wichtig ist,<br />
kann es unter Umständen hilfreich sein, zu verstehen, wie ein Sprachsignal<br />
entsteht, und wie die Anatomie im <strong>Mensch</strong>en funktioniert, die Sprache<br />
produziert: der Vokaltrakt mit seinen Bestandteilen, und auch der Apparat,<br />
der Sprachsignale verarbeitet und zum Verstehen weiter ins Gehirn leitet,<br />
das Ohr.<br />
4.1 Anatomie des Artikulationsapparates<br />
Das Verständnis der Anatomie der Teile des <strong>Mensch</strong>en, die für die Produktion<br />
von Sprache zuständig sind, ist hilfreich für das Verstehen der Signale, die<br />
der Artikulationsapparat erzeugt. Tatsächlich gibt es einige Bestrebungen,<br />
die Sprache nicht nur als Beobachtung akustischer Phänomene zu betrachten,<br />
sondern als akustische Manifestation von Zuständen und Zustandsfolgen<br />
der Artikulatoren, der Bestandteile des Artikulationsapparates. Dies ist<br />
insbesondere deshalb sinnvoll, weil allein schon aus physikalischen und<br />
biologischen Gründen nicht jeder Zustand des Artikulationsapparates<br />
jedem anderen unmittelbar folgen kann. Die Artikulatoren müssen stetige<br />
Bewegungen durchführen, können keine Sprünge machen. Die Ausprägung
4.1 Anatomie des Artikulationsapparates 43<br />
einzelner Laute hängt also davon ab, welche Laute danach und welche<br />
davor artikuliert werden. Teilweise wird der Schluß eines Lautes noch von<br />
einem Teil der Artikulatoren gesprochen während ein anderer Teil schon den<br />
Anfang des folgenden Lautes produziert (s. Abb. 4.1).<br />
[U] [F] [ER]<br />
Abb. 4.1. Überlagerung und Übergänge von Lauten<br />
4.1.1 Bestandteile des Artikulationsapparates<br />
Abbildung 4.2 skizziert einen Sagittalschnitt durch den Kopf eines <strong>Mensch</strong>en,<br />
bei dem alle wichtigen an der Artikulation von Sprache beteiligten<br />
Teile ausgewiesen sind. Dazu gehören Mund- und Rachenraum, der einen<br />
Resonanzkörper darstellt, ebenso wie die Nasenhöhle, die bei einigen<br />
Lauten (den Nasalen) als zusätzlicher Resonanzraum hinzugenommen<br />
werden kann. Die Luftröhre verläuft vor der Speiseröhre. Letztere ist an<br />
der Spracherzeugung kaum beteiligt. Damit beim Schlucken keine Speisen<br />
und Flüssigkeiten in die Luftröhre gelangen, wird diese abgedeckt durch ein<br />
Luftröhrenverschlußläppchen, der sogenannten Epiglottis. In der Höhe des<br />
Halses befindet sich der Kehlkopf. Geschützt vom Schildknorpel beinhaltet<br />
er die Stimmbänder. Die Stimmbänder sind wie zwei halbkreisförmige<br />
Läppchen ähnlich einer doppelten Schwingtüre, wie man sie aus den Saloons<br />
der Wildwestfilme kennt, die einander gegenüberliegend die Luftröhre<br />
verschließen können. Die Luftröhrenöffnung, die durch die Stimmbänder<br />
freigelassen wird, nennt man Glottis. Neben den Stimmbänden ist das<br />
wichtigste Organ des Artikulationsapparates die Zunge. Ihre Stellung ist<br />
verantwortlich für die meisten Lautunterscheidungen, vor allem bei Vokalen.<br />
Das Gaumensegel (Velum) ist das hintere Ende des weichen Gaumens<br />
und kann die Verbindung zwischen der Mundhöhle und der Nasenhöhle<br />
verschließen, was bei den meisten Lauten auch geschieht. Nur bei nasalen<br />
Lauten senkt sich das Velum und öffnet die Verbindung. Der Mundraum<br />
ist nach oben hin abgeschlossen, in der Mitte durch den harten Gaumen<br />
(Palatum) und vorne durch den Zahndamm. Auch die Zähne und die Lippen<br />
sind an der Artikulation beteiligt, vor allem bei Reibelauten. Schließlich wird<br />
auch die Abstrahlung der Schallwellen durch die Form der Öffnungen der<br />
Nasenlöcher und der Lippen beeinflußt. Der Bereich von den Stimmbändern<br />
Zeit
44 4. Anatomie Sprachproduktion und Perzeption<br />
Speiseröhre<br />
(Esophagus)<br />
Gaumensegel<br />
(Velum)<br />
Uvula<br />
Rachen<br />
Glottis<br />
Zähne<br />
Schildknorpel<br />
Luftröhre<br />
(Trachäa)<br />
Nasenhöhle<br />
Zahndamm (Alveoli)<br />
Gaumen (Palatum)<br />
Epiglottis<br />
Abb. 4.2. Anatomie des Artikulationsapparates<br />
Zunge<br />
Nasenlöcher<br />
Oberlippe<br />
Unterlipe
4.1 Anatomie des Artikulationsapparates 45<br />
bis zum Mundraum wird auch als Vokaltrakt bezeichnet. Typischerweise ist<br />
der Vokaltrakt bei Männern länger als bei Frauen.<br />
4.1.2 Der Prozeß der Sprachproduktion<br />
Beim Sprechen wird zunächst durch Verkleinern der Lunge die darin enthaltene<br />
Luft komprimiert, sie strömt in der Luftröhre nach oben. Bei stimmlosen<br />
Lauten ist die Glottis weit geöffnet und die Luft kann ungehindert hindurchfließen.<br />
Es entstehen zwar Verwirbelungen der Luft beim Vorbeiströmen<br />
an den Stimmbändern und anderen Organen aber der Luftfluß wird in der<br />
Glottis nicht unterbrochen. Bei stimmhaften Lauten wird die Glottis durch<br />
die Stimmbänder periodisch verschlossen und geöffnet. Dabei wird der aus<br />
der Lunge kommende Luftstrom in einzelne Impulse zerhackt. Die Frequenz,<br />
mit der dies geschieht, wird durch die Anspannung der Stimmbänder<br />
bestimmt. Die Spannung der Stimmbänder wird durch Muskeln am Rand<br />
der Luftröhre gesteuert. Ähnlich wie bei Gitarrensaiten schwingen auch die<br />
Stimmbänder schneller, wenn sie stärker angespannt sind. Die Frequenz, mit<br />
der Luftimpulse erzeugt werden, nennt man die Grundfrequenz. Der Leser<br />
mache sich aber klar, daß durch die Stimmbänder die Luft nicht wie bei<br />
schwingenden Saiten von Musikinstrumenten in Schwingungen versetzt wird,<br />
sondern in diskrete einzelne Impulse zerstückelt wird. Da die Impulse sehr<br />
hochfrequent sind und im Rest des Artikulationsraumes moduliert werden,<br />
können wir die einzelnen Impulse nicht mehr getrennt wahrnehmen.<br />
Die Luftimpulse verlassen die Luftröhre in den Rachenraum, wobei<br />
die Epiglottis geöffnet sein muß. Deshalb ist es auch nicht ratsam, beim<br />
Sprechen zu essen oder zu trinken. Wenn das Velum die Öffnung zum<br />
Nasenraum freigibt, dann breiten sich die Impulse auch in die Nasenhöhle<br />
aus, sonst nur in den Mundraum. Die Form der Mundhöhle bestimmt stark,<br />
wie sich einzelne Laute anhören. Sie wird vor allem durch die Lage der<br />
Zunge bestimmt.<br />
Abb. 4.3 zeigt mehrere Sagittalschnitte für verschiedene Vokale. Man<br />
unterscheidet zwischen tonalen Sprachen und nicht tonalen Sprachen.<br />
Während bei nicht tonalen Sprachen die an den Stimmbändern erzeugte<br />
Impulsfrequenz (die Grundfrequenz) keine Rolle für die Unterscheidung<br />
von Lauten spielt, ist dies bei tonalen Sprachen anders. Insbesondere im<br />
Chinesischen ist der Verlauf der Grundfrequenz während eines Lauts von<br />
entscheidender Bedeutung. Im Deutschen allerdings kann jeder Laut mit<br />
verschiedenen Grundfrequenzen und sogar mit verschiedenen zeitlichen<br />
Frequenzverläufen artikuliert werden, ohne daß er mit einem anderen<br />
verwechselt werden kann. So ist es also nicht die Erzeugung des Schalls an<br />
den Stimmbändern, die einen Laut vom anderen trennt, sondern allein die
46 4. Anatomie Sprachproduktion und Perzeption<br />
Form des Vokaltraktes. Dabei spielt insbesondere die Position des obersten<br />
Punktes der Zunge (Dorsum) die ausschlaggebende Rolle.<br />
die<br />
Mähr Aah Jean Heu<br />
Fluß<br />
mit hey<br />
Fuß<br />
matt<br />
nett<br />
Abb. 4.3. Verschiedene Formen des Vokaltraktes bei verschiedenen Vokalen<br />
4.1.3 Sprachlaute<br />
Bei naiver Betrachtung der Sprachproduktion geht man davon aus, daß<br />
Sprache eine Aneinanderreihung von irgendwie klassifizierbaren und benennbaren<br />
Einheiten, den Sprachlauten besteht. Die Bennennung dieser<br />
Einheiten kann man schon als eigene Teildisziplin der Phonetik ansehen.<br />
Alle in Europa üblichen Schriften verwenden eine Art Buchstabenalphabet,<br />
bei dem jeder Buchstabe – oder zumindest einige kleine Buchstabengruppen<br />
– einem Laut entsprechen. Die sehr alten hebräischen, arabischen<br />
und griechischen Schriften, aber auch die lateinischen und kyrillischen<br />
Schriften waren ursprünglich als lautebeschreibende Schriften konzipiert.<br />
hör
4.1 Anatomie des Artikulationsapparates 47<br />
Verschiedene Dialekte sowie ständige modifizierende Einflüsse durch andere<br />
Sprachen haben oft die Aussprache von der Schriftform abweichen lassen,<br />
so daß heute aus der Schriftform oft nur mit Hilfe von Kontextwissen<br />
die Aussprache in einer ” Hochsprache“ abgeleitet werden kann. Mit der<br />
immer weiter fortschreitenden Globalisierung und Internationalisierung der<br />
Sprachen werden die Vokabulare mit neuen Namen und neuen Fremdwörtern<br />
angereichert, bei denen nicht immer eine neue Schriftform eingeführt wird.<br />
Einige Sprachen – vor allem slawische – haben den Einzug von Fremdwörtern<br />
und sogar fremder Eigennamen stets mit einer neuen Orthographie begleitet.<br />
So konnte man in Serbokroatischen Lexika von Gete (Goethe) und Sreda<br />
(Schröder) lesen.<br />
Wegen der sehr unterschiedlichen Verwendung der Alphabete war schon<br />
früh klar, daß die üblicherweise verwendeten Orthographien ungeeignet<br />
waren, um Folgen von Lauten zu beschreiben. In allen Sprachen gibt es viel<br />
mehr verschiedene Laute als Buchstaben. Die Wissenschaft, die sich mit<br />
der Erforschung der Sprachlaute befaßt, ist die Phonetik, abgeleitet vom<br />
griechischen Wort für Laut: ” Phon“. Die ”<br />
iInternational Phonetics Assosiation“ (IPA) hat eine Lautschrift eingeführt,<br />
das IPA-Alphabet, mit dem es ermöglicht werden sollte, alle Laute aller<br />
Sprachen der Welt in Textform darzustellen (s. Abs. 6.2).<br />
4.1.4 Modelle des Vokaltraktes<br />
Weil die Originale schwer zu beschreiben sind, machen uns gerne Modelle.<br />
Ein Modell kann man schon von vorn herein so entwerfen, daß es physikalisch<br />
und mathematisch analysierbar und beschreibbar ist. Außerdem kann das<br />
Modell nach Belieben verfeinert oder vereinfacht werden, je nachdem welche<br />
Funktionen wir untersuchen wollen.<br />
A<br />
E I O U<br />
Abb. 4.4. Resonatoren für deutsche Vokale nach Christian Gottlieb von Kratzen-<br />
stein
48 4. Anatomie Sprachproduktion und Perzeption<br />
Physikalische Modelle<br />
Noch lange bevor man an die Realisierbarkeit automatischer Spracherkennung<br />
glaubte, wurden Sprachsynthesesysteme gebaut, die immerhin in der<br />
Lage waren, Vokale verständlich zu sprechen. Dabei wurde versucht, die<br />
Funktion des menschlichen Vokaltraktes so gut wie möglich nachzubilden.<br />
Abb. 4.4 zeigt die Entwürfe von Christian Gottlieb von Kratzenstein. Dabei<br />
wird von unten Luft in die Modelle geblasen. Allerdings gehört schon viel<br />
guter Wille dazu, die entstehenden Geräusche als die entsprechenden Vokale<br />
zu interpretieren. 1846 baute Joseph Faber die sogenannte ” Speech Organ“<br />
(siehe Abbildung 4.5) – ein Instrument, dem man nachsagt, daß es verständliche<br />
Sprache produzieren konnte, ja sogar flüstern und Arien singen konnte.<br />
In London wurden damals Konzerte gegeben, auf denen die <strong>Maschine</strong> ” God<br />
Save the Queen“ gesungen haben soll. Sicherlich wären die meisten von uns,<br />
die mit den besten heute erhältlichen Sprachsynthesesystemen unzufrieden<br />
sind, mit der Qualität der von der Speech Organ produzierten Sprache noch<br />
viel unzufriedener gewesen, aber angesichts der mageren Ressourcen der<br />
damaligen Zeit war die Leistung, so eine <strong>Maschine</strong> zu bauen, doch beachtlich.<br />
Ähnliche mechanische Nachbildungen des Vokaltraktes kann man auch<br />
im Deutschen Museum in München bewundern und einige sogar selbst<br />
ausprobieren, indem man mit Hilfe eine Blasebalges Luft durch einen<br />
verformbaren künstlichen Vokaltrakt pumpen kann.<br />
Je nach eingestellter Form hört sich der produzierte Laut anders an, für<br />
das menschliche Ohr meist sehr ungewöhnlich. Sicher spielt dabei ein wenig<br />
auch die Psychologie eine Rolle. Wissend, daß ein Geräusch von so einem<br />
einfachen Gerät produziert wird, nehmen wir an, daß es künstlich klingen<br />
muß.<br />
Wird aus einer Tonaufnahme menschlicher Sprache ein sehr kurzes<br />
Stück, ein Laut, herausgeschnitten und in einer Endlosschleife abgespielt,<br />
dann fängt auch dieses an, sich sehr künstlich anzuhören und es ist schwer<br />
vorstellbar, daß es menschlichen Ursprungs ist.<br />
Aus dem Physikunterricht der Schule werden die meisten Leser sich an<br />
akustische Experimente mit einfachen Röhren erinnern. Den Effekt, den eine<br />
Röhre auf den durch sie hindurchlaufenden Schall hat, kann man relativ einfach<br />
beschreiben. Abb. 4.6 zeigt eine mögliche Vorstellung für ein Modell des<br />
Vokaltraktes, das physikalisch analysiert werden kann. Eine Vereinfachung<br />
dieses komplizierten Modells ist die Anordnung mehrerer einfacher Röhren<br />
mit unterschiedlichen Längen und Durchmessern hintereinander. Wenn die<br />
Röhren alle die gleiche Länge aber unterschiedliche Querschnittsflächen<br />
A1 . . .An haben (s. Abb. 4.7), läßt sich die Impulsantwort des Gesamtsy-
4.1 Anatomie des Artikulationsapparates 49<br />
Abb. 4.5. Ein frühes mechanisches Sprachsynthesesystem<br />
stems relativ einfach beschreiben ([?], [?]).<br />
Betrachtet man das Verhalten des Röhrensystems als Filter, stellt<br />
man fest, daß einige Frequenzen des durchlaufenden Schalls weniger, andere<br />
stärker gedämpft werden. Trägt man die ” Durchlässigkeit“ über der Frequenzachse<br />
auf, entstehen typischerweise Funktionen wie in Abb. 4.8. Diejenigen<br />
Frequenzen, die besonders ungedämpft durch die Röhren kommen, heißen<br />
Formanten. Als erste Formante wird die niedrigste Frequenz bezeichnet, bei<br />
der in der Impulsantwort ein deutlicher Maximalwert vorkommt. In Abb.<br />
4.8 sind die ersten drei Formanten eines Beispielsystems markiert. .
50 4. Anatomie Sprachproduktion und Perzeption<br />
Luftröhre<br />
00000 11111<br />
00000 11111 00 11<br />
00 11<br />
Rachen<br />
Stimmbänder<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111 00 11<br />
Lunge<br />
00000<br />
11111<br />
00000<br />
11111 00 11<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111<br />
Abb. 4.6. Ein physikalisches Model des Vokaltraktes<br />
Lippen<br />
A1<br />
A2<br />
A5<br />
A6<br />
Abb. 4.7. Ein System von Helmholtz-Resonatoren<br />
Nasenhöhle<br />
Velum Mund<br />
Glottis
4.1 Anatomie des Artikulationsapparates 51<br />
Impulsantwort<br />
1. 2. 3. f [Hz]<br />
Abb. 4.8. Formanten und Impulsantwort eins Systems von Helmholtz-Resonatoren<br />
Systemtheoretische Modelle<br />
Zu den beliebtesten Modellen des Vokaltraktes gehören so genannte Quelle-<br />
Filter-Modelle. Die Idee bei diesen Modellen ist, daß am Anfang des<br />
Spracherzeugungsprozesses ein Generator steht, der sowohl strukturierte<br />
Wellen (wie bei stimmhaften Lauten) als auch weißes Rauschen (wie bei<br />
stimmlosen Lauten) erzeugen kann. Diese Wellen durchlaufen dann einen<br />
Kanal (den Vokaltrakt), dessen Wirkung auf die Wellen mit Hilfe eines<br />
linearen zeitinvarianten Systems (LTI - linear time-invariant) beschrieben<br />
werden kann. Solche Effekte werden auch als Filter bezeichnet. Die Funktion<br />
eines Filters wird am besten durch seine Reaktion auf einen Impuls, die<br />
Impulsantwort, beschrieben. Die Impulsantwort ist diejenige Funktion,<br />
mit der ein in den Filter hineingeleitetes Signal gefaltet wird, um das<br />
Ausgangssignal zu berechnen. Ein Kanal wie der Vokaltrakt kann dabei aus<br />
mehreren hintereinandergeschalteten Filtern bestehen, wobei der Ausgang<br />
von Filter i+1 aus dem Ausgang von Filter i gefaltet mit der Impulsantwort<br />
von Filter i + 1 besteht.<br />
Abb. 4.9 zeigt ein Beispiel für ein Quelle-Filter-Modell.<br />
Rausch−<br />
generator<br />
Wellen−<br />
generator<br />
u Vokal− u ∗ v u ∗ v ∗ l<br />
Lippen<br />
trakt<br />
Abb. 4.9. Das Quelle-Filter-Modell der Sprachproduktion
52 4. Anatomie Sprachproduktion und Perzeption<br />
4.2 Anatomie des Gehörs<br />
Bei der Frage, welche Eigenschaften des Sprachsignals wichtig für die<br />
Erkennung sind, bietet es sich an, den menschlichen Perzeptionsapparat zu<br />
untersuchen. Die Erwartung besteht darin, daß mit dem Wissen, wie das<br />
Ohr Schall verarbeitet, dieses auch auf die Modelle übertragen werden kann.<br />
Wenn wir wüßten, welche Merkmale eines Signals überhaupt vom Ohr über<br />
den Hörnerv ans Gehirn geliefert werden, könnten wir daraus schließen, daß<br />
die anderen Merkmale für das Erkennen nicht von Bedeutung sind.<br />
Es leuchtet ein, daß diejenigen Frequenzen des Schalls, die wir nicht<br />
hören, weil sie zu hoch oder zu niedrig sind, auch irrelevant für die Spracherkennung<br />
sein müssen.<br />
Äußerer<br />
Gehörgang<br />
Außenohr Mittel- ohr Innenohr<br />
Hammer<br />
Amboß<br />
Steigbügel<br />
Trommelfell<br />
Ovales Fenster<br />
Rundes Fenster<br />
Eustachische Röhre<br />
Bogengänge<br />
zur Nasenhöhle<br />
Abb. 4.10. Die wichtigsten Bestandteile des <strong>Mensch</strong>lichen Ohrs<br />
Hörnerv<br />
Gehörschnecke<br />
Abb. 4.10 zeigt die wichtigsten Bestandteile des menschlichen Ohrs.<br />
Die von außen sichtbare Ohrmuschel dient als Schalltrichter. Die Bedeutung<br />
so eines Schalltrichters wird schnell klar, wenn man sich selbst die<br />
Trichterwirkung durch anlegen der gewölbten Handflächen hinter die Ohren<br />
verstärkt. Der ” eingefangene“ Schall wird durch den äußeren Gehörgang<br />
bis zum Trommelfell geleitet. Dieses wird in Schwingungen versetzt, die<br />
an eine Konstruktion von Gehörknöchelchen weitergegeben werden. Der<br />
Hohlraum hinter dem Trommelfell ist über die Eustachische Röhre mit dem
4.2 Anatomie des Gehörs 53<br />
Nasenraum verbunden. Die Eustachische Röhre dient vor allem dazu, den<br />
Druckunterschied zwischen dem Raum hinter dem Trommelfell und dem<br />
Außendruck auszugleichen. Wir empfinden eine schnelle Druckänderung<br />
zumeist unangenehm, weil dadurch das Trommelfell in die eine oder andere<br />
Richtung gedehnt wird, bevor der Druck über die Eustachische Röhre<br />
ausgeglichen wird. Gelegentlich kann man den Druckausgleich absichtlich<br />
herbeizwingen, indem man sich die Nase zuhält und soviel Druck aufbaut,<br />
daß die Eustachische Röhre ” durchgepustet“ wird. Das Trommelfell und die<br />
drei Gehörknöchelchen bilden das Mittelohr. Direkt mit dem Trommelfell ist<br />
der Hammer verbunden. Dieser überträgt die Schwingungen auf den Amboß,<br />
welcher diese wiederum an den Steigbügel weitergibt. Der Steigbügel ist<br />
am so genannten ovalen Fenster mit dem Innenohr verbunden. Hinter dem<br />
ovalen Fenster befinden sich die Gehörschnecke und die darüber liegenden<br />
Bogengänge. Beide sind mit einer Flüssigkeit gefüllt, die die Schwingungen<br />
des ovalen Fensters aufnimmt. In der Gehörschnecke sind letztendlich die<br />
Rezeptoren, die die Bewegung der Flüssigkeit an die Nervenstränge des<br />
Gehörnervs weitergeben.<br />
Ein Querschnitt durch die Gehörschnecke (Cochlea) ist in Abb. 4.11<br />
dargestellt. Von Bedeutung sind hier insbesondere die Haarzellen auf der<br />
Basilarmembran. Diese Härchen werden von der schwingenden Flüssigkeit<br />
angeregt. Dabei reagieren verschiedene Bereiche der Basilarmembran unterschiedlich<br />
stark auf bestimmte Frequenzen.<br />
Abb. 4.12 stellt die Reaktion einzelner Haarzellen auf verschiedene<br />
Frequenzen dar. Jede Kurve im Schaubild entspricht einem Härchen. Einige<br />
Härchen reagieren überhaupt nicht auf Frequenzen über ca. 1000 Hz, andere<br />
reagieren ganz besonders auf Frequenzen von mehreren tausend Hz und<br />
nur ganz wenig auf niedrige Frequenzen. Die hier dargestellten Messungen<br />
wurden zwar an einem Katzenohr durchgeführt, qualitativ unterscheiden<br />
sie sich aber nicht vom menschlichen Ohr. Eine weitere Auffälligkeit im<br />
Schaubild ist, daß auf der x-Achse die Frequenz logarithmisch aufgetragen<br />
ist, d.h. es gibt wesentlich mehr Härchen, die auf niedrige Frequenzen<br />
reagieren als solche, die auf hohe Frequenzen reagieren. Härchen, die nur<br />
auf Frequenzen über 1000 Hz reagieren, gibt es gar keine. Dies deutet<br />
darauf hin, daß für das Gehör – und insbesondere für das Verstehen von<br />
Sprache – vor allen die niedrigeren Frequenzen von Bedeutung sind. Ein<br />
Spracherkennungssystem könnte diese Feststellung nutzen.
54 4. Anatomie Sprachproduktion und Perzeption<br />
Hörnerv<br />
Reißnersche<br />
Membran<br />
Tektoriale<br />
Membran<br />
Haarzellen<br />
Basilarmembran<br />
Abb. 4.11. Querschnitt durch das Innenohr<br />
Dämpfung (dB)<br />
0<br />
-20<br />
-40<br />
-60<br />
-80<br />
100 1000 10000<br />
Frequenz (Hz)<br />
Abb. 4.12. Frequenzabhängige Empfindlichkeit einzelner Basilarmembranbereiche
5. Akustische Grundlagen<br />
Zum Verständnis der Spracherkennung und insbesondere zum Verständnis<br />
der dabei verwendeten Algorithmen für die Verarbeitung von Sprachsignalen<br />
sind Kenntnisse über die physikalische Natur von Sprachsignalen nützlich. In<br />
diesem Kapitel werden die Eigenschaften von Schall, dem Träger von Sprachsignalen<br />
beschrieben.<br />
5.1 Was ist Schall<br />
Aus physikalischer Sicht ist Schall eine Longitudinalwelle, die sich in einem<br />
Medium ausbreitet. Das Medium bestimmt nicht nur die Ausbreitungsgeschwindigkeit<br />
sondern auch die Dämpfung verschiedener Frequenzbereiche.<br />
Bei der Ausbreitung von Schall bewegen sich die Moleküle des Mediums,<br />
indem sie die Anregung durch die Schallquelle in Ausbreitungsrichtung<br />
weitergeben. Wenn wir von Schall sprechen, denken wir beim Medium<br />
meistens an Luft. Bei Luft, genauso wie bei anderen Gasen, ändert sich<br />
der Druck durch Kompression des Mediums. Bei anderen Medien (z.B. bei<br />
Flüssigkeiten) scheidet Kompression aus, aber auch bei solchen Medien gibt<br />
es Druckwellen, bzw. Eigenschwingungen und Resonanzen.<br />
Eine elementare Schallwelle zeichnet sich dadurch aus, daß der Druck an<br />
einer Stelle sich wie eine Sinusfunktion verhält, also beschreibbar ist durch<br />
eine Wellenlänge, eine Amplitude und eine Phase. Jeder konstante Ton ist<br />
die Überlagerung von elementaren Wellen.<br />
Für die Spracherkennung ist nur die Schallübertragung durch die Luft<br />
interessant. Der Luftdruck wird in Pascal (Pa) gemessen. Der durchschnittliche<br />
Luftdruck auf der Erdoberfläche beträgt 10 5 Pa (der Standard<br />
Luftdruck, 10 5 Pa = 1 bar). Der kleinste Druckunterschied, den wir als<br />
hörbar empfinden, beträgt etwa 10 −5 Pa (= 10 − 10 bar). Das sind zehn<br />
Größenordnungen kleiner als der Standard Luftdruck. Eine sehr laute<br />
Schallquelle, z.B. der Knall beim Abfeuern einer Gewehrkugel, erzeugt<br />
in unmittelbarer Umgebung ein Geräusch, dessen Luftdruckschwankung<br />
nur ca. 10 2 Pa erreicht. Das ist weniger als der Unterschied zwischen dem
56 5. Akustische Grundlagen<br />
normalen Luftdruck im Erdgeschoß und im Keller eines Gebäudes. Man<br />
möchte meinen, daß der Abstieg in den Keller sehr laut und schmerzhaft sein<br />
sollte. Das wäre er auch, wenn wir mehrere hundert mal pro Sekunde auf<br />
und absteigen könnten. Denn alle Frequenzen, die unterhalb von ca. 10 bis<br />
20 Hz liegen nehmen wir nicht mehr als Schall wahr, und deswegen bringen<br />
sie unseren Gehörapparat nicht in Schwingungen.<br />
Mit dem Schall wird Energie übertragen. Unter der Voraussetzung, daß<br />
die Wellenfronten einer Schallwelle einen Kreisring bzw. eine Kugeloberfläche<br />
bilden, und unter der Idealannahme, daß keine Schallenergie in thermische<br />
Energie des Mediums umgewandelt wird, ist die Energiemenge, die durch<br />
eine Fläche bestimmter Größe senkrecht zur Schallausbreitungsrichtung<br />
gelangt, umgekehrt proportional zum Quadrat des Abstandes der Fläche<br />
von der Schallquelle. Die Energie steckt in der Bewegung der Moleküle des<br />
Übertragungsmediums (Abb. 5.1).<br />
Abb. 5.1. Energie eines Luftmoleküls bei der Schallübertragung<br />
0<br />
x<br />
v<br />
E = 1<br />
2 mv2 + 1<br />
2 kx2<br />
Dabei wechselt die Form der Energie zwischen der rein kinetischen<br />
Energie, 1<br />
2 mv2 der Moleküle und der in einer ” virtuellen“ Rückholfeder mit<br />
Federkonstante k gespeicherten Energie, 1<br />
2 kx2 , die die Moleküle wieder in<br />
ihre Ausgangslage zieht. Dabei bewegt sich die Molekülgeschwindigkeit v<br />
zwischen −vmax und +vmax, und die Auslenkung x der Moleküle zwischen<br />
−xmax und +xmax.<br />
Der Druck eines Gases ist proportional zur durchschnittlichen Geschwindigkeit<br />
seiner Moleküle, während die Energie proportional zur maximalen<br />
Geschwindigkeit der Moleküle ist. Daraus ergibt sich, daß die Schallenergie<br />
mit dem Quadrat des Abstandes zur Schallquelle abnimmt, während der<br />
Druck linear abnimmt (s. Abb. 5.2).<br />
Es gibt Mikrophone unterschiedlichster Art. Wir wollen an dieser Stelle<br />
aber zunächst ein Kriterium genauer betrachten. Einige Mikrophone messen<br />
eher die Energie, die durch den Schall auf sie übertragen wird, andere<br />
Mikrophone hingegen messen die Luftdruckänderungen. Es gibt auch Zwischenformen<br />
und verschiedene elektronische Schaltungen, die die eigentliche<br />
Messung nachbearbeiten, so daß praktisch alle denkbaren Eigenschaften<br />
des Schalls mehr oder weniger erfaßt und übertragen werden können.
Quelle<br />
a<br />
x<br />
2a<br />
Abb. 5.2. Schallenergie nimmt im Quadrat zur Entfernung ab<br />
4x<br />
5.1 Was ist Schall 57<br />
Grundsätzlich gilt aber festzuhalten, daß diejenigen Mikrophone, die eher<br />
den Luftdruck messen, besser geeignet sind, um als Fernbesprechungsmikrophone<br />
verwendet zu werden, während diejenigen, die eher die Schallenergie<br />
messen, mehr als Nahbesprechungsmikrophone verwendet werden. Wenn ein<br />
Mikrophon auf die Schallenergie reagiert und in einer Entfernung von einem<br />
Zentimeter vor dem Mund besprochen wird, dann ist eine Schallquelle,<br />
die genauso laut wie der Sprecher aber 1 Meter entfernt ist, ca. 10 000<br />
mal schwächer im Ausgangssignal des Mikrophons vorhanden. Solche<br />
Nahbesprechungsmikrophone sind in der Regel so unempfindlich gegenüber<br />
entfernten Störgeräuschen, daß selbst Musik in Rock-Konzertlautstärke aus<br />
der Nachbarschaft die Aufgabe für einen Spracherkenner kaum erschwert.<br />
Umgekehrt ist es so, daß energie-sensitive Mikrophone ungeeignet sind, um<br />
Sprache über größere Distanzen aufzunehmen.<br />
In vielen Situationen ist es wünschenswert, daß der Benutzer eines<br />
sprachverstehenden Systems kein Mikrophon vor dem Mund tragen muß,<br />
sondern frei sprechen kann, während das Mikrophon irgendwo im Raum in<br />
einer unscheinbaren Ecke steht. Die Erkennung von Sprache, die über so<br />
große Distanzen aufgezeichnet wird bereitet Spracherkennern immer noch<br />
große Probleme. Zum einen ist es so, daß Störgeräusche im Gegensatz zu<br />
Aufnahmen mit Nahbesprechungsmikrophonen kaum gedämpft werden,<br />
und zum anderen werden die Aufnahmen durch viele Reverberationen<br />
(Schallreflexionen an den Wänden) gestört. Bei großer Entfernung zwischen<br />
Sprecher und Mikrophon ist zudem eine vermehrte Variabilität der Signale<br />
zu erkennen. Der am Mikrophon ankommende Schall hängt stark ab von der
58 5. Akustische Grundlagen<br />
Entfernung des Sprechers, von seiner Orientierung (spricht er in Richtung<br />
Mikrophon oder in eine andere Richtung) und von den Räumlichen Gegebenheiten<br />
(Position von Möbeln, Beschaffenheit des Bodenbelags, Größe des<br />
Raumes etc.).<br />
Experiment 5.1: Synthese Akustischer Signale<br />
Starten Sie das Applet Sound Composition. Auf der Oberfläche sehen Sie<br />
zwei Felder. Im oberen sind mehrere Schieberegler dargestellt, von denen<br />
jeder einer bestimmten Frequenz entspricht.<br />
Im unteren Feld sehen Sie die Welle, die entsteht, wenn die Frequenzen<br />
gewichtet mit dem Wert des Schiebereglers aufaddiert werden. Wir ignorieren<br />
hier, daß die Wellen auch mit unterschiedlichen Phasen aufaddiert werden<br />
könnten.<br />
Erzeugen Sie verschiedene Überlagerungen, sehen Sie sich das Bild der<br />
resultierenden Wellenform an und spielen Sie das Signal durch Drücken von<br />
PLAY ab.<br />
Versuchen Sie, so etwas wie harmonische und weniger harmonische Töne zu<br />
erzeugen und festzustellen, was einen Ton harmonisch macht.<br />
5.2 Messung der Schallintensität<br />
Bedenken wir, daß der leiseste hörbare Ton den Luftdruck um ca. 10 −5 Pa<br />
moduliert, und daß der lauteste hörbare, sehr schmerzhafte, Ton den Druck<br />
um ca. 10 2 Pa moduliert, dann verstehen wir, daß eine logarithmische Skala<br />
zur Messung des Schalldruckpegels sinnvoll ist. Das etablierte Maß ist das<br />
Dezibel (dB). Das Dezibel ist keine eigenständige physikalische Einheit,<br />
sondern beschreibt nur den Logarithmus eines Verhältnisses zweier Werte.<br />
Daher wir das dB auch für andere Zwecke als für die Messung des Schalls<br />
verwendet. Insbesondere bei der Angabe von Verstärkungsfaktoren bedient<br />
man sich gerne des Dezibels. Die ursprünglich zu Ehren von Alexander<br />
Graham Bell benannte Pegel- Einheit ” Bel“ ist gerade eine um den Faktor<br />
10 gröbere Skala. Um auch Absolutwerte zu beschreiben verwendet man<br />
das dBA, den mit 10 multiplizierten Zehnerlogarithmus des Verhältnisses<br />
der übertragen Schallenergie zu einem willkürlich festgelegten Wert. Der
absolute Schalldruckpegel ist definiert als<br />
20 · log 10<br />
<br />
P<br />
P0<br />
5.2 Messung der Schallintensität 59<br />
(5.1)<br />
wobei P die Luftdruckänderung des gemessenen Schalls ist und<br />
P0 = 2 ·10 −5 Pa ein willkürlich festgelegter Basisdruck ist. Unter Berücksichtigung<br />
der Tatsache, daß die vom Schall übertragene Energie proportional<br />
zum Quadrat der Luftdruckänderung ist, ergibt sich somit auch die Gleichung:<br />
10 · log 10<br />
<br />
I<br />
I0<br />
(5.2)<br />
wobei I die vom gemessenen Schall übertragene Energie ist, und I0 die<br />
Energie ist, die ein Schall überträgt, der den Luftdruck um P0 moduliert.<br />
Zur Veranschaulichung können wir zum Beispiel sagen, wenn ein Kanal den<br />
Schall um +20dB verstärkt, dann bedeutet das, daß der Luftdruck um den<br />
Faktor 10 verstärkt wird. Oder wenn ein Kanal den Schall um -6dB dämpft,<br />
wird der Luftdruck um ca. den Faktor 2 gesenkt.<br />
Übertragungsleistung (W/m<br />
00000000000000<br />
11111111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
00000000<br />
11111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
00000000<br />
11111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
00000000<br />
11111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
0000000000<br />
1111111111<br />
00000000<br />
11111111<br />
0000000000<br />
1111111111<br />
00000000000000<br />
11111111111111<br />
00000000000000<br />
11111111111111<br />
00000000000000<br />
11111111111111<br />
2 ) Schalldruckpegel (dB)<br />
10<br />
130 phon<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
−10<br />
10 −11<br />
10 −12<br />
10 −9<br />
10 −8<br />
10 −7<br />
10 −6<br />
10 −5<br />
10 −4<br />
10 −3<br />
10 −2<br />
10 −1<br />
100<br />
10<br />
1<br />
140<br />
130<br />
120<br />
120<br />
110<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
20 40 100 200 1000 4000 10000 Hz<br />
000 111<br />
000 111<br />
Hörschwelle<br />
000 111<br />
000 111<br />
000 111<br />
Musik<br />
000 111<br />
000 111<br />
Sprache<br />
Abb. 5.3. Die Hörfläche: Sprache und Musik im Frequenz/Lautstärke-Raum<br />
Abbildung 5.3 veranschaulicht, in welchem Bereich wir Sprache und<br />
Musik hören. Die Schalldruckpegel von Sprache liegen zwischen 35 dB und
60 5. Akustische Grundlagen<br />
75 dB, je nach Frequenz sogar nur in einem kleineren Intervall dazwischen.<br />
Die Dynamik von Musik ist deutlich größer, ebenso der Frequenzbereich.<br />
Die maximale Frequenz bei der Produktion von Sprache liegt bei ca. 5 kHz<br />
bis 6 kHz, in sehr kleinen Anteilen auch einige Oberwellen die noch darüber<br />
liegen können. Höhere Frequenzen spielen aber keine Rolle.<br />
Geräusch Schalldruckpegel<br />
Referenzwert P0<br />
0 dB<br />
leisester hörbarer 1000 Hz Ton 6 dB<br />
ruhige Nacht 20 dB<br />
leises Flüstern 25 dB<br />
Brummen eines Kühlschranks 40 dB<br />
leises Sprechen 50 dB<br />
normale Unterhaltung 65 dB<br />
typischer Straßenlärm 80 dB<br />
vorbeifahrendes Motorrad 90 dB<br />
Schreien 100 dB<br />
Preßlufthammer 100 dB<br />
Hubschrauber 110 dB<br />
Rock-Konzert 120 dB<br />
Luftalarmsirene 130 dB<br />
Schmerzgrenze 140 dB<br />
Gewehrschuß 140 dB<br />
Raketenstart 180 dB<br />
Tabelle 5.2. Schalldruckpegel für verschiedene Geräusche<br />
In Kap. 4 wurde beschrieben, wie unser Gehörapparat die Empfindlichkeit<br />
auf der Frequenzachse logarithmiert. Die tiefen Frequenzen enthalten<br />
wichtigere Informationen und werden deshalb feiner aufgelöst. Aber nicht<br />
nur die Frequenzachse wird logarithmiert sondern auch die Intensitätsachse,<br />
das heißt, daß wir n Schallquellen, die mit der gleichen Energie abstrahlen<br />
nicht als n mal so laut empfinden wie eine einzelne, sondern nur um einen<br />
additiven Wert, der proportional zu n ist. Unser Lautstärkeempfinden läßt<br />
sich also beschreiben durch:<br />
Lautstärke von 1 Schallquelle = L<br />
Lautstärke von n Schallquellen = L + a · n<br />
(5.3)
5.2 Messung der Schallintensität 61<br />
Daraus geht hervor, daß die Steigerung im Lautstärkeempfinden nicht<br />
von der Ausgangslautstärke abhängt. Das heißt, daß n auf den Boden<br />
fallende Nadeln genauso viel lauter sind als eine Nadel, wie n Gewehrschüsse<br />
lauter sind als einer. Das mag auf den ersten Blick seltsam klingen, aber bei<br />
genauer Betrachtung sieht man die Vorteile einer solchen Logarithmierung.<br />
Es wäre zum Beispiel bei einer linearen Abbildung von Schallintensität auf<br />
die Lautstärke nicht besonders hilfreich, die Fähigkeit zu besitzen, genau<br />
zu unterscheiden, ob man 100 Stimmen oder 101 Stimme gleichzeitig hört,<br />
während sich eine einzelne etwas leise sprechende Person so anhören würde<br />
wie null Personen.<br />
Das subjektive Empfinden von Lautstärke weicht sowieso von der<br />
physikalischen Definition des Schalldruckpegels ab. Ganz offensichtlich<br />
wird das bei Tönen einer Frequenz, die am Rande der Hörfläche liegen.<br />
Um einen 20 kHz Ton zu hören – nicht jedes menschliche Ohr ist<br />
dazu in der Lage – muß schon ein beträchtlicher Schalldruckpegel vorliegen.<br />
Bei anderen Frequenzen so zwischen 1000 und 3000 Hz genügen<br />
schon viel kleinere Schalldrücke um einen deutlich hörbaren Ton zu erzeugen.<br />
Wenn man Testpersonen Tone verschiedener Intensitäten und verschiedener<br />
Frequenzen vorspielt und sie subjektiv die Lautstärke schätzen läßt,<br />
ergibt sich ein Zusammenhang zum Schalldruckpegel, wie er in Abb. 5.4 dargestellt<br />
ist. Das Maß, das die subjektiv empfundene Lautstärke wiedergibt,<br />
ist das Phon. Bei 1000 Hz entspricht der Phon-Wert dem absoluten Schalldruckpegel.<br />
Für Frequenzen zwischen 1000 Hz und einigen 1000 Hz ist der<br />
Phon-Wert meist höher als der dBA-Wert. Für Frequenzen unter 1000 Hz<br />
und Frequenzen weit über 3000 Hz ist meist der dBA-Wert höher.
absoluter<br />
Schalldruckpegel [dB]<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
50 Hz<br />
100 Hz<br />
200 Hz<br />
500 Hz<br />
Abb. 5.4. Schalldruckpegel und Lautstärke<br />
100 phon<br />
80<br />
60<br />
40<br />
20<br />
0<br />
1 kHz 2 kHz 5 kHz 10 kHz 20 kHz
6. Phonetische Grundlagen<br />
Die Phonetik war schon im Altertum eine wissenschaftliche Disziplin. Spätestens<br />
zu der Zeit, als man dazu über ging, die Symbole der Schrift nicht mehr<br />
als sinntragende Einheiten zu betrachten, sondern als Repräsentanten akustischer<br />
Phänomene [?], wurde die genauere Untersuchung des Phonemsatzes<br />
verschiedener Sprachen interessant. Dies ging sogar so weit, daß die Schrift,<br />
die ursprünglich dafür gedacht war, die Sprache zu beschreiben, zur Norm<br />
wurde und die Sprache in ihrer Entwicklung von der Schrift geprägt wurde.<br />
Bis heute hat sich die gegenseitige Beeinflussung von gesprochener und geschriebener<br />
Sprache fortgesetzt. Vor allem im angelsächsischen Sprachraum<br />
wurde der Einfluß auf die Sprache vor allem durch die Schrift geprägt, was<br />
sich dadurch manifestiert, daß die Regeln für die Aussprache von Wörtern<br />
bei gegebener Orthographie dort besonders kompliziert sind. Im Englischen<br />
wurden Erweiterungen der Sprache meist in Schriftform aufgenommen und<br />
eine neue Aussprache wurde dafür kreiert (z.B. knob, vision, orange, etc.). In<br />
anderen Sprachen gab es aber auch die gegenteilige Tendenz. So wurde vor<br />
allem in Slawischen Sprachen, die dafür bekannt sind, daß ihre Orthographie<br />
oft eins zu eins auf eine Lautschrift abgebildet werden kann, die Lautfolge<br />
eines neuen Wortes in die Sprache aufgenommen und eine neue Orthographie<br />
kreiert (z.B. Gete statt Goethe). Durch die starke gegenseitige Beeinflussung<br />
von Schrift und Sprache und durch die Jahrtausende andauernde Entwicklung<br />
beider <strong>Kommunikation</strong>sformen sind die beiden so weit auseinander divergiert,<br />
daß es heute schon eine relativ schwierige Aufgabe geworden ist,<br />
aus der orthographischen Darstellung eines Wortes die dazu gehörige phonetische<br />
Darstellung zu gewinnen. Algorithmen, die dieses Problem lösen,<br />
werden ” Text-To-Speech“ Systeme (TTS) genannt und werden vor allem für<br />
die Sprachsynthese gebraucht.<br />
6.1 Lautliche Einheiten<br />
Es ist sehr schwer, Laute, die der <strong>Mensch</strong> artikulieren kann, so genau zu<br />
beschreiben, daß sie eindeutig wiedererkannt werden könnten. Das kommt<br />
nicht zuletzt daher, daß artikulatorische Laute keine diskreten Erscheinungen<br />
sind, sondern daß auch unendlich viele Zwischenformen zwischen zwei
64 6. Phonetische Grundlagen<br />
Lauten existieren können. So kann man zwischen je zwei Vokalen beliebig<br />
viele Abstufungen artikulieren. Wann ein bestimmter Laut ein ” A“ ist, ist<br />
gar nicht so einfach zu definieren. Hört man zum Beispiel arabischer Sprache<br />
zu, so würde man, wenn das Arabische fremd ist, viele Laute, die ein Araber<br />
als ein ” I“ bezeichnet, als ein ” Ä“ bezeichnen. In welche phonetische Klasse<br />
man einen Laut kategorisieren würde, hängt nicht nur von der Gewohnheit<br />
des Gehörs ab, sondern auch vom Kontext, in dem der Laut gesprochen wird.<br />
Trotz der Schwierigkeit, exakte Klassen definieren zu können und der<br />
Schwierigkeit, Laute zu klassifizieren, ist eine sinnvolle Forschung nur dann<br />
möglich, wenn man zumindest von einer Existenz von Klassen ausgeht,<br />
auch ohne deren Beschreibung zu kennen. Bevor wir das Problem, die<br />
Klassen automatisch zu finden, angehen, sollten wir als Grundlage das die<br />
Erkenntnisse verwenden, die die Phonetiker in den letzen Jahrhunderten<br />
erarbeitet haben.<br />
In so gut wie jeder Sprache gibt es viele hundert verschiedene Laute<br />
gibt. Nicht alle dienen der Unterscheidung von Wörtern, und nicht alle<br />
entsprechen einem Buchstaben des Alphabets oder einer Buchstabensequenz.<br />
Oft läßt sich aus einer Buchstabensequenz die dazu passende Lautfolge nicht<br />
ableiten. Das kommt zum einen daher, daß einige Wörter auf verschiedene<br />
Arten korrekt ausgesprochen werden können ( König“ oder Könich“), und<br />
” ”<br />
zum anderen daher, daß selbst zwei auf den ersten Blick gleiche Aussprachen<br />
doch unterschiedlich sind, wenn man genau hinhört ( weg“ oder Weg“).<br />
” ”<br />
Ein eindeutig bestimmter Laut wird auch als Phon bezeichnet. Neben der<br />
Einteilung der Laute in Phone gibt es auch die Einteilung in Phoneme.<br />
Während Phone akustisch motivierte Einheiten sind (es sind einfach sich<br />
ausreichend voneinander unterscheidende Laute), handelt es sich bei Phonemen<br />
um linguistisch motivierte Einheiten. Ein Phonem ist eine Menge von<br />
Phonen (seinen Allophonen), definiert dadurch, daß es zur Unterscheidung<br />
von Wörtern benötigt wird. Genauer gesagt: Ein Phonem ist ein Laut, der<br />
ein Wort von einem minimalen Partner unterscheidet. Ein minimales Paar<br />
sind zum Beispiel Haus“ und Maus“. Das heißt die jeweils ersten Laute<br />
” ”<br />
dieser beiden Wörter sind Phoneme. Auf den ersten Blick möchte man<br />
meinen, daß es zu jedem Phon ein minimales Paar existieren müßte. Dem<br />
ist aber nicht so. Im Deutschen gibt es zum Beispiel verschiedene Arten, das<br />
” ch“ auszusprechen. Weiter hinten im Mundraum artikuliert wird es nach<br />
den Vokalen A, O, und U (z.B. Dach, doch). In allen anderen Fällen wird es<br />
weiter vorne artikuliert (z.B. dich, Molch). Es gibt keine zwei Wörter, die<br />
verwechselt werden könnten, wenn die falsche Aussprache gewählt würde.<br />
Also handelt es sich beim deutschen ch“-Laut um ein Phonem, das die<br />
”<br />
Menge der zwei Phone ch“ wie in Dach“ und ch“ wie in dich“ vereint.<br />
” ” ” ”<br />
Ähnlich verhält es sich auch beim R“-Laut, der den Sinn eines Wortes<br />
”<br />
nie verfälscht, egal auf welche Art er artikuliert wird. Selbst zu beginn
6.2 Die IPA Lautemenge 65<br />
des zwanzigsten Jahrhunderts, als die offizielle Deutsche Bühnenaussprache<br />
definiert wurde, und genauer definiert wurde, welche ” R“-Laute gerollt und<br />
welche weicher gesprochen werden sollten, existierte nur ein Phonem ” R“.<br />
Während zwei Phone in einer Sprache ein einziges Phonem sind, könnten<br />
die gleichen zwei Phone in einer anderen Sprache verschiedene Phoneme<br />
sein, das heißt, daß die Definition eines Phonems von der zugrundeliegenden<br />
Sprache abhängt. Aber trotz der klaren Definition der Phoneme als Unterscheidungskriterium<br />
minimaler Paare sind sich Linguisten und Phonetiker<br />
nicht immer einig. Teilweise kommt das daher, daß viele Sprachen lebendig<br />
sind und mit der Zeit verschiedene Fremdwörter aufnehmen müssen, die<br />
vielleicht sprachfremde Laute enthalten (z.B. ” Restaurant“) oder neue<br />
minimale Paare erzeugen (z.B. ” froh“ und ” Francs“).<br />
6.2 Die IPA Lautemenge<br />
Das bisher erfolgreichste System zur Darstellung von Lauten ist das Alphabet<br />
der ” International Phonetics Association“, IPA(s. Abb. 6.1). Auch<br />
wenn viele Phonetiker unterschiedlicher Meinung sind, was die Gleichheit<br />
oder Verschiedenheit bestimmter Laute betrifft, und auch wenn mit der Zeit<br />
neuere Symbole in das IPA-Alphabet aufgenommen werden mußten, so ist<br />
auch heute noch dieses Alphabet die international anerkannte Standardschreibweise<br />
für lautliche Beschreibungen von Aussprachen.<br />
Abb. 6.1. Die Laute des International Phonetic Alphabet<br />
Bei genauerer Betrachtung fällt allerdings schnell auf, daß das IPA-<br />
Alphabet, ebenso wie viele Weisheiten der Phonetik sehr stark linguistisch<br />
und viel weniger akustisch geprägt sind. So gib es im IPA-Alphabet Symbole
66 6. Phonetische Grundlagen<br />
Konsonanten Vokale<br />
IPA Beispiel IPA Beispiel<br />
p Papa, hoppla, Abt iIgel, Biene<br />
t Tal, Theater, Lotto, Rad i Idee, Kritik<br />
k Kopf, Chaos, Backe, Fuchs, Tag Áintakt, Mitte, Kritik<br />
b Bote, Ebbe yüben, Bühne<br />
d Deich, buddeln y Büro, Physik<br />
g Garten, Egge üppig, müssen, Gymnasium<br />
f faul, Vater, Phonetik, Affe eedel, Mehl, See<br />
s Sandwich, City, Masse, große e lebendig, Detail<br />
ËSchule, Stamm, Chef, mischen Ähre, käme<br />
ç Chemie, Predigt, Mädchen Äste, Essen, entzwei, Fest<br />
Lachen, Buch, Tauchen begehren, Liebe<br />
ÎWagen, Vase, ewig øÖse, trösten, Friseur<br />
z Sahne, Dose, äußerst, Puzzle ø Ökonomie<br />
Genie, Journal, Garage œ öffnen, Gehöft, Flirt<br />
j ja, Mayonnaise, Nation uBluse, Blues, Filou<br />
Ã,, r Rose, Krug, Karren u Uran, Ouvertüre, Akku<br />
pf Pfahl, Kopf, hüpfen ÍKuckuck, Mutter, good-bye<br />
ñZunge, heizen, Katzen, Ivica oohne, groß, Depot<br />
tratschen, Cevapcici o Moral, Auto<br />
Dschungel, Maharadscha, Job ÇOchse, Sorge, Konflikt<br />
m Mund, Kamm, Trommel Atem, nah, Etat<br />
n Nase, Henne, Mann a alt, Ratte<br />
Bretagne, Cognac erfahren, Verband, Kur, Oper<br />
Æsingen, sinken, lang aÁEi, Kaiser, Geweih<br />
l Lust, Schnalle, Knall aÍaus, rauh, Couch<br />
h Hahn, Uhu ÇTreue, Efeu, Bläue<br />
Tabelle 6.1. Deutsche Aussprachebeispiele für einige IPA-Symbole
6.3 Gruppierung von Phonemen 67<br />
für Diphthonge (Vokalübergänge) und Affrikate (bestimmte Doppelkonsonanten),<br />
die aus akustischer Sicht ganz klar kein einzelner Laut sondern eine<br />
Folge mehrerer Laute sind.<br />
6.3 Gruppierung von Phonemen<br />
Es gibt sicherlich viele sinnvolle Arten, Phoneme in Gruppen zusammenzufassen.<br />
Die Motivation liegt dabei aus der Sicht des Spracherkennungsforschers<br />
in der Hoffnung, daß Phoneme, die in einer Gruppe liegen, eine gewisse<br />
Gemeinsamkeit haben, welche sich gegebenenfalls maschinell lernen läßt<br />
und so eine automatische Klassifikation vereinfachen könnte. Insbesondere<br />
besteht die Hoffnung, aus der Tatsache, daß der Artikulationsapparat sich<br />
beim Sprechen stetig bewegt und keine Sprünge von einem Zustand in eine<br />
völlig anderen machen kann, schließen zu können, daß die Manifestation<br />
eines Lautes davon abhängt, welches der vorhergehende und der nachfolgende<br />
Laut ist. Im Kapitel 17 werden Beispiele dafür gegeben, wie diese<br />
Kontextabhängigkeit für die Spracherkennung modelliert werden kann.<br />
Im folgenden werden Phoneme unterschieden nach ihrer Artikulationsart<br />
(physikalisches Phänomen), den Ort der Artikulation im Vokaltrakt und<br />
einiger anderer besonderer Eigenschaften.<br />
6.3.1 Vokale und Konsonanten<br />
Die erste Unterteilung von Lauten lernt man schon früh in der Schule,<br />
nämlich diejenige in Vokale und Konsonanten. Hierbei bezeichnen Vokale<br />
solche Laute, die allein artikuliert und ” gehalten“ werden können, während<br />
Konsonanten nur zusammen (con-) mit anderen Lauten gut klingen (sonant).<br />
Auf den ersten Blick sind diese Unterscheidungen relativ einfach zu<br />
treffen. Bei näherer Betrachtung muß man im Deutschen allerdings zu den<br />
üblichen fünf Vokalen A, E, I, O, U (jeweils mit mehreren IPA-Symbolen)<br />
zumindest noch die Umlaute Ä, Ö, und Ü hinzunehmen. Etwas strittiger<br />
wird dann die Frage, ob auch Doppellaute wie EI und EU als Vokale zu<br />
betrachten sind. Im übrigen sind auch viele im allgemeinen den Konsonanten<br />
zugeordnete Laute wie M, N, S und andere problemlos allein artikulierbar.<br />
In der Tat gibt es in vielen Sprachen (vor allem in den slawischen)<br />
Wörter, die ganz ohne Laute auskommen, die im Deutschen als Vokale gelten.<br />
Daher sind die deutschen Bezeichnungen Selbstlaute“ für Vokale und<br />
”<br />
” Mitlaute“ für Konsonanten irreführend. In der Spracherkennung wird
68 6. Phonetische Grundlagen<br />
die Unterscheidung zwischen Vokalen und Konsonanten demnach auch<br />
nicht wirklich vorgenommen. Das was man landläufig als Vokal bezeichnet<br />
müßte aus phonetischer Sicht vielmehr als ” stimmhafter Laut, bei dem der<br />
Luftstrom durch den Mundraum nicht behindert wird“ genannt werden.<br />
Vokale und Konsonanten haben allerdings eine sehr unterschiedliche<br />
Bedeutung für die Schrift und für die Aussprache. Es ist nahezu unmöglich,<br />
den folgenden Satz, bei dem die Konsonanten entfernt wurden zu verstehen:<br />
E OE OAE I I E U EEE<br />
Wenn der gleiche Satz aber ohne Vokale geschrieben wird:<br />
TXT HN VKL ST NCHT SCHWR Z VRSTHN<br />
dann hat man durchaus eine realistische Chance. In der Tat werden<br />
in einigen Sprachen (zum Beispiel Arabisch und Hebräisch) in der Schrift<br />
meist die Vokale weggelassen. Der Schluß, daß somit auch für die Spracherkennung<br />
die Konsonanten die wichtigere Rolle spielen wäre allerdings<br />
nicht korrekt. Tatsächlich ist es nämlich so, daß der Anteil der Vokale<br />
am Sprachsignal sowohl zeitlich als auch energetisch Betrachtet wesentlich<br />
höher ist als der der Konsonanten. Daher dürfen wir erwarten, daß Vokale<br />
auch einen erheblichen Einfluß auf die Funktion eines Spracherkenners haben.<br />
Wir bezeichnen Laute als ” stimmhaft“, wenn bei ihrer Artikulation, die<br />
Stimmbänder schwingen. Man kann dies leicht fühlen, indem man seine<br />
Finger beim Sprechen seitlich an den Kehlkopf hält. Auch die Laute m, n<br />
und j sind stimmhafte Laute. Wenn dann noch die Luft ungehindert durch<br />
den Mund strömen kann handelt es sich um einen Vokal. Bei m und n strömt<br />
die Luft durch die Nase – der Leser möge zum Test ein m oder n artikulieren<br />
und sich dann die Nase zuhalten. Beim j-Laut wird der Luftstrom durch die<br />
Zunge behindert und strömt seitlich an ihr vorbei.<br />
Wie sich ein Vokal anhört hängt nun im wesentlichen von der Position des<br />
höchsten Punktes des Zungenrückens (Dorsum) ab. Sicherlich spielt auch die<br />
Schwingungsfrequenz der Stimmbänder eine Rolle. Sie bestimmt aber nur die<br />
Tonhöhe des Vokals, während die Qualität durch die Form des Mundraumes<br />
vorgegeben wird. Das Dorsum befindet sich bei Vokalen in einem Bereich<br />
den man grob als Viereck ansehen kann. Das sogenannte ” Vokalviereck“ [?]<br />
ist in Abb. 6.2 dargestellt. Es berücksichtigt nicht unterschiedliche Längen<br />
(z.B. e in ” weg“ gegenüber ein ” Weg“). Dazu wäre eine weitere Dimension<br />
nötig, die das Vokalviereck dann zu einem Vokalklotz macht. Die links der von<br />
oben nach unten verlaufenden Linien stehenden Laute werden mit gerundeten<br />
Lippen artikuliert, die rechts stehenden mit nicht gerundeten.
Abb. 6.2. Das Vokalviereck<br />
uÏ oÇ<br />
<br />
6.3 Gruppierung von Phonemen 69<br />
Áy<br />
i<br />
ø e<br />
œ<br />
æ<br />
<br />
Œ a<br />
Ufer<br />
Biene<br />
Mutter Physik Mitte<br />
Auto<br />
Öko genug<br />
Liebe<br />
morgen<br />
Flirt Essen<br />
Äh<br />
alt<br />
Í<br />
<br />
<br />
In den meisten Sprachen werden auch so genannte Diphthonge verwendet.<br />
Dabei handelt es sich um zwei Vokale, die hintereinander mit fließendem<br />
Übergang artikuliert werden (s. Abb. 6.3).<br />
6.3.2 Artikulationsarten<br />
Während Vokale vorrangig durch die Position des Dorsums definiert werden,<br />
ist das Hauptkriterium zur Unterscheidung von Konsonanten die Artikulationsart.<br />
Sie gibt an, mit welchem Mechanismus der Luftstrom manipuliert<br />
wird um einen Laut entstehen zu lassen.<br />
Verschlußlaute oder Plosive<br />
Bei Verschlußlauten wird der Luftstrom durch den Vokaltrakt für eine kurze<br />
Zeit vollständig unterbrochen.<br />
Die typischen Verschlußlaute sind b, d, g, p, t, k. Sie lassen sich in zwei<br />
Untergruppen aufteilen, p, t und k sind völlig stimmlos, während bei den<br />
Anfangsstücken von b, d und g die Stimmbänder noch etwas mitschwingen.<br />
Bei b und p findet der Verschluß des Vokaltraktes durch die Lippen statt.<br />
Bei d und t wird der Luftstrom dadurch unterbrochen, daß die Zunge an den<br />
Zahndamm und die Zähne des Oberkiefers gedrückt wird. Und bei g und k
Á<br />
70 6. Phonetische Grundlagen<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
00000000<br />
11111111<br />
<br />
000000<br />
111111<br />
000000<br />
111111<br />
000000<br />
111111<br />
000000<br />
111111<br />
000000<br />
111111<br />
000000<br />
111111<br />
Ç<br />
Í Á<br />
eÁ<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
0000 1111<br />
a<br />
Abb. 6.3. Dorsumweg bei den DiphthongenÁ,Ç,Íund<br />
wird der Rücken der Zunge gegen den Gaumen gedrückt.<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
In den Anfängen der Spracherkennungsforschung wurden gerne Systeme<br />
untersucht, die nur die sechs typischen Plosive erkennen mußten. Beschränkt<br />
auf die teilweise stimmhaften wurde damals die sogenannte B-D-G-Task<br />
zum Standard-Benchmark für Spracherkenner.<br />
b, p d,t g,k<br />
Abb. 6.4. Sagittalschnitte verschiedener Plosivlaute
6.3 Gruppierung von Phonemen 71<br />
In Abb. 6.4 sind drei Sagittalschnitte für sechs verschiedene Plosivlaute<br />
dargestellt. Grau unterlegt ist jeweils die Stelle des Vokaltraktes, an der der<br />
Luftstrom unterbrochen wird.<br />
Nasale<br />
Die typischen Nasallaute, die in fast allen Sprachen der Welt vorkommen<br />
sind die Konsonanten m und n, oft auchÆ. In einigen Sprachen – die<br />
bekannteste dürfte wohl Französisch sein – werden auch viele Vokale nasal<br />
ausgesprochen. Dabei senkt sich das Gaumensegel, das normalerweise die<br />
Öffnung des Rachenraums zur Nasenhöhle verschließt, und läßt so einen<br />
Teil des Luftstroms durch die Nasenhöhle. Diese dient dann als zusätzlicher<br />
Resonanzkörper, der den Luftstrom moduliert und über die Nasenlöcher<br />
abgestrahlt. Deshalb hören sich auch Nasallaute seltsam an, wenn man<br />
verschnupft ist.<br />
m n Æ<br />
Abb. 6.5. Sagittalschnitte verschiedener nasaler Konsonanten<br />
In Abb.6.5 sind drei Sagittalschnitte für die Nasalen Konsonanten dargestellt.<br />
Auch bei diesen Lauten wird der Luftstrom im Mundbereich an einer<br />
Stelle blockiert (grau unterlegt). Da hier aber im Gegensatz zu den Plosiven<br />
das Velum geöffnet ist, kann die Luft über die Nase ausströmen. Bei genauer<br />
Betrachtung kann man feststellen, daß die Form des Vokaltraktes mit Ausnahme<br />
des Velums beim m genauso aussieht wie bei den Plosiven b und p,<br />
beim n wie bei den Plosiven f und t, und beimÆwie bei den Plosiven g und<br />
k. Eine Unterscheidung in stimmhaft und stimmlos gibt es bei den nasalen<br />
Konsonanten nicht, sie sind alle stimmhaft.
72 6. Phonetische Grundlagen<br />
Vibrationslaute<br />
Bei Vibrationslauten befindet sich ein Teil des Artikulationsapparates, typischerweise<br />
die Zungenspitze (Apis), das Zäpfchen (Uvula), oder Teile des<br />
Gaumensegels (Velum). Dabei handelt es sich fast ausschließlich um Varianten<br />
des R-Lautes (IPA SymboleÃ,, r und andere).<br />
Frikative<br />
Die Bezeichnung Frikativ kommt von Friktion (Reibung). In der deutschsprachigen<br />
Literatur werden Frikative oft auch Reibelaute genannt. Sie entstehen<br />
dadurch, daß der Luftstrom an einer Stelle im Vokaltrakt behindert wird.<br />
An dieser Stelle reibt die Luft an den Teilen des Artikulationsapparates, die<br />
die Verengung erzeugen.<br />
Î,f z,s ,Ë<br />
j,<br />
Abb. 6.6. Sagittalschnitte verschiedener Frikative<br />
Auch bei den Frikativen gibt es die Unterscheidung zwischen stimmhaften<br />
und stimmlosen. In Abb. 6.6 sind die stimmhaften FrikativeÎ, z,und j, sowie<br />
die ihnen entsprechenden stimmlosen Frikative f, s,Ë, unddargestellt.<br />
Affrikate<br />
Als Affrikate werden Laute bezeichnet, die eigentlich aus zwei Lauten bestehen:<br />
einem Plosiv und einem unmittelbar folgenden Frikativ, wie z.B. am Anfang<br />
von Pfeffer oder Zaun. Wenn der Plosivlaut und der Frikativ unabhängig<br />
ausgesprochen werden, hört es sich anders an (z.B. wie in Klumpf uß).
6.3.3 Artikulationsorte<br />
6.3 Gruppierung von Phonemen 73<br />
Neben der Möglichkeit, die Laute nach der Artikulationsart zu klassifizieren,<br />
gibt es die Klassifikation nach dem Artikulationsort.<br />
Bilabiale<br />
Wenn ein Laut dadurch entsteht, daß beide Lippen sich (beinahe) berühren,<br />
wird er als bilabialer Laut bezeichnet. Beispiele dafür sind b, m und p. In<br />
einigen Sprachen gibt es noch weitere Laute. Z.B. der H-Laut im Japanischen<br />
oder der spanische Mischlaut zwischen b undÎwerden auch oft bilabial<br />
gesprochen.<br />
Labiodentale<br />
Lippe und Zähne artikulieren gegeneinander. Meist sind es die Unterlippe<br />
und die oberen Schneide- und Eckzähne. Z.B. f undÎ.<br />
Dentale / Alveolare<br />
Die Zunge, vor allem der vordere Teil der Zunge, berührt die Zähne (dental),<br />
wie bei t und d, oder den Zahndamm (alveolar), wie bei n und l.<br />
Palatoalveolare<br />
Zunge und Zahndamm bzw. harter Gaumen artikulieren zusammen. Dies ist<br />
meist bei Frikativen der Fall. Je nach genauer Position können so verschiedene<br />
als härter oder weicher empfundene Zischlaute erzeugen. Typische Vertreter<br />
palatoalveolarer Laute sind das stimmloseËund sein stimmhaftes Pendant,<br />
das in der deutschen Sprache so gut wie gar nicht vorkommt. Bei korrekter<br />
Aussprache müßte es im Wort Garage stimmhaft gesprochen werden.<br />
Velare<br />
Bei den velaren Lauten wird die Zunge gegen das Gaumensegel gedrückt, wie<br />
bei k, g undÆ.<br />
Laterale<br />
Der Artikulationsort ist neben der Zunge. Die Zunge berührt an mehreren<br />
möglichen Stellen das Dach des Mundraumes (Zahndamm, harter oder weicher<br />
Gaumen), während die Luft seitlich an der Zunge vorbeiströmt. Dies ist<br />
beim j und l so.
74 6. Phonetische Grundlagen<br />
Glottale<br />
Bei einigen Lauten wie dem silbeninitialen h im Deutschen entsteht die Reibung<br />
der Luft an der Stimmritze. Die Stimmbänder sind nicht in Schwingung,<br />
verengen aber die Stimmritze. Bei vielen silbeninitialen Vokalen ist die Glottis<br />
vor Beginn der Silbe geschlossen. Bevor die Stimmbänder anfangen zu<br />
schwingen, wird unterhalb der Stimmbänder etwas Druck aufgebaut. Beim<br />
Öffnen der Stimmritze entsteht dann ein kleiner Plosivlaut, der sogenannte<br />
Glottale Verschlußlaut, IPA-SymbolÈ. In der fließenden Sprache ist der Verschlußlaut<br />
kaum merklich, bei genauer Analyse des Sprachsignals ist er aber<br />
meistens deutlich zu erkennen.<br />
6.3.4 Besondere Eigenschaften<br />
Viele Laute haben neben dem Artikulationsort und der Artikulationsart diverse<br />
andere Eigenschaften, nach denen Sie unterschieden werden können.<br />
Stimmhaftigkeit<br />
Einer der offensichtlichsten und wichtigsten Eigenschaften eines Lautes ist<br />
die Frage, ob er stimmhaft oder stimmlos ist. Wenn man sich beim Sprechen<br />
die Finger an den Kehlkopf hält, kann man die Vibrationen der Stimmbänder<br />
spüren. Auch im Sprachsignal ist es sehr einfach stimmlose Laute (vergleichbar<br />
mit ungeordnetem Rauschen) von stimmhaften Lauten (erkennbare, sich<br />
wiederholende Wellenform) zu unterscheiden.<br />
Aspiration<br />
In der alten deutschen Rechtschreibung, wie sie bis Anfang des 20. Jahrhunderts<br />
gültig war, wurden viele T-Laute, die heute mit einfachem T geschrieben<br />
werden, noch mit TH geschrieben (z.B. thun statt tun). In dieser Schreibweise<br />
spiegelte sich die Tatsache wider, daß die meisten T-Laute mit einem<br />
unmittelbar folgenden ” Ausatmen“ artikuliert werden, also aspiriert sind. Da<br />
die Aspirationseigenschaft im Deutschen nicht zur Unterscheidung von Lauten<br />
dient, und da es so gut wie keine nicht-aspirierten T laute gibt, ist die<br />
TH-Schreibweise fast nur noch bei Fremdwörtern aufrechterhalten worden.<br />
Stärke<br />
Bei einigen Lauten werden verschiedene Artikulationsstärken unterschieden.<br />
Im Deutschen spielt die Unterscheidung von schwach artikulierten Lauten<br />
(Lenes) und stark artikulierten Lauten (Fortes) keine Rolle.
Lippenrundung<br />
6.3 Gruppierung von Phonemen 75<br />
Lippenrundung Die letzte Instanz des Vokaltraktes bilden meist die Lippen.<br />
Für einige Laute sind alle Teile des Artikulationsapparates bis auf die Lippen<br />
identisch. So unterscheiden sich die Laute i (wie in Tier) und y (wie in Tür)<br />
nur dadurch, daß im einen Fall die Lippen weniger im anderen mehr gerundet<br />
sind. Durch die Rundung ändern sich die Schallabstrahlungseigenschaften.
7. Grundlagen der Signalverarbeitung<br />
Ein Verständnis für die Verarbeitung von Signalen ist im Zusammenhang<br />
mit der Spracherkennung nicht nur wichtig, weil die Algorithmen bei<br />
der Aufarbeitung von Sprachsignalen verwendet werden, sondern auch,<br />
weil sich die Eigenschaften von Signalen bis in die höheren Ebenen des<br />
Spracherkenners auswirken. Eine Detaillierte Abhandlung aller Grundlagen<br />
und Methoden der Signalverarbeitung würde den Rahmen dieses Buches<br />
sprengen. Das folgende Kapitel konzentriert sich daher vor allem auf die<br />
aus der Sicht der Spracherkennungsforschung interessanten Aspekte dieses<br />
Themas.<br />
7.1 Analog/Digital Wandlung<br />
Das erste, was eine Schallwelle durchläuft, wenn sie von Digitalrechnern<br />
verarbeitet wird ist normalerweise ein Analog/Digital Wandler (A/D<br />
Wandler). Wir wollen uns an dieser Stelle nicht mir der Physik oder<br />
den elektrotechnischen Grundlagen von A/D Wandlern befassen. Wir wollen<br />
aber einige Dinge festhalten, die im weiteren Verlauf von Bedeutung sind.<br />
Schallwellen als physikalisches Phänomen bewirken in jedem Punkt des<br />
Raumes Luftdruckänderungen. Beim Messen dieser Luftdruckänderungen<br />
bzw. der dadurch transportierten Energie werden von einem Mikrophon<br />
elektrische Spannungen geliefert. Diese Spannungen ergeben über die Zeit<br />
betrachtet eine kontinuierliche reellwertige analoge Funktion. Analogrechner<br />
werden schon lange nicht mehr in nennenswerter Häufigkeit verwendet, und<br />
Digitalrechner arbeiten nur mit digitalen Daten. Um aus einem analogen<br />
kontinuierlichen Signal ein zeitdiskretes und digitales Signal zu machen<br />
sind zwei Operationen nötig (s. Abb. 7.1). Der Schritt, der aus einem<br />
kontinuierlichen Signal ein diskretes macht, heißt ” Abtastung“ und wird von<br />
einem so genannten Halteglied bewerkstelligt. Der Schritt, der aus einem<br />
analogen Signal ein digitales macht, heißt ” Quantisierung“ und wird von<br />
einem oder mehreren Komparatoren durchgeführt. Abb. 7.2 zeigt die groben
78 7. Grundlagen der Signalverarbeitung<br />
Bestandteile eines Analog/Digital Wandlers.<br />
kontinuierlich<br />
diskret<br />
analog<br />
Abb. 7.1. Verschiedene Arten von Signalen<br />
00 11<br />
00 11<br />
00 11<br />
Anti-<br />
Aliasing<br />
Filter<br />
(Tiefpaß)<br />
Halte-<br />
glied<br />
Abb. 7.2. Funktionen eines A/D Wandlers<br />
digital<br />
Abtastung<br />
Quanti-<br />
sierung<br />
Quantisierung<br />
Wird die Meßwerteachse im Bereich zwischen f min und fmax in dem<br />
alle Meßwerte liegen, in 2 n äquidistante Intervalle eingeteilt, dann bedeutet<br />
Quantisieren das Abbilden eines Wertes x auf q(x) gemäß:<br />
q(x) = ⌊2 n ·<br />
(x − fmin )<br />
⌋ (7.1)<br />
(fmax − fmin )<br />
Die Werte f min und fmax werden durch die Hardware (A/D-Wandler)<br />
bestimmt. Wenn das physikalische Signal so stark ist, daß der Wertebereich
7.1 Analog/Digital Wandlung 79<br />
des Wandlers oft nicht ausreicht, dann wird dieses Phänomen ” Übersteuern“<br />
genannt.<br />
Beim Quantisieren geht Information verloren. In Gl. 7.1 wird jeder Wert<br />
auf den Anfang des Intervalls, in dem er liegt abgebildet. Wenn innerhalb der<br />
Intervalle die Meßwerte einigermaßen gleichverteilt sind (wovon auszugehen<br />
ist, wenn ausreichend viele Intervalle vorhanden sind), dann ist der Erwartungswert<br />
der Abweichung e des quantisierten vom ursprünglichen Wert eine<br />
halbe Intervallbreite:<br />
E[e] = 1<br />
2 n+1 · (fmax − f min ) (7.2)<br />
Diese Abweichung wird Quantisierungsfehler genannt. Man kann den<br />
Effekt des Quantisierungsfehlers so betrachten, als sei das ursprüngliche<br />
Signal mit einem Störsignal verrauscht worden.<br />
Der Signal-Rausch-Abstand gibt das Verhältnis der Energie des Signals<br />
zur Energie des Quantisierungsrauschens an. Die Energie des Signals x<br />
ist x 2 , und die Energie des Quantisierungsrauschens ist e 2 . Das heißt der<br />
Signal-Rausch-Abstand (SNR für signal to noise ratio) ist definiert als:<br />
SNR = 10 log10( E[x2 ]<br />
E[e2 ) in dB (7.3)<br />
]<br />
Der Erwartungswert der Signalenergie E[x2 ] ist nicht unbedingt<br />
( 1<br />
2 (fmax − fmin )) 2 , weil die Meßwerte normalerweise nicht zwischen fmin und fmax gleichverteilt sind. Daß in der Regel dennoch ( 1<br />
2 (fmax − fmin )) 2<br />
herauskommt liegt daran, daß typischerweise fmax = −fmin , und die<br />
Aussteuerung in den positiven Meßbereich fast die gleiche ist, wie die in den<br />
negativen Meßbereich.<br />
Da wir hier aber vor allem auf die Verarbeitung von Sprachsignalen<br />
mit Digitalrechnern eingehen wollen, bezeichnen wir mit A/D Wandler<br />
das, was die meisten handelsüblichen Soundkarten tatsächlich tun. Der<br />
erste Schritt (Anti-Aliasing Filter) dient dazu, daß Artefakte ausgeschlossen<br />
werden, die durch Frequenzen im Schallsignal, die höher sind als die doppelte<br />
Abtastfrequenz, entstehen. Oft sind diese Anti-Aliasing Filter tatsächliche<br />
Widerstand-Kondensator-Einheiten, die nur eine bestimmte Maximalfrequenz<br />
passieren lassen, also einen Tiefpaßfilter bilden.<br />
Dabei wird der Wertebereich des Signals in eine endliche Zahl von<br />
Intervallen aufgeteilt. Typischerweise ist diese Zahl eine Potenz von 2. Dies<br />
ist nicht nur wegen der Architektur der Digitalrechner sinnvoll, sondern
80 7. Grundlagen der Signalverarbeitung<br />
wird quasi automatisch aufgrund des hierarchischen internen Aufbaus vieler<br />
A/D Wandler postuliert. Der Zweierlogarithmus dieser Intervallzahl wird<br />
als ” Auflösung“ des Wandlers mit der Einheit ” bit“ angegeben. Übliche<br />
Werte sind 8 bit oder 16 bit. Je nach Aufgabe gibt es in einigen Fällen auch<br />
Wandler mit anderen Auflösungen. Wie wir aus Abs. 5.2 wissen, schwankt<br />
der Schalldruckpegel von Sprache um ca. 60 dB zwischen leisem Flüstern<br />
und lautem Schreien. Wenn wir wollen, daß der Signal-zu-Rausch-Abstand<br />
in der gleichen Größenordnung ist, dann stellen wir fest, daß eine Auflösung<br />
von ca. 12 bit in der Regel ausreichend ist. Eine höhere Auflösung würde<br />
nur mehr wertlose Information in die Aufnahme bringen.<br />
Die Abtastfunktion des A/D Wandlers wird im wesentlichen durch die Abtastfrequenz<br />
beschrieben. Sie gibt die Rate an, mit welcher die quantisierten<br />
Signale in eine diskrete Folge von Abtastwerten gewandelt werden. Aufnahmen<br />
in CD-Qualität verwenden eine Abtastrate von 44.1 kHz, DAT (Digital<br />
Audio Tape) Recorder tasten mit 48 kHz ab, die meisten Sound-Karten bieten<br />
standardmäßig 16 kHz und 8 kHz an. Im weiteren Verlauf dieses Kapitels<br />
wird auf das Abtasttheorem eingegangen, welches besagt, daß man, um keine<br />
Information zu verlieren, ein Signal mit der maximalen Frequenz ω mit einer<br />
Abtastfrequenz von mindestens 2ω abtasten muß. Die in diesem Zusammenhang<br />
relevante Maximalfrequenz wird normalerweise durch den Anti-Aliasing<br />
Filter festgelegt, aber auch durch den Gesamtaufbau der Aufzeichnungseinrichtung<br />
(z.B. der Mikrophoneigenschaften) beeinflußt. Meistens paßt die digitalisierte<br />
Version des Signals nicht optimal auf die analoge Version, selbst<br />
wenn die Abtastrate ausreichend hoch ist, weil die meisten A/D Wandler verschiedene<br />
Frequenzen unterschiedlich gut quantisieren. Wir wollen uns aber<br />
mit dieser Problematik nicht weiter befassen und gehen davon aus, daß die<br />
Qualität der verwendeten A/D Wandler ausreichend hoch ist. Halten wir also<br />
fest: Die Funktion eines A/D Wandlers wird im wesentlichen durch drei<br />
Variablen beschrieben: ωg, die Grenzfrequenz des Anti-Aliasing Filters; b, die<br />
Auflösung in bits; und r die Abtastrate.<br />
7.2 Systeme<br />
Im Zusammenhang mit der Signalverarbeitung wird oft von Systemen<br />
gesprochen. Im allgemeinen ist damit ein Algorithmus gemeint, der aus<br />
einem Eingabesignal ein Ausgabesignal erzeugt: f in → System → f out .<br />
Wenn es aber um die digitale Verarbeitung von Sprachsignalen geht, interessiert<br />
eigentlich nur eine bestimmte Klasse von Systemen, die sogenannten<br />
kausalen linearen zeitinvarianten Systeme. Kausal bedeutet, daß f out (x)<br />
nur von f in (−∞ . . . x) abhängt, d.h. die Ausgabe eines Systems hängt zu<br />
einem Zeitpunkt nur von den bis dahin gelesenen Eingaben ab und nicht<br />
von den in der ” Zukunft“ noch ankommenden ab. Ein System wird dann
7.2 Systeme 81<br />
als zeitinvariant bezeichnet, wenn die Ausgabe nur von der Eingabe und<br />
nicht vom ” Zeitpunkt“ der Eingabe abhängt, also wenn f in (x) = g in (x − t)<br />
dann ist auch f out (x) = g out (x − t). Ein zeitinvariantes System wird<br />
darüber hinaus als linear bezeichnet, wenn es die Eigenschaften der Linearität<br />
erfüllt, also: wenn f in (x) = a · g in1 (x) + b · g in2 (x), dann ist<br />
auchf out (x) = a · g out1 (x) + b · g out2 (x). Lineare zeitinvariante Systeme<br />
werden in der Literatur gerne mit der Abkürzung LTI (linear time-invariant)<br />
bezeichnet. Einige einfache Eigenschaften von LTI Systemen kann man schon<br />
an der Definition ablesen. Kein LTI System ist z.B. eines, das als Ausgabe<br />
das Quadrat der Eingabe ausgibt. Ein besonders einfaches LTI System ist<br />
eines mit einer konstanten Ausgabe, bei dem gilt f out (x) = c∀x, oder auch<br />
ein so genanntes Verzögerungsglied mit f out (x) = f in (x − t).<br />
Systeme können auch diskret sein. Dann geht man davon aus, daß sowohl<br />
die Eingabe f in [i] als auch die Ausgabe f out [i] Folgen sind, mit natürlichen<br />
i ∈ N oder zumindest ganzen i ∈ Z. Die o.a. Eigenschaften Kausalität,<br />
Zeitinvarianz und Linearität gelten entsprechend auch für diskrete Systeme.<br />
In der Praxis der Mustererkennung genügt meist der Umgang mit diskreten<br />
Systemen, während analoge Systeme nur als mathematischen Fundierung<br />
dienen.<br />
7.2.1 Die Dirac Distribution<br />
Ein besonderes, in der Theorie der Signalverarbeitung häufig verwendetes<br />
Signal ist die so genannte Dirac Distribution. Oder auch ” Impuls“ genannt.<br />
Dabei handelt es sich im mathematischen Sinne nicht um eine Funktion.<br />
Daher auch die Bezeichnung Distribution. In der Praxis wird die Dirac<br />
Distribution jedoch oft wie eine normale Funktion behandelt. Man kann die<br />
Distribution definieren als<br />
<br />
0 falls |x| > |t|<br />
δ(x) := lim ft(x) mit ft(x) =<br />
t→0 t/2 falls |x| ≤ |t|<br />
(7.4)<br />
Dieser Sachverhalt wird in Abbildung 7.3 veranschaulicht. Offensichtlich<br />
gilt:<br />
∀t :<br />
∞<br />
−∞<br />
ft(x)dx = 1 (7.5)<br />
Entsprechend wird dann in mathematischen Berechnungen, in denen die<br />
Dirac Distribution vorkommt auch angenommen, daß
82 7. Grundlagen der Signalverarbeitung<br />
∞<br />
−∞<br />
a · δ(x)dx = a (7.6)<br />
Das ist so als wäre a · δ(x) eine Funktion, die überall 0 ist außer für<br />
x = 0, wo sie den Wert a · ∞ annimmt. An dieser Stelle sieht man auch<br />
die Problematik, wenn man die Dirac Distribution als Funktion behandelt.<br />
Eine ausführliche Diskussion dieser Problematik würde aber den Rahmen<br />
des vorliegenden Buches sprengen.<br />
f<br />
1/6<br />
f<br />
1/4<br />
f<br />
1/2<br />
f<br />
1<br />
Abb. 7.3. Veranschaulichung der Dirac Distribution δ<br />
Die Definition von δ über das Integral hat zur Folge, daß die Multiplikation<br />
von δ mit einer Funktion g den Wert von g(0) ” extrahiert“ genauer:<br />
∞<br />
−∞<br />
∞<br />
−∞<br />
δ(x) · g(x)dx = g(0) (7.7)<br />
δ(x − τ) · g(x)dx = g(τ) (7.8)<br />
Eine andere Sichtweise der Dirac Distribution ist die, daß δ(x) definiert<br />
ist als die Ableitung der Stufenfunktion<br />
σ(x) =<br />
0 falls x < 0<br />
1 falls x ≥ 0<br />
f 2<br />
f<br />
3<br />
(7.9)<br />
Da ein Impuls keine Funktion im Mathematischen Sinne ist, hat es auch<br />
nicht viel Sinn von einem Funktionswert zu sprechen. Dennoch verwendet<br />
man zur Veranschaulichung von Impulsen gerne Diagramme, bei denen Funktionskurven<br />
eingezeichnet werden, die aus einem Strich bestehen, der an der
σ(x)<br />
Abb. 7.4. Die Stufenfunktion σ<br />
7.2 Systeme 83<br />
Stelle des Impulses, als Höhe den Wert des Integrals des Impulses hat (s.<br />
Abb. 7.5).<br />
1<br />
h<br />
Einheitsimpuls mit h skalierter Impuls mehrere Impulse<br />
Abb. 7.5. Darstellung von Impulsen<br />
In der Signalverarbeitung werden oft diskrete Meßreihen verwendet. Dabei<br />
werden in gleichen zeitlichen Abständen t Werte h0, h1, . . . hn gemessen. Die<br />
gesamte Meßwertreihe kann nun interpretiert werden als Impulsfolge n i=0 hi·<br />
δ(x − i · t)<br />
7.2.2 Faltung<br />
Die Wirkung eines Kanals auf ein Signal läßt sich mathematisch am besten<br />
als eine Faltung beschreiben.<br />
(f ∗ g)(x) =<br />
∞<br />
−∞<br />
f(x − t)g(t)dt (7.10)<br />
In Gl. 7.10 ist f das Signal und g die Funktion des Kanals, mit der das<br />
Signal gefaltet wird.<br />
Betrachten wir ein diskretes lineares zeitinvariantes System, so läßt sich<br />
jeder seiner Ausgabewerte f out [n] als Linearkombination einer begrenzten<br />
Menge von Eingabewerten f in [n − k], f in [n − k + 1], . . .f in [n] mit den<br />
Gewichtungskoeffizienten a[i] darstellen:<br />
f out [n] =<br />
k<br />
a[i]fin [n − i] (7.11)<br />
i=0
84 7. Grundlagen der Signalverarbeitung<br />
Man erkennt in Gl.7.11 die diskrete Variante von Gl. 7.10. In der Tat<br />
ist Gl. 7.11 die diskrete Faltung f ∗ a wobei alle nicht betrachteten Folgenelemente<br />
implizit als 0 angesehen werden. Man kann also manche Faltungen<br />
als lineare zeitinvariante Systeme betrachten. Umgekehrt können die meisten<br />
in der Praxis der Signalverarbeitung relevanten Übertragungskanäle als LTI-<br />
Systeme angesehen werden und somit mit Hilfe einer Faltung beschrieben<br />
werden.<br />
Experiment 7.1: Faltung von Signalen<br />
Starten Sie das Applet Convolution. Auf der Oberfläche sehen Sie zwei<br />
Signalauswahlfelder, mehrere Funktionsgraphen und einen Schieberegler.<br />
Mit dem linken Auswahlfeld wählen Sie die Funktion f aus Gl. 7.10 und<br />
mit dem rechten die Funktion g. Die ausgewählen Signale werden darunter<br />
dargestellt. Der Schieberegler am unteren Rand bestimmt den Wert der<br />
Laufvariablen t.<br />
Unterhalb der Signale werden f(t − x) und g gleichzeitig dargestellt.<br />
Durch verstellen des Schiebereglers können Sie die horizontale Position von<br />
f(t − x) steuern. Das Produkt von f(t − x) und g wird darunter in Form<br />
einer Schwarzen Fläche dargestellt. Die Größe dieser Fläche (der Wert des<br />
Integrals) folgt darunter als orange gefüllte Kurve.<br />
Wählen Sie verschiedene Signale aus und Falten Sie diese miteinander.<br />
Beobachten Sie insbesondere den Effekt der Faltung mit einer Impulsfolge<br />
und dabei die Wirkung des Abstandes der Impulse auf das Resultat.<br />
7.2.3 Impulsantwort<br />
Betrachten wir die Faltung eines Impulses δ(x) mit einer Kanalfunktion g(x),<br />
so erhalten wir (δ ∗ g)(x) = ∞<br />
δ(x − t)g(t)dt = g(x). Mit anderen Worten,<br />
−∞<br />
die Kanalfunktion g ist gleichzeitig die Ausgabe des Kanals, wenn als Eingabe<br />
ein einzelner Impuls verwendet wird. Daher wird die Funktion meist auch<br />
als Impulsantwort bezeichnet. Man kann also die komplette Wirkung eines<br />
Kanals dadurch beschreiben, daß man angibt, wie der Kanal auf einen Impuls<br />
reagiert.
7.3 Fourieranalyse<br />
7.3 Fourieranalyse 85<br />
Fourier stellte die Behauptung auf, jede periodische Funktion, die ein paar<br />
minimale Bedingungen erfüllt, läßt sich darstellen als die (möglicherweise<br />
unendliche) Summe von Sinusfunktionen. Aus heutiger Sicht erscheint es<br />
unverständlich, warum führende Mathematiker der damaligen Zeit, vor<br />
allem der große Lagrange, Fouriers Theorie mit naiven Begründungen<br />
ablehnten wie z.B. daß die Summe von differenzierbaren Funktionen stets<br />
differenzierbar sei. Trotz der zunächst mangelnden Anerkennung setzte sich<br />
Fourier schließlich durch, und viele Mathematiker, die zuvor verächtlich auf<br />
ihn herabgeschaut hatten, mußten seine Ergebnisse akzeptieren.<br />
Betrachten wir zunächst nur periodische Funktionen. Es leuchtet ein, daß<br />
eine Funktion f(x) mit der Periode T dargestellt werden kann als g(t) =<br />
f(t ·T/2π) wobei g die Periode 2π hat. Betrachten wir nun die Frage, ob sich<br />
jede 2π-periodische Funktion f als trigonometrische Reihe darstellen läßt,<br />
definiert als<br />
∞<br />
f(x) = an · cosnx + bn · sin nx<br />
n=0<br />
In der Literatur findet man auch andere Darstellungen. Wenn man beachtet,<br />
daß cosx = sin(x − π/2) so kann man auch ganz auf die Verwendung des cos<br />
verzichten.<br />
Wir verwenden aber wegen der Eleganz der folgenden Gleichungsumformungen<br />
die Darstellung mit sin und cos. Man kann an der obigen Darstellung<br />
einige Eigenschaften der Funktion recht einfach ablesen. Es gilt z.B.: wenn<br />
f(x) an der Stelle t konvergiert, dann auch an der Stelle t + 2π und auch für<br />
alle ganzen k an den Stellen t + 2kπ. Wenn die Reihe überall konvergiert,<br />
dann ist f(x) eine periodische Funktion mit der Periode 2π. Sollten alle<br />
ai = 0 sein, so ist die Funktion ungerade, und wenn alle bi = 0, dann ist die<br />
Funktion gerade.<br />
Versuchen wir für eine gegebene 2π-periodische Funktion f(x) die Werte<br />
an und bn zu berechnen. Sei also:<br />
f(x) = 1/2a0 + a1 cosx + b1 sin x + · · · + an cosnx + bn sin nx + · · ·<br />
Wenn die Reihe gleichmäßig konvergiert, dann ist f(x) auf dem Intervall<br />
[0, 2π] integrierbar. Multiplizieren wir beide Seiten der Gleichung mit cosmx<br />
und berechnen dann das bestimmte Integral von 0 bis 2π, so erhalten wir<br />
2π<br />
0<br />
f(x) · cosmx dx (7.12)
86 7. Grundlagen der Signalverarbeitung<br />
=<br />
2π<br />
0<br />
<br />
a0<br />
2<br />
∞<br />
∞<br />
<br />
cosmx + an cosnxcosmx + bn sin nxcosmx dx<br />
n=1<br />
für die rechte Seite von Gl. 7.12 gilt:<br />
2π<br />
0<br />
und<br />
2π<br />
0<br />
und<br />
2π<br />
0<br />
a0<br />
2<br />
cosmx dx =<br />
0 für m = 0<br />
π · a0 für m = 0<br />
⎧<br />
⎨0<br />
für m = n<br />
cosnxcosmx dx = π<br />
⎩<br />
2π<br />
für m = n = 0<br />
für m = n = 0<br />
n=1<br />
(7.13)<br />
(7.14)<br />
sin nxcosmx dx = 0 (für alle m, n) (7.15)<br />
Aus den Gl. 7.13 bis 7.15 können wir ableiten, daß<br />
2π<br />
0<br />
<br />
π · an für m = n = 0<br />
f(x) · cosmx dx =<br />
0 sonst<br />
(7.16)<br />
Jetzt wird auch deutlich, wieso der Faktor 1<br />
2 vor dem a0 zur besseren<br />
Eleganz der Formel beiträgt. Er erspart uns bei der Bestimmung der ai eine<br />
Fallunterscheidung für i = 0 oder i = 0.<br />
Lösen wir also komplett nach an auf, so erhalten wir:<br />
an = 1<br />
π<br />
2π<br />
0<br />
f(x) · cosnx dx (7.17)<br />
Wir können die Gl. 7.12 analog nach bn auflösen, indem wir statt beide<br />
Seiten mit cosmx diesmal mit sin mx multiplizieren und ansonsten genauso<br />
weiter vorgehen. Dann erhalten wir schließlich:<br />
bn = 1<br />
π<br />
2π<br />
0<br />
f(x) · sin nx dx (7.18)
7.3 Fourieranalyse 87<br />
Die gezeigte Darstellung einer periodischen Funktion als trigonometrische<br />
Reihe bezeichnen wir als Fourierreihenzerlegung, und die Werte<br />
a0, a1, b1, a2, b2, . . . an, bn . . . heißen Fourierkoeffizienten der Funktion f im<br />
Intervall [0, 2π].<br />
Es gilt offensichtlich für f periodisch mit Periode 2π, daß sich die<br />
Fourierkoeffizienten auch über einem beliebigen Intervall der Länge 2π<br />
berechnen lassen, also:<br />
an = 1<br />
t+2π<br />
π<br />
bn = 1<br />
π<br />
t<br />
t+2π<br />
t<br />
f(x) · cosnx dx (7.19)<br />
f(x) · sin nx dx (7.20)<br />
Oft ist die zu analysierende Funktion f nicht periodisch. Dann ist es aber<br />
meist so, daß man sich sowieso nur für einen Teil des Definitionsbereiches<br />
interessiert und berechnet dann die Fourierkoeffizienten nur für diesen Teil.<br />
Das ist dann so, als würde man annehmen, die Funktion wiederhole sich<br />
auf dem Rest des Definitionsbereichs und hätte als Periode die Länge des<br />
untersuchten Intervalls.<br />
Auf einige Eigenschaften der Fourierreihenzerlegung sei hier noch hingewiesen.<br />
Es gilt für alle f(x):<br />
lim<br />
s<br />
n→∞<br />
r<br />
s<br />
lim<br />
n→∞<br />
r<br />
f(x)cos nxdx = 0 (7.21)<br />
f(x)sin nxdx = 0 (7.22)<br />
deshalb gilt auch (für f auf [r, s] integrierbar):<br />
lim<br />
n→∞ an = 0 und lim<br />
n→∞ bn = 0 (7.23)<br />
Das heißt, f(x) wird durch die partielle Teilsumme der Fourierreihenzerlegung
88 7. Grundlagen der Signalverarbeitung<br />
1<br />
2 a0 +<br />
N<br />
(an cosnx + bn sinnx) (7.24)<br />
n=1<br />
immer genauer angenähert. Sollte die Periode T = 2π sein, so ergibt sich<br />
aus<br />
f(x) = 1<br />
2 a0 +<br />
∞<br />
<br />
an cos( 2π<br />
T nx) + bn sin( 2π<br />
T nx)<br />
<br />
n=1<br />
für die Fourierreihenkoeffizienten<br />
an = 2<br />
T<br />
T<br />
bn = 2<br />
T<br />
0<br />
T<br />
0<br />
(7.25)<br />
f(x) · cos( 2π<br />
nx) dx (7.26)<br />
T<br />
f(x) · sin( 2π<br />
nx) dx (7.27)<br />
T<br />
Die Fourierreihenentwicklung läßt sich statt mit trigonometrischen<br />
Funktionen auch in Exponentialdarstellung schreiben. Nehmen wir an, f(t)<br />
sei periodisch mit der Periode L = 2π/ω0, also:<br />
f(t) = a0<br />
2 +<br />
∞<br />
(an coskω0t + bn sin kω0t) (7.28)<br />
n=1<br />
dann ergibt sich für die Fourierkoeffizienten:<br />
ak = 2<br />
L/2<br />
f(t) · coskω0t dt (7.29)<br />
L −L/2<br />
und<br />
bk = 2<br />
L/2<br />
f(t) · sin kω0t dt (7.30)<br />
L −L/2<br />
Verwenden wir nun noch die Exponentialdarstellung der trigonometrischen<br />
Funktionen:<br />
cosx = eix + e −ix<br />
2<br />
und sinx = eix − e −ix<br />
2i<br />
(7.31)
so erhalten wir<br />
f(t) =<br />
∞<br />
k=−∞<br />
cke ikω0t<br />
7.3 Fourieranalyse 89<br />
mit ck = 1<br />
L/2<br />
f(t)e<br />
L −L/2<br />
−ikω0t dt (7.32)<br />
Die Koeffizienten ck lassen sich auch durch die entsprechenden ak und bk<br />
darstellen:<br />
⎧<br />
⎨a0/2<br />
k = 0<br />
ck = (ak − ibk)/2<br />
⎩<br />
(a−k + ib−k)/2<br />
k > 0<br />
k < 0<br />
Der partiellen Summe<br />
1<br />
2 a0 +<br />
(7.33)<br />
n<br />
(ak coskω0t + bk sin kω0t) (7.34)<br />
k=1<br />
entspricht dann:<br />
n<br />
k=−n<br />
cke ikωot<br />
(7.35)<br />
Die Fourierreihenzerlegung ist eine Art Vorstufe zur Fouriertransformation,<br />
welche sich nicht nur auf periodische sondern auf beliebige integrierbare<br />
Funktionen anwenden läßt. Dies ergibt sich zum Beispiel, wenn die Periode<br />
L in den Gl. 7.26 und 7.27 gegen unendlich strebt.<br />
Während die ursprüngliche Signalfunktion eine Funktion über dem<br />
Definitionsbereich der Zeit ist, ist die Fouriertransformierte eine Funktion<br />
über dem Definitionsbereich der Frequenzen. Wir sprechen daher auch von<br />
einer Transformation aus dem Zeitbereich in den Frequenzbereich.<br />
Die kontinuierliche Fouriertransformierte F(ω) der kontinuierlichen<br />
Funktion f(t) ist definiert als<br />
F(ω) =<br />
+∞<br />
−∞<br />
f(t) · e −iωt dt (7.36)
90 7. Grundlagen der Signalverarbeitung<br />
F wird auch als das Spektrum von f bezeichnet. Die inverse Abbildung<br />
wird inverse Fouriertransformation genannt:<br />
f(t) = 1<br />
2π<br />
+∞<br />
−∞<br />
F(ω) · e iωt dω (7.37)<br />
Der partiellen Summe bei der Fourierreihenentwicklung entspricht bei<br />
der kontinuierlichen Fouriertransformation die Integration über ein endliches<br />
Intervall der Frequenzachse. Wenn eine Funktion f(t) zusammengesetzt ist<br />
aus Schwingungen mit einer maximalen Frequenz die kleiner als ωg ist, dann<br />
heißt f(t) bandbegrenzt und läßt sich schreiben als:<br />
f(t) = 1<br />
+ωg<br />
F(ω) · e<br />
2π −ωg<br />
iωt dω (7.38)<br />
Das heißt insbesondere, daß F(ω) = 0 für |ω| > ωg. In der Praxis können<br />
wir davon ausgehen, daß Sprachsignale immer bandbegrenzt sind. Selbst<br />
wenn sie sehr hohe Frequenzen enthalten sollten, was sehr selten vorkommt,<br />
führt dies durch die in der Regel bei typischen Analog-Digital Wandlern<br />
(bzw. ” Soundkarten“) vorgeschalteten Anti-Aliasing-Filter dazu, daß diese<br />
Frequenzen keinen Effekt auf die Signalverarbeitung haben. Für die Sprache<br />
sind sowieso nur Frequenzen wie in Abb. 5.3 dargestellt von Bedeutung.<br />
Mischt man Schwingungen verschiedener Frequenzen ω1, ω2, . . . zu einem<br />
Signal f(t) = sin(ω1t + φ1) + sin(ω2t + φ2) + . . . zusammen, und kann<br />
man davon ausgehen, daß keine zwei Frequenzen ωi und ωj Vielfache<br />
voneinander sind, so spielt es für den resultierenden Ton keine Rolle, mit<br />
welchen Phasenverschiebungen φ1, φ2, . . . die Mischung durchgeführt wird.<br />
Das Ergebnis hört sich gleich ein. In der Praxis sind Sprachsignale sowieso<br />
nicht nur aus einer Handvoll einzelner Schwingungen zusammengesetzt, so<br />
daß das Problem der Phasenverschiebung komplett vernachlässigt werden<br />
kann. Gehen wir nun davon aus, daß eine Fouriertransformierte F(ω) aus<br />
einem Phasenanteil und einem Amplitudenanteil besteht:<br />
F(ω) = |F(ω)| · e iΦ(ω)<br />
(7.39)<br />
Auch wenn nach der Definition der Begriff Spektrum für die gesamte<br />
Fouriertransformierte steht, so wird er oft auch abkürzend für das Leistungsspektrum<br />
verwendet. Tab. 7.2 faßt verschiedene Bedeutungen des Begriffes<br />
zusammen. Für die Spracherkennung spielt das (komplexe) Spektrum<br />
sowie das Phasenspektrum keine bedeutende Rolle. Am wichtigsten ist das
7.3 Fourieranalyse 91<br />
Leistungsspektrum oder das Amplitudenspektrum. Diese unterscheiden sich<br />
nach der beliebten Anwendung des Logarithmus nur noch um einen Faktor<br />
2 voneinander.<br />
Bezeichnung Term<br />
Spektrum |F(ω)| · e iΦ(ω)<br />
Amplitudenspektrum |F(ω)|<br />
Phasenspektrum Φ(ω)<br />
Leistungsspektrum |F(ω)| 2<br />
= Energiespektrum<br />
Tabelle 7.2. Verschiede Bedeutungen des Begriffs ” Spektrum“<br />
Ähnlich wie bei der Willkürlichkeit der Wahl der Koeffizienten bei der<br />
Fourierreihenzerlegung (z.B. beim Vorfaktor des Koeffizienten a0 und bei<br />
der Entscheidung cos(x) statt sin(x + π/2) zu verwenden) gibt es auch<br />
verschiedene Möglichkeiten der Transformation aus dem Zeitbereich in den<br />
Spektralbereich. So findet man in mancher Literatur auch Definitionen, die<br />
von Gl. 7.36 abweichen. Dementsprechend ist dann auch die inverse Fouriertransformierte<br />
etwas anders definiert. So findet man z.B. in physikalischen<br />
Lehrbüchern auch öfter mal die etwas symmetrischere Definition, bei der die<br />
Faktoren vor dem Integral nicht 1 gegenüber 1/(2π) sind, sondern sowohl<br />
für die Vorwärts- als auch für die Rückwärtstransformation jeweils 1/ √ 2π.<br />
Aus der Definition der Fouriertransformierten lassen sich leicht einige<br />
interessante Eigenschaften ableiten. Wenn F(h) die Fouriertransformierte<br />
der Funktion h ist, dann gelten die folgenden Gleichungen:<br />
Linearität<br />
F(c1f1 + c2f2) = c1F(f1) + c2F(f2) (7.40)<br />
Ableitung<br />
F(f (n)<br />
1 ) = (iω) n F(f) (f (n) = n − te Ableitung von f) (7.41)
92 7. Grundlagen der Signalverarbeitung<br />
Verschiebung<br />
F(f(t − T)) = e −iωT F(f) (7.42)<br />
F(e −iω0t f(t)) = F(ω − ω0) (7.43)<br />
Faltung<br />
F(f ∗ g) = F(f) · F(g) (7.44)<br />
Für die Verarbeitung von Sprachsignalen sind vor allem die Linearitätseigenschaft<br />
und die Faltungseigenschaft von Interesse. Dies leuchtet<br />
besonders ein, wenn wir die Produktion von Sprache entsprechend dem<br />
Quelle-Filter Modell (s. Abs. 4.1.4) betrachten, dann gibt es ein Anregungssignal<br />
u(t), das in der Regel an der Stimmritze entsteht, und einen Kanal<br />
v(t), der durch die Form des Vokaltraktes geprägt wird. Man kann die<br />
Abstrahlfunktion l(t) der Lippen und Nasenlöcher getrennt betrachten oder<br />
auch der Einfachheit halber mit in den Vokaltraktkanal einfließen lassen.<br />
Der Vollständigkeit wegen sollte man auch noch den Kanal betrachten,<br />
der in der Schallübertragung durch die Luft a(t) und in der elektrischen<br />
Signalübertragung vom Mikrophon bis zum Analog/Digital-Wandler m(t)<br />
gegeben ist. Berücksichtigt man auch hier, daß die Hintereinanderausführung<br />
mehrerer Faltungsoperationen wieder eine Faltung ist, so kann man auch<br />
alle Kanäle zu einem einzigen h(t) zusammenfassen.<br />
Die Fouriertransformierte des gemessenen Signals s(t) = u(t) ∗v(t) ∗l(t) ∗<br />
a(t) ∗ m(t) = u(t) ∗ h(t) ist dann S(ω) = U(ω) · V (ω) · L(ω) · A(ω) · M(ω) =<br />
U(ω) · H(ω) wobei S, U, V, L, A, M und H die Fouriertransformierten von<br />
s, u, v, l, a, m und h sind. Aus der recht komplizierten Operation der Faltung<br />
eines Signals mit der Kanaleigenschaft im Zeitbereich entsteht also eine<br />
recht einfache Multiplikation im Frequenzbereich.<br />
Betrachten wir die Fouriertransformierte eines einfachen Impulses (Abb.<br />
7.6), also ˆ δ = F(δ). Wir können dies mit ein wenig salopper Mathematik wie<br />
folgt berechnen:<br />
F(δ)(ω) =<br />
∞<br />
δ(t)e<br />
−∞<br />
−iωt dt = e −iω·0 = 1 (7.45)<br />
Oder, wenn wir berücksichtigen, daß ω = 2π/T, können wir auch<br />
schreiben F(δ)(t) = 1<br />
2π , wobei t jetzt nicht mehr als Kreisfrequenzvariable<br />
(Einheit: Radialwinkel pro Sekunde) sondern als Zeitfrequenzvariable<br />
(Einheit: 1.0 pro Sekunde) betrachtet wird.
δ(x)<br />
F(δ)(ω)<br />
Abb. 7.6. Die Fouriertransformierte des Einheitsimpulses<br />
7.3 Fourieranalyse 93<br />
Und die Fouriertransformierte von zwei Impulsen (Abb. 7.7) F(δτ + δ−τ)<br />
ist entsprechend<br />
F(δτ + δ−τ)(ω) =<br />
δτ(x) + δ−τ(x)<br />
∞<br />
−∞<br />
(δ(t − τ) + δ(t + τ))e −iωt dt<br />
= e −iω·τ + e −iω·(−τ)<br />
= 2 cos(ωτ) (7.46)<br />
Abb. 7.7. Die Fouriertransformierte zweier Impulse<br />
F(δτ + δ−τ)(ω) = 2 cos(ωτ)<br />
Man kann an der Fouriertransformierten 2 cos(ωτ) leicht erkennen, daß<br />
die ” Frequenz“ τ des Cosinus umso höher ist, je weiter die beiden Impulse<br />
voneinander entfernt sind. Lassen wir die beiden Impulse aufeinander zu<br />
gegen null wandern, so verlängert sich die Periode der Fouriertransformierten<br />
bis sie schließlich ∞ ist und die Fouriertransformierte nur noch eine<br />
Konstante ist, wie die eines einfachen Impulses mit doppelter Höhe (vgl.<br />
Abb. 7.8).<br />
Je mehr Impulse wir transformieren, umso mehr Schwingungen enthält<br />
im allgemeinen die Transformierte. Abb. 7.9 zeigt die Transforierten für 3, 5,<br />
9 und 17 Impulse. Wenn wir die Zahl der Impulse unendlich werden lassen,
94 7. Grundlagen der Signalverarbeitung<br />
Abb. 7.8. Fouriertransformierte von Impulsen mit unterschiedlichen Abständen<br />
also eine unendliche Impulsfolge betrachten, dann ist die Fouriertransformierte<br />
auch eine Impulsfolge (Abb. 7.10). Auch hier gilt, die ” Frequenz“ der<br />
Transformierten ist umgekehrt proportional zur Frequenz der ursprünglichen<br />
Funktion. Oder allgemein:<br />
f(x) = <br />
δak(x) ⇒ F(ω) = <br />
δ2πk/a(ω) (7.47)<br />
k∈Z<br />
k∈Z<br />
Die inverse Fouriertransformation ist fast die gleiche Transformation wie<br />
die ” Vorwärtstransformation“. Im Prinzip gibt es keinen Grund, warum<br />
man nicht die Inverse als die eigentliche und umgekehrt definiert. Es ist eine<br />
willkürliche Festlegung. Es gilt nämlich:<br />
∞<br />
f(x) = α e<br />
−∞<br />
iωt<br />
∞<br />
1<br />
f(s)e<br />
2πα −∞<br />
−iωs <br />
ds dω (7.48)
Abb. 7.9. Fouriertransformierte mehrerer Impulse<br />
7.3 Fourieranalyse 95
96 7. Grundlagen der Signalverarbeitung<br />
Abb. 7.10. Fouriertransformierte unendlicher Impulsfolgen<br />
Wie auch immer man die Fouriertransformation als vorwärts“ oder<br />
”<br />
” rückwärts“ deklariert, und egal welche Kombination der Vorfaktoren<br />
α, 1/(2πα) man wählt, die wesentlichen Eigenschaften der Transformation<br />
bleiben erhalten. Man muß nur beim Rechnen entsprechend konsistent<br />
vorgehen. Wir hatten die Fouriertransformierte eines Impulses berechnet<br />
(oder auch zweier Impulse, wobei ein Impuls als Spezialfall von zwei<br />
aufeinanderfallenden Impulsen gesehen wurde) und gefunden, daß die<br />
zugehörige Transformierte eine Cosinus-Funktion ist. Wir erwarten also, daß<br />
die Fouriertransformierte eines Cosinus ein (Doppel-)Impuls ist. Prüfen wir<br />
dies nach:<br />
F(ω) = 1<br />
∞<br />
cos(t)e<br />
2π −∞<br />
−iωt dt (7.49)<br />
= 1<br />
∞<br />
cost · (cosωt + i sinωt)dx<br />
2π<br />
−∞
∞<br />
∞<br />
= 1<br />
cost · i sinωt dx+<br />
2π −∞<br />
<br />
= 0 ∀ω<br />
1<br />
costcosωt dx<br />
2π −∞<br />
<br />
<br />
∞ ω = ±1<br />
=<br />
0 sonst<br />
7.3 Fourieranalyse 97<br />
Wenn wir wieder ein bißchen salopp mit der Mathematik der Funktionen<br />
und Distributionen umgehen, sehen wir, daß die Fouriertransformierte<br />
des Cosinus fast überall null ist, außer an den Stellen ω = −1 und<br />
ω = 1, an denen sie jeweils einen positiven Einheitsimpuls hat. Das heißt,<br />
F(ω) = δ(ω − 1) + δ(ω + 1).<br />
Die Betrachtung von Fouriertransformierten von Impulsen ist deshalb<br />
interessant, weil Spracherkenner in der Praxis mit abgetasteten, also diskreten,<br />
Signalen arbeiten. Ein solches Signal kann als Folge von Impulsen<br />
unterschiedlicher Höhe betrachtet werden.<br />
f(t)<br />
f(t) · s2(t)<br />
Zeitraum<br />
Frequenzraum<br />
F(ω) ∗ S2(ω)<br />
F(ω)<br />
s1(t) S1(ω)<br />
s2(t) S2(ω)<br />
f(t) · s1(t)<br />
F(ω) ∗ S1(ω)<br />
Abb. 7.11. Fouriertransformierte abgetasteter Signale<br />
In Abb. 7.11 ist der Effekt der Abtastung auf die Spektralanalyse von<br />
Signalen dargestellt. Das Abtasten eines kontinuierlichen reellwertigen<br />
Signals mit der Zeitdarstellung f(t) entspricht der Multiplikation mit der<br />
Impulsfolge (Kammfunktion) s(t), die sich als Summe unendlich vieler
98 7. Grundlagen der Signalverarbeitung<br />
einzelner Impulse mit Abstand T schreiben läßt. Im Frequenzbereich ist<br />
die Transformierte dieses Produktes die Faltung F(ω) ∗ S(ω) der Transformierten<br />
F und S der beiden Faktorfunktionen, wobei S(ω) wiederum eine<br />
Impulsfolge ist, deren Impulse allerdings einen Abstand von 2π/T haben.<br />
Die Faltung des Spektrums F mit der Impulsfolge S ist dann die regelmäßige<br />
Wiederholung des Spektrum im selben Abstand wie die Impulse von S.<br />
Wenn wir im einen Fall die Funktion mit einer kurzperiodigen Impulsfolge<br />
s1 abtasten und im anderen Fall mit einer langperiodigen Impulsfolge s2,<br />
dann ist der Effekt im Frequenzraum der, daß die Wiederholungen des<br />
Spektrums im ersten Fall in relativ großem Abstand erfolgen und im zweiten<br />
Fall in so kurzen Abständen, daß das i-te Spektrum noch nicht ” abgeklungen“<br />
ist, wenn das i + 1-te Spektrum schon ” anfängt“. Die Folge sind also<br />
überlagerte Einzelspektren, deren Summe mit dem Einzelspektrums weniger<br />
Ähnlichkeit hat.<br />
Bei nicht bandbegrenzten Signalen f ist das Spektrum F unendlich<br />
ausgedehnt (alle Frequenzen kommen vor), die allermeisten in der Natur<br />
gemessenen Signale (eigentlich alle, wenn man quantenphysikalischen<br />
Artefakten absieht) sind aber bandbegrenzt. Außerdem fallen die Anteile<br />
höher werdender Frequenzen immer kleiner aus, so daß bei ausreichend<br />
großen Abständen der Impulse der Transformierten Abtastfunktion keine<br />
nennenswerte Überlagerung eintritt.<br />
Der Effekt der Überlagerung der Einzelspektren wird als Aliasing-Effekt<br />
bezeichnet. Er ist immer dann zu beobachten, wenn in einem Signal<br />
sehr hohe Frequenzen vorkommen und/oder die Abtastfunktion zu selten<br />
abtastet. Die Berechnung einer minimalen Abtastrate, die nötig ist, um<br />
den Aliasing-Effekt zu vermeiden, ist nicht weiter schwierig. In Abb. 7.12<br />
ist die Situation für ein bandbegrenztes Signal f dargestellt. Weil wir im<br />
Falle von Sprachaufnahmen davon ausgehen, daß f reellwertig ist, ist F eine<br />
symmetrische Funktion (läßt sich nur mit Hilfe von Cosinus-Komponenten<br />
zusammenbauen). Wenn f als maximalen Frequenzanteil die Grenzfrequenz<br />
ωg enthält, dann ist der Frequenzbereich, in dem F ungleich null sein kann<br />
auf −ωg ≤ ω ≤ +ωg beschränkt. Wir können also die ” Breite“ des Spektrums<br />
mit 2ωg angeben. Der Abstand, in dem die Spektren sich wiederholen ist<br />
2π/T, wenn die Abtastung im Abständen von T erfolgt. Um Aliasing zu<br />
verhindern, muß also für die Abtastrate ωs gelten:<br />
2π<br />
T > 2ωg ⇒ T < 2π<br />
2ωg<br />
ωs = 2π<br />
T ⇒ ωs > 2ωg<br />
(7.50)<br />
(7.51)
7.4 Die diskrete Fouriertransformation 99<br />
Gl. 7.51 wird das Abtasttheorem oder auch das Nyquist-Theorem<br />
genannt, in anderem Zusammenhang gelegentlich auch Shannon-Theorem.<br />
Die Gültigkeit des Theorems läßt sich wie folgt auch beweisen:<br />
Sei f(t) eine bandbegrenzte Funktion mit der Periode L und der Grenzfrequenz<br />
ωg. Die Fourierreihe von f ist<br />
f(t) =<br />
dann ist<br />
n<br />
k=−n<br />
e iωgt f(t) = e iωgt<br />
cke ikω0t<br />
n<br />
k=−n<br />
mit ω0 = ωg/n (7.52)<br />
cke ikω0t =<br />
2n<br />
ck−n(e iω0t ) k<br />
k=0<br />
(7.53)<br />
Der letzte Term in Gl. 7.53 ist ein Polynom 2n−ten Grades in e iω0t . Das<br />
heißt, es ist mit 2n + 1 Punkten eindeutig bestimmbar, nämlich durch die<br />
Abtastpunkte f(t0), f(t0 + ts), . . . , f(t0 + 2nts) mit n = ωg · (L/2π) und<br />
ts < π/ωg.<br />
Daß 2n Punkte nicht ausreichen und somit eine Abtastung mit einer<br />
Frequenz ωs = 2ωg, die nicht echt größer als die Grenzfrequenz ωg ist,<br />
unzureichend ist, kann man an einem einfachen Beispiel nachprüfen. Sei als<br />
Signal ein einfacher Sinus f(x) = sinx mit der Frequenz 1 gegeben. Eine<br />
Abtastung mit der Frequenz 2 würde die Werte sin 0, sinπ, sin 2π, . . .sin nπ<br />
liefern. Diese sind alle 0.<br />
7.4 Die diskrete Fouriertransformation<br />
Prinzipiell läßt sich die Fouriertransformierte einer Impulsfolge analytisch<br />
als die Summe der Transformierten jedes einzelnen Impulses berechnen.<br />
Sinnvoller ist allerdings die Anwendung der diskreten Fouriertransformation<br />
für zeitdiskrete Signale.<br />
Sei durch Abtasten der Funktion f(x) an den Stellen 0, 2π 4π<br />
n , n<br />
das zeitdiskrete Signal s[0], s[1], . . .s[n − 1] entstanden, also s[k] = f(k · 2π<br />
n ).<br />
Wenn f(x) bandbegrenzt ist, dann ist entsprechend der Gl. 7.52<br />
, . . . (n−1)·2π<br />
n
100 7. Grundlagen der Signalverarbeitung<br />
f(t)<br />
f(t) · s(t)<br />
Zeitraum<br />
Frequenzraum<br />
−ωg<br />
F(ω) ∗ S(ω)<br />
F(ω)<br />
+ωg<br />
s(t) = ∞ −∞ δ(n · T) S(ω) = ∞ δ(n · 2π/T)<br />
−∞<br />
Abb. 7.12. Illustration des Abtasttheorems<br />
f(t) =<br />
m<br />
k=−m<br />
c[k]e ikt<br />
2π/T<br />
Wenn f(x) nicht bandbegrenzt ist, dann gilt für große m immer noch<br />
f(t) ≈<br />
m<br />
k=−m<br />
c[k]e ikt<br />
Schreiben wir nun f als Impulsfolge:<br />
n−1 <br />
f(t) =<br />
k=0<br />
2ωg<br />
(7.54)<br />
(7.55)<br />
s[k] · δ 2kπ (t) (7.56)<br />
n<br />
dann ist entsprechend Gl. 7.35<br />
s[k] = f(k · 2π<br />
n−1 <br />
<br />
) = c[j] e<br />
n 2kπi<br />
j n<br />
j=0<br />
Bezeichnen wir e 2πi<br />
n als w, so ergibt sich:<br />
(7.57)
n−1 <br />
s[k] = c[j] · w kj<br />
j=0<br />
Offensichtlich gilt<br />
7.4 Die diskrete Fouriertransformation 101<br />
(7.58)<br />
w n = e 2πi = 1 (7.59)<br />
Das heißt, w n ist eine n-te Einheitswurzel. Der Vektor C =<br />
(c[0], c[1], . . .c[n − 1]) ⊤ , das heißt die komplexen Koeffizienten der Fourierreihe<br />
wird als die diskrete Fouriertransformierte des Vektors<br />
S = s[0], s[1], . . .s[n − 1] bezeichnet und berechnet sich analog zum kontinuierlichen<br />
Fall als<br />
c[k] = 1<br />
n−1 <br />
s[j] ·<br />
n<br />
w −kj<br />
j=0<br />
(7.60)<br />
Dementsprechend wird Gl. 7.58 auch die inverse diskrete Fouriertransformation<br />
genannt. Bei genauerer Betrachtung der Gl. 7.60 ist<br />
erkennbar, daß die Transformation in Form einer Matrix-Multiplikation<br />
darstellbar ist:<br />
⎛<br />
⎜<br />
⎝<br />
c[0]<br />
c[1]<br />
c[2]<br />
.<br />
c[n−1]<br />
⎞<br />
⎟<br />
⎠<br />
= 1<br />
n<br />
⎛<br />
1 1 1 . . . 1<br />
⎜<br />
⎝ .<br />
.<br />
.<br />
. .. .<br />
Oder in Kompaktdarstellung:<br />
1 w−1 w−2 . . . w−(n−1) 1 w−2 w−4 . . . w−2(n−1) 1 w −(n−1) w −2(n−1) . . . w −(n−1)(n−1)<br />
⎞ ⎛<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟ ⎜<br />
⎟·<br />
⎜<br />
⎟ ⎜<br />
⎠ ⎝<br />
s[0]<br />
s[1]<br />
s[2]<br />
.<br />
s[n−1]<br />
⎞<br />
⎟<br />
⎟(7.61)<br />
⎟<br />
⎠<br />
C = DFTn · S (7.62)<br />
Hierbei ist DFTn die Vandermondsche Matrix von<br />
(1, w −1 , w −2 , . . .w −(n−1) ) der Ordnung n, auch diskrete Fouriertransformationsmatrix<br />
der Größe n genannt. Sie ist leicht invertierbar, und es gilt<br />
DFT −1<br />
n (i, j) =<br />
1<br />
n · DFTn(i, j)<br />
(7.63)
102 7. Grundlagen der Signalverarbeitung<br />
Die Berechnung des Signals s[i] aus den Frequenzanteilen c[i] geschieht<br />
entsprechend einfach mit Hilfe der inversen diskreten Fouriertransformation<br />
S = DFT −1<br />
n · C (7.64)<br />
Bei der Berechnung eines diskreten Leistungsspektrums (c[0], c[1], . . .c[n−<br />
1]) eines Signals (s[0], s[1], . . .s[n − 1]), das aus einem durch ω bandbegrenz-<br />
ten f(x) durch Abtasten mit der Abtastrate 2 · ω gewonnen wurde, ist der<br />
am Gesamtsignal.<br />
Wert c[i] der Anteil der Frequenz iω<br />
n<br />
Betrachtet man die Rechenschritte, die nötig sind, um die DFT-<br />
Matrixmultiplikation durchzuführen stellt man fest, daß viele Rechenoperationen<br />
wiederholt werden. Da w eine n-te Einheitswurzel ist, gilt zum<br />
Beispiel (w j ) n = w j oder (w j ) (n/2) = −w j . Unter Vermeidung doppelter<br />
Berechnung derselben Werte wurde in [?] ein Teile-und-herrsche-Algorithmus<br />
vorgestellt, der die obige Matrixmultiplikation statt mit dem üblichen zeitlichen<br />
Aufwand von ca. O(n 3 ) in nur O(n log n) berechnet. Der Algorithmus<br />
ist unter dem Namen schnelle Fouriertransformation (engl. fast Fourier<br />
transform FFT) bekannt. Er funktioniert optimal für Werte von n, die<br />
Zweierpotenzen sind (wegen des Teile-und-herrsche-Prinzips). Er hat in<br />
vielen Bereichen der Signalverarbeitung und Mustererkennung den Aufwand<br />
für Umwandlung eines Signals aus dem Zeitbereich in den Frequenzbereich<br />
so reduziert, daß durch ihn erst sinnvolles Arbeiten möglich wurde. Es existieren<br />
einige Abwandlungen des Algorithmus, die bei Kenntnis der Art des<br />
Signals (zum Beispiel reellwertig) oder bei bestimmten Einschränkungen des<br />
Ergebnisses (zum Beispiel nur Leistungsspektrum ist interessant) besonders<br />
effizient arbeiten.<br />
7.5 Codierung akustischer Signale<br />
Die natürlichste Methode der Codierung von Sprachsignalen ist die so<br />
genannte Pulse Code Modulation (PCM). Auf irgend eine Art sind die<br />
allermeisten gängigen Codes (ob bekannt als .wav oder .au oder .riff etc.)<br />
PCM-Codes. In einer Datei stehen die Meßwerte in ihrer zeitlichen Reihenfolge<br />
hintereinander, wobei n Bits (typischerweise 8 oder 16) als natürliche<br />
Binärzahl oder als ganze Zahl in Zweierkomplementdarstellung den Bereich<br />
f min bis fmax auf die Werte 0 bis 2 n − 1 bzw. −2 n−1 bis 2 n−1 − 1 abbilden.<br />
In der Regel werden die meisten Meßwerte von Sprachsignalen, die der<br />
Analog/Digital-Wandler liefert, eher in der Nähe der 0 (bzw. des Wertes,
7.5 Codierung akustischer Signale 103<br />
der dem Ruhezustand entspricht) liegen als in der Nähe der extremen<br />
Aussteuerung. Wenn quantisierte Sprache mit 8 Bits codiert wird, dann<br />
können damit 256 verschiedene Werteintervalle referenziert werden. Die<br />
meisten Messungen ballen sich in derselben Gegend. Um die 8 Bits besser<br />
auszunutzen, empfiehlt es sich, mehr und dafür kleinere Intervalle um den<br />
Stillemeßwert herum zu verwenden und wenige größere Intervall in der Nähe<br />
der Extrema. So kann dann je nach Sichtweise entweder mehr Information<br />
in den 8 Bits codiert werden oder man benötigt weniger Bits um die gleiche<br />
Menge an Information zu codieren. Die gebräuchlichsten Methoden der<br />
variablen Intervallfestlegung sind die so genannten a-law und µ-law Codes.<br />
Bei µ-law wird vor der Codierung der Meßwert f(x) zu f µ (x) abgebildet,<br />
wobei<br />
f µ (x) = fmax · sgn(f(x)) · log(1 + µ|f(n)|/fmax)/ log(1 + µ) (7.65)<br />
mit µ = 100 . . .500<br />
Der Wert µ kann mehr oder weniger willkürlich gewählt werden, und<br />
bestimmt den ” Stauchungsgrad“ der Abbildung.<br />
Bei der Codierung von Sprachsignalen spielt bis in die heutige Zeit,<br />
in der wir immer weniger mit Speicherplatzproblemen in Computern zu<br />
kämpfen haben die Kompression von Audiosignalen eine Rolle. Ohne Videound<br />
Audio-Dateien ist es heute für den durchschnittlichen Computer-<br />
Privatanwender kaum mehr möglich die riesigen Festplatten sinnvoll zu<br />
füllen. Auch die üblichen RAM Speichergrößen genügen bei weitem, um<br />
mehrere Stunden Audio-Aufnahmen in sehr guter Qualität aufzunehmen.<br />
Während in den Anfängen der digitalen Signalverarbeitung oft nur wenige<br />
Sekunden Audio im Speicher gehalten werden konnten und man sich<br />
Gedanken machen mußte, wie man die Dateien komprimieren kann, so wird<br />
dies heute immer noch, wenn auch auf höherem Niveau bei den so genannten<br />
MP3 Dateien gemacht.<br />
Im Laufe der Zeit wurden verschiedene Kompressionsmethoden entwickelt.<br />
Nur wenige versuchen die abgetasteten Signalwerte völlig verlustfrei<br />
zu speichern. Die besten verlustfreien Komprimierer können Sprachsignale<br />
je nach Abtasttiefe, Abtastrate und Qualität der Aufnahme auf ca. 50% der<br />
ursprünglichen Größe reduzieren. Im Zusammenhang mit dem Phasenspektrum<br />
wurde festgestellt, daß die Phaseninformation in Sprachsignalen für das<br />
Verständnis derselben ohne Bedeutung ist. Oft kann man weitere Information<br />
einsparen, wenn man z.B. berücksichtigt, daß eine Schwingung mit sehr<br />
hoher Amplitude, eine andere mit sehr niedriger Amplitude ” übertönt“, und<br />
so die Information über die leisere Schwingung manchmal ganz weggelassen<br />
werden kann, ohne daß sich die gesamte Hörempfindung merklich ändert. Auf<br />
solche und weiteren Annahmen berufen sich so genannte verlustbehaftete
104 7. Grundlagen der Signalverarbeitung<br />
Kompressionsverfahren wie z.B. das für MP3 verwendete.<br />
Auch die in Kap. 8 beschriebenen LPC-Koeffizienten wurden ursprünglich<br />
nicht als sinnvolle Sprachsignalvorverarbeitung für die Spracherkennung<br />
eingeführt, sondern als mögliche Kompressionsmethode.
8. Verarbeitung von Sprachsignalen<br />
Sprachsignale werden typischerweise als diskrete Abtastfolgen von Spannungsverläufen,<br />
die an einem Mikrophon durch Änderungen des umgebenden<br />
Schalldrucks bzw. der Schallschnelle anliegen, dargestellt. Die Spannungsverläufe<br />
werden von einem Analog-Digital-Wandler zu diskreten Zeitpunkten<br />
quantisiert und als diskretes Signal mit endlichem Wertebereich ausgegeben.<br />
Die wichtigsten Parameter der Analog-Digital-Wandlung sind die Abtastfrequenz<br />
und die Auflösung. Typische Werte sind 16kHz und 16 bit.<br />
8.1 Eigenschaften des Signals im Zeitbereich<br />
Die Darstellung eines abgetasteten Sprachsignals als Kurve hat vermutlich<br />
jeder Leser schon einmal gesehen (zum Beispiel Abb. 2.3). Schon beim Anblick<br />
einer solchen Darstellung des Signals im Zeitbereich erscheint es dem<br />
Betrachter sehr schwierig, damit gesprochene Sprache zu erkennen. Betrachten<br />
wir zunächst einige leicht erkennbare Eigenschaften. Wenn die horizontale<br />
Auflösung der Darstellung nicht ausreicht, um jeden Abtastwert einzeln anzuzeigen,<br />
erkennt man meist nur die sogenannte Einhüllende (engl.: envelope).<br />
Diese ist stark korreliert mit der Energie des Signals. Meist kann man an<br />
dieser Einhüllenden ziemlich leicht erkennen, in welchen Zeitbereichen des<br />
Signals gesprochen wurde. Umgekehrt ist das in der Regel nicht so einfach.<br />
Dort, wo die Einhüllende nicht nennenswert von der Nullinie abweicht, kann<br />
trotzdem Sprache vorliegen, dann aber meist solche Teile, die nicht stimmhafte<br />
Laute enthalten. Abb. 8.1 stellt zwei Signale gegenüber. Das linke ist<br />
ein Ausschnitt aus einer Aufnahme eines stimmhaften Lauts, in dem deutlich<br />
eine Regelmäßigkeit zu erkennen ist. Auf den ersten Blick wird das Signal aus<br />
nur wenigen einzelnen Wellen zusammengesetzt. Auf der Rechten Seite der<br />
Abbildung ist die Aufnahme eines stimmlosen Lauts zu sehen. Hier ist keine<br />
Ordnung zu erkennen. In der Tat lassen sich stimmlose Frikative wie zum<br />
Beispiel ein [s] auch sehr gut durch einfaches weißes Rauschen synthetisieren.
106 8. Verarbeitung von Sprachsignalen<br />
stimmhafter Laut [a] stimmloser Laut [s]<br />
Abb. 8.1. Signale für stimmhafte und stimmlose Laute<br />
8.1.1 Amplitude<br />
Mit ” Amplitude“ wird normalerweise bei einem periodischen Signal die regelmäßig<br />
wiederkehrende maximale Aussteuerung bezeichnet. Ein Sprachsignal<br />
an sich ist nicht periodisch. Es enthält aber oft kurze Abschnitte, vor<br />
allem bei stimmhaften Lauten, die man als annähernd periodisch bezeichnen<br />
kann. Daher wird auch die maximale Aussteuerung innerhalb eines kurzen<br />
Zeitbereichs als Amplitude bezeichnet.<br />
8.1.2 Nulldurchgangsrate<br />
Die Nulldurchgangsrate gibt an, wie oft das Signal in einem Zeitabschnitt<br />
von einem Abtastwert auf den nächsten sein Vorzeichen wechselt. Abgesehen<br />
vom Hintergrundrauschen kann man davon ausgehen, daß die Nulldurchgangsrate<br />
bei stimmhaften Lauten kleiner ist als bei stimmlosen. Stimmlose<br />
Laute haben meist weniger Energie und werden durch ein nichtperiodisches<br />
Rauschen angeregt.<br />
Wenn das Sprachsignal und das Hintergrundrauschen sich überlagern<br />
und die Sprache lauter als das Rauschen ist, dann wird der Anteil des<br />
Rauschens an der Nulldurchgangsrate reduziert, weil seine Nulldurchgänge<br />
nicht durch null sondern durch c = 0 wobei |c| größer ist als die Amplitude<br />
des Hintergrundrauschens.<br />
Im Jahr 1950 zeigte J.C.R. Licklider [?], daß unendlich verstärkte Sprachsignale<br />
sich zwar seltsam anhören aber dennoch in der Regel für <strong>Mensch</strong>en<br />
gut verständlich sind. Unendlich verstärkte Signale sind natürlich nicht<br />
beliebig laut, aber sie stoßen immer an den Grenzbereich der maximalen<br />
Aussteuerung der verwendeten Geräte an.<br />
8.1.3 Energie<br />
Die Energie eines Signals innerhalb eines Zeitabschnittes ist definiert als die<br />
Summe der Quadrate der einzelnen Abtastwerte. In Anlehnung an die Physik
8.2 Spektralranalyse 107<br />
ursprüngliches<br />
Signal<br />
unendlich<br />
verstärktes<br />
Signal<br />
Abb. 8.2. Unendlich verstärkte Sprachsignale sind immer noch verständlich<br />
kann man die Energie eines Signals auch mit der Energie einer schwingenden<br />
Feder vergleichen. Die gespeicherte Energie in einer ausgelenkten Feder<br />
ist auch proportional zum Quadrat der Auslenkung bzw. proportional zur<br />
maximalen Geschwindigkeit bei einer Schwingung.<br />
Die Energie eines Abschnitts einer Sprachaufnahme ist ganz besonders<br />
hilfreich, um zu entscheiden, ob in dem Abschnitt überhaupt Sprache vorliegt.<br />
In der Praxis werden oft ziemlich einfache Sprachdetektoren verwendet<br />
um die Aufmerksamkeit eines Spracherkenners zu steuern, der nicht erst<br />
durch Knopfdruck vom Benutzer zum Erkennen aufgefordert werden muß.<br />
Solche einfachen Sprachdetektoren basieren oft auf nicht viel mehr als auf<br />
der Energie des Signals. Typischerweise werden Toleranzintervalle definiert,<br />
in denen die Energie kurzzeitig auch einmal unter einen Schwellwert fallen<br />
kann, ohne daß ein Ende der Sprache angenommen wird, oder umgekehrt<br />
in Stillephasen kurzzeitig den Schwellwert übersteigen kann, ohne das der<br />
Erkenner gleich anspringt (siehe auch Abs. 10.1.1).<br />
8.2 Spektralranalyse<br />
Eine Vorgehensweise zur automatischen Spracherkennung scheint beim<br />
Anblick von Sprachsignalen im Zeitbereich von vorn herein als aussichtslos,
108 8. Verarbeitung von Sprachsignalen<br />
nämlich der direkte Vergleich zweier unmodifizierter Signale. Angesichts der<br />
riesigen Varianz, die der gleiche Laut in seiner Zeitbereichsdarstellung haben<br />
kann, kann ein direkter Vergleich der Abtastwerte, wenn überhaupt, nur in<br />
sehr eingeschränkten Erkennungsaufgaben und nur unter sehr eingeschränkten<br />
Bedingungen zu irgendwelchen nennenswerten Erkennungsraten führen.<br />
Das Identifizieren von einem Vokal aus einer Menge von zwei Vokalen könnte<br />
womöglich so gemacht werden, aber kontinuierliche Sprache bedarf ganz<br />
anderer Vorgehensweisen.<br />
Bei der Frage, welche Information in einem Sprachsignal denn überhaupt<br />
für die Erkennung von Bedeutung ist, orientiert man sich gerne daran,<br />
welche Information das menschliche Ohr dem Gehirn liefert. Dabei kann<br />
man davon ausgehen, daß die wesentliche Information in den Anteilen<br />
einzelner Frequenzen am Gesamtsignal enthalten ist. Zwar können wir<br />
durch die Wahrnehmung von Phasenverschiebungen die Quelle eines Signals<br />
orten, da dessen Schallwellen an dem einen Ohr früher als an dem anderen<br />
ankommen, aber ganz offensichtlich kann man Sprache auch genauso gut<br />
verstehen, wenn sie nur durch ein Ohr gehört wird. Bei der Ortung von<br />
Schallquellen spielt zusätzlich noch die Form und Bewegung des Kopfes eine<br />
Rolle. Aber auch diese tragen bestenfalls zur virtuellen Verbesserung eines<br />
Sprachsignals bei und nicht zum Verstehen selbst. Durch Untersuchungen<br />
am menschlichen Ohr, wie sie im Kapitel 4 beschrieben wurden, wissen wir,<br />
daß einzelne Abschnitte der Gehörschnecke auf bestimmte Frequenzbereiche<br />
im Signal reagieren und so das Ohr eine Art Fourieranalyse durchführt.<br />
Daher arbeiten die allermeisten Spracherkennungssysteme auf irgend einer<br />
Art der Darstellung des Sprachsignals im Frequenzbereich.<br />
Experiment 8.1: Spektralanalyse<br />
Starten Sie das Applet Signal Processing. Auf der Oberfläche sehen Sie ein<br />
Feld, in dem eine Wellenform dargestellt wird, und einige Schaltflächen zum<br />
Aufnehmen, Abspielen und Analysieren eines Teilsignals.<br />
Wenn Sie auf Aufnahme drücken, können Sie in das Mikrophon Ihres<br />
Computers ein paar Sekunden lang sprechen und die Wellenform des Signals<br />
betrachten. Nehmen Sie zunächst einen einfachen Pfeifton auf.<br />
Markieren Sie den Teil der Aufnahme, in dem der Pfeifton zu erkennen ist<br />
und spielen Sie ihn mit Abspielen zur Kontrolle nochmal ab.
8.2 Spektralranalyse 109<br />
Klicken Sie jetzt auf Fouriertransform und betrachten Sie das angezeigte<br />
Spektrum. Wenn Ihr Pfeifton ” sauber“ war, dann dürfte im Spektrum<br />
abgesehen von ein paar Wacklern hier und da im wesentlichen nur ein<br />
einziger deutlicher Ausschlag zu erkennen sein.<br />
Die horizontale Achse des Spektrums ist die Frequenzachse. An Ihr können<br />
Sie ablesen, welche Frequenz Ihr Pfeifton hatte.<br />
Machen Sie noch eine Aufnahme, bei der Sie diesmal zwei oder drei Pfeiftöne<br />
hintereinander mit unterschiedlichen Tonhöhen aufnehmen. Im Spektrum<br />
sollten Sie dann zwei oder drei Ausschläge erkennen.<br />
Machen Sie noch ein paar Aufnahmen und betrachten Sie die dazugehörigen<br />
Spektren. Probieren Sie insbesondere einige Vokale und einige Frikative aus<br />
(z.B. ein lautes und deutliches Ah oder ein besonders lautes Sch.)<br />
Machen Sie eine Aufnahme, in der Sie viele verschiedene Laute sprechen,<br />
z.B. einen ganzen Satz.<br />
8.2.1 Langzeitspektrum<br />
Nimmt man eine komplette Aufnahme, die es gilt zu erkennen, also zum<br />
Beispiel ein Wort oder einen Satz, und berechnet das Spektrum dieser<br />
Aufnahme, dann erhält man so etwas ähnliches wie die Überlagerung der<br />
Spektren aller in der Aufnahme vorkommenden Laute. Es ist schon bei<br />
wenigen Lauten kaum möglich, und bei vielen Lauten eigentlich unmöglich,<br />
in so einem Spektrum die ” Teilspektren“ der einzelnen Laute zu identifizieren.<br />
Eine Rekonstruktion der Reihenfolge, in der die Laute artikuliert<br />
wurden, ist unmöglich. Daher eignet sich ein Spektrum, das über einer längeren<br />
Aufnahme berechnet wird, nicht, um darauf Spracherkennung zu machen.<br />
Wir können aber leicht feststellen, daß die Spektren einzelner ” uniformer“<br />
Laute diese Laute oft recht gut charakterisieren. Die naheliegende<br />
Vorgehensweise besteht also darin, nicht ein Spektrum über die gesamte<br />
Aufnahme zu berechnen, sondern viele Spektren über einzelne Teile der<br />
Aufnahme, in denen ein wenigstens einigermaßen stationärer Laut zu hören<br />
ist.<br />
Im übrigen bringen echte Langzeitspektren eine weitere Herausforderung<br />
mit sich. Wenn die Aufnahme aus Tausenden oder gar Hunderttausenden<br />
Abtastwerten besteht, dann ist die Berechnung der diskreten Fouriertransformierten<br />
(DFT) auf einem so langen Vektor extrem aufwendig bis gar nicht<br />
mehr sinnvoll durchführbar. So sind viele Langzeitspektraldarstellung (wie
110 8. Verarbeitung von Sprachsignalen<br />
z.B. im Experiment 8.1) in Wirklichkeit nur gemittelte Spektren mehrerer<br />
gleichlanger Teilaufnahmen, für die die Berechnung einer DFT in akzeptabler<br />
Zeit machbar ist.<br />
8.2.2 Kurzzeitspektrum<br />
Um Sprache zu erkennen, bietet es sich also an, statt eines Langzeitspektrums<br />
viele aufeinanderfolgende Kurzzeitspektren zu berechnen, von denen<br />
jedes einem Laut entspricht. Da wir zu der Zeit, zu der wir entscheiden<br />
müssen, auf welchen Teilen eines Signals ein Kurzzeitspektrum berechnet<br />
wird, ja noch gar nicht wissen, wo ein Laut anfängt und wo die Grenze zum<br />
nachfolgenden Laut ist, müssen wir also anders vorgehen. Die erste Idee, im<br />
Signal nach stationären Teilen zu suchen ist relativ schwierig umzusetzen.<br />
Aus der reinen Wellenform des Signals ist es zwar möglich, bestimmte grobe<br />
Strukturen wie Sprache / Stille, oder stimmhaft / stimmlos zu erkennen,<br />
aber die Auftrennung in einzelne Laute ist nicht sinnvoll machbar. Als<br />
Alternative drängt sich die Methode auf, einfach in regelmäßigen kurzen<br />
Zeitintervallen ein neues Spektrum zu berechnen. Wenn diese Intervalle<br />
genügend kurz sind – z.B. kürzer als der zu erwartende kürzeste Laut – dann<br />
können wir davon ausgehen, daß jeder Laut aus mehreren hintereinander<br />
liegenden ähnlichen Kurzzeitspektren besteht.<br />
Mit Framerate wird üblicherweise der zeitliche Abstand einzelner Kurzzeitspektren<br />
bezeichnet. Jedes einzelne Spektrum wird auf einem kleinen<br />
Zeitrahmen (Frame) berechnet. Bevor wir uns für einen bestimmten regelmäßigen<br />
Abstand entscheiden, könnte ein Blick auf die durchschnittlichen<br />
Längen einzelner Laute hilfreich sein. Eine Längenstatistik für Laute des<br />
amerikanischen Englisch ist in Tab. 8.2 dargestellt (die Werte wurden mit<br />
einem Erkenner, der nicht alle IPA-Laute kannte, ermittelt, daher die nicht<br />
1:1 Abbildung von IPA-Symbolen zu Lauten). Die kürzesten Laute nehmen<br />
im Schnitt ca. 40 Millisekunden Zeit in Anspruch. Die längsten haben<br />
einen Schnitt von einer achtel Sekunde. Selbstverständlich kommen in der<br />
natürlichen Sprache auch Laute vor, die signifikant kürzer sind als 40 ms,<br />
und es ist auch problemlos möglich, einzelne Laute mehrere Sekunden lang<br />
anzuhalten. Dennoch ist es sinnvoll, alle 10 ms ein neues Spektrum zu<br />
berechnen. Dann kann man davon ausgehen, daß selbst die kürzesten Laute<br />
im Schnitt aus einigen wenigen Kurzzeitspektren zusammengebaut werden<br />
können. Die meisten Spracherkenner verwenden daher auch Frameraten von<br />
ca. 10 ms. Unter Umständen kann eine dynamische Variation dieses Wertes<br />
sinnvoll sein, zum Beispiel um variierende Sprechgeschwindigkeiten etwas<br />
auszugleichen oder auch um in relativ stationären Teilen dadurch Rechenzeit<br />
einzusparen, daß weniger Frames berechnet werden.
Ê<br />
8.2 Spektralranalyse 111<br />
Laut Beispiel Länge Laut Beispiel Länge Laut Beispiel Länge<br />
Á u i butter 39 m mam 64 a /Bob 88<br />
d<br />
Æ aÍ<br />
dad 47 r red 64/ her 91<br />
but 49/ e get 66 see 94<br />
v vet 52 you 66 w wow 94<br />
bit 53 t toe 67 cow 98<br />
h hat 54 g get 68Ì thin 100<br />
ring 56 k can 69Ë<br />
aÁ<br />
61Ç oÍ eÁ<br />
she 102<br />
n nun 58 f fun 70 s so 103<br />
b Bob 58 l let 72 bye 108<br />
this 59 p pie 77 say 115<br />
j yes 60 æ bad 79 go 116<br />
Joe saw 87 chat 125<br />
Tabelle 8.2. Durchschnittliche Längen (in ms) von Lauten im Englischen (gemes-<br />
sen auf dem Wall-Street-Journal Korpus [Rog97] )<br />
Die Anzahl der Abtastwerte, aus denen ein Kurzzeitspektrum berechnet<br />
wird, wird Fensterbreite genannt und muß nicht unbedingt mit dem Abstand<br />
der einzelnen Spektren übereinstimmen (s. Abb. 8.3). Typischerweise<br />
sind die Längen der Segmente größer als ihr Abstand, so daß sie sich<br />
überlappen. Es gibt hauptsächlich zwei Gründe für ein solches Vorgehen.<br />
Zum einen wählt man gerne eine Framerate von 10 ms, und bei einer<br />
Abtastrate von z.B. 16 kHz würden 10 ms aus 160 Werten bestehen. Will<br />
man die Fouriertransformierte eines 160-dimensionalen Vektors mit Hilfe der<br />
schnellen Fouriertransformation (FFT) berechnen, muß man eine 256 × 256<br />
DFT-Matrix verwenden – dazu müssen die fehlenden 96 Koeffizienten auf<br />
Null gesetzt werden. Zum anderen werden wir im folgenden Abschnitt sehen,<br />
daß es sinnvoll ist, die Ränder eines ausgeschnittenen Segments zu ” glätten“,<br />
weshalb eine Überlappung der Segmente eine bessere Ausnutzung der darin<br />
enthaltenen Information bedeutet.<br />
Nun ist die Fouriertransformierte im kontinuierlichen Fall definiert als unendliches<br />
Integral, und im diskreten Fall so als wäre das zu transformierende<br />
Signal periodisch indem es immer wieder wiederholt würde. Wenn aus der<br />
Aufnahme f(x) ein Segment s(x) zwischen den Zeitpunkten t1 und t2 her-
112 8. Verarbeitung von Sprachsignalen<br />
Framerate<br />
1.<br />
Segment<br />
2.<br />
Segment<br />
Abb. 8.3. Zerteilung von Signalen in einzelne Segmente<br />
ausgenommen wird, dann entspricht dies der Multiplikation des Signals mit<br />
einer Rechteck-Fensterfunktion“ w(x), wobei:<br />
”<br />
<br />
1 für x ∈ [t1, t2]<br />
s(x) = f(x) · w(x) und w(x) =<br />
(8.1)<br />
0 sonst<br />
Von Gl. 7.44 wissen wir, daß die Fouriertransformierte (wie jede andere z-<br />
Transformierte auch) des Produktes zweier Funktionen gleich der Faltung der<br />
beiden Transformierten der Funktionen ist. Wenn wir also die Fouriertransformierte<br />
eines ” ausgeschnittenen“ Segmentes berechnen, ist das Ergebnis die<br />
Faltung der Transformierten des Gesamtsignals mit der Transformierten der<br />
Fensterfunktion. Wollen wir nun, daß der Effekt des Fensters möglichst minimal<br />
auf die Spektralanalyse ausfällt, können wir ein bestimmtes Fenster<br />
wählen. Gar keinen Effekt hätte es, wenn die Transformierte der Fensterfunktion<br />
ein Impuls wäre, denn die Faltung einer Funktion mit einem Impuls<br />
verändert die Funktion nicht. Leider ist es aber so, daß der Impuls die
8.2 Spektralranalyse 113<br />
Transformierte der Funktion w(x) = 1∀x ist, was hieße, wir dürften aus dem<br />
Signal gar nichts ausschneiden. Wenn wir ein Segment mit der Rechteck-<br />
Fensterfunktion ausschneiden, entspricht dies im Spektralbereich der Faltung<br />
des Spektrums des Gesamtsignals mit dem Spektrum der Rechteckfunktion.<br />
Nun weicht das Spektrum der Rechteckfunktion deutlich von einem Impuls<br />
ab. Wir sollten also eine bessere Kurzzeitspektralanalyse erwarten dürfen,<br />
wenn wir die Segmente mit einer Fensterfunktion ausschneiden, deren Transformierte<br />
einem Impuls näher kommt als die Transformierte des Rechtecks.<br />
Abb. 8.4 zeigt einige typische Fensterfunktionen. In Abb. 8.5 sind die Fouriertransformierten<br />
(d.h. die Leistungsspektren) eines Rechteckfensters und<br />
eines Hanning-Fensters (jeweils der Breite 51 Abtastwerte) dargestellt. Es ist<br />
gut zu erkennen, daß die Transformierte des Hanning-Fensters viel näher an<br />
der Dirac-Distribution liegt als die Transformierte eines Rechtecks.<br />
Rechteck Gauß<br />
wn = 1 wn = e − 1 2 ·<br />
Hamming<br />
Hanning<br />
n−N/2 2<br />
σN/2<br />
wn = 0.54 − 0.56 · cos( 2πn<br />
2πn<br />
) wn = 0.5 − 0.5 · cos( N−1) N−1) )<br />
Abb. 8.4. Verschiedene Fensterfunktionen<br />
8.2.3 Spektrogramme<br />
Die häufigste Darstellung von Sprachsignalen sind Spektrogramme. Dabei werden<br />
viele aufeinanderfolgende Kurzzeitspektren hintereinander als Graustufenvektoren<br />
dargestellt. In Abb. 8.6 sind fünf Spektren, s1, . . .s5, dargestellt.<br />
Zu jedem Spektrum wird ein entsprechender Graustufenvektor, v1, . . .v5 erzeugt.<br />
Die Aneinanderreihung mehrerer vertikaler Graustufenvektoren ergibt
114 8. Verarbeitung von Sprachsignalen<br />
dB<br />
0<br />
-20<br />
-40<br />
-60<br />
-80<br />
-100<br />
-120<br />
Rechteckfenster<br />
Hanning-Fenster<br />
0 π/2<br />
π<br />
Abb. 8.5. Fouriertransformierte verschiedener Fensterfunktionen (Breite N = 51)<br />
dann eine Graustufenmatrix, deren i-te Zeile dem i-ten Frequenzband entspricht,<br />
und deren j-te Spalte dem Zeitpunkt j entspricht. Abb. 8.7 zeigt<br />
einen Ausschnitt aus einem Spektrogramm einer tatsächlichen Sprachaufnahme,<br />
bei der die Worte ” eins, zwei, drei“ gesprochen wurden.<br />
s1 s2 s3 s4 s5<br />
v1 v2 v3 v4 v5<br />
s1 s2s3s4s5<br />
f<br />
v1 v3 v5<br />
v2 v4<br />
Abb. 8.6. Entstehung eines Spektrogramms<br />
Es gibt <strong>Mensch</strong>en, die mit erstaunlicher Zuverlässigkeit Graustufendarstellungen<br />
von Spektrogrammen ” lesen“ können. Diese Fähigkeit geht nicht<br />
t
Abb. 8.7. Spektrogramm der Wortfolge ” eins zwei drei“<br />
8.2 Spektralranalyse 115<br />
– zumindest nicht nur – darauf zurück, daß sie für jedes Kurzzeitspektrum<br />
erkennen können, von welchem Laut es stammt, sondern vielmehr darauf,<br />
daß sie eine herausragende Kombinationsgabe besitzen, ähnlich wie bei<br />
<strong>Mensch</strong>en, die Texte lesen können, bei denen von jeder Zeile die obere Hälfte<br />
oder gar noch mehr verdeckt ist.<br />
8.2.4 Filterbänke<br />
Wie in Abs. 4.2 beschrieben, ist die Empfindlichkeit des Ohres unterschiedlich<br />
für verschiedene Frequenzen. Das menschliche Ohr hat eine feinere<br />
Auflösung für niedrigere Frequenzen. So liegt es nahe, anzunehmen, daß<br />
diejenigen Frequenzbereiche, die das Ohr schlechter auflöst, auch weniger<br />
wichtig für die Erkennung von Sprachlauten sind. Zumindest würde man<br />
erwarten, daß eine Signalverarbeitung, die das Verhalten des Ohres in dieser<br />
Beziehung nachahmt, dadurch eher Vorteile als Nachteile für die Erkennungsgenauigkeit<br />
hat. Die übliche diskrete n-Punkt-Fouriertransformierte<br />
liefert n + 1 diskrete Werte, wobei der 0-te Wert der Frequenz ω = 0 (dem<br />
durchschnittlichen Abstand des Signals von der Zeitachse) entspricht und<br />
der i-te Wert der Frequenz ωs n<br />
2i mit ωs als Abtastrate. Zweifellos ist es bei<br />
einer durchaus typischen 256-Punkt-DFT äußerst unwahrscheinlich, daß zwei<br />
Laute darin unterschieden werden können, daß ein ganz bestimmter Punk<br />
einen ganz bestimmten Wert hat. Vielmehr sind Laute daran zu erkennen,<br />
daß bestimmte Punktbereiche in bestimmten Wertebereichen liegen. Eine<br />
Auflösung von 256 Punkten enthält zwar viel Information, vieles davon ist<br />
aber entweder redundant oder zumindest irrelevant. Wünschenswert wäre<br />
eine Transformation, die die 256 Koeffizienten in wesentlich weniger wandelt<br />
und dabei die für die Erkennung wichtigen Inhalte beibehält.<br />
Bei der Kompression von Videos und Bildern mit Hilfe der JPEG und<br />
MPEG Verfahren werden unter anderem dadurch Daten eingespart, daß
116 8. Verarbeitung von Sprachsignalen<br />
bestimmte Details so weggelassen werden, daß ein Ausschnitt eines Bildes<br />
nur noch niedrige Frequenzen enthält. Eine völlig weiße Fläche mit gelegentlichen<br />
schwarzen Punkten hat in der entsprechenden zweidimensionalen<br />
Fouriertransformierten viele hohe Frequenzanteile. Ein Tiefpaßfilter und<br />
eine anschließende Rücktransformation in den Bildbereich führt dazu, daß<br />
die schwarzen Punkte ganz verschwinden oder nur noch die Fläche grau<br />
einfärben. Ein ähnliches Vorgehen verfolgen verschiedene Kompressionsalgorithmen<br />
bei der Kompression von Sprachsignalen.<br />
Die Frage, was bei Audiosignalen irrelevante Details sind, wird dabei<br />
etwas anders beantwortet als bei Bildern, aber das Prinzip ist ähnlich.<br />
Leiten wir ein Signal, das eine Grenzfrequenz von 16 kHz hat durch einen 8<br />
kHz Tiefpaßfilter, dann benötigen wir zum Codieren des Resultat auch nur<br />
noch die Hälfte der Datenmenge. Das Signal bleibt dennoch verständlich. Je<br />
stärker wir filtern, umso weniger Daten fallen an und umso unverständlicher<br />
wird das Signal.<br />
Sinnvoller als ein Tiefpaßfilter ist die Zusammenfassung von benachbarten<br />
DFT-Koeffizienten. Dadurch werden die Informationen über die hohen Frequenzen<br />
nicht ignoriert und kleine unwichtige Variationen werden dennoch<br />
” geglättet“. Die einfachste Art wäre die Verwendung mehrerer Bandpaßfilter,<br />
deren Koeffizienten alle zu einem so genannten Filterbankkoeffizienten zusammengefaßt<br />
werden. Bei einer Aufteilung der n DFT-Koeffizienten a1, . . .,an<br />
in m Filterbankkoeffizienten b1, . . .,bm (s. Abb. 8.8) würde sich bi berechnen<br />
als:<br />
bi = n<br />
m ·<br />
(i+1)· m<br />
n −1<br />
<br />
j=i· m<br />
n<br />
aj<br />
ωg/2<br />
ωg/4<br />
ωg/6<br />
0<br />
Abb. 8.8. Filterbänke gleicher Größe<br />
b0 b1 b2<br />
(8.2)<br />
Wollen wir die Funktion des Ohres einigermaßen nachahmen und die<br />
tieferen Frequenzen feiner auflösen, dann sollten wir Filterbänke verwenden,<br />
die mit steigender Frequenz immer breiter werden, wie in Abb. 8.9.
0 b1 b2<br />
Abb. 8.9. Filterbänke wachsender Größe<br />
8.2 Spektralranalyse 117<br />
Bleibt noch zu klären, wie die einzelnen Filter am besten zu wählen sind.<br />
In zwei verschiedenen Experimenten wurden zwei Funktionen, die Mel-Skala<br />
und die Bark-Skala [?] [?] gefunden, die an die entsprechenden Funktionen<br />
des menschlichen Ohrs angelehnt sind.<br />
Der Begriff Mel ist die Abkürzung für Melody und ist darin motiviert,<br />
die Frequenzskala so in Abschnitte zu unterteilen, wie sie ein (ungeübter)<br />
<strong>Mensch</strong> einteilen würde. Bei den Mel-Experimenten werden Probanden Töne<br />
verschiedener Frequenzen vorgespielt, und die Hörer müssen schätzen, um<br />
welche Frequenz es sich handelt. Trägt man in einem Koordinatensystem die<br />
geschätzten Frequenzen f ′ (mit der Einheit 1 Mel) gegen die tatsächlichen f<br />
(mit der Einheit 1 Hz) auf ergibt sich eine in etwa logarithmische Kurve. Im<br />
Mittel läßt sich diese Kurve approximieren durch<br />
f ′ = 1125 log(0.0016f + 1) (8.3)<br />
Die so genannte Bark-Skala ist benannt nach dem deutschen Akustiker<br />
von Barkhausen. Die Idee hierbei ist es, Versuchspersonen zwei Töne<br />
vorzuspielen und die Hörer dann entscheiden zu lassen, ob es sich um zwei<br />
verschiedene oder um die selben Frequenzen handelt. Weil das menschliche<br />
Ohr tiefere Frequenzen besser auflösen kann, ist zu erwarten, daß zwei Töne<br />
mit den Frequenzen 100 Hz und 110 Hz besser voneinander zu unterscheiden<br />
sind, als zwei Töne mit den Frequenzen 1000 Hz und 1010 Hz. Für<br />
jeden Frequenz gibt es somit eine kritische Bandbreite (minimale hörbare<br />
Frequenzdistanz) gemessen in der Einheit 1 bark. Trägt man die kritische<br />
Bandbreite gegen die Frequenz auf, ergibt sich eine ähnlich gekrümmte<br />
Kurve wie bei der Mel-Skala.<br />
In Abb. 8.11 sind verschiedene Möglichkeiten der Berechnung von Filterbänken<br />
dargestellt. Wenn das diskrete Kurzzeitspektrum 100 Koeffizienten<br />
liefert, und am Ende 10 Filterbänke erzeugt werden sollen, so werden<br />
diese in der Praxis meist in Form von überlappenden Intervallen berechnet.<br />
Der achte Filterbank-Koeffizient ist in der Abb. grau dargestellt. Er wird<br />
als die Gewichtete Summe der Spektralkoeffizienten im Bereich des grauen<br />
Dreiecks berechnet. Hierbei beginnt und endet jedes Dreieck in der Mitte der<br />
angrenzenden Bereiche, und die Höhe des Dreiecks gibt die Gewichtungsfaktoren<br />
an. Da bei einer solchen Definition die Summe der Integrale unter allen
118 8. Verarbeitung von Sprachsignalen<br />
geschätzte Frequenz [Hz]<br />
3000<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
0<br />
0 1000 2000 3000 4000 5000 6000 7000 8000<br />
tatsächliche Frequenz [Hz]<br />
Abb. 8.10. Die Mel-Skala<br />
Dreiecken genauso groß ist wie die entsprechenden Fläche nichtüberlappender<br />
Rechtecke, bleibt die gesamte Signalenergie erhalten, wird allerdings über<br />
die einzelnen Filterbankkoeffizienten ” verschmiert“.<br />
1.<br />
2.<br />
3.<br />
Abb. 8.11. verschiedene Berechnungen für Filterbänke: 1. Linear nichtüberlap-<br />
pend, 2. logarithmisch nichtüberlappend, 3. logarithmisch überlappend
8.3 Cepstralanalyse<br />
8.3 Cepstralanalyse 119<br />
Betrachten wir das Quelle-Filter-Modell des Vokaltraktes wie in Abb. 4.9<br />
dargestellt. Dabei nehmen wir an, daß das aufgezeichnete Sprachsignal<br />
entsteht, indem eine Anregungsschwingung a durch mehrere hintereinanderfolgende<br />
Filter gefiltert wird. Wenn wir davon ausgehen, daß es sich bei<br />
diesen Filtern um lineare zeitinvariante Filter handelt, dann können wir die<br />
Hintereinanderausführung mehrerer Filter zur Anwendung eines einzigen<br />
Filters b zusammenfassen. Die Beobachtung ist dann also die Faltung<br />
c = a ∗ b von a mit b.<br />
Wenn wir eine Spektralanalyse, also eine Fouriertransformation der Beobachtung<br />
durchführen, erhalten wir: C = A · B wobei C die Transformierte<br />
von c, A die Transformierte von a und B die Transformierte von b ist. Eine<br />
anschließende Logarithmierung liefert log C = log A + log B. Jetzt sehen<br />
wir, daß das logarithmierte Spektrum eine Summe zweier logarithmierter<br />
Spektren ist. Spricht jemand mehrere Vokale hintereinander, so kann dabei<br />
die Anregungsschwingung unverändert bleiben während sich die Form des<br />
Vokaltraktes, insbesondere die Lage der Zunge ändert. Das heißt über eine<br />
gewisse Zeit bleibt a konstant, während nur b sich ändert. Berechnet man<br />
den Mittelwert ¯ C = Ā + ¯ B von log C über diesem Zeitraum und subtrahiert<br />
ihn von jedem einzelnen logarithmierten Kurzzeitspektrum, dann erhalten<br />
wir log A(t) + log B(t) − ¯ C = log B(t) − ¯ B, also nur noch Anteile des<br />
” variablen“ Anteils des Signals. Analog verhält es sich, wenn wir annehmen,<br />
daß der Vokaltrakt – und somit der gesamte Filter – konstant bleibt. Dann<br />
befinden sich im mittelwertsbefreiten logarithmierten Spektrum nur die<br />
” variablen“ Anteile der Anregungsfunktion.<br />
Eine anschließende Fouriertransformation oder auch deren Inverse ändert<br />
aufgrund der Linearitätseigenschaften derselben an diesen Sachverhalten<br />
nichts. In Anlehnung an die Bezeichnung ” Spektrum“ bezeichnen wir die<br />
Funktion FT −1 (log FT(f)) als das Cepstrum der Funktion f.<br />
Statt der vollständigen inversen Fouriertransformation FT −1 kann<br />
auch eine andere spektralanalysierende Transformation wie z.B. die diskrete<br />
Cosinus-Transformation verwendet werden. In jedem Fall ist das<br />
Ergebnis die Spektralanalyse des Spektrums selbst, so daß die niedrigen<br />
Cepstralkoeffizienten die niedrigen Schwingungsanteile des als Schwingung<br />
betrachteten Spektrums enthalten und die höheren Cepstralkoeffizienten die<br />
höherfrequenten Schwingungsanteile enthalten.<br />
Insbesondere kann man sagen, daß der 0-te Cepstralkoeffizient den<br />
Konstantanteil des Spektrums beschreibt, also den durchschnittlichen Wert<br />
aller einzelnen Spektralanteile des Ursprungssignals, d.h. die Gesamtenergie.
120 8. Verarbeitung von Sprachsignalen<br />
Der erste Cepstralkoeffizient gibt im wesentlichen die Differenz der<br />
Anteile der niedrigeren Frequenzen (untere Hälfte aller Frequenzen) im<br />
Signal und der Anteile der hohen Frequenzen (obere Hälfte aller Frequenzen)<br />
an.<br />
Die Einheit des Argumentes einer Cepstralfunktion ist die Quefrenz<br />
(auch Hertz). Wenn ein Signal mit der Abtastrate ωs abgetastet wird<br />
und dann mit einer n-Punkt DFT transformiert wird, entspricht der i-te<br />
Cepstralkoeffizient der Quefrenz ωs · i/(2n). Wenn in einem Spektrum die<br />
Frequenzanteile f, 2f, 3f . . . usw. besonders stark vertreten sind, bedeutet<br />
dies, daß in der Spektralanalyse des Spektrums die Quefrenz f besonders<br />
stark ausschlägt.<br />
Wenn ein Kanal wie der Vokaltrakt eine Frequenz f besonders wenig<br />
dämpft, dann gilt dies auch für die Oberschwingungen i·f. Dies wirkt sich im<br />
Spektrum eines Signals darin aus, daß im Cepstrum bei der Quefrenz f ein<br />
herausragender Ausschlag zu beobachten ist (s. Abb. 8.12 – die Oberwellen<br />
der Grundfrequenz von 200 Hz sind im Cepstrum deutlich sichtbar).<br />
Spektrum<br />
(Frequenz)<br />
Cepstrum<br />
(Quefrenz)<br />
200 1000 Hz ∞ 800 400 200 Hz<br />
Abb. 8.12. Das Cepstrum ist die Spektralanalyse des Spektrums<br />
Wird ein Signal dadurch transformiert, daß bestimmte Frequenzen<br />
unterdrückt werden (niedrige bei einem Hochpaßfilter, hohe bei einem<br />
Tiefpaßfilter), dann spricht man vom Filtern eines Signals. Wird nur ein<br />
bestimmtes Frequenzband durchgelassen und alle kleineren und größeren<br />
Frequenzen unterdrückt, dann ist das ein Bandpaßfilter. Entsprechend<br />
spricht man bei Unterdrücken/Durchlassen bestimmter Quefrenzen eines<br />
Cepstrums vom Liftering (s. Abb. 8.13).<br />
Eine Lifter-Transformation, die z.B. die höheren Cepstralkoeffizienten<br />
unterdrückt, wirkt sich auf das in den Zeitraum zurücktransformierte Signal<br />
so aus, daß die Anteile, die die Mikrostruktur des Spektrums bewirken<br />
beseitigt werden. Das ist in etwa vergleichbar mit einer Transformation, die<br />
aus einem ” reichen“ Ton wie den einer Violine einen ” ärmeren“ Ton wie den
Spektrum<br />
Cepstrum<br />
Abb. 8.13. Filtern und Liftern eines Signals<br />
einer Flöte macht.<br />
8.4 Codierung durch Lineare Vorhersage 121<br />
Filtern 000 111<br />
000 111<br />
000 111<br />
000 111<br />
Liftern 000 111<br />
000 111<br />
000 111<br />
000 111<br />
8.4 Codierung durch Lineare Vorhersage<br />
In den Sechzigern wurde zunächst ohne die Motivation, dadurch eine<br />
Vorverarbeitung für die Spracherkennung zu entwickeln, an Codierverfahren<br />
gearbeitet, die eine kompaktere Darstellung des Sprachsignals ermöglichen,<br />
insbesondere für die digitale Speicherung und Übertragung [?]. Als besonders<br />
sinnvoll erwies sich das Verfahren der linearen Vorhersage. Wir werden<br />
im folgenden zeigen, wieso es sich dabei um eine Art Spektralanalyse handelt.<br />
Ziel der Linearen Vorhersage ist es, eine möglichst gute Schätzung des<br />
Abtastwertes s(n) als Linearkombination der p vorausgegangenen Abtastwerte<br />
s(n − 1)...s(n − p) abzugeben, also:<br />
s(n) = e(n) +<br />
p<br />
ais(n − i) (8.4)<br />
i=1<br />
Da meist s(n) nicht exakt als Linearkombination der vorherigen p Werte<br />
dargestellt werden kann, liegt die Vorhersage um einen Fehler e(n) daneben.<br />
Man wird sagen, daß eine Wahl der Vorhersagekoeffizienten ai umso besser<br />
ist, je kleiner der Fehler im Schnitt ist. Die Vorhersagekoeffizienten ai werden<br />
auch LPC-Koeffizienten (Linear Predictive Coding [?]) genannt.<br />
Abb. 8.15 zeigt, wie die Funktion aus Abb. 8.14 auf dem Einheitskreis<br />
aussieht. Da Sprachsignale reellwertig sind, ist die hier dargestellte<br />
z-Transformierte symmetrisch. Die Funktionswerte auf dem Einheitskreis<br />
zwischen 0 ◦ und 180 ◦ wiederholen sich spiegelbildlich zwischen 180 ◦ und 360 ◦ .<br />
Später wurde dann die LPC-Darstellung als sinnvoller Merkmalsraum für<br />
Spracherkennungssysteme erkannt [?]. Mit der Zeit ging ihre Bedeutung aber
122 8. Verarbeitung von Sprachsignalen<br />
Abb. 8.14. Nur-Pole-Funktion eines Linearen Vorhersagesystems<br />
180 ◦<br />
Abb. 8.15. Nur-Pole-Funktion beschränkt auf den Einheitskreis<br />
90 ◦<br />
0 ◦<br />
0 ◦<br />
approximiertes<br />
Spektrum<br />
im Bereich der Erkennung von sauberer Sprache über Nahbesprechungsmikrophone<br />
zurück und das Cepstrum entwickelte sich zum Merkmalsraum der<br />
Wahl für die meisten Erkenner.<br />
8.5 Einfache Signalnormalisierungen<br />
Wie in Abschnitt 2.9 erläutert, liegt der wichtigste Grund für die Schwierigkeit<br />
der automatischen Spracherkennung in der großen Variabilität, mit<br />
der die gleiche Wortfolge in einem akustischen Signal manifestiert werden<br />
kann. Betrachtet man die orthographische Darstellung als die kanonische<br />
Darstellung der entsprechenden Wortfolge, so kann man den gesamten<br />
90 ◦
8.5 Einfache Signalnormalisierungen 123<br />
Spracherkennungsprozeß als eine Art Normierung ansehen. So weit wollen<br />
wir aber nicht gehen. Wenn wir hier von Normierung reden, dann meinen<br />
wir damit die Transformation des Signals, so daß die Variabilität abnimmt<br />
und die Parameter des Erkennungssystems besser geschätzt werden können,<br />
bzw. daß weniger Parameter für die gleiche Klassifikationsleistung benötigt<br />
werden. Eine sehr einfache Normierung, die man leicht als sinnvoll ansieht,<br />
ist die Normierung der Lautstärke. Eine Wortfolge bleibt sicher dieselbe,<br />
unabhängig davon wie der Mikrophonverstärker eingestellt ist. Wozu sollte<br />
man also dem Erkenner die ” Mühe“ machen, Darstellung der gleichen Laute<br />
für verschiedene Lautstärken lernen zu müssen. Einige Normierungsverfahren<br />
können schon auf dem reinen Signal durchgeführt werden, andere verwenden<br />
Wissen über die Lautfolge und greifen erst viel später im Erkennungsprozeß.<br />
8.5.1 Offsetnachführung<br />
Je nachdem, auf welche Art das Sprachsignal weiter verarbeitet wird, kann<br />
es durchaus schädlich sein, wenn die ” Nullinie“ nicht bei null sondern<br />
irgendwo daneben liegt. Bei vielen A/D Wandlern kann es vorkommen, daß,<br />
selbst wenn gar kein Signal anliegt, ein Wert ungleich null geliefert wird.<br />
Dieser Wert wird als Offset des A/D Wandlers bezeichnet. Insbesondere<br />
wenn die Energie eines Signals berechnet werden soll, kann das Ergebnis<br />
durch einen Offset stark verfälscht werden. Daher ist es sinnvoll, bei einer<br />
Sprachaufnahme den Durchschnittswert aller Abtastwerte zu berechnen<br />
und diesen von allen Werten zu subtrahieren. Um einer schleichenden<br />
Wanderung des Offsets entgegenzuwirken, sollte dies sogar auf jedem<br />
ausreichend langen Teilstück einer Aufnahme gemacht werden. Wenn wir<br />
davon ausgehen, daß die kleinste Informationstragende Frequenz in einer<br />
Sprachaufnahme nicht unter 10 Hz liegt, dann kann der Offset auf Abschnitten<br />
der Länge 1/10 Sekunde jeweils neu geschätzt und so nachgeführt werden.<br />
Einen vergleichbaren Effekt kann man dadurch erzielen, daß man statt<br />
des aufgezeichneten Signals dessen Ableitung verwendet. In der Regel ist der<br />
Unterschied zwischen einem Sprachsignal und dessen Ableitung nicht hörbar.<br />
Nimmt man an, daß das Signal als Superposition mehrerer Sinus-Funktionen<br />
mit verschiedenen Frequenzen und Phasen entseht, dann ist die Ableitung<br />
davon wieder einer Superposition von den gleichen Sinus-Funktionen mit<br />
denselben Frequenzen nur mit anderen Phasen. Da aber nach allgemeiner<br />
Einschätzung das Phasenspektrum keine Rolle bei der Erkennung von Sprache<br />
spielt, enthält das abgeleitete Signal alle relevanten Informationen, ist<br />
aber mittelwert- bzw. offset-bereinigt.
124 8. Verarbeitung von Sprachsignalen<br />
8.5.2 Mittelwertssubtraktion<br />
Unabhängig von der Bedeutung der Cepstralkoeffizienten, bei denen ein<br />
” konstanter“ und eine variabler“ Signalanteil entfaltet werden, enthalten<br />
”<br />
Sprachaufnahmen oft auch über eine gewisse Zeit konstante additiv überlagerte<br />
Geräusche. Aufgrund der Linearität der Fouriertransformation (und<br />
auch der Inversen) finden sich additive Anteile in der Zeitdarstellung als<br />
additive Anteile in der Frequenzdarstellung wieder. Das heißt, daß z.B.<br />
ein Hintergrundrauschen (z.B. die typische Büroakustik mit dem Surren<br />
von PC-Lüftern und Festplatten) sich sowohl im Spektrum als auch im<br />
Cepstrum als additiver Anteil wiederfinden, der über eine bestimmte Zeit<br />
relativ konstant ist.<br />
Wenn wir davon ausgehen, daß das Hintergrundgeräusch während<br />
einer gesamten Aufnahme unverändert ist, dann empfiehlt es sich, das<br />
durchschnittliche Spektrum oder das durchschnittliche Cepstrum von allen<br />
Kurzzeitspektren bzw. Kurzzeitcepstren zu subtrahieren. Dadurch wird<br />
auf jeden Fall der zeitlich konstante Anteil des Hintergrundgeräusches aus<br />
dem Signal entfernt, allerdings werden auch konstante Anteile aus dem<br />
Sprachanteil des Signals auch entfernt. Die Praxis hat gezeigt (z.B. [?]), daß<br />
der Schaden durch die Mittelwertssubtraktion bei weitem durch die Vorteile<br />
aufgewogen wird. Zum einen ist für die Erkennung von Sprachsignalen der<br />
konstante Anteil weniger wichtig als der variable, zum anderen können<br />
störende Hintergrundgeräusche, die während der Erkennung aber nicht in<br />
den Trainingsdaten auftreten, die Erkennungsqualität sehr stark senken.<br />
Dabei ist weniger das Vorhandensein der Geräusche ausschlaggebend sondern<br />
vielmehr die Unterschiedlichkeit der Trainings- und der Testaufnahmen.<br />
Wenn wir nicht davon ausgehen, daß das Hintegrundrauschen während einer<br />
gesamten Aufnahme konstant ist, können wir mit Hilfe eines Schleppfensters<br />
von jedem Kurzzeitspektrum, den Mittelwert einiger vorangegangenen<br />
Spektren subtrahieren. Am einfachsten ist es, dabei ein exponentiell abfallend<br />
gewichtetes Fenster zu verwenden, so daß des i-te Spektrum xi ersetzt<br />
wird durch x ′ i = i−1<br />
k=0 ek−i · xk.<br />
8.6 Wavelets<br />
Für den Raum der bandbegrenzten 2π-periodische Funktionen bilden die<br />
Funktionen cos(0x), sin(x), cos(x), sin(2x), cos(2x), . . . sin(nx), cos(nx) eine<br />
Orthonormalbasis. Jede Funktion läßt sich als Linearkombination von Sinusund<br />
Cosinusfunktionen verschiedener Frequenzen darstellen. Schon relativ<br />
früh nachdem Fouriers Theorie anerkannt wurde, wurden auch andere Basen<br />
angedacht. Betrachtet man die Fourierreihen für unstetige Funktionen,
8.6 Wavelets 125<br />
zum Beispiel eine Rechteckfunktion, so ist diese nur sehr schwer durch<br />
die Summe von Sinus- und Cosinusfunktionen zu synthetisieren. Während<br />
die Summe im ” flachen“ Bereich des Rechtecks relativ schnell konvergiert,<br />
bilden sich an den ” Ecken“ extreme Ausschläge, deren Höher kurioserweise<br />
trotz Konvergenz nicht kleiner wird. Solches und ähnliches Verhalten der<br />
Fourieranalyse unstetigen oder ” sehr spitzen“ Funktionen hat dazu geführt,<br />
daß eine Synthese mit Hilfe anderer Funktionen so genannter ” Wavelets“ [?]<br />
angestrebt wurde. Dabei werden keine unendlich ausgedehnten Funktionen<br />
(wie sin und cos) verwendet, sondern Funktionen mit endlichem Definitionsbereich.<br />
Die Basis besteht dann aus einer Menge gleichartiger Funktionen,<br />
die aber unterschiedlich stark im Zeitbereich in die Breite gedehnt sind<br />
(verschiedenskalige Basisfunktionen). Die ungedehnte Ursprungsfunktion<br />
wird auch als ” Mutterfunktion“ Φ bezeichnet. Die Basis besteht aus den<br />
Funktionen:<br />
s −<br />
Φsl(x) = 2 2 Φ(2 −s x − l) (8.5)<br />
mit verschiedenen ganzzahligen ” Dehnungsfaktoren“ s und verschiedenen<br />
Phasenverschiebungen l. Die Überlegungen zur Waveletanalyse von<br />
Funktionen sind dann vergleichbar mit der Fourieranalyse und führen für<br />
Diskrete Signale zu einer Diskreten Wavelet Transformation (DWT) die<br />
ebenso eine lineare Matrixtransformation ist und auch eine schnelle Variante<br />
(fast wavelet transform) besitzt. Bei der Wahl der Mutterfunktion Φ gibt<br />
es viele Freiheiten. Manche Forscher [?] verwenden sogar fraktale Mutterfunktionen.<br />
In der Erkennung kontinuierlicher Sprache unter alltäglichen<br />
Bedingungen haben sich Wavelettransformation allerdings nicht gegenüber<br />
Fouriertransformationen durchsetzen können.
9. Klassifikation und Mustererkennung<br />
Automatische Spracherkennung kann als eine Art der Klassifikation angesehen<br />
werden. Gegeben ist eine Sprachaufnahme, also ein Muster, und gesucht<br />
ist die Klasse (z.B. Phonem, Silbe, Wort, Wortfolge), zu der das Muster<br />
gehört. In der Tat waren die frühen Versuche, Sprache zu erkennen, vergleichbar<br />
mit den meisten Musterklassifikationsaufgaben, wie die Erkennung<br />
von Zeichen, oder Bildern.<br />
9.1 Klassifikatoren<br />
Klassifikatoren lassen sich in verschiedene Gruppen aufteilen. Eine mögliche<br />
Aufteilung ist die in deterministische und stochastische Klassifikatoren. Deterministische<br />
Klassifikatoren basieren auf Regeln, die fest vorgegeben sind<br />
und bestimmen genau eine Klasse zu der das Muster gehört. Stochastische<br />
Klassifikatoren bedienen sich der Wahrscheinlichkeitstheorie, und bestimmen<br />
für ein Muster x die A-Posteriori-Wahrscheinlichkeit p(C|x) dafür, daß x zur<br />
Klasse C gehört. Eine Klassifikation wird dann so durchgeführt, daß x der<br />
Klasse C ∗ mit<br />
C ∗ = argmaxp(C|x)<br />
(9.1)<br />
C<br />
zugeordnet wird.<br />
9.1.1 Deterministische und stochastische Klassifikatoren<br />
Der Begriff Determinismus hat in diesem Zusammenhang nichts damit zu<br />
tun, daß die Ausgabe eines Algorithmus nicht vorherbestimmt ist. Mit<br />
deterministischen Klassifikatoren sind nicht diejenigen gemeint, die das<br />
Gegenstück zu den indeterministischen sind (letztere werden hier sowieso<br />
nicht betrachtet), sondern die das Gegenstück zu den stochastischen Klassifikatoren<br />
bilden. Stochastische Klassifikatoren sind solche, die auf den Einsatz<br />
von Verfahren aus der Wahrscheinlichkeitstheorie und Stochastik beruhen.<br />
Deterministische Klassifikatoren kommen in der Regel nur für sehr einfache<br />
Aufgaben in Betracht, bei denen einige Eigenschaften über die Klassen
128 9. Klassifikation und Mustererkennung<br />
bekannt sind, deren korrekte Erkennung sofort mit absoluter Sicherheit auf<br />
die dazugehörige Klasse schließen läßt. Die allermeisten Mustererkennungsaufgaben<br />
sind aber so gestaltet, daß derartige Eigenschaften entweder nicht<br />
bekannt sind, nicht ausreichend exakt definiert werden können oder nicht<br />
ausreichend sicher erkannt werden können.<br />
Für die Erkennung von Sprache gelten alle drei Einschränkungen, für<br />
viele Laute können wir weder genau beschreiben, was diese Laute ausmacht,<br />
noch könnten wir diese Eigenschaften in einem Sprachsignal mit hinreichender<br />
Genauigkeit detektieren. Daher werden wir uns hier auch nicht mit<br />
deterministischen Klassifikatoren befassen.<br />
Stochastische Klassifikatoren werden gerne in parametrische und nicht<br />
parametrische Schätzer unterteilt, je nachdem ob eine bestimmte parametrisierbare<br />
Annahme über die Verteilung der Stichprobendaten gemacht<br />
wird oder nicht. Beim Lernen der Schätzer anhand der Trainingsstichprobe<br />
wird außerdem unterschieden zwischen überwachtem und unüberwachtem<br />
Lernen. Im ersteren Fall wird zum Lernen die Klassenzugehörigkeit eines<br />
Stichprobenelements verwendet, im letzteren liegen diese Informationen<br />
nicht vor oder werden nicht benutzt.<br />
9.1.2 Parametrische und nichtparametrische Schätzer<br />
Nichtparametrische Schätzer kommen in der Spracherkennung selten zum<br />
Einsatz. Typische Beispiele für nichtparametrische Schätzer sind diskrete<br />
Wahrscheinlichkeitsfunktionen (meist dargestellt als Histogramme), die für<br />
jedes Ereignis aus einer diskreten Menge von Ereignissen durch Zählen der<br />
Häufigkeiten aller Ereignisse die relative Häufigkeit berechnet und damit<br />
die Wahrscheinlichkeit des Ereignisses schätzen. Für kontinuierliche Merkmalsräume<br />
können auf ähnliche Art Häufigkeiten für bestimmte Intervalle<br />
oder Teilräume berechnet werden. Mit der Parzen-Fenster Methode [?] [?]<br />
geht das sogar für unterschiedlich groß gewählte Teilräume in Abhängigkeit<br />
von der lokalen Belegungsdichte durch die Trainingsdaten.<br />
Bei stochastischen Klassifikatoren gibt es typischerweise eine Trainingsphase,<br />
in der die Parameter des Systems geschätzt werden und eine Testphase<br />
in der zuvor ungesehene Stichproben klassifiziert werden (s. Abb. 9.1).<br />
9.1.3 Überwachtes und unüberwachtes Lernen<br />
Beim Lernen von Klassifikatoren, egal ob parametrisch oder nicht parametrisch,<br />
kann man unterscheiden zwischen überwachtem und unüberwachtem
Transkript<br />
A/D<br />
Converter<br />
Parameterschätzung<br />
Parameter<br />
Signal-<br />
Verarbeitung<br />
Klassifikator<br />
Hypothese<br />
9.1 Klassifikatoren 129<br />
Trainining<br />
Klassifikation<br />
Abb. 9.1. Arbeitsweise eines stochastischen parametrischen Klassifikators<br />
Lernen. Beim überwachten Lernen ist für jedes Muster bekannt, zu welcher<br />
Klasse es gehört. Beim unüberwachten Lernen ist dies nicht der Fall. Oft<br />
ist es sogar so, daß nicht einmal bekannt ist, wieviele und welche Klassen es<br />
überhaupt gibt. In der Spracherkennung kommen beide Varianten des Lernens<br />
vor. Das unüberwachte Lernen findet zum Beispiel Verwendung beim<br />
Erzeugen von Codebüchern mit dem k-Mittelwerte Verfahren. Überwachtes<br />
Lernen wird allerdings viel häufiger verwendet.<br />
9.1.4 Neuronale Netze als Klassifikatoren<br />
Für die meisten interessanten Klassifikationsaufgaben ist es kaum sinnvoll<br />
möglich, deterministische Klassifikatoren zu definieren. Eine naheliegende<br />
Idee besteht darin, die Regeln des Klassifikators ” zu lernen“. Für einfache<br />
lineare Klassifikationsaufgaben wurde schon früh eine einfache Variante eines<br />
neuronalen Netzes eingesetzt, das sogenannte Perzeptron.<br />
Neuronale Netze werden zur Lösung von Klassifikationsaufgaben auch<br />
außerhalb des Gebiets der automatischen Spracherkennung eingesetzt. Immer<br />
dann, wenn anzunehmen ist, daß die optimalen Trennflächen zwischen<br />
den zu unterscheidenden Klassen im oft hochdimensionalen Merkmalsraum<br />
nichtlinear sind, bietet sich der Einsatz etwas komplexerer neuronaler Netze<br />
an, z.B. sogenannte mehrschichtige Perzeptronen (Multi Layer Perceptrons<br />
- MLPs).<br />
Die Verwendung neuronaler Netze in der Spracherkennung wird in Kap.<br />
22 ausführlich behandelt.<br />
9.1.5 Vektor Quantisierung<br />
In der Regel sind die zu klassifizierenden Muster Punkte aus einem mehrdimensionalen<br />
prinzipiell unendlichen Vektorraum, typischerweise R n . In
130 9. Klassifikation und Mustererkennung<br />
vielerlei Hinsicht wäre es leichter mit Indizes von Mustern zu arbeiten. Dann<br />
könnten viele Funktionen auf den Mustern in Form einer Tabelle implementiert<br />
werden. Aus komplizierten Dichtefunktionen, die nur parametrisch<br />
geschätzt werden können, würden nichtparametrisch schätzbare diskrete<br />
Wahrscheinlichkeitsverteilungen. Daher werden gerade für Systeme mit<br />
kleiner Rechenleistung wie zum Beispiel Mobiltelefone gerne einfache Indizes<br />
statt hochdimensionaler reellwertiger Vektoren verwendet. Die Gewinnung<br />
der Indizes erfolgt mittels einer Vektor Quantisierung.<br />
Abstandsmaße<br />
Die übliche Art der Vektor Quantisierung ist der Vergleich des zu quantisierenden<br />
Vektors X mit zuvor abgespeicherten Referenzvektoren µ1 . . .µk.<br />
Als Index I(X) des Vektors X wird dann der Index des ihm am nächsten<br />
liegenden Referenzvektors verwendet, also:<br />
I(X) = argmind(X,<br />
µi) (9.2)<br />
i<br />
Das am häufigsten verwendete Distanzmaß d(·) ist die euklidische<br />
Distanz. Für einige bestimmte Fälle kann auch eine andere Distanz, z.B.<br />
City-Block sinnvoll sein.<br />
Manchmal werden nicht Distanzen zu einzelnen Referenzvektoren<br />
berechnet, sondern gleich zu alle gegebenen k Klassen C1 . . .Ck. Hier<br />
ist es üblich, als Distanz d(X, C) den Abstand von X zum Mittelwert<br />
der Klasse C, also den durchschnittlichen Abstand zu allen bekannten<br />
Elementen der Klasse C, zu verwenden. Auch hier gilt, daß je nach Problem<br />
auch andere Distanzmaße sinnvoll sein können, zum Beispiel der kleinste<br />
oder auch der größte Abstand d(X, µ) zu allen bekannten Elementen µ von C.<br />
Klassifikation mit Vektor Quantisierung<br />
Im Rahmen der Vektorquantisierung ist es ein Ziel, die Abbildung Mustervektor<br />
→ Referenzvektor so zu gestalten, daß die Abweichung möglichst<br />
klein ist. Denn wo immer ein Referenzvektor an der Stelle des eigentlichen<br />
Mustervektors verwendet wird, macht das System Fehler, so genannte<br />
Quantisierungsfehler.<br />
Es ist also sinnvoll, die Quantisierung so zu gestalten, daß möglichst<br />
kleine Quantisierungsfehler vorkommen. Die einfachste naheliegende Lösung,<br />
eine Unterteilung des Merkmalsraums in gleich große, äquidistante Teilräume<br />
wie in Abb. 9.2 ist für die meisten Anwendungen, in denen zu erwarten<br />
ist, daß die Mustervektoren nicht gleichverteilt im Raum liegen, nicht<br />
praktikabel. Die Referenzvektoren 1,4,5,6,7,11 und 12 in Abb. 9.2 haben<br />
gar keine Beispiele während die anderen Referenzvektoren jeweils mehrere
1 2 3 4 5<br />
6 7 8 9 10<br />
11 12 13 14 15<br />
Abb. 9.2. Nachteile äquidistanter Merkmalsraumunterteilung<br />
Beispiele repräsentieren müssen.<br />
9.1 Klassifikatoren 131<br />
Verwendet man die häufigste Klassifikationsmethode mittels Vektorquantisierung,<br />
den Index des Referenzvektors mit kleinstem euklidischen Abstand,<br />
so ergibt sich eine Unterteilung des Merkmalsraum in so genannte Voronoi-<br />
Regionen. Positioniert man mehrere Referenzvektoren in einem Raum, so<br />
umschließt die Voronoi-Region eines Vektors alle Punkte des Raumes, die<br />
näher an diesem als an allen anderen Referenzvektoren liegen. Es ist leicht<br />
einzusehen, daß jede Voronoi-Region konvex sein muß.<br />
Abb. 9.3. Nachteil der Nächste-Nachbar-Klassifikation<br />
Abb. 9.3 illustriert, daß der mit × markierte Punkt zu einem Referenzvektor<br />
auf der rechten Hälfte des Merkmalsraumes zugeordnet würde.<br />
Ein menschlicher Beobachter würde diese Zuordnung allerdings als eher<br />
unwahrscheinlich ansehen, weil alle Punkte der rechten Hälfte einen sehr<br />
kleinen Teilraum einnehmen, in den der mit × markierte nicht hineinfällt.
132 9. Klassifikation und Mustererkennung<br />
Würde man auf diese Art zwei verschiedene Phänomene modellieren, so<br />
würden durch eine einfache Nächste-Nachbar-Schätzung die Punkte in der<br />
grau unterlegten Fläche mit großer Wahrscheinlichkeit falsch klassifiziert<br />
werden.<br />
Abb. 9.4. Klassifikator mit Mahalanobis-Distanzen<br />
Eine Lösung dieses Problems bietet die Verwendung von Mahalanobis-<br />
Distanzen statt euklidischer Distanzen:<br />
d(µ, x) = (x − µ) ⊤ Σ −1 (x − µ) (9.3)<br />
Hierbei ist die Distanz eines Musters x zu einem Klassenrepräsentanten µ<br />
zusätzlich durch die Kovarianzmatrix Σ beeinflußt. Wenn Σ die Einheitsmatrix<br />
ist, so ist die Mahalanobis-Distanz gleich dem Quadrat der euklidischen<br />
Distanz. Mahalanobis-Distanzen sind allerdings wesentlich aufwendiger zu<br />
berechnen, und benötigen darüber hinaus noch die Schätzung von Σ aus<br />
allen Beispielvektoren, die zu der Klasse gehören. Abb. 9.4 illustriert, die<br />
Mahalanobis-Distanzen für zwei Repräsentanten, von denen der linke mehr<br />
und der rechte weniger streut. Die Höhe des Gitters gibt für jeden Punkt<br />
des Merkmalsraums die Summe der Mahalanobis-Distanzen zu den beiden<br />
Repräsentanten an. Die konzentrischen Ellipsen sind jeweils Punkte mit<br />
gleicher Mahalanobis-Distanz zu einem der Repräsentanten. Der mit dem<br />
Pfeil markierte Punkt würde – obwohl näher am rechten Repräsentanten –<br />
zur linken Klasse zugeordnet werden.<br />
k-Nächste-Nachbarn<br />
Ein typischer Fehler, den einfache Nächster-Nachbar-Klassifikatoren machen,<br />
ist das Nichterkennen eines Ausreißers in den Referenzdaten. Liegt ein
9.1 Klassifikatoren 133<br />
Beispiel aus Klasse C1 mitten unter vielen Beispielen für C2, dann definiert<br />
es einen Teil des Merkmalsraum fälschlicherweise als zur Klasse C1 gehörend.<br />
Solche Fehlklassifikationen lassen sich leicht vermeiden, wenn man statt des<br />
einen nächsten Nachbarn die k nächsten Nachbarn betrachtet.<br />
Abb. 9.5. k-nächste-Nachbar-Klassifikation<br />
nächster Nachbar<br />
Klasse<br />
6 nächste Nachbarn<br />
Klasse<br />
Abb. 9.5 illustriert, wie der nächste Nachbar des als Kreuz markierten<br />
Testpunktes zur Klasse der Dreiecke gehört. Erweitert man aber den<br />
Umgebungskreis, so daß die nächsten 6 Nachbarn darin liegen, dann ist die<br />
darunter am häufigsten vertretene Klasse die Klasse der Kreise. Was für ein<br />
Wert für k sinnvoll ist, hängt von der Menge der Klassen und der Dichtheit<br />
der Referenzmuster im Merkmalsraum ab.<br />
Baumstrukturen<br />
Teilt man den Merkmalsraum hierarchisch in Unterräume auf, so kann<br />
diese Hierarchie als Baum dargestellt werden, dessen Blätter dann Teilräumen<br />
entsprechen die jeweils durch einen Referenzvektor repräsentiert werden.<br />
So eine Hierarchie kann sinnvollerweise durch Trennhyperebenen entwickelt<br />
werden, die jeweils orthogonal zu einer Koordinatenachse liegen.<br />
Der Aufbau der Baumstruktur [?] [?] erfolgt am besten durch Aufteilung<br />
des Raums entlang der Achse der größten Ausdehnung (s. Abb 9.6). Ohne<br />
weiteres Wissen, ist die Annahme, daß wenn die Daten überhaupt irgendwie<br />
multimodal verteilt sind, daß dies dann am wahrscheinlichsten an den Enden<br />
der Achse mit größter Varianz ist.
134 9. Klassifikation und Mustererkennung<br />
3.<br />
2.<br />
3.<br />
A B<br />
1. 1.<br />
1.<br />
3.<br />
2.<br />
C<br />
3.<br />
D<br />
3.<br />
Abb. 9.6. Merkmalsraum als hierarchische Baumstruktur<br />
9.1.6 Codebücher<br />
2.<br />
3.<br />
Eine Sammlung von Referenzvektoren wird Codebuch genannt. Verschiedene<br />
Verfahren zur Erzeugung von Codebüchern sind üblich. Hier werden einige<br />
davon vorgestellt.<br />
k-Mittelwerte / Neural Gas<br />
Das k-Mittelwerte Verfahren wird oft auch Linde-Buzo-Gray-Algorithmus<br />
(LBG-Algorithmus) oder auch Basic Isodata Algorithmus genannt. Er läuft<br />
wie folgt ab:<br />
Geben seien T Beispielvektoren v1, v2, . . . vT sowie der Wert k, der angibt,<br />
aus wie vielen Referenzvektoren das Codebuch bestehen soll.<br />
1. initialisiere k beliebige Mittelwerte µ1, µ2, . . .µk<br />
(z.B. µi = vi)<br />
2. ordne jedem Vekor vi den Repräsentanten µ f(i)<br />
zu, zu dessen Klasse vi gehört<br />
3. ersetze jeden Mittelwert µi durch den Durchschnitt<br />
aller ihm zugeordneter Beispielvektoren<br />
4. solange mit dem Ergebnis nicht zufrieden, fahre<br />
mit Schritt 2 fort<br />
Typische Abbruchbedingungen sind z.B. eine vorgegebene Zahl an<br />
Iterationen, meist ein auf Erfahrung basierender Wert. Möglich ist es auch,<br />
2.<br />
3.<br />
1.<br />
2.<br />
2.<br />
3.
9.1 Klassifikatoren 135<br />
den durchschnittlichen (oder ggf. maximalen) Abstand aller Beispielvektoren<br />
zu ihrem Referenzvektor zu betrachten, und die Schleife dann abzubrechen,<br />
wenn dieser Abstand unter einen festgelegten Wert fällt, oder wenn der<br />
durchschnittliche Abstand sich nicht mehr oder kaum noch ändert.<br />
Prinzipiell kann die Zuordnung f(i) der Beispiele zu Referenzen auch<br />
überwacht erfolgen, allerdings würden sich im Falle des überwachten Lernens<br />
eher andere Verfahren anbieten. Der k-Mittelwerte Algorithmus ist vielmehr<br />
das Standardverfahren für unüberwachtes Lernen. Dann wird in der Regel<br />
f(i) = argmin j |µj − vi| gewählt, als der zu vi nächste Referenzvektor.<br />
Eine Verallgemeinerung des LBG-Algorithmus ist das so genannte Neural<br />
Gas. Dabei wird keine harte“ Zuordnung f(i) getroffen, sondern eine ver-<br />
”<br />
teilte Zuordnung f(i, j) mit k j=1 f(i, j) = 1. Dann wird der Schritt 3 des<br />
LBG-Algorithmus dahingehend modifiziert, daß jeder Mittelwert durch den<br />
gewichteten Durchschnitt aller Beispielvektoren ersetzt wird, also<br />
µ ′ j =<br />
<br />
i<br />
1 <br />
· (f(i, j) · vi) (9.4)<br />
f(i, j)<br />
Experiment 9.1: k-Mittelwerte<br />
i<br />
Starten Sie das Applet k-Means. Am oberen Rand sehen Sie verschiedene<br />
Schaltflächen. Neben der Anzeige für den Wert der Variablen k befinden sich<br />
Schalter zum Verändern derselben. Stellen Sie k auf den Wert 3 ein.<br />
Klicken Sie nun beliebig viele Punkte in die freie Fläche. Wenn sie danach<br />
auf Init drücken, werden die k = 3 zuerst eingegebenen Punkte mit drei<br />
verschiedenfarbigen Symbolen (initiale Mittelwerte) markiert. Jeder andere<br />
eingegebene Punkt erscheint in einer der drei Farben, je nachdem welcher<br />
der Mittewerte ihm am nächsten ist.<br />
Am oberen Rand sehen Sie den Wert der Streuung (korrekter gesagt, den<br />
durchschnittlichen euklidischen Abstand aller Punkte zu ihren jeweiligen<br />
Referenzmittelwerten) Eingeblendet. Betätigen Sie die Schaltfläche Step<br />
und beobachten Sie, wie die Mittelwertemarkierungen sich bewegen und die<br />
Streuung abnimmt. Die einzelnen Stichprobenpunkte ändern nun durch die<br />
neue Position der Mittelwerte gegebenenfalls ihre Farbe.<br />
Nach endlich vielen Schritten wird die Streuung nicht mehr weiter sinken<br />
und die Mittelwerte ändern ihre Position nicht mehr. Ebenso bleiben die<br />
Zuordnungen der Stichprobenpunkte zu den Mittelwerten konstant.
136 9. Klassifikation und Mustererkennung<br />
Durch Klicken auf Reset können Sie Eingabefläche wieder löschen und ein<br />
neues Problem eingeben. Versuchen Sie für verschiedene Werte von k Punkte<br />
so einzugeben, daß möglichst viele Iterationen durchlaufen werden können,<br />
bis ein Optimum erreicht wird.<br />
Der Begriff ” neural gas“ ist angelehnt an die Vorstellung eines<br />
abkühlenden Gases. Der Grad an Streuung der Zuordnung variiert dabei<br />
wie bei allen Simulated-Annealing-Algorithmen von anfangs sehr stark<br />
(f(i, j) = 1/k ∀i, j) bis schließlich die Zuordnung eindeutig (f(i, j) = 1 für<br />
ein bestimmtes j und 0 für alle anderen) wie beim reinen LBG-Algorithmus<br />
ausfällt.<br />
Bleibt noch zu klären, wie ein sinnvoller Wert für k bestimmt werden<br />
kann. Es wurden Ansätze verfolgt, die Größe eines Codebuchs automatisch<br />
zu bestimmen [?]. Dabei wird im Wesentlichen für verschiedene Werte von<br />
k ein Neural-Gas- oder ein k-Mittelwerte-Algorithmus berechnet und die<br />
durchschnittliche Streuung auf einer zuvor aus den Trainingsdaten entfernten<br />
Teilmenge (Kreuzvalidierungsmenge) bestimmt. Ab einem bestimmten k<br />
ist zu erwarten, daß die Streuung auf den Kreuzvaldierungsdaten nicht<br />
mehr genauso schnell absinkt wie auf den Trainingsdaten. Dies ist dann ein<br />
sinnvoller Wert für k. Experimente in [?] haben die Erwartung bestätigt,<br />
daß Klassen, die von vorn herein eher uniform beziehungsweise unimodal<br />
erscheinen wie zum Beispiel die Klasse der Beispielspektren für Stillelaute,<br />
auch mit wesentlich weniger Referenzen auskommen als eher Komplexe<br />
Klassen wie die Spektren von Diphthongen.<br />
In der Praxis hat sich allerdings herausgestellt, daß der Gewinn an<br />
fein dosierter Modellierungsgenauigkeit oft durch die sich ergebenden<br />
numerischen Probleme wieder aufgehoben werden. Der Vergleich von multivariaten<br />
Gauß-Mischverteilungen mit stark unterschiedlichen Größen von<br />
Mixturen benötigt nachträgliche Korrekturparameter (so genannte fudge<br />
factors). Die Erkennungsraten von Spracherkennern mit so automatisch<br />
bestimmten Codebuchgrößen waren nicht signifikant besser als diejenigen<br />
von Erkennern mit im voraus auf konstante Größe festgelegten Codebüchern.<br />
In der Tat gehört zu den am häufigsten angewandten Methoden der<br />
Codebuchgrößenbestimmung die auf Erfahrung basierte Schätzung. In diese<br />
Schätzung fließen vor allem die Menge der Trainingsdaten und der maximale<br />
erlaubte Aufwand für die Erkennung ein. Je mehr Trainingsdaten zur<br />
Verfügung stehen und je weniger Anforderungen and die Echtzeitfähigkeit<br />
des Klassifikators gestellt werden, umso größer können die Codebücher<br />
gewählt werden.
9.1 Klassifikatoren 137<br />
Eine weitere Möglichkeit ist das Erzeugen von Codebüchern durch<br />
” Wachsenlassen“. Dabei besteht das initiale Codebuch aus nur einem Refe-<br />
renzvektor. In Abb. 9.7 ist das einelementige Codebuch links als Gausglocke<br />
(s.u.) über allen Trainingsmustern dargestellt. Der Algorithmus zum Wachsenlassen<br />
der Codebücher [?] prüft nun iterativ welche Referenzvektoren<br />
aus so vielen Daten gemittelt werden, daß diese Daten womöglich bimodal<br />
verteilt sind und es sinnvoller wäre, sie mit zwei Referenzvektoren N1 und<br />
N2 zu modellieren, die jeweils auf den Daten X1 und X2 geschätzt werden.<br />
Das Wachstum der Codebücher kann abgebrochen werden, wenn sonst nicht<br />
mehr ausreichend Trainingsdaten zum schätzen der einzelnen Mittelwerte<br />
vorhanden wären.<br />
N1<br />
Abb. 9.7. Auftrennen einer Gauß-Verteilung in zwei<br />
Das Bucket Voronoi Intersection Verfahren<br />
Bei sehr großen Codebüchern (manche Spracherkenner haben mehrere Millionen<br />
Referenzvektoren) muß natürlich die ständig vorkommende Berechnung<br />
der Distanzen möglichst zeitsparend durchgeführt werden. Dazu bieten<br />
sich zwei Strategien an: einmal eine effiziente Berechnung der Distanzen<br />
selbst, und zum anderen die Einsparung von unnötigen Distanzberechnungen.<br />
Wenn es darum geht, nur den nächsten Referenzvektor zu finden, dann<br />
ist es möglich, die euklidische Distanzberechnung abzubrechen, wenn die<br />
nach j Dimensionen akkumulierte Teildistanz größer ist, als die bis dahin gefundenen<br />
kleinste Gesamtdistanz. Sortiert man die Dimensionen absteigend<br />
nach ihrer Varianz, dann kann man so zusätzlich die Wahrscheinlichkeit<br />
dafür maximieren, daß ein Abbruch der Distanzberechung vorgenommen<br />
werden kann. Die Praxis hat gezeigt, daß man für Sprachdaten, und da<br />
insbesondere für ca. 16-dimensionale Spektral- oder Cepstral-Vektoren,<br />
durch den Abbruch der Distanzberechnungen nur wenig Zeit einsparen kann.<br />
Immerhin führt man durch die jetzt benötigten Vergleiche der Teildistanzen<br />
mit der minimalen Gesamtdistanz einen zusätzlichen Aufwand ein. Diesen<br />
kann man zwar wiederum reduzieren, indem man den Vergleich nicht nach<br />
X1<br />
N2<br />
X2
138 9. Klassifikation und Mustererkennung<br />
jeder Dimension, sondern nur nach jeder zweiten oder dritten durchführt,<br />
aber ein Zeitgewinn von mehr als etwa 10% bis 20% ist nur selten möglich.<br />
Viel mehr Zeit kann eingespart werden, wenn man die Zahl der in Betracht<br />
zu ziehenden Referenzvektoren deutlich reduziert. Das im allgemeinen<br />
hierfür geeignetste Verfahren ist das Bucket Voronoi Intersection Verfahren,<br />
ursprünglich eingeführt in [?], später für die Spracherkennung eingesetzt in<br />
[?]. Die Idee hierbei ist es, den Merkmalsraum hierarchisch zu unterteilen,<br />
zum Beispiel zu halbieren und so die in Frage kommenden Referenzvektoren<br />
im Idealfall mit n Merkmalsraumunterteilungen auf nur noch O(log n) Stück<br />
zu reduzieren.<br />
Wählt man als Unterteilung des Merkmalsraums eine einfache zu einer<br />
Koordinatenachse xj senkrechte Hyperebene H : xj = t, dann genügt es,<br />
einen einzigen Vergleich (vi < t) zweier reeller Zahlen durchzuführen, um<br />
zu entscheiden, auf welcher Seite der Hyperebene ein zu klassifizierender<br />
Testvektor V = (v1, . . . vd) liegt. Allerdings ist es jetzt nicht korrekt, für<br />
den Rest der Nächste-Nachbar-Suche nur noch diejenigen Referenzvektoren<br />
zu betrachten, die auf der selben Seite der Hyperebene liegen wie der<br />
Testvektor. Statt dessen müssen zusätzlich alle Referenzvektoren, deren<br />
Voronoi-Regionen auch nur zum Teil auf der Seite des Testvektors liegen,<br />
auch betrachtet werden. Glücklicherweise ist das Feststellen, ob die Voronoi-<br />
Region eine Hyperebene schneidet, relativ schnell (in logarithmischer Zeit<br />
bezüglich der Anzahl der Referenzvektoren) machbar.<br />
Der Bucket Voronoi Intersection Algorithmus ist in Abb. 9.8 illustriert.<br />
Im vorliegenden Beispiel wird der Merkmalsraum zuoberst von der Trennhyperebene<br />
A zerteilt, die linke ” Hälfte“ wird durch B und die rechte<br />
durch C abermals unterteilt. Um einen möglichst nahe am Logarithmus<br />
liegenden Unterteilungsfaktor zu erreichen, ist es sinnvoll, im voraus diese<br />
Trennhyperbenen so zu wählen, daß möglichst wenige Voronoi-Regionen<br />
durch sie zerschnitten werden. Auch wenn diese Prüfung etwas Zeit kostet,<br />
so ist dies nicht weiter problematisch, denn es genügt, dies für jede Ebene<br />
ein einziges Mal zu machen. Dies kann ” im voraus“ berechnet werden,<br />
und kostet während der Klassifikation keine Zeit mehr. So entsteht also<br />
eine komplette Baumstruktur. Jeder Baumknoten repräsentiert eine<br />
Trenhyperebene, und die Klassifikation, beziehungsweise das Finden des<br />
nächsten Referenzvektors, besteht aus den Abstieg in diesem Baum, wobei<br />
jeder Abstiegsschritt jeweils nur ein einziger reellwertiger Vergleich ist. Der<br />
Idealfall, daß keine Voronoi-Region durch eine Hyperebene zerschnitten wird<br />
kommt im allgemeinen so gut wie nie vor. In der Praxis ist es sogar so, daß<br />
es bei sehr hochdimensionalen Räumen völlig impraktikabel ist, den Baum<br />
so tief durchzusuchen, bis für jedes Blatt nur noch ein Referenzvektor übrig<br />
bleibt. Daher beendet man die Konstruktion des Baumes nach einer zuvor
B<br />
A<br />
A<br />
B C<br />
Abb. 9.8. Das Bucket-Voronoi-Intersection Verfahren<br />
9.1 Klassifikatoren 139<br />
C
140 9. Klassifikation und Mustererkennung<br />
festgelegten Tiefe und ist damit zufrieden, daß in jedem Baumblatt dann<br />
noch einige wenige Referenzvektoren aufgelistet sind, zu denen es dann gilt,<br />
Distanzen zu berechnen.<br />
In [?] [?] konnte mit Hilfe des Bucket-Voronoi-Intersection Verfahrens<br />
eine Reduktion des Aufwandes zum Finden des nächsten Referenzvektors<br />
um 50% bis 80% erreicht werden. In [?] wird eine Erweiterung<br />
des Verfahrens von der einfachen Nächste-Nachbar-Suche auf die approximative<br />
Auswertung von Gauß-Mischverteilungen (s. Abs. 9.1.8) vorgestellt.<br />
9.1.7 Bayes Klassifikator<br />
Die zentrale Idee hinter dem Bayes Klassifikator besteht darin, daß für jede<br />
Klasse C ein Modell definiert wird, das die klassenbedingten Wahrscheinlichkeiten<br />
P(x|C) berechnet. Die Bayes Regel besagt nun:<br />
P(C|x) =<br />
P(x|C) · P(C)<br />
P(x)<br />
Entsprechend 9.1 wird nun x der Klasse C ∗ zugeordnet mit<br />
C ∗ = argmaxP(C|x)<br />
C<br />
(9.5)<br />
P(x|C) · P(C)<br />
= argmax<br />
C P(x)<br />
= argmaxP(x|C)<br />
· P(C) (9.6)<br />
C<br />
Ein Bayes-Klassifikator kann also die A-Priori-Verteilung der Merkmale<br />
ignorieren und arbeitet wie in Abb. 9.9 dargestellt.<br />
9.1.8 Gaußklassifikatoren<br />
Viele natürliche Zufallsprozesse produzieren normalverteilte Beobachtungen.<br />
Normalverteilungen werden auch Gauß-Verteilungen genannt, sie haben einige<br />
angenehme mathematische Eigenschaften, weshalb sie gerne als Standard<br />
Modelle verwendet werden, wenn kein Wissen über die tatsächliche Verteilung<br />
der zu modellierenden Daten vorhanden ist. Wenn eine einzelne Zufallsvariable<br />
x normalverteilt ist, dann läßt sich die Wahrscheinlichkeitsdichte für ihre<br />
Beobachtung angeben als:<br />
p(x) =<br />
1<br />
√<br />
2πσ2 e−1<br />
(x − µ)<br />
2<br />
2<br />
σ2 (9.7)
K1<br />
p(x|2)<br />
x<br />
K2<br />
max<br />
p(2)<br />
.<br />
p(x|n)<br />
Kn<br />
p(x|1)<br />
p(2)<br />
p(n)<br />
Abb. 9.9. Funktionsweise eines Bayes-Klassifikators<br />
t=1<br />
9.1 Klassifikatoren 141<br />
argmax i p(C|x)<br />
wobei µ der Erwartungswert (das erste Moment) der Verteilung ist, und<br />
σ2 die Varianz (das zweite Moment, definiert mit Hilfe des Erwartungswertes<br />
gemäß σ2 = E(x2 ) − E 2 (x)). Wenn Zum Schätzen dieser Parameter die Trainingsmuster<br />
x1, x2, . . . xT verwendet werden, so ergibt sich als bester Schätzwert<br />
ˆµ = 1<br />
⊤<br />
xt und ˆσ<br />
n<br />
2 = 1<br />
⊤<br />
(xt − ˆµ)<br />
n<br />
2<br />
(9.8)<br />
Da in der Praxis das Gesetz der großen Zahl so gut wie niemals dazu<br />
führt, daß die geschätzten Parameter (Mittelwert) den Verteilungseigenschaften<br />
(Erwartungswert) exakt gleichen, und da diese Unterscheidung<br />
auch nur von theoretischer Bedeutung ist, werden sie im folgenden auch<br />
nicht mehr unterschieden, und wir schreiben einfach µ unabhängig davon,<br />
ob µ oder ˆµ gemeint ist.<br />
Sehr viele Klassifikationsaufgaben, und dazu gehört insbesondere die<br />
Spracherkennung, haben hochdimensionale Merkmalsräume. Mehrdimensionale<br />
Normalverteilungen werden auch multivariate Normalverteilungen genannt.<br />
In diesem Fall besteht eine Beobachtung aus einem d-dimensionalen<br />
Spaltenvektor xi = (xi1, xi2, . . .xid) ⊤ , und die Verteilung berechnet sich als:<br />
p(x) =<br />
t=1<br />
1<br />
e<br />
(2π) d |Σ| −1<br />
2 (x − µ)⊤Σ −1 (x − µ)<br />
(9.9)<br />
wobei µ hier der d-dimensionale Mittelwertsvektor und Σ die Kovarianzmatrix<br />
ist und geschätzt wird gemäß:<br />
µ = 1<br />
n<br />
⊤<br />
t=1<br />
xt und Σ = 1<br />
n<br />
⊤<br />
(xt − µ) · (xt − µ) ⊤ (9.10)<br />
t=1
142 9. Klassifikation und Mustererkennung<br />
Experiment 9.2: Multivariate Normalverteilungen<br />
Starten Sie das Applet ” One Gaussian“. Auf der Oberfläche sehen Sie<br />
die Darstellung einer zweidimensionalen Normalverteilung (Gaußglocke).<br />
Am oberen Rand können sie in den Eingabefeldern die Parameter dieser<br />
Verteilung eingeben.<br />
Verändern sie die x- und y-Koordinaten der Mittelwerte, und beobachten<br />
Sie, wie sich die Darstellung ändert.<br />
Durch ändern des Kovarianzwertes a können sie die Ausdehnung der Gaußglocke<br />
in x-Richtung ändern. Der Wert von d beeinflußt die Ausdehnung in<br />
y-Richtung.<br />
Beachten Sie, daß Sie nicht beliebige Werte eingeben können, da die<br />
Determinante der Kovarianzmatrix immer größer als 0 sein muß.<br />
Wenn die Ausdehnungen in x- und y-Richtung verschieden sind, dann kann<br />
die Gaußglocke durch ändern des Wertes c rotiert werden. Probieren Sie<br />
auch hier verschiedene Einstellungen aus.<br />
Gauß-Mischverteilungen<br />
Die in der Spracherkennung am häufigsten verwendeten parametrischen<br />
Schätzer sind Gauß-Mischverteilungen. Eine einzelne multivariate Gauß-<br />
Verteilung – auch Normalverteilung genannt – hat die Form:<br />
Nµ,Σ(x) =<br />
1<br />
e<br />
2πd |Σ| −1<br />
2 · (x − µ)TΣ −1 (x − µ)<br />
(9.11)<br />
Bei der Gauß-Mischverteilung wird die Wahrscheinlichkeit dafür, daß eine<br />
Beobachtung x zur Klasse j gehört, berechnet als gewichtete Summe mehrerer<br />
einzelner multivariater Gauß-Verteilungen:<br />
kj <br />
Nj(x) =<br />
i=1<br />
cji<br />
1<br />
<br />
2πd |Σji| e−12<br />
· (x − µji) T Σ −1<br />
ji (x − µji)<br />
(9.12)
9.1 Klassifikatoren 143<br />
Hierbei ist µji der Mittelwert der i-ten Gauß-Verteilung der Klasse j,<br />
Σji die Kovarianzmatrix der i-ten Gauß-Verteilung der Klasse j und kj die<br />
Anzahl der Gauß-Verteilungen mit Hilfe derer die Klasse j modelliert wird.<br />
Experiment 9.3: Gauß-Mischverteilungen<br />
Starten Sie das Applet ” Gaussian Mixture“. Auf der Oberfläche sehen<br />
Sie die Darstellung einer zweidimensionalen Mischverteilung von vier<br />
Gaußglocken. Am oberen Rand können sie in den Eingabefeldern die Parameter<br />
der einzelnen Gauß-Verteilungen sowie die Mixturgewichte eingeben.<br />
Verändern sie zunächst die Mixturgewichte, und beobachten Sie, wie sich die<br />
Höhe einer einzelenen Gaußglocke ändert.<br />
Versuchen Sie durch Einstellen der passenden Parameter eine Mischverteilung<br />
zu erzeugen, die die Form des Buchstabens U hat.<br />
Es leuchten ein – und kann es auch beweisen – daß jede sinnvolle Verteilung<br />
durch die gewichtete Summer einer ausreichend großen Zahl einzelner<br />
Gauß-Verteilungen beliebig genau angenähert werden kann. Wenn also<br />
Gauß-Mischverteilungen verwendet werden, dann kann davon ausgegangen<br />
werden, daß das Modell auf jeden Fall ausreichend mächtig gestaltet werden<br />
kann. Allerdings erweist es sich in der Praxis, daß kaum jemals genügend<br />
Trainingsdaten vorliegen, um eine große Mischverteilung gut zu schätzen.<br />
Laplace-Mischverteilungen<br />
Manche Erkenner (zum Beispiel [?]) verwenden statt Gauß-Mischverteilungen<br />
die numerisch etwas einfacheren Laplace-Mischverteilungen, bei denen die<br />
rechenaufwendigen Exponentiationen entfallen.<br />
kj <br />
Lj(x) =<br />
i=1<br />
cji<br />
1<br />
d<br />
k=1 2λijk<br />
−<br />
· e<br />
d |xk − µijk|<br />
k=1<br />
λijk<br />
(9.13)<br />
Statt einer Kovarianzmatrix werden hier Werte λijk zur Modellierung<br />
der Streuung der Muster der j-ten Laplace-Verteilung des i-ten Modells<br />
in der k-ten Dimension des Merkmalsraumes verwendet. Hierbei wird<br />
eine Unabhängigkeit (nur Varianzen, keine Kovarianzen) der einzelnen<br />
Dimensionen angenommen. Da man auch mit ausreichend vielen Laplace-<br />
Verteilungen eine beliebge reale Verteilung annähern kann, unterscheiden
144 9. Klassifikation und Mustererkennung<br />
sich die beiden Ansätze Gauß- und Laplace-Verteilungen qualitativ kaum.<br />
Wenn im logarithmischen Bereich gerechnet wird, und der Logarithmus<br />
des von der Beobachtung unabhängigen Vorfaktors 1/ (2π) d |Σ| im voraus<br />
berechnet wird, dann besteht auch im Falle der Gauß-Mischverteilungen<br />
die Berechnung der Wahrscheinlichkeit lediglich aus Multiplikationen und<br />
Additionen.<br />
9.2 Der Expectation Maximization Algorithmus<br />
Für das Schätzen der Parameter einer Gauß-Mischverteilung mittels Maximum<br />
Likelihood ist keine analytische Lösung bekannt. Das Problem<br />
liegt darin, daß zwar für eine gegebene Zuordnung von Trainingsmustern<br />
zu Referenzvektoren für jeden Referenzvektor mittels üblicher Maximum-<br />
Likelohood Verfahren das globale Optimum für die Parameter der einzelnen<br />
Gauß-Verteilungen sowie die optimalen Mixturgewichte zu bestimmen<br />
sind. Bei unüberwachtem Lernen ist aber eine solche Zuordnung nicht<br />
gegeben. Statt dessen wird die Zuordnung automatisch berechnet, indem<br />
jeder Trainingsvektor zu jedem Referenzvektor proportional zum Anteil<br />
des Referenzvektorbeitrags zur Gesamtwahrscheinlichkeit zugeordnet wird.<br />
Diese hängt aber wiederum von den Gauß-Parametern ab.<br />
Da eine simultane Optimierung sowohl der Gauß-Parameter und der<br />
Trainingsdatenzuordnung nicht möglich ist, bietet sich ein iteratives Verfahren<br />
an, bei dem in jeder Iteration die eine Parametermenge in Abhängigkeit<br />
von der Einstellung der anderen Parametermenge der vorigen Iteration<br />
optimiert wird. Im Detail sieht dies aus wie folgt:<br />
Bezeichne γtk := E[xt ∈ k], den Erwartungswert dafür, daß der Beispielvektor<br />
xt ∈ R d (aus der Trainingsmenge x1, x2, . . . xT) zu Klasse k, also<br />
zum k-ten Referenzvektor gehört. Somit ist γtk die gewichtete Zuordnung des<br />
Beispielvektors xt zum k-ten Referenzvektor. Wenn µk der k-te Mittelwertsvektor<br />
ist, Σk die Kovarianzmatrix der k-ten Gauß-Verteilung ist und ck das<br />
entsprechende Mixturgewicht ist, dann werden diese Werte ersetzt durch:<br />
¯ck = 1<br />
T<br />
¯µk =<br />
¯Σk =<br />
⊤<br />
t=1<br />
1<br />
<br />
t γtk<br />
γtk<br />
1<br />
<br />
t γtk<br />
⊤<br />
t1<br />
γtkxt<br />
⊤<br />
γtk(xt − µk)(xt − µk) T<br />
t1<br />
(9.14)<br />
(9.15)<br />
(9.16)
Dabei wird γtk geschätzt als<br />
γtk = ck · Nk(xt)<br />
<br />
j cjNj(xt)<br />
9.3 Diskriminanzoptimierung 145<br />
(9.17)<br />
Dieser iterative Optimierungsalgorithmus wird Expectation Maximization<br />
Algorithmus (EM-Algorithmus) genannt.<br />
9.3 Diskriminanzoptimierung<br />
Allein schon bei der Betrachtung des unverarbeiteten Zeitsignals wird klar,<br />
daß es sehr viel Information enthält, die für die Unterscheidung verschiedener<br />
Laute nicht von Bedeutung sind. Bei vielen Klassifikationsaufgaben ist es<br />
daher sinnvoll, den verwendeten Merkmalsraum so zu transformieren, daß<br />
diejenigen Eigenschaften der Muster, die zur Diskriminierung verschiedener<br />
Klassen stärker beitragen können, auch stärker berücksichtigt werden. Im<br />
folgenden werden wir zwei Transformationen betrachten, die eine Optimierung<br />
der Diskriminanzeigenschaften des Merkmalsraums zum Ziel haben:<br />
Die einfache Hauptachsentransformation und die etwas aufwendigere lineare<br />
Diskriminanzanalyse (LDA), oft auch als Karhunen/Leuve Transformation<br />
bekannt.<br />
9.3.1 Hauptachsentransformation und Lineare<br />
Diskriminanzanalyse<br />
Die Hauptachsentransformation (HAT) wird oft auch Karhunen-Loeve-<br />
Transformation (KLT) oder im Englischen principal component analysis<br />
(PCA) genannt. Sie hat zum Zweck einen n-dimensionalen Merkmalsraum<br />
so in einen m < n-dimensionalen zu transformieren, daß der entstehende<br />
quadratische Fehler minimal wird. Unter günstigen Umständen (wie in Abb.<br />
9.10 mit n = 2, m = 1) können zwei Klassen nach der Transformation immer<br />
noch problemlos getrennt werden.<br />
Wie gut eine Klassentrennung (Diskriminanz) Diskriminanzanalyse<br />
möglich ist, spielt bei der Hauptachsentransformation keine Rolle. Sie<br />
berücksichtigt weder die Zahl der Klassen, noch deren einzelne Verteilungen.<br />
Die lineare Diskriminanzanalyse (LDA) beruht auf der Idee der Erweiterung<br />
der Hauptachsentransformation auf sehr viele Klassen [?]. Abb. 9.11 zeigt<br />
die (praktisch nicht erreichbare) Idealvorstellung einer LDA. Dabei wird<br />
eine lineare Transformation des Merkmalsraums gesucht, die – wenn auf alle<br />
Mustervektoren angewandt – dazu führt, daß die einzelnen Klassen einer
146 9. Klassifikation und Mustererkennung<br />
Abb. 9.10. Veranschaulichung der Hauptachsentransformation<br />
Klassifikationsaufgabe besser getrennt werden. Im nicht transformierten<br />
Raum (links) sind die Trennlinien viel schwerer zu lernen als im transformierten<br />
Raum (rechts).<br />
Allgemein läßt sich das Ziel einer LDA-Transformation wie folgt definieren:<br />
Seien k Klassen gegeben. Bezeichne µi denn Mittelwert aller Muster x (i)<br />
j ,<br />
die zur Klasse i gehören, und Wi die Streumatrix der Klasse i (within scatter).<br />
µ sei der Mittelwert aller Muster und T die Streumatrix aller Klassen (total<br />
scatter). Die durchschnittliche Streuung W sei der mit den Klassengrößen ni<br />
gewichtete Mittelwert aller Wi, also:<br />
Wi = 1<br />
ni <br />
ni<br />
j=1<br />
(x (i)<br />
j − µi) · (x (i) ⊤<br />
j − µi)<br />
k ni<br />
W =<br />
n<br />
i=1<br />
Wi,<br />
k<br />
mit n =<br />
i<br />
T = 1 <br />
N(xj − µ) · (xj − µ)<br />
n<br />
⊤<br />
j=1<br />
ni<br />
(9.18)<br />
(9.19)<br />
(9.20)<br />
Gesucht ist nun eine lineare Transformation A, die dazu führt, daß die<br />
Klassen möglichst weit voneinander weg liegen und jede Klasse möglichst<br />
kompakt ist, d.h. daß die Beispiele einer Klasse möglichst nahe beieinander<br />
liegen. Formal heißt das, wir suchen:<br />
Ā = argmax<br />
A<br />
|TA|<br />
|WA|<br />
= argmax<br />
A<br />
|TA · W −1<br />
A | (9.21)
9.3 Diskriminanzoptimierung 147<br />
wobei TA die Gesamtstreumatrix und WA die gemittelte Klassenstreumatrix<br />
nach Anwenden der Transformation A sind.<br />
Dieses Optimierungsproblem läßt sich mit Hilfe einer simultanen Diagonalisierung<br />
[?] lösen. Die gesuchte Matrix A ergibt sich demnach als die<br />
Matrix der Eigenvektoren von TW −1 , absteigend sortiert nach der Größe der<br />
dazugehörigen Eigenwerte:<br />
A = (φ1φ2 · · · φd) (9.22)<br />
wobei d die Dimensionalität des Merkmalsraums ist und φi der i-te Eigenvektor<br />
von TW −1 .<br />
Abb. 9.11. Idealvorstellung der Wirkung einer LDA-Transformation<br />
Nach dem Erfolg der linearen Diskriminanzanalyse in der Spracherkennung<br />
wurden einige Versuche unternommen, auch nichtlineare Varianten<br />
zu verwenden [?]. Während die analytische Optimierung der Parameter<br />
einer linearen Transformation noch zu bewerkstelligen ist, ist dies für<br />
beliebige Transformation in der Regel nicht möglich. Die naheliegende<br />
Vorgehensweise bei der Suche nach einer guten nichtlinearen Transformation<br />
ist die Verwendung von neuronalen Netzen. Man kann zeigen, daß die<br />
Transformation, die ein Perzeptron mit einer verborgenen Schicht, das<br />
als Klassifikator trainiert wird und eine lineare Übertragungsfunktion<br />
verwendet, genau eine Hauptachsentransformation lernt. Die Gewichte<br />
der verborgenen Schicht – betrachtet als Matrix – sind die Koeffizienten<br />
der HAT-Matrix. Nur das Ersetzen der linearen Übertragungsfunktion<br />
durch eine nichtlineare (z.B. Stufenfunktion oder Sinoid) ändert an der<br />
Qualität der Transformation nur wenig. Es ist aber möglich, die Optimierungsfunktion<br />
an die Diskriminanzfunktion der LDA (|T ·W −1 |) anzunähern.<br />
Das Verfahren der ” moving targets“ beginnt mit einem Neuronalen Netz,<br />
das eine Identitätsabbildung oder eine zufällige Abbildung durchführt. Die
148 9. Klassifikation und Mustererkennung<br />
zurückzupropagierenden Fehler werden erst dann auf Basis der Ausgabe des<br />
Netzes berechnet, indem die Bilder aller Elemente einer Klasse als in die<br />
Richtung des Mittelwerts der Klasse zu verschieben sind. Zusätzlich wird zum<br />
Fehlervektor ein Vielfaches des Vektors addiert, der den Klassenmittelwert<br />
vom Mittelwert aller Klassen entfernt. Wenn N(x) die Ausgabe des Netzes<br />
für den Vektor x ist, und C(x) die Klasse ist, zu der x gehört, dann berechnet<br />
sich der Fehler E(x) wie:<br />
E(x) = N(x) − αµW(x) − βµT<br />
(9.23)<br />
µW = 1/|C| <br />
N(y) (9.24)<br />
y∈C(x)<br />
µT = 1/n <br />
N(y) (9.25)<br />
y<br />
wobei n die Zahl aller Trainingsmuster ist.<br />
αµW<br />
βµT<br />
Abb. 9.12. Fehlerbestimmung bei der ” moving targets“ Methode<br />
In [?] konnte mit Hilfe der reinen analytischen LDA die Fehlerrate eines<br />
Diktiererkenners im kontextunabhängigen Fall von 24% auf 13% und um<br />
kontextabhängigen Fall von 13% auf 10% gesenkt werden. Die konnektionistische<br />
Variante konnte zwar die Erkennungsleistung nicht noch weiter<br />
steigern, jedoch die Optimierungsfunktion |TA|/|WA| besser optimieren. Die<br />
LDA gehört damit zu den Beiträgen, die die Qualität der Spracherkennung<br />
relativ stark verbessert haben. Allerdings sollte auch angemerkt werden, daß<br />
sich die Gewinne mit den Gewinnen anderer hilfreicher Algorithmen, wie<br />
Signaladaption (s. Kap. 21), Mittelwertssubtraktion, Vokaltraktlängennormierung<br />
(s. Abs. 21.5.5) nicht additiv verhalten.<br />
9.3.2 Dimensionalitätsreduktion<br />
Es ist bekannt, daß durch eine (deterministische) Transformation egal<br />
welcher Art keine Informationen gewonnen werden können, die nicht schon
9.3 Diskriminanzoptimierung 149<br />
im Ursprungsmuster enthalten sind [?]. Allerdings ist auch offensichtlich,<br />
daß nicht alle Information in einem Sprachsignal für die Erkennung von Bedeutung<br />
ist. Und selbst die wichtige kommt meist redundant vor. Bevor ein<br />
Spracherkenner oder ein Klassifikator ein Muster zur Erkennung bekommt,<br />
wird dieses aus dem Ursprungssignal durch verschiedene Informationsreduktionsschritte<br />
gewonnen. Dabei spielen sowohl wissensbasierte als auch<br />
stochastische beziehungsweise datengetriebene Verfahren eine Rolle. So wird<br />
zum Beispiel zuerst basieren auf dem Wissen, daß die Phaseninformation<br />
unbedeutend ist, diese bei der Transformation des Signals vom Zeitbereich<br />
in den Frequenzbereich ignoriert. Später werden die einzelnen Frequenzbereichskoeffizienten<br />
zu wenigen Filterbankkoeffizienten zusammengefaßt. Die<br />
Art der Zusammenfassung ist zumindest teilweise datengetrieben, indem sie<br />
sich an den Definitionen der Mel- oder Bark-Skalen orientiert. In der Erwartung,<br />
daß selbst bei den Filterbankkoeffizienten immer noch redundante<br />
Information steckt, insbesondere dann, wenn mehrere aufeinanderfolgende<br />
Vektoren zusammen betrachtetet werden, und mit dem Wissen, daß ein<br />
kleiner dimensionierter Merkmalsraum die Klassifikationsaufgabe erleichtern<br />
und den Parameterraum verkleinern kann, hat es durchaus Sinn, auch nach<br />
der Filterbankberechnung eine weitere Reduktion des Informationsgehalts<br />
durchzuführen.<br />
Einige Arbeiten versuchen die Dimensionalität des Merkmalsraums<br />
durch Auswahl bestimmter Dimensionen zu reduzieren. Wesentlich mehr<br />
Freiheiten hat man allerdings wenn man eine LDA anwendet. Betrachtet<br />
man die LDA-Transformationsmatrix A, so steht in der i-ten Spalte der<br />
Eigenvektor des der Größe nach i-ten Eigenwertes, also der Eigenvektor des<br />
größten Eigenwertes in der ersten Spalte und derjenige mit dem kleinsten<br />
Eigenwert in der letzten Spalte.<br />
Offensichtlich sind diejenigen Dimensionen des transformierten Merkmalsraumes,<br />
die eine sehr kleinen Eigenwert haben für die Klassifikation<br />
eher unwichtig, so daß statt der Transformation A die dimensionsreduzierte<br />
Transformation A ′ verwendet werden kann, ohne daß dadurch große Nachteile<br />
für die Klassifikation befürchtet werden müssen.<br />
⎛ ⎞<br />
a11 · · · a1n<br />
⎜<br />
A = ⎝<br />
.<br />
. ..<br />
⎟<br />
. ⎠ A ′ ⎛ ⎞<br />
a11 · · · a1d<br />
⎜<br />
= ⎝<br />
.<br />
. ..<br />
⎟<br />
. ⎠ (9.26)<br />
an1 · · · ann<br />
an1 · · · and<br />
Im Falle der nichtlinearen Transformation mit künstlichen neuronalen<br />
Netzen läßt sich die Reduktion der Dimensionalität des Zielmerkmalsraumes<br />
gleichzeitig mit der Berechnung der Transformationsfunktion durchführen,<br />
indem einfach die Zahl der Ausgabeneuronen reduziert wird. Allerdings ist es<br />
dann nicht mehr so einfach möglich, anhand der Eigenwerte zu entscheiden,
150 9. Klassifikation und Mustererkennung<br />
wie viele und welche Dimensionen erhalten bleiben sollen.<br />
Ein Nachteil der LDA besteht darin, daß alle Informationen über die<br />
Klassen in nur zwei Streumatrizen steckt. Dadurch werden die individuellen<br />
Verteilungen für einzelne Klassen nicht berücksichtigt. Verschiedene Ansätze<br />
versuchen die LDA dahingehend zu erweitern, daß diese Informationen beim<br />
Bestimmen der Transformation berücksichtigt werden (zum Beispiel [?] [?]).
10. Erkennung statischer Sprachsignale<br />
In diesem Kapitel werden wir einen ersten funktionierenden Spracherkenner<br />
zusammenstellen. Er wird aber nur sehr eingeschränkt einsetzbar sein. Basierend<br />
auf den Erkenntnissen aus den vorausgegangenen Kapiteln werden<br />
wir Sprachsignale verarbeiten und auf die so gefundenen Eigenschaften der<br />
Signale Klassifikationsalgorithmen anwenden.<br />
10.1 Zeitsignalbasierte Erkennung<br />
Versuchen wir zunächst einmal Merkmale des Zeitsignals selbst zu untersuchen.<br />
Betrachten wir die Wellenform einer Sprachaufnahme, so fällt als<br />
erstes auf, daß die auf den Amplituden bestimmte Einhüllende in etwa die<br />
Silbenstruktur der Äußerung widerspiegelt. Zweifellos scheint der Versuch,<br />
größere Vokabulare anhand der Einhüllenden zu erkennen, aussichtslos.<br />
Denkbar wäre höchstens ein Erkenner, der zum Beispiel zwei oder drei<br />
Wörter unterscheiden soll, die alle unterschiedlich viele Silben haben.<br />
Im folgenden werden einige Möglichkeiten der Untersuchung des reinen<br />
Zeitsignals veleuchtet.<br />
10.1.1 Endpunktdetektion<br />
Im Sprachaufnahmeapplet wird der Beginn und das Ende einer Sprachaufnahme<br />
durch Drücken eines Aufnahmeknopfes festgelegt. In vielen Situationen<br />
ist die Verwendung eines solchen Knopfes jedoch nicht wünschenswert. Zum<br />
einen sind das Situationen, in denen man die Hände frei haben möchte, um<br />
mit ihnen andere Aufgaben zu erledigen, und zum anderen solche Fälle, in<br />
denen das Anbringen solcher Knöpfe unpassend ist, wie zum Beispiel bei<br />
einem Münzfernsprecher.<br />
Abgesehen davon, daß die ständige Betätigung eines Knopfes für den<br />
Benutzer lästig ist und dem eigentlichen Ziel der maschinellen Sprachkommunikation,<br />
nämlich der Steigerung der Ergonomie der <strong>Mensch</strong>-<strong>Maschine</strong>-<br />
Schnittstelle, entgegensteht, stellen solche Knöpfe auch Fehlerquellen dar.
152 10. Erkennung statischer Sprachsignale<br />
Jeder, der schon mal Walkie-Talkies oder CB-Funk Geräte benutzt hat, hat<br />
den ein oder anderen Fall erlebt, daß der Sprecher den Sendeknopf mitten<br />
in der ersten gesprochenen Silbe betätigt und mitten oder kurz vor der<br />
letzten Silbe schon wieder losläßt, so daß der Anfang und das Ende des<br />
Gesprochenen abgeschnitten werden.<br />
Aus Erfahrung mit Vorführungen von Spracherkennungssystemen wissen<br />
wir außerdem, daß unerfahrene Benutzer sich unsicher sind über die korrekte<br />
Bedienung eines Aufnahmeknopfes. Das fängt an mit der Frage, ob der<br />
Knopf nur einmal kurz gedrückt werden soll oder ob er während der<br />
gesamten Aufnahme gedrückt bleiben soll, und reicht bis zu Personen, die<br />
den Knopf für jedes Wort, das sie sprechen, einzeln kurz antippen. Bei<br />
solchen Problemen hilft auch möglicherweise vorhandenes Feedback in Form<br />
eines akustischen Start-/Stoppsignals oder eines visuellen hervorgehobenen<br />
Ohres nicht viel.<br />
Teilweise ist es problematisch, auf Aufnahmegrenzen zu verzichten und<br />
den Erkenner ununterbrochen laufen zu lassen. Dies ist deshalb nicht immer<br />
angebracht, weil die durchschnittliche Erkennung dann höchstens in Echtzeit<br />
oder noch schneller ablaufen müßte. Nicht jede Erkennungsaufgabe kann so<br />
schnell mit ausreichender Erkennungsgenauigkeit ablaufen. Außerdem stellt<br />
es eine große Ressourcenverschwendung dar, wenn ganze Computer ständig<br />
damit beschäftigt sind, Sprache zu erkennen, obwohl nur einen Bruchteil der<br />
Zeit wirklich Sprache vorliegt.<br />
Wünschenswert wäre es, wenn auf das Bestimmen der Aufnahmegrenzen<br />
durch den Benutzer ganz verzichtet werden könnte. Das Sprachverarbeitungssystem<br />
sollte selbständig erkennen, wann die aufgezeichnete Wellenform<br />
Sprache darstellt und wann nicht. Die naheliegendste Vorgehensweise ist<br />
ein einfacher Schwellwertdetektor, der immer dann, wenn die Energie des<br />
Signals über einem Schwellwert liegt, diesen Bereich der Aufnahme dem<br />
Spracherkenner zur Erkennung gibt. Dabei wird die Energie des Signals<br />
über einen bestimmten Zeitraum gemessen (typischerweise 10 bis 100 Millisekunden).<br />
Diese Meßwerte bilden eine zeitliche Folge. Um zu vermeiden,<br />
daß der Sprachdetektor anspringt, wenn nur eine kurzzeitige Überschreitung<br />
des Schwellwertes – z.B. durch Störgeräusche – verzeichnet wird, kann die<br />
Entscheidung ” Sprache liegt vor“ auch erst dann getroffen werden, wenn<br />
eine ausreichend große Zahl an aufeinanderfolgenden Meßwerten über dem<br />
Schwellwert liegt. Entsprechend wird das kurzzeitige Unterbrechen der Sprache<br />
durch kurze Niedrigenergiephasen verhindert, indem das System erlaubt,<br />
daß einige wenige Meßwerte unterhalb des Schwellwertes akzeptiert werden,<br />
ohne daß die Hochenergiephase als beendet angesehen wird. Solche kurzen<br />
Unterbrechungen könnten zwar auch durch Störungen im Aufnahmeapparat<br />
verursacht werden, viel eher aber kommen sie von den Pausen beim Spre-
10.1 Zeitsignalbasierte Erkennung 153<br />
chen. Nicht nur zwischen einzelnen Wörtern werden Sprechpausen gemacht,<br />
oft sogar innerhalb eines Wortes. Und oft handelt es sich bei kurzzeitigen<br />
Niedrigenergiephasen auch nicht um explizite Sprechpausen sondern um<br />
leises Sprechen oder auch um die Artikulation von etwas länger anhaltenden<br />
Konsonanten oder Konsonantenfolgen, die in der Regel wesentlich weniger<br />
Energie haben als Vokale.<br />
In Abb. 10.1 ist der Verlauf der Signalenergie über die Zeit dargestellt<br />
und der Bereich, der vom Sprachdetektor als Sprache erkannt würde grau<br />
unterlegt. Eine kleine Spitze über dem Schwellwert und eine kurze Phase<br />
darunter ändern nichts am aktuellen Zustand.<br />
Abb. 10.1. Energiebasierter Sprachdetektor mit Schwellwertvergleich<br />
Wir können also einen derartigen auf Messung der Signalenergie basierenden<br />
Sprachdetektor durch ein Zustandsautomaten darstellen.<br />
In Abb. 10.2 ist ein solcher Zustandsautomat dargestellt. Nach jeder<br />
Energiemessung findet ein Zustandsübergang statt. Wenn die Energie<br />
über dem Schwellwert liegt, wird jeweils der mit ⊕ markierte Übergang<br />
genommen, im anderen Fall der mit ⊖ markierte.<br />
Natürlich kann in der Praxis ein solcher Automat beliebig verfeinert<br />
werden. So können (und sollten meist auch) für verschiedene Übergänge<br />
verschiedene Schwellwerte verwendet werden. Auch die Zahl der Zwischenzustände,<br />
in denen ein Sprache/Nichtsprachewechsel antizipiert wird (die<br />
Werte u und v in Abb. 10.2) können variiert werden.<br />
Die Einstellung des Schwellwertes erfolgt bei solchen Detektoren meist<br />
empirisch. Es werden einige Aufnahmen gemacht und die Energie gemessen.<br />
Daraufhin entscheidet der Bediener, welcher Schwellwert sinnvoll ist. Besser<br />
ist eine automatische Einstellung, entweder mit Hilfe eines genormten<br />
Signalgebers oder adaptiv mit Hilfe der vom Spracherkenner gelieferten<br />
Erkennungshypothesen. Man kann erwarten, daß ein einigermaßen gut<br />
funktionierender Erkenner zumindest ausreichend genau Stille von Sprache<br />
unterscheiden kann, um damit einen initialen Schwellwert zu bestimmen,
154 10. Erkennung statischer Sprachsignale<br />
Stille<br />
1 mal über Schwellwert<br />
2 mal über Schwellwert<br />
v mal über Schwellwert<br />
1 mal unter Schwellwert<br />
2 mal unter Schwellwert<br />
u mal unter Schwellwert<br />
Abb. 10.2. Sprachdetektor als Zustandsautomat<br />
Sprache<br />
der dann schrittweise mit jeder neuen Aufnahme angepaßt und so verbessert<br />
werden kann.<br />
Für sehr viele Anwendungen, vor allem in wenig störgeräuschbehafteter<br />
Umgebung, funktioniert ein einfacher Zustandsautomat ausreichend gut.<br />
Manchmal kann es jedoch vorkommen, daß das Hintergrundrauschen oder<br />
die Umgebungsgeräusche so stark sind, daß ein sinnvoller Schwellwert kaum<br />
zu finden ist. In solchen Fällen empfiehlt es sich, weitere Merkmale außer der<br />
Signalenergie zur Sprachdetektion zu verwenden. Um Sprache von Rauschen<br />
zu unterscheiden bietet sich zum Beispiel die Nulldurchgangsrate an. In der<br />
Annahme, daß das Signal ohne Sprache sich im Idealfall um den Wert Null<br />
herumbewegt und im Falle von Sprache niedrigfrequentere Energieanteile<br />
diese kleinen Schwankungen von der Nulldurchgangslinie etwas entfernen,<br />
kann man erwarten, daß die Nulldurchgangsrate bei Sprache (vor allem<br />
bei Vokalen) niedriger ist als bei einfachem Rauschen. Allerdings hängt die<br />
Nulldurchgangsrate auch von den gerade artikulierten Lauten ab, so daß die<br />
einfache Verwendung eines Schwellwertes oder - im Falle eines zweidimensionalen<br />
Merkmalsraumes bestehend aus Energie und Nulldurchgangsrate<br />
- einer Schwellebene nicht mehr gut genug funktioniert. Ein nichtlinearer
10.1 Zeitsignalbasierte Erkennung 155<br />
Klassifikator scheint in solchen Situationen angebrachter. Zum Beispiel<br />
könnte ein Gauß-Klassifikator verwendet werden, der zwei multivariate<br />
Normalverteilungen, eine für Sprache und eine für Stille modelliert. Im<br />
allgemeineren Fall könnten sogar mehrere Verteilungen je Modell verwendet<br />
werden und so der Grenzverlauf zwischen den Modellen beliebig kompliziert<br />
modelliert werden.<br />
In machen Situationen, insbesondere wenn die Rechnerkapazität dies<br />
erlaubt, kann zur Detektion von Stille sogar ein kompletter Spracherkenner<br />
verwendet werden. Dieser Spracherkenner muß nicht mit einem großen<br />
Vokabular laufen. Zum Beispiel würde ein Lauteerkenner, der auch den<br />
” Laut“ Stille erkennen kann ausreichen. Im Extremfall kann das Vokabular<br />
des Erkenners aus nur zwei Vokabeln“, Stille und Sprache, bestehen, was<br />
”<br />
dann einem einfachen Klassifikator wie weiter oben beschrieben sehr nahe<br />
kommt.<br />
10.1.2 Kombination von Merkmalen<br />
Für Nahbesprechungsmikrophone funktionieren einfache, nur die Energie<br />
messende Detektoren meist ausreichend gut. Wenn die Aufnahmebedingungen<br />
aber so sind, daß die Hintergrundgeräusche in etwa so laut sind wie<br />
leise Anteile der Sprache, müssen etwas intelligentere Detektoren verwendet<br />
werden. Hin und wieder beobachtet man das Phänomen, daß die letzten<br />
Silben eines Satzes von Detektoren abgeschnitten werden, weil es üblich ist,<br />
die Lautstärke am Ende eines Satzes zu senken, was dazu führt, daß die<br />
Signalenergie unter den Schwellwert fällt, der höher als das Hintergrundrauschen<br />
gewählt wurde.<br />
Auch Sprachlaute, die nur wenig Energie haben, wie zum Beispiel Konsonanten,<br />
werden leicht von einfachen Detektoren als Stille mißverstanden.<br />
In solchen Fällen bietet es sich an, weitere Eigenschaften des Signals außer<br />
der Energie zu messen.<br />
Die Nulldurchgangsrate und der Verlauf der Amplituden sind Merkmale,<br />
die gerne verwendet werden. Zwar ist es so, daß die Energie des Signals<br />
dem Integral unter dem Quadrat der Amplitude entspricht, aber dennoch<br />
enthält die Amplitude zusätzliche Information. Hohe Amplituden, die nicht<br />
lange anhalten haben wenig Energie, deuten aber auf Plosivlaute oder<br />
Stopplaute hin. Die Nulldurchgangsrate bzw. die Änderung derselben kann<br />
auch Hinweise darauf geben, daß Sprache vorliegt, obwohl die Energie sehr<br />
niedrig ist.
156 10. Erkennung statischer Sprachsignale<br />
Eine der sinnvollsten Arten, einen Sprachdetektor unter Verwendung<br />
mehrer Eigenschaften des Signals zu machen, ist ein multivariater Gauß-<br />
Klassifikator. Im n-dimensionalen Merkmalsraum wird je Klasse (Stille vs.<br />
Sprache) eine Normalverteilung geschätzt. Wenn genügend Aufnahmedaten<br />
vorliegen, kann man auch mehrere Normalverteilungen zu einem Codebuch<br />
je Klasse schätzen. Solche Gaußklassifikatoren, zusätzlich versehen mit einer<br />
” dynamischen Entscheidungsglättung“ ähnlich wie beim Zustandsautomaten<br />
funktionieren, in der Regel höchst zufriedenstellend.<br />
10.2 Das Vokaldreieck<br />
In Abb. 4.8 ist die Bedeutung des Begriffes Formanten skizziert. Ende<br />
der Achtziger wurden Versuche unternommen, aus dem Sprachsignal die<br />
Formanten zu extrahieren [?] [?]. Dabei wurden verschiedene amerikanische<br />
Vokale gesprochen. Die erste und zweite Formante, F1 und F2 wurden gemessen<br />
und zur Charakterisierung der Aufnahmen verwendet. Beim Auftragen<br />
der Meßpunkte in ein Koordinatensystem nahmen die Koordinatenpaare<br />
in etwa den Bereich eines Dreiecks ein (s. Abb. 10.3). Daher entstand der<br />
Name ” Vokaldreieck“.<br />
Bei den Klassifikationsexperimenten von [?] wurden ein einfaches dreischichtiges<br />
Perzeptron verwendet, das zur Klassifikation die in Abb. 10.3<br />
eingezeichneten Trennlinien fand.<br />
In der Praxis stellt sich jedoch die Formantenanalyse für die Erkennung<br />
kontinuierlicher Sprache als ungeeignet heraus, hauptsächlich deshalb, weil<br />
es meistens sehr schwierig bis unmöglich ist, die Formanten zu extrahieren.<br />
10.3 Vergleich von Spektrogrammen<br />
Ist ein Stück Audioaufzeichnung erst einmal als Sprache identifiziert, muß<br />
es nun klassifiziert werden. Die Standardmethode der Einzelworterkennung<br />
wie sie auch heute in einfachen Erkennern (z.B. Einzelkommandoerkenner<br />
in Mobiltelefonen, Fernbedienungen oder PDAs) verwendet wird, ist der<br />
Vergleich des aufgezeichneten Musters mit allen in Frage kommenden<br />
Mustern aus einem zuvor gelernten und abgespeicherten Katalog von<br />
Referenzmustern. Jedem zu erkennenden Kommando wird eine oder mehrere<br />
Referenzen zugeordnet.<br />
Ein direkter Vergleich der Wellenformen hätte keine Chance, sinnvolle<br />
Erkennungsergebnisse zu liefern. Selbst die mit allergrößter Sorgfalt
F2 [Hz]<br />
4000<br />
2000<br />
1000<br />
500<br />
0<br />
ÁÁÁ<br />
ÍÍÍ<br />
ÁÁ<br />
Á<br />
Á<br />
iÁ ÁÁÁÁÁÁ<br />
ÍÍÍ ÍÍÍÍ<br />
<br />
ÇÇÇÇ ÍÍ<br />
ÍÇ<br />
<br />
Á Á<br />
Á<br />
æ <br />
10.3 Vergleich von Spektrogrammen 157<br />
i i<br />
i<br />
i<br />
i<br />
i<br />
i i<br />
i<br />
iii i<br />
i i i<br />
i i<br />
i i<br />
ii<br />
i<br />
i i i<br />
ii i<br />
i<br />
i i<br />
i<br />
æ<br />
æ æ<br />
æ æ æ æ<br />
æ æ æ<br />
æ æ æ<br />
æ æ æ<br />
æ<br />
æ æ<br />
æ<br />
<br />
æ <br />
ÁÁÁÁ ÁÁÁÁ<br />
ÁÁÁÁ ÁÁ<br />
i<br />
ÍÍ<br />
Í <br />
<br />
<br />
<br />
æ<br />
æ<br />
ÍÍÍ<br />
<br />
æ<br />
ÇÇÇ<br />
uu u u<br />
u<br />
u uuu uuu<br />
u<br />
u uu u<br />
uu u uu<br />
u u<br />
u u<br />
u<br />
500<br />
Abb. 10.3. Vokaldreieck nach [Lip89]<br />
ÍÍ Í<br />
<br />
ÇÇÇ<br />
<br />
æ<br />
æ<br />
æ<br />
ÇÇÇ Ç ÇÇÇÇ<br />
<br />
1000<br />
1500<br />
möglichst exakt wiederholten Wörter resultieren in völlig verschiedenen<br />
Signalen. Selbst das Abspielen ein und derselben Aufnahme über ein und<br />
denselben Lautsprecher, zweimal aufgezeichnet mit ein und derselben<br />
Aufnahmeapparatur liefert verschiedene Wellenformen, bei denen man<br />
bestenfalls Ähnlichkeiten im Verlauf der Amplitude (Einhüllende) erkennen<br />
kann, kaum aber in den Details einzelner Abtastwerte.<br />
Viel robuster ist da die Verwendung von Spektren, oder besser noch auf<br />
wenige Filterbänke reduzierte Spektren. Die Erkennung einiger isolierter<br />
Phoneme ist schon anhand des Leistungsspektrums möglich. Dies kann bei<br />
Vokalen durch Bestimmen der Formanten und durch Positionierung des<br />
Lauts im Vokaldreieck geschehen. Für Konsonanten kann man mehrere<br />
Spektren aufzeichnen und mitteln oder mehrere gemittelte in einem Codebuch<br />
abspeichern. Bei der Erkennung wird das zu erkennende Muster mit<br />
F1 [Hz]
158 10. Erkennung statischer Sprachsignale<br />
denen der Codebücher verglichen und so klassifiziert.<br />
Sobald die Menge der zu erkennenden Klassen mehr als nur eine ” Handvoll“<br />
ist, versagen solche einfachen Spektrenvergleiche. Ähnlich schlecht funktionieren<br />
sie, wenn nicht nur statische Laute wie Vokale, sondern etwas kompliziertere<br />
Dinge wie kurze Lautfolgen erkannt werden sollen. Dies ist beim<br />
Buchstabieren der Fall. Die bereits mehrfach erwähnte B-D-G-Task ist ein<br />
Beispiel dafür. Anfang der Achtziger war die erfolgreichste Vorgehensweise<br />
bei dieser Beliebten Aufgabe die Analyse mehreren aufeinanderfolgender<br />
Kurzzeitspektren. In der Tat gehörten relativ einfach strukturierte neuronale<br />
Netze (Multi-Layer-Perzeptronen) zu den am besten funktionierenden Lösungen.<br />
Dabei wurden oft die Eingangsneuronen als ein Fenster zum Spektrogramm<br />
betrachtet, so daß n aufeinanderfolgende Kurzzeitspektren als jeweils<br />
d-dimensionale Filterbankvektoren in die n·d große Eingabeschicht der Netze<br />
geführt. Die Trainingsmethoden und Architekturfeinheiten wurden dann oft<br />
noch so modifiziert, daß die in der Dynamik des Signals liegende Besonderheit<br />
der Sprache berücksichtigt wurde (vgl. Kap. 22).
11. Erkennung dynamischer Sprachsignale<br />
Sprache ist ein sehr dynamischer Prozeß. Viele Laute hören sich nur im<br />
Kontext so an, wie man das erwartet. Selbst wenn wir unsere eigene Stimme<br />
aufnehmen und ein Kurzzeitspektrum berechnen und diesen Bereich immer<br />
wieder abspielen erkennen wir uns meist selbst nicht darin. Ein aus einer<br />
Aufnahme herausgeschnittener Vokal hört sich plötzlich wie das Brummen<br />
eines Automotors an, Konsonanten verschwinden komplett und ähnliche<br />
Beobachtungen können leicht gemacht werden. Das kann sogar so weit<br />
gehen, daß drei verschiedene geübte Akustiker in dem gleichen Stückchen<br />
Sprachaufnahme völlig verschiede Wörter, ja sogar Zwei- oder Dreiwortfolgen<br />
zu hören glauben.<br />
Erst das Hintereinanderabspielen aller kleinen Spracheinheiten läßt<br />
das Phänomen Sprache entstehen. Daher sind nur auf die Klassifikation<br />
statischer Sprachstückchen basierende Erkenner nie über das Erkennen<br />
einzelner Phoneme hinausgekommen.<br />
Abb. 11.1. Zwei Spektrogramme zweier Aufnahmen des Wortes ” sieben“<br />
In Abb. 11.1 sind zwei Spektrogramme dargestellt. In beiden Aufnahmen<br />
wurde das Wort ” sieben“ gesprochen. Wenn eine der Aufnahme eine Referenzaufnahme<br />
wäre und die andere mit dieser bei der Klassifikation verglichen<br />
würde, müßten nicht nur Distanzen zwischen einzelnen Kurzzeitspektren<br />
berechnet werden sondern auch noch bestimmt werden, welche Spektren aus<br />
der einen Aufnahme mit welchen aus der anderen verglichen werden sollen.
160 11. Erkennung dynamischer Sprachsignale<br />
In Abb. 11.2 sieht man, daß eine einfache lineare Zuordnung von Kurzzeitspektren<br />
verschieden langer Aufnahmen problematisch ist. Die relativ lange<br />
Stillephase am Anfang der vertikal dargestellten Aufnahme trifft so auf schon<br />
einsetzende Sprache aus der horizontal dargestellten Aufnahme. In der vertikalen<br />
folgt außerdem eine Stillephase zwischen den beiden letzten Wörtern<br />
oder Lauten, der überhaupt kein Gegenstück aus der horizontalen Aufnahme<br />
entspricht.<br />
Abb. 11.2. Längennormalisierung durch lineare Zuordnung<br />
Vielmehr müßte die Zuordnung von Teilen zweier Signale eher nichtlinear<br />
wie in Abb. 11.3 geschehen.<br />
11.1 Minimale Editierdistanz<br />
Zur Motivation des Prinzips des dynamischen Programmierens wollen<br />
wir hier mit einem einfacheren aber dem Vergleich von Spektrogrammen<br />
ähnlichen Problem anfangen. Beim Vergleich von Texten gibt es verschiedene<br />
Anwendungen, bei denen die so genannte minimale Editierdistanz gemessen<br />
wird. Viele Textverarbeitungsprogramme bieten nicht nur die Möglichkeit,<br />
Texte auf Rechtschreibfehler zu überprüfen, sondern erlauben sich gelegentlich<br />
auch diese während der Eingabe durch den Benutzer automatisch
11.1 Minimale Editierdistanz 161<br />
Abb. 11.3. Nichtlineare Zuordnung von Abschnitten zweier Aufnahmen<br />
zu korrigieren. Einige auf Texteingabe basierende Benutzerschnittstellen<br />
z.B. Shells in UNIX können auch Eingabefehler selbständig korrigieren.<br />
Beim Suchen von Stichwörtern in Textkorpora kann es sinnvoll sein, die<br />
Übereinstimmung des Suchwortes mit einem Teil des Textes nicht unbedingt<br />
fehlerfrei zu verlangen, z.B. um leicht veränderte Versionen wie konjugierte<br />
Formen oder Tippfehler auch finden zu können. Bei der Erkennung von<br />
gedruckten Texten (Optical Character Recognition – OCR) können falsch<br />
erkannte Buchstaben oft dadurch korrigiert werden, daß zu allen zu erkennenden<br />
Wörtern die Minimale Editierdistanz berechnet wird, und so aus<br />
SPRAGHE schnell SPRACHE wird, weil letzteres durch Vertauschen eines<br />
einzigen Buchstaben aus ersterem erzeugt werden kann.<br />
Wie lösen wir das Problem nach der Suche der minimalen Editierdistanz<br />
zwischen zwei Wörtern X = x1, . . .xn und Y = y1, . . .ym? Ein einfacher<br />
Vergleich von xi mit yi liefert offensichtlich nicht das gewünschte Ergebnis,<br />
denn dann wäre die Distanz zwischen SPRACHE und SRACHE viel zu<br />
groß, obwohl nur ein Buchstabe ausgelassen wurde. Wir müssen also zuerst<br />
wissen, welches Zeichen von X mit welchem Zeichen von Y verglichen<br />
werden muß. Der Einfachheit halber nehmen wir an, es gibt nur folgende<br />
Editierschritte: Ein Zeichen unter dem Cursor überschreiben, ein Zeichen<br />
unter dem Cursor löschen, ein Zeichen an der Cursorposition einfügen<br />
und den Cursor bewegen. Wenn wir das Bewegen des Cursors nicht als<br />
distanzrelevante Editierschritte betrachten, und das Überschreiben eines<br />
Zeichens mit sich selbst auch nicht, dann bleiben nur drei Editierschritte,<br />
die zur Distanz beitragen: Das Überschreiben oder Vertauschen eines<br />
Zeichens, das Einfügen und das Löschen eines Zeichens. So kann z.B. aus<br />
den Wort SPRACHEN STRAUSSE werden, indem man das P durch ein T
162 11. Erkennung dynamischer Sprachsignale<br />
überschreibt, das U nach dem A einfügt, CH durch SS ersetzt (zwei Schritte)<br />
und schließlich das N löscht. Insgesamt wären das also fünf Editierschritte.<br />
Die Zuordnung der einzelnen Buchstaben sieht dann aus wie in Abb. 11.4.<br />
S P R A C H E N<br />
S T R A U S S E<br />
Abb. 11.4. Zuordnung einander entsprechender Buchstaben zweier Wörter<br />
Natürlich kann man auch auf andere Art aus SPRACHEN das Wort<br />
STRAUSSE machen. Wenn man so will ist es auch möglich, indem man<br />
erst alle Zeichen von SPRACHEN löscht (8 Schritte) und dann alle Zeichen<br />
von STRAUSSE einfügt (8 Schritte), insgesamt also 16 Editierschritte<br />
durchführt. Tatsächlich werden mindestens fünf Schritte benötigt.<br />
11.2 Dynamisches Programmieren<br />
Die Standardmethode zur Berechnung der minimalen Editierdistanz ist<br />
das so genannte dynamische Programmieren (DP). Es wird nicht nur<br />
beim Vergleich von Mustern, sondern auch bei zahlreichen anderen Optimierungsproblemen<br />
eingesetzt. Die Idee ist dabei immer, daß man eine<br />
optimale Gesamtlösung aus mehreren optimalen Teillösungen berechnen<br />
kann. Im Falle der minimalen Editierdistanz können wir zum Beispiel davon<br />
ausgehen, daß wir wüßten, was die Minimalen Editierdistanzen zwischen<br />
den Teilwörtern x1, . . . xk und y1, . . .yl bekannt sind. Welche Teildistanzen<br />
müßten bekannt sein, um die minimale Distanz zwischen x1, . . . xi und<br />
y1, . . . yj zu berechnen.<br />
Wenn wir nur die drei oben genannten Schritte (Einfügen, Löschen,<br />
Überschreiben) haben, dann kann am Ende des Editierens y1, . . . yj nur dann<br />
herauskommen, wenn als letzter Schritt entweder xi gelöscht wurde, xi mit<br />
yj überschrieben wurde oder yj eingefügt wurde (oder xi und yj gleich sind,<br />
also kein Editierschritt nötig wäre).<br />
Wenn wird das Editieren als Prozeß betrachten, dann durchläuft dieser<br />
eine Folge von Zuständen, wobei ein Zustand durch die beiden Positionen<br />
i und j beschrieben ist. Dem gesamten Editierprozeß steht also ein Zustandsraum<br />
der Größe n · m zur Verfügung (wenn X = x1, x2 dotsxn und
11.2 Dynamisches Programmieren 163<br />
Y = y1, y2, . . .ym). Der Prozeß beginnt mit dem Zustand (1, 1) und muß<br />
am Ende im Zustand (n, m) ankommen. Jeder Editierschritt ist nun ein<br />
Zustandsübergang:<br />
Editierschritt Zustandsübergang<br />
xi−1 auslassen (i − 1,j) → (i, j)<br />
yi einfügen (i ,j − 1) → (i, j)<br />
xi durch yj ersetzen (bzw. unverändert lassen) (i − 1,j − 1) → (i, j)<br />
Tabelle 11.1. Editierschritte und entsprechende Zustandsübergänge<br />
c1<br />
c2<br />
cn<br />
q1<br />
q2<br />
qn<br />
d2i<br />
d1i<br />
d3i<br />
Si<br />
mink ck + dki<br />
Abb. 11.5. Optimierungsschritt beim Dynamischen Programmieren<br />
Die Idee hinter dem dynamischen Programmieren besteht nun darin, die<br />
minimalen Kosten für das Erreichen eines Zustandes aus den minimalen<br />
Kosten aller möglichen Vorgängerzustände und den Kosten für den Zustandsübergang<br />
zu berechnen. In Abb. 11.5 hat der Zustand Si insgesamt n<br />
verschiedene mögliche Vorgängerzustände q1, q2, . . .qn, für die die jeweiligen<br />
minimalen Kosten c1, c2, . . . cn bekannt sind. Wenn die Kosten für den<br />
Zustandsübergang von qk nach Si mit dki bezeichnet wird, dann sind die<br />
Kosten für das Erreichen von Si über den Vorgängner qk gleich ck + dki, und<br />
die minimalen Kosten dafür, auf egal welchem Wege zu Si zu kommen, sind<br />
mink ck + dki.<br />
Wenn zur Darstellung des Editierprozesses eine Anordnung wie in Abb.<br />
11.2 gewählt wird, also x1, x2, . . .xn entlang der Abszisse und y1, y2, . . .ym<br />
entland der Ordinaten, dann ergibt sich eine Matrix. Jeder Matrixkoeffizient
164 11. Erkennung dynamischer Sprachsignale<br />
entspricht einem DP-Zustand. Editieren bedeutet, die Matrix von links unten<br />
nach rechts oben zu durchlaufen, wobei als Editierschritte, die in Abb. 11.6<br />
dargestellten möglich sind. Bezeichnen wir mit C(i, j) die minimale Editierdistanz<br />
zwischen x1, . . . xi und y1, . . .yi. Dann können wir C(i, j) mit Hilfe der<br />
Kenntnis von xi, yj, C(i−1, j), C(i, j−1) und C(i−1, j−1) berechnen gemäß:<br />
⎧<br />
⎨ cd +C(i − 1, j)<br />
C(i, j) = min c<br />
⎩ i +C(i, j − 1)<br />
δxi,yj · cs +C(i, j − 1)<br />
(11.1)<br />
wobei δxi,yj das Kronecker-Delta ist. c d bezeichnet die Kosten für das<br />
Auslassen (delete) eines Zeichens c i die Kosten für das Einfügen (insert) und<br />
cs (substitute) die Kosten für das Ersetzen eines Zeichens durch ein anderes.<br />
Im einfachsten Fall setzt man ce = c i = cs = 1.<br />
yi<br />
yi−1<br />
xi−1<br />
xi<br />
C(i, j) xi−1 auslassen<br />
Abb. 11.6. Kostenberechnung für einen Editierschritt<br />
xi ggf. mit<br />
yi überschreiben<br />
yi einfügen<br />
Wenn das Ziel nicht nur die Berechnung der minimal Anzahl der Editierschritte<br />
sein soll, sondern auch noch die Folge dieser Schritte selbst, dann ist<br />
es nötig, daß zu jedem Zustand der beste Vorgängerzustand abgespeichert<br />
wird. Für diese Referenzen wird oft der Ausdruck Rückwärtszeiger (englisch<br />
backpointer) verwendet, und die Menge aller Rückwärtszeiger als Tabelle der<br />
Rückwärtszeiger (englisch: backpointer table). Der Rückwärtszeiger des Zu-<br />
stands (i, j) berechnet sich analog zu Gl. 11.1 als:<br />
R(i, j) = argmin<br />
{(i−1,j), (i−1,j−1), (i,j−1)}<br />
⎧<br />
⎨ cd +C(i − 1, j)<br />
c<br />
⎩ i +C(i, j − 1)<br />
δxi,yj · cs +C(i, j − 1)<br />
(11.2)<br />
Schließlich gibt R(n, m) den letzen Editierschritt an. Ist R(n, m) =<br />
(n − 1, m), so heißt dies, daß im letzten Schritt xn ausgelassen werden muß.<br />
R(n, m) = (n, m − 1), dann muß im letzten Schritt ym eingefügt werden.
11.2 Dynamisches Programmieren 165<br />
Und wenn R(n, m) = (n − 1, m − 1), dann muß – falls xn = ym – xn durch<br />
ym ersetzt werden. Bezeichnet man mit E(n, m) diesen Editierschritt und<br />
verfolgt man die Rückwärtszeiger zurück bis zum Zustand (1, 1). Dann<br />
erhält man aus der umgekehrten Folge der Editierzustände<br />
R(n, m), R(R(n, m)), . . . R(R(· · ·(R(n, m)) · · ·)) = R (e) (n, m) (11.3)<br />
die Folge der nötigen Editierschritte:<br />
E(R (e−1) (n, m)), E(R (e−2) (n, m)), . . . E(R(n, m)), E(n, m) (11.4)<br />
Diese Folge enthält dann alle Schritte, auch die Ersetzungen von einzelnen<br />
Zeichen durch das gleiche Zeichen, die dann beim Berechnen der Kosten<br />
nicht mitgezählt werden dürfen.<br />
Unter Umständen kann es bei Gl. 11.3 zu algorithmischen Randerscheinungen<br />
kommen. Wenn zum Beispiel X = AB und Y = C verglichen<br />
werden sollen, dann hat die Resultierende DP-Matrix nur eine Zeile und<br />
es wäre nicht möglich, einen wie in Abb. 11.6 dargestellten ” diagonalen“<br />
Schritt zu machen. Es gäbe auch nur einen Rückwärtszeiger und somit nur<br />
einen möglichen Editierschritt. Sicher lassen sich solche Randfälle durch<br />
entsprechende Fallunterscheidungen explizit behandeln. Der Algorithmus<br />
selbst kann aber so einfach wie oben vorgestellt bleiben, wenn man die<br />
zu vergleichenden Zeichenfolgen leicht modifiziert: Man ersetzt X durch<br />
x0, x1, . . .xn+1, wobei x0 und xn+1 jeweils Sonderzeichen sind, die weder in<br />
X noch in Y vorkommen (analog wird mit Y verfahren). Dann entspricht<br />
das Auslassen einer Anfangssequenz x1, . . .xk der Zuordnung dieser Zeichen<br />
zu y0.<br />
Der Vergleich der Wörter X = ANDACHT und Y = NOCHMAL ist in<br />
Abb. 11.7 dargestellt. In jeder Matrixzelle ist die zu dem entsprechenden<br />
Zustand gehörige minimale Editierdistanz angegeben und ein Verweis auf<br />
den Vorgängerzustand. Die Zuordnung der xi zu den yj ist durch graue<br />
Kreisscheiben markiert. Verfolgt man diese von links unten nach rechts oben,<br />
so ergibt sich in diesem Beispiel die folgende Folge von Editierschritten zur<br />
Umwandlung von ANDACHT in NOCHMAL:<br />
Auslassen von A (Kosten 1)<br />
Ersetzen von N durch N (Kosten 0)<br />
Auslassen von D (Kosten 1)<br />
Ersetzen von A durch O (Kosten 1)<br />
Ersetzen von C durch C (Kosten 0)<br />
Ersetzen von H durch H (Kosten 0)
166 11. Erkennung dynamischer Sprachsignale<br />
Einfügen von M (Kosten 1)<br />
Einfügen von A (Kosten 1)<br />
Ersetzen von T durch L (Kosten 1)<br />
Das ergibt als Gesamtkosten: 6 Editierschritte. Je nachdem, welcher<br />
Editierschritt in Gl. 11.1 gewählt wird, wenn verschiedene Schritte die<br />
gleichen Minimalkosten verursachen, können durchaus verschiedene Editierfolgen<br />
minimal sein. So läßt sich zum Beispiel die Schrittfolge Auslassen +<br />
Ersetzten auch alternativ als Ersetzen + Auslassen mit dem gleichen Effekt<br />
erreichen.<br />
#<br />
L<br />
A<br />
M<br />
H<br />
C<br />
O<br />
N<br />
#<br />
#<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
7 7 7 7 7 7 7<br />
6 6<br />
5 6 6 5<br />
1 1<br />
1<br />
7<br />
5 5 5 5 5<br />
4 4 4 4 4 3 4<br />
3 3 3 3<br />
2 2 2<br />
2<br />
2<br />
3<br />
6 6 6 6 6<br />
A N D A C H T<br />
Abb. 11.7. Berechnung der Editierdistanz mit dynamischem Programmieren<br />
Experiment 11.1: Minimale Editierdistanz<br />
Starten Sie das Applet Edit Distance. Auf der Oberfläche sehen sie zwei<br />
Felder, in die sie die Wörter X und Y eintragen können.<br />
Wenn sie auf Start drücken, wird eine neue DP-Matrix erzeugt, die den<br />
Aufbau hat wie Abb. 11.7.<br />
Durch Klicken auf Schritt wird ein DP-Schritt ausgeführt, das heißt, alle<br />
minimalen Editierdistanzen, die mit dem aktuell angezeigten Informationen<br />
unmittelbar zu berechnen sind, werden berechnet.<br />
Auf der DP-Matrix erscheinen dann die minimalen Editierdistanzen sowie<br />
für jeden Zustand eine Referenz auf den ” besten“ Vorgänger.<br />
3<br />
3<br />
4<br />
6<br />
3<br />
4<br />
4<br />
5<br />
5<br />
4<br />
4<br />
5<br />
5<br />
6<br />
5<br />
4<br />
5<br />
6<br />
6<br />
7<br />
#<br />
6<br />
5<br />
5<br />
5<br />
6<br />
7<br />
7<br />
8
11.2 Dynamisches Programmieren 167<br />
Wenn der letzte Schritt ausgeführt wurde und der Zustand in der rechten<br />
oberen Ecke erreicht ist, dann wird der DP-Pfad (also alle für das minimale<br />
Editieren zu durchlaufenden Zustände) hervorgehoben.<br />
11.2.1 Distanz zwischen zwei Sprachsignalen<br />
Das dynamische Programmieren gibt uns also ein Werkzeug in die Hand,<br />
mit dessen Hilfe es möglich ist, zwei Folgen so miteinander zu vergleichen,<br />
daß möglichst viele gleiche Abschnitte einander zugeordnet werden. Dieses<br />
Prinzip läßt sich auch auf den Vergleich von Sprachsignalen anwenden.<br />
Statt der Wortfolgen X und Y treten dort dann die Mustervektorfolgen X<br />
und Y auf, wobei xt das zum Zeitpunkt t gemessene Sprachsignal ist. Im<br />
Unterschied zu Texten haben wir bei Sprachsignalen das Problem, daß die<br />
miteinander zu vergleichenden Vektoren (z.B. mel-skalierte Spektren) so gut<br />
wie nie identisch sind. Dann wäre die Editierdistanz immer gleich der Länge<br />
der längeren Aufnahme. Eine einfache Änderung beseitigt das Problem.<br />
Statt für das ” Überschreiben“ eines Vektors 1.0 Editierschritte zu rechnen,<br />
verwenden wir ein Distanzmaß (z.B. die Euklidische Distanz) zwischen den<br />
Vektoren. In der Praxis stellt sich heraus, daß dies sogar genügt, und für das<br />
Einfügen und Löschen von Vektoren gar kein Editierschritt bzw. gar keine<br />
Kosten berechnet werden müssen.<br />
1 2 5 6 9<br />
3 10 1314<br />
4 7 8 1112 1516 1 2 5 6 9<br />
3 10 1314<br />
4 7 8 1112 1516 16<br />
15<br />
14<br />
13<br />
12<br />
11<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
Abb. 11.8. DTW-Pfad in Matrixdarstellung<br />
1 2 5 6 9<br />
3 10 1314<br />
4 7 8 1112 1516
168 11. Erkennung dynamischer Sprachsignale<br />
Wenn das dynamische Programmieren also dazu verwendet wird, zwei<br />
Sprachsignale zeitlich so zu verzerren, daß sie dadurch möglichst gut<br />
aufeinander passen, dann wird dies dynamic time warping (DTW) genannt.<br />
Auch im Deutschen findet man häufiger den englischsprachigen Ausdruck<br />
als das deutsche Pendant ” dynamische Zeitverzerrung“. Das Ergebnis ist<br />
dann analog zum DP-Pfad ein DTW-Pfad (s. Abb. 11.8). Je feiner die<br />
Sprachaufnahmen granuliert sind, das heißt, je kürzer die Zeitabschnitte<br />
sind, für die jeweils ein neuer Merkmalsvektor beobachtet wird, umso<br />
unwichtiger wird die Betrachtung von Auslassungen und Einfügungen. Wenn<br />
wir zwei Signale X = x1, . . . xn und Y = y1, . . .ym betrachten gehen wir<br />
davon aus, der DTW-Pfad k = min(n, m) Zuordnungen (also eine Relation)<br />
{(xi1, yj1), (xi2, yj2), . . . (xik , yjk )} (11.5)<br />
findet, und die Distanz zwischen X und Y berechnet sich als Summe<br />
(kumulative Distanz) aller ” lokalen“ Distanzen:<br />
d(X, Y ) =<br />
k<br />
|xil − yjl | (11.6)<br />
l=1<br />
Als lokale Distanzen |xil − yjl | werden meist einfache euklidische Distanzen<br />
verwendet. In der Praxis stellt sich heraus, daß in der Tat das<br />
Nichtberücksichtigen der Auslassungen und Einfügungen keine merklichen<br />
Auswirkungen auf die Distanzberechnung hat. Somit stellt sich an dieser<br />
Stelle die Frage, ob nicht auch andere Zustandsübergangsschemata als<br />
bei der minimalen Editierdistanz sinnvoll sind. Abb. 11.9 zeigt verschiede<br />
Möglichkeiten an. Oben links ist das Schema zu sehen, das auch für die Editierdistanz<br />
verwendet wurde. Oben in der Mitte ist eine leichte Abwandlung<br />
davon dargestellt, bei der höchsten eine Auslassung oder Einfügung hintereinander<br />
stattfinden darf, so daß nicht längere Abschnitte eines Musters<br />
komplett ignoriert werden können. Das Übergangsschema oben links wird<br />
Bakis-Schema genannt. Es ist für die Berechnung von Editierdistanzen wegen<br />
des fehlenden Einfügeschrittes nicht geeignet. Da dies aber beim Vergleich<br />
von Sprachaufnahmen keine Bedeutung hat, und da das Bakis-Schema als<br />
sehr angenehme Eigenschaft hat, immer nur von Zuständen (t, . . .) auf<br />
Zustände (t + 1, . . .) überzugehen, ist es das in der Spracherkennung am<br />
häufigsten benutzte. Es ermöglicht so relativ effiziente Implementierungen.<br />
Das Schema unten links ist eine Modifikation des Bakis-Schemas, bei der<br />
keine zwei aufeinanderfolgenden horizontalen Schritte erlaubt sind – auch<br />
hier, um zu verhindern, daß größere Bereiche einer Aufnahme komplett<br />
ignoriert werden können. Auch wesentlich komplexere Schemata wie unten<br />
in der Mitte und unten rechts (hier mit zusätzlich gewichteten in die<br />
Distanzberechnung mit eingehenden Straftermen versehen) wurden gelegentlich<br />
verwendet. Das Schema unten links (Itakura-Schema) verbietet ein<br />
zweimaliges Nach-Rechts-Gehen“ und stellt so auch eine Mindeststeigung<br />
”
11.3 Spracherkennung mittels Dynamic Time Warping 169<br />
des Pfades sicher. In der Praxis hat sich allerdings das Bakis-Modell als das<br />
praktikabelste herausgestellt. Nennenswerte Vorteile konnten für die anderen<br />
Schemata bei ” gewöhnlichen“ Spracherkennungsaufgaben nicht festgestellt<br />
werden.<br />
Abb. 11.9. Verschiedene Zustandsübergangsschemata<br />
2 2<br />
11.3 Spracherkennung mittels Dynamic Time Warping<br />
Abb. 11.10 gibt einen Überblick über einen Einzelwort Spracherkenner, der<br />
auf dem DTW-Algorithmus basiert. Eine Testaufnahme wird analysiert<br />
und in eine Folge von Kurzzeitspektren umgewandelt. Im Erkenner ist<br />
für jedes von n Vokabularwörtern ein Referenzmuster abgespeichert. Die<br />
Testaufnahme wird mit jeder Referenz verglichen, ein DTW-Pfad wird<br />
berechnet und die kumulative Distanz ausgegeben. Unter allen Referenzen<br />
wird diejenige mit der kleinsten kumulativen Distanz als Erkennungshypothese<br />
gewählt. Der Begriff Einzelwort bezeichnet hier nicht ein Wort im<br />
linguistischen Sinne, sondern lediglich die Tatsache, daß keine Sätze aus<br />
Wörtern beliebig kombiniert werden können. Als Einzelworte in diesem<br />
Sinne können durchaus auch mehrere Worte hintereinander gesprochen oder<br />
sogar (linguistisch gesehen) ganz Sätze sein. Der vielleicht korrektere Begriff<br />
wäre Erkennung von isolierten oder Einzelkommandos.<br />
Um die Leistung zu verbessern, können für jedes Vokabularwort mehrere<br />
Referenzen abgespeichert werden. Als Hypothese kann dann immer noch das<br />
Wort ausgegeben werden, zu dem die Referenz mit dem kleinsten Abstand<br />
1<br />
2<br />
1
170 11. Erkennung dynamischer Sprachsignale<br />
Testaufnahme<br />
Wort 1<br />
Wort 2<br />
Wort n<br />
. . .<br />
Abb. 11.10. Einzelworterkennung mit DTW-Algorithmus<br />
gehört, oder man gibt das Wort aus, dessen alle Referenzen den kleinsten<br />
durchschnittlichen Abstand haben.<br />
Derartige Erkenner sind durchaus als einfache Kommandoerkenner tauglich.<br />
Einige Soundkarten beinhalten solche Erkenner in ihrem Softwarepaket<br />
und die in Mobiltelefonen eingebauten sprachgesteuerten Wählmechanismen<br />
funktionieren auf derselben Idee.<br />
Experiment 11.2: DTW-Erkenner<br />
Starten Sie das Applet DTW. Auf der Oberfläche sehen zwei Karteikarten,<br />
eine (betitelt mit ” Recording“) zum Aufzeichnen und Abspielen von drei<br />
kurzen Sprachaufnahmen. Sie können einen Teil der dargestellten Aufnahme<br />
ausschneiden indem Sie ihn mit gedrücktem Mauszeiger überfahren. Eine<br />
der Aufnahemn ist mit Reference bezeichnet, die anderen mit Signal 1 und<br />
Signal 2.<br />
Wenn Sie drei Aufnahmen gemacht haben und auf die Kartei DTW<br />
zurückschalten, sehen Sie zwei DTW-Matrizen, die die lokalen Distanzen<br />
der Sprachvektoren als Graustufen darstellen. Wenn Sie dieselbe Aufnahme<br />
für die das Testmuster und für die Referenz verwenden, sehen Sie, daß die<br />
Graustufenmatrix symmetrisch ist und entlang der Diagonalen (von links<br />
unten nach rechts oben) überall die Distanzen 0 hat.<br />
Durch Klicken auf DTW 1 wird ein kompletter DTW-Algorithmus zum<br />
Vergleichen des Signals 1 mit dem Referenzmuster berechnet. Entsprechend<br />
verhält sich DTW 2 .<br />
Auf der DTW-Matrix erscheint dann der DTW-Pfad hervorgehoben und<br />
darunter wird die akkumulierte Distanz angezeigt.<br />
d1<br />
d2<br />
dn<br />
min
11.3 Spracherkennung mittels Dynamic Time Warping 171<br />
Nehmen Sie zwei verschiedene Wörter auf, und speichern sie das eine als<br />
Signal 1 und das andere als Signal 2. Damit ist die Datenbasis dieses<br />
minimalistischen Erkenners komplett.<br />
Nehmen Sie nun ein weiteres Wort auf (praktischerweise sprechen Sie eines<br />
der schon gespeicherten Wörter noch einmal) und speichern dieses als<br />
Testmuster ab.<br />
Wenn Sie nun die DTW-Algorithmen auf beiden Signalen rechnen lassen,<br />
dann können Sie die beiden akkumulierten Distanzen vergleichen und das<br />
Wort mit der kleineren Distanz als erkannt betrachten.<br />
Versuchen Sie einen Eindruck davon zu gewinnen, wie gut/schlecht die<br />
Erkennung funktioniert in Abhängigkeit davon, wie ähnlich sich die Wörter<br />
sind.<br />
Mit den Schaltflächen ” Bakis“, ” Itakura“ und ” Symmetrisch“ können Sie<br />
das Übergangsmuster wählen, das der DTW-Algorithmus verwenden soll.<br />
11.3.1 Einschränkungen des Suchraums<br />
Wenn man Muster von mehreren Sekunden Länge mit dem DTW-<br />
Algorithmus vergleichen möchte, kann es lohnenswert sein, nicht die gesamte<br />
DTW-Matrix abzusuchen, sondern nur solche Zustände zu betrachten,<br />
die überhaupt betreten werden können oder sogar nur solche, die eine<br />
Mindestwahrscheinlichkeit haben. Das Bestimmen, welche Zustände als<br />
Nachfolger des Zustandes (i, j) in Frage kommen wird als ” Expandieren“<br />
von (i, j) bezeichnet. Zwei Sprachsignale mit jeweils 1000 Vektoren würden<br />
eine DTW-Matrix mit 1 000000 Elementen aufspannen. Auch wenn diese<br />
heute vom Speicherbedarf her unproblematisch wäre, so sollte zumindest<br />
aus Laufzeitgründen geprüft werden, wie das Expandieren eines Zustandes<br />
gegebenenfalls die Suche nach dem DTW-Pfad vereinfacht werden kann. Die<br />
Menge der besuchbaren Zustände wird DTW-Suchraum genannt.<br />
Auf jeden Fall sollten die resultierenden DTW-Pfade einige Erwartungen<br />
erfüllen, wie sie in Abb. 11.11 dargestellt sind. Es sollte sichergestellt sein,<br />
daß die Pfade von links unten nach rechts oben verlaufen. Sie sollten auch<br />
monoton sein. Eine Nichtmonotonie des Pfades würde bedeuteten, daß ein<br />
Teil einer Aufnahme mit zwei verschiedenen Teilen der anderen Aufnahme<br />
verglichen würde, etwas das für normale Spracherkennung keinen Sinn hat<br />
(außer gegebenenfalls beim Vergleichen eines Lachens bestehend aus vielen<br />
” ha“ mit einem Lachen bestehend aus einem einzigen ha“). Besonders<br />
”<br />
hohe Sprünge sollten vermieden werden, um so eine lokale Kontinuität des
172 11. Erkennung dynamischer Sprachsignale<br />
Pfades zu gewährleisten. Lange Stücke mit großer Steilheit bedeuten, daß<br />
ein sehr kleiner Teil einer Aufnahme mit einem sehr großen Teil der anderen<br />
verglichen würde. Eine mangelnde Geradlinigkeit des Pfades würde darauf<br />
hindeuten, daß die Sprechgeschwindigkeiten besonders ungleichmäßig wären,<br />
was zwar möglich aber eher unwahrscheinlich wäre. Und schließlich deutet<br />
eine extreme Abweichung des Pfades von der Diagonalen auch darauf hin,<br />
daß die Aufnahmen sehr schwer vergleichbar sind.<br />
Endpunkte<br />
links unten / rechts oben<br />
Monotonie lokale Kontinuität<br />
Geradlinigkeit nahe an der Diagonalen<br />
Abb. 11.11. Erwartungen an DTW-Pfade<br />
Einige Einsparungen am Suchraum ergeben sich direkt aus dem<br />
verwendeten Übergangsschema. Abb. 11.12 zeigt, daß bei bestimmten<br />
DTW-Übergangsschemata – wie z.B. dem Bakis-Schema ohne zwei aufeinanderfolgende<br />
horizontale Schritte – der DTW-Pfad eine Mindeststeigung<br />
von 1/2 und eine Maximalsteigung von 2 haben muß. Wenn der Pfad links<br />
unten beginnen und rechts oben enden muß, so bleibt nur ein rautenförmiger<br />
Bereich der gesamten DTW-Matrix übrig, der überhaupt ” betreten“ werden<br />
kann. Weder eine Expansion in den nicht betretbaren Teil der Matrix noch<br />
die Berechnung lokaler Distanzen ist nötig. Der vergrößerte Ausschnitt in der<br />
Abbildung zeigt, daß der mit dem Pfeil markierte Übergang nicht betrachtet<br />
werden muß, weil ein Betreten des Zielzustandes nicht mehr in Einem Pfad<br />
resultieren kann, dessen Ende rechts oben ist.<br />
Geht man davon aus, daß ein stark von der Diagonalen abweichender<br />
Pfad ohnehin nur bei schlecht übereinstimmenden Aufnahmen vorkommen<br />
kann, dann kann es sich lohnen, den DTW-Suchraum auf ein Fenster um
Steigung<br />
2<br />
1/2<br />
2<br />
11.3 Spracherkennung mittels Dynamic Time Warping 173<br />
Steigung<br />
1/2<br />
Abb. 11.12. Einschränkungen des DTW-Suchraumes<br />
die Diagonale herum zu beschränken, so daß aus der Raute eine Schlauch<br />
mit spitzen Enden entsteht. Dadurch reduziert sich der Rechenaufwand von<br />
O(n · m) auf O(n + m), also von quasi-quadratischem auf linearen Aufwand.<br />
Solche Suchraumeinschränkungen sind allerdings nicht immer anwendbar.<br />
Sie bieten sich an für Kleinsterkenner, die mit sehr wenigen<br />
Ressourcen auskommen müssen (wie zum Beispiel in Mobiltelefonen oder<br />
Haushaltsgeräten), und einen kleinen Wortschatz von unter 100 Wörtern<br />
beziehungsweise Kommandos erkennen können, die nur als isolierte Kommandos<br />
und nicht im Kontext beliebiger Sprache gesprochen werden dürfen.<br />
Auch dürfen keine Sprechpausen erlaubt sein, und die Sprechgeschwindigkeit<br />
muß bei der zu erkennenden Aufnahme und den abgespeicherten Mustern<br />
in etwas gleich groß sein. Abb. 11.13 zeigt, was geschehen kann, wenn die<br />
Sprechgeschwindigkeiten zu unterschiedlich sind und damit die Länge der<br />
Aufnahmen stark voneinander abweichen. Solange die Aufnahmen gleich<br />
lang sind, entsteht als Suchraum eine gleichseitige Raute. Diese verengt<br />
sich umso mehr, je unterschiedlicher die Aufnahmezeiten sind, und kann im<br />
Extremfall dazu führen, daß der Suchraum komplett verschwindet, wenn die<br />
eine Aufnahme mehr als doppelt so lang ist wie die andere.<br />
Möglichkeiten diesen Problemen zu begegnen gibt es in der vorherigen<br />
Längennormierung, bei der Jede Aufnahme auf eine vorher festgelegte Länge
174 11. Erkennung dynamischer Sprachsignale<br />
Abb. 11.13. Eingeschränktes Bakis-Modell ist problematisch für unterschiedlich<br />
lange Aufnahmen<br />
gestaucht oder gedehnt wird, oder in der Verwendung komplizierterer Übergangsschemata,<br />
die dann aber die Suchraumbeschränkung wie beim Bakis-<br />
Schema nicht mehr erlauben. Eine Längennormierung kann aber auch den<br />
nachteiligen Effekt der Verfälschung der Aufnahme haben und so zu mehr Erkennungsfehlern<br />
führen. In der Praxis hat sich gezeigt, daß die beste Möglichkeit<br />
sowohl den Suchraum einzuschränken als auch unterschiedliche Aufnahmelängen<br />
und beliebige Übergangsschemata zu verwenden in der Strahlsuche<br />
besteht.<br />
11.3.2 Dynamisches Programmieren mit Strahlsuche<br />
Der Begriff der Strahlsuche ist die Übersetzung aus dem Englischen beam<br />
search. Die Idee hierbei ist angelehnt an einen <strong>Mensch</strong>en, der im Dunkeln mit<br />
einer Taschenlampe einen Gegenstand sucht. Der Lichtkegel der Taschenlampe<br />
kann nun verschieden breit sein. Ein sehr breiter Strahl leuchtet einen<br />
großen Bereich des Suchraumes aus. Der Mesch muß dann entsprechend lange<br />
diesen ausgeleuchteten Bereich betrachten, festzustellen, ob der gesuchte<br />
Gegenstand darin liegt. Die Wahrscheinlichkeit ihn so zu finden ist dafür<br />
groß. Klein ist diese Wahrscheinlichkeit, wenn der Lichtkegel eher schmal ist.<br />
Dafür ist das Analysieren des ausgeleuchteten Bereichs in viel kürzerer Zeit<br />
möglich. Unter Umständen ist es sogar möglich, schnell Entscheidungen zu<br />
treffen, wo die Suche fortgesetzt werden soll. Eine Strahlsuche läuft darauf<br />
hinaus einen passende Strahlbreite zu finden, die einen guten Kompromiß<br />
darstellt zwischen Suchaufwand und Wahrscheinlichkeit das Gesuchte zu<br />
finden. Ein zu enger Strahl birgt die Gefahr, daß die Suche fehlschlägt, ein<br />
zu breiter, daß sie zu lange dauert.<br />
Abb. 11.14 zeigt wie die Strahlsuche beim DTW-Algorithmus angewandt<br />
werden kann. Im Suchraum gibt es dann drei verschiedene Arten von<br />
Zuständen: wahrscheinliche, unwahrscheinliche und unbesuchte. Ein Zustand<br />
wird als wahrscheinlich angesehen, wenn die für ihn akkumulierte Distanz<br />
unterhalb eines Schwellwertes liegt, sonst gilt er als unwahrscheinlich. Die<br />
Strahlsuche expandiert jeden wahrscheinlichen Zustand entsprechend des
11.3 Spracherkennung mittels Dynamic Time Warping 175<br />
verwendeten Übergangsschemas und expandiert die unwahrscheinlichen<br />
Zustände überhaupt nicht. Dies führt dann dazu, daß einige Zustände im<br />
Suchraum auch nicht besucht werden. Für diese finden dann auch keine<br />
Berechnungen von lokalen oder kumulativen Distanzen statt, und sie werden<br />
selbstverständlich auch nicht expandiert. Zu jedem Zeitpunkt der Sucht<br />
gibt es also eine Menge expandierbarer Zustände. Wenn darunter auch der<br />
Zielzustand (rechts oben in der DTW-Matrix) ist, dann kann die Suche<br />
beendet werden.<br />
nicht besuchte<br />
Zustände<br />
unwahrscheinliche<br />
Zustände<br />
wahrscheinliche<br />
Zustände<br />
Abb. 11.14. DTW mit Strahlsuche: nur wahrscheinliche Zustände werden expan-<br />
diert<br />
Der Schwellwert, der bestimmt, welche Zustände als wahrscheinlich gelten,<br />
kann entweder empirisch festgelegt werden, oder aber man kann ihn<br />
dynamisch während der Suche modifizieren, zum Beispiel so, daß er vergrößert<br />
wird (also der Strahl verbreitert wird), wenn nur wenige Zustände<br />
wahrscheinlich sind, und daß er verkleinert wird (engerer Strahl), wenn die<br />
Expansionsrate sehr hoch ist.
12. Hidden Markov Modelle<br />
Man kann sagen, daß alle Erkenner für sprecherunabhängige kontinuierliche<br />
Erkennung großer Vokabulare entweder direkt auf der Theorie der Hidden-<br />
Markov-Modelle beruhen oder zumindest wesentliche Teile der Erkenner nach<br />
deren Prinzipien funktionieren. Wegen der großen Bedeutung der Hidden-<br />
Markov-Modelle werden sie in diesem Kapitel detailliert behandelt.<br />
12.1 Probleme mit einfachen Mustervergleichern<br />
Wie bereits bei der Einführung des DTW-Algorithmus kennengelernt,<br />
bringen einfache Vergleiche von Sprachaufnahmen einige Probleme mit sich.<br />
Nicht nur die zeitliche Verzerrung spielt da eine Rolle, sondern vor allem<br />
die Menge der Referenzmuster. Bisher sind wir immer davon ausgegangen,<br />
daß wir für jedes zu erkennende Wort ein Referenzmuster abgespeichert<br />
haben. Dies bedeutet zum einen, daß wir entweder ein durchschnittliches auf<br />
viele Einzellfälle gar nicht gut passendes Muster verwenden, oder sehr viele<br />
Muster benötigen, was wiederum ein Problem für die Erkennerlaufzeit und<br />
für das Sammeln der Muster darstellt. Man stellt schnell fest, daß der reine<br />
Mustervergleichsansatz für die Erkennung sprecherunabhängiger Sprache<br />
eher ungeeignet ist.<br />
Ein weiteres gravierendes Problem ist die Skalierung des Aufwandes mit<br />
der Vokabulargröße. Wenn wir für jedes Wort ein Muster benötigen, dann<br />
sehen wir bald ein, daß ein Erkenner für Vokabulare in der Größenordnung<br />
10 5 kaum sinnvoll realisierbar ist. Insbesondere dann, wenn für jedes Wort<br />
auch noch mehrere Muster abgelegt werden sollen. Diese müßten vorher erst<br />
einmal mühevoll gesammelt werden.<br />
Abgespeicherte Muster sind nicht nur sprecherspezifisch, sondern auch<br />
umgebungsspezifisch. Das heißt, daß die Erkennungsrate bei Sprecherwechsel<br />
aber auch bei Umgebungswechsel (anderes Mikrophon, andere Raumakustik)<br />
abfällt.
178 12. Hidden Markov Modelle<br />
Wenn es um die Erkennung kontinuierlicher Sprache geht, dann machen<br />
Mustervergleicherkenner zusätzliche Schwierigkeiten. Der Dynamic Programming<br />
Algorithmus kann zwar für kontinuierliche Sprache eingesetzt werden,<br />
aber wir haben schon bei seiner Einführung auf Probleme hinsichtlich der<br />
Effizienz bei großen Vokabularen hingewiesen.<br />
Der schwerwiegendste Nachteil (abgesehen von der Erkennungsqualität)<br />
ist aber die Abhängigkeit vom Vokabular. Wenn für jedes zu erkennende<br />
Wort ein Muster abgespeichert werden muß, bedeutet dies, daß Wörter, für<br />
die keine Muster vorhanden sind, auch nicht erkannt werden können. Dies<br />
ist vor allem für Sprachen mit vielen Flexionsmöglichkeiten wie zum Beispiel<br />
die deutsche Sprache problematisch.<br />
Der innerhalb eines Jahres verwendete Wortschatz einer Tageszeitung<br />
kann leicht in der Größenordnung 10 6 liegen. Es ist im Deutschen völlig<br />
unproblematisch, neue Wörter zu bilden, die die meisten von uns noch<br />
nie gehört haben aber trotzdem auf Anhieb verstehen. Denken Sie zum<br />
Beispiel an diesen Satz: ” Das Kondensmilchdosenloch ist zugemilcht.“ Es<br />
ist wahrscheinlich, daß Sie die Hälfte der Wörter dieses Satzes zum ersten<br />
Mal lesen. Das erste seltene Wort ( ” Kondensmilchdosenloch“) illustriert<br />
die Fähigkeit der deutschen Sprache, einzelne Wörter zu größeren zusammenzukleben.<br />
Und das zweite ( ” zugemilcht“) zeigt, wie durch Flexion ein<br />
Wort aus Partikeln (Morphemen) gebildet werden kann. Die Behandlung<br />
solcher Probleme wird auch weiterhin schwierig sein, aber wenn wir bei der<br />
Erkennung mittels einfachen Mustervergleichen wie bisher kennengelernt<br />
bleiben wollen, werden solche Probleme kaum lösbar sein.<br />
Wir sehen schon, die Problematik läuft auf die Stückelung der Sprache<br />
hinaus. Ganze Wörter scheinen für die Spracherkennung problembehaftet<br />
zu sein. Das Trainieren von einzelnen Silben oder Phonemen, um deren<br />
Muster abzuspeichern, dürfte aber auch nicht erfolgversprechend sein. Die<br />
akustische Evidenz eines Phonems in einem Sprachsignal ist ziemlich klein<br />
(im Schnitt ca. 50 bis 60 ms). Derartig kurze Muster zu vergleichen zieht<br />
sehr hohe Fehlerraten nach sich.<br />
Wie stellen wir uns also den kontinuierlichen Spracherkenner vor? Welche<br />
Eigenschaften sollte er haben?<br />
Kurze Spracheinheiten<br />
Wir wollen nicht mit ganzen Wörtern als Einheiten arbeiten. Kurze Einheiten,<br />
aus denen Wörter ” zusammengebaut“ werden können sind geeigneter,<br />
weil sie öfter in den Trainingsdaten auftreten und so besser trainiert werden<br />
können. Und wir brauchen weniger Trainingsdaten, zumindest nicht mehr so
12.1 Probleme mit einfachen Mustervergleichern 179<br />
viele Daten, daß jedes zu erkennende Wort darin vorkommt.<br />
Sprecherunabhängigkeit<br />
Wir wollen Sprache von jedem beliebigen Sprecher erkennen können, ohne<br />
daß vorher eine Einlernphase nötig wäre. Das bedeutet, daß wir keine<br />
sprecherspezifischen Muster abspeichern sollten, sondern versuchen müssen,<br />
das aus dem Sprachsignal zu extrahieren, was über alle Sprecher hinweg<br />
invariant ist. Zumindest sollten wir versuchen die Varianz über verschiedene<br />
Sprecher irgendwie zu modellieren.<br />
Kontinuierliche Sprache<br />
Wir wollen nicht auf die Erzwingung von Stillepausen zwischen einzelnen<br />
Wörtern setzen. Jeder Sprecher soll ganz natürlich sprechen dürfen und dabei<br />
Pausen machen, wann er es für richtig hält. Dabei werden wir das Problem<br />
der Koartikulationseffekte lösen müssen. Ein Wort, das isoliert gesprochen<br />
wird, hört sich ganz anders an, als wenn es in einem Satz gesprochen wird.<br />
In einigen Sprachen – wie zum Beispiel dem Englischen oder Französischen<br />
– fallen die Koartikulationseffekte wesentlich deutlicher aus als in Sprachen<br />
wie Deutsch oder Japanisch. So spricht der US-Amerikaner Wörter, die mit<br />
einem S-Laut enden aus, als würden sie mit einem SH-Laut enden, wenn<br />
die Wörter gefolgt werden von einem Wort, das mit einem Y-Laut beginnt<br />
(z.B.: this year → thishyear). Ganz extrem wird es aber, wenn durch die<br />
Koartikulation eigentlich neue Wörter entstehen, so finden heute schon die<br />
koartikulierten Folgen want to oder give me als neue Wörter wanna und<br />
gimme Einzug in Wörterbücher. Auch im Deutschen gibt es derart heftige<br />
Koartikulationen: Wir sagen zum Beispiel solche Dinge wie hammer“ statt<br />
”<br />
” haben wir“ oder ” haste“ statt hast du“. Ein einfacher Mustervergleicher<br />
”<br />
hätte damit fast unlösbare Probleme. Unser idealer Erkenner sollte damit<br />
zurechtkommen.<br />
Unbekannte Wörter<br />
Es soll möglich sein, auch nicht trainierte Wörter dadurch zu erkennen,<br />
daß ihre Komponenten erkannt werden, und das Wort als Sequenz seiner<br />
Komponenten definiert wird. So erreichen wir eine Unabhängigkeit des<br />
Erkenners vom Vokabular. Im Idealfall kann der Erkenner unverändert für<br />
jede Aufgabe verwendet werden, wenn zuvor eine Datei erstellt wurde, in<br />
der steht, wie die zu erkennenden Wörter aus den Untereinheiten gebildet<br />
werden können.
180 12. Hidden Markov Modelle<br />
Mathematisches Fundament<br />
Es wäre schön, wenn die Verfahren, die unser idealer Erkenner verwendet,<br />
auf einer soliden mathematischen Grundlage basierten. Auf diese Art wäre<br />
es dann einfacher, Algorithmen nachzuvollziehen und deren Funktionsweise<br />
und Korrektheit zu begründen.<br />
12.2 Sprache als stochastischer Prozeß<br />
Der selbe Laut hört sich jedes Mal ein bißchen anders an, selbst wenn er<br />
vom selben Sprecher unter den selben Bedingungen artikuliert wird. Es ist<br />
praktisch ausgeschlossen, daß ein <strong>Mensch</strong> zwei identische Sprachsignale der<br />
durchschnittlichen Länge eines Phonems (ca. 50ms) von sich geben kann.<br />
Wenn bei der Vorverarbeitung des Signals soviel Information entfernt wird,<br />
daß ein 50ms langer Abschnitt mit nur wenigen Parametern beschrieben<br />
wird, kann dies zwar schon mal vorkommen, aber wenn es möglich wäre,<br />
genau die Information aus einem Sprachsignal zu extrahieren, die die phonetische<br />
Klasse des gesprochenen Lauts eindeutig bestimmt, dann wäre das<br />
Problem der Spracherkennung allein schon mit dieser Vorverarbeitung gelöst.<br />
Wir können aber leicht beobachten, daß ein bestimmter Laut, mehrmals<br />
gesprochen, in seinen Signalformen gewisse Ähnlichkeiten besitzt. So können<br />
wir zwar am Signal erkennen, ob ein Laut z.B. stimmhaft oder stimmlos<br />
ist. Es ist auch nicht weiter schwer, einen Erkenner zu bauen, der nur<br />
anhand des rohen Signals ein ” Ah“- von einem ” Sch“-Laut unterscheidet,<br />
aber es ist uns dennoch nicht möglich, genau die Eigenschaften anzugeben,<br />
die ein Signal haben muß, damit ein <strong>Mensch</strong> es als ein ” Ah“ erkennt. Das<br />
geht schon allein deshalb nicht, weil sich <strong>Mensch</strong>en untereinander, selbst<br />
nach beliebig häufigem genauem Hinhören, nicht einig sind, was in einer<br />
Aufnahme tatsächlich gesprochen wurde.<br />
Experimente [?] [?] haben gezeigt, daß selbst bei Aufnahmen von<br />
vorgelesenen Texten unter perfekten Aufnahmebedingungen die Hörer nicht<br />
zu 100% in der Lage waren, den gelesenen Text korrekt wiederzugeben,<br />
sondern auch 0.5% bis 2% Fehler machten. Bei sehr schlechten Aufnahmebedingungen<br />
wie sie z.B. beim Telefon vorliegen, kommt es sogar vor, daß der<br />
eine Hörer ein Wort wie ” Okay“ versteht, während ein anderer sich sicher<br />
ist, daß ” Yeah“ gesagt wurde.<br />
Man kann also festhalten, daß sowohl gilt, ein und dasselbe Signal kann<br />
verschieden interpretiert werden, als auch ein und derselbe Laut kann und<br />
wird in der Regel bei verschiedenen Äußerungen verschieden ausfallen.
12.2 Sprache als stochastischer Prozeß 181<br />
Betrachtet man die Signale mehrerer Aufnahmen eines Lautes, so stellt<br />
man fest, daß diese (wenn geeignet vorverarbeitet) mehr oder weniger von<br />
einem ” durchschnittlichen“ Signal abweichen. Je nachdem, wie die Definition<br />
eines Lautes ist (Phonem, Phon, etc.), kann es auch oft vorkommen, daß<br />
derselbe Laut verschiedene ” durchschnittliche“ Ausprägungen hat, z.B.<br />
in verschiedenen akustischen Kontexten. Wie ein Signal für einen Laut<br />
genau aussehen wird, kann man nur mit einer gewissen Wahrscheinlichkeit<br />
vorhersagen. Das heißt, man kann den Vorgang der Spracherzeugung als<br />
stochastischen Prozeß betrachten, stochastischer Prozeß ein Prozeß der<br />
bestimmte Signale emittiert in Abhängigkeit vom Zustand, in dem er sich<br />
gerade befindet. Als Zustände können die einzelnen Laute näherungsweise<br />
angenommen werden. Wenn jemand also das Wort ” Hallo“ sagt, nehmen<br />
wir näherungsweise an, daß sein Artikulationsapparat ca. vier Zustände (H,<br />
A, L, O) durchläuft, in jedem Zustand eine gewisse Zeit verweilt und in<br />
jedem Zustand ein Signal erzeugt (bzw. Symbol emittiert), dessen Form<br />
zufällig aber abhängig vom Zustand ausfällt. Wenn wir nun noch die Zeit<br />
diskretisieren und das gesamte Modell nur zu diskreten Zeitpunkten betrachten,<br />
wenn wir außerdem den Zustandswechseln zu jedem Zeitpunkt eine<br />
Wahrscheinlichkeit zuordnen, dann erhalten wir ein Markov Modell. Markov<br />
Modelle werden in der Forschung in verschiedenen Disziplinen verwendet.<br />
In der Spracherkennung typische Topologien sind in Abb. 12.1 dargestellt.<br />
Bei ergodischen Modellen sind alle Zustandsfolgen gleich gut möglich.<br />
Solche Modelle werden nur für spezielle Teilaufgaben der Spracherkennung<br />
verwendet. Für die Modellierung von Sprache findet man viel häufiger mehr<br />
oder weniger linear angeordnete Zustande. Im einfachsten Fall hat jeder<br />
Zustand nur einen Übergang zum nächsten Zustand und zu sich selbst.<br />
Beim Bakis-Modell kommen zusätzlich noch Übergänge zum übernächsten<br />
Zustand dazu. Dieses Bakis-HMM entspricht dem Bakis-Übergangsmuster<br />
beim DTW-Algorithmus (vgl. Abs. 11.2.1). Einige Erkenner verwendet noch<br />
weitere Sprünge, so daß – wie im links-nach-rechts Modell gezeigt beliebig<br />
viele Zustände übersprungen werden können. Gelegentlich ist es sinnvoll<br />
zwei einfache Modelle als Alternativen parallel zu schalten. Dies wird vor<br />
allem dann genutzt, wenn für dasselbe Phänomen zwei verschiedene Modelle<br />
(z.B. zwei verschiedene Aussprachen desselben Wortes) eingesetzt werden.<br />
Ein gerne verwendetes Beispiel für Markov Modelle ist das Wetter.<br />
Man stelle sich vor, das Wetter kann zwei Zustände annehmen, nämlich<br />
” schönes Wetter“ und schlechtes Wetter“. Dabei kann sowohl bei schönem<br />
”<br />
Wetter als auch bei schlechtem Wetter die Sonne scheinen. Sicher ist es<br />
wahrscheinlicher, daß man das Wetter als schön bezeichnet, wenn die<br />
Sonne scheint, aber auch ohne Sonnenschein kann dies mit einer kleinen<br />
Wahrscheinlichkeit vorkommen. Außerdem kann man meist beobachten, daß<br />
das Wetter ein wenig konstant ist. Das heißt, wenn das Wetter erst einmal
182 12. Hidden Markov Modelle<br />
linear<br />
links-nach-rechts<br />
alternative Pfade<br />
Bakis<br />
ergodisch<br />
Abb. 12.1. Verschiedene Topologien für Hidden-Markov-Modelle<br />
schlecht ist, dann ist die Wahrscheinlichkeit dafür, daß es am nächsten<br />
Tag auch schlecht ist, größer, als daß es gut ist (ungeachtet irgendwelcher<br />
Wettervorhersagen). Man könnte zwei Wochen lang das Wetter beobachten<br />
und jeden Tag notieren, ob das Wetter schön oder schlecht war und ob<br />
die Sonne geschienen hat. Dann könnte eine Tabelle wie 12.2 entstehen (+<br />
bedeutet schönes Wetter, − bedeutet schlechtes Wetter).<br />
Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
Zustand + + + + – – – + + – – + + +<br />
Sonne<br />
Tabelle 12.1. Beispiel für 14 Tage Wetterbeobachtungen<br />
Der Tabelle kann man entnehmen, daß von den 14 protokollierten Tagen<br />
9 als schön und 5 als schlecht markiert wurden. An 6 der 9 schönen Tage<br />
schien die Sonne, während sie nur an einem der 5 schlechten Tage zu sehen<br />
war. Insgesamt fanden zwischen den 14 Tagen 13 Zustandsübergänge statt,<br />
davon waren 6 Übergänge von schön“ nach schön“, 2 von schön“ nach<br />
” ” ”<br />
” schlecht“, 3 von ” schlecht“ nach ” schlecht“ und 2 von schlecht“ nach<br />
”<br />
” schön“. Das heißt zum Beispiel, daß die Wahrscheinlichkeit, dafür daß das<br />
Wetter, wenn es einmal schön ist, mit 75%-iger Wahrscheinlichkeit auch am
12.2 Sprache als stochastischer Prozeß 183<br />
folgenden Tag schön ist. Daraus läßt sich das Markov Modell in Abbildung<br />
12.2 konstruieren.<br />
Die Zustandsübergänge sind mit ihren entsprechenden Wahrscheinlichkeiten<br />
markiert. In jedem Zustand ist zudem eine diskrete Wahrscheinlichkeitsverteilung<br />
über dem diskreten Raum der zwei möglichen Beobachtungen<br />
” Sonnenschein“ und kein Sonnenschein“ gegeben. Entsprechend der Sprech-<br />
”<br />
weise ein Zustand emittiert ein Merkmal“ werden diese Verteilungen auch<br />
”<br />
Emissionswahrscheinlichkeitsverteilungen genannt. In diesem Beispiel sind<br />
wir davon ausgegangen, daß am ersten Tag der Beobachtungen schönes<br />
Wetter war.<br />
Da wir nur zwei Wochen protokolliert haben, können wir keine sinnvolle<br />
Aussage über die Wahrscheinlichkeit der Art des ersten Zustandes machen.<br />
Würden wir mehrere unabhängige Beobachtungssequenzen protokollieren,<br />
dann könnten wir aus den einzelnen ersten Zuständen auch eine Wahrscheinlichkeitsverteilung<br />
für diese schätzen.<br />
P( |+)<br />
P(¬ |+)<br />
P(−|+)<br />
P(+|+)<br />
+ −<br />
P(+|−)<br />
P(−|−)<br />
Abb. 12.2. HMM zur Modellierung des Wetters<br />
P( |−)<br />
P(¬ |−)<br />
Abb. 12.2 stellt das HMM dar, das die Beobachtung von Tab. 12.2<br />
modelliert. Hierbei ist die Wahrscheinlichkeit für einen Übergang von<br />
gutem zu gutem Wetter P(+|+) = 0.75, von guten zu schlechten Wetter<br />
P(−|+) = 0.25, von schlechtem zu gutem Wetter P(+|−) = 0.4, und dafür<br />
daß das Wetter schlecht bleibt P(−|−) = 0.6. Die Wahrscheinlichkeit dafür,<br />
bei schönem Wetter Sonnenschein zu beobachten, ist P( |+) = 2/3, bei<br />
schönem Wetter keine Sonne zu sehen P(¬ |+) = 1/3, bei schlechtem<br />
Wetter die Sonne zu sehen P( |−) = 0.2 und bei schlechtem Wetter keine<br />
Sonne zu sehen P(¬ |−) = 0.8.<br />
Das so erhaltene Markov Modell kann nun auch dazu verwendet werden,<br />
beispielhafte Zustandsfolgen und Beobachtungssequenzen zu generieren. Wir<br />
nehmen der Einfachheit halber an, daß am ersten Beobachtungstag immer<br />
schönes Wetter ist. Dann lassen wir einen Zufallsgenerator entsprechend
184 12. Hidden Markov Modelle<br />
der Emissionswahrscheinlichkeitenverteilung des Zustands ” schön“ mit<br />
9/14 Wahrscheinlichkeit die Sonne scheinen. Dann wählen wir zufällig den<br />
Zustand für den zweiten Tag, der mit 75%-iger Wahrscheinlichkeit wieder<br />
schön sein wird, und machen von dort aus weiter.
12.2 Sprache als stochastischer Prozeß 185<br />
Experiment 12.1: Markov Modell als Wetter-Zufallsgenerator<br />
Starten Sie das Applet WeatherHMM und klicken Sie auf Rücksetzen . Auf<br />
dem Bildschirm sind die Zustände ” schön“ und ” schlecht“ dargestellt mit<br />
ihren möglichen Übergängen und den initialen Übergangswahrscheinlichkeiten.<br />
Neben jedem Zustand ist eine diskrete Wahrscheinlichkeitsverteilung<br />
in Form eines Balkendiagramms zu sehen. Jeder Zustand ist außerdem<br />
mit der Wahrscheinlichkeit π, erster Zustand zu sein, versehen. Rechts<br />
neben der Modelldarstellung sehen Sie einen Kalenderausschnitt, in dem<br />
die Wetterbeobachtungen und Zustandsbestimmungen protokolliert werden.<br />
Der Kalender ist zunächst leer.<br />
Jedes Mal, wenn Sie auf Nächster Tag klicken wird für den nächsten<br />
freien Kalendertag ein neuer Zustand zufällig gewählt und dann zufällig die<br />
Beobachtung ” Sonnenschein“ oder ” kein Sonnenschein“ gemacht.<br />
Sie können durch Klicken auf einen Wahrscheinlichkeitswert (Übergang oder<br />
Emissionswahrscheinlichkeit oder Initialwahrscheinlichkeit) diesen um 0.1<br />
erhöhen. Dabei wird die entsprechende Komplementärwahrscheinlichkeit<br />
automatisch um 0.1 erniedrigt.<br />
Versuchen Sie, verschiedene Wahrscheinlichkeitswerte einzustellen, und<br />
erzeugen Sie zufällige Zustandsfolgen.<br />
Das obige Protokoll wäre mit seinen 9 schönen Tagen vermutlich im<br />
Sommer gemacht worden. In einem Wintermonat hätte das Protokoll<br />
wohl anders ausgesehen, und wir hätten ein anderes Markov Modell erhalten.<br />
Wäre neben dem Sommermodell auch ein Wintermodell definiert,<br />
bestünde eine interessanteste Aufgabe darin, festzustellen, welches Modell<br />
am wahrscheinlichsten für eine gegebene Beobachtung ist. Oder – um<br />
wieder in die Terminologie der Spracherkennung zu kommen – welches Wort<br />
am wahrscheinlichsten gesprochen wurde, wenn uns nur die Beobachtung<br />
gewisser Merkmale gegeben ist. Bevor wir uns diesem Problem zuwenden<br />
betrachten wir zunächst einige einfachere Probleme. Das einfachste wird<br />
allgemein als das Evaluierungsproblem bezeichnet. Dabei geht es darum, bei<br />
einem gegebenen Markov Modell die gemeinsame Wahrscheinlichkeit für eine<br />
Zustandsfolge und Beobachtungsfolge zu ermitteln. Um dies zu berechnen<br />
führen wir im folgenden einen Formalismus ein.
186 12. Hidden Markov Modelle<br />
12.3 Der HMM-Formalismus<br />
Definition: Ein Markov Modell λ ist ein Fünftupel (S, A, B, π, V ). Dabei<br />
sind die Komponenten eines HMMs gegeben als:<br />
S Die Menge aller Zustände: S = {s1, . . .sn}<br />
A Die Zustandsübergangsmatrix: A = (aij), mit aij ist die Wahrscheinlichkeit,<br />
daß nach Zustand si der Zustand sj folgt.<br />
B Die Menge der Emissionswahrscheinlichkeitsverteilungen bzw.<br />
Dichten: B = {b1, . . . bn}, bi(x) = die Wahrscheinlichkeit, im Zustand<br />
si die Beobachtung x zu machen.<br />
π Die Anfangswahrscheinlichkeitsverteilung: π(i) = Wahrscheinlichkeit,<br />
daß si der erste Zustand ist<br />
V Der Merkmalsraum, d.h. der Definitionsbereich von bi, der diskret<br />
sein kann (V = {v1, v2, . . .} ⇒ bi ist Wahrscheinlichkeit) oder<br />
kontinuierlich sein kann (V = R d ⇒ bi ist Dichte)<br />
Gelegentlich findet man in der Literatur auch Definitionen für Markov<br />
Modelle, bei denen die Emissionen nicht an Zustände sondern<br />
an Zustandsübergänge gebunden sind. Dann wird nicht von einer zustandsindizierten<br />
Menge von Emissionswahrscheinlichkeitsverteilungen<br />
B = {b1, . . . bn} gesprochen, sondern von einer übergangsindizierten Menge<br />
B = {b1,1, . . . b1,n, . . . bn,n} wobei bi,j(x) die Wahrscheinlichkeit dafür ist,<br />
daß beim Übergang von Zustand si in den Zustand sj die Beobachtung x<br />
emittiert wird. Je nach Sichtweise kann man mit den zustandsindizierten<br />
Modellen bestimmte Sachverhalte kompakter ausdrücken, aber qualitativ<br />
unterscheiden sich die beiden Modellarten nicht. Keines ist wirklich mächtiger.<br />
Mit welcher Art man rechnet, hängt eher vom eigenen Geschmack oder<br />
von der Implementierung ab.<br />
Selbstverständlich müssen die Komponenten von HMMs bestimmte Eigenschaften<br />
erfüllen, damit das mathematische Fundament korrekt ist. Dazu<br />
gehören:<br />
• Anfangswahrscheinlichkeiten:<br />
Offensichtlich muß gelten n i=1 π(i) = 1. In der Praxis wird meist eine<br />
Vereinfachung verwendet, wonach π(i) = 1 für i = 0 und π(i) = 0 für<br />
alle anderen Zustände. Damit entfällt zum einen das Trainieren der<br />
Anfangswahrscheinlichkeiten und zum anderen vereinfacht es die Lösung
12.4 Die drei Probleme der Hidden Markov Modelle 187<br />
der unten vorgestellten zentralen Probleme der Hidden Markov Modelle.<br />
Da HMMs für Spracherkennung in der Regel immer eine Äußerung<br />
umfassen, die dadurch gekennzeichnet ist, daß davor und danach Stille<br />
ist. Daher kann man normalerweise problemlos davon ausgehen, daß bei<br />
jedem Sprach-HMM der jeweils erste und letzte Zustand fest vorgegeben<br />
sind und für den Stille-Laut stehen.<br />
• Übergangswahrscheinlichkeiten:<br />
Die Summe der Wahrscheinlichkeiten aller aus einem Zustand ausgehenden<br />
Übergänge muß 1 sein: n<br />
j=1 aij = 1. Dies gilt natürlich nicht für die<br />
eingehenden Übergänge. In der Spracherkennung werden – abgesehen<br />
von gelegentlichen Spezialproblemen – keine Hidden Markov Modelle<br />
verwendet, bei denen es möglich wäre von jedem Zustand in jeden anderen<br />
überzugehen. So gilt meist, daß die meisten Koeffizienten der Matrix A<br />
der Zustandsübergangswahrscheinlichkeiten 0 sind, und lediglich in der<br />
Nähe der Diagonalen Werte ungleich 0 auftreten.<br />
Der Begriff der Hidden Markov Modelle hat sich so auch im Deutschsprachigen<br />
Raum eingebürgert, auch wenn man gelegentlich von ” versteckten“<br />
oder ” verdeckten“ Markov Modellen spricht. Sie heißen so, weil die tatsächliche<br />
Zustandsfolge, die ein stochastischer Prozeß durchläuft, im Verborgenen<br />
bleibt. Es ist für eine gegebene Beobachtung lediglich möglich, eine Aussage<br />
darüber zu treffen, welche Zustandsfolge welche Wahrscheinlichkeit hat, aber<br />
nicht welche ” in Wirklichkeit“ durchlaufen wurde.<br />
12.4 Die drei Probleme der Hidden Markov Modelle<br />
Sicherlich gibt es unzählige Probleme, die mit Hilfe von Hidden Markov<br />
Modellen bearbeitet werden können, ebenso zahlreich sind die Probleme, auf<br />
die man stößt, wenn man Hidden Markov Modelle entwickeln und mit ihnen<br />
arbeitet möchte. In diesem Abschnitt werden die drei als fundamental angesehenen<br />
Probleme, das Evaluierungsprobleme, das Dekodierungsproblem<br />
und das Optimierungs- bzw. Lernproblem behandelt. Alle drei Probleme<br />
gehen von der gleichen Ausgangssituation aus: Es ist ein bereits vorhandenes<br />
HMM und eine Beobachtung gegeben. Das Evaluierungsproblem betrifft<br />
die Berechnung der Wahrscheinlichkeit, mit der das gegebene HMM die<br />
gegebene Beobachtung emittiert. Das Dekodierungsproblem beschreibt, wie<br />
die in der Praxis weder bekannte noch meist überhaupt tatsächlich vorhandene<br />
Zustandsfolge berechnet werden kann, bzw. wie die wahrscheinlichste<br />
unter ihnen gefunden wird. Das Optimierungs- oder Lernproblem versucht
188 12. Hidden Markov Modelle<br />
aus dem gegebenen HMM ein neues zu berechnen, das mit einer größeren<br />
Wahrscheinlichkeit die gegebene Beobachtung emittiert.<br />
12.4.1 Das Evaluierungsproblem<br />
Formal läßt sich das Evaluierungsproblem wie folgt beschreiben:<br />
gegeben: HMM λ und Beobachtung X = (x1, x2, . . . xT)<br />
gesucht: die Wahrscheinlichkeit P(X|λ)<br />
Betrachten wir zuvor ein einfacheres Problem, nämlich das Evaluierungsproblem<br />
mit zusätzlich gegebener Zustandsfolge:<br />
gegeben: HMM λ und Beobachtung X = (x1, x2, . . .xT) und Zustandsfolge<br />
sq1, sq2, . . . sqT<br />
gesucht: die Wahrscheinlichkeit P(X|λ, sq1, sq2, . . .sqT )<br />
Diese Wahrscheinlichkeit läßt sich direkt aus der Definition der Hidden<br />
Markov Modelle ableiten. Sie beträgt:<br />
<br />
T −1<br />
P(X|λ, sq1, sq2, . . . sqT ) = π(sq1)bq1(x1)<br />
vereinfachtes Evaluierungsproblem<br />
k=1<br />
Experiment 12.2: Das vereinfachte Evaluierungsproblem<br />
aqk,qk+1 bk+1(xk+1) (12.1)<br />
Starten sie das Applet WeatherHMM und klicken Sie auf Rücksetzen .<br />
Geben Sie eine beliebige Folge von Beobachtungen und Zuständen ein.<br />
Klicken Sie auf die Schaltfläche Evaluieren .<br />
Je nachdem, was für ein Merkmalsraum verwendet wird, also je<br />
nachdem, ob die xt diskrete oder kontinuierliche Beobachtungen sind,<br />
berechnet man mit dem Evaluierungsproblem eine Wahrscheinlichkeit<br />
P(X|λ, sq1, sq2, . . .sqT ) oder eine Dichte p(X|λ, sq1, sq2, . . .sqT ). Der<br />
Einfachheit halber beschränken wir uns hier auf die Version mit der
12.4 Die drei Probleme der Hidden Markov Modelle 189<br />
Wahrscheinlichkeit. Die Gleichungen werden zunächst für beide Versionen<br />
identisch sein.<br />
Aus Gleichung 12.1 und aus<br />
P(X|λ) = <br />
P(X|λ, sq1, sq2, . . .sqT ) (12.2)<br />
q1,q2,...qT<br />
läßt sich ableiten:<br />
P(X|λ) = <br />
q1,q2,...qT<br />
T −1<br />
π(sq1) · bq1(x1) · aqk,qk+1 · bk+1(xk+1) (12.3)<br />
Gleichung 12.3 drückt also aus, daß sich die Wahrscheinlichkeit, X im<br />
Modell λ zu beobachten, aus der Summe der entsprechenden bedingten<br />
Wahrscheinlichkeiten über alle Zustandsfolgen berechnen läßt. (Man beachte,<br />
daß die Laufvariable der Summe eine Zustandsfolge als Wert hat und nicht<br />
einzelne Zustände.) Offensichtlich läßt sich dies – obwohl als geschlossene<br />
Formel gegeben – so nur für triviale Markov Modelle mit sehr wenigen<br />
Zuständen berechnen. Bei n verschiedenen Zuständen gibt es immerhin n!<br />
verschiedene Zustandsfolgen. Eine andere Art der Berechnung ist also nötig.<br />
Am anschaulichsten wird das Evaluierungsproblem mit Hilfe des<br />
Forward-Algorithmus berechnet. Der Begriff ” Forward“-Algorithmus kommt<br />
vom so genannten ” Forward-Backward“ Algorithmus, der zur Lösung des<br />
Optimierungsproblems verwendet wird. Für das Evaluierungsproblem wird<br />
nur ein Teil des Forward-Backward verwendet. Die zentrale Idee hinter dem<br />
Forward-Algorithmus ist die rekursive Berechnung von P(x1, x2, . . . xt|λ) als<br />
Funktion von t − 1:<br />
Offensichtlich gilt:<br />
k=1<br />
P(x1, x2, . . . xT |λ)<br />
= <br />
j=1..n P(x1, x2, . . . xT , qT = j |λ)<br />
(12.4)<br />
Übrigens gilt Gleichung 12.4 selbstverständlich nicht nur für qT sondern<br />
auch für jedes beliebige qt.<br />
Sei nun<br />
αt(j) = P(x1, x2, . . .xt, qt = j|λ) (12.5)<br />
Es bezeichnet also αt(j) die Wahrscheinlichkeit, daß sich das HMM λ<br />
zum Zeitpunkt t im Zustand sqt befindet und bis dahin die Beobachtung<br />
x1, x2, . . .xt gemacht bzw. emittiert wurde. Ähnlich wie beim Dynamischen<br />
Programmieren in Abschnitt 11.2 kann αt(j) berechnet werden aus verschiedenen<br />
αt−1(. . .).
190 12. Hidden Markov Modelle<br />
αt−1(1)<br />
αt−1(i)<br />
αt−1(n)<br />
...<br />
si<br />
...<br />
aij<br />
a1j<br />
anj<br />
Abb. 12.3. Berechnung von αt(. . .) aus αt−1(. . .)<br />
αt(j)<br />
Die Wahrscheinlichkeit, zum Zeitpunkt t im Zustand j zu sein, läßt sich<br />
berechnen aus den Wahrscheinlichkeiten, zum Zeitpunkt t − 1 im Zustand<br />
si, (i = 1 . . .N) zu sein und dann den Übergang von si nach sj zu machen.<br />
Wenn wir dann noch zusätzlich die Beobachtung weiterführen erhalten wir<br />
(s. Abb. 12.3 und 12.4):<br />
αt(j) = bj(xt) ·<br />
N<br />
αt−1(i) · aij<br />
i=1<br />
(12.6)<br />
Den Rekursionsanfang machen die α1(j), die Wahrscheinlichkeit, als<br />
erstes mit dem Zustand sj anzufangen und dabei x1 zu beobachten. Also ist<br />
α1(j) = π(j) · bj(x1).<br />
αt(j + 1)<br />
p(x1, . . . xt−1, qt−1 = j + 1|λ)<br />
αt(j)<br />
p(x1, . . . xt−1, qt−1 = j|λ)<br />
αt(j − 1)<br />
p(x1, . . . xt−1, qt−1 = j − 1|λ)<br />
αt(j − 2)<br />
p(x1, . . . xt−1, qt−1 = j − 2|λ)<br />
αt+1(j)<br />
p(x1, . . . xt, qt = j|λ)<br />
Abb. 12.4. Der Schritt im Forward-Algorithmus: αt(j) = bj(xt) <br />
i aijαt−1(i)
12.4 Die drei Probleme der Hidden Markov Modelle 191<br />
Der gesuchte Wert für die Wahrscheinlichkeit, bei gegebenem HMM λ die<br />
Beobachtung X = x1, x2, . . .xn zu machen, läßt sich direkt aus den Gl. 12.4<br />
und 12.5 folgern:<br />
P(X|λ) =<br />
n<br />
αT(j) (12.7)<br />
j=1<br />
Durch die rekursive Definition von αt(j) läßt sich nun P(X|λ) statt<br />
durch Gl. 12.3 in O(T · n T ) mit dem Forward-Algorithmus viel schneller in<br />
O(T · n) berechnen (unter der Annahme, daß die Zahl der Übergänge mit<br />
positiver Wahrscheinlichkeit für jeden Zustand durch eine kleine Konstante<br />
nach oben begrenzt ist). Der Forward-Algorithmus ist zudem auch sehr<br />
speichereffizient, weil zu jedem Zeitpunkt t lediglich Speicherplatz für die<br />
αt−1(. . .) und die αt(. . .) benötigt wird. Alle zuvor berechneten α1...t−2(. . .)<br />
werden nicht mehr benötigt. D.h. aus der Sicht eines DP-Algorithmus<br />
werden immer nur zwei Spalten der DP-Matrix im Speicher gehalten.<br />
Mit Hilfe des Forward-Algorithmus läßt sich auch ein Erkennungsalgorithmus<br />
konstruieren. Hierbei gehen wir davon aus, daß eine Sprachaufnahme in<br />
eine von K Klassen klassifiziert werden muß. Diese Klassen könnten beispielsweise<br />
einzelne Phoneme, ganze Wörter oder sogar Phrasen sein. Gesucht ist<br />
also zu einer Aufnahme X die Klasse Ĉ mit:<br />
Ĉ = argmax<br />
C<br />
P(λC|X) = argmaxP(X|λC)<br />
· P(C) (12.8)<br />
C<br />
wobei λC das zur Klasse C gehörende HMM ist, und P(C) die zuvor<br />
ermittelte a priori Wahrscheinlichkeit für die Klasse C ist. Die Klassifikation<br />
läuft so ab, daß für alle in Frage kommenden Klassen mit Hilfe<br />
des Forward-Algorithmus P(X|λC) berechnet wird und unter allen das<br />
Maximum entsprechend Gl. 12.8 gewählt wird.<br />
Experiment 12.3: Erkennung mit dem Forward-Algorithmus<br />
Starten sie das Applet WeatherHMM und klicken Sie auf Rücksetzen .<br />
Geben Sie irgend eine Folge X von Beobachtungen ohne Zustände ein.<br />
Wählen Sie einmal das Sommer-Modell und klicken Sie auf die Schaltfläche<br />
Evaluieren . Das Ergebnis ist der Wert P(X|Sommer). Berechnen sie<br />
entsprechend P(X|Winter).<br />
Unter der Annahme, daß P(Sommer) = P(Winter) kann man nun schließen,<br />
daß wenn P(X|Sommer) > P(X|Winter) und die Beobachtung X gemacht<br />
wurde, die aktuelle Jahreszeit eher der Sommer ist.
192 12. Hidden Markov Modelle<br />
Wiederholen Sie dieses Experiment für verschiedene Beobachtungen und für<br />
verschiedene Einstellungen der Sommer- und Winterparameter.<br />
12.4.2 Das Dekodierungsproblem<br />
Beim Dekodierungsproblem manifestiert sich ganz besonders die Tatsache,<br />
daß Hidden Markov Modelle eben doch nur Modelle sind, die die Wirklichkeit<br />
mehr oder weniger gut modellieren. Man kann sagen, ein Modell ist dann<br />
gut, wenn es die Wirklichkeit zuverlässig vorhersagen kann. Im Falle der<br />
Hidden Markov Modelle hieße das, daß ein HMM gut ist, wenn der Wert<br />
P(X|λ) der tatsächlichen Wahrscheinlichkeitsverteilung sehr ähnlich ist.<br />
Allerdings ergeben sich hierbei zwei kaum lösbare Probleme: Zum einen<br />
läßt sich die ” tatsächliche“ Wahrscheinlichkeitsverteilung meist gar nicht<br />
bestimmen und die vom HMM berechnete Modellverteilung ist sowieso die<br />
beste bekannte. Zum anderen bleibt es fragwürdig, ob ein Hidden Markov<br />
Modell überhaupt geeignet ist. Insbesondere muß man sich die Frage gefallen<br />
lassen, welcher Zustand der Wirklichkeit einem Zustand des Markov Modells<br />
entspricht, oder sogar noch tiefgreifender: läuft die Wirklichkeit überhaupt<br />
in Zuständen und Zustandsübergängen statt. Aus der Sicht der Spracherkennung<br />
könnten Zustände der Sprachproduktion in etwa den IPA-Lauten<br />
entsprechen. Betrachten wir aber ein digitalisiertes Sprachsignal, so sehen<br />
wir in der Regel keine exakt bestimmbaren Zeitpunkte, an denen ein Laut<br />
endet und der folgende Laut anfängt. Ähnlich wie bei Diphthongen, die<br />
Übergänge von einem in einen anderen Vokal sind, gibt es auch bei fast<br />
allen Lautpaaren mehr oder weniger fließende Übergänge. Zwar ist es oft<br />
möglich, einen Bereich des Sprachsignals eindeutig einem Laut zuzuordnen,<br />
aber die Übergänge sind eher unscharf, so daß man nicht von einem klaren<br />
Zustandsübergang sprechen kann. Trotzdem muß das HMM die Wirklichkeit<br />
so modellieren, als würden Sprünge stattfinden.<br />
Das Dekodierungsproblem hat zum Ziel, herauszufinden, welche Zustandsfolge<br />
am ehesten durchlaufen wurde. Formal bedeutet das:<br />
gegeben: HMM λ und Beobachtung X = (x1, x2, . . . xT)<br />
gesucht: die wahrscheinlichste Zustandsfolge sq1, sq2, . . .sqT<br />
also<br />
argmax P(q1, q2, . . . qT |x1, x2, . . . xT , λ) (12.9)<br />
q1,q2,...qT<br />
Dies läßt sich nach Bayes schreiben als
12.4 Die drei Probleme der Hidden Markov Modelle 193<br />
P(q1, q2, . . . qT , x1, x2, . . .xT |λ)<br />
argmax<br />
q1,q2,...qT P(x1, x2, . . .xT |λ)<br />
(12.10)<br />
= argmax P(q1, q2, . . . qT , x1, x2, . . .xT |λ) (12.11)<br />
q1,q2,...qT<br />
Ähnlich wie beim Forward-Algorithmus können wir sowohl den<br />
Wert maxq1,q2,...qt P(q1, q2, . . .qt , x1, x2, . . . xt|λ) aus der Kenntnis von<br />
P(q1, q2, . . . qt−1 , x1, x2, . . . xt−1|λ) für alle q1, q2, . . . qt−1 berechnen, als auch<br />
den für jeden Zustand j zum Zeitpunkt t ” besten“ Vorgängerzustand rt(j)<br />
(s. Abb. 12.5 und 12.6):<br />
zt(j) = bj(xt)max<br />
i aijzt−1(i) (12.12)<br />
rt(j) = argmaxaijzt−1(i)<br />
i<br />
(12.13)<br />
zt−1(1)<br />
zt−1(i)<br />
zt−1(n)<br />
...<br />
si<br />
...<br />
aij<br />
a1j<br />
rt(j)<br />
anj<br />
Abb. 12.5. Berechnung von zt(. . .) aus zt−1(. . .)<br />
zt(j)<br />
Das Verfahren, das auf die iterative Auswertung der Gl. 12.12 und<br />
12.13 basiert ist dem Forward-Algorithmus insofern ähnlich, als es die<br />
gleichen Vorwärtsschritte verwendet, wobei statt der Addition von Wahrscheinlichkeiten<br />
deren Maximierung durchgeführt wird. Er ist auch dem<br />
DTW-Algorithmus insofern ähnlich, als zt(j) der kumulativen Distanz des<br />
Zustands (t, j) entspricht, wobei statt der Minimierung der Distanzsumme<br />
hier eine Maximierung der Wahrscheinlichkeit berechnet wird. Dieser<br />
Algorithmus wird Viterbi-Algorithmus [?] genannt, nach Andrew Viterbi<br />
[?]. Genau so wie beim DTW-Algorithmus werden auch beim Viterbi-<br />
Algorithmus Rückwärtszeiger gespeichert (Gl. 12.13 entspricht Gl. 11.3),<br />
aus denen dann ein Viterbi-Pfad q∗ 1, q∗ 2, . . .q ∗ T rekursiv berechnet wird gemäß:<br />
q ∗ t =<br />
argmaxj zT(j) für t = T<br />
rt(q ∗ t+1) für t < T<br />
(12.14)
194 12. Hidden Markov Modelle<br />
zt(j + 1)<br />
max t−1 P(Q Q<br />
1<br />
t−1<br />
1 , qt−1 = j + 1 , X t−1<br />
1 |λ)<br />
zt(j)<br />
max t−1 P(Q Q<br />
1<br />
t−1<br />
1 , qt−1 = j , X t−1<br />
1 |λ)<br />
zt(j − 1)<br />
max t−1 P(Q Q<br />
1<br />
t−1<br />
1 , qt−1 = j − 1 , X t−1<br />
1 |λ)<br />
zt(j − 2)<br />
max t−1 P(Q Q<br />
1<br />
t−1<br />
1 , qt−1 = j − 2 , X t−1<br />
1 |λ)<br />
zt+1(j)<br />
max Q t 1 P(Q t 1, qt = j , X t 1|λ)<br />
Abb. 12.6. Der Viterbi-Schritt: zt(j) = bj(xt) maxi aijzt−1(i)<br />
Ähnlich der Forderung beim DTW-Algorithmus, daß der DTW-Pfad<br />
im Zustand, der dem rechten oberen DP-Matrixelement entspricht, enden<br />
soll, verwendet man gerne HMM-Architekturen, die einen ausgezeichneten<br />
Finalzustand qF haben, so daß in Gl. 12.14 q∗ T = qF gesetzt wird.<br />
Abschließend sei noch einmal bemerkt, daß der Viterbi-Algorithmus<br />
nicht berechnet, durch welche Zustände ein als HMM modellierter stochastischer<br />
Prozeß gelaufen sein muß, um eine bestimmte Beobachtungssequenz<br />
zu emittieren, sondern vielmehr die wahrscheinlichste Folge unter vielen<br />
möglichen.<br />
12.4.3 Das Optimierungsproblem<br />
Spracherkenner werden ” trainiert“, auch solche, die sprecherunabhängig<br />
sind. Hidden Markov Modelle sind viel zu kompliziert, als daß es eine<br />
einfache Methode gäbe, für alle Parameter eines Erkenners analytisch<br />
mit Hilfe einer geschlossenen Formel den optimalen Wert zu berechnen.<br />
Daher werden solche Systeme iterativ optimiert. Im Gegensatz zu manchen<br />
mathematischen (stochastischen oder konnektionistischen) Modellen ist es<br />
bei nichttrivialen HMMs nicht einfach möglich, als Optimierungskriterium<br />
die Erkennungsgenauigkeit zu berechnen und diese nach jedem Parameter<br />
abzuleiten, um so diejenige Änderung des Parameters zu bestimmen, die den<br />
besten Effekt auf die Optimierungsfunktion hat.<br />
Iteratives Optimieren bei Hidden Markov Modellen bedeutet, daß wir<br />
zu verschiedenen Zeitpunkten i verschiedene Modelle λi haben, so daß gilt:
12.4 Die drei Probleme der Hidden Markov Modelle 195<br />
Q(λi+1) > Q(λi) für eine bestimmte Optimierungsfunktion Q. Optimal wäre<br />
Q = Worterkennungsrate. Sinnvolle Regeln, wie λi+1 dann aus λi berechnet<br />
werden könnte, wurden dafür noch nicht gefunden. Auch wenn in einigen<br />
Experimenten andere Optimierungskriterien mit unterschiedlichem Erfolg<br />
untersucht wurden, so hat sich dennoch das Verfahren durchgesetzt, das die<br />
Beobachtungswahrscheinlichkeit der Trainingsdaten (also das Evaluierungsproblem)<br />
optimiert. Wenn X die Beobachtung der gesamten Trainingsdaten<br />
darstellt, dann läßt sich das Optimierungsproblem formal definieren als:<br />
gegeben: HMM λ und Beobachtung X = (x1, x2, . . . xT)<br />
gesucht: λ ′ , wobei p(X|λ ′ ) > p(X|λ).<br />
Um die Parameter von λ zu optimieren, wäre es gut, die Wahrscheinlichkeit<br />
γt(i) := P(qt = i|x1, x2, . . . xT,λ), zu kennen. Dieser Wert könnte<br />
dann als ” Gewichtung“ benutzt werden, mit der die Beobachtung xt in<br />
das Training der Parameter des Zustands si eingehen soll. γt(i) ist die<br />
Wahrscheinlichkeit dafür, daß sich der durch λ modellierte Prozeß zum<br />
Zeitpunkt t im Zustand si befindet, wenn die Beobachtung x1, x2, . . .xT<br />
gegeben ist.<br />
Der Forward-Algorithmus berechnet den Wert P(qt = i, x1, x2, . . . xt|λ)<br />
(s. Gl. 12.5). Im Hinblick darauf, daß wir später mit Hilfe der Bayes-Regel die<br />
Bedingung und das Ereignis im Wahrscheinlichkeitsterm vertauschen können,<br />
können wir an dieser Stelle versuchen, den Term P(qt = i, x1, x2, . . . xT |λ)<br />
zu berechnen, also in Abweichung von αt(i) die Wahrscheinlichkeit zum<br />
Zeitpunkt t in si zu sein und die komplette Beobachtung X zu machen.<br />
Dann erhalten wir:<br />
P(qt = i, x1, . . . xT |λ) = P(qt = i, x1, . . . xt|λ)<br />
· P(xt+1, . . . xT |qt = i, λ)<br />
<br />
αt(i) fehlender Term<br />
Wenn wir den fehlenden Term mit βt(i) bezeichnen, dann ergibt sich:<br />
P(qt = i, x1, . . . xT |λ) = αt(i) · βt(i) (12.15)<br />
Der fehlende Term βt(i) gibt die Wahrscheinlichkeit dafür an, daß die<br />
” zweite Hälfte“ der Beobachtung, also (xt+1, xt+2, . . .xT) beobachtet wird<br />
unter der Bedingung, daß sich das System zum Zeitpunkt t im Zustand si<br />
befindet. Das Produkt der αt(i) und βt(i) ergibt zwar nicht den gewünschten<br />
Term γt(i), aber mit der einfachen Anwendung der Bayes-Regel erhalten<br />
wir:
196 12. Hidden Markov Modelle<br />
γt(i) = P(qt = i|X, λ) = P(qt = i, X|λ)<br />
P(X|λ)<br />
= αt(i) · βt(i)<br />
<br />
j αt(j) · βt(j)<br />
(12.16)<br />
So erhalten wir mit γt(i) die Wahrscheinlichkeit dafür, daß sich das<br />
System λ zum Zeitpunkt t im Zustand si befindet, wenn es die Beobachtung<br />
X macht (bzw. emittiert). Aus der Sicht des Trainingsalgorithmus, der die<br />
Parameter des Zustands si neu schätzen, also optimieren, muß, genügt es,<br />
alle Beobachtung xt und die dazu gehörigen γt(i) zu kennen. Dann weiß der<br />
Algorithmus, wie stark xt ins Training eingehen soll. Wenn γt(i) sehr klein<br />
ist, kann xt fast ignoriert werden, bei sehr großem γt(i) hat xt einen sehr<br />
großen Einfluß auf die Schätzung der Parameter von si.<br />
Wie genau nun der Trainingsalgorithmus aussieht, hängt natürlich<br />
von der Wahl der Emissionswahrscheinlichkeitenschätzer ab. Bei Gauß-<br />
Mischverteilungen heißt das, daß der EM-Algorithmus wie in Gl. 9.14 bis Gl.<br />
9.16 Anwendung findet. Bei neuronalen Netzen würde der Backpropagation-<br />
Algorithmus oder eine Variante davon angewendet und die γt(i) auf die<br />
Lernrate aufmultipliziert, wenn die Beobachtung xt trainiert wird.<br />
Bleibt noch festzustellen, wie βt(i) sinnvollerweise berechnet wird. Auf<br />
den ersten Blick sehen die β den α sehr ähnlich. Auch sie können rekursiv<br />
berechnet werden:<br />
βT(i) = 1 ∀i (12.17)<br />
n<br />
βt(i) = aij · bj(xt+1) · βt+1(j) (12.18)<br />
j=1<br />
Gl. 12.17 leuchtet ein, wenn man sich klar macht, daß βT(i) die<br />
Wahrscheinlichkeit dafür ist, daß ” nach dem Ende der Beobachtung keine<br />
weitere Beobachtung“ gemacht wird. Das ist natürlich 1.0, unabhängig<br />
davon, welcher Zustand der letzte ist. Die Berechnung der β läuft also<br />
ganz analog zur Berechnung der α nur diesmal rückwärts. Daher heißt der<br />
Algorithmus, der mit Hilfe der Gl. 12.17 und 12.18 alle βt(i) berechnet,<br />
Backward-Algorithmus. Die Durchführung des Forward-Algorithmus und des<br />
Backward-Algorithmus, um damit die γt(i) zu bestimmen heißt Forward-<br />
Backward Algorithmus.<br />
Mit Hilfe der γ können also die Parameter der Emissionswahrscheinlichkeitsmodelle<br />
optimiert werden. Was jetzt noch fehlt, ist die Optimierung der<br />
Übergangswahrscheinlichkeiten.<br />
Um die Wahrscheinlichkeit aij für den Übergang von Zustand si<br />
zum Zustand sj neu zu schätzen benötigen wir die Wahrscheinlichkeit<br />
ξt(i, j) := P(qt = i, qt+1 = j|X, λ). Auch hier können wir die Bayes Regel
anwenden und erhalten:<br />
12.4 Die drei Probleme der Hidden Markov Modelle 197<br />
ξt(ij) = P(qt = i, qt+1 = j, X|λ)<br />
P(X|λ)<br />
t − 1 t t + 1 t + 2<br />
...<br />
...<br />
si<br />
aij · b(xt+1)<br />
sj<br />
αt(i) βt+1(j)<br />
Abb. 12.7. Berechnung der ξ aus den α und β<br />
...<br />
...<br />
(12.19)<br />
Der Zähler des Bruches von Gl. 12.19 gibt die Wahrscheinlichkeit dafür<br />
an, daß die Beobachtung X gemacht wird und ein Übergang von si nach sj<br />
stattfindet. Dies läßt sich schreiben, als das Produkt der Wahrscheinlichkeiten<br />
αt(i), βt+1(j) und der ” Verbindung“ dazwischen, so wie in Abb. 12.7<br />
dargestellt:<br />
ξt(ij) = αt(i)aijbj(xt+1)βt+1(j)<br />
<br />
l αt(l) · βt(l)<br />
(12.20)<br />
Wie nun mit Hilfe der α, β, γ und ξ die HMM-Parameter optimiert<br />
werden können, definieren die Baum-Welch-Regeln:<br />
Die Wahrscheinlichkeit π(i) dafür, daß si der erste Zustand eines Prozesses<br />
ist, wird ersetzt durch π ′ (i) mit:<br />
π ′ (i) = P(q1 = i|X, λ) = P(q1 = i, X|λ)<br />
P(X|λ)<br />
α1(i)β1(i)<br />
= γ1(i) = <br />
j αt(j) · βt(j)<br />
(12.21)<br />
Die Übergangswahrscheinlichkeit aij dafür, daß sj der Nachfolgezustand<br />
von si ist, wird ersetzt durch a ′ ij mit:<br />
a ′ ij =<br />
T t=1 P(X, qt = i, qt+1 = j|λ)<br />
T t=1 P(X, qt<br />
T t=1 =<br />
= i|λ)<br />
ξt(i, j)<br />
T t=1 γt(i)<br />
(12.22)
198 12. Hidden Markov Modelle<br />
Für diskrete Hidden-Markov-Modelle gilt darüber hinaus, daß die Wahrscheinlichkeit<br />
bi(vk) dafür, im Zustand si die Beobachtung vk zu machen,<br />
ersetzt wird durch b ′ i (vk) mit:<br />
b ′ i (vk) =<br />
T t=1 P(X, qt = i|λ) · δ(xt, vk)<br />
T t=1 P(X, qt = i|λ)<br />
T t=1 =<br />
γt(i) · δ(xt, vk)<br />
T t=1 γt(i)<br />
<br />
0 für xt = vk<br />
wobei δ(xt, vk) =<br />
1 für xt = vk<br />
(12.23)<br />
In mancher Literatur über Hidden-Markov-Modell findet man nach<br />
der Definition der Baum-Welch-Regeln den Beweis für die Lösung des<br />
Optimierungsproblems, also dafür daß P(X|λ ′ ≥ P(X|λ). Die Idee hinter<br />
dem Beweis ist die Definition einer Hilfsfunktion, deren Optimierung leichter<br />
gezeigt werden kann, deren Optimierung aber auch eine Optimierung des<br />
HMMs impliziert. Da dieser Beweis nicht zum Verständnis der HMMs in der<br />
Spracherkennung beiträgt, sei der interessierte Leser zum Beispiel auf [?]<br />
verwiesen.<br />
12.5 Spracherkennung mit Hidden Markov Modellen<br />
Hidden Markov Modelle sind besonders geeignet dafür, dynamische Prozesse<br />
zu modellieren, Prozesse, die sich in bestimmten Zuständen befinden können,<br />
zwischen denen mehr oder weniger wahrscheinliche Übergänge gemacht werden.<br />
Im Prinzip genügt es, zum Definieren eines HMMs für die Modellierung<br />
von Sprache einen Merkmalsraum der beobachtbaren Ereignisse und die<br />
Zuordnung von HMM-Zuständen zu bestimmten sprachlichen Einheiten<br />
anzugeben. Wie sich herausstellen wird, liegen genau in diesen beiden Problemen<br />
mit die größten Herausforderungen. Der verwendete Merkmalsraum<br />
wird durch die verwendeten Verfahren der Signalverarbeitung bestimmt, und<br />
die Zuordnung von Zuständen zu Spracheinheiten bestimmt nicht nur, welche<br />
Spracheinheiten überhaupt verwendet werden und wie der Parameterraum<br />
des Erkenners aussehen wird, sondern auch in erheblichem Maße, welche<br />
Leistung der Erkenner haben wird.
12.5 Spracherkennung mit Hidden Markov Modellen 199<br />
12.5.1 Ein einfacher HMM Einzelkommandoerkenner<br />
Im folgenden werden die Bestandteile und die Funktionsweise eines einfachen<br />
auf Hidden-Markov-Modellen basierenden Einzelworterkenners beschrieben.<br />
Der Begriff ” Einzelwort“ ist in diesem Zusammenhang eher akustisch als<br />
linguistisch gemeint. ” Einzelkommandoerkenner“ wäre vielleicht der bessere<br />
Begriff. Als Einzelwort kann auch eine Folge von Wörtern gemeint sein.<br />
Allerdings ist dies aus der Sicht des Erkenners irrelevant. Jede Aufnahme<br />
wird als eine Einheit betrachtet, die zu einer einzigen aus einer Menge<br />
gegebener Klassen gehört.<br />
Die Erkennungsaufgabe bestehe darin, einzelne Wörter aus einem<br />
Vokabular L = {w1, w2, . . .w |L|} zu erkennen. Das bedeutet, der Erkenner<br />
verwendet |L| verschiedene HMMs λ(w1), λ(w2), . . . λ(w |L|). Zunächst muß<br />
jedes λ(wi) definiert werden. Ohne weiteres Wissen werden alle Modell mit<br />
der gleichen Architektur und den gleichen Parametern initialisiert, zum<br />
Beispiel mit je n Zuständen im Bakis-Schema und Gauß-Mischverteilungen<br />
mit je k Normalverteilungen zur Modellierung der Emissionswahrscheinlichkeiten.<br />
Da das Baum-Welch-Verfahren keine Anforderungen an die<br />
Initialwerte der HMM-Parameter stellt, kann man mit beliebigen (zufällig<br />
initialisierten) Werten anfangen.<br />
Für jedes Vokabularwort werden eines oder mehr Beispiele aufgezeichnet<br />
und vorverarbeitet (zum Beispiel zu Cepstren mit 13-koeffizientigen Cepstralvektoren<br />
alle 10ms).<br />
Jedes Wort-HMM wird mit seinen Trainingsbeispielen entsprechend<br />
dem Baum-Welch-Verfahren optimiert. Dabei wird das Verfahren (Forward-<br />
Backward, Baum-Welch-Regeln) für alle Trainingsbeispiele hintereinander<br />
durchgefürht. Gegebenenfalls werden mehrere Iteration über die gesamten<br />
Trainingsdaten gerechnet.<br />
Damit ist der Erkenner fertig trainiert und einsatzbereit. Zum Erkennen<br />
wird ein Wort gesprochen und die Aufnahme X genauso verarbeitet wie die<br />
Trainingsdaten. Auf der Aufnahme werden nun alle P(X|λ(wi)) mit Hilfe<br />
des Forward-Algorithmus berechnet. Gesucht ist allerdings: P(λ(wi)|X).<br />
Dies läßt sich mit der Kenntnis der a priori Wahrscheinlichkeiten P(wi) und<br />
der Bayes-Regel ausrechnen. Die P(wi) können – wenn kein Wissen und<br />
keine Statistik darüber bekannt ist – gleichverteilt angenommen werden.<br />
Das Wort ˆw gilt als erkannt, wenn<br />
ˆw = argmaxP(λ(wi)|X)<br />
(12.24)<br />
wi
200 12. Hidden Markov Modelle<br />
12.5.2 Abbildung von Wörtern auf Markov Modelle<br />
Es leuchtet ein, daß ein HMM-Zustand einem sprachlichen Ereignis entsprechen<br />
sollte, das einigermaßen stationär ist, also z.B. einem einzigen Laut.<br />
Silben oder gar Wörter sollten sinnvollerweise mit mehreren Zuständen<br />
modelliert werden. Selbst einzelne Laute – oder zumindest das was von vielen<br />
Phonetikern als Laut bezeichnet wird – sind oft nicht wirklich stationär. Am<br />
deutlichsten sieht man das an den Diphthongen und Affrikaten, die ja zwei<br />
verschiedene fließend ineinander übergehende Laute sind. Der Diphthong<br />
[aÁ] (d.h. die Aussprache des Wortes: Ei“) beginnt mit einem Laut [a],<br />
”<br />
und endet mit einem Laut [Á]. Der Affrikat [] wie am Anfang des Wortes<br />
” zu“ beginnt ähnlich wie ein [t] und endet wie ein [s]. Diphthonge, Affrikate<br />
und viele andere Laute sind nicht ausreichend lange stationär, so daß man<br />
berechtigterweise sagen könnte, über einen Zeitraum von einigen hundertstel<br />
oder gar zehntel Sekunden würde das Spektrum des Sprachsignals im<br />
wesentlichen unverändert bleiben.<br />
Wie viele Zustände sollte man also für ein Wort, eine Silbe, ein Phon(em)<br />
oder einen Laut verwenden? In [?] wird ein Verfahren vorgestellt, mit dem<br />
die Zahl der Zustände und sogar deren Übergänge rein datengetrieben für<br />
einzelne Phoneme bestimmt werden kann. In [?] wird dieses Verfahren sogar<br />
auf ganze Wörter ausgeweitet und als tauglich befunden, allerdings wird<br />
ein automatisches Erzeugen von Wort-Markov-Modellen aus praktischen<br />
Gründen nicht verwendet. Um ein Modell für ein Wort zu erzeugen, muß<br />
dazu ausreichend akustische Evidenz vorhanden sein. Für kleine Vokabulare<br />
mag das noch zu machen sein. Eine Datenbasis, die aus ” normalen Sätzen“<br />
besteht und von jedem Wort aus einem Vokabular von mehreren Zigtausend<br />
verschiedenen Wörtern, ausreichend viele Vorkommen hat, gibt es nicht. In<br />
ca. 50 000 Sätzen aus dem Wall Street Journal Trainingskorpus kommen nur<br />
etwa 15 000 verschiedene Wörter vor, ein relativ großer Teil davon nur ein<br />
oder zwei mal. Die Menge an Daten, die man bräuchte, um 60 000 Wörter<br />
jeweils mindestens 10 mal zu beobachten, wäre enorm riesig. Daher empfiehlt<br />
es sich, nicht für jedes Wort ein einzelnes HMM zu bauen, sondern für<br />
kleinere Einheiten, aus denen die Wörter ” zusammengebaut“ werden können.<br />
Ein Wort-HMM besteht dann aus der Konkatenation der einzelnen<br />
Einheiten-HMMs. Als Einheiten kommen z.B. Silben oder Phone in Frage.<br />
Auch mit Teilen von Phonen (Fenones) wurden Experimente durchgeführt<br />
[?]. Wiederum waren es praktische Gründe, die dafür sprachen Phone(me)<br />
zu verwenden. Denn um festzulegen, aus welchen Untereinheiten ein Wort<br />
besteht, benötigt man einen Experten – nicht unbedingt einen Phonetiker,<br />
aber zumindest jemanden, der weiß, wie die Akustik eines Wortes in<br />
einer eindeutigen Lautschrift dargestellt werden kann. Die Umschreibung<br />
von Aussprachen mittels subphonetischer Einheiten ist zum einen enorm<br />
schwierig und aufwendig, zum anderen ist es schwierig, eine sinnvolle
12.5 Spracherkennung mit Hidden Markov Modellen 201<br />
Menge subphonetischer Einheiten festzulegen. Daß die Modellierung von<br />
Aussprachen mittels einer vorgegebenen Menge von Silben nicht einfach<br />
ist, erkennt man gelegentlich an der Schwierigkeit, mit der Fremdwörter in<br />
die Japanische Sprache aufgenommen werden. Im Japanischen gibt es eine<br />
feste Silbenmenge und jede Silbe hat eine eigene im wesentlichen kontextunabhängige<br />
Aussprache. Wenn für bestimmte Wörter keine exakt passende<br />
Silbenfolge gefunden werden kann, wird leicht aus einem Wort wie ” Stuttgart“<br />
etwas, das sich anhört wie ” Schututogaruto“. Also sind es die Phoneme.<br />
Linguisten und Phonetiker verwenden schon seit langer Zeit das international<br />
genormte IPA Alphabet. Viele Sprachen (z.B. die meisten slawischen<br />
Sprachen, auch skandinavische Sprachen) verwenden eine Orthographie, die<br />
sehr eng an die Aussprache angelehnt ist. Bedenkt man, daß der Ursprung<br />
unseres lateinischen und auch des griechischen und arabischen Alphabets<br />
die Umschreibung der akustischen Erscheinung ist, so verwundert es nicht,<br />
daß selbst Laien sehr schnell lernen können, zu einem Wort die passende<br />
Aussprache in Lautschrift zu finden. Die meisten Sprachen verwenden ca.<br />
50 verschiedene Laute. Je nach Definition eines Lautes können das auch<br />
nur 20 oder mehrere hundert sein. Im Chinesischen zum Beispiel gibt es<br />
von jedem Vokal mehrere (je nach Dialekt vier bis fünf) Ausprägungen.<br />
In jedem Fall sind es ” ausreichend wenige“, damit jeder Laut in einer<br />
Standard-Datenbasis genügend Vorkommen hat. Damit ist sichergestellt,<br />
daß ein Phonem-HMM bzw. seine Parameter robust trainiert werden können.<br />
Abb. 12.8 zeigt, wie ein typisches HMM für das Wort ” Tag“ entsteht.<br />
Im ersten Schritt würde ein HMM-System in einem Aussprachelexikon<br />
nachsehen, um festzustellen, daß das Wort aus drei Phonemen besteht: t, a<br />
und g. Für jedes Phonem gibt ein vorkonstruiertes Phonem-HMM basierend<br />
auf dem Bakis Übergangsschema. Jedes der Phonem-HMMs ist aus drei<br />
Zuständen aufgebaut, von denen der erste (jeweils mit ” -b“ markiert) die<br />
akustischen Eigenschaften des Segments zu Beginn des Phonems modelliert,<br />
der zweite (mit ” -m“ markiert) den Mittelteil, und der dritte (mit ” -e“<br />
markiert das Ende. Würden wir streng nach dem Bakis-Schema vorgehen,<br />
dann müßte zu den eingezeichneten Übergängen noch ein Übergang aus dem<br />
letzten Zustand in den ” zweiten“ des darauffolgenden Teil-HMMs gehen.<br />
Erstens ist es gar nicht sicher, ob dieses dann überhaupt mehr als einen<br />
Zustand hat, und zweitens könnte es sogar mehrere ” zweite“ Zustände<br />
haben. In der Praxis haben sich derartige kleine Abweichungen von der<br />
Definition des Übergangsschemas als meistens irrelevant erwiesen. Das<br />
Ergebnis der Komposition des Wort-HMMs aus Phonem-HMMs ist in Abb.<br />
12.8 unten zu sehen. Ohne daß dies in der Abbildung gekennzeichnet wäre,<br />
ist der mit ” T-b“ markierte Zustand der Erste (also π( ” T-b“) = 1.0) und<br />
der mit “G-e“ markierte der Finalzustand.
202 12. Hidden Markov Modelle<br />
Bakis-Modell für Phonem T<br />
Bakis-Modell für Phonem A<br />
Bakis-Modell für Phonem G<br />
T-b<br />
A-b<br />
G-b<br />
T-b T-m T-e A-b A-m A-e<br />
T-m T-e<br />
A-m A-e<br />
G-m G-e<br />
Hidden-Markov-Modell für das Wort ” Tag“ [T] [A] [G]<br />
G-b<br />
Abb. 12.8. Komposition eines Wort-HMMs aus Phonem-HMMs<br />
G-m G-e<br />
So ist es möglich, durch Verwenden von ca. 50 Phonem-HMMs die<br />
Wort-HMMs für ein unbegrenztes Vokabular bauen zu können. Ein Erkenner<br />
könnte also auch ein Wort erkennen, das niemals in der Entwicklungs- oder<br />
Trainingsphase des HMMs aufgetaucht ist, solange die Aussprache dieses<br />
Wortes aus Phonemen besteht, die zum vorliegenden Phonemsatz gehören.<br />
Hidden-Markov-Modell für das Wort ” Tat“ [T] [A] [T]<br />
T-b T-m T-e A-b A-m A-e T-b T-m T-e<br />
Abb. 12.9. Komposition eines Wort-HMMs aus sich wiederholenden Phonemen
12.5 Spracherkennung mit Hidden Markov Modellen 203<br />
Abb. 12.9 zeigt das Wort-HMM für das Wort ” Tat“ bestehend aus den<br />
drei Phonemen t, a und noch einmal t. Obwohl das Wort mit neun Zuständen<br />
modelliert wird, werden nur sechs verschiedene Emissionswahrscheinlichkeitsmodelle<br />
(Gauß-Mischverteilungen) verwendet. Die ersten drei und die letzten<br />
drei Zustände benutzen dieselben Parameter.<br />
Neben der schnell einleuchtenden gemeinsamen Nutzung von Parametern<br />
für die selben Laute an verschiedenen Stellen eines Wortes oder Textes gibt<br />
es eine Reihe weiterer Gründe, warum Parameter gekoppelt werden sollten.<br />
Dadurch wird nicht nur die Möglichkeit, beliebige nichttrainierte Wörter<br />
zu bilden, erleichtert, sondern auch die Robustheit der Modelle erhöht. So<br />
werden im Beispiel der Abb. 12.9 die drei linken Gauß-Mischverteilungen mir<br />
mehr Trainingsdaten trainiert. Ohne Diese Kopplung würde ein Erkenner<br />
mir mehr als ca. 50 Vokabularwörtern mehr Parameter benötigen als ein<br />
ungekoppelter. Und somit würden auf jeden Parameter im Schnitt weniger<br />
Trainingsbeispiele fallen.<br />
12.5.3 Numerische Probleme in der Praxis<br />
Wenn wir eine Berechnung von Merkmalsvektoren in Abständen von 10ms<br />
zugrunde legen und annehmen, daß ein Forward-Algorithmus (oder auch<br />
Backward- bzw. Viterbi-Algorithmus) auf einer 10s langen Aufnahme durchgerechnet<br />
werden soll, dann berechnet sich am Ende der Wert αT(j) als ein<br />
Produkt von 2000 Wahrscheinlichkeiten (bei diskreten HMMs) bzw. 1000<br />
Wahrscheinlichkeiten und 1000 Dichtewerten (bei kontinuierlichen HMMs).<br />
Man erkennt schnell, daß der Wertebereich der üblichen IEEE-32-Bit<br />
Fließkommazahlen nicht ausreicht, ja selbst der Bereich der IEEE-64-Bit<br />
Zahlen kann leicht gesprengt werden und das Produkt kann zu 0.0 werden.<br />
Zwei verschiedene Gegenmaßnahmen bieten sich an: Erstens die regelmäßige<br />
Skalierung und zweitens das Rechnen im logarithmischen Bereich.<br />
Bei der regelmäßigen Skalierung gehen wir davon aus, daß uns der Absolutwert<br />
der Wahrscheinlichkeit der Beobachtung P(x) nicht interessiert.<br />
Sowohl zur Berechnung der Trainingsfaktoren γt(i) als auch zum Vergleich<br />
von P(x|λ1) mit P(x|λ2) genügt es, statt αt(i) ein skaliertes αt(i) · kt für ein<br />
beliebiges (aber bezüglich i konstantes) k zu verwenden. Der Skalierungsfaktor<br />
k kürzt sich in allen relevanten Rechnungen heraus.<br />
αt(j) = kt · bj(xt) ·<br />
N<br />
αt−1(i) · aij<br />
i1<br />
(12.25)<br />
Um zu vermeiden, daß kt im voraus (manuell) bestimmt werden muß,<br />
kann man einen Schwellwert θ festlegen, und so lange kt = 1 lassen, bis zum<br />
Zeitpunkt t1 für einen Zustand i der Wert αt1(i) < θ ist. die Multiplikation
204 12. Hidden Markov Modelle<br />
aller αt1(i) mit kt1 = 1 sorgt dann dafür, daß für einige Zeitpunkte nach t1<br />
der Schwellwert nicht mehr unterschritten wird.<br />
Die andere Alternative, das Rechnen im logarithmischen Bereich erfordert<br />
kein Skalieren. Hierbei werden statt der Wahrscheinlichkeiten deren Logarithmen<br />
beziehungsweise negierte Logarithmen verwendet. So wird dann<br />
beim Viterbi-Algorithmus aus Gl. 12.12:<br />
log zt(j) = log bj(xt) + max(log<br />
aij + log zt−1(i)) (12.26)<br />
i<br />
Ein Überlaufen des Wertebereichs von Fließkommazahlen beim logarithmischen<br />
Rechnen kann nach menschlichem Ermessen ausgeschlossen werden.<br />
Ein weiterer Vorteil des Rechnens im Logarithmus besteht in der vereinfachten<br />
Auswertung von Gauß-Mischverteilungen. Die in jeder solchen Verteilung<br />
enthaltene Exponentiation kann entfallen.<br />
Etwas komplizierter sieht es allerdings beim Forward-Backward-<br />
Algorithmus aus. Da wird aus Gl. 12.6:<br />
<br />
N<br />
<br />
log αt(j) = log bj(xt) + log αt−1(i) · aij<br />
(12.27)<br />
i=1<br />
Hier haben wir im Argument des Logarithmus eine Summe, die sich nicht<br />
weiter Auflösen läßt, so daß vor der Anwendung des Logarithmus die bereits<br />
bekannten log αt−1(i) erst exponentiert werden müssen.
13. Das Trainieren von Spracherkennern<br />
Der Begriff ” Training“ ist nicht eindeutig definiert. Im allgemeinen wird<br />
damit der Prozeß bezeichnet, bei dem die Parameter eines Klassifikators optimiert<br />
werden. Der Kern des Trainings bei Hidden-Markov-Modellen sind die<br />
Baum-Welch Optimierungsregeln und im Fallen von Gauß-Mischverteilungen<br />
der Expectation Maximization Algorithmus. In der Praxis gibt es allerdings<br />
noch einige andere Aspekte, die berücksichtigt werden sollten. Im folgenden<br />
werden einige dieser Aspekte erläutert.<br />
13.1 Überblick über den HMM-Entwicklungsprozeß<br />
Man kann die HMM-Entwicklung ganz grob in drei Phasen aufteilen: Nach<br />
der Initialisierungsphase kommt die iterative Optimierung und schließlich<br />
die Evaluation und Bewertung des Systems.<br />
13.1.1 Initialisierung<br />
Verschiedene Möglichkeiten für die initiale Einstellung der Erkennerparameter<br />
sind sinnvoll. Dazu gehört sowohl die völlig unvoreingenommene<br />
zufällig oder gleichverteilte Initialisierung als auch die Verwendung von<br />
zuvor gesammeltem Wissen in Form von exakt beschriebenen (etikettierten)<br />
Sprachaufnahmen.<br />
Zufällige oder gar keine Initialisierung<br />
Grundsätzlich kann man davon ausgehen, daß aus der Theorie der Hidden-<br />
Markov-Modelle und insbesondere der Baum-Welch Optimierungsregeln zu<br />
folgern ist, daß die Trainingsdaten mit jedem Optimierungsschritt besser<br />
modelliert werden. Das heißt, daß es im Prinzip nicht nötig ist, die Parameter<br />
mit irgendwelchen besonderen Werten zu initialisieren. Lediglich die<br />
mathematische Korrektheit (z.B. symmetrische nicht-singuläre Kovarianzmatrizen,<br />
Mixturgewichteverteilungen und Übergangswahrscheinlichkeit, die
206 13. Das Trainieren von Spracherkennern<br />
der Wahrscheinlichkeitstheorie entsprechen, usw.) sollte erfüllt sein. Dennoch<br />
empfiehlt es sich, sinnvolle Startwerte für die Parameter zu verwenden.<br />
Zum einen garantieren die Baum-Welch Regeln nur das Approximieren<br />
eines lokalen Optimums nicht aber des globalen, und zum anderen kann das<br />
Erreichen selbst dieses lokalen Optimums vielleicht erst nach sehr langer<br />
Zeit erreicht werden. In Experimenten [?] wurde gezeigt, daß in der Tat mit<br />
zufällig bzw. schlecht initialisierten Parametern nach signifikant längerer<br />
Trainingsdauer beinahe ähnlich gute Erkennungsleistungen erreicht werden<br />
können wie mit gut initialisierten Parametern.<br />
Etikettierte Daten<br />
Der Forward-Backward-Algorithmus liefert die Werte γt(i) = P(qt = i, X|λ)<br />
mit Hilfe derer dann die HMM-Parameter trainiert werden können. Für<br />
eine einfache Initialisierung würde es genügen, wenn wenigstens irgend<br />
eine sinnvolle Verteilung der Trainingsdaten auf die verschiedenen Modelle<br />
vorgegeben wäre. Wenn an jedem Merkmalsvektor xt ein ” Etikett“ et hinge,<br />
auf dem angegeben ist, zu welchem Model der Vektor gehört, dann könnten<br />
wir zumindest so tun, als wäre<br />
<br />
0 für i = et<br />
γt(i) =<br />
. (13.1)<br />
1 für i = et<br />
Mit diesen Informationen können nun die Baum-Welch-Regeln angewandt<br />
werden ohne daß zuvor ein Forward-Backward gerechnet werden muß, der<br />
sonst mangels sinnvoller Parameter nur schlechte Schätzungen für die γt(i)<br />
geliefert hätte.<br />
Der etablierte Begriff für Etiketten ist sowohl im Englischen als auch<br />
im Deutschen Labels. Sie können auf verschiedene Arten gewonnen werden.<br />
Je weniger Trainingsdaten zur Verfügung stehen und je schwieriger die<br />
Bedingungen sind (hohe Spontaneität der Sprache, Dialekte, viel Rauschen<br />
oder Störgeräusche, neue fremde Sprache etc.) umso hilfreicher sind ” gute“<br />
Labels. Am besten sind Labels, die von <strong>Mensch</strong>en erstellt werden, die sich<br />
eine Aufnahme anhören und dann jeden Laut und jedes Geräusch exakt<br />
lokalisieren. Derart feine Labels werden seit Anfang der achtziger Jahre<br />
nicht mehr hergestellt, weil der Aufwand für die heute verwendeten sehr<br />
großen Sprachdatensammlungen zu hoch ist. Wenn heute <strong>Mensch</strong>en Labels<br />
erzeugen, dann bestehen diese in der Regel nur aus der Niederschrift der<br />
gesprochenen Worte und der gut hörbaren Geräusche. Wenn es besonders<br />
auffällig ist, werden falsche Aussprachen als solche markiert. Allerdings<br />
werden weder die zeitlichen Positionen einzelner Laute noch einzelner<br />
Wörter markiert. Lediglich Anfänge und Enden der einzelnen Äußerungen<br />
sind bekannt – wobei diese meist sowieso vollautomatisch (vgl. Abs. 10.1.1)<br />
gefunden werden, oder durch die Aufnahmeapparatur vorgegeben sind. Bei
13.1 Überblick über den HMM-Entwicklungsprozeß 207<br />
derartig ” dünnen“ Labels spricht mach dann auch eher von ” Transkripten“<br />
oder ” Transkriptionen“. Sie sind das Minimum, das an Wissen nötig ist, um<br />
überhaupt ein HMM zum Trainieren einer Äußerung aufzubauen, und bieten<br />
somit keine zusätzlichen Informationen die speziell für die Initialisierung der<br />
Parameter verwendet werden kann. Daher werden für die meisten Initialisierungen<br />
neuer Erkenner automatisch erzeugte detaillierte Labels verwendet.<br />
Dazu wird ein bereits existierender Erkenner genommen und ein Forward-<br />
Backward oder Viterbi-Algorithmus auf den Trainingsaufnahmen gerechnet.<br />
Dieser existierende Erkenner produziert relativ schlechte Viterbi-Pfade beziehungsweise<br />
relativ schlechte γt(i), weil er entweder für eine andere Sprache,<br />
ein anderes Vokabular, andere Aufnahmebedingungen oder sonstige andere<br />
Unstände gebaut wurde, oder weil er mit sehr wenig Daten trainiert wurde.<br />
Diese Labels haben dann eine geringere Qualität als von <strong>Mensch</strong>en erzeugte,<br />
dafür sind sie für beliebig große Datenmengen quasi kostenlos zu erhalten.<br />
Das Vorhandensein initialer Labels ist die Voraussetzung zur Berechnung<br />
initialer Erkennerparameter. Die HMM-Parameter wie Übergangswahrscheinlichkeiten,<br />
und Anfangswahrscheinlichkeiten lassen sich mit den<br />
Baum-Welch Regeln direkt bestimmen. Problematischer ist dies für die Modellierung<br />
der Emissionswahrscheinlichkeiten. Werden diese mit neuronalen<br />
Netzen berechnet, dann können deren Gewichte in der Tat beliebig zufällig<br />
initialisiert werden. Bei Gauß-Mischverteilungen wäre aber eine zufällige<br />
Initialisierung problematisch. Auch der EM-Algorithmus garantiert nicht,<br />
daß das System am Ende in einem globalen Optimum landet. Tatsächlich<br />
kann man in der Praxis immer wieder beobachten, daß einzelne Vektoren<br />
von Codebücher (d.h. einzelne Gauß-Verteilungen einer Mischverteilung)<br />
quasi ” ungenutzt“ bleiben, weil fast keine Trainingsdaten auf diese Fallen.<br />
Wenn es zu viele solcher Ausreißerfälle gibt, dann wird der zur Verfügung<br />
stehende Parameterraum nur unzureichend genutzt und die Qualität des<br />
Erkenners sinkt. Daher ist es wichtig, schon vor der ersten Aktualisierung<br />
der Gauß-Mischverteilungsparameter für diese sinnvolle Werte zu haben.<br />
Die beliebteste Methode, Codebücher sinnvoll zu initialisieren ist das k<br />
Mitellewerte Verfahren (s. Abs. 9.1.6). Dabei werden die vorhandenen Labels<br />
verwendet, um zu bestimmen welcher Trainingsvektor in welches Codebuch<br />
gehört. Wenn alle Trainingsvektoren ihrem Codebuch zugeordnet worden<br />
sind, könne initiale Codebücher mit dem k-Mittelwerte beziehungsweise<br />
LBG-Verfahren erzeugt werden.<br />
Parametertransfer<br />
Schließlich bleibt noch eine dritte auch häufig angewandte Methode der<br />
Parameterinitialisierung zu erwähnen. Man verwendet dabei einfach die<br />
bereits vorhandenen Parameter eines existierenden Erkenners für einer<br />
andere möglichst ähnliche Aufgabe. Wenn die angestrebte Architektur
208 13. Das Trainieren von Spracherkennern<br />
des neuen Parameterraumes mit der des existierenden identisch ist, lassen<br />
sich die Parameter alle eins zu eins übertragen. Wenn die Architekturen<br />
verschieden sind (zum Beispiel andere Phonemmengen), dann muß<br />
erst bestimmt werden, welcher ” neue“ Parameter welchem ” alten“ entspricht.<br />
13.1.2 Iterative Optimierung<br />
In der Praxis ist es eher die Regel als die Ausnahme, daß zum Trainieren<br />
statt des Forward-Backward-Algorithmus der Viterbi-Algorithmus verwendet<br />
wird. Zwar liefert dieser nicht die Trainingswahrscheinlichkeiten γt(i) =<br />
P(qt = i|X, λ) sondern die wahrscheinlichste Folge Q = q1, q2, . . . qT von<br />
Zuständen, also<br />
Q = argmaxP(Q|X,<br />
λ) (13.2)<br />
Q<br />
Es ist zwar mathematisch nicht korrekt, aber für sehr große T in etwa<br />
gleich gut, die Trainingswahrscheinlichkeiten genauso wie bei der Verwendung<br />
von Labels in Gl. 13.1 als<br />
<br />
0 für i = qt<br />
γt(i) = δi,qt =<br />
. (13.3)<br />
1 für i = qt<br />
zu definieren.<br />
Graustufenmatrix der γt(i) des Viterbi-Pfad<br />
Forward-Backward-Algorithmus<br />
Abb. 13.1. Training mit Viterbi statt Forward-Backward<br />
Die Verwendung des Viterbi-Algorithmus bietet mehrere Vorteile<br />
gegenüber dem Forward-Backward-Algorithmus. Ein großer Vorteil ist<br />
der wesentlich geringere zeitliche Aufwand. Wie bereits in Abs. 12.5.3<br />
angesprochen, läßt sich der Viterbi-Algorithmus relativ einfach im logarithmischen<br />
Zahlenbereich anwenden. Bei ihm ist es auch einfach möglich,<br />
die gleichen Techniken zur Suchraumbeschneidung anzuwenden wie beim<br />
DTW-Algorithmus (vgl. Abs. 11.3.1). Beim Forward-Backward ist es zwar
13.1 Überblick über den HMM-Entwicklungsprozeß 209<br />
auch denkbar auf die ” Expansion“ einzelner αt(i), die unterhalb eines<br />
Schwellwertes liegen, zu verzichten. Jedoch ist dies wesentlich komplizierter<br />
und birgt eine zusätzliche Gefahr in sich, daß nämlich beim Vorwärtsdurchgang<br />
völlig andere Bereiche des Suchraumes beschnitten werden als beim<br />
Rückwärtsdurchgang. So kann dies bei zu starker Beschneidung dazu führen,<br />
daß keine sinnvollen γt(i) berechnet werden können, weil in den meisten<br />
Fällen entweder αt(i) oder βt(i) durch Beschneiden auf 0 gesetzt wurden.<br />
Dies führt dazu, daß in der Praxis ein Forward-Backward um ein Vielfaches<br />
mehr zeitlichen Aufwand hat als ein Viterbi.<br />
Der Vorteil des Forward-Backward besteht darin, daß jedes einzelne<br />
Trainingsmuster auf mehrere Modelle mit unterschiedlicher Wahrscheinlichkeit<br />
verteilt werden kann. Somit erhalten die einzelnen Modelle mehr<br />
Trainingsmuster zum Schätzen ihrer Parameter als bei einer ” harten“ Zuordnung,<br />
wie sie der Viterbi-Algorithmus findet. Je mehr Trainingsdaten zur<br />
Verfügung stehen, umso weniger fallen die Nachteile des Viterbi-Trainings<br />
gegenüber dem Forward-Backward-Trainings ins Gewicht. Bei sehr großen<br />
Trainingsdatenmengen wirkt sich auch das bessere Laufzeitverhalten des<br />
Viterbi-Algorithmus aus.<br />
Noch schneller als das Viterbi-Training ist das Trainieren entlang vorberechneter<br />
Labels. Die Ähnlichkeit der Gl. 13.1 und 13.2 deutet darauf hin,<br />
daß Labels nicht nur zu Initialisierungszwecken verwendet werden können,<br />
sondern auch zum regulären Baum-Welch-Training. Natürlich gilt es hierbei<br />
zu berücksichtigen, daß zum einen schlechte (weil von einem unpassenden<br />
Erkenner erzeugte) Labels auch in schlechten Parameterschätzungen resultieren,<br />
und zum anderen die Konvergenz des Baum-Welch-Verfahrens<br />
nur dann gegeben ist, wenn sich die Zuordnungen von Trainingsmustern<br />
zu Modellen auch ändern können. Daher verwenden viele Forscher beim<br />
Trainieren ihrer Erkenner ein Gemisch von verschiedenen Verfahren. Je<br />
nach Entwicklungsphase wird entlang Labels trainiert, und zwischendurch<br />
werden mit Forward-Backward oder mit Viterbi neue (inzwischen bessere)<br />
Labels berechet. Das ganze wird mehrfach iteriert, bis keine Verbesserung<br />
des Erkenners mehr zu beobachten ist.<br />
Auch beliebt ist die Vorgehensweise, mehrere Erkenner mit aufsteigend<br />
komplexen Parameterräumen zu entwickeln, von denen jeder die Grundlage<br />
(in Form von Berechnen der Labels und Lieferant initialer Parameter)<br />
für den nächsten komplexeren Erkenner ist. Die Komplexitätssteigerungen<br />
gehen einher mit größeren HMM-Zustandsräumen, mehr oder größeren<br />
Gauß-Mischverteilungen und feineren Parameterkopplungsgraden.<br />
Grundsätzlich orientieren sich aber alle Trainingsmethoden am Prinzip<br />
des wiederholten Trainierens und Testens. Nach jeder Trainingsphase wird
210 13. Das Trainieren von Spracherkennern<br />
eine Testphase durchgeführt, in der die mittlerweile erreichte Erkennerleistung<br />
gemessen wird. Trainingsphasen können einfache Wiederholungen<br />
des Baum-Welch-Trainings sein, ohne daß dabei der Parameterraum oder<br />
die Daten verändert werden. Sie können aber auch Komplexitätssprünge<br />
enthalten. Solange sich die Qualität verbessert, wird weiter trainiert. Das<br />
Training wird dann beendet, wenn keine Aussicht auf weitere Verbesserungen<br />
zu erwarten sind.<br />
Die regelmäßige Evaluation der Erkennerleistung dient aber nicht<br />
nur dazu, zu bestimmen, wann ein guter Zeitpunkt zum Beenden des<br />
Trainings erreicht wird. Sie dient auch dazu, Entscheidungen zu treffen,<br />
welche von mehreren Varianten der Fortsetzung des Trainingsprozesses<br />
die bessere ist. So kann entschieden werden, ob sich eine Steigerung der<br />
Parameterraumkomplexität lohnt oder ob die Anwendung eines bestimmten<br />
Trainingsparadigmas erfolgversprechend ist.<br />
13.2 Aufteilung der Sprachaufnahmen<br />
Bei den allermeisten Klassifikationsaufgaben empfiehlt es sich, die Klassifikationsleistung<br />
nicht auf den Daten zu messen, die verwendet wurden,<br />
um die Parameter des Klassifikators zu schätzen. Meistens interessiert nur<br />
die Leistung auf ” ungesehenen Daten“, das heißt die Generalisierungsfähigkeit.<br />
Für viele parametrische Klassifikatoren existieren Algorithmen zum<br />
iterativen Schätzen ihrer Parameter. Die Klassifikationsleistung auf den<br />
für die Schätzung der Parameter verwendeten Trainingsdaten wächst mit<br />
jeder Iteration. Dies gilt jedoch nicht für ungesehene Daten (s. Abb. 13.2).<br />
Der Parameter des Schätzers beschreiben die Trainingsdaten immer besser.<br />
Sie stellen ein immer genaueres Modell der Trainingsmenge dar, bis sie<br />
irgendwann die Trainingsdaten quasi ” auswendig lernen“. Dann paßt das<br />
Modell nicht mehr so gut auf die ungesehenen Daten und die Klassifikationsleistung<br />
auf diesen nimmt ab. Dieser Effekt wird als ” Overfitting“ bezeichnet.<br />
Der gleiche Effekt tritt auch ein bei Klassifikatoren mit variabler Anzahl<br />
Parameter auf. Je größer die Zahl der Parameter, umso genauer kann das<br />
Modell die Trainingsdaten modellieren. Eine einfache Manifestation dieses<br />
Effektes kann man bei der Schätzung eines Polynoms, das von einer gegebenen<br />
Menge von Meßwerten möglichst wenig abweichen soll, beobachten.<br />
Wenn man zur Erfassung der Punkte aus Abb. 13.3 ein Polynom<br />
zweiten (a) Grades verwendet wird die Abweichung noch recht groß bleiben,<br />
ein Polynom dritten Grades (b) paßt schon besser. Und bei Verwendung<br />
eines Polynoms siebten (c) Grades können die sechs Trainingsdatenpunkte
Fehlerrate<br />
auf<br />
Trainingsdaten<br />
Abb. 13.2. Der Overfitting-Effekt<br />
13.2 Aufteilung der Sprachaufnahmen 211<br />
optimales<br />
Trainingsende<br />
auf<br />
Testdaten<br />
Abb. 13.3. Angleichung einer Punktmenge durch Polynome<br />
Trainingszeit<br />
(a)<br />
(c)<br />
(b)
212 13. Das Trainieren von Spracherkennern<br />
fehlerfrei modelliert werden. Die Wahrscheinlichkeit dafür, daß ein weiterer<br />
zufälliger Meßwert vom Polynom weit verfehlt wird, ist aber sehr groß.<br />
Um den Overfitting-Effekt zu vermeiden ist es notwendig, die Evaluation<br />
des Systems nicht auf den Trainingsdaten zu machen sondern auf Kreuzvalidierungsdaten.<br />
Diese Kreuzvalidierungsdaten dürfen nach Beendigung der<br />
Erkennerentwicklung nicht verwendet werden, um die Erkennerleistung zu<br />
messen und diese zu veröffentlichen. Schließlich werden Kreuzvalidierungsdaten<br />
dazu benutzt, Entscheidungen zu treffen, die sich auf eben diese Daten<br />
positiv auswirken.<br />
Das bedeutet, daß die wissenschaftlich korrekte Vorgehensweise bei<br />
der Entwicklung von Spracherkennern mindestens eine Dreiteilung der<br />
zur Verfügung stehenden Daten erfordert. Die drei überschneidungsfreien<br />
Teildatenmengen werden Trainingsdaten, Kreuzvalidierungsdaten, und<br />
Evaluierungsdaten genannt. Statt des Begriffs Kreuzvalidierungsdaten<br />
wird auch manchmal der Begriff Entwicklungsdaten (engl.: development<br />
data) verwendet, und statt Evaluierungsdaten auch manchmal Testdaten.<br />
Im Grunde dürfen Evaluierungsdaten nur ein einziges Mal eingesetzt werden<br />
– abgesehen von der Verwendung für verschiedene unabhängige Projekte,<br />
deren Leistungen dann durch Evaluierung auf denselben Daten verglichen<br />
werden können. Gelegentlich wird es akzeptiert Evaluierungsdaten mehrfach<br />
zu verwenden, um eine einfachere Vergleichbarkeit von Leistungsbewertungen<br />
zu ermöglichen, wenn davon auszugehen ist, daß keine Entscheidungen<br />
von den Systementwicklern getroffen wurden, die auf dem Wissen basierten,<br />
wie sie sich auf den Evaluierungsdaten auswirken.<br />
Experiment 13.1: HMM Training<br />
Starten Sie das Applet HMM Training und klicken Sie auf Start . Auf<br />
der Oberfläche sehen Sie die Darstellung einer Wellenform, darunter befinden<br />
sich 25 Felder (numeriert von 0 bis 24). Durch Klicken auf eines<br />
dieser Felder können sie verschiedene vorbereitete Aufnahmen einiger<br />
englischer Wörter auswählen. Wenn Sie eine Aufnahme auswählen wird<br />
ihr Signal angezeigt und Sie können sie durch Betätigen von Play abspielen.<br />
Sie können auch einzelne Felder mit selbstgemachten Aufnahmen überspielen.<br />
Lassen Sie dazu zunächst die Aufnahmen 0 bis 23 unverändert und<br />
wählen Aufnahme 24 aus. Jetzt können Sie mit Record selbst eine kurze<br />
Aufnahme machen, die dann unter Feld 24 abrufbar ist.
13.2 Aufteilung der Sprachaufnahmen 213<br />
Am unteren Rand des Applets befindet sich das Spektrogramm der gerade<br />
ausgewählten Aufnahme. Hierbei handelt es sich allerdings um nur zwei<br />
Filterbankkoeffizienten (sie entsprechen grob dem Anteil tiefer und hoher<br />
Frequenzen im Signal). Wenn Sie z.B. die Aufnahme 0 (das englische Wort<br />
” ache“ betrachten, sehen Sie in der vorderen zeitlichen Hälfte mehr Energie<br />
(wegen des Vokals) vor allem im unteren Frequenzband, und in der hinteren<br />
Hälfte, die dem k-Laut entspricht sind die Filterbankkoeffizienten heller, d.h.<br />
kleiner.<br />
Unterhalb der 25 Aufnahmefelder befinden sich acht Gauß-Mischverteilungen<br />
(markiert mit AE-b, AE-e, EY-b, EY-e, K-b, K-e, SH-b und SH-e). Diese<br />
bestehen aus jeweils zwei einzelnen Gauß-Verteilungen über dem zweidimensionalen<br />
Merkmalsraum der beiden Filterbänke. Ein dunkler Punkt auf der<br />
Darstellung an der Position (x, y) entspricht einer hohen Wahrscheinlichkeit<br />
für das Beobachten eines Merkmals, dessen unterer Filterbankkoeffizient x<br />
ist und dessen oberer Filterbankkoeffizient y ist.<br />
Zu beginn sind alle Gauß-Mischverteilungen gleich initialisiert. Die beiden<br />
einzelnen Gauß-Verteilungen haben leicht unterschiedliche Mittelwerte, so<br />
daß die initialen Graustufenbilder etwas oval aussehen.<br />
Unterhalb der Darstellungen der Gauß-Mischverteilungen sehen sie verschiedene<br />
Hidden-Markov-Modelle, je eines für die Wörter ache“, ash“, cake“,<br />
” ” ”<br />
” shack“ und shake“. Unter den einzelnen Zuständen befinden sich die<br />
”<br />
Namen der zugehörigen Gauß-Mischverteilungen. Die Zustandsübergänge<br />
sind mit dem Zehnfachen ihrer Wahrscheinlichkeit beschriftet (ggf. kann<br />
durch Rundungsfehler die Summe ungleich 1 sein). Durch Anklicken eines<br />
dieser Wörter können Sie das entsprechende HMM auswählen, woraufhin es<br />
rot eingefärbt wird und seine Zustände auf der vertikalen Beschriftungsachse<br />
der darunterliegenden (DP-)Matrix erscheinen.<br />
Der Forward-Algorithmus berechnet p(X|λ), durch Auswahl einer bestimmten<br />
Aufnahme wählen Sie das X aus, und durch Auswahl eines bestimmten<br />
Wortes das λ. Wählen Sie nun die Aufnahme 0 und das Wort ” ache“. Nach<br />
Klicken von Forward wird die Matrix mit mehr oder weniger gefärbten<br />
Rechtecken gefüllt. Die Stärke der Färbung des Rechtecks in der j-ten Zeile<br />
und t−ten Spalte entspricht dem Wert αt(j) aus dem Forward-Algorithmus.<br />
Am unteren Rand, unterhalb des Spektrogramms wird der Wert p(X|λ)<br />
ausgegeben - er sollte ca. 8 · 10 −9 sein.<br />
Nachdem Sie nun P(Aufnahme0|λ(ache)) berechnet haben, versuchen sie<br />
dies auch für P(Aufnahme0|λ(ash)) und für die anderen Wörter. Machen<br />
Sie sich klar, daß immer die gleiche Wahrscheinlichkeit herauskommt, weil<br />
zu beginn alle akustischen Parameter gleich initialisiert sind.
214 13. Das Trainieren von Spracherkennern<br />
Wählen Sie nun wieder Aufnahme 0 und ” ache“ aus. Klicken Sie auf<br />
Forward-Backward . Auch jetzt erscheint eine Matrix mit eingefärbten<br />
Zellen, die diesmal den γt(j) des Forward-Backward-Algorithmus entsprechen.<br />
Diese werden im Programm intern abgespeichert. Wenn Sie danach<br />
auf Update klicken. Werden Die Parameter des HMMs entsprechend<br />
der Baum-Welch Regeln und dem Expectation Maximization Algorithmus<br />
optimiert.<br />
Sie können erkennen, daß jetzt die Darstellung der Gauß-Mischverteilungen<br />
nicht mehr überall gleich ist. Insbesondere haben sich die Verteilungen<br />
für die Modelle EY-b, EY-e, K-b und K-e verändert. Auch wenn diese<br />
Veränderungen nur minimal ausfallen, ist erkennbar, daß der Schwerpunkt<br />
der K-b und K-e Modelle näher zum Nullpunkt gerückt ist. Dies ist darauf<br />
zurückzuführen, daß diese Modelle tendenziell eher mit den Mustern trainiert<br />
wurden, die dem verhältnismäßig energiearmen k-Laut entsprechen.<br />
Wenn Sie die Verteilungen von EY-b und EY-e miteinander vergleichen<br />
erkennen Sie, daß der Schwerpunkt der EY-e Verteilung weiter ” oben“ liegt.<br />
Dies ist darauf zurückzuführen, daß der EY-Laut ein Diphthong ist, dessen<br />
vorderer Teil (EY-b) durch das eher etwas tiefer klingende E dominiert wird,<br />
während der hintere Teil (EY-e) durch das eher etwas höher klingende Y<br />
dominiert wird. Daher wurde die Mischverteilung des EY-e Modells tendenziell<br />
eher mit Mustern trainiert, deren oberes Frequenzband energiereicher ist.<br />
Wenn Sie nun wiederholt Forward-Backward Update klicken, können<br />
Sie beobachten, wie mit jeder Iteration die angezeigte Wahrscheinlichkeit<br />
für P(Aufnahme0|λ(ache)) steigt. Die eben festgestellten Veränderungen an<br />
den Gauß-Mischverteilungen der Modelle, die im Word ” ache“ vorkommen,<br />
werden zementiert.<br />
Um den Erkenner mit mehreren Aufnahmen zu trainieren müßten Sie<br />
die Aufnahmen einzeln zusammen mit ihren entsprechenden Wort-HMMs<br />
auswählen und jeweils Forward-Backward ausführen; am Ende dann<br />
einmalig Update , um alle akkumulierte Trainingsinformation auszuwerten.<br />
Die Aufnahmen sind so angeordnet daß für jedes der Vokabularwörter vier<br />
Aufnahmen vorhanden sind. Da es zur Beurteilung der Erkennerqualität<br />
nicht korrekt wäre, die Fehlerrate auch auf den Trainingsdaten zu messen,<br />
sollte ein Teil der Daten nicht für das Training verwendet werden. Wenn Sie<br />
die Aufnahmen 3, 7, 11, 15, 19 und 23 (und 24) auslassen, dann bleibt von<br />
jedem Wort eine Aufnahme für die spätere Evaluation übrig. Es wäre sogar<br />
interessant, alle Aufnahmen des Wortes ” shake“ wegzulassen, um später die<br />
Erkennung auf untrainierten Wörtern zu Testen.
13.3 Trainingsparadigmen 215<br />
Der Einfachheit halber kann im Applet dieses gesamte Training (auf<br />
den Aufnahmen 0,1,2,4,5,6,8,9,10,12,13,14,16,17 und 18) mit einmaligem<br />
Klicken auf Train All und Update durchgeführt werden. Bevor Sie dies<br />
tun, setzten sie zur Sicherheit alle Parameter mit Reset wieder auf ihre<br />
Ausgangswerte zurück.<br />
Wenn Sie das gesamte Training nun durchgeführt haben, sehen sie, daß<br />
sich alle Gauß-Mischverteilungen verändert haben. Auch wenn selbst nach<br />
dem umfangreichen Training die Änderungen nur gering ausfallen, ist<br />
jetzt erkennbar, daß die aktualisierten Verteilungen für die SH-Laute ihren<br />
Schwerpunkt eher weiter ” oben“ haben. Dies ist darauf zurückzuführen, daß<br />
diese Laute tendenziell weniger Energie im unteren Frequenzband haben<br />
(daher nach rechts gerückt) und mehr Energie im oberen Frequenzband habe<br />
(daher nach oben gerückt).<br />
Berechnen Sie jetzt mit dem trainierten System noch einmal<br />
P(Aufnahme0|λ(ache)). Der Wert sollte ca. 0.002 sein, also sogar signifikant<br />
höher als er nach ein- oder zweimaligem Training der Aufnahme 0<br />
war. Diese deutliche Verbesserung ist darauf zurückzuführen, daß jetzt die<br />
HMM-Parameter mit deutlich mehr Daten Trainiert wurden.<br />
Gehen Sie jetzt zum Testen des Erkenners über. Wählen Sie Aufnahme 15<br />
aus (diese war nicht im Training dabei). Wählen Sie das Modell des Wortes<br />
” ache“ und berechnen Sie P(Aufnahme15|λ(ache)). Dies sollte ca. 8.7 · 10 −4<br />
sein. Stellen Sie entsprechend fest, daß P(Aufnahme15|λ(ash)) ca. 8.3 · 10 −4 .<br />
Um nicht alle P(Aufnahme15|λ(. . .)) manuell berechnen zu müssen, klicken<br />
Sie einfach Test . Jetzt erscheint am unteren Rand auf der Höhe jedes<br />
Wortes die entsprechende Wahrscheinlichkeit. Den eindeutig größten Wert<br />
hat mit ca. 0.002 das Wort ” cache“. In diesem Fall hat also der Erkenner das<br />
korrekte Wort mit der höchsten Wahrscheinlichkeit versehen - also richtig<br />
erkannt.<br />
Wählen Sie nun Aufnahme 20 (die genauso wie alle anderen Aufnahmen<br />
des Wortes ” shake“ im Training nicht dabei war) und klicken Sie auf Test .<br />
Tatsächlich hat das Wort ” shake“ nun mit ca. 9 ·10 −4 die mit Abstand beste<br />
Wahrscheinlichkeit.<br />
13.3 Trainingsparadigmen<br />
Das Trainieren der Erkennerparameter kann auf verschiedene Arten erfolgen.<br />
Die in Kap. 12 vorgestellten Baum-Welch-Regeln sind nur eine – aber nicht
216 13. Das Trainieren von Spracherkennern<br />
die einzige – Möglichkeit. Ähnliches gilt für den EM-Algorithmus in Kap. 9.<br />
So werden in der Spracherkennung nicht nur komplett andere Trainingsparadigmen<br />
verwendet, sondern immer wieder auch leichte Abwandlungen der<br />
mathematisch hergeleiteten Methoden, immer auch mit dem Wissen, daß<br />
die zugrundegelegten Modelle eben nur Modelle sind, und zur ” Annäherung<br />
an die Wirklichkeit“ auch Abweichungen von der Mathematik sinnvoll sein<br />
können. Im folgenden werde einige alternative Trainingsmethoden beleuchtet.<br />
13.3.1 Diskriminatives Trainieren<br />
Der EM-Algorithmus ist durch seine auf Maximum-Likelihood Schätzung<br />
basierte Optimierung aus Prinzip nichtdiskriminativ. Das heißt, jeder<br />
Parameter wird allein mit Hilfe der ihm zugeordneten (positiven) Trainingsmuster<br />
aktualisiert, unabhängig von den Parametern anderer Modelle.<br />
Das Ziel diskriminativen Trainings ist jedoch die Parameter so zu schätzen,<br />
daß nicht nur die Beobachtungswahrscheinlichkeit der positiven Beispielmuster<br />
maximiert wird, sondern auch die Wahrscheinlichkeit der negativen<br />
Beispielmuster minimiert wird. Bei Neuronalen Netzen, die mit der Error<br />
Backpropagation Methode trainiert werden, ist es aus mathematischer<br />
Sicht unproblematisch, das Vorzeichen der einzelnen Trainingsschritte<br />
umzudrehen. Aus der Definition der McCullogh-Pitts Neuronen folgt, daß<br />
jede Parameterbelegung wenn auch nicht unbedingt sinnvoll so aber auf<br />
jeden Fall legal ist. Bei Gauß-Mischverteilungen ist dies nicht der Fall. Die<br />
Mixturgewichte müssen Werte zwischen 0 und 1 annehmen. Kovarianzmatrizen<br />
müssen symmetrisch und nichtsingulär sein. Wenn beim Akkumulieren<br />
der Trainingsinformation für dem EM-Algorithmus einzelne Schritte mit<br />
negativem Vorzeichen versehen werden, kann dies dazu führen, daß z.B.<br />
Mixturgewichte negativ werden. Dennoch wurde immer wieder der Versuch<br />
unternommen, auch den EM-Algorithmus so zu modifizieren, daß er die<br />
diskriminative Fähigkeit der Modelle verbessert. Eine Möglichkeit, dies zu<br />
erreichen und dabei die Konsistenz der Parameter zu gewährleisten, besteht<br />
in der gezielten Auswahl der Trainingsmuster.<br />
Der Trainingsprozeß kann so modifiziert werden, daß Muster, die der<br />
Diskriminativität schaden, aus dem Training herausgenommen werden oder<br />
daß Muster, die der Diskriminativität helfen, dem Trainingsalgorithmus<br />
mehrfach präsentiert werden. Welche Muster der Diskriminativität zuträglich<br />
und welche ihr abträglich sind, hängt vom Einzelfall ab. Dabei ist es durchaus<br />
nicht so, daß diejenigen Muster, die in der Nähe der Klassifikationsgrenzen<br />
liegen und somit schwierig zuzuordnen sind, dazu beitragen, diese Grenzen<br />
zu verwischen und somit der Diskriminativität zu schaden. Ganz im Gegenteil:<br />
Diejenigen Muster, die weit weg von Klassifikationsgrenzen liegen,<br />
bewirken als ” Ausreißer“, daß die zu trainierenden Gewichte extreme Werte
13.3 Trainingsparadigmen 217<br />
annehmen. Sehr viele ” grenznahe“ Muster tragen eher dazu bei eine scharfe<br />
Trennlinie robust zu lernen.<br />
Diese konsistenzbewahrende Methode des diskriminativen Trainings<br />
arbeitet ohne Negativbeispiele. Eine explizite Wahrscheinlichkeitsreduktion<br />
für bestimmte Muster kann nicht direkt herbeigeführt werden, sondern<br />
ergibt sich - wenn überhaupt - nur durch die relative Verbesserung der<br />
Wahrscheinlichkeiten für die positiven Muster. Wenn man nicht fordert,<br />
daß die Modellparameter konsistent bleiben, ist es auch denkbar, beim<br />
Aufakkumulieren der Trainingsdaten des EM-Algorithmus, verschiedene<br />
Muster verschieden stark zu gewichten, insbesondere negative Beispiele mit<br />
negativen Gewichtungsfaktoren zu versehen. Die entschuldigende Annahme<br />
dabei ist die, daß es deutlich mehr positive Beispiele als negative geben<br />
sollte, so daß die wenigen negativen Beispiele an der Gesamtmasse der<br />
akkumulierten Information nur wie ein kleines Korrektiv wirken. Daher<br />
auch der in diesem Zusammenhang gern benutzte Begriff des korrektiven<br />
Trainings (s.u.). Dennoch kann man in der Regel nicht ausschließen, daß<br />
die Akkumulatoren inkonsistent werden, und muß Vorkehrungen treffen. Die<br />
einfachste Absicherung ist die Einführung von Minimalwerten (ǫ > 0 )für<br />
die Werte γ(. . .). Sollte ein γ(. . .) unter den Minimalwert fallen, wird es vor<br />
der Aktualisierung der Parameter auf diesen angehoben.<br />
Korrektives Trainieren<br />
Eine bereits recht früh angewandte Technik des diskriminativen Trainierens<br />
war das so genannte korrektive Trainieren (corrective training [?]). Die Idee<br />
hierbei ist, den Spracherkenner im Erkennungsmodus auf allen Trainingsaufnahmen<br />
laufen zu lassen und Erkennerhypothesen zu erzeugen. Nun<br />
kann man annehmen, daß diejenigen Aufnahmen, auf denen der Erkenner<br />
überhaupt keine Fehler macht ausreicheichend gut modelliert werden können<br />
und keinen Bedarf an Korrektur der Erkennerparameter stellen. Dort<br />
allerdings, wo der Erkenner Fehler macht, ist davon auszugehen, daß die<br />
Parameter nicht ausreichend gut trainiert sind. Nun ist es nicht sinnvoll,<br />
den kompletten Beitrag, den die falsch erkannte Aufnahme zum Training<br />
geleistet hat wieder zu entfernen oder gar negativ zu trainieren, sondern am<br />
besten nur diejenigen Bereiche, die fehlerhaft erkannt werden. Man kann<br />
dann, nachdem für jede Trainingsaufnahme sowohl eine korrekte Wortfolge<br />
(Transkription) und einer unter Umständen fehlerhafte Transkription (Hypothese).<br />
Für beide Wortfolgen kann nun ein Viterbi-Pfad berechnet werden.<br />
Dann werden die üblichen Baum-Welch Regeln angewandt, wobei die γt(i)<br />
für die Zustands-Zeit-Paare (t, i), die auf dem korrekten Viterbi-Pfad liegen,<br />
mit einem positiven Wert f > 0 und für diejenigen, die auf dem falschen<br />
Viterbi-Pfad liegen, mit einen negativen Wert g < 0 multipliziert (s. Abb.
218 13. Das Trainieren von Spracherkennern<br />
13.4).<br />
korrekter Pfad<br />
falscher Pfad<br />
+<br />
−<br />
Abb. 13.4. Korrektives Trainieren<br />
Für den einfachen Fall, daß der positive und negative Faktor absolut<br />
gleich sind (also f + g = 0), ergibt sich, daß auf allen Bereichen einer<br />
Aufnahme, auf denen der Erkenner keine Fehler macht, oder besser gesagt,<br />
auf denen die Viterbi-Pfade für Transkription und Hypothese gleich sind, gar<br />
keine Trainingskorrektur stattfindet. Auf den Bereichen, wo sich die Pfade<br />
unterscheiden, wird der korrekte Pfad ” normal“ trainiert und der falsche Pfad<br />
negativ. In der Praxis hat sich gezeigt, daß ein negativer aber absolut kleinerer<br />
Wert für g als für f am schnellsten zu den gewünschten Ergebnissen führt.<br />
MMIE-Training<br />
Man kann zeigen, daß mit einer unbegrenzten Menge an Trainingsdaten und<br />
einem Merkmalsraum, der die echte Quelle enthält, die globale Maximum<br />
Likelihood Schätzung in dem Sinne optimal ist, daß sie eine korrekte<br />
Mittelwerteschätzung und eine minimale Varianz liefert. Allerdings ist es<br />
so, daß bei der Entwicklung von HMM Spracherkennern die Trainingsdaten<br />
keineswegs in unbegrenztem Maße vorliegen, in der Regel haben wir weniger<br />
Trainingsmuster als der Merkmalsraum Ecken hat. Und wie nahe das Modell<br />
beziehungsweise der Parameterraum der Wirklichkeit kommen ist schwer<br />
abzuschätzen und mit Sicherheit nicht optimal. So kann man sehr wohl ein<br />
vom Maximum-Likelihood Training abweichendes Verfahren anwenden, das<br />
eine bessere Diskriminierungsfähigkeit hat, wie zum Beispiel das Maximum<br />
Mutual Information Estimation (MMIE) Verfahren.<br />
−<br />
+
13.3 Trainingsparadigmen 219<br />
Das für Hidden Markov Modelle meist angewendete Trainingsverfahren,<br />
das Baum-Welch Training ist auf die Maximum-Likelihood Schätzung ausgelegt<br />
und ist a priori nicht geeignet für diskriminatives Training. Es läßt<br />
sich allerdings erweitern zu einem MMIE-Verfahren [?], wie im folgenden<br />
beschrieben:<br />
Bei der Maximum-Likelihood Schätzung ist das Ziel die Maximierung des<br />
Terms<br />
T<br />
Lλ = lnpλ(X(t)|H(t)) (13.4)<br />
t<br />
wobei H(t) das Transkript der t-ten Trainingsäußerung, oder genauer gesagt<br />
das dazu gehörige Markov Modell ist, und X(t) die Beobachtung, also<br />
die Folge der Merkmalsvektoren der t-ten Trainingsäußerung ist. Der Baum-<br />
Welch Algorithmus transformiert die Parameter λ so, daß garantiert werden<br />
kann, daß Lλ gegen ein lokales Maximum konvergiert. Mit Verwendung von<br />
Lλ berechnet der Baum-Welch Algorithmus beispielsweise die Übergangswahrscheinlichkeiten<br />
für die Iteration t + 1 als<br />
a t+1<br />
ij =<br />
<br />
at ∂L<br />
ij<br />
t λ<br />
∂aij<br />
k at ∂L<br />
ik<br />
t λ<br />
∂aik<br />
Beim MMIE-Training wird statt Lλ der Term Iλ Optimiert:<br />
Iλ =<br />
(13.5)<br />
T<br />
lnpλ(X(t)|H(t)) − lnpλ(X(t)|R) (13.6)<br />
t<br />
wobei R nicht das HMM, das der einen t-ten Äußerung entspricht,<br />
sondern das HMM, das den kompletten Suchraum enthält, wie es bei der<br />
Erkennung verwendet wird. Iλ drückt also nicht die Wahrscheinlichkeit für<br />
die Beobachtung der t-ten Äußerung bei bekannter Wortfolge, sondern das<br />
Verhältnis dieser Wahrscheinlichkeit zur entsprechenden Wahrscheinlichkeit<br />
ohne bekannte Wortfolge. Darin steckt der diskriminative Charakter dieses<br />
Verfahrens.<br />
Der interessierte Leser findet die Details zur Modifikation des Standard<br />
Baum-Welch Algorithmus für die Verwendung des MMIE-Kriteriums zum<br />
Beispiel in [?]. Dort werden Ergebnisse von Experimenten auf einer Buchstabieraufgabe<br />
vorgestellt, die eine Reduktion der Fehlerrate um ca. 8% enthalten.<br />
13.3.2 Trainieren ohne Transkriptionen<br />
Wie bereits im Kap. 9 besprochen, können Trainingsverfahren überwacht<br />
oder unüberwacht sein. In der Spracherkennung bedeutet das im Extremfall
220 13. Das Trainieren von Spracherkennern<br />
die Frage, ob es möglich ist, einen Erkenner mit Sprachaufnahmen zu<br />
trainieren, ohne daß dabei die Transkriptionen der Aufnahmen vorhanden<br />
sind. Die Erfahrung hat gezeigt, daß das Zitat von Bob Mercer: ” there’s<br />
no data like more data“ fast immer anwendbar ist. Daraus entsteht die<br />
Vorstellung, daß die sehr großen vorhandenen Audiodatenmengen genutzt<br />
werden können, um Spracherkenner zu trainieren, ohne vorher den sehr langwierigen<br />
und teuren Prozeß der Transktiption durchlaufen zu müssen. Wenn<br />
man bedenkt, daß die größten sauber transkribierten spontansprachlichen<br />
Datenbasen gerade mal etwa 250h Sprachaufnahmen beinhalten und daß in<br />
den Archiven verschiedener Medien und Sendeanstalten mehrere Millionen<br />
Stunden Sprachaufnahmen existieren, scheint die Hoffnung aus diesen riesigen<br />
Datenmengen einen Vorteil zu ziehen, nicht unbegründet, auch wenn die<br />
dann zu verwendenden Trainingsmethoden weniger gute Ergebnisse erzielen<br />
als überwachte Methoden es auf der gleichen Trainingsmenge könnten.<br />
Die Idee beim Trainieren ohne Transkriptionen ist, einen ersten schlechten<br />
Spracherkenner zu verwenden automatisch Transkriptionen zu erzeugen.<br />
Diese sind dann natürlich von schlechter Qualität und enthalten viele Fehler.<br />
Selbst wenn die Fehlerrate 30% beträgt, könnten so immer noch 70% von<br />
riesigen Datenmengen (z.B. aufgezeichnete Rundfunknachrichten) korrekt<br />
transkribiert zum Trainieren verwendet werden. Es muß allerdings etwas<br />
dagegen unternommen werden, daß die 30% falsch transkribierten Daten die<br />
geschätzten Modelle nicht zu stark verfälschen. Zu den Gegenmaßnahmen<br />
gehören im wesentlichen zwei Vorgehensweisen: die Adaption und konfidenzgewichtetes<br />
Training. Bei der Adaption wird versucht, durch Optimieren<br />
des Erkenners auf den neuen Daten (s. Kap. 21) an die Spracheigenschaften<br />
und Aufnahmebedingungen der großen untranskribierten Datenmengen<br />
anzupassen, und so die Fehlerrate etwas zu senken. Wenn der Erkenner<br />
bessere Transkriptionen erzeugt, dann wird auch der folgende Trainingsprozeß<br />
erfolgreicher verlaufen. Die Erwartung ist nun, durch wiederholtes<br />
Iterieren der automatischen Transkription und des Trainings einen immer<br />
besser werdenden Erkenner zu erhalten, der immer bessere Transkriptionen<br />
erzeugen kann, die wiederum zu besseren Trainingserfolgen führen.<br />
Das Verfahren des konfidenzgewichteten Trainings beruht auf der Feststellung,<br />
daß ein Erkenner zwar nicht angeben kann, welche Teile seiner<br />
Hypothese korrekt sind und welche falsch, aber es ist möglich bestimmte<br />
Konfidenzmaße zu bestimmen [?] [?], die ausdrücken, wie wahrscheinlich<br />
es ist, daß der Erkenner an einer bestimmten Stelle einen Fehler gemacht<br />
hat. Ein relativ leicht verständliches Konfidenzmaß ist zum Beispiel der<br />
Vergleich der (durch den Forward-Algorithmus) berechneten Beobachtungswahrscheinlichkeit<br />
des wahrscheinlichsten Wortes mit der des zweit- oder<br />
drittwahrscheinlichsten Wortes an der gleichen Stelle. Wenn diese Wahrscheinlichkeiten<br />
stark voneinander abweichen, also das wahrscheinlichste
13.3 Trainingsparadigmen 221<br />
viel wahrscheinlicher ist als die anderen, dann ist davon auszugehen, daß<br />
der Erkenner ” sich seiner Hypothese sehr sicher ist“. Wenn die Wahrscheinlichkeiten<br />
jedoch nahe beieinander liegen, kann man annehmen, daß bereits<br />
eine kleine Änderung der Aufnahme womöglich dazu geführt hätte, daß ein<br />
anderes Wort das wahrscheinlichste geworden wäre. In diesem Fall ist die<br />
Konfidenz in die Hypothese eher gering.<br />
Die Konfidenz kt zum Zeitpunkt t kann nun verwendet werden, um<br />
das Training damit zu gewichten. Wenn kt zwischen 0 und 1 liegt, kann es<br />
direkt auf die γt(i) aufmultipliziert werden bevor die Baum-Welch-Regeln<br />
angewandt werden. Es ist aber auch möglich, einen Schwellwert h zu<br />
definieren, und γt(i) auf 0 (für kt < h) oder 1 (für kt ≥ h) zu setzen.<br />
Diese würde bedeuten, daß ein Training nur auf denjenigen Bereichen einer<br />
Aufnahme stattfinden, auf denen der Erkenner sich einigermaßen sicher<br />
ist, die korrekte Hypothese erzeugt zu haben. Selbstverständlich sind auch<br />
die Konfidenzmaße mit der tatsächlichen Korrektheit bestenfalls korreliert<br />
und geben keineswegs 100%-ige Sicherheit. Allerdings helfen sie deutlich,<br />
den Trainingserfolg auf untranskribierten Daten zu steigern. In [?] wird<br />
festgestellt, daß für die gleiche Steigerung der Erkennungsleistung eines<br />
schlechten Erkenners mit initialer Fehlerrate von 78.5%, etwa 100 mal so viele<br />
untranskribierte Daten benötigt werden wie fehlerfrei transkribierte. Dies<br />
berechtigt auf den ersten Blick durchaus zu Optimismus. Allerdings stellt [?]<br />
auch fest, daß die Gewinnaussichten mit steigender Erkennerqualität sinken.<br />
Das heißt, es ist wesentlich mehr Aufwand und Daten nötig, um einen<br />
bereits guten Erkenner noch besser zu machen. So daß dieses Verfahren nur<br />
bedingt anwendbar ist. In [?] wird berichtet, daß durch dieses Verfahren, ein<br />
Erkenner mit initialer Fehlerrate von 38.8% durch Trainieren auf korrekten<br />
Transkriptionen auf eine Fehlerrate von 24.5% verbesser werden konnte. Die<br />
immer noch beachtliche Verbesserung durch Trainieren auf denselben Daten<br />
ohne Transkriptionen allerdings unter Verwendung eines Konfidenzmaßes<br />
reichte allerdings nur zu einer Fehlerrate von 28.5%.<br />
13.3.3 Momentum und adaptives Training<br />
Gelegentlich kommt es vor, daß heterogene Daten vorliegen und eine<br />
Erkennung auf einer Art von Sprache bzw. Aufnahmequalität durchgeführt<br />
werden muß, die sich deutlich von der Art der Trainingsdaten unterscheidet.<br />
Wenn es möglich ist, wenigstens eine kleine Menge an Aufnahmen der neuen<br />
Art zu erhalten, kann diese kleine Menge verwendet werden, um die Parameter<br />
des Erkenners neu zu schätzen. Selbst wenn dabei davon auszugehen<br />
ist, daß diese kleine Menge besser mit der aktuellen Erkennungsaufgabe<br />
übereinstimmt als die große Menge an Daten, mit denen der Erkenner<br />
trainiert worden war, so wäre es doch meistens nicht sinnvoll, die große
222 13. Das Trainieren von Spracherkennern<br />
Menge an Information aus den Trainingsdaten zu verwerfen bzw. nur dazu<br />
zu verwenden, die neuen Daten zu etikettieren. Würde man aber die neuen<br />
Daten einfach nur zu den Trainingsdaten hinzufügen und so die Parameter<br />
neu schätzen, würde die Wirkung der neuen Daten auf die Parameter kaum<br />
merkbar ausfallen.<br />
Eine einfache Möglichkeit, dem Problem zu begegnen, ist die unterschiedliche<br />
Gewichtung der großen alten Datenmenge und der kleinen neuen<br />
Datenmenge. Dabei könnten z.B. die neuen Daten mehrfach trainiert werden.<br />
Alternativ kann man in Anlehnung an entsprechende Trainingsverfahren bei<br />
künstlichen neuronalen Netzen mit Hilfe eines Momentums arbeiten.<br />
Bei Verwendung eines Momentums werden die alten Trainingsdaten nicht<br />
mehr benutzt. Die Systemparameter werden aber nicht einfach durch die<br />
Schätzung mit den neuen Daten ersetzt, sondern nur leicht in deren Richtung<br />
verändert. Müßte nach dem EM-Algorithmus oder der Baum-Welch-Regeln<br />
der Parameter c ersetzt werden durch c ′ = d, dann wird statt dessen<br />
c ′ = ǫ · c + (1 − ǫ) · d gewählt. Der Wert von ǫ kann unterschiedlich – je<br />
nach Größe der neuen Trainingsdatenmenge – gewählt werden, ja sogar<br />
unterschiedlich für verschiedene Parameter.
14. Das akustische Modell<br />
In der Spracherkennung sowie in anderen Mustererkennungsproblemen werden<br />
oft mathematische Modelle der realen Welt entwickelt. Typischerweise<br />
werden bei derart komplexen Problemen selten Modelle verwendet, die das<br />
gesamte Problem auf einmal erfassen. Vielmehr wird das Problem in verschiedene<br />
Teilprobleme unterteilt, von denen man annehmen kann, daß sie<br />
einigermaßen orthogonal sind und getrennt modelliert werden können. Eine<br />
solche Aufteilung ist die in die getrennte Modellierung der Akustik und der<br />
Linguistik. In diesem Kapitel wird die Modellierung der Akustik detailliert<br />
behandelt.<br />
14.1 Die Fundamentalformel der Spracherkennung<br />
Die geeignetste mathematische Darstellung des Problems der Spracherkennung<br />
ist die so genannten Fundamentalformel der Spracherkennung:<br />
ˆW = argmaxp(W|X)<br />
(14.1)<br />
W<br />
= argmax<br />
W<br />
= argmax<br />
W<br />
p(X|W) · p(W)<br />
p(X)<br />
(14.2)<br />
p(X|W) · p(W) (14.3)<br />
Die Formel sagt aus, daß die gesuchte Wortfolge ˆ W diejenige ist, deren<br />
Wahrscheinlichkeit bei gegebener Beobachtung X maximal ist. Nach<br />
Umformung mit der Bayes-Regel stellt man fest, daß der Nenner in Gl.<br />
14.2 der Nenner p(X) , also die A-priori-Wahrscheinlichkeit dafür, daß X<br />
überhaupt beobachtet wird, für das Maximieren unerheblich ist. So bleiben<br />
nur noch zwei Faktoren, die gemeinhin als das akustische Modell p(X|W)<br />
und das Sprachmodell p(W) bezeichnet werden. Das Sprachmodell berechnet<br />
die Wahrscheinlichkeit dafür, daß eine Wortfolge W gesprochen wird, unabhängig<br />
davon, wie sie letztendlich artikuliert wird und wie das produzierte<br />
Signal aussieht. Das akustische Modell berechnet die Wahrscheinlichkeit<br />
dafür, daß eine Beobachtung so aussieht wie das beobachtete Signal, wenn<br />
eine gegebene Wortfolge gesprochen wurde.
224 14. Das akustische Modell<br />
14.2 Der Parameterraum des Akustischen Modells<br />
Während der gesamte Parameterraum des akustischen Modells eines Spracherkennungssystems<br />
aus vielen verschiedenen Arten von Parametern bestehen<br />
kann, so bilden die Parameter der parametrischen Schätzer der Emissionswahrscheinlichkeiten<br />
den größten und wichtigsten Teil dabei. Neben<br />
den Emissionswahrscheinlichkeiten rechnet man üblicherweise auch die Zustandsübergangswahrscheinlichkeiten<br />
zwischen den Zuständen eines Wortes<br />
zum akustischen Modell.<br />
14.2.1 Emissionswahrscheinlichkeitsmodelle<br />
Auch wenn verschiedene Modelle zur Berechnung der HMM-Emissionswahrscheinlichkeiten<br />
eingesetzt werden, so verwendet doch die weitaus größte<br />
Zahl der erfolgreichen Spracherkenner dafür Gauß-Mischverteilungen bzw.<br />
leichte Abwandlungen davon.<br />
Alternative Methoden sind Neuronale Netze wie mehrschichtige Perzeptronen.<br />
Auch kompliziertere Konstruktionen wie hierarchische Mixturen von<br />
Experten [?] (s. Abs. 22.2.7) oder Time-Delay Neuronale Netze [?] (s. Abs.<br />
22.2.5) werden eingesetzt.<br />
Wie in Abb. 12.8 schon gezeigt ist es üblich, daß verschiedene HMM-<br />
Zustände dieselben Emissionswahrscheinlichkeiten benutzen. Diese können<br />
wie in Abb. 12.8 Phoneme repräsentieren aber auch andere Spracheinheiten.<br />
Aus der Sicht eines Hidden-Markov-Modells spielt es keine unmittelbare Rolle,<br />
was für eine Spracheinheit U einem Zustand zugeordnet ist und welcher<br />
Bauart die Emissionswahrscheinlichkeitsmodelle sind. Bei der Implementierung<br />
eines Spracherkenners können diese wie eine abstrakte Klasse behandelt<br />
werden, die einige Operationen bieten muß. Zu diesen Operationen gehören:<br />
• Wahrscheinlichkeitsberechnung:<br />
gegeben: Beobachtung xt<br />
gesucht: P(xt|U)<br />
• Trainingsdatenakkumulation:<br />
gegeben: Beobachtung xt und Trainingsgewicht γt(U)<br />
Aufgabe: je nach Modell,<br />
bei Gauß-Mischverteilungen: E(x) und E(x 2 ) nachführen<br />
• Neuberechnung der Parameter:<br />
Aufgabe: je nach Modell,<br />
bei Gauß-Mischverteilungen: EM-Algorithmus ausführen
14.2 Der Parameterraum des Akustischen Modells 225<br />
Mit diesen Operationen sind alle Schnittstellen zum HMM definiert.<br />
Während der Forward-Backward oder Viterbi-Algorithmus gerechnet werden,<br />
wird immer wieder P(xt|U) angefordert. Für jede Trainingsaufnahme<br />
und jede Beobachtung xt wird dann die Operation zum Akkumulieren<br />
der Trainingsinformationen aufgerufen. Für Gauß-Mischverteilungen bedeutet<br />
dies, daß für jede Gauß-Verteilung Uk die ihr zugeordneten und<br />
sowohl mit dem vom Forward-Backward gelieferten Gewicht γt(i) als auch<br />
dem Anteilsgewicht der Verteilung an P(xt|U) multiplizierten xt und x 2 t<br />
jeweils aufaddiert werden. Dann können am Ende einer Trainingsiteration<br />
mit der Operation zur Parameterneuberechnung entsprechend dem<br />
EM-Algorithmus die neuen Mittelwerte µ = E(x) und Kovarianzmatrizen<br />
Σ = E(x 2 ) − E 2 (x) berechnet werden. Wenn statt Gauß-Mischverteilungen<br />
zum Beispiel neuronale Netze verwendet werden, dann muß statt des EM-<br />
Algorithmus zum Beispiel ein Backpropagation-Verfahren verwendet werden.<br />
Später (im Kap. 17) werden je nach phonetischem Kontext verschiedene<br />
Spracheinheiten vorgestellt und die Thematik behandelt, wie sinnvolle<br />
Einheiten gefunden werden. Jetzt soll der Fokus vielmehr auf die Möglichkeiten<br />
der Modellierung von Emissionswahrscheinlichkeiten bei vorgegebenen<br />
Spracheinheiten gelegt werden.<br />
14.2.2 Kontinuierlichkeitsgrade<br />
Wenn Hidden Markov Modelle für Probleme mit einem diskreten Merkmalsraum<br />
verwendet werden, ist das dazugehörige mathematische Grundgerüst,<br />
ebenso wie die Algorithmen deutlich einfacher. In den Anfängen der Spracherkennung,<br />
als die Verwendung von Fließkommaoperation im Vergleich zu<br />
Rechnungen mit Ganzzahlen wesentlich aufwendiger waren, bot es sich oft<br />
an, den Merkmalsraum zu diskretisieren und statt reellwertiger hochdimensionaler<br />
Spektralvektoren jeweils nur einen einzigen Quantisierungsindex zu<br />
verwenden. Statt Mischverteilungen auf Spektral- oder Cepstralvektoren zu<br />
berechnen, wurden nichtparametrische diskrete Verteilungen (Abb. 14.1) auf<br />
zuvor vektorquantisierten Werten geschätzt.<br />
Abb. 14.1. Rein diskretes Modell (keine Codebücher)<br />
...
226 14. Das akustische Modell<br />
Da bei diesen diskreten Hidden-Markov-Modellen das Berechnen der<br />
Emissionswahrscheinlichkeiten durch ein einfaches Nachsehen in einer<br />
Tabelle geschieht, sind solche Erkenner besonders schnell. Gegebenenfalls<br />
kann sogar auf die Verwendung teurer Fließkommaoperationen verzichtet<br />
werden. Diskrete HMM-Spracherkenner haben aber durchweg eine schlechtere<br />
Leistung (immerhin könnte jedes diskrete HMM durch ein kontinuierliches<br />
” simuliert“ werden). Sie bieten sich daher nur für Spezialaufgaben an,<br />
bei denen keine großen Erkennungsfähigkeiten verlangt werden oder für<br />
Systemen deren Hardware-Ressourcen beschränkt sind.<br />
Da die mit großem Abstand beliebteste Modellierung vom Emissionswahrscheinlichkeiten<br />
Gauß-Mischverteilungen sind, haben sie sich im Sprachgebrauch<br />
inzwischen als Bestandteil eines Hidden-Markov-Modells etabliert. So<br />
spricht man von Semikontinuierlichen Hidden-Markov-Modellen, meint damit<br />
aber vielmehr Hidden-Markov-Modelle mit kontinuierlichem Merkmalsraum<br />
und Gauß-Mischverteilungen mit gekoppelten Mittelwerten und Kovarianzmatrizen.<br />
Betrachten wir zunächst (voll) kontinuierliche Hidden-Markov-Modelle.<br />
Sie zeichnen sich dadurch aus, daß jede Spracheinheit ein eigenes komplettes<br />
Codebuch mit Gauß-Verteilungen und den dazu gehörigen Mixturgewichten<br />
hat. Kein Parameter dieses Codebuchs wird von anderen Spracheinheiten mit<br />
genutzt (s. Abb. 14.2). Der große Vorteil solcher Modelle ist die Möglichkeit<br />
der sehr feinen Modellierung.<br />
Abb. 14.2. Voll kontinuierliches Modell (keine gemeinsame Nutzung von Co-<br />
debüchern)<br />
Die Nachteile voll kontinuierlicher Modelle bestehen vor allem in der<br />
meist sehr großen Zahl an Parametern und in dem damit verbundenen<br />
großen Bedarf an Daten zur robusten Schätzung dieser Parameter. Auf den<br />
ersten Blick mag man den Eindruck haben, daß auch der Aufwand für die
14.2 Der Parameterraum des Akustischen Modells 227<br />
Durchführung eines Viterbi- oder Forward-Backward-Algorithmus deutlich<br />
erhöht wird. Zum einen weil vermehrt Fließkommaoperationen berechnet<br />
werden müssen, zum anderen weil die Auswertung der Gaußverteilungen<br />
eines Codebuchs nicht von mehreren Modellen gemeinsam genutzt werden<br />
kann. In der Praxis stellt sich jedoch oft heraus, daß die ” bessere Qualität“<br />
der kontinuierlich berechneten Emissionswahrscheinlichkeiten viel bessere<br />
Möglichkeiten zur Beschneidung des Suchraumes (s. Kap. 18) bieten, und<br />
somit zwar teurere aber dafür wesentlich weniger Emissionswahrscheinlichkeiten<br />
berechnet werden müssen.<br />
Bis Ende der achtziger Jahre waren kaum Datenbasen verfügbar, die<br />
ausreichten, um sehr große Parameterräume für voll kontinuierliche HMM-<br />
Spracherkenner mit großen Vokabularen gut zu trainieren. Für solche Fälle<br />
bieten sich so genannte semikontinuierliche Hidden-Markov-Modelle an. Bei<br />
diesen hat jede Spracheinheit eine eigene Mischverteilung, aber alle Einheiten<br />
teilen sich dieselbe Menge Gauß-Verteilungen (s. Abb. 14.3).<br />
Abb. 14.3. Semikontinuierliches Modell (ein Codebuch, viele Mixturgewichtever-<br />
teilungen)<br />
Da der größte Teil der Parameter in einem voll kontinuierlichen HMM<br />
in den Mittelwerten und Kovarianzmatrizen der Gauß-Verteilungen steckt,<br />
kann durch Reduktion auf ein einziges Codebuch der Parameterraum<br />
drastisch verkleinert werden. Die wenigen verbleibenden Parameter können<br />
wesentlich robuster geschätzt werden. Selbstverständlich ist die Modellierung<br />
des Merkmalsraumes mit semikontinuierlichen Modellen nicht so fein wie<br />
mit voll kontinuierlichen. Allerdings bieten semikontinuierliche Systeme<br />
einen sehr sinnvollen Kompromiß zwischen guter Trainierbarkeit (da wenige<br />
Parameter) und feiner Modellierung (da kontinuierlicher Merkmalsraum).<br />
Üblicherweise verwenden semikontinuierliche Erkenner ein Codebuch mit<br />
wesentlich mehr Gauß-Verteilungen (zum Beispiel über 1 000 in [?]) als in<br />
den typischerweise zwischen 10 und 100 Verteilungen enthaltenden kleinen
228 14. Das akustische Modell<br />
Codebücher voll kontinuierlicher Systeme. Da alle Gauß-Verteilungen für<br />
jede Beobachtung xt nur einmal ausgewertet werden müssen, können ohne<br />
nennenswerten zusätzlichen Aufwand für die Berechnung der Emissionswahrscheinlichkeiten<br />
sehr viele verschiedene Spracheinheiten mit eigenen<br />
Mixturgewichten verwendet werden.<br />
In der Praxis hat sich allerdings herausgestellt, daß die mangelnde Modellierungsfeinheit<br />
semikontinuierlicher Systeme von Nachteil ist, so daß auch<br />
Mischformen zwischen voll kontinuierlichen Systemen und semikontinuierlichen<br />
mit einem Codebuch entwickelt wurden. Bei diesen Mischformen teilen<br />
sich nicht mehr alle Spracheinheiten ein gemeinsames Codebuch, sondern<br />
mehrere Einheiten einer Gruppe. Gruppen können zum Beispiel Phoneme<br />
sein. Dann ergeben sich phonetisch gekoppelte semikontinuierliche Hidden-<br />
Markov-Modelle (s. Abb. 14.4, in der Literatur gelegentlich als PTSCHMM<br />
bezeichnet: phonetically tied semi continuous hidden Markov models. Die verschiedene<br />
Teile eines Phonems, die dasselbe Codebuch verwenden können<br />
zum Beispiel die zeitlichen Segmente zu Beginn, in der Mitte und am Ende<br />
sein, die jeweils mit einem eigenen HMM-Zustand modelliert werden. Verschiedene<br />
Ausprägungen eines Phonems könnten zum Beispiel die verschiedenen<br />
Erscheinungsformen je nach Kontext (s. Kap. 17) sein.<br />
Verschiedene Teile bzw. Verschiedene Teile bzw.<br />
Ausprägungen Ausprägungen<br />
von Phonem 1 von Phonem 2<br />
Phonem 1 Phonem 2 ...<br />
Abb. 14.4. Phonetisch gekoppeltes semikontinuierliches Modell (ein Codebuch je<br />
Phonem)<br />
Weitere Verfeinerungen gibt es bei subphonetisch gekoppelten Modellen.<br />
Bei diesen teilen sich verschiedene Ausprägungen des gleichen<br />
Phonemsegments ein Codebuch, während jede Ausprägung eine eigene<br />
Mixturgewichteverteilung hat.
14.3 Mehrere Datenströme 229<br />
Ganz allgemein kann man bei der Verwendung von Mischverteilungen zur<br />
Berechnung von Emissionswahrscheinlichkeiten sagen, daß die Wahrscheinlichkeit<br />
dafür, daß eine Beobachtung x zu einer Spracheinheit U gehört, als<br />
p(x|U) =<br />
lU<br />
cUk · NUk(x) (14.4)<br />
k=1<br />
berechnet werden kann. Hierbei ist NUk die k-te von lU Gauß-Verteilungen<br />
des Codebuchs, das von U verwendet wird.<br />
Im Falle von voll kontinuierlichen Modellen gilt, daß für zwei verschiedene<br />
Spracheinheiten i = j sowohl cik = cjk als auch Nik = Njk (hier bedeutet<br />
= nicht, daß die Werte echt verschieden sind, sondern daß es sich um zwei<br />
verschiedene Parameter handelt, die zufällig auch mal die gleichen Werte<br />
haben können).<br />
Im Falle von rein semikontinuierlichen Modellen gilt immer noch cik = cjk<br />
für verschiedene Einheiten i und j, jedoch Nik = Njk ∀i, j, da es nur ein<br />
einziges Codebuch gibt.<br />
Im Falle von phonetisch gekoppelten semikontinuierlichen Modellen<br />
gilt Nik = Njk, wenn die Einheiten i und j verschiedene Segmente oder<br />
verschiedene Ausprägungen desselben Phonems sind.<br />
14.3 Mehrere Datenströme<br />
Bevor die lineare Diskriminanzanalyse das bevorzugte Mittel zur Beherrschung<br />
hochdimensionaler Merkmalsräume wurde verwendeten viele Erkenner<br />
(zum Beispiel [?] [?]) R unabhängige Teilräume, die jeder für sich Emis-<br />
sionswahrscheinlichkeiten b r j<br />
(x) für die Beobachtung X im Zustand j berech-<br />
neten, und die Gesamtemissionswahrscheinlichkeit berechnete sich aus dem<br />
Produkt aller Teilraumwahrscheinlichkeiten:<br />
bj(x) =<br />
R<br />
r<br />
b r j (x) (14.5)<br />
Typische Unterteilungen des Merkmalsraumes waren zum Beispiel<br />
ein Teilraum für die Spektral- oder Cepstralkoeffizienten und ein zweiter<br />
Teilraum für die Ableitung dieser (Delta-Koeffizienten). Da diese Teilraumunterteilung<br />
wie die Verwendung mehrerer Datenströme aussah wurde sie<br />
auch ” Multi-Stream“ Methode genannt.
230 14. Das akustische Modell<br />
Der große Vorteil der Multi-Stream Methode liegt nicht nur in der Unterteilung<br />
des Merkmalsraumes ist mehrere Teilräume, die jeder für sich leichter<br />
und besser trainierbar sind, sondern auch in den folgenden möglichen Anwendungen:<br />
• Verwendung unterschiedlicher Rechenverfahren für Emissionswahrscheinlichkeiten:<br />
So ist es zum Beispiel möglich, eine Emissionswahrscheinlichkeit zu<br />
berechnen, zu der sowohl Gauß-Mischverteilungen als auch andere Modelle<br />
wie künstliche neuronale Netze oder andere parametrische Schätzer beitragen.<br />
Dann kann die Gesamtemissionswahrscheinlichkeit als gewichtetes<br />
Produkt der Ergebnisse der einzelnen Berechnungsmethoden zusammengesetzt<br />
werden. Erfolgreich wurde dies schon bei hierarchischen Mixturen<br />
von Experten [?] eingesetzt (s. Abs. 22.2.7).<br />
• Möglichkeit, die verschiedenen Ströme je nach HMM-Zustand unterschiedlich<br />
zu gewichten:<br />
Zunächst wurden bei Multi-Stream Systemen die Gewichtungsfaktoren für<br />
die einzelnen Ströme empirisch bestimmt und dieselben Gewichte für alle<br />
akustischen Modelle verwendet, so zum Beispiel in [?] [?] [?]. Nun ist es<br />
durchaus sinnvoll zu erwarten, daß manche akustischen Modelle von dem<br />
einen oder anderen Strom stärker abhängen als von anderen. So könnte man<br />
vermuten, daß Diphthonge mehr von den Delta-Koeffizienten abhängen<br />
beziehungsweise von diesen besser modelliert werden, während Frikative<br />
eher weniger von den Delta-Koeffizienten abhängen. So berechnet sich die<br />
Emissionswahrscheinlichkeit bj(x) für die Beobachtung von x im Zustand<br />
j mit n Datenströmen als:<br />
bj(x) =<br />
n<br />
b i j(x) fi(j)<br />
i=1<br />
(14.6)<br />
Die Gewichtung fi(j), mit der der i-te Datenstrom in die Berechnung für<br />
den Zustand j eingeht, muß selbstverständlich im Exponenten geschehen,<br />
wenn die Einzelwahrscheinlichkeiten aufmultipliziert werden. Betrachtet<br />
man statt der Emissionswahrscheinlichkeiten deren Logarithmen, so ergibt<br />
sich eine multiplikative Gewichtung. Um sicherzustellen, daß die bj(xt)<br />
echte Wahrscheinlichkeiten sind, muß natürlich gelten, daß 0 ≤ fi(j) ≤ 1<br />
und n<br />
i=1 fi(j) = 1.0 ∀j.<br />
Eine Möglichkeit, geeignete Werte für die fi(j) zu finden, wird in [?]<br />
vorgestellt. Dabei wird für jede Trainingsaufnahme ein Viterbi-Pfad<br />
q1, q2, . . .qn und alle Emissionswahrscheinlichkeiten bj(xt) berechnet.<br />
Letzteres kann je nach Parameterraum sehr aufwendig werden. Wenn der
14.4 Parameterkopplung 231<br />
Zustand s B mit der besten (d.h. höchsten) Emissionswahrscheinlichkeit<br />
zum Zeitpunkt t nicht der Zustand sqt des Viterbi-Pfades ist, dann werden<br />
fi(B) und fi(qt) jeweils um einen kleinen Wert verändert, so daß bqt(xt)<br />
vergrößert und bB(xt) verkleinert wird. In [?] konnte so die Fehlerrate<br />
gegenüber einem System mit gleichgewichteten Strömen um 20% bis über<br />
40% reduziert werden.<br />
• Verwendung artikulatorischer Merkmale:<br />
Die Verwendung mehrerer unabhängiger Ströme bietet sich auch an bei<br />
der Abstraktion von Phonemen und der Erkennung mit Hilfe artikulatorischer<br />
Eigenschaften. Diese sind in Abs. 6.3.2 beschrieben und umfassen<br />
Eigenschaften wie Stimmhaftigkeit, Artikulationsort und so weiter. Nun<br />
ist es möglich, die Emissionswahrscheinlichkeit für einen Zustand als das<br />
– gegebenenfalls gewichtete – Produkt der Klassifikationswahrscheinlichkeiten<br />
der für diesen Zustand relevanten Artikulatorischen Eigenschaften<br />
zu definieren [?] [?]. Auf diese Art kann die Notation eines Phonems als<br />
Wortuntereinheit beibehalten werden, jedoch ist die Modellierung mehr<br />
an der akustischen als an der linguistischen Manifestation orientiert.<br />
Ein weiterer Vorteil der Verwendung artikulatorischer Merkmale besteht<br />
in ihrer relativ hohen Sprachenunabhängigkeit. So konnte gezeigt werden<br />
[?] [?], daß sie auch gewinnbringend für multilinguale Spracherkenner (s.<br />
Kap. 25) eingesetzt werden können.<br />
14.4 Parameterkopplung<br />
Parameterkopplung manifestiert sich auf verschiedene Arten:<br />
• mehrere reale Phänomene teilen sich ein Modell<br />
• mehrere Modelle teilen sich einige Parameter<br />
• einzelne Parameter eines Modells werden mit entsprechenden Parametern<br />
anderer Modelle interpoliert (geglättet)<br />
Die Motivation für die Parameterkopplung ist einmal die Gleichbehandlung<br />
gleicher oder ähnlicher Phänomene, und außerdem die Erwartung, daß<br />
bei weniger Parametern diese robuster trainiert werden können. Wenn man<br />
die Entwicklung von Spracherkennern als eine Mischung zwischen Technik<br />
und Kunst ansehen möchte, so hat die Wahl der Parameterkopplung den<br />
größten Anteil an der Kunst. Vergleicht man die Architektur verschiedener<br />
Systeme, die an DARPA Evaluationen teilnehmen, so stellt man fest,<br />
daß im wesentlichen alle Hidden-Markov-Modelle und nahezu identische
232 14. Das akustische Modell<br />
Signalverarbeitungsmethoden verwenden. Die größten Unterschiede findet<br />
man in der Art wie die Parameter gekoppelt werden [?].<br />
Eine für die Qualität eines Spracherkenners entscheidende Frage ist also<br />
die Frage danach, welche Phänomene aus der ” realen Welt“ mit einem<br />
eigenen Modell in der Modellwelt modelliert werden. Dabei gilt es, zwei Dimensionen<br />
zu beachten. Die eine ist die Dimension der zeitlichen Ausbreitung<br />
eines Modells, die andere die der merkmalsräumlichen Ausbreitung. Unterschiedliche<br />
zeitliche Ausbreitungen können sich dadurch manifestieren, daß<br />
entweder Modell für kurze Einheiten wie z.B. Phoneme oder deren Untereinheiten<br />
gebildet werden, oder für längere Einheiten wie z.B. Silben oder gar<br />
Wörter. Bei der Frage, welche Ausbreitung im Merkmalsraum die Modelle<br />
haben, kann man zwischen sehr spezifischen Modellen, wie z.B. einer ganz<br />
bestimmten Ausprägung eines Phonems, und sehr groben Modellen, wie z.B.<br />
Klassen von Phonemen (vgl. Kap. 6) unterscheiden. Tab. 14.1 und Tab. 14.2<br />
fassen die Vor- und Nachteile unterschiedlicher Spracheinheiten zusammen.<br />
Zeitliche<br />
Ausdehnung Vorteile Nachteile<br />
kurz hohe Flexibilität wenig Evidenz im Sprachsignal<br />
Domänenunabhängigkeit ⇒ hohe Verwechselbarkeit<br />
lang hohe Erkennungsrate wenig Trainingsdaten pro Einheit<br />
Tabelle 14.1. Vor- und Nachteile verschiedener zeitlicher Ausdehnung von<br />
Spracheinheiten<br />
Zeitlich kurze Einheiten (Phoneme) haben den Vorteil, daß sich aus ihnen<br />
sehr einfach längere Einheiten (Silben, Wörter) durch Konkatenation zusammensetzen.<br />
Würden Silben verwendet, wäre es schwierig beliebige Wörter<br />
(insbesondere Frendwörter) aus ihnen bauen. Der Nachteil kurzer Einheiten<br />
manifestiert sich in der geringeren Evidenz im Signal. Dadurch werden sie<br />
leichter verwechselbar als lange Einheiten. Den Vorteil der besseren Erkennungsgenauigkeit<br />
erkaufen sich lange Einheiten durch das Problem, daß sie<br />
seltener in den Trainingsdaten vorkommen und somit schwer trainierbar sind.<br />
Einheiten mit kleiner räumlicher Ausdehnung können durch eine relativ<br />
exakte Positionierung im Merkmalsraum gut beschrieben werden. Überla-
Räumliche<br />
14.5 Mehrdimensionale Hidden-Markov-Modelle 233<br />
Ausdehnung Vorteile Nachteile<br />
klein gute diskriminative wenig Trainingsdaten pro Einheit<br />
Fähigkeiten<br />
groß robust trainierbar schlechte Diskriminativität<br />
Tabelle 14.2. Vor- und Nachteile verschiedener räumlicher Ausdehnung von<br />
Spracheinheiten<br />
gerungen mit anderen Einheiten sind weniger wahrscheinlich als bei breiter<br />
ausgedehnten, somit ist die Unterscheidbarkeit (Diskriminativität) höher.<br />
Allerdings gibt es umso weniger Trainingsdaten pro Einheit, je kleiner ihr<br />
Anteil am Merkmalsraum ist. Räumlich große Einheiten haben entsprechend<br />
mehr Trainingsdaten und sind so robust trainierbar, allerdings ist die Wahrscheinlichkeit<br />
der Überlagerung mit anderen Einheiten im Merkmalsraum<br />
größer, womit die Diskriminativität sinkt.<br />
Abb. 14.5 illustriert verschiedene Möglichkeiten der Parameterkopplung.<br />
Auf oberster Ebene wird die Entscheidung getroffen, welche HMM-Zustände<br />
durch das gleiche ” akustische Atom“ modelliert werden. Wenn Gauß-<br />
Mischverteilungen verwendet werden, dann ist ein akustisches Atom durch<br />
eine Mixturgewichteverteilung definiert. Auf der nächst tieferen Ebene wird<br />
festgelegt, welche Mixturgewichteverteilung über welchen Codebüchern von<br />
Gauß-Verteilungen definiert ist. Hier sind grundsätzlich beliebige Kopplungsgrade<br />
– nicht nur die in Abs. 14.2.2 vorgestellten – realisierbar und<br />
werden auch in der Praxis realisiert. Kap. 17 wird darauf weiter eingehen.<br />
Auf unterster Ebene ist es des weiteren noch möglich, daß verschiedene<br />
Gauß-Mischverteilungen sich einige Parameter (z.B. - wie dargestellt -<br />
Kovarianzmatrizen) teilen.<br />
14.5 Mehrdimensionale Hidden-Markov-Modelle<br />
<strong>Mensch</strong>en haben die Fähigkeit, aus einem Stimmengewirr von zwei oder mehr<br />
gleichzeitig sprechenden Personen eine herauszuhören und zu verstehen. Dies<br />
geht sogar – wenn auch mit mehr Verständnisfehlern – wenn die Stimmen
234 14. Das akustische Modell<br />
Σ Σ Σ Σ<br />
Abb. 14.5. Verschiedene Ebenen der Parameterkopplung<br />
aus einem Lautsprecher kommen und so die getrennte Lokalisierung der<br />
Schallquellen durch das binaurale Hören nicht möglich ist. Nach dem heutigen<br />
Stand der Technik ist nicht abzusehen, daß maschinelle Spracherkenner<br />
ähnliche Leistungen bald auch erbringen können. Dennoch gibt es viele<br />
ähnliche Aufnahmesituationen, die etwas einfacher zu handhaben sind, bei<br />
denen zum Beispiel ein Sprecher und irgendwelche Hintergrundgeräusche<br />
sich überlagern. Wenn die Hintergrundgeräusche wesentlich weniger Energie<br />
enthalten als die zu erkennende Stimme, dann bieten oft Adaptionsmethoden<br />
(s. Kap. 21) gute Lösungen. Wenn die Energie der Hintergrundgeräusche<br />
jedoch in die Größenordnung der Energie der Sprache kommt, und wenn<br />
die Hintergrundgeräusche eine eigene Struktur haben, dann bietet sich eine<br />
Vorgehensweise an, die als Verwendung mehrdimensionaler Hidden-Markov-<br />
Modelle bezeichnet werden kann.<br />
Die bei solchen Modellen basiert auf der Annahme, daß alle (beide)<br />
Schallquellen Signale erzeugen, die durch ein Hidden-Markov-Modell modelliert<br />
werden können. Im einfachen Fall, würde ein HMM die Sprache<br />
und eines die Geräusche (Musik, Auto, Büro etc.) modellieren. Jedes HMM<br />
hat seine eigene Zustandsmenge. Die Forward-Backward- und Viterbi-<br />
Algorithmen können aber nicht unabhängig voneinander durchgeführt<br />
werden, weil die einzelnen Signale nicht isoliert vorliegen. Daher wird für<br />
sie ein Zustandsraum aufgebaut, der das kartesische Produkt der einzelnen<br />
Zustandsräume S (1) × S (2) ist. Wenn der Zustand s (1)<br />
i der i-te Zustand
14.5 Mehrdimensionale Hidden-Markov-Modelle 235<br />
des ersten HMMs ist und s (2)<br />
j der j-te Zustand des zweiten HMMs, dann<br />
verwendet das mehrdimensionale HMM den Zustand sij, der Ausdrückt,<br />
daß sich der erste stochastische Prozeß im Zustand s (1)<br />
i und der zweite im<br />
Zustand s (2)<br />
j befindet. Die Wahrscheinlichkeit für einen Übergang von sij<br />
in den Zustand skl berechnet sich dann aus dem Produkt der einzelnen<br />
Übergangswahrscheinlichkeiten a (1)<br />
ik · a (2)<br />
jl . Diese einfache Multiplikation<br />
kann aufgrund der Unabhängigkeitsannahme für die beiden stochastischen<br />
Prozesse gemacht werden. Etwas komplizierter ist die Berechnung der<br />
Emissionswahrscheinlichkeiten. Hier wäre es falsch bij(x) = b (1)<br />
i (x) · b (2)<br />
j (x)<br />
zu setzen, denn die Beobachtung x ist eigentlich die Summe zweier Beobachtungen<br />
x (1) + x (2) . Wenn das einfachere der Modelle (dasjenige, das die<br />
Störgeräusche modelliert) nur weniger Zustände hat, dann ist es denkbar,<br />
für jedes Zustandspaar aus S (1) × S (2) eine eigene Gauß-Mischverteilung<br />
zu trainieren – vorausgesetzt es gibt ausreichend viele Daten. Wenn aber<br />
die Daten nicht reichen, oder wenn der resultierende Zustandsraum zu groß<br />
ist (zum Beispiel wenn beide Quellen Sprache enthalten), dann muß aus<br />
für jedes HMM getrennt trainierten Mischverteilungen ein gemeinsamer<br />
Emissionswahrscheinlichkeitswert kombiniert werden. Diese Kombination<br />
hängt natürlich von den Details der einzelnen Modelle ab.<br />
B<br />
A<br />
Pfad = A, A, A, B, B, D, F<br />
C<br />
D<br />
E<br />
F<br />
1 2 3 4 5 6 7<br />
t<br />
Pfad = (A,X), (A,X), (A,Y), (B,Y), (D,Z), (F,Z)<br />
Z<br />
Y<br />
X<br />
1 2 3 4 5 6 7<br />
Abb. 14.6. Eindimensionales und zweidimensionales HMM<br />
Das Ergebnis des Viterbi-Algorithmus ist dann nicht mehr ein Pfad durch<br />
eine Zustandsmatrix, sondern durch einen höherdimensionalen Zustandsraum<br />
(s. Abb. 14.6).<br />
t<br />
A<br />
B<br />
C<br />
D<br />
E<br />
F
236 14. Das akustische Modell<br />
14.6 Aussprachemodellierung<br />
Wenn wir das akustische Modell aus der Fundamentalformel der Spracherkennung<br />
berechnen, läßt sich p(x|W) auf viele verschiedene Arten zerlegen.<br />
Die bei weitem am meisten verwendete Zerlegung ist die von W in eine Folge<br />
von akustischen Einheiten, typischerweise Allophone bzw. deren Untersegmente.<br />
In letzter Zeit häufen sich Ansätze, die eine Zerlegung von W weniger<br />
nach phonetischen Einheiten sondern eher nach Sequenzen artikulatorischer<br />
Eigenschaften [?] gestalten. Der große Vorteil einer Zerlegung in Phoneme<br />
besteht darin, daß ein in die Lautschrift Eingeweihter – nicht unbedingt<br />
ein Phonetiker – relativ einfach die phonetische Umschrift für ein Wort<br />
bestimmen kann.<br />
Es gibt einige Ansätze, Spracherkennung mit null phonetischem Wissen<br />
zu machen [?] [?] [?], allerdings bisher für die meisten Sprachen mit deutlich<br />
schlechterer Erkennungsrate. Für Sprachen mit phonetischer Orthographie<br />
ist es einfach möglich, aus der Orthographie die korrekte Aussprache direkt<br />
abzuleiten. Für die meisten Sprachen, insbesondere für das Englische ist dies<br />
nicht mehr möglich. So verwenden die allermeisten Spracherkenner im voraus<br />
erstellte Lexika, in denen für jedes erkennbare Wort zur Orthographie dieses<br />
Wortes auch die entsprechende phonetische Umschrift eingetragen ist. Nur<br />
mit dieser Information können gute HMMs für die Wörter aufgebaut werden.<br />
14.6.1 Aussprachelexika und Text-To-Speech Systeme<br />
Dieser Abschnitt beschäftigt sich nicht mit der akustischen Qualität<br />
von Sprachsynthesesystemen. Wenn wir hier von <strong>Mensch</strong>-<strong>Maschine</strong>-<br />
<strong>Kommunikation</strong> reden, ist der die <strong>Kommunikation</strong> vom <strong>Mensch</strong>en zur<br />
<strong>Maschine</strong> gemeint. Inwiefern können Text-To-Speech Systeme für das<br />
Verstehen menschlicher Sprache dennoch gewinnbringend eingesetzt werden?<br />
Der Begriff ” Text-To-Speech Systeme“ wird für zweierlei Dinge verwendet,<br />
einmal für die Generierung der Phonemfolge aus einem gegebenen<br />
Text, und darüber hinaus auch für komplette Sprachsynthesesysteme mit<br />
zusätzlicher Erzeugung eines Sprachsignals.<br />
Zweifellos ist es nötig, für eine große Akzeptanz von natürlichsprachlichen<br />
<strong>Mensch</strong>-<strong>Maschine</strong> Dialogsystemen eine sehr gute Sprachsynthese zu<br />
verwenden. Dazu gehören im wesentlichen drei nicht unbedingt unabhängige<br />
Teile: Die akustische Qualität, die korrekte Prosodie (s. 23) und die korrekte<br />
Auswahl der Lautefolge.<br />
Die meisten Sprachsynthesesysteme verwenden einen mehrstufigen<br />
Prozeß zum Generieren eines Sprachsignals. In der ersten Phase wird dem
14.6 Aussprachemodellierung 237<br />
auszusprechende Text eine Folge von Lauten aus einem Lauteinventar<br />
zugewiesen. Parallel dazu werden außerdem für diese Laute Eigenschaften<br />
wie Betonung und Länge berechnet. In einer zweiten Phase werden die<br />
zu den Lautfolgen passenden Signalstückchen zu einem Gesamtsignal<br />
” zusammengeklebt“. Dabei werden noch diverse Glättungsmethoden und<br />
vor allem die prosodischen Eigenschaften (Sprechrhythmus und -melodie)<br />
berücksichtigt. Damit sich eine Frage auch als Frage anhört und der Ton<br />
am Ende des Satzes wie bei Fragen üblich nach oben geht, müssen bei<br />
guten Systemen auch die Interpunktionszeichen ausgewertet werden oder<br />
sogar eine eingebundene Verstehenskomponente verwendet werden, die die<br />
benötigten Informationen über die Satzstruktur liefert.<br />
Aber nicht nur für die Qualität der Sprachausgabe sind gute Aussprachelexika<br />
von Bedeutung. Selbstverständlich wird durch die Lexika<br />
auch das akustische Modell von Spracherkennern bestimmt. Weichen die<br />
Einträge im Lexikon stark von den tatsächlich gesprochenen ab, so hat<br />
dies zur Folge, daß beim Erkennen die berechneten Wahrscheinlichkeiten<br />
für verschiedene Wörter ” irreführend“ sind, und beim Trainieren Modelle<br />
mit einer großen Varianz entstehen, bzw. sehr ähnliche Daten aus<br />
den in Wirklichkeit gleichen Lauten auf verschiedene Modelle verteilt werden.<br />
So hat sich in der Praxis herausgestellt, daß die besten Erkennungsergebnisse<br />
unter Verwendung von Aussprachelexika erzielt wurden, die von<br />
Experten auf den Gebieten der Phonetik und der Spracherkennung manuell<br />
entwickelt wurden. Unerläßlich für ein gutes Funktionieren ist dabei auch<br />
die Auswahl mehrerer Aussprachevarianten für ein Wort.<br />
14.6.2 Neue Wörter einbinden<br />
In vielen Aufgaben, in denen Spracherkenner eingesetzt werden, ist das<br />
Vokabular nicht im voraus bekannt. Insbesondere Eigennamen von Personen,<br />
geographischen Entitäten, Firmen oder Ereignissen können nicht immer<br />
vorher bekannt sein. In diesen Fällen ist es interessant, automatisch –<br />
also ohne Hinzuziehen von menschlichen Experten – neue Wörter in das<br />
Aussprachelexikon aufzunehmen.<br />
Das Einbinden neuer Wörter ist eine eigene Teildisziplin der Spracherkennung<br />
für sich [?]. Da geht es einmal um die Detektion neuer Wörter, die<br />
Generierung einer Aussprache, das Hinzunehmen ins Sprachmodell und die<br />
Bestimmung geeigneter akustischer Modelle. Aus der Sicht des Akustischen<br />
Modells steht man zwei Herausforderungen gegenüber: der Bestimmung<br />
eines Eintrags im Aussprachelexikon und schließlich der Bestimmung der<br />
akustischen Atome für die HMM-Zustände. Bei völlig kontextunabhängigen
238 14. Das akustische Modell<br />
akustischen Atomen kann aus der Aussprache die dazu gehörige HMM-<br />
Zustandsfolge direkt ohne Umwege abgeleitet werden. Wenn wir aber davon<br />
ausgehen, daß wir spezifischere Modelle verwenden, kann es vorkommen, daß<br />
in dem neuen Wort Phoneme in bestimmten Kontexten oder Ausprägungen<br />
vorkommen, die bis dahin in den Trainingsdaten nicht beobachtet worden<br />
waren. In solchen Fällen gilt es, aus dem vorhandenen Repertoire an<br />
akustischen Einheiten die passenden auszuwählen (Details dazu in Kap. 17).<br />
Mitte der achtziger Jahre machte ein Experiment von T. Sejnowski<br />
Furore und trug mit dazu bei, daß die durch den Artikel von Minski<br />
und Papert quasi betäubte Forschung an künstlichen neuronalen Netzen<br />
wiederbelebt wurde [?]. Bei diesem Experiment wurde ein verhältnismäßig<br />
einfaches dreischichtiges Perzeptron (vgl. Kap. 22) mit ca. 200 Neuronen<br />
trainiert, bei Eingabe eines Buchstaben und seiner Nachbarbuchstaben in<br />
einem Text das dazu passende Phonem zu generieren. Natürlich hatte das<br />
Netz Schwierigkeiten beim Erzeugen von Phonemfolgen für Eigennamen,<br />
Fremdwörter oder Buchstabenfolgen bei denen die Zuordnung Buchstabezu-Phonem<br />
stark von einer Eins-zu-eins-Zuordnung abwich. Auch wenn die<br />
Qualität der so produzierten Aussprache von der heutiger Systeme noch<br />
weit weg war, so kann man es allein schon wegen seiner Einfachheit als<br />
einen sehr gelungenes Experiment bezeichnen. Deutlich besser als so ein<br />
einfaches Perzeptron funktionieren Regelbasierte Text-To-Speech Systeme.<br />
Diese enthalten Regeln, wie bestimmte Buchstabenfolgen der Orthographie<br />
ausgesprochen werden, und für einige Wörter und Eigennamen auch komplette<br />
Phonemfolgen.<br />
Die typischen Aussprachelexika werden heute in einem zweistufigen<br />
Prozeß erzeugt. Zuerst wird mit einem Regelbasierten System für jedes<br />
Vokabularwort eine Aussprache erzeugt. Dabei wird gegebenenfalls geprüft,<br />
ob Teile des zu phonetisierenden Wortes selbst schon bekannte Wörter oder<br />
Teile bekannter Wörter sind. Dann können diese bereits bekannten Aussprachen<br />
verwendet werden. Im zweiten Durchgang überprüft ein <strong>Mensch</strong> die<br />
automatisch erzeugten Umschriften, was schneller geht, als wenn der <strong>Mensch</strong><br />
von Anfang an die Umschriften erzeugt. Schlechte Umschriften lassen sich<br />
teilweise dadurch aufdecken, daß auf einer Testdatenmenge die phonetisch<br />
falsch beschriebenen Wörter überdurchschnittlich viele Fehler verursachen.<br />
Solche müssen dann bei Bedarf manuell korrigiert werden. Ein als ganzes<br />
sorgfältig manuell erzeugtes, auf die Belange der Spracherkennung hin<br />
optimiertes Aussprachelexikon [?] kann gegenüber einem halbautomatisch<br />
erzeugten Lexikon [?] die Fehlerrate eines Erkenners um über 10% (von<br />
10.7% auf 9.3%) senken [?].
14.6.3 Aussprachevarianten<br />
14.6 Aussprachemodellierung 239<br />
Das gleiche Wort kann auf unterschiedliche Weise ausgesprochen werden. Das<br />
kann an verschiedenen Gründen liegen. Zu den häufigsten zählen:<br />
• Verschiedene Kontexte<br />
In der Deutschen Sprache ist dies seltener zu beobachten als in vielen<br />
anderen Sprachen. Relativ gut bekannt ist dieses Phänomen im Französischen.<br />
Ob ein Konsonant am Ende eines Wortes artikuliert wird oder<br />
nicht hängt dort davon ab, mit welchem Laut das nachfolgende Wort<br />
beginnt. Daher läßt sich nicht immer eine eindeutige Aussprache für ein<br />
bestimmtes Wort angeben. Gegebenenfalls müssen mehrere Varianten<br />
angegeben werden.<br />
• Dialekte und regionale Unterschiede<br />
Bei vielen <strong>Mensch</strong>en läßt sich ihre Herkunft bzw. ihr bevorzugter Dialekt<br />
auch dann noch aus ihrer Aussprache erkennen, wenn sie sich Mühe geben,<br />
die Hochsprache zu sprechen. So werden z.B. in manchen Regionen gerollte<br />
R-Laute bevorzugt. Gerade in spontaner Sprache machen sich viele Sprecher<br />
aber nicht die Mühe, ihren Dialekt komplett zu unterdrücken, so daß<br />
ein guter Spracherkenner verschiedene mögliche Aussprachen kennen sollte.<br />
• Verschiedene korrekte Aussprachen<br />
Dasselbe Wort kann oft auf verschiedene Arten korrekt, d.h. auch ohne<br />
regionale Einfärbung ausgesprochen werden. So ist es im Deutschen oft<br />
üblich das G am Ende einer Silbe wie ein CH zu sprechen (König vs.<br />
Könich, oder ” Jachtfluchzeuch“). Manche Wörter besitzen per se schon<br />
verschiedene Varianten wie das Wort Chemie (Aussprache: Schemie oder<br />
Kemie).<br />
• Häufigste Aussprache nicht korrekt<br />
Ein Erkenner, der zwar die korrekten Aussprachen der Wörter kennt, aber<br />
nicht die am häufigsten verwendeten, wird viele Fehler machen. Im Deutschen<br />
kann dies zum Beispiel besonders bei Fremdwörtern vorkommen. So<br />
werden zum Beispiel Wörter wie ” Sex“ oder ” Super“ oft fälschlicherweise<br />
mit stimmhaftem S am Anfang gesprochen. Andere Beispiele für die<br />
nicht-kanonische Aussprache sind Wörter wie ” und“ und ” Hand“ die am<br />
Ende sehr selten mit einem D- und viel öfter mit einem T-Laut gesprochen<br />
werden.<br />
Aussprachelexika mit Varianten<br />
Daher verwenden heute alle erfolgreichen Spracherkenner Aussprachelexika
240 14. Das akustische Modell<br />
mit Varianten. Die beliebteste Vorgehensweise ist die, daß für jedes Wort, das<br />
mehrere Aussprachen hat, auch mehrere Einträge ins Lexikon eingetragen<br />
werden. Manche Lexika verwenden ganze Phonemgraphen, die als eine Art<br />
regulärer Ausdruck dargestellt werden. Z.B. kann der Eintrag für HABEN<br />
aussehen wie H A {B [E] N | M} und damit die Aussprachen HABEN<br />
HABN und HAM beinhalten. In einem Experiment auf dem Amerikanischen<br />
Wall Street Journal Benchmark konnte die Fehlerrate des Erkenners durch<br />
Verwenden von Aussprachevarianten von 15% auf 12.2% gesenkt werden<br />
Eine in diesem Zusammenhang sehr wichtige Frage ist die nach der<br />
Herkunft und Menge der verwendeten Aussprachevarianten. In einschlägigen<br />
gedruckten Lexika findet man oft nur eine kanonische Aussprache und nur<br />
sehr selten Varianten. Dialekte, regionale Einfärbungen und häufige Abweichungen<br />
findet man sehr selten. Typische Möglichkeiten für die Gewinnung<br />
von Varianten sind:<br />
• Linguisten / Phonetiker<br />
Experten auf diesen Gebieten kennen sich sehr gut aus. Die Praxis zeigt<br />
aber immer wieder, daß die tatsächlichen Laute aus akustischer Sicht oft<br />
nicht den linguistischen Erwartungen entsprechen.<br />
• Akustiker / Spracherkennungsforscher<br />
Diese Experten bringen die besten Aussprachelexika zustande. Oft ist es<br />
erst die Erfahrung mit der Akustik oder mit der Spracherkennung, die zu<br />
solchen Erkenntnissen führt, aufgrund derer eine Aussprachevariante U N<br />
T für das Wort ” und“ eingeführt wird.<br />
• Regelwerk<br />
Ähnlich wie die Beobachtung, daß silbenabschließende G-Laute oft<br />
wie CH-Laute gesprochen werden, kann man auch zahlreiche andere<br />
Regelmäßigkeiten beobachten, die sich in ein Regelwerk zusammenfassen<br />
lassen, mit dessen Hilfe aus einem kanonischen Lexikon eines mit vielen<br />
Varianten vollautomatisch erzeugt werden kann. Typische Regeln für das<br />
Deutsche sind z.B. die so genannte Schwa-Ellision, bei der Schwa-Laute<br />
wie der zweite Vokal im Wort ” haben“ komplett weggelassen werden kann,<br />
oder Änderungen der Vokalqualität wie z.B. beim Wort ” Bäcker“ das eher<br />
wie ” Becker“ ausgesprochen wird.<br />
• Phonemerkenner<br />
Bei diesem Ansatz wird ein Spracherkenner verwendet, der Phoneme statt<br />
Wörter erkennt. Bei ausreichend vielen Beispielen kann selbst auf den<br />
relativ stark fehlerbehafteten Phonemhypothesen eine Statistik erstellt
14.6 Aussprachemodellierung 241<br />
werden, die die häufigsten Aussprachen bestimmter Wörter zu Tage treten<br />
läßt.<br />
Auswahl der Varianten<br />
Leider ist es nicht so, daß ein willkürliches Volladen des Aussprachelexikons<br />
mit vielen Varianten zum Erfolg führt. Das dabei entstehende Problem ist<br />
im folgenden illustriert:<br />
Sprecher meinte:<br />
” Nimm mal einen Hammer.“<br />
Sprecher sagte:<br />
” Nimm mal ’n’ Hammer.“<br />
Erkenner ohne Varianten:<br />
” Nimm mal Hammer.“<br />
In diesem Beispiel wurde das Wort einen“ – wie so oft – so schwach ar-<br />
”<br />
tikuliert, daß der Erkenner nichts Sinnvolles an dieser Stelle Erkennen konnte.<br />
Die erste Idee zur Beseitigung des Problems ist nun, das Aussprachelexikon<br />
so anzureichern, daß auch die Variante ’n’ als Aussprache für ” einen“<br />
darin vorkommt. Bei der Gelegenheit könnten dann auch gleich einige<br />
weitere Varianten hinzugefügt werden, so daß das Lexikon die folgenden<br />
zusätzlichen Einträge erhält:<br />
Wort Aussprache<br />
einen AI N E N<br />
einen AI N<br />
einen N<br />
haben-wir H A B N W IE R<br />
haben-wir H A M ER<br />
einmal AI N M A L<br />
einmal M A L<br />
Mit diesem angereicherten Lexikon sollte der Erkenner nun in der Lage<br />
sein, auch die Kurzversion des Wortes ” einen“ zu erkennen. Allerdings kann<br />
es auch vorkommen, daß sich die Situation jetzt so darstellt:<br />
Sprecher meinte:<br />
Sprecher sagte:<br />
Erkenner mit Varianten:<br />
” Nimm mal einen Hammer.“<br />
” Nimm mal ’n’ Hammer.“<br />
” einen im einmal einen haben wir.“<br />
Die Verwendung von zu vielen Varianten kann also auch kontraproduktiv<br />
sein und zu mehr Erkennungsfehlern führen. Insbesondere Varianten mit<br />
wenigen Phonemen können leicht als ” Lückenfüller“ bei der Erkennung<br />
von qualitativ schlechten Aufnahmen dienen. Wenn keines der langen<br />
Vokabularwörter auf ein Segment der Aufnahme mit ausreichender Wahr-
242 14. Das akustische Modell<br />
scheinlichkeit paßt, dann kommt es oft vor, daß eine Folge von kurzen<br />
Varianten eine höhere Beobachtungswahrscheinlichkeit liefert.<br />
Gerade im Deutschen kann eine übermäßige Verwendung von Varianten<br />
– insbesondere, wenn sie automatisch durch Regeln erzeugt werden – zu<br />
einem zusätzlichen Problem führen. Man stelle sich einfach nur das Wort<br />
” siebenundzwanzig“ vor. Wenn das Wort sieben“ drei bis vier Varianten<br />
”<br />
hat (Z IE B E N, Z IE B N, Z IE M, usw.), das Wort und“ mehrere<br />
”<br />
Varianten hat (z.B. U N D, U N T, U N, N, usw.), und auch noch zwanzig“<br />
”<br />
auf viele Arten gesprochen werden kann, dann entstehen somit automatisch<br />
für das aus diesen Wörtern zusammengesetzte siebenundzwanzig“ leicht<br />
”<br />
mehrere Dutzend verschiedener Aussprachen. Da die deutsche Sprache für<br />
ihre Fähigkeit, lange Komposita bilden zu können, bekannt ist, kann man<br />
sich leicht ausmalen wie ein deutsches Aussprachelexikon stark aufgeblasen<br />
werden kann.<br />
Da während des Trainings von Hidden Markov Modellen die gesprochene<br />
Wortfolge bekannt ist, ist es an dieser Stellen unproblematisch, sehr viele<br />
Varianten zu verwenden, eine Verwechslung mit einem anderen Wort kann ja<br />
beim Aufbau des Satz-HMMs ausgeschlossen werden. Daher verwenden die<br />
meisten Spracherkenner verschiedene Trainings- und Erkennungslexika. Im<br />
Trainingslexikon kommen sehr viele Varianten vor, ins Erkennungslexikon<br />
werden vor allem die sehr kurzen und sehr seltenen Varianten nicht mit<br />
aufgenommen.<br />
Varianten in der Suche<br />
Eine weitere Problematik im Zusammenhang mit Aussprachevarianten sollte<br />
an dieser Stellen noch angesprochen werden. Da sowohl beim Training als<br />
auch beim Erkennen der Suchprozeß für einigermaßen komplexe Erkenner<br />
Techniken zur Beschneidung des Suchraums benötigen, können Wörter mit<br />
vielen Varianten gegenüber Wörtern mit wenigen Varianten benachteiligt<br />
werden. In Abb. 14.7 konkurrieren die Wörter wi und wj miteinander. Sollte<br />
an der Stelle t ein Entscheidung zur Beschneidung des Suchraums getroffen<br />
werden müssen, so kann es sein, daß, obwohl das Wort wi in allen seinen<br />
Varianten eine Wahrscheinlichkeitssumme akkumuliert hat, die größer ist als<br />
der entsprechende Wert für wi.<br />
Außerdem stellt sich natürlich die Frage, welche Werte die Übergangswahrscheinlichkeiten<br />
in ein Wort mit n Varianten erhalten soll. Wenn<br />
man jeder Variante die selbe Wahrscheinlichkeit P gibt, die das Wort<br />
unabhängig von seiner Aussprache hat, dann verletzen wir die Bedingung<br />
aus der Definition der Hidden Markov Modelle, nach der die Summe<br />
aller Ausgangswahrscheinlichkeiten eines Zustands 1.0 sein muß. Geben
14.6 Aussprachemodellierung 243<br />
wir jeder Varianten wi die selbe Wahrscheinlichkeit P/n oder auch eine<br />
andere aus ihrer tatsächlichen Vorkommenshäufigkeit geschätzten Wert<br />
Pi mit Pi = 1 geben, dann benachteiligen wir Wörter mit vielen Varianten.<br />
wi1<br />
wi2<br />
wi3<br />
wi4<br />
wj1<br />
wj2<br />
Abb. 14.7. Suchraumbeschneidung bei vielen Varianten<br />
t<br />
Daher muß entweder der Suchalgorithmus (vgl. Kap. 18) erheblich<br />
verkompliziert werden, indem bei der Beschneidungsentscheidung auch die<br />
auf anderen Pfaden für andere Varianten akkumulierten Wahrscheinlichkeiten<br />
berücksichtigt werden, oder man verzichtet auf die mathematische<br />
Korrektheit und spart Rechenzeit durch Nichtbeachten der Problematik.<br />
In der Praxis wird die mathematisch fragwürdigere aber einfachere und<br />
schnellere Variante in der Regel bevorzugt.<br />
Gelegentlich werden Aussprachevarianten für Zwecke verwendet, für die<br />
sie ursprünglich nicht vorgesehen waren. Bei machen Applikationen hat es<br />
wenig Sinn, im Sprachmodell jede mögliche Ausprägung einer Wortklasse<br />
zu berücksichtigen. Beim Entwurf eines Spracherkenners für ein Sprache<br />
verstehendes Navigationssystem kann man sich im Sprachmodell auf die<br />
Modellierung eines Wortes ” x-Straße“ beschränken. Die verschiedenen<br />
tatsächlichen in Frage kommenden Straßennamen können dann als Aussprachevarianten<br />
des Wortes ” x-Straße“ im Lexikon aufgenommen werden.<br />
Der Vorteil dieser Vorgehensweise besteht darin, daß beim Wechseln der<br />
Einsatzumgebung des Erkenners (z.B. andere Stadt beim Navigationssystem,<br />
oder anderer Fernsehsender beim verstehenden Videorecorder)<br />
das Sprachmodell komplett unverändert gelassen werden kann. Lediglich<br />
die Auswahl der verfügbaren Aussprachevarianten muß neu getroffen werden.
244 14. Das akustische Modell<br />
Verwendung von Wortclustern<br />
Für die meisten Sprachen gibt es bestimmte, häufig verwendete Phrasen, deren<br />
Aussprache sich mit der Zeit von der Konkatenation der Aussprache der<br />
einzelnen Phrasenbestandteile weg entwickelt hat. Beispiel für solche Phänomene<br />
sind im Deutschen zum Beispiel die Wortfolge haben wir“ die gerne<br />
”<br />
wie hammer“ oder hamwer“ ausgesprochen wird, oder das im Englischen<br />
” ”<br />
typische going to“, das eher wie gonna“ ausgesprochen wird. Manche Kon-<br />
” ”<br />
traktionen finden sich sogar in der Bildung neuer Wörter wieder, wie zum<br />
Beispiel die Wörter fürs“ und aufs“ als Zusammenfassung der Wortfolgen<br />
” ”<br />
” für das“ bzw. auf das“. Daher verwenden viele Aussprachelexika gesonderte<br />
”<br />
Einträge für einige wenige aber häufig auftretende kurze Wortfolgen.<br />
14.6.4 Flexible Transkriptionen<br />
Die Trainingsdaten für einen Spracherkenner bestehen in der Regel aus einer<br />
Sammlung von Aufnahmen und einer Datei, in der beschrieben ist, was auf<br />
den Aufnahmen zu hören ist, die sogenannten Transkriptionen. Es gehört<br />
nicht viel Weisheit dazu, zu schließen, daß die Qualität der Trainingsdaten<br />
auch die Qualität des aus ihnen berechneten Modells bestimmt. Dabei kommt<br />
es vor allem darauf an, daß in den Sprachsignalen auch das gesprochen<br />
wird, was in den zugehörigen Transkriptionen steht. In den Anfängen der<br />
Spracherkennung verwendete man daher sicherheitshalber nur sehr saubere<br />
Aufnahmen, also solche, in denen keine störenden Geräusche und auch<br />
keine störenden menschlichen Laute wie Atem- oder Lippengeräusche zu<br />
hören waren. Selbst Pausen zwischen den Wörtern eines kontinuierlich<br />
gesprochenen Satzes waren unerwünscht. Die Trainingsdaten wurden meist<br />
eigens für das Trainieren von Spracherkennern gesammelt. Inzwischen ist<br />
es üblich Aufnahmen zu verwenden, die nicht für die Spracherkennung<br />
vorgesehen waren – Aufnahmen, in denen <strong>Mensch</strong>en natürlich z.B. mit<br />
anderen <strong>Mensch</strong>en reden. In solcher ” ungeplanter“ Sprache kommen sehr<br />
wohl Störgeräusche und Pausen vor.<br />
Der erste Schritt in Richtung der Verwendung ungeplanter Sprache geht<br />
dahin, in den Transkriptionen auch die Geräusche festzuhalten. Darüber<br />
hinaus gibt es noch eine Reihe weiterer Phänomene, die ebenfalls in die<br />
Transkriptionen mit aufgenommen werden können, wie z.B. die Tatsache,<br />
daß ein Wort falsch oder auch im Dialekt ausgesprochen wurde, oder daß<br />
nur Wortfragmente ausgesprochen bzw. gestottert wurden.<br />
Selbst erfahrenen Transkribieren unterlaufen dabei oft Fehler, weil kurze<br />
Stotterer, dialektische Einfärbungen oder für den <strong>Mensch</strong>en das Verständnis<br />
nicht störende Geräusche einfach ” psychologisch“ überhört werden. Daher<br />
gibt es das Bestreben, sehr gut ausgebildete Transkribierer in mehreren
14.6 Aussprachemodellierung 245<br />
Durchläufen über dieselben Daten in einem sehr zeitaufwendigen Prozeß<br />
hochqualitative Transkriptionen zu erzeugen. Der zeitliche Aufwand für das<br />
Abhören der Aufnahmen und schreiben der Transkriptionen kann dabei<br />
sogar vom Zehnfachen bis zum Hundertfachen der Länge der Aufnahme<br />
betragen. Dabei werden nicht einmal die zeitlichen Zuordnungen ( ” Labels“)<br />
angegeben, sondern lediglich der gesprochene mit diversen Effekten angereicherte<br />
Text.<br />
Aus den Transkriptionen werden die im Training verwendeten Satz-<br />
HMMs erzeugt. Wären die Transkriptionen perfekt, dann würde stets ein<br />
Satz-HMM mit einer einzigen völlig linearen Anordnung der Zustände<br />
genügen. Gestehen wir aber den Transkribierern zu, daß sie nicht nur die<br />
Länge von Pausen sondern sogar deren Existenz zwischen zwei Wörtern<br />
überhören dürfen, dann müssen wir zumindest zwischen dem letzten Zustand<br />
eines Wortes und dem ersten Zustand des darauffolgenden Wortes<br />
einen optionalen Stillezustand einbauen, der das Stillephonem modelliert.<br />
Gestatten wir den Transkribierern, einige zwar im Signal recht gut wiederzuerkennenden<br />
Laute wie Atmen, Lippen- oder Zungengeräusche, Reiben<br />
oder Klopfen am Mikrophon etc. zu überhören, dann bietet es sich an,<br />
zwischen den Wörtern nicht nur optionale Stillelaute sondern auch noch<br />
optionale Geräusche zu erlauben. Ganz besonders offensichtlich wird dies bei<br />
Mischgebilden zwischen Geräuschen und Wörtern, wie z.B. bei emphatischen<br />
Pausen, die im Deutschen typischerweise mit ” Äh“-Lauten und Varianten<br />
davon gefüllt werden. Selbst solche ” Ah“ Laute entgehen Transkribierern<br />
hin und wieder. Ganz besonders kompliziert kann es werden, wenn Wortfragmente<br />
oder Stotterer abgebildet werden sollen. Es ist oft gar nicht<br />
möglich eine sinnvolle Beschreibung zu liefern, weil z.B. das gesprochene<br />
Fragment keine korrekte textuelle Umschreibung hat. Man stelle sich vor,<br />
jemand stottert beim Sprechen des Wortes ” Manager“ und spricht die erste<br />
Silbe zweimal: ” Man- Manager“. Würde man dies so in die Transkription<br />
schreiben, hätte das System wohl große Schwierigkeiten, zu dem ” Man-“ eine<br />
passende Phonemfolge zu finden, der nächstbeste Lexikoneintrag für ” man“<br />
wäre jedenfalls ungeeignet. Schlimmer noch sind in der Praxis tatsächlich<br />
nicht selten beobachtete Lautartikulationen, die gar nicht im phonetischen<br />
Inventar einer Sprache enthalten sind. Erlauben wir den Transkribierern,<br />
solche Dinge nicht immer perfekt zu umschreiben und erlauben wir darüber<br />
hinaus zusätzlich, das Überhören dialektgeprägter Einfärbungen der Sprache<br />
nicht explizit festzuhalten, so kommen wir schnell an einem Punkt an, an<br />
dem die Qualität der Transkriptionen deutlich abnimmt. An diesem Punkt<br />
gibt es dann nur noch zwei Alternativen, entweder man investiert noch<br />
viel mehr Aufwand zum Verbessern dieser Qualität, oder man unternimmt<br />
Maßnahmen zum Umgang mit nicht vollständig korrekt transkribierten<br />
Aufnahmen. Gerade bei sehr großen Trainingsdatenbasen wird sich die
246 14. Das akustische Modell<br />
letztere Variante anbieten.<br />
Die Methode der Wahl ist die der sogenannten flexiblen Transkription.<br />
Dabei werden dann nicht nur optionale Stille und Geräusche automatisch in<br />
das Satz-HMM aufgenommen, sondern auch noch typische Dinge, die Transkriptoren<br />
nicht festgehalten haben. Dazu gehören dann z.B. verschiedene,<br />
durch den aktuell gesprochenen Dialekt auszuwählende Aussprachevarianten,<br />
typische Wortverschmelzungen ( ” hammer“ statt ” haben wir“) und<br />
ähnliches. Diese Anreicherungen des Satz-HMMs im Vergleich zur Transkription<br />
geschieht regelbasiert [?]. Ein Katalog mit Regeln gibt an, wie aus<br />
einer einfachen Transkription ein wesentlich komplizierteres Netzwerk wird,<br />
das mit großer Wahrscheinlichkeit das tatsächlich Gesprochene widerspiegelt.
15. Erkennung kontinuierlicher Sprache<br />
Kontinuierliche Sprache bietet gegenüber isolierten Wörtern zusätzliche<br />
Herausforderungen in mehreren Bereichen. Wenn man fließend spricht,<br />
spricht man meist unvorsichtiger und ungenauer. Außerdem ist fließende<br />
Sprache meist deutlich schneller, und es treten Koartikulationseffekte auf,<br />
die einzelne Wörter im Kontext anders klingen lassen, als wenn diese Wörter<br />
isoliert ausgesprochen würden. Diese Probleme könnten im Prinzip ignoriert<br />
werden, wenn wir wüßten, wo in einer Aufnahme ein Wort beginnt und wo<br />
es aufhört. Dann wäre die Erkennung wegen der größeren Variablität und<br />
schlechteren Qualität der Signale zwar schwieriger, aber wir könnten die<br />
bisher betrachteten Algorithmen weiter verwenden. Jetzt ist es aber so, daß<br />
das Erkennungssystem keine explizite Information darüber hat, wo sich in<br />
einer Aufnahme Wortgrenzen befinden, es muß diese selbst finden.<br />
Da beim automatischen Finden der Wortgrenzen Fehler gemacht werden,<br />
ist zu erwarten, daß der Erkenner bei Eingaben wie ” geh heim“ Hypothesen<br />
wie ” geheim“ liefert, oder statt ” Nordirlandbeauftragter“ das falsche ” nord<br />
Ihr Land beauftragt er“ erkennt. Wie auch immer diese Wortgrenzen zustande<br />
kommen, man kann schon jetzt sagen, daß ein Vorgehen, bei dem ein<br />
Sprachsignal zunächst in unabhängige Segmente zerstückelt wird, um dann<br />
auf den Segmenten eine Isoliertworterkennung durchzuführen, zum Scheitern<br />
verurteilt ist. Ein ausreichend exaktes Finden von Wortgrenzen nur mit Hilfe<br />
des akustischen Signals ist nahezu ausgeschlossen. Manche Sprachen wie<br />
z.B. die chinesische sind so geartet, daß die geübten Nachrichtensprecher im<br />
Rundfunk die Silben mit einer relativ gleichbleibenden ” Taktrate“ vorlesen<br />
und daß sich diese Silbenfrequenz in der energetischen Analyse des Signals<br />
wiederfinden läßt, so daß eine automatische Segmentierung in Silben manchmal<br />
machbar ist. Aber die allermeisten Chinesen sprechen weniger getaktet<br />
und in den meisten anderen Sprachen ist eine Taktung viel schwieriger im<br />
Signal zu erkennen. In Sprachen wie im Englischen und Deutschen, in denen<br />
nicht einmal eindeutig definiert ist, was eine Silbe ist (wieviele Silben hat das<br />
Wort Uhr?), ist eine automatische Wortsegmentierung vor der eigentlichen<br />
Erkennung nicht möglich. Daher werden wir auf andere Algorithmen zum<br />
Trainieren von Erkennern und zum Erkennen von Aufnahmen angewiesen<br />
sein. Im folgenden werden Probleme, die mit kontinuierlicher Sprache
248 15. Erkennung kontinuierlicher Sprache<br />
zusätzlich entstehen, und einige Lösungen für diese vorgestellt.<br />
15.1 Bewertung von Erkennungshypothesen<br />
Die Bewertung der Leistung eines Einzelworterkenners ist recht einfach.<br />
Wenn die Testmenge aus n Wörtern besteht und der Erkenner c Wörter<br />
korrekt erkennt, kann man seine Worterkennungsrate WCR (word correct<br />
rate) angeben als<br />
WCR = c<br />
· 100% (15.1)<br />
n<br />
Beim Erkennen von kontinuierlicher Sprache ist dies nicht mehr so selbstverständlich.<br />
Wie würde man die Worterkennungsrate angeben, wenn der<br />
Sprecher ” Erkenner“ spricht und der Erkenner ” der Kenner“ erkennt, und<br />
wie wenn ” der Erkenner“ erkannt wird. Zweifellos wäre es nicht angebracht,<br />
bei der Fehlerkennung ” der Erkenner“ zu sagen, daß 100% der gesprochenen<br />
Wörter richtig erkannt wurden und somit die Worterkennungsrate 100%<br />
beträgt. Außerdem wäre es wünschenswert, daß ein Qualitätsmaß die<br />
Hypothese ” wer erkennt er“ schlechter bewertet als die Hypothese ” erkennt“<br />
obwohl in beiden Fällen kein einziges Wort richtig erkannt wurde.<br />
In der kontinuierlichen Spracherkennung wurden verschiedene Qualitätsmaße<br />
eingesetzt, wirklich etabliert hat sich aber nur eins, das drei<br />
Fehlerarten kennt, nämlich<br />
• Vertauschungen: z.B.<br />
• Einfügungen: z.B.<br />
• Auslassungen: z.B.<br />
→<br />
→<br />
→<br />
” Guten Tag Herr Müller.“<br />
” Guten Tag wer Müller.“<br />
” Guten Tag Herr Müller.“<br />
” Guten Tag der Herr Müller.“<br />
” Guten Tag Herr Müller.“<br />
” Guten Tag Müller.“<br />
Diese Art der Fehler erinnert stark an die Arten der Editierschritte, wie<br />
sie im Abschnitt 11.1 definiert wurden, und ebenso wie es zwischen zwei<br />
Texten eine minimale Editierdistanz gibt, gibt es bei zwei Wortfolgen eine<br />
minimale Fehlerzahl bestehend aus den o.a. Fehlern. Wenn der Satz ” Guten<br />
Tag Herr Müller.“ mißverstanden wird als ” Ja guten Tal Müller“, dann kann
15.1 Bewertung von Erkennungshypothesen 249<br />
man sagen, daß die Hypothese drei Fehler enthält. Erstens wurde ein ” Ja“<br />
fälschlicherweise eingefügt, zweitens wurde ” Tag“ durch ” Tal“ ersetzt, und<br />
drittens wurde das ” Herr“ ausgelassen. Basierend auf dieser Art der Fehlermessung<br />
kann die Wortfehlerrate WER (word error rate) definiert werden als<br />
WER =<br />
s + d + i<br />
n<br />
· 100%, (15.2)<br />
wobei s die Zahl der Vertauschungen (substitutions), d die Zahl der<br />
Auslassungen (deletions), i die Zahl der Einfügungen (insertions) und n die<br />
Zahl der gesprochenen Wörter ist. Man sieht leicht, daß die Wortfehlerrate<br />
auch über 100% liegen kann, wenn z.B. statt ” Guten Tag Herr Müller“<br />
fälschlicherweise ” Ja Guter Tal der Meier“ erkannt wird. Dann werden bei<br />
vier gesprochenen Wörtern insgesamt fünf Fehler gemacht, also beträgt die<br />
Wortfehlerrate 125%.<br />
Die Messung der Wortfehlerrate erfolgt genau auf die gleiche Art mit<br />
einem Algorithmus des dynamischen Programmierens wie bei der Bestimmung<br />
der minimalen Editierdistanz. Ebenso wie bei der Editierdistanz ist<br />
auch bei der Wortfehlerrate das Minimum nicht eindeutig. So kann stets<br />
die Folge Auslassung/Vertauschung/Einfügung auch interpretiert werden als<br />
Einfügung/Vertauschung/Auslassung mit der gleichen Fehlerzahl.<br />
Neben der Wortfehlerrate wird auch oft die Worterkennungsrate WRR<br />
(word recognition rate oder word accuracy) verwendet. Hier gilt einfach:<br />
WRR = 100% − WER =<br />
n − s − d − i<br />
n<br />
· 100% (15.3)<br />
Die Worterkennungsrate kann durchaus negativ werden, wenn mehr<br />
Fehler gemacht werden, als Wörter gesprochen wurden.<br />
Selten findet man auch Referenzen auf die Wortkorrektrate WCR (word<br />
correct rate)für kontinuierliche Sprache:<br />
WCR =<br />
n − s − d<br />
n<br />
· 100%, (15.4)<br />
die niemals negativ werden kann. In wenigen Fällen ist die Angabe der<br />
WCR sinnvoll. Dieses Maße kann man leicht ad absurdum führen, indem<br />
ein Erkenner, der das gesamte Erkennervokabular vielfach hintereinander<br />
ausgibt, 100% WCR erreichen könnte obwohl er ein Vielfaches der gesprochenen<br />
Wörter an Fehlern gemacht hat.
250 15. Erkennung kontinuierlicher Sprache<br />
Man kann sich darüber streiten, wie sinnvoll das Maß der Wortfehlerrate<br />
zur Bestimmung der Qualität eines Spracherkenners ist. In der Forschergemeinde<br />
werden auch immer wieder andere Möglichkeiten diskutiert. So<br />
spielen zum Beispiel bei den meisten so genannten HUB-5 Evaluationen<br />
[?] der DARPA (Erkennung spontaner Telefondialoge zwischen <strong>Mensch</strong>en)<br />
zusätzlich die korrekten Zeitangaben eine Rolle. Da wird jedes Wort der<br />
Erkennerhypothese mit einem Anfangs- und einem Endzeitstempel versehen,<br />
und es wird nur dann als korrekt erkannt angesehen, wenn die Zeitstempel<br />
und die tatsächliche Zeit sich überlappen. Andere Fehlermaße berücksichtigen<br />
die Wichtigkeit bestimmter Wörter für das Verstehen einer Äußerung.<br />
Hierbei geht man davon aus, daß ein falsch erkannter Artikel weniger schlimm<br />
ist als ein falsch erkanntes Substantiv. So definiert man für jedes Wort eine<br />
” Wichtigkeit“ und zählt dann nicht 1,0 für jede Vertauschung, Einfügung<br />
und Auslassung, sondern einen Wert, der sich aus der Wichtigkeit der in<br />
den Fehler involvierten Wörter berechnet. Bei dem Anfang der neunziger<br />
Jahre eingeführten so genannten Wall-Street-Journal-Test (HUB-1) [?] sind<br />
bei den meisten Erkennern an einem guten Drittel aller Fehler die englischen<br />
Artikel the und a beteiligt.<br />
Die Motivation für die Einbeziehung der Wichtigkeit falsch erkannter<br />
Wörter ist deswegen von Bedeutung, weil gerade bei der Evaluation von<br />
Erkennern und der Veröffentlichung von Erkennungsergebnissen sonst nur<br />
Aufmerksamkeit auf eine einzige Zahl gelegt wird, und die Forschung sich<br />
durch die Konzentration auf das Beseitigen von unwichtigen Fehlern von der<br />
Arbeit an der Beseitigung wichtigerer Fehler abhalten läßt.<br />
Allerdings haben auch die alternativen Fehlermaße ihre Probleme: Wer<br />
soll definieren, wie schwerwiegend welcher Fehler ist. Hier kommt eine<br />
gewisse Subjektivität ins Spiel. Je komplizierter ein Fehlermaß ist, umso<br />
mehr Möglichkeiten der unfairen Bewertung bietet es. Ein derart einfaches<br />
Maß, wie die oben definierte Wortfehlerrate ist per se wesentlich objektiver.<br />
Bei einigen bestimmten Erkennungsproblemen gibt man aber in der Regel<br />
auch andere Maße zusätzlich zur Wortfehlerrate an. So ist dies zum Beispiel<br />
vor allem bei Sprachen sinnvoll, bei denen die Definition eines Wortes<br />
problematisch ist. Dies ist bei vielen asiatischen, auf Silben basierenden<br />
Sprachen wie Chinesisch und Japanisch der Fall. Im Japanischen gibt es<br />
nur 48 grundlegende Silben aus denen die komplette Sprache aufgebaut<br />
wird. Texte sind Aneinanderreihungen dieser Silben, wobei kein Unterschied<br />
gemacht wird zwischen Silbenübergängen innerhalb eines Wortes und<br />
Wort-zu-Wort-Übergängen. Bestimmte Sachverhalte (anderer Tempus bei<br />
Verben, Singular/Plural bei Substantiven, etc.) werden durch Verwenden<br />
besonderer dafür vorgesehener Silben ausgedrückt. Ob diese Silben Teil<br />
eines Wortes oder ein eigenständiges Wort sind, darüber kann man sich
15.2 One Stage Dynamic Programming 251<br />
streiten. Darüber hinaus gibt es das Problem, daß eine Folge von Silben<br />
oft auf verschiedene Arten zu Wortfolgen zusammengefaßt werden kann.<br />
So wird für silbenbasierte Sprachen neben der Wortfehlerrate oft auch die<br />
Silbenfehlerrate mit angegeben.<br />
Ähnliche Probleme gibt es im Deutschen. Es ist dafür bekannt, daß es<br />
die Zusammensetzung von sehr langen komplexen Wörtern erlaubt. Aus rein<br />
akustischer Sicht ist es meist überhaupt nicht möglich und aus der Sicht<br />
der stochastischen Wortfolgemodellierung in vielen Fällen kaum möglich zu<br />
entscheiden, ob zwei aufeinanderfolgende Wörter ein oder zwei Wörter sind.<br />
Wie schwer ist der Fehler eines Spracherkenners, der Norddeutschland mit<br />
Nord Deutschland verwechselt? Ein derartiger Fehler kann im Englischen<br />
kaum vorkommen.<br />
Bei offiziellen Evaluationen deutschsprachiger Erkenner (gelegentlich<br />
auch für andere Sprachen) werden gerne vor dem Messen der Fehlerrate<br />
Normierungen durchgeführt. Selbst bei genauem Hinhören können oft nicht<br />
einmal <strong>Mensch</strong>en Wie geht’s? von Wie geht es? unterscheiden. Würde ein<br />
Spracherkenner diese Verwechslung machen, so würde das gleich zu einer<br />
Wortfehlerrate von 67% bzw. 100% führen, je nachdem welche Version<br />
die Referenz und welche die Hypothese ist. Daher normiert man vorher<br />
Apostroph-S-Anhängsel sowohl in der Referenz als auch in der Hypothese<br />
zu einem eigenständigen Wort es. Ähnlich geht man vor bei Wortpaaren wie<br />
gerne und gern, oder habe und hab’ vor [?].<br />
Bei Systemen, die über die reine Erkennung hinaus gehen, zum Beispiel<br />
Sprach-zu-Sprach-Übersetzungssysteme oder Dialog- und Auskunftssysteme,<br />
bietet es sich an, ein so genanntes End-to-End-Fehlermaß anzuwenden. Dabei<br />
wird nicht die Wortfehlerrate als wichtigstes Qualitätsmerkmal sondern der<br />
Anteil der korrekt übersetzten Äußerungen oder der Anteil der korrekten<br />
Dialogreaktionen gemessen. Dieses Maß abstrahiert dann automatisch von<br />
weniger wichtigen Fehlern, die durch die nachgeschaltete Übersetzung oder<br />
die Dialogsteuerung wieder problemlos ausgebügelt werden können.<br />
15.2 One Stage Dynamic Programming<br />
Es ist nicht weiter schwierig, den DTW-Algorithmus, wie wir ihn für die Einzelworterkennung<br />
kennengelernt haben, so zu erweitern, daß kontinuierliche<br />
Sprache erkannt werden kann (vgl. Abb. 15.1). Während bei der Verarbeitung<br />
isolierter Wörter für jedes Wort völlig unabhängig von den anderen<br />
ein DTW-Pfad und die dazugehörige Distanz berechet wird, kann man für<br />
kontinuierliche Sprache die ” vielen Referenzachsen“ zu einer Referenzachse
252 15. Erkennung kontinuierlicher Sprache<br />
konkatenieren und eine einzige große DTW-Matrix bilden. Jetzt muß nur<br />
noch das Übergangsmuster dahingehend erweitert werden, daß aus jedem<br />
Endzustand jedes Wortes ein Übergang in die Anfangszustände aller Wörter<br />
erlaubt wird (s. Abb. 15.1). Mit dieser Erweiterung wird der Algorithmus<br />
” One Stage Dynamic Programming“ genannt [?].<br />
Wort 1<br />
Wort 2<br />
Wort 3<br />
Einzelworterkennung<br />
Wortübergang<br />
Erkennung<br />
kontinuierlicher Sprache<br />
Endzustand Wort 1<br />
Anfangszustand Wort 1<br />
Endzustand Wort 2<br />
Anfangszustand Wort 2<br />
Endzustand Wort 3<br />
Anfangszustand Wort 3<br />
Abb. 15.1. Erweiterung des DTW-Algorithmus für kontinuierliche Sprache<br />
Die Algorithmen, wie sie in Kap. 11 eingeführt wurden, können nahezu<br />
unverändert übernommen werden. Der One-Stage-Algorithmus liefert auch<br />
eine Folge von Rückwärtszeigern. Allerdings ist es hier zusätzlich nötig,<br />
den letzten Zustand zu bestimmen. Was bei der DTW-Matrix für einzelne<br />
Wörter der Zustand ” rechts oben“ war hat nun keine Bedeutung, außer<br />
daß es der letzte Zustand irgend eines Wortes ist. In welcher Reihenfolge<br />
die Wörter auf der Referenzachse angeordnet werden, spielt schließlich<br />
keine Rolle. Daher muß entweder als letzter Zustand derjenige aus der<br />
rechtesten Spalte gewählt werden, der die kleinste kumulative Distanz<br />
hat, oder es wird verlangt, daß als Letzte Wort immer das Stille-Wort<br />
erkannt werden muß – was durchaus sinnvoll ist, wenn davon auszugehen ist,<br />
daß die Aufnahme nicht unmittelbar mit dem letzten Laut beendet wurde,<br />
sondern noch ein wenige Stille jeweils am Anfang und am Ende vorhanden ist.<br />
Das Ergebnis des One-Stage-Algorithmus ist auch ein Pfad, der dann<br />
nicht unbedingt von links unten nach rechts oben führt sondern vom<br />
Anfangszustand des ersten Wortes zum Endzustand des Letzen Wortes.<br />
Abb. 15.2 zeigt ein Beispiel, in dem das Vokabular aus den Wörtern A, B, C
D<br />
C<br />
B<br />
A<br />
15.2 One Stage Dynamic Programming 253<br />
A D D A B<br />
Abb. 15.2. Ein DTW-Pfad über mehrere Wörter<br />
und D besteht. Der dargestellte Pfad entspricht der Wortfolge A D D A B.<br />
D<br />
C<br />
B<br />
A<br />
Abb. 15.3. Grauwertdarstellung der Emissionswahrscheinlichkeiten<br />
Abb. 15.3 zeigt die Darstellung einer DTW-Matrix, in der die lokalen<br />
Distanzen, beziehungsweise die Emissionswahrscheinlichkeiten durch Graustufen<br />
(dunkel = kleine Distanz = hohe Wahrscheinlichkeit, hell = große<br />
Distanz = niedrige Wahrscheinlichkeit). Die in der Abbildung erkennbaren<br />
kurzen Teilpfade sind in der Praxis meist nicht so deutlich sichtbar. Sie sind<br />
hier nur des einfacheren Verständnisses wegen deutlich erkennbar. Allerdings<br />
ist auf den ersten Blick nicht selbstverständlich, welcher One-Stage-Pfad der<br />
wahrscheinlichste ist. Die Aufgabe des One-Stage-Algorithmus kann dadurch<br />
t
254 15. Erkennung kontinuierlicher Sprache<br />
veranschaulicht werden, daß er einen Pfad über möglichst viele dunkle<br />
Bereiche finden muß. Eine Möglichkeit ist in Abb. 15.4 für die Wortfolge B<br />
D A A C dargestellt.<br />
D<br />
C<br />
B<br />
A<br />
Abb. 15.4. Möglicher Pfad für die Wortfolge B D A A C<br />
Eine andere Möglichkeit zeigt Abb. 15.5 mit der Wortfolge D A C B D A.<br />
Der Leser mache sich klar, daß es keine Ausgezeichneten Zeitpunkte gibt,<br />
zu denen Wortübergänge stattfinden dürfen. Das heißt, daß zu jedem einzelnen<br />
Zeitpunkt jeder (aktive) Zustand expandiert wird, unabhängig davon,<br />
ob es ein Zustand in der Mitte des Wortes oder ein Wortendzustand ist (vgl.<br />
Abb. 15.6).<br />
Prinzipiell wäre es schon an dieser Stelle möglich, auf der Modellachse<br />
statt ganzer Wörter kleinere Einheiten zu verwenden (Silben, Phoneme) und<br />
dann statt der Erkennung einer Wortfolge eine Silben- oder Phonemfolge<br />
zu erkennen. Dies wäre dann schon der erste Schritt in Richtung der<br />
Hidden-Markov-Modelle, die insbesondere für kontinuierliche Sprache große<br />
Vorteile gegenüber Mustervergleichern nach den DTW-Schema haben.<br />
t
D<br />
C<br />
B<br />
A<br />
15.2 One Stage Dynamic Programming 255<br />
Abb. 15.5. Möglicher Pfad für die Wortfolge D A C B D A<br />
D D<br />
C<br />
B<br />
A<br />
Abb. 15.6. Übergänge innerhalb der Wörter, dann Übergänge zwischen den<br />
Wörtern<br />
C<br />
B<br />
A<br />
t
256 15. Erkennung kontinuierlicher Sprache<br />
15.3 Hidden Markov Modelle für kontinuierliche<br />
Sprache<br />
Während bei der Einzelworterkennung sowohl für das Training als auch für<br />
die Erkennung die gleichen Hidden-Markov-Modelle verwendet werden, auf<br />
denen dann im Training der Forward-Backward- und bei der Erkennung<br />
der Forward-Algorithmus eingesetzt werden, so gilt dies für kontinuierliche<br />
Sprache nicht mehr. Die aus der Einzelworterkennung bekannten Wort-<br />
HMMs könnten für das Training übernommen werden, wenn bekannt wäre,<br />
wo in einer Aufnahme jedes Wort anfängt und wo es aufhört. Da eine solche<br />
Segmentierung in der Regel nicht gegeben ist, muß hier ein anderer Weg<br />
beschritten werden.<br />
Meistens haben wir es beim Trainieren eines HMM-Erkenners für<br />
kontinuierliche Sprache mit Aufnahmen zu tun, in denen ganze Sätze stehen.<br />
Manchmal sind es auch mehrere Sätze, manchmal nur Satzfragmente.<br />
Eine Trainingsdatenmenge besteht aus vielen solcher Aufnahmen und den<br />
dazugehörigen Transkripten. Gelegentliche kleine Fehler in den Transkripten<br />
können meist toleriert werden, dennoch ist es vorteilhaft, wenn sie so<br />
exakt wie möglich sind, und sogar Atemgeräusche, Schmatzlaute, Stotterer,<br />
Telefonklingeln und andere Geräusche als solche beschrieben werden.<br />
Guten Tag<br />
G U T N T A G<br />
Wortgraph<br />
Phonemgraph<br />
G1 G2 U1 U2 T1 T2 N1 N2 T1 T2<br />
Abb. 15.7. Aufbau eines HMMs für einen ganzen Satz<br />
Zustandsgraph<br />
A1 A2 G1 G2<br />
Um auf einer kompletten Aufnahme mit mehreren Worten einen Forward-<br />
Backward Algorithmus zu rechnen, benötigen wir ein HMM, das alle Worte<br />
(und Geräusche) der Aufnahme modelliert. Im einfachsten Fall genügt es,<br />
die einzelnen Wort-HMMs zu einem einzigen HMM zu konkatenieren, wie in<br />
Abb. 15.7 dargestellt.<br />
Typischerweise besteht die Erzeugung des finalen HMMs (Zustandsgraph)<br />
aus drei Schritten. Im ersten Schritt wird ein Pseudo-HMM (Wortgraph)<br />
erzeugt, dessen Zustände ganzen Wörtern entsprechen. Im zweiten Schritt<br />
wird jeder Wortzustand durch ein HMM ersetzt, bei dem jeder Zustand
15.3 Hidden Markov Modelle für kontinuierliche Sprache 257<br />
einem Phonem entspricht (Phonemgraph), und schließlich wird jeder Phonemzustand<br />
im dritten Schritt durch das HMM ersetzt, das einem Phonem<br />
entspricht (meist ca. drei linear angeordnete Zustände).<br />
Das Ersetzen eines Wortzustandes durch eine Phonemfolge (oder einen<br />
kleinen Phonemgraphen) geschieht durch Nachschauen in einem Aussprachelexikon.<br />
Viele Aussprachelexika geben für einige Wörter mehrere mögliche<br />
Aussprachen an. Für solche Fälle verwendet man dann keine lineare Folge<br />
von Phonemzuständen, sondern entweder je möglicher Aussprache eine<br />
eigene Phonemfolge, die alternativ (vgl. Abb. 12.1 rechts unten) durchlaufen<br />
werden können, oder einen Phonemgraphen, der alle Aussprachen berücksichtigt<br />
(s. Abb. 15.8).<br />
Guten Tag<br />
T G<br />
G U N T A<br />
CH<br />
G1 G2 U1 U2<br />
T1 T2<br />
Wortgraph<br />
N1 N2 T1 T2<br />
Abb. 15.8. Satz-HMM mit verschiedenen Aussprachen<br />
Phonemgraph<br />
A1 A2<br />
Zustandsgraph<br />
G1 G2<br />
CH1<br />
CH2<br />
Auch wenn es wünschenswert ist, sehr ausführliche und korrekte Transkripte<br />
zu verwenden, so muß man davon ausgehen, daß solche in vielen<br />
Fällen nicht zur Verfügung stehen. Kurze Pausen werden üblicherweise gar<br />
nicht schriftlich festgehalten. Will man potentielle Pausen zwischen zwei aufeinanderfolgenden<br />
Wörtern korrekt modellieren, muß dafür in das HMM ein<br />
Zustand oder eine Zustandsfolge eingebaut werden. Für den Wortgraphen<br />
bedeutet das, daß jeder Wortübergang optional über ein Stillewort umgeleitet<br />
wird. Und wenn wir schon davon ausgehen, daß nicht alle Pausen in den<br />
Transkripten enthalten sind, dann könnten wir gleich berücksichtigen, daß<br />
andere Geräusche wie z.B. die Geräusche, die beim Öffnen der Lippen entstehen<br />
oder Atemgeräusche oder Stotterlaute vor Beginn eines Wortes auch<br />
nicht immer in den Transkripten stehen. Das heißt, daß wir in den Wortgraphen<br />
neben den optionalen Stillen auch optionales Gemurmel erlauben<br />
(s. Abb. 15.9). Will man weitere Eventualitäten berücksichtigen, könnten sogar<br />
Übergänge zwischen den Stille- und den Murmelzuständen (engl. mumble<br />
words) eingefügt werden. Damit ist schon ein Teil des Weges, den das Flexible<br />
Transcription Alignment (s. Abs. 14.6.4) geht genommen.
258 15. Erkennung kontinuierlicher Sprache<br />
Stille Stille Stille<br />
Guten Tag<br />
Murmeln Murmeln Murmeln<br />
– T – G –<br />
G U N T A<br />
*<br />
* CH *<br />
Abb. 15.9. Satz-HMM mit optionalen Füllwörtern<br />
Wortgraph<br />
Phonemgraph<br />
Ein HMM für einen ganzen Satz – oder besser gesagt für eine Äußerung –<br />
muß nur für das Training aufgebaut werden. Nur dort ist überhaupt bekannt,<br />
welche Worte gesprochen wurden. Im Gegensatz zur Einzelworterkennung<br />
ist es bei kontinuierlicher Sprache nicht möglich, für jede erlaubte Äußerung<br />
ein Referenz-HMM zu erzeugen. Daher wird ein ähnlicher Weg bestritten<br />
wie beim One-Stage Dynamic Programming. Von jedem Endzustand eines<br />
Wortes werden Zustandsübergänge in die Anfangszustände aller Wörter<br />
eingefügt. Das Resultat ist ein einziges HMM, das alle n Einzelwort-HMMs<br />
enthält und zusätzlich n 2 Wort-zu-Wort-Übergänge (s. Abb. 15.10).<br />
Wort 1<br />
Wort 2<br />
Wort n<br />
. . .<br />
Abb. 15.10. Ein einziges HMM aus vielen einzelnen Wort-HMMs<br />
Auch wenn das HMM in Abb. 15.10 nicht so aussieht, daß es einfach als<br />
” eine“ Referenzachse verwendet werden kann wie in Kap. 12 angenommen.<br />
Grundsätzlich aber ist es, wie Abb. 15.11 auch linear darstellbar.<br />
15.4 Einbindung eines einfachen Sprachmodells<br />
Wenn wir bei Abb. 15.10 Wahrscheinlichkeiten für die Wortübergänge festlegen<br />
wollen, so könnten wir im einfachsten Fall einfach für jeden Übergang<br />
die Wahrscheinlichkeit 1/n verwenden. Besser ist allerdings die Verwendung<br />
n 2
C<br />
B<br />
A<br />
15.4 Einbindung eines einfachen Sprachmodells 259<br />
Abb. 15.11. HMM für kontinuierliche Sprache linear dargestellt.<br />
von ” hilfreicheren“ Werten.<br />
Wenn nicht von jedem Wortende zu jedem Wortanfang ein Übergang<br />
besteht, und wenn alle Übergänge aus einem Wortende gleich wahrscheinlich<br />
sind, dann sprechen wir von einer so genannten Wortpaar Grammatik. Der<br />
Erkenner würde ganz ohne Grammatik laufen, wenn nicht nur einige sondern<br />
alle Wortpaare erlaubt wären. Am erfolgversprechendsten ist allerdings der<br />
Einsatz von ” echten“ Wahrscheinlichkeiten, die auch berücksichtigen, welche<br />
Wörter einander mit welcher Wahrscheinlichkeit folgen können. So würden<br />
wir sicher den Übergang von ” Guten“ zu ” Tag“ als wahrscheinlicher festlegen<br />
als den Übergang von ” Guten“ zu ” sein“. Im Kapitel 16 werden wir uns noch<br />
ausführlich mit der Findung sinnvoller Wortübergangswahrscheinlichkeiten<br />
befassen.
16. Verwendung von Sprachmodellen<br />
Im Deutschen wird der Begriff ” Sprache“ für verschiedene Dinge gebraucht,<br />
die im Englischen durch ” speech“ und ” language“ unterschieden werden.<br />
Während ” speech“ sich auf die akustischen, phonetischen und biologischen<br />
Aspekte des Sprechens bezieht, ist mit ” language“ der linguistische Aspekt<br />
gemeint, wie er sich vor allem in geschriebener Sprache manifestiert. Der<br />
Teil eines Spracherkenners, der sich mit der Behandlung der linguistischen<br />
Eigenschaften der Sprache beschäftigt wird das Sprachmodell genannt.<br />
16.1 Wozu Sprachmodelle<br />
Die Verwendung von Wissen, das über das in den Parametern von Hidden<br />
Markov Modellen mit ihren unterschiedlichen Emissionswahrscheinlichkeitsmodellen<br />
vorhandenen hinausgeht, kann auf verschiedene Arten motiviert<br />
werden.<br />
Zum einen ist es selbstverständlich, daß zusätzliches Wissen, korrekt<br />
angewendet, keinesfalls dazu führen kann, die Leistung von Spracherkennern<br />
zu senken. Viele Wörter, die akustisch leicht verwechselbar sind, könnten<br />
unter Zuhilfenahme von Sprachmodellen besser unterschieden werden. Im<br />
Extremfall ist das Sprachmodell die einzige Instanz, die in der Lage ist<br />
zwischen ” Sie“ (Anrede) und ” sie“ (dritte Person Plural) zu unterscheiden.<br />
Solche Wörter, die sich in ihrer Aussprache nicht unterscheiden, werden<br />
Homophone genannt. Sie sind für viele Spracherkenner eine nicht zu<br />
vernachlässigende Fehlerquelle. Vor allem in Sprachen wie dem Englischen<br />
oder Französischen existieren viele Homophone. Im Französischen ist oft<br />
die Unterscheidung zwischen Singular- oder Pluralform bzw. zwischen<br />
weiblicher und männlicher Form eines Wortes rein aufgrund der Akustik<br />
nicht möglich. Um festzustellen, ob der englische Satz ” I owe you, too.“<br />
wahrscheinlicher gesprochen wurde als ” Eye O U two.“ bedarf es einer<br />
Wissensquelle, welche die Wahrscheinlichkeit von Wortfolgen berechnet.<br />
So eine Instanz, das Sprachmodell, würde dann feststellen, daß ” Eye O<br />
U two.“ viel unwahrscheinlicher ist als ” I owe you, too.“ und somit allein
262 16. Verwendung von Sprachmodellen<br />
die Entscheidung zwischen zwei Erkennerhypothesen treffen, die akustisch<br />
identisch sind.<br />
Sprachmodelle können auch dazu dienen, den Suchraum einen HMM-<br />
Erkenners für kontinuierliche Sprache einzuschränken. Wenn man bedenkt,<br />
wie stark die kombinatorische Explosion der Zahl der möglichen Wortfolgen<br />
ist (man denke an Sätze mit zwanzig bis dreißig Wörtern aus einem Vokabular<br />
von 50000), bietet sich der Einsatz eines Sprachmodells zur Auswahl<br />
von in Frage kommenden Wortfolgen und somit zur Steuerung der Suche des<br />
Erkenners an. In der Tat kann man so viele Suchpfade, die zwar akustisch<br />
wahrscheinlich sind aber syntaktisch oder semantisch absurden Wortfolgen<br />
entsprechen würden, frühzeitig beschneiden und viel Suchaufwand einsparen.<br />
16.2 Wahrscheinlichkeiten von Wortfolgen<br />
Erinnern wir uns noch einmal an die Fundamentalformel der Spracherkennung<br />
(14.2):<br />
ˆW = argmaxP(X|W)<br />
· P(W)<br />
W<br />
Die Aufgabe des Sprachmodells ist die Berechnung von P(W). Geht<br />
man davon aus, das W = (w1, w2, . . . wn), also eine Folge von n Wörtern ist,<br />
dann läßt sich P(W) schreiben als<br />
P(W) = P(w1) · P(w2|w1) · P(w3|w1, w2) · · · P(wn|w1, w2, . . .wn−1), (16.1)<br />
wobei P(w1) die Wahrscheinlichkeit dafür ist, daß eine Wortfolge mit<br />
dem Wort w1 anfängt, und P(wi|w1, w2, . . . wi−1) die Wahrscheinlichkeit<br />
dafür ist, daß das Wort wi gesprochen wird unter der Voraussetzung, daß<br />
die ganze Worthistorie w1 bis wn−1 davor gegeben ist.<br />
Prinzipiell wäre es auch möglich gewesen, die Definition ” rückwärts“ zu<br />
machen und zu definieren:<br />
P(W) = P(wn) · P(wn−1|wn) · P(wn−2|wn−1, wn) · · ·P(w1|w2, w3, . . . wn)
16.2 Wahrscheinlichkeiten von Wortfolgen 263<br />
wobei dann P(wn) die Wahrscheinlichkeit dafür wäre, daß wn das letzte<br />
Wort ist, und P(wi|wi+1, wi+2, . . .wn) die Wahrscheinlichkeit dafür, daß das<br />
Wort wi gesprochen wird unter der Voraussetzung, daß der ganze noch zu<br />
sprechende Rest der Wortfolge bekannt ist.<br />
Für Spracherkenner, die erst dann mit der Erkennung anfangen, wenn<br />
eine zu erkennende Äußerung abgeschlossen ist, stellt die zweite, rückwärts<br />
gerichtete, Variante kein Problem dar. Es spricht auch nichts prinzipiell<br />
dagegen, den Forward- oder Viterbi-Algorithmus auf der Zeitachse rückwärts<br />
laufen zu lassen. Der einzige Grund, warum man doch besser die vorwärts<br />
gerichtete Variante verwenden würde ist bei der so genannten schritthaltenden<br />
(Run-On-) Erkennung gegeben, bei der der Erkenner schon anfängt<br />
Teilhypothesen für den bereits gesprochenen Teil einer Äußerung zu liefern,<br />
während der Sprecher noch dabei ist, den Rest der Äußerung zu sprechen.<br />
Bei den obigen Definitionen haben wir vorausgesetzt, daß die Länge einer<br />
Wortfolge bekannt und fest vorgegeben ist. In der Praxis ist dies natürlich<br />
nicht der Regelfall. Das heißt, die Definition für die Wahrscheinlichkeit einer<br />
Wortfolge ohne bekannte Länge wäre:<br />
n−1 <br />
P(W) = P(n) · P(w1) · P(w2|w1, . . .wi) (16.2)<br />
i=1<br />
Hier ist P(n) die Wahrscheinlichkeit dafür, daß eine Wortfolge die<br />
Länge n hat. Dies nimmt dem Term etwas seiner Uniformität. Es wird sich<br />
herausstellen, daß in der Praxis an vielen Stellen von den Forderungen der<br />
Mathematik abgewichen wird, damit die gebauten Systeme funktionieren.<br />
Das liegt teilweise daran, daß wir oft versuchen aus den zur Verfügung<br />
stehenden Datenmengen das größtmögliche herauszuholen, und so Parameter<br />
von stochastischen Modellen mit so wenig Daten schätzen, daß für diese das<br />
aus der Stochastik bekannte Gesetz der großen Zahl nicht greift. Teilweise<br />
liegt es aber auch daran, daß die Modelle, die wir uns von der Wirklichkeit<br />
machen, von dieser Wirklichkeit weit weg sind. Um das mathematische<br />
Gewissen zu erleichtern können wir uns auch vorstellen, daß wir bei der<br />
Berechnung der Wahrscheinlichkeit einer Wortfolge davon ausgehen, daß alle<br />
Wortfolgen immer unendlich lang sind, sie haben aber eine Stelle, ab der<br />
nur noch ein Satz-Ende-Wort Ve kommt. Dann können wir von der Länge<br />
abstrahieren und sagen:
264 16. Verwendung von Sprachmodellen<br />
⎧<br />
#(Hwn)<br />
falls wn = Ve und Ve ∈ H<br />
⎪⎨<br />
#(H)<br />
P(H) falls wn = Ve und Ve ∈ H<br />
P(wn|H) =<br />
0.0 falls wn = Ve und Ve ∈ H<br />
⎪⎩<br />
1.0 falls wn = Ve und Ve ∈ H<br />
(16.3)<br />
wobei #(H) die Häufigkeit der Beobachtung der Wortfolge H ist, #(Hw)<br />
die Häufigkeit der Beobachtung der Wortfolge H gefolgt vom Wort w ist.<br />
Bei einem Vokabular von 100 000 Wörtern könnten 10 50 verschiedene<br />
Zehnwortfolgen erzeugt werden. Das bedeutet, daß es ausgeschlossen ist,<br />
daß wir eine Tabelle anlegen, die für jedes Wort w und jede Worthistorie<br />
H einen gut geschätzten Eintrag P(w|H) enthält. Bleiben also nur drei<br />
Möglichkeiten. Erstens wir setzen sehr viele Einträge in der Tabelle auf null.<br />
Zweitens, wir berechnen P(w|H) erst dann wenn wir es wirklich benötigen,<br />
und nicht alles im voraus. Oder drittens, wir fassen verschiedene Historien<br />
in Klassen zusammen und approximieren:<br />
P(w|H) ≈ P(w|C(H)), (16.4)<br />
wobei C(H) die Klasse von Historien ist, in die auch H fällt. Nur in<br />
wenigen Fällen ist es sinnvoll, die Sprachmodellwahrscheinlichkeit ” im Fluge“<br />
zu berechnen. Der Aufwand, der getrieben werden muß, um die Suche eines<br />
Spracherkenners in akzeptabler Zeit durchzuführen, ist schon so groß, daß<br />
eine sehr oft durchgeführte Anfrage nach Sprachmodellwahrscheinlichkeiten,<br />
die erst noch berechnet werden müßten, den Gesamtablauf so sehr verlangsamen<br />
würde, daß kein sinnvoller Einsatz des Erkenners mehr denkbar wäre.<br />
Aus ebenso praktischen Gründen bietet es sich meist nicht an, die gesamte<br />
Historie einer Aufnahme mitzuführen und ständig für die Berechnung<br />
von Sprachmodellwahrscheinlichkeiten bereitzustellen. Abgesehen davon,<br />
daß durch beliebig lange Historien die Komplexität des Suchalgorithmus<br />
sehr hoch wird, können wir davon ausgehen, daß der Einfluß eines Wortes<br />
auf die Beobachtungswahrscheinlichkeit eines anderen Wortes, daß erst sehr<br />
viel später im Satz oder gar erst in einem viel späteren Satz auftritt mit<br />
zunehmendem Abstand gegen null geht.<br />
Somit bietet sich an dieser Stelle eine Art der Klassenbildung der<br />
Historien an, nämlich die Beschränkung auf eine Maximallänge:<br />
C(H = w1, w2, . . . wn) = {v1, v2, . . .vk|vi = wn−k+i}, (16.5)
16.3 N-Gramme 265<br />
also alle Historien, bei denen die letzten k Wörter gleich sind, kommen<br />
in dieselbe Klasse. Sicherlich sind auch andere Arten der Historienklassifizierung<br />
sinnvoll und werden in der Praxis auch eingesetzt. So können<br />
einzelne Wörter oder auch Wortfolgen je nach ihrer semantischen oder auch<br />
syntaktischen Bedeutung in gemeinsame Klassen eingeordnet werden.<br />
16.3 N-Gramme<br />
Die bei weitem am häufigsten verwendete Historienklassifizierung ist die der<br />
Einschränkung auf maximal ein bis zwei Vorgängerwörter. Drückt man die<br />
Wahrscheinlichkeit eines Wortes in Abhängigkeit der n − 1 Vorgänger aus,<br />
so spricht man von n-Grammen:<br />
n-Gramm P(wm|w1, . . . wm−1) ≈<br />
n = 1 (Unigramm) P(wm)<br />
n = 2 (Bigramm) P(wm|wm−1)<br />
n = 3 (Trigramm) P(wm|wm−2, wm−1)<br />
n = k P(wm|w m−(k−1), . . . wm−1)<br />
Eine spezielle Form der Bigramme sind Wortpaargrammatiken. Sie<br />
definieren lediglich welche Wörter einem Wort folgen dürfen. Diese erhalten<br />
dann alle die gleiche positive Bigramm-Wahrscheinlichkeit, während alle<br />
anderen (nicht erlaubten Folgewörter) die Wahrscheinlichkeit 0 erhalten.<br />
Die naheliegende Maximum-Likelihood Schätzung für ein n-<br />
Gramm ist das Verhältnis der Vorkommen der gesamten“ Wort-<br />
”<br />
folge wm−(k−1), . . .wm−1, wm zu den Vorkommen der<br />
” Geschichte“<br />
wm−(k−1), . . . wm−1, also:<br />
P(wm|w m−(k−1), . . .wm−1) = #(w m−(k−1), . . . wm−1, wm)<br />
#(w m−(k−1), . . .wm−1)<br />
(16.6)<br />
Ein Blick auf eine typische Textdatenbasis wie die des Wall-Street-<br />
Journals läßt schnell erkennen, daß das Gesetz der großen Zahl für die<br />
Modellierung von Wortfolgen so enorm große Zahlen meint, daß wir kaum<br />
eine Chance haben, diese jemals zu erreichen. Im Standard-Benchmark<br />
der Wall-Street-Journal Datenbasis kommen Texte vor, die sich ca. 300<br />
Millionen Wörter aufsummieren. Auf den ersten Blick eine sehr große Zahl.<br />
Betrachten wir jetzt alle 300 Millionen Worttripel, dann stellen wir fest, daß<br />
ca. 65 Millionen, also gut ein fünftel, in der gesamten Textdatenbank nur ein
266 16. Verwendung von Sprachmodellen<br />
einziges Mal vorkommt, so selten also, daß sinnvolle statistische Aussagen<br />
kaum zu machen sind.<br />
Bevor wir uns überlegen, ob wir nicht besser nach erfolgversprechenderen<br />
Sprachmodellen suchen sollten, betrachten wir zwei Experimente, die uns<br />
bei der Einschätzung der Wirkung von n-Grammen helfen könnten.<br />
Im ersten Experiment wurde aus der Wall Street Journal Datenbasis<br />
derjenige Teil herausgenommen, der nur Wörter aus der Menge der 1000<br />
häufigsten Wörter enthält (das war eine Textmenge von ca. 400 000<br />
Wörtern). 300 000 (Trainingsdaten) davon wurden zum Schätzen von<br />
Trigrammen entsprechend Gl. 16.6 verwendet, und auf den restlichen<br />
100 000 (Testdaten) wurde das Trigramm-Modell gestestet. Wir werden uns<br />
später in diesem Kapitel mit der Qualität von Sprachmodellen beschäftigen<br />
und an dieser Stelle lediglich die Zahl der Worttripel betrachten, die in<br />
den Trainingsdaten und in den Testdaten vorkommen. Diese Zahlen bilden<br />
die Basis für die Schätzung von Trigrammen. Bei der Betrachtung der<br />
Worttripel der Testdaten wurde festgestellt, daß 23% von ihnen in den<br />
Trainingsdaten überhaupt nicht vorkamen. Das würde bedeuten, daß fast<br />
jedes vierte bei der Erkennung der Testdaten zu verwendende Trigramm<br />
eine Wahrscheinlichkeit von null hätte. Sicher könnte man statt 0.0 einen<br />
kleinen Wert ǫ nahe 0.0 wählen, damit diese Worttripel überhaupt eine<br />
Chance haben, erkannt zu werden. Dennoch sollte man erwarten, daß ein<br />
Sprachmodell, das in einem Viertel aller Fälle willkürlich festgelegte Werte<br />
nahe null verwendet nur wenig hilfreich ist. Das erste Experiment ist also für<br />
den Einsatz von n-Grammen eher entmutigend. Für Werte von n > 3 ist der<br />
Anteil der in den Trainingsdaten nicht vorkommenden n-Tupel noch größer.<br />
In einem anderen Experiment, dem sogenannten ” Bag of Words“, wurden<br />
aus der Datenmenge, die aus dem ersten Experiment bekannt ist, Sätze mit<br />
maximal 10 Wörtern genommen. Aus jedem Satz wurde statt einer Wortfolge<br />
eine Wortmenge gebildet, in der die ursprüngliche Reihenfolge der Wörter<br />
nicht mehr bekannt war. Ein Algorithmus suchte dann zu jeder Wortmenge<br />
diejenige Wortfolge, deren Trigramm-Wahrscheinlichkeit am größten ist.<br />
Bei 63% aller Sätze wurde der ursprüngliche Satz exakt rekonstruiert, und<br />
79% aller Sätze wurden immerhin so rekonstruiert, daß wenigstens der Sinn<br />
erhalten blieb.<br />
16.4 Perplexität<br />
Die Messung der Qualität eines Sprachmodells kann so erfolgen, daß ein<br />
Erkenner das Sprachmodell verwendet und die Worterkennungsrate dann als
16.4 Perplexität 267<br />
Qualität des Modells verwendet wird. Das Sprachmodell, das weniger Fehler<br />
produziert, würde dann als das bessere angesehen werden. Allerdings hat<br />
man hier drei Probleme: Erstens ist das Durchführen einer Erkennung auf<br />
einer aussagekräftigen Testmenge aufwendig, zweitens hängt die Wortfehlerrate<br />
sehr wesentlich davon ab, wie gut das Sprachmodell zur Testdatenmenge<br />
paßt, und drittens hängt das Ergebnis auch von der Zusammenarbeit des<br />
Sprachmodells und des akustischen Modells ab.<br />
Wenn wir den einen Zweck von Sprachmodellen, nämlich die Vereinfachung<br />
der Erkennungsaufgabe, betrachten, dann ist ein Modell, dessen<br />
Übergangswahrscheinlichkeiten nahezu gleichverteilt sind (s. Abb. 16.1<br />
rechts), deutlich weniger ” nützlich“ als eines, das eine weniger glatte<br />
Verteilung hat (s. Abb. 16.1 links) – vorausgesetzt natürlich, die Wahrscheinlichkeitswerte<br />
sind sinnvoll geschätzt.<br />
wi<br />
0.19<br />
0.22<br />
0.18<br />
0.19<br />
0.22<br />
wi+1,1<br />
wi+1,5<br />
wi+1,2<br />
wi+1,4<br />
wi+1,3<br />
wi<br />
0.55<br />
0.10<br />
0.01<br />
0.05<br />
0.29<br />
wi+1,1<br />
wi+1,5<br />
wi+1,2<br />
wi+1,4<br />
wi+1,3<br />
Abb. 16.1. Sprachmodelle mit wenig (links) und viel (rechts) Informationsgehalt<br />
Ein Sprachmodell mit absolut gleichverteilten Übergangswahrscheinlichkeiten<br />
ist völlig wertlos, es liefert keine Information und könnte auch gleich<br />
ganz weggelassen werden. Ein Maß, das die ” Glattheit“ einer Verteilung<br />
mißt, also die mangelnde Information, ist die Entropie:<br />
H = −<br />
n<br />
pi · log2 pi<br />
i=1<br />
(16.7)<br />
Betrachten wir das Sprachmodell als eine Informationsquelle und jedes<br />
Wort als ein Symbol, das die Quelle zufällig entsprechend der Sprachmodellwahrscheinlichkeiten<br />
emittiert, dann ist die Entropie der Quelle definiert als:<br />
HQ = lim<br />
n→∞ −<br />
n<br />
pi · log2 pi, (16.8)<br />
i=1
268 16. Verwendung von Sprachmodellen<br />
wobei pi die vom Sprachmodell vorgegebene Wahrscheinlichkeit für das<br />
i-te Wort wi bei gegebener Historie w1, w2, . . . wi−1 ist.<br />
Ergodische Quellen sind solche, deren Verhalten durch eine unendlich<br />
lange Symbolfolge komplett beschrieben werden kann. Es ist vernünftig<br />
anzunehmen, daß es sich bei einem Sprachproduktionssystem um eine solche<br />
Quelle handelt. Für ergodische Quellen gilt:<br />
1<br />
HE = − lim<br />
n→∞ n log2 P(w1, w2, . . .wn) (16.9)<br />
Da aber niemals eine unendliche Wortfolge zur Verfügung steht, sondern<br />
eine sehr große aber endliche Folge w1, w2, . . . wn, wird die Entropie der<br />
Quelle, die diese Folge produziert approximiert durch:<br />
HE ≈ − 1<br />
n log 2 P(w1, w2, . . .wn) (16.10)<br />
Dieser Wert HE ist ein Maß für die Schwierigkeit einer Spracherkennungsaufgabe<br />
aus linguistischer Sicht (d.h. ohne Berücksichtigung der<br />
akustischen Gegebenheiten). Ein großer Wert bedeutet viel Entropie =<br />
wenig Information = schwierige Aufgabe, ein kleiner Wert bedeutet wenig<br />
Entropie = viel Information = leichte Aufgabe. Der Wert<br />
PP = 2 HE 1 −<br />
= P(w1, w2, . . . wn) n (16.11)<br />
Wäre in einem Sprachmodell über dem Vokabular V jede Wortfolge gleich<br />
wahrscheinlich, so wäre P(w1, w2, . . .wn) = (1/|V |) n und die Perplexität<br />
wäre ((1/|V |) n 1 − ) n = |V |. Das heißt, eine Quelle mit der Entropie PP<br />
enthält den gleichen Informationsgehalt wie eine Quelle, die aus einem<br />
Vokabular der Größe |V | = PP gleichverteilt Wörter emittiert. Eine andere<br />
Veranschaulichung des Perplexitätswertes ist die des geometrischen Mittels<br />
der Zahl der zu jedem Zeitpunkt zu erwartender Wörter:<br />
PP =<br />
1<br />
<br />
P(w1, w2, . . . wn) =<br />
n<br />
1<br />
n n<br />
i=1 pi<br />
(16.12)<br />
Aus der Sicht des Spracherkenners bedeutet dies, daß die Aufgabe,<br />
Sprache mit beliebigem Vokabular und einer Perplexität von PP so schwer<br />
zu erkennen ist, wie Sprache mit einem Vokabular der Größe PP und dem<br />
Verzicht auf den Einsatz eines Sprachmodells. Im übrigen gilt: jede von der
16.4 Perplexität 269<br />
Gleichverteilung abweichende Verteilung hat eine Perplexität zur Folge, die<br />
kleiner ist als |V |.<br />
Die Perplexität ist eine intrinsische Eigenschaft einer Symbolquelle oder<br />
eines Sprachmodells. Wird sie allerdings gemäß Gl. 16.11 geschätzt, dann<br />
spricht man von der ” Test-Set-Perplexität“, ein Wert, der selbstverständlich<br />
von der endlichen Wortfolge (dem Test-Set) w1, w2, . . .wn abhängt.<br />
Das bedeutet, daß dasselbe Sprachmodelle je nach Test-Set, verschiedene<br />
Test-Set-Perplexitäten hat. Spricht man nur von der Perplexität eines<br />
Sprachmodells, dann meint man damit die Test-Set-Perplexität auf der<br />
Wortfolge, mit der das Modell geschätzt wurde, oder eine Kreuzvalidierungsteilmenge<br />
davon.<br />
Tab. 16.1 gibt die typischen Perplexitäten einiger Erkennungsaufgaben<br />
an. Am Beispiel der Wall Street Journal Daten ist zu erkennen, daß die<br />
Perplexität eines Trigramm-Modells erwartungsgemäß niedriger ist als<br />
die eines Bigramm-Modells. Ein Bigramm-Modell enthält wiederum mehr<br />
Information als ein noch einfacheres Wortpaarmodell (PP=20 ggü. PP=60<br />
für die Resource Management Daten). Ein ganz starker Effekt für die<br />
Test-Set-Perplexität läßt sich an den deutschsprachigen Daten aus der<br />
Süddeutschen Zeitung sehen. Verwendet man als Test-Set ebenso wie für<br />
das Schätzen des Modells Texte aus der gleichen Zeitschrift, so beträgt<br />
die Perplexität ca. 400. Dies ist an sich schon wesentlich höher als für<br />
typische englischsprachige Aufgaben, was im wesentlichen auf die vielen<br />
Flexionsformen im Deutschen, die es im Englischen sehr viel weniger gibt,<br />
zurückzuführen. Einen gewaltigen Sprung in die Höhe macht die Perplexität<br />
allerdings noch, wenn als Test-Set Märchen (in diesem Experiment [?]<br />
” Schneewittchen“) verwendet werden. Die Tatsache, daß Märchentexte von<br />
Nachrichtentexten sehr verschieden sind, führt dazu daß die n-Gramm-<br />
Wahrscheinlichkeiten sehr klein geraten und somit die Perplexität sehr groß<br />
wird. Hier bedeutet dies, daß die Erkennung eines gesprochenen Märchens<br />
mit Hilfe eines Trigramm-Sprachmodells aus der Süddeutschen Zeitung in<br />
etwa so schwierig ist wie die Erkennung mit einem Vokabular der Größe<br />
1000 Wörter ganz ohne Sprachmodell.<br />
Die Perplexität ist geeignet, die Schwierigkeit einer Erkennungsaufgabe<br />
einigermaßen zu beschreiben. In vielen Fällen ist es jedoch so, daß eine<br />
Aufgabe trotz niedrigerer Perplexität schwieriger ist, weil bei der reinen<br />
Perplexität die Verwechslungswahrscheinlichkeit nicht berücksichtigt wird.<br />
In Abb. 16.2 ist die lokale Wahrscheinlichkeitsverteilung der Nachfolger des<br />
Wortes wi auf der linken Seiten wesentlich schärfer (d.h. hat niedrigere<br />
Perplexität) als auf der rechten Seite. Dennoch ist die Erkennungsaufgabe<br />
der rechten Seite einfacher. Zwar hilft hier das nahezu gleichverteilte Sprachmodell<br />
nicht, aber die in Frage kommenden Wörter sind aus akustischer Sicht
270 16. Verwendung von Sprachmodellen<br />
Daten |V | Sprachmodell PP<br />
Conference Registration [?] 400 Bigramme 7<br />
Resource Management [?] 1000 Bigramme 20<br />
Resource Management 1000 Wortpaare 60<br />
Wall Street Journal [?] 60000 Bigramme 160<br />
Wall Street Journal 60000 Trigramme 120<br />
Süddeutsche Zeitung (SZ) 60000 Trigramme 400<br />
SZ mit Märchen als Test-Set 60000 Trigramme 1000<br />
Tabelle 16.1. Perplexitäten verschiedener Erkennungsaufgaben<br />
nahezu unverwechselbar. An solchen Stellen benötigt ein Spracherkenner<br />
die Information aus dem Sprachmodell überhaupt nicht. Um auch solche<br />
Phänomene zu erfassen, wurde der Begriff der akustischen Perplexität (im<br />
Englischen oft aperplexity genannt) eingeführt:<br />
APP = 2 HA mit HA = − 1<br />
n<br />
n<br />
log P(w1, w2, . . . wn−1, A(wn)) (16.13)<br />
i=1<br />
wobei A(w) die Menge der akustisch mit w verwechselbaren Wörter<br />
ist. Die Definition ist also ganz analog zur reinen Perplexität, nur daß die<br />
Wahrscheinlichkeit für das letzte Wort durch die Wahrscheinlichkeit für eine<br />
Klasse von Wörtern ersetzt wird. In der Praxis wird die akustische Perplexität<br />
allerdings recht selten angegeben. Der Vorteil, den die Perplexität hat,<br />
nämlich bei der Beschreibung Schwierigkeit einer Erkennungsaufgabe, vom<br />
verwendeten Erkenner ganz unabhängig zu sein, geht bei der akustischen<br />
Perplexität verloren, denn die Definition der akustisch verwechselbaren<br />
Wörter hängt sehr wohl auch vom verwendeten Erkenner ab. Zumindest ist<br />
es nicht in jedem Fall selbstverständlich ob zwei Wörter verwechselbar sind<br />
oder nicht.
wi<br />
0.8<br />
0.03<br />
0.17<br />
” ein“<br />
” und“<br />
” an“<br />
Abb. 16.2. Perplexität und Verwechselbarkeit<br />
16.5 Glättung und Interpolation<br />
16.5 Glättung und Interpolation 271<br />
wi<br />
0.33<br />
0.33<br />
0.34<br />
” ich“<br />
” Banane“<br />
” mikroskopisch“<br />
Berücksichtigt man die Tatsache, daß von den ca. 300 000 000 Worttripeln<br />
aus den Wall Street Journal Trainingsdaten ca. 65 000 000, also über<br />
20%, nur ein einziges Mal vorkommen, stellt man fest, daß eine naive<br />
Maximum-Likelihood Schätzung wie in Gl. 16.6 nur sehr schlechte Ergebnisse<br />
produzieren kann. Ob ein Worttrippel ein mal, zwei mal oder drei mal<br />
vorkommt ist oft ein Sache des reinen Zufalls und berechtigt in der Regel<br />
nicht zur Annahme, daß eine Wortfolge, die drei mal vorkommt, auch drei<br />
mal so wahrscheinlich ist, wie eine, die nur ein mal vorkommt. Ganz extrem<br />
ist dies der Fall, bei Wortfolgen, die in den Trainingsdaten überhaupt nicht<br />
vorkommen. Deren Wahrscheinlichkeit auf 0 zu setzen würde sie vom Erkennungsprozeß<br />
komplett ausschließen. Wegen solcher Probleme verwenden<br />
gute Sprachmodell verschiedene Glättungstechniken um Wortfolgen, deren<br />
Wahrscheinlichkeiten nur sehr schlecht geschätzt werden können, dennoch<br />
gut zu modellieren. Im folgenden werden einige Methoden dazu vorgestellt.<br />
16.5.1 Cutoffs<br />
Mit dem englischen Begriff cutoff bezeichnet man das ” Abschneiden“<br />
beziehungsweise das Ignorieren eines Teils der Trainingsdaten. Das typische<br />
Vorgehen dabei besteht darin, alle Wortfolgen, die weniger als m mal vorkommen<br />
komplett zu ignorieren. Wenn sichergestellt ist, daß jede Wortfolge,<br />
die zur Schätzung der Sprachmodellparameter verwendet wird, mindestens<br />
m mal im Trainingstext vorkommt, dann kann man davon ausgehen, daß die<br />
Schätzung umso robuster ausfällt, je größer m ist. Selbstverständlich darf<br />
m nicht zu groß gewählt werden, da sonst irgendwann der Effekt eintritt,<br />
daß zu viele Trainingsdaten ignoriert werden und so die Schätzung wieder<br />
verschlechtert wird. Die am häufigsten verwendeten Werte für m sind 1, 2<br />
oder 3, je nachdem wie viele Daten zur Verfügung stehen.
272 16. Verwendung von Sprachmodellen<br />
16.5.2 Discounting<br />
Beim Discounting handelt es sich prinzipiell auch um eine Art von Glättung.<br />
Dabei wird jede absolute Häufigkeit #(w) ersetzt durch # ′ (w), z.B. wie in:<br />
# ′ (w) = #(w) − d absolutes Discounting (16.14)<br />
# ′ (w) = #(w) + 1 Jeffrey Smoothing (16.15)<br />
# ′ (w) = #(w) + 1/2 uniforme Bayes Glättung (16.16)<br />
Durch das Discounting ändern sich die Unterschiede der absoluten Häufigkeiten<br />
bestimmter Wörter untereinander nicht, die relativen Häufigkeiten<br />
werden aber einander ein wenig angenähert (geglättet). Beim absoluten<br />
Discounting muß selbstverständlich eine Regelung getroffen werden, wie mit<br />
negativen Häufigkeiten umzugehen ist. Bei großen Textdatenmengen gehen<br />
wir meist davon aus, daß neben der Anwendung eines absoluten Discountings<br />
um den Wert d auch ein Cutoff-Wert c > d gesetzt wurde, so daß negative<br />
Häufigkeiten nicht auftreten können. d muß nicht unbedingt eine natürliche<br />
Zahl sein, auch kleine Discounting-Werte von 0.1 können durchaus Sinn<br />
haben. Das Discounting wird bei der Konstruktion von Sprachmodellen in<br />
der Spracherkennung allerdings weniger zum Zwecke der Glättung verwendet,<br />
sondern vielmehr zur Reduktion der ” Wahrscheinlichkeitsmasse“. Die<br />
sinnvollste Art, die entfernte Wahrscheinlichkeitsmasse einzusetzen, ist das<br />
im folgenden vorgestellte Backoff-Verfahren.<br />
16.5.3 Backoff-Verfahren<br />
Die Maximum-Likelihood Lösung zur Schätzung von n-Grammen liefert für<br />
Wortfolgen, die in den Trainingsdaten überhaupt nicht vorkommen eine<br />
Wahrscheinlichkeit von null. Solche Wortfolgen können vom Spracherkenner<br />
nicht erkannt werden. Um auch solche Wortfolgen erkennen zu können,<br />
wird die Backoff-Technik verwendet. Wenn die Wahrscheinlichkeit für das<br />
n-Gramm P(wk|wk−1, wk−2, . . .w k−(n−1) nicht geschätzt werden konnte,<br />
weil die Wortfolge w k−(n−1), . . . wk−2, wk−1, wk im Trainingstext nicht beobachtet<br />
wurde, dann bietet es sich an, statt dessen als Rückfallmethode (engl.<br />
backoff ) das n − 1-Gramm P(wk|wk−1, wk−2, . . .w k−(n−2) zu verwenden.<br />
Für ein korrektes Sprachmodell muß allerdings gelten:<br />
<br />
wq 1 ,wq 2 ,...wqn<br />
P(wqn|wqn−1, . . . wq1) = 1 (16.17)
16.5 Glättung und Interpolation 273<br />
Die Summe der Wahrscheinlichkeiten aller n-Gramme muß für jedes n<br />
exakt 1 ergeben. Dies ist bei einer Maximum-Likelihood Schätzung schon für<br />
die ” gesehenen“ n-Gramme der Fall. Ordnen wir den ” nicht gesehenen“ auch<br />
Wahrscheinlichkeiten > 0 zu, so ist die geforderte Bedingung von Gl. 16.17<br />
nicht erfüllt. Um auch für die Rückfallwahrscheinlichkeiten etwas Wahrscheinlichkeitsmasse<br />
übrig zu haben, muß diese zuvor aus den n-Grammen<br />
mittels Discounting herausgenommen werden. Am häufigsten wird dafür ein<br />
absolutes Discounting gemäß Gl. 16.14 mit d ≈ 0.5 verwendet.<br />
Dann berechnet sich die Wahrscheinlichkeit für die gesehene Wortfolge<br />
w k−(n−1), . . . wk−2, wk−1, wk zu<br />
p+(wk|wk−1, wk−2, . . . w k−(n−1)) = #(w k−(n−1), w k−(n−2), . . . wk) − d<br />
#(w k−(n−1), w k−(n−2), . . . wk−1) (16.18)<br />
Für den Fall, daß w k−(n−1), . . .wk−2, wk−1, wk nicht gesehen wurde:<br />
p−(wk|wk−1, wk−2, . . . w k−(n−1))<br />
= p+(wk|wk−1, wk−2, . . . w k−(n−2)) · b(w1, w2, . . . wk−1) (16.19)<br />
wobei das ” Korrektiv“ b(w1, w2), der Backoff-Faktor, berechnet wird als:<br />
b(w1, w2, . . . wk−1) =<br />
<br />
w∈Vokabular<br />
d · δ(w1, w2, . . .wk−1, w)<br />
#(w1, w2, . . . wk−1)<br />
(16.20)<br />
wobei δ(w1, w2, . . .wk−1, w) entweder 1 ist (wenn w1, w2, . . .wk−1, w<br />
gesehen wurde) oder 0 ist (wenn es nicht gesehen wurde). Hat die<br />
Wortfolge w1, w2, . . . wk−1) in den Trainingsdaten sehr viele verschiedene<br />
Nachfolgewörter ist die Wahrscheinlichkeit für einen ” nicht gesehenen“<br />
Wortübergang größer als wenn sie nur wenige verschiedene Nachfolger hat.<br />
Das Rückfallen auf eine niedrigere n-Gramm-Stufe kann durchaus auch<br />
kaskadiert nötig sein. Wenn in Gl. 16.19 p+(wk|wk−1, wk−2, . . . w k−(n−2))<br />
nicht bekannt ist, weil auch die kürzere Wortfolge w k−(n−2), . . .wk nicht<br />
gesehen wurde, so muß auch hier mit Hilfe der Backoff-Methode auf<br />
p−(wk|wk−1, wk−2, . . . w k−(n−2)) zurückgefallen werden, so daß im allgemeinen<br />
eine Berechnung des n-Gramms wie folgt aussieht:
274 16. Verwendung von Sprachmodellen<br />
p−(wk|wk−1, wk−2, . . . w k−(n−1)) (16.21)<br />
T −1<br />
= p+(wk|wk−1, wk−2, . . . wk−(n−T)) · b(w1, w2, . . . wk−t)<br />
t=1<br />
16.6 Verschiedene weitere Sprachmodelle<br />
Die mit großem abstand beliebtesten Sprachmodelle in der Spracherkennung<br />
sind n-Gramme. Dennoch gibt es auch andere Ansätze, die erfolgreich<br />
eingesetzt werden. Meist handelt es sich dann um besondere Erkennungsaufgaben,<br />
für die n-Gramm weniger geeignet sind, weil zum Beispiel zu wenige<br />
oder gar keine Trainingsdaten vorhanden sind, oder weil die verwendete<br />
Sprache bestimmte Eigenschaften hat – zum Beispiel Kommandosprache,<br />
Buchstabieren, und so weiter. In anderen Fällen, in denen die alternativen<br />
Sprachmodell zum Einsatz kommen, sind oft solche, in denen sie mit<br />
vorhandenen n-Grammen interpoliert oder parallel dazu verwendet werden.<br />
Im folgenden werden einige besondere Methoden der Sprachmodellierung<br />
vorgestellt.<br />
16.6.1 Trigger<br />
Die Wahrscheinlichkeit für die Beobachtung bestimmter Wörter hängt oft<br />
davon ab, ob andere Wörter zuvor beobachtet worden sind. Sicher ist es<br />
wahrscheinlicher, das Wort ” Geld“ zu beobachten, wenn im Laufe eines<br />
Dokuments oder eines Dialogs zuvor das Wort ” Bank“ verwendet wird, als<br />
wenn ” Bank“ nicht vorkommt. Solche Wortpaare nennt man Trigger-Paare.<br />
Oft ist es so, daß beide Wörter eines Trigger-Paars ihre Wahrscheinlichkeiten<br />
gegenseitig beeinflussen. Beim Einsatz von Trigger-Paaren verwendet man<br />
meist für jedes beobachtbare Wort w aus einem Katalog von wichtigen<br />
Wörtern, eine Liste von Trigger-Partnern zusammen mit den dazu gehörigen<br />
erhöhten Beobachtungswahrscheinlichkeiten. Trigger-Modelle verändern also<br />
die Wortwahrscheinlichkeiten zur Laufzeit des Erkenners. Die Hypothese<br />
einer erkannten Äußerung beeinflußt die Erkennung der nachfolgenden<br />
Äußerungen.<br />
16.6.2 Cache<br />
Die Idee, die hinter Cache-Sprachmodellen steckt basiert auf der Annahme,<br />
daß ähnlich wie bei Trigger-Modellen die Wahrscheinlichkeiten für einzelne<br />
Wörter aber auch für Wortfolgen vom Thema abhängt, über das gerade
16.6 Verschiedene weitere Sprachmodelle 275<br />
gesprochen wird. Da ein Sprachmodell, das nur mit Hilfe von Texten eines<br />
bestimmten Themas geschätzt wurde, wegen des geringeren Volumens der<br />
Trainingsdaten schlecht geschätzt ist und schlecht generalisiert, bietet es<br />
sich an, es mit einem auf sehr vielen Daten sehr gut geschätzten besser<br />
generalisierenden aber im Spezialfall weniger gut passenden Model zu<br />
interpolieren. Lediglich die Interpolationsfaktoren müßten von Zeit zu Zeit<br />
optimiert werden.<br />
Da es beliebig viele Themen gibt und da es nicht möglich ist, für jedes<br />
denkbare Thema ein eigenes Sprachmodell zu erzeugen und bei Bedarf mit<br />
mehr oder weniger Interpolationsgewicht zum statischen Basissprachmodell<br />
statisches Basissprachmodell dynamisches Basissprachmodell hinzuzunehmen,<br />
kann statt dessen ein temporäres oder dynamisches Sprachmodell auf<br />
den bisher erkannten Hypothesen des Spracherkenners trainiert werden. Dabei<br />
wird die Annahme zugrundegelegt, daß das Thema, über das ein Sprecher<br />
spricht, verhältnismäßig langsam wechselt, zumindest so langsam, daß eine<br />
ausreichende Menge an Text vorhanden ist, mit dem man n-Gramme oder<br />
andere Sprachmodelle schätzen kann. Berechnet man diese n-Gramme auf<br />
einem ” Fenster“ der letzten Hypothesen, so daß sehr alte Hypothesen wieder<br />
aus der Schätzung des dynamischen Modells herausgenommen werden,<br />
dann ergibt sich als resultierendes Sprachmodell λ eine Mischung aus dem<br />
statischen Basismodell λ S und dem dynamischen Modell λ D :<br />
λ = α · λ S + (1 − α) · λ D<br />
das heißt für die einzelnen Wahrscheinlichkeiten:<br />
(16.22)<br />
Pλ(w|H) = α · Pλ S (w|H) + (1 − α) · Pλ D (w|H) (16.23)<br />
Der Interpolationsfaktor α in Gl. 16.22 sollte zweckmäßigerweise vor<br />
allem von der Menge der Daten, mit denen λ D geschätzt wurde, abhängig<br />
gemacht werden. Bei einem sehr kleinen Fenster sollte ein sehr großes α<br />
knapp unter 1.0 gewählt werden, und bei sehr großen Fenstern kann das α<br />
langsam kleiner werden. In der Regel wird es aber dennoch nahe bei 1.0<br />
bleiben.<br />
16.6.3 Klassenbasierte Sprachmodelle<br />
Eine wichtige Form von Sprachmodellen bilden klassenbasierte Modelle.<br />
Viele Wörter sind in einem bestimmten Kontext oft beliebig austauschbar,<br />
ohne daß sich die Wahrscheinlichkeit der gesamten Wortfolge merklich<br />
ändert. Das können zum Beispiel Zahlen, Wochentage, Personennamen
276 16. Verwendung von Sprachmodellen<br />
und ähnliches sein. Ersetzt man in einem Trainingstext alle Personennamen<br />
durch das Wort ” “ so kommen Wortfolgen wie ” Guten<br />
Tag, Herr relativ häufig vor, die Wahrscheinlichkeit für<br />
P(< Personenname > |Guten, Tag, Herr) läßt sich sehr gut schätzen, jedenfalls<br />
viel besser als die Wahrscheinlichkeit für P(Rogina|Guten, Tag, Herr),<br />
ein Viergramm, das in den Trainingsdaten womöglich so selten vorkommt, daß<br />
es im Rahmen des Cutoff-Verfahrens entfernt wurde. Wenn also die Wahrscheinlichkeit,<br />
für eine Wortklasse C bei gegebener Historie w1, w2, wn−1 als<br />
n-Gramm-Wahrscheinlichkeit P(C|w1, w2, wn−1) bekannt ist, dann berechnet<br />
sich die Wahrscheinlichkeit für ein Bestimmtes Wort wn aus dieser Klasse<br />
einfach als:<br />
P(wn|w1, w2, wn−1) = P(C|w1, w2, wn−1) · P(wn|C) (16.24)<br />
Das heißt, neben den Klassen-n-Grammen werden noch die Wahrscheinlichkeiten<br />
der Wörter innerhalb der Klassen benötigt. Wenn die Klassen<br />
ausreichend groß sind, lassen sich die klassenbedingten Wahrscheinlichkeiten<br />
durch einfaches Zählen (Unigramme) bestimmen. In anderen Fällen kann die<br />
klassenbedingte Wahrscheinlichkeitsmasse mehr oder weniger proportional<br />
auf die Elemente der Klasse verteilt werden.<br />
Ein besonderer Vorteil klassenbedingter Wahrscheinlichkeiten ist nicht<br />
nur die Möglichkeit der robusten n-Gramm-Schätzung, sondern vor allem<br />
auch die Möglichkeit, auf einfachste Weise neue Wörter ins Sprachmodell<br />
einzufügen, ohne dieses erneut berechnen zu müssen. So kann<br />
ein Nachrichtensprachmodell über Jahre hinweg unverändert bleiben,<br />
wenn nur die Klassen , , ,<br />
und so weiter regelmäßig mit den neuesten Klassenelementen<br />
aktualisiert werden.<br />
16.6.4 Spezielle Sprachmodelle<br />
Im folgenden werden einige besondere Arten der Sprachmodellierung vorgestellt.<br />
Sie bilden nur einen kleinen Ausschnitt aus einer sehr großen Menge<br />
von Möglichkeiten zur Berechnung von Wortfolgewahrscheinlichkeiten.<br />
HMM-basierte Modellwahl<br />
Schon beim Diktieren eines Briefes, aber vielmehr noch bei <strong>Mensch</strong>-<br />
<strong>Maschine</strong>- und erst recht bei <strong>Mensch</strong>-<strong>Mensch</strong>-Dialogen gibt es deutlich<br />
erkennbare <strong>Kommunikation</strong>sstrukturen, die sich über die Zeit ändern. So<br />
bestehen Briefe typischerweise aus Adreßangaben, Anrede, Text und Gruß.<br />
Ein Dialog zwischen <strong>Mensch</strong>en könnte aus Begrüßung, Smalltalk, Abschied
16.6 Verschiedene weitere Sprachmodelle 277<br />
bestehen. Abb. 16.3 zeigt ein Beispielmodell für ein Terminvereinbarungsgespräch.<br />
Je nach Zweck der <strong>Kommunikation</strong> kann die Struktur beliebig<br />
gestaltet und verfeinert werden. Der Gedanke, diese Struktur in Form eines<br />
Markov-Modells darzustellen liegt nahe. Ein Zustand des Modells entspricht<br />
dann einem Zustand der <strong>Kommunikation</strong>. Nicht alle Zustandsfolgen sind<br />
gleich wahrscheinlich, so daß die Übergänge zwischen den Markov-Zuständen<br />
mit den dazugehörigen Wahrscheinlichkeiten den Wechseln der <strong>Kommunikation</strong>szustände<br />
entsprechen.<br />
Ähnlich wie in der Akustik, so läßt sich bei der Modellierung eines<br />
<strong>Kommunikation</strong>sprozesses nicht jede Äußerung eindeutig einem bestimmten<br />
Zustand zuordnen. So wie bei einem akustischen HMM ein Zustand<br />
eine akustische Beobachtung emittiert, so kann man sagen, daß ein<br />
<strong>Kommunikation</strong>sstruktur-HMM eine Äußerung emittiert. Als Emissionswahrscheinlichkeiten<br />
dienen die Wortfolgewahrscheinlichkeiten der jetzt<br />
zustandsabhängigen Sprachmodelle. Jeder <strong>Kommunikation</strong>szustand hat<br />
ein eigenes Sprachmodell, das auf die Art der <strong>Kommunikation</strong> in diesem<br />
Zustand spezialisiert ist und diese somit besser modelliert als ein allgemeines<br />
Sprachmodell. In Abb. 16.3 berechnet das Modell B für die Wortfolge W die<br />
Wahrscheinlichkeit P B (W), die bei korrektem Modell höher ist als P S (W),<br />
wenn W eine Begrüßungsfloskel ist.<br />
P B (W)<br />
Begrüßung<br />
P T (W)<br />
Terminverhandlung<br />
Smalltalk<br />
P S (W)<br />
Abb. 16.3. Sprachmodellauswahl mit einem HMM<br />
Verabschiedung<br />
P V (W)<br />
Ein derartiges <strong>Kommunikation</strong>s-HMM kann benutzt werden, um<br />
komplette Dialoge oder komplexe <strong>Kommunikation</strong>en zu erkennen. Die Wahrscheinlichkeit<br />
einer Wortfolge wird dann dynamisch berechnet und hängt<br />
vom aktuellen Zustand ab. Das Durchlaufen der <strong>Kommunikation</strong>szustände<br />
geschieht mit Hilfe der gleichen Algorithmen wie bisher für die Spracher-
278 16. Verwendung von Sprachmodellen<br />
kennung kennengelernt. In einem Experiment [?] konnte die Leistung des<br />
Erkenners unter Verwendung eines <strong>Kommunikation</strong>sstruktur-HMMs etwas<br />
verbessert werden.<br />
Verzahnte Sprachmodelle<br />
Betrachten wir den Satz: ” Der Leiter dieser Abteilung sagte, sie würden<br />
expandieren.“ Die Wörter in diesem Satz haben unterschiedliche Wichtigkeit<br />
für die Bedeutung. In der Linguistik unterscheidet man oft zwischen<br />
bedeutungstragenden (content words) und nicht-bedeutungstragenden<br />
(non-content words) Wörtern. Die nicht-bedeutungstragenden werden oft<br />
auch Funktionswörter (function words) genannt. In diesem Beispiel wären<br />
die bedeutungstragenden Wörter ” Leiter, Abteilung, sagte, expandieren“.<br />
Man kann leicht nur anhand dieser Wörter den kompletten Sinn des Satzes<br />
rekonstruieren. Aus den Funktionswörtern ” Der, dieser, sie, würden“ kann<br />
kein Sinn extrahiert werden. Ganz grob kann man sagen, daß die bedeutungstragenden<br />
Wörter Teile der semantischen und pragmatischen Information<br />
des Satzes enthalten und die Funktionswörter eher Teile der Semantik und<br />
die Syntax beinhalten. Wörter wie Leiter, Abteilung und expandieren sind<br />
typisch für wirtschaftliche Texte. Die Erwartung des Wortes ” expandieren“<br />
ist viel mehr von den Wörtern ” Leiter“ und ” Abteilung“ getragen als von<br />
den unmittelbar davor stehenden wenig sagenden ” sie würden“.<br />
Auf dieser Erkenntnis baut die Idee der verzahnten Sprachmodelle von<br />
[?] auf. Sie verwenden getrennte Modelle für bedeutungstragende und Funktionswörter.<br />
So wird die Wahrscheinlichkeit für ein bedeutungstragendes<br />
Wort von den Identitäten der zuvor gesprochenen bedeutungstragenden<br />
Wörter gemacht. Der Vorteil dieses Vorgehens hängt von der verwendeten<br />
Sprache ab. In der deutschen Sprache sind starke Bindungen zwischen<br />
Funktionswörtern und bedeutungstragenden allein schon durch die oft<br />
gemeinsame Flexionsform gegeben. Ein ignorieren dieser führt zu Nachteilen.<br />
Solche Nachteile gibt es im Englischen mangels Flexion weniger. Im<br />
Japanischen wird überhaupt nicht flektiert, statt dessen werden Relationen,<br />
Zeiten, Mengen etc. durch spezielle Partikelwörter ausgedrückt. Gerade dort<br />
funktionieren verzahnte Modelle besonders gut.<br />
Reguläre und Kontextfreie Grammatiken<br />
Ein einfaches Bigramm Sprachmodell läßt sich leicht mit Hilfe eines<br />
Zustandsandsautomaten wie in Abb. 15.10 darstellen. Aus der Sicht des
16.6 Verschiedene weitere Sprachmodelle 279<br />
Sprachmodells kann von der HMM-Struktur innerhalb der Wörter abstrahiert<br />
werden, so daß ein Automat mit n Zuständen (einer für jedes<br />
Wort) entsteht. Es gibt keine Ausgezeichneten Start- und Finalzustände,<br />
jeder Zustand kann diese Rolle übernehmen. Ein Trigramm Sprachmodell<br />
würde einen erheblich komplizierteren Automaten ergeben, der statt n<br />
Zuständen n 2 hätte. Bedenkt man aber, daß nicht alle Wortfolgen explizit<br />
modelliert werden müssen, dann wäre es grundsätzlich möglich auch wesentlich<br />
kompliziertere Grammatiken als Bigramme und Trigramme in einem<br />
Zustandsautomaten zu kodieren.<br />
Einige Forscher [?] gehen dazu über, das Sprachmodell und die Wort-<br />
HMMs zusammen in einen einzigen großen Automaten zu stecken, der<br />
dann sowohl große oder komplizierte Wortkontexte als auch die akustische<br />
Modellierung der Wörter inklusive varianter Aussprachen berücksichtigt.<br />
Nach einer Umwandlung in einen deterministischen Automaten und einer<br />
anschließenden Minimierung desselben entsteht ein Automat (Transduktor<br />
mit gewichteten Übergängen, engl. weighted finte state transducer WFST),<br />
der mit einer Viterbi-Suche durchlaufen werden kann.<br />
Endliche Automaten entsprechen an sich regulären Grammatiken, können<br />
also nicht beliebige kontextfreie akzeptieren. Die menschliche Sprach selbst<br />
läßt sich nicht einmal mit kontextsensitiven Grammatiken beschreiben, und<br />
schon gar nicht mit kontextfreien. Demnach stellen endliche Automaten einen<br />
sehr schlechten Mechanismus zur Modellierung der natürlichen Sprache dar.<br />
In der Praxis läßt sich aber oft relativ viel mit Hilfe einfacher Automaten<br />
ausdrücken. Insbesondere für kommandoorientierte Benutzerschnittstellen<br />
bieten sich Netzwerke wie in Abb. 16.4 an.<br />
Achtung<br />
Abb. 16.4. Automat<br />
ǫ<br />
ǫ<br />
Roboter<br />
bring<br />
hole<br />
besorge<br />
ǫ<br />
ǫ<br />
ǫ<br />
mir<br />
drei<br />
zwei<br />
kleine<br />
kleine<br />
große<br />
große<br />
ǫ<br />
ǫ<br />
Tassen<br />
Solche Netzwerke lassen sich sehr einfach in HMM-artige Automaten<br />
wandeln, mit denen dann die Hypothesensuche durchgeführt wird. Sie sind
280 16. Verwendung von Sprachmodellen<br />
außerdem relativ einfach für den Betrachter verständlich. Etwas mächtiger<br />
sind kontextfreie Grammatiken (CFGs). Mit ihnen ließe sich der Automat<br />
aus Abb. 16.4 beschreiben als:<br />
::= | <br />
::= <br />
::= Achtung | ǫ<br />
::= Roboter | ǫ<br />
::= mir <br />
::= hole | bring | besorge<br />
::= Tassen<br />
::= zwei | drei<br />
::= große | kleine<br />
Auch solche kontextfreien Grammatiken (insbesondere in Backus-Naur<br />
Form, BNF) sind für den Spracherkennungslaien gut lesbar. Verwendet<br />
man nur einfache Regeln, so lassen sich derartige Grammatiken automatisch<br />
in HMM-Suchnetzwerke umwandeln. Der große Vorteil gegenüber<br />
der Verwendung von n-Grammen besteht in dem Verzicht auf Trainingsdaten.<br />
Heutige Spracherkenner sind noch weit weg von der Idealvorstellung, auf<br />
jeder Erkennungsaufgabe, unabhängig von der <strong>Kommunikation</strong>sart und den<br />
<strong>Kommunikation</strong>szielen gleich gut zu funktionieren. Die zu verwendenden<br />
Vokabulare und Sprachmodelle sind einfach zu verschieden. Wenn ein<br />
Spracherkennungssystem für eine neue Aufgabe entwickelt werden soll,<br />
z.B. zum Steuern eines Rasenmäherroboters, dann liegen meist keine oder<br />
zumindest keine ausreichenden Textdatenmengen vor, mit denen man für<br />
die Aufgabe spezifische n-Gramme schätzen könnte. Eine Person, die die<br />
<strong>Kommunikation</strong>sschnittstelle zwischen dem <strong>Mensch</strong>en und dem Sprache<br />
erkennenden System beschreiben kann, hat in der Regel keine Probleme,<br />
diese Schnittstelle, das heißt insbesondere die erlaubten beziehungsweise<br />
erwarteten Wortfolgen in Form einer CFG in BNF darzustellen. Mit einem<br />
Text-To-Speech System können dann noch gegebenenfalls zu neuen Wörter<br />
in dieser Darstellung Aussprachen generiert werden, und der Erkenner ist<br />
damit sehr schnell einsatzbereit.<br />
Außer dem ” rapid prototyping“ haben endliche Automaten weitere<br />
Vorteile. Sie sind leicht modularisierbar. Es ist möglich, für Teilaufgaben<br />
Teilgrammatiken zu generieren und das Gesamtsystem aus den Teilen<br />
zusammenzusetzen. Grundsätzlich lassen sich die Regeln einer Grammatik<br />
beziehungsweise die Gewichte der Zustandsübergänge der Automaten auch<br />
mit Wahrscheinlichkeiten versehen und sogar mit denen von allgemeinen<br />
n-Grammen interpolieren. Ein Nachteil von Automaten ist die relativ feste
16.6 Verschiedene weitere Sprachmodelle 281<br />
Struktur, die sich während des Erkennungsprozesses nur sehr schwer ändern<br />
läßt. Dynamisch berechnete Übergänge und deren Wahrscheinlichkeiten<br />
(wie zum Beispiel bei Trigger-Modellen) sind hier nur sehr schwer zu<br />
implementieren.<br />
16.6.5 Gewichtung von Akustik und Linguistik<br />
Beim Betrachten der Fundamentalformel der Spracherkennung (14.2) fällt<br />
auf, daß in dieser das akustische Modell mit p(X|W) als Faktor einen Dichtewert<br />
und das Sprachmodell mit P(W) eine echte Wahrscheinlichkeit als Faktor<br />
beiträgt. Rein mathematisch ist dies nicht weiter problematisch, allerdings<br />
kann es je nachdem, auf welche Art die Emissionswahrscheinlichkeiten berechnet<br />
werden, dazu führen, daß für zwei verschiedene Hypothesen W1 und<br />
W2 der Unterschied der beiden akustischen Beiträge |p(X|W1) − p(X|W2)|<br />
um viele Größenordnungen größer sein kann als der Unterschied der beiden<br />
Sprachmodellbeiträge |P(W1)−P(W2)|. Dies kann dazu führen, daß der Einfluß<br />
des Sprachmodells auf den Erkennungsvorgang zu gering ausfällt. Daher<br />
wird in der Praxis das Produkt von akustischem Modell und Sprachmodell<br />
mit Hilfe eines Exponenten z über dem Sprachmodell gewichtet. Außerdem<br />
wird der Nichtberücksichtigung der A-priori-Wahrscheinlichkeit für die Länge<br />
einer Hypothese P(|W| = n) ein zuzsätzlicher Faktor q n in die Formel aufgenommen:<br />
ˆW = argmaxP(X|W)<br />
· P(W)<br />
W<br />
z · q |W|<br />
(16.25)<br />
Wenn - wie bei fast allen Spracherkennern üblich - die Wahrscheinlickeiten<br />
und Dichten im logarithmischen Raum betrachtet werden ergibt sich somit:<br />
ˆW = argmax(log<br />
P(X|W) + log P(W) · z + q · |W|) (16.26)<br />
W<br />
In dieser Darstellung ist leicht zu sehen, wie ein größerer Wert für z<br />
den Einfluß des Sprachmodells erhöht. Mit einer passenden Wahl von q läßt<br />
sich der Erkenner dahingehend beinflussen, mehr oder weniger Wörter in<br />
den Hypothesen unterzubringen. Die optimale Einstellung von z und q wird<br />
in der Regel anhand einer Kreuzvalidierungsmenge bestimmt, indem die<br />
Fehlerrate des Erkenners auf dieser Menge für verschiedene Kombinationen<br />
der z und q gemessen wird und schließlich die Kombination mit den besten<br />
Resultaten weiterverwendet wird.<br />
In [?] wid ein Verfahren vorgestellt, wie mit Hilfe eines Multi-Layer-<br />
Perzeptrons bei Kenntnis verschiedener Eigenschaften des Signals und einer<br />
tentativen Hypothese die für jede Aufnahme individuell optimierten Einstellung<br />
von z und q berechnet werden können. Mit einer derartigen individuellen<br />
Einstellung kann in vielen Fällen die durchschnittliche Fehlerrate etwas
282 16. Verwendung von Sprachmodellen<br />
gesenkt werden, auf jeden Fall jedoch kann auf den Aufwand des ” Ausprobierens“<br />
und Auswertens verschiedener Kombinationen auf der Kreuzvalidierungsmenge<br />
verzichtet werden.<br />
16.7 Adaption von Sprachmodellen<br />
Im Prinzip kann man Cache Sprachmodelle als sich ständig adaptierende<br />
Sprachmodelle bezeichnen. Auch Trigger-Modelle enthalten eine Art<br />
Adaptionskomponente. Grundsätzlich läßt sich ein Sprachmodell aber<br />
auch mit Daten adaptieren, die nicht direkt aus den Erkennerhypothesen<br />
kommen. Im folgenden wollen wir zwei Vorgehensweisen dazu vorstellen,<br />
die hypothesenbasierte Auswahl zuvor berechneter Modelle bzw. deren<br />
Interpolationsfaktoren, und die HDLA Methode (hypothesis driven lexicon<br />
adaptation) [?].<br />
16.7.1 Auswahl vorberechneter Modelle<br />
Wie gut ein Text zu einer Menge von Hypothesen paßt, läßt sich auf verschiedene<br />
Arten bestimmen. Zu den geeignetsten gehören wohl das Messen<br />
der Perplexität, die die Hypothesen als Testset auf einem auf dem Text<br />
geschätzten Sprachmodell haben, und das Berechnen einer tfidf-basierten<br />
Dokumentendistanz, bei der der Text und die Hypothesen als zwei verschiedene<br />
Dokumente betrachtet werden.<br />
Die Aufgabe der Themenbasierten Adaption eines Sprachmodells durch<br />
Auswahl vorbereiteter Sprachmodelle kann wie folgt definiert werden.<br />
gegeben: n Dokumente D1, D2, . . . Dn, ein Vokabular V = {w1, w2, . . .wk}<br />
und eine erkannte Wortfolge H = h1, h2, . . . hm<br />
gesucht: j so, daß das auf Dj trainierte (oder damit interpolierte)<br />
Sprachmodelle die Wortfolge H am besten modelliert<br />
Unter der Voraussetzung, daß die Dokumente sehr groß sind und so<br />
sinnvolle Sprachmodelle darauf trainiert werden können, bietet es sich in<br />
der Tat an, die Testset-Perplexität dieser Sprachmodelle auf der Testmenge<br />
H zu messen. Die meist stabilere Alternative ist die Bestimmung einer<br />
tfidf-Distanz. Das tfidf-Maß bestimmt die Wichtigkeit eines Wortes w für<br />
ein Dokument Di. Sie ist das Produkt der Faktoren tf (term frequency) und<br />
idf (inverse document frequency):
tf(w, Di) =<br />
#w in Di<br />
|Di|<br />
16.7 Adaption von Sprachmodellen 283<br />
(16.27)<br />
Der Wert tf(w, Di) ist also die Anzahl der Vorkommen von w im<br />
Dokument Di dividiert durch die Größe von Di.<br />
n<br />
idf(w) = log(<br />
) (16.28)<br />
#Dj mit Dj enthält w<br />
Ist w ein Artikel, der in nahezu jedem Dokument sehr oft vorkommt,<br />
dann ist zwar tf(w, Di) relativ groß – zumindest größer als für die meisten<br />
anderen Wörter – aber idf(w) ist nahezu null, da #Dj mit Dj enthält ≈ n.<br />
Somit ist tfidf(w, Di) = tf(w, Di) · idf(w) ≈ 0. Wörter, die in sehr wenigen<br />
Dokumenten vorkommen haben einen relativ hohen idf-Wert.<br />
Bei einem vorgegebenen Vokabular V läßt sich ein Dokument H thematisch<br />
durch einen k-dimensionale Vektor T(H) beschreiben:<br />
T(H) = (tfidf(w1, H), tfidf(w2, H), . . . tfidf(wk, H)) (16.29)<br />
Die tfidf-Distanz zweier Dokumente H1 und H2 läßt sich nun durch<br />
Vergleich von T(H1) und T(H2). Hier kann im einfachsten Fall (für<br />
kleine Vokabulare und große Dokumentemengen) eine Euklidische Distanz<br />
verwendet werden, und für stabilere Resultate einen Korrelationsabstand wie<br />
j=1<br />
k<br />
(tfidf(wj, H1) · tfidf(wj, H2))<br />
j=1<br />
δ(H1, H2) = 1 − <br />
⎛<br />
k <br />
⎝<br />
tfidf 2 ⎞ ⎛<br />
k<br />
(wj, H1) ⎠ ⎝ tfidf 2 ⎞ (16.30)<br />
(wj, H2) ⎠<br />
In Gl. 16.30 ist δ(H1, H2) = 0 wenn H1 = H2, und δ(H1, H2) = 1, wenn<br />
die Menge der Wörter in H1 und die Menger der Wörter in H2 disjunkt<br />
sind. Aus mathematischer Sicht gilt auch: 1 − δ(H1, H2) ist der Cosinus<br />
des Winkels zwischen den Vektoren T(H1) und T(H2) im R k . Aus dem<br />
Bereich des Information-Retrieval und Data-Mining sind zahlreiche weitere<br />
vergleichbare Distanz- und Ähnlichkeitsmaße bekannt.<br />
Die Adaption eines Standard Sprachmodells λ S auf das aktuelle Thema<br />
kann nun wie folgt durchgeführt werden. Die beste verfügbare Beschreibung<br />
j=1
284 16. Verwendung von Sprachmodellen<br />
des aktuellen Themas ist die Erkennerhypothese (beziehungsweise die Konkatenation<br />
der letzen Hypothesen) H. Diese kann als Dokument betrachtet<br />
werden, und zu jedem Dokument Di mit vorberechnetem Sprachmodell<br />
kann δ(H, Di) berechnet werden. Im einfachsten Fall wird ein konkretes<br />
Dokument Dj = argmin Dl δ(H, Dl) ausgewählt, und als adaptiertes Model<br />
λ A = λ(Dl) beziehungsweise eine Interpolation von λ S mit λ(Dl) verwendet.<br />
Eine feinere Adaption läßt sich durchführen, indem λ S mit allen vorberechneten<br />
Sprachmodellen interpoliert wird:<br />
λ A = α · λ S + β ·<br />
n<br />
(1 − δ(H, Di)) · λ(Di) (16.31)<br />
i=1<br />
Die Faktoren α und β müssen experimentell bestimmt werden und<br />
addieren sich normalerweise nicht zu 1. Welche Werte sinnvoll sind, hängt<br />
von der Anzahl und Größe der Dokumente Di ab.<br />
Grundsätzlich ist es auch möglich, die Dokumente mit ihren themenspezifischen<br />
Sprachmodellen nicht im voraus bereitzuhalten. Statt dessen<br />
können zu Laufzeit des Erkenners Dokumente aus dem World-Wide-Web<br />
besorgt und ausgewertet werden. Mit Hilfe von Internet-Suchmaschinen<br />
lassen sich so zu den Erkennerhypothesen passende Dokumente finden,<br />
darauf Sprachmodelle berechnen und der Erkenner so adaptieren.<br />
In Experimenten [?] konnte durch Adaption des Sprachmodells an<br />
das aktuelle Thema die Perplexität des Sprachmodells um ca. 15% und<br />
Fehlerrate des Erkenners ein wenig gesenkt werden.<br />
16.7.2 Hypothesis driven lexicon adaptation<br />
Oft wird mit dem Begriff ” Sprachmodell“ nur der Teil eines Spracherkenners<br />
bezeichnet, der die Wahrscheinlichkeit von Wortfolgen berechnet. Prinzipiell<br />
gehört aber auch die Definition des Vokabulars dazu. Die größten Probleme<br />
mit dem Vokabular haben Erkenner für stark flektierende Sprachen. Dazu<br />
gehört auch die Deutsche Sprache. Selbst wenn wir alle ca. 1,6 Millionen<br />
verschiedene Vokabularwörter, die im Laufe eines Jahres in der Süddeutschen<br />
Zeitung stehen, betrachten, so werden darunter für die meisten Wörter<br />
nicht alle Flexionsformen sein. Womöglich kommt das Wort ” lichten“ vor,<br />
vielleicht sogar ” gelichtet“ aber dann fehlt vielleicht ” gelichteter“. Neue<br />
Formen können aber auch durch andere Vorsilben entstehen: ” ungelichteter“.<br />
Wird jede Buchstabenfolge zwischen zwei Leer- oder Satzzeichen als Wort<br />
betrachtet, dann ist im Deutschen aussichtslos, so viele Wörter ins Vokabular
16.7 Adaption von Sprachmodellen 285<br />
aufzunehmen, daß das Fehlen bestimmter Wortformen vernachlässigt werden<br />
könnte.<br />
Eine in verschiedenen Varianten von vielen Spracherkennungssystemen<br />
benutztes Verfahren ist die so genannte hypothesis driven lexicon adaptation,<br />
HDLA [?]. Die Idee dabei ist, ähnlich wie bei der Sprachmodelladaption<br />
an ein Thema, die Erkennerhypothese zu verwenden, um zusätzliche Informationen<br />
zu besorgen. Das Ziel der HDLA ist es, immer ein Vokabular zu<br />
verwenden, das möglichst wenige der zu erkennenden Wörter nicht enthält,<br />
das heißt, der Anteil der Nichtvokabularwörter (engl. out of vocabulary words,<br />
OOV-words) im Gesprochenen möglichst gering zu halten. Die zusätzlichen<br />
Informationen können zum Beispiel aus einem Hintergrundlexikon entnommen<br />
werden, das so groß ist, daß der Spracherkenner es nicht als ganzes<br />
komplett verwenden kann. Sie kann aber auch zur Laufzeit aus dem Internet<br />
besorgt werden. Der HDLA-Algorithmus kann grob wie folgt skizziert werden:<br />
1. erkenne mit nicht adaptiertem Lexikon und erhalte Hypothese<br />
(oder Hypothesenliste) H<br />
2. verwende alle Wörter in H,<br />
um ähnliche Wörter W aus Hintergrundwissen zu besorgen<br />
3. entferne einige der seltensten Wörter aus dem Lexikon<br />
und ersetze sie durch die Wörter in W<br />
4. wiederhole die Erkennung mit dem adaptierten Lexikon<br />
und erhalte Hypothese H ′<br />
Die Erwartung, daß H ′ weniger Fehler enthält als H stützt sich auf die<br />
Annahme, daß die aus dem Lexikon entfernten Wörter bei der Erkennung<br />
keine Rolle spielen (Wörter aus H werden selbstverständlich nicht entfernt),<br />
und daß die hinzugenommenen Wörter möglicherweise bestimmte Wortformen<br />
von Wörtern aus H enthalten, die zunächst falsch erkannt wurden.<br />
Beispielsweise könnte das Wort ” Spracherkenner“ an der Stelle, an der der<br />
Sprecher ” Spracherkenners“ gesagt hatte, erkannt worden sein, weil es von<br />
allen Wörtern im Vokabular dem Gesagten am nächsten kommt. Durch die<br />
Adaption, wäre ” Spracherkenners“ ins Vokabular aufgenommen worden und<br />
könnte dann korrekt erkannt werden.<br />
In [?] werden verschiedene Ähnlichkeitsmaße zwischen Wörtern getestet<br />
um im Schritt 2 zu entscheiden, welche Wörter in Vokabular aufgenommen<br />
werden sollten. Als ähnlich werden nicht nur Wörter betrachtet, die verschiedene<br />
Formen desselben Wortstammes sind, sondern auch solche, die einfach
286 16. Verwendung von Sprachmodellen<br />
eine ähnliche Orthographie oder phonetische Umschrift haben. Darüber<br />
hinaus werden thematisch ähnlich Wörter auch betrachtet. [?] konnte durch<br />
den Einsatz von HDLA die Fehlerraten von Spracherkennern um 25% bis<br />
29% verbessern.<br />
16.7.3 Kompositabildung<br />
Im Deutschen sowie in einigen anderen Sprachen gibt es wesentlich mehr als<br />
im Englischen Probleme mit der Bildung von Komposita. Zwar können auch<br />
Komposita-Verben (zurückhalten, nachdenken) und Komposita-Adjektive<br />
(blaugrün, kleinkariert) gebildet werden, der weitaus größte Teil sind aber<br />
Komposita-Substantive. Betrachtet man die ca. 1.6 Millionen verschiedene<br />
Wörter, die im Laufe eines Jahres in einer deutschen Tageszeitung vorkommen<br />
und untersucht diejenigen, die nicht zu den häufigsten ca. 100 000<br />
gehören, so fallen darunter drei Gruppen auf: seltene Flexionsformen,<br />
Eigennamen und Komposita. Es ist relativ einfach möglich, einen Großteil<br />
der Komposita in ihre Komponenten zu zerlegen. Dazu genügt es, zu<br />
untersuchen, ob sie sich aus kürzeren Wörtern zusammensetzen lassen. Auf<br />
diese Art ist es möglich, einfach alle Texte zu zerlegen, so daß nur noch<br />
sehr wenige Komposita vorkommen. Die Menge der verschiedenen Wörter<br />
in einem zerlegten Text kann so dramatisch verkleinert werden, was dem<br />
Vokabular und der Qualität des dann berechneten Sprachmodells zugute<br />
kommt.<br />
Bei der Zerlegung ist es wichtig, einige Heuristiken anzuwenden. Die<br />
wichtigste ist, daß keine zu kleinen Komponenten betrachtet werden.<br />
Wörter mit nur drei oder weniger Buchstaben erzeugen Probleme, weil<br />
viele ” normale“ Wörter, die eigentliche keine Komposita sind sich aus ihnen<br />
zusammensetzen lassen (zum Beispiel: Bei-Spiel, ab-er, An-Ton, Stand-Art<br />
usw.). So erweist sich die Auftrennung in Wörter von mindestens vier<br />
Buchstaben als guter Kompromiß. Es entstehen dann immer noch einige<br />
falsche Zerlegungen (zum Beispiel Verein-Barte). Von diesen können aber<br />
häufigsten manuell korrigiert werden, und die seltenen fallen kaum ins<br />
Gewicht.<br />
Ein Erkenner, der nur einzelne Wörter erkennt, produziert dann Hypothesen<br />
der Art ” Der Staats Sekretär sagte ...“. Für einen deutschen<br />
Muttersprachler ist diese Getrenntschreibung (selbst nach der in dieser<br />
Beziehung sehr toleranten neuen Rechtschreibung) sofort als unkorrekt zu<br />
erkennen. Es ist daher wünschenswert, daß eine Instanz des Erkenners solche<br />
Wörter zusammenfügt, so daß ” Der Staatssekretär sagte ...“ als Hypothese<br />
heraus kommt. An der verbreiteten Diskussion zur neuen deutschen Rechtschreibung<br />
ist zu erkennen, daß in vielen Fällen selbst Muttersprachler
16.7 Adaption von Sprachmodellen 287<br />
Schwierigkeiten damit haben, zu entscheiden, ob zwei aufeinanderfolgende<br />
Wörter zusammen oder getrennt oder gar mit Bindestrich geschrieben<br />
werden sollten. Spracherkenner machen dabei relativ viele Fehler. In [?] wird<br />
festgestellt, daß unter den Fehlern, die ein Diktiererkenner auf deutschen<br />
Nachrichtentexten Produziert, ca. 16% aller Fehler falsche Komposita sind.<br />
Genauer gesagt, der Erkenner hat es versäumt zwei getrennt erkannte<br />
Komponenten zu einem Kompositum zusammenzufügen.<br />
Die erste Idee, das Problem anzugehen wird in [?] vorgestellt. Dabei<br />
werden alle Zerlegungen, die beim Aufbereiten der Texte durchgeführt<br />
wurden abgespeichert. Für jedes Wortpaar wird geprüft, ob es sich aus<br />
zwei Komponenten zusammensetzen läßt, von denen die erste einmal das<br />
Vorderteil und die zweite einmal das Hinterteil eines Kompositums war.<br />
Wenn ja, wird aus dem Wortpaar ein einzelnes Wort gemacht. Würde<br />
dabei verlangt werden, daß auch das entstehende Kompositum schon einmal<br />
als ganzes im Trainingstext aufgetaucht war, würde man ja gerade den<br />
Vorteil der Zerlegung entgegenwirken. Häufig vorkommende Komposita wie<br />
” Bundeskanzler“ werden in der Regel gar nicht erst zerlegt, weil sie ohnehin<br />
unter den häufigsten 100 000 Wörtern vorkommen. Eine Komposition von<br />
Wörtern in der Erkennerhypothese ist damit im wesentlichen nur für die<br />
seltenen Wörter wichtig, deren Auftrittswahrscheinlichkeit in irgendwelchen<br />
Textdaten nahe null ist. In [?] wird berichtet, daß die Anwendung<br />
der einfachen Regel ” wi war mal Vorne-Komponente und wi+1 war mal<br />
Hinten-Komponente, dann füge wi und wi+1 zusammen“ nicht hilfreich<br />
ist, im Gegenteil, die Wortfehlerrate steigt sogar an, weil nicht nur viele<br />
Zusammenfügungen unterlassen werden sondern vor allem weil zu viele<br />
falsche Zusammenfügungen gemacht werden.<br />
Ein verfeinertes Kompositabildungsverfahren wird in [?] vorgestellt. Dabei<br />
werden vor einer Prüfung ob wi eine Vorne-Komponente und wi+1 eine<br />
Hinten-Komponente ist, noch einige Heuristiken angewendet. Der Algorithmus<br />
ist eher dadurch motiviert, festzustellen, welche Substantiv-Paare nicht<br />
kombiniert werden sollten. Abb. 16.5 skizziert den Entscheidungsalgorithmus.<br />
Dabei wird zunächst geprüft, ob eines der Wörter ein Eigenname ist<br />
(vergleich mit den häufigsten Eigennamen aus einem Telefonbuch). In den<br />
seltensten Fällen ist eine Komponente eines Kompositums ein häufiger Eigenname.<br />
Wenn kein Eigenname dabei ist, wird geprüft, ob zwei aufeinanderfolgende<br />
Substantive zu einer Aufzählung gehören ( ” Substantiv1 Substantiv2<br />
und/oder Substantiv3“). Zwar würden mit dieser Regel Hypothesen wie ” Die<br />
Staats Sekretäre und Minister sagten ...“ fälschlicherweise als Aufzählung erkannt<br />
werden, aber in der Praxis überwiegen die Fälle, in denen Substantive<br />
nicht zusammengesetzt werden sollten, wenn sie in Aufzählungen auftauchen.<br />
Sind die Substantive mit Adjektiven oder Artikel davor versehen greift die<br />
Regel nicht oder sie müßte erheblich komplizierter implementiert werden.
288 16. Verwendung von Sprachmodellen<br />
Wortpaar ” A B“<br />
Name?<br />
Aufzählung?<br />
zu lang?<br />
nein<br />
nein<br />
ja<br />
ja<br />
ja<br />
nein<br />
Abkürzung?<br />
ja<br />
v-Komponente?<br />
nein<br />
+ v-Komponente<br />
h-Komponente ?<br />
ja<br />
nein<br />
zusammen schreiben: ” AB“<br />
ja<br />
getrennt lassen: ” A B“<br />
nein<br />
mit Bindestrich: ” A-B“<br />
Abb. 16.5. Entscheidungsalgorithmus zur Kompositabildung<br />
Aber auch hierfür stellt sich heraus, daß solche Fälle in der Praxis nur eine<br />
unwesentliche Rolle spielen. Im nächsten Schritt des Entscheidungsverfahrens<br />
werden Komponenten, die selbst schon sehr lang sind und erst recht<br />
Komposita, die sehr lange wären als getrennt zu schreiben erkannt. Man<br />
kann leicht empirisch feststellen, daß in Zeitungstexten ab einer bestimmten<br />
Anzahl von Buchstaben kaum noch Komposita gebildet werden. Danach<br />
wird geprüft, ob das erste Wort des Wortpaares eine Abkürzung ist. In den<br />
meisten Fällen werden die Wörter dann mit Bindestrich geschrieben (zum<br />
Beispiel UNO-Mitglied, DAX-Gewinne, usw.). Erst wenn diese Heuristiken<br />
abgearbeitet worden sind, wird nachgesehen, ob wi als Vorne-Komponente<br />
und wi+1 als Hinten-Komponente möglich sind. Nur dann werden sie Zusammengelegt.<br />
Durch diesen Algorithmus zur Nachbearbeitung von Hypothesen<br />
konnten die durch Falsches Zusammenfügen zusätzlich entstehenden<br />
Fehlern minimiert werden und etwa die Hälfte aller Komposita-Fehler des<br />
Spracherkenners korrigiert werden. Mißt man die Wortfehlerrate auf den in<br />
Komponenten zerlegten Zeitungstexten im Vergleich mit den Originaltexten,<br />
so erhält man eine Fehlerrate von ca. 5%. Wird der Algorithmus von [?] auf<br />
die zerlegten Texte angewandt, haben diese danach nur noch eine Fehlerrate<br />
von ca. 1.4%, also eine Reduktion von über 70%.
17. Kontextabhängige akustische Modelle<br />
kontextabhängige akustische Modelle In der Geschichte der Spracherkennung<br />
gab es relativ wenige Meilensteine, von denen man sagen kann, sie haben<br />
die Erkennungsleistung dramatisch verbessert. Einer davon ist der Einsatz<br />
kontextabhängiger akustischer Modelle. Da unser Artikulationsapparat<br />
mechanischen Gesetzen genügen muß, kann er keine Sprünge zwischen<br />
zwei Idealzuständen für zwei aufeinanderfolgende Laute machen. Was bei<br />
Diphthongen offensichtlich ist, gilt im Prinzip für jedes Lautepaar. Das heißt<br />
vor allem, daß die zeitlichen Randgebiete eines Lautes mit den angrenzenden<br />
Lauten verschwimmen, aber auch daß die Ausprägung des gesamten Lautes<br />
von den ihm umgebenden Lauten abhängt. Den ersten großen Durchbruch<br />
auf dem Gebiet erreichte Kai-Fu Lee in seiner Dissertation [?]. Seine<br />
Erfahrungen werden inzwischen in nahezu allen aktuellen Spracherkennern<br />
eingebracht und führen zu etwa einem Drittel weniger Fehlern als bei den<br />
Erkennern, die nur kontextunabhängige Modelle benutzen.<br />
17.1 Suche nach der optimalen Spracheinheit<br />
Bereits im Kap. 14 wurde die Problematik der verschiedenen Einheiten der<br />
Sprache, die ein eigenes Modell erhalten sollen, einführend behandelt. Hier<br />
werden verschiedene in der Praxis verwendete Einheiten gegenübergestellt<br />
und insbesondere darauf eingegangen, wie diese Einheiten gefunden werden.<br />
Tab. 17.1 zeigt, wie das Wort ” Hallo“ mit verschiedenen Spracheinheiten<br />
modelliert werden kann. Diese unterscheiden sich in ihrer zeitlichen und<br />
räumlichen Ausdehnung. Mit der zeitlichen Ausdehnung ist die Dauer<br />
der Einheit in der Sprachaufnahme gemeint, und mit der räumlichen<br />
Ausdehnung der Anteil am Merkmalsraum, der durch die Einheit abgedeckt<br />
wird. Die längste zeitliche Ausdehnung hat eindeutig die Modellierung<br />
mit der Einheit ” Wort“. Damit würde das Wort ” Hallo“ wie in der ersten<br />
Zeile der Tabelle dargestellt mit einer einzigen Einheit modelliert (die im<br />
Beispiel sinnigerweise den Namen Hallo erhalten hat). Welchen Teil des<br />
Merkmalsraum so eine Worteinheit abdeckt hängt natürlich davon ab, wie
290 17. Kontextabhängige akustische Modelle<br />
Einheit Beispiel für Modellfolge<br />
Wort Hallo<br />
Silbe Ha, Lo<br />
(Mono-)Phone H, A, L, O<br />
Links-Diphone H(-), A(H), L(A), O(L)<br />
Rechts-Diphone H(A), A(L), L(O), O(-)<br />
Triphone H(-|A), A(H|L), L(A|0), O(L|-)<br />
Quintphone H(-|A,L), A(-,H|L,O), L(H,A|0,-), O(A,L|-)<br />
Polyphone H(-|A,L,O,-), A(-,H|L,O,-), L(-,H,A|0,-), ...<br />
generalisierte Polyphone H37, A11, L32, O8<br />
Sub-Monophone H-b, H-e, A-b, A-e, L-b, L-e, O-b, O-e<br />
Sub-Triphone H(-|A)-b, H(-|A)-e, A(H|L)-b, A(H|L)-e, ...<br />
Sub-(generalisierte Polyphone) H13-b, H13-e, A45-b, A45-e, L3-b, L3-e, ...<br />
generalisierte Subpolyphone H-b29, H-e3, A-b51, A-e12, L-b14, L-e24, ...<br />
Tabelle 17.1. Modellierung des Wortes ” Hallo“ mit verschiedenen Spracheinheiten<br />
viele Modelle es insgesamt gibt.<br />
Eine geringere Zeitliche Ausdehnung hat die Einheit der Silbe. Damit<br />
sind schon zwei Einheiten nötig, um das Wort Hallo zu modellieren. Der<br />
Vorteil von Silben gegenüber Wörtern ist ganz offensichtlich die Möglichkeit<br />
mit Ihnen Wörter zu formen. Für den deutschen Standard Wortschatz (ohne<br />
Eigennamen und Fremdwörter) genügen gut 10000 Silben. Mit ihnen ließen<br />
sich Millionen von Wörtern zusammenbauen.<br />
Noch flexibler ist man mit einzelnen Phonen – oft auch Monophone<br />
genannt. Mit einem Standard Phonemsatz von typischerweise ca. 50<br />
Phonemen lassen sich im Prinzip alle Wörter einer Sprache modellieren.<br />
Einige Sprachen haben einen etwas größeren Phonemschatz, und machen<br />
kommen auch schon mit nur 30 Phonemen aus. Allerdings halten sich die<br />
meisten Spracherkenner bei der Definition ihres Phonemsatzes nicht an die<br />
phonetisch-linguistische Definition, sondern orientieren sich vielmehr an der<br />
Akustik der Laute. Die zeitliche Ausdehnung der Phoneme ist noch kleiner
als die der Silben.<br />
17.1 Suche nach der optimalen Spracheinheit 291<br />
Die gleiche zeitliche Ausdehnung wie Monophone haben auch Diphone<br />
(oft auch fälschlicherweise Biphone genannt). Allerdings nehmen diese<br />
einen kleineren Bereich des Merkmalsraums ein. Man kann Diphone als<br />
phon-indizierte Monophone betrachten. Sie gehören zu den einfachsten<br />
Kontextabhängigen Modellen. Je nachdem, ob ein Monophon von seinem<br />
linken oder rechten Nachbarn abhängt spricht man von Links- oder Rechts-<br />
Diphonen. Links-Diphone Das Wort ” Hallo“ kann beispielsweise mit 4<br />
Rechts-Diphonen modelliert werden. Das erste davon wäre der H-Laut, aber<br />
nicht der allgemeine, sondern derjenige H-Laut, der von einem A gefolgt<br />
wird. Danach kommt derjenige A-Laut, der von einem L-Laut gefolgt wird,<br />
und so weiter. Alle Diphone X(. . .) eines Monophons X nehmen denselben<br />
Teil des Merkmalsraumes ein wie das Monophon X.<br />
Triphone sind kontextabhängige Phone, die sowohl vom linken als auch<br />
vom rechten Nachbarn abhängen. Auch sie haben die gleiche Zeitliche<br />
Ausdehnung wie Monophone und Diphone, unterteilen den Merkmalsraum<br />
aber in noch kleinere Teile. Lange Zeit gehörten Triphone zu den beliebtesten<br />
Kontextbreiten. Erst Mitte, Ende der neunziger Jahre wurde vermehrt noch<br />
breitere Kontexte Verwendet.<br />
Der Begriff Quintphon sollte eher Pentaphon heißen, allerdings hat sich<br />
im Amerikanischen die lateinisch-griechische Mischform eingebürgert und<br />
wurde meistens auch so im Deutschen verwendet. Je breiter der Kontext<br />
wird, umso eher kommt es vor, daß er bis über das Ende des Wortes hinausreicht.<br />
Modelliert man das Wort ” Hallo“ wie in Tab. 17.1 kommt in jedem<br />
Quintphon ein Kontext, der jenseits des Wortes liegt, vor. Solche Kontexte<br />
bedürfen meist einer besonderen Behandlung. Es wäre nicht korrekt an<br />
diesen Stellen anzunehmen, daß dort der Stille-Laut steht. Korrekterweise<br />
müßte man den an dieser Stelle stehenden Laut des Nachbarwortes oder<br />
gar des übernächsten Wortes betrachten. In der Praxis ist die vollständig<br />
korrekte Implementierung so breiter Kontexte viel zu aufwendig um damit<br />
noch in akzeptabler Zeit HMM-Spracherkennung machen zu können. Daher<br />
werden meistens Einschränkungen in kauf genommen, wie zum Beispiel<br />
die Beschränkung der Nachbarwortabhängigkeit auf das erste oder letzte<br />
Phonem eines Wortes. Und dieses wird dann meist auch nur von dem unmittelbaren<br />
Nachbarn im angrenzenden Wort abhängig gemacht. Natürlich sieht<br />
das Erkennungs-HMM bei Berücksichtigung von Wortübergangskontexten<br />
wesentlich komplizierter.<br />
Mit Polyphonen bezeichnet man Phone mit unbegrenztem Kontext.<br />
Praktisch heißt dies bis an die Wortgrenzen. In diesem Fall entspricht die<br />
Aufteilung des Merkmalsraumes demjenigen, den wir auch haben, wenn
292 17. Kontextabhängige akustische Modelle<br />
wir komplette Wortmodelle verwenden, da auch hier jedes Modell komplett<br />
vom Wort abhängt. Die zeitliche Ausdehnung bleibt aber die gleiche wie bei<br />
Monophonen.<br />
Tab. 17.2 gibt an, welcher Anteil an allen Wall Street Journal Vokabularwörtern<br />
durch die Kontextbreite komplett abgedeckt wird, also mit anderen<br />
Worten, welcher Anteil des Vokabulars so gut wie mit Ganzwortmodellen<br />
modelliert wird. Man sieht, daß eine allzu große Kontextbreite keine nennenswerten<br />
Vorteile mehr erwarten läßt.<br />
Kontextbreite: Mono- Di- Tri- Quint- Septphone<br />
Ganzwortabdeckung: 3% 27% 49% 80% 90%<br />
Tabelle 17.2. Abdeckung des Vokabulars durch Quasi-Ganzwortmodelle<br />
Wenn der Phonemsatz aus 50 Monophonen besteht, dann kann es theoretisch<br />
bis zu 2500 Diphone geben. Das wäre noch handhabbar. Allerdings<br />
ist es illusorisch alle möglichen Polyphone einer Sprache zu modellieren, so<br />
daß in der Praxis ein Zusammenfassung zu generalisierten Polyphonen zu<br />
Polyphonklassen nötig wird. Auch diese habe die zeitliche Ausdehnung von<br />
Monophonen. Aus der Kenntnis der Polyphonklasse läßt sich dann aber<br />
nicht mehr der Kontext selbst ableiten.<br />
Auch wenn Phoneme eine relativ kurze Zeitspanne von 10ms bis 100ms<br />
abdecken, so beobachtet man dennoch oft innerhalb dieser Zeit eine Variation.<br />
Gerade bei Diphthongen und Affrikaten ist es offensichtlich, daß der<br />
Anfang des Lautes nicht auf die gleiche Art wie sein Ende modelliert weden<br />
sollte. Daher verwenden alle erfolgreichen Spracherkenner zeitlich kürzere<br />
Einheiten, wie zum Beispiel die kontextunabhängigen Submonophone. Meist<br />
wird ein Phonem in drei Teile, ein Beginn-, ein Mittel- und ein Endsegment.<br />
Seltener in zwei Teile wie in Tab. 17.1. Dort besteht nun das Wort ” Hallo“<br />
aus acht Einheiten.<br />
Subtriphone sind die Unterteilung von Triphonen in zeitlich kürzere<br />
Einheiten. Subtriphone haben die gleiche zeitliche Ausdehnung wie Submonophone<br />
(bei gleicher Anzahl von Segmenten). Sie bilden aber schon eine<br />
so feine Unterteilung des Merkmalsraumes, daß in der Regel nicht genug<br />
Trainingsdaten zur Verfügung stehen, um jedes Modell zu trainieren.
17.1 Suche nach der optimalen Spracheinheit 293<br />
Zeitliche Untereinheiten lassen sich natürlich auch von generalisierten<br />
Polyphonen bilden. Im Beispiel in Tab. 17.1 wird das Wort ” Hallo“ am<br />
Anfang mit dem in die Klasse 13 generalisierte Version des H-Lautes, H13,<br />
modelliert. H13 selbst wird in mehrere Segmente, hier ein Beginn- (b) und<br />
ein Endsegment (e). Der Unterschied zu generalisierten Subpolyphonen ist<br />
der, daß bei den letzteren zuerst die Unterteilung der Polyphone in Segmente<br />
gemacht wird und dann die Zusammenfassung in Klassen stattfindet.<br />
A(H|U) A(B|P) A(L|N) A(M|M)<br />
b m e<br />
b m e b m e b m e<br />
A(37) A(38)<br />
b m e b m e<br />
Abb. 17.1. Beispiel für generalisierte Triphone<br />
Der Unterschied zwischen der Unterteilung von generalisierten Subtriphonen,<br />
wie sie von Lee [?] eingeführt und verwendet wurden, und generalisierter<br />
Subtriphone, so genannter Senones, wie sie von Hwang [?] entwickelt wurden,<br />
wird in den Abb. 17.1 und 17.2 dargestellt. Die Einheiten, die bei generalisierten<br />
Triphonen zusammengefaßt werden, haben die zeitliche Ausdehnung eines<br />
Monophons. Damit ist sowohl die Menge der zusammenfaßbaren Modelle als<br />
auch die Freiheit des Ballungsalgorithmus kleiner als bei den Senones.<br />
A(H|U) A(B|P) A(L|N) A(M|M)<br />
b m e<br />
b m e b m e b m e<br />
A-b(17) A-m(13) A-e(22) A-b(3) A-m(11) A-e(4)<br />
Abb. 17.2. Beispiel für Senones
294 17. Kontextabhängige akustische Modelle<br />
Die Problematik mit Modellen unterschiedlicher zeitlicher und räumlicher<br />
Ausdehnung ist eine in der Mustererkennung immer wiederkehrende. Die bei<br />
der Gestaltung des Parameterraumes eines Erkenners zu berücksichtigenden<br />
Kriterien, die Vor- und Nachteile unterschiedlich ausgedehnter Modelle sind<br />
in Tab. 17.3 17.4 zusammengefaßt.<br />
Vorteile Nachteile<br />
kurz hohe Flexibilität wenig Evidenz im Sprachsignal<br />
⇒ vokabularunabhängig ⇒ hohe Verwechselbarkeit<br />
lang geringe Verwechselbarkeit wenig Trainingsdaten pro Einheit<br />
Tabelle 17.3. Vor- und Nachteile unterschiedlicher zeitlicher Modellausdehnung<br />
Vorteile Nachteile<br />
spezifisch gute diskriminative wenig Trainingsdaten<br />
Fähigkeiten pro Einheit<br />
generell robust trainierbar schlechte diskriminative<br />
Fähigkeiten<br />
Tabelle 17.4. Vor- und Nachteile unterschiedlicher räumlicher Modellausdehnung<br />
Die meisten Spracherkenner verwenden neben der Information über die<br />
benachbarten Phoneme auch die Information über die Position eines Phonems<br />
innerhalb eines Wortes. Die Hypothese dabei ist, daß sich ein Phonem<br />
anders anhört, wenn es am Anfang eines Wortes steht, als wenn es mitten<br />
im Wort steht, auch wenn der phonetische Kontext der gleiche ist. Diese Annahme<br />
ist in der Tat begründet, weil wir bei Sprechen sehr wohl das Wort<br />
als Einheit sehen, und dies sich im Sprechrhythmus und den Betonungsregeln<br />
widerspiegelt. Tab. 17.5 zeigt ein Beispiel, in dem die D- und L-Laute unterschiedlich<br />
behandelt werden, obwohl ihr Triphon (und sogar Quintphon)<br />
Kontext identisch sind. Tatsächlich hört sich die Aussprache von ” handlich“<br />
merkbar anders and als diejenige von ” Hand Licht“ (natürlich auch abgesehen<br />
vom T-Laut in ” Licht“).<br />
Abb. 17.3 zeigt wie viele verschiedene Polyphone es gibt, wenn unterschiedlich<br />
breite Kontexte betrachtet werden. Das Schaubild enthält zwei<br />
Kurven, die durchgezogene für die auf der Wall Street Journal (WSJ) Datenbank<br />
gemessenen Werte und die gepunktete für die entsprechenden Werte auf<br />
der Switchboard (SWB) Datenbank. Als Unterschiedlich wurden Polyphone<br />
betrachtet, wenn sie sich entweder in einem Phon unterschieden oder an ver-
100000<br />
Wortfolge Modelle<br />
17.1 Suche nach der optimalen Spracheinheit 295<br />
handlich ... N(A|D) D(N|L) L(D|I) ...<br />
Hand Licht ... N(A|D) Dwe(N|L) L wb (D|I) ...<br />
Tabelle 17.5. Wortpositionsabhängige Modellierung<br />
10000<br />
1000<br />
100<br />
+ ⋄<br />
+<br />
⋄<br />
+<br />
⋄<br />
+<br />
+ +<br />
⋄ ⋄ ⋄<br />
WSJ<br />
SWB<br />
0 ±1 ±2 ±3 ±4 ±5<br />
Abb. 17.3. Anzahl Polyphone für verschiedene Kontextbreiten<br />
schiedenen Stellen Wortübergänge hatten). Folgende Auffälligkeiten sind zu<br />
bemerken:<br />
• Der größte Anstieg ist beim Übergang von Kontextbreite 0, das heißt ca.<br />
50 Monophone, auf Kontextbreite ±1, das heißt mehrere Zehntausend<br />
Triphone. Selbst beim Übergang von Kontextbreite ±4 auf ±5 ist noch<br />
ein merklicher Anstieg der Polyphonzahl zu beobachten.<br />
• Bei der Switchboard Datenbank kommen mehr verschiedene Polyphone<br />
bei gleicher Kontextbreite vor. Dies ist auf die größere Spontaneität der<br />
darin verwendeten Sprache zurückzuführen. Die sprachlich wesentlich<br />
” sauberere“ Wall Street Journal Daten sind viel uniformer.<br />
⋄<br />
+
296 17. Kontextabhängige akustische Modelle<br />
Auf den ersten Blick hat man den Eindruck, daß es von Vorteil sein<br />
müßte relativ große Kontextbreiten zu berücksichtigen, weil auch für diese<br />
immer noch neue Polyphone dazukommen. Andererseits sollte man auch<br />
berücksichtigen, wieviele Trainingsdaten man für diese zur Verfügung hat.<br />
Abb. 17.4 trägt auf der Ordinaten auf, wie viele Polyphone es gibt, die<br />
in den WSJ-Trainingsdaten x mal beobachtet werden. Auf den ersten<br />
Blick fällt auf, daß die häufigste Beobachtungszahl die 1 ist. Je größer die<br />
Beobachtungszahl ist umso weniger Polyphone gibt es, die so oft vorkommen.<br />
Diese Eigenschaft verschärft sich umso mehr, je breiter der Kontext gewählt<br />
wird. Bei einer Kontextbreite von ±1 gibt es ca. 7400 Polyphone, die nur<br />
ein einziges Mal in den Trainingsdaten vorkommen, bei einer Kontextbreite<br />
von ±5 sind es schon ca. 50000. Bei sehr breiten Kontexten gibt es also sehr<br />
viele Polyphone die zu selten vorkommen, um ausreichend robust modelliert<br />
werden zu können.<br />
Anzahl Polyphone mit gegebener Beobachtungshäufigkeit<br />
100000<br />
△⋆<br />
△⋆<br />
× ×<br />
△⋆<br />
×<br />
△⋆<br />
× △⋆<br />
×<br />
⋆<br />
× ⋆<br />
△△△△△△<br />
⋆<br />
10000<br />
+ + + + +<br />
1000<br />
⋆⋆⋆⋆⋆⋆⋆⋆<br />
⋆⋆⋆<br />
⋆ ×××××××<br />
100<br />
△ ×××<br />
Kontextbreite ±1 + ⋆⋆⋆<br />
△△<br />
Kontextbreite ±2 ×<br />
⋆ △<br />
△△ × ++++++<br />
Kontextbreite ±3 △ ⋆<br />
10<br />
⋆<br />
△×<br />
Kontextbreite ±5 ⋆<br />
△<br />
×<br />
⋆⋆<br />
1<br />
+<br />
×<br />
+<br />
⋆ ×<br />
⋆ △ × +<br />
1 10 100 1000 10000 100000<br />
Anzahl der Beobachtungen in den Trainingsdaten<br />
Abb. 17.4. Wieviele Polyphone gibt es, die x mal vorkommen?<br />
Die große Zahl der verschiedenen kontextabhängigen Modelle schon bei<br />
relativ kleinen Kontextbreiten erzwingt eine Zusammenfassung (Ballung)<br />
derselben in eine wesentlich kleinere und somit handhabbare Zahl an<br />
Modellklassen.<br />
+++
17.2 Ballung von Kontexten<br />
17.2 Ballung von Kontexten 297<br />
Bevor man einen Algorithmus zum Ballen von akustischen Modellen verwendet,<br />
sollte klar sein, was die Ziele der Ballung sind. Es ist selbstverständlich,<br />
daß die in Tab. 17.3 und 17.4 aufgeführten Vorteile optimal ausgeschöpft werden<br />
sollen. Es gilt also einen geeigneten Kompromiß zwischen spezifischen,<br />
räumlich wenig ausgedehnten und generellen, räumlich weit ausgedehnten<br />
Modellen zu finden. Aus den Abb. 17.3 und 17.4 ist zu entnehmen, daß<br />
der beste Kompromiß wohl weit weg von der expliziten Modellierung jedes<br />
einzelnen Phänomens liegen muß. Um nahezu eine Million verschiedener Modelle<br />
sinnvoll zu trainieren, reichen die heute üblichen Trainingsdatenmenge<br />
nicht aus. Es kommt beim Erzeugen von HMMs auf den Trainingsdaten wie<br />
in Abs. 15.3 beschrieben (s. Abb. 15.8) sogar oft vor, daß einige Phänomene<br />
im den Trainingsdaten überhaupt nicht vorkommen, zum Beispiel weil<br />
nicht alle im Lexikon vorgesehenen Varianten auch tatsächlich irgendwann<br />
gesprochen werden, oder weil nicht alle im HMM möglichen verschiedenen<br />
Wortübergangskontexte auch genommen werden. Da es aber nicht<br />
vorhersagbar ist, ob solche Phänomene in den Testdaten dann doch vorkommen<br />
könnten und da das Testvokabular ja sogar vom Trainingsvokabular<br />
abweichen könnte, gehört zu den Zielen eines Ballungsalgorithmus, auch<br />
vorzusehen, für nicht-trainierte Phänomene eine sinnvolle Lösung anzubieten.<br />
17.2.1 Optimierungskriterien<br />
Jeder Ballungsalgorithmus trifft ständig Entscheidungen, welche Modelle<br />
zusammen in eine Klasse gehören und welche nicht. Es ist völlig unrealistisch,<br />
jede dieser Entscheidungen so zu treffen, daß der Effekt auf die<br />
Wortfehlerrate des resultierenden Erkenners minimiert wird. Man wird<br />
daher auf zu optimierende Kriterien zurückgreifen müssen, die sich sehr<br />
schnell während des Ballungsprozesses berechnen lassen. Die am häufigsten<br />
verwendeten Kriterien sind die Maximierung der Beobachtungswahrscheinlichkeit<br />
der Trainingsdaten und die Maximierung des Informationsgehaltes<br />
(negative Entropie) des Parameterraumes. Je nach Art der Berechnung<br />
der Emissionswahrscheinlichkeiten, können diese beiden Kriterien sogar<br />
identisch sein [?].<br />
Die Entropie einer Klasse von Modellen ist definiert durch die Wahrscheinlichkeitsverteilung<br />
f dieser Klasse über dem Merkmalsraum. Wenn<br />
man Gauß-Mischverteilungen zur Berechnung der Emissionswahrscheinlichkeiten<br />
verwendet, so ist die Berechnung der Entropie ein sehr aufwendiges<br />
numerisches Verfahren, das die Integration der Gauß-Verteilungen beinhaltet.<br />
In der Spracherkennung kommen derart komplexe Entropieberechnungen<br />
nicht vor, da entweder als Wahrscheinlichkeitsmodelle entweder nur einzelne
298 17. Kontextabhängige akustische Modelle<br />
Gauß-Verteilungen verwendet werden oder wie bei semikontinuierlichen<br />
HMMs nur die diskreten Mixturgewichteverteilungen. Letztere zu den<br />
häufigen Vorgehensweisen, da vor der Ballung von Modellen in der Regel so<br />
viele verschiedene trainiert werden, daß es gar nicht sinnvoll wäre, für jedes<br />
eine eigene Gauß-Mischverteilung mit eigenem Codebuch zu trainieren. Ein<br />
weiterer Vorteil der Verwendung von semikontinuierlichen Modellen liegt<br />
in der einfachen Vereinigung und Disjunktion von Modellklassen. Während<br />
komplette Gauß-Mischverteilungen für die Vereinigung der Klassen C1<br />
und C2 zu C1 ∪ C2 bei bekannten Einzelmodellen nur mit erheblichem<br />
Aufwand neu berechnet werden können, bedeutet die Vereinigung von<br />
diskreten Verteilungen eine einfache gewichtete Addition: Sei fC1 die<br />
diskrete Mixturgewichteverteilung der Klasse C1 und fC2 die diskrete<br />
Mixturgeweichteverteilung der Klasse C2, beide über demselben Codebuch<br />
definiert. Die Klasse C1 habe in den Trainingsdaten n1 Beispiele (nicht zu<br />
verwechseln mit der Zahl ihrer Elemente) und C2 habe n2 Trainingsbeispiele.<br />
Dann berechnet sich die Mixturgewichteverteilung der vereinigten Klasse<br />
C1 ∪ C2 als:<br />
fC1∪C2(i) = 1/(n1 + n2)(n1 · fC1(i) + n2 · fC2(i)) (17.1)<br />
Wenn sich die Modelle also nur in ihren Mixturgewichten unterscheiden,<br />
genügt es auch, nur diese im Ballungsprozeß zu betrachten. Die Entropie der<br />
diskreten Verteilung (Mixturgewichteverteilung) f ist definiert als:<br />
H(f) =<br />
k<br />
f(i)log 2 f(i) (17.2)<br />
i=1<br />
Haben zwei Modellklassen die Verteilungen fC1 und fC2, dann ist die<br />
einfache Entropiedistanz definiert als:<br />
d(C1, C2) = H(fC1∪C2) − H(fC1) − H(fC2) (17.3)<br />
Die gewichtete Entropiedistanz ist:<br />
d(C1, C2) = (n1 + n2) · H(fC1∪C2) − n1 · H(fC1) − n2H(fC2) (17.4)<br />
Jede Vereinigung zweier Klassen in eine hat einen Informationsverlust<br />
zur Folge. Der Ballungsalgorithmus mit Entropiedistanz sieht also zwei<br />
Verteilungen als ähnlich (also ” vereinigungswürdig“) an, wenn ihre Vereinigung<br />
wenig Informationsverlust bedeuten würde. Ein Ballungsalgorithmus
17.2 Ballung von Kontexten 299<br />
mit Likelihood-Distanz verfolgt das gleiche Ziel, wie das Baum-Welch Trainingsverfahren<br />
für HMMs, nämlich die Maximum-Likelihood Optimierung<br />
der Beobachtungswahrscheinlichkeit aller Trainingsdaten. Die Likelihood-<br />
Distanz zweier Klassen C1 und C2 ist definiert als:<br />
PC1(B1) · PC2(B2)<br />
PC1∪C2(B1 ∪ B2)<br />
(17.5)<br />
wobei PQ(R) die Beobachtungswahrscheinlichkeit der Trainingsdaten R<br />
gemessen mit dem Modell Q ist. Jede Vereinigung zweier Klassen hat eine<br />
Verkleinerung der Beobachtungswahrscheinlichkeit zur Folge. Der Ballungsalgorithmus<br />
mit Likelihood-Distanz sieht also zwei Verteilungen als ähnlich<br />
and, wenn ihre Vereinigung zu einem kleinen Wahrscheinlichkeitsrückgang<br />
führen würde.<br />
17.2.2 Ballungsalgorithmen<br />
Ballungsalgorithmen lassen sich in zwei verschiedene Gruppen einteilen:<br />
agglomerative und divisive. Agglomerative Verfahren beginnen mit vielen<br />
Klassen mir jeweils einzelnen Elementen und vereinigen in jedem Schritt<br />
zwei Klassen zu einer größeren Klasse (s. Abb. 17.5). Divisive Verfahren<br />
beginnen mit einer einzigen Klasse mit allen Elementen und teilen in jedem<br />
Schritt eine Klasse in zwei Unterklassen auf (s. Abb. 17.6).<br />
Abb. 17.5. Agglomerative Ballung
300 17. Kontextabhängige akustische Modelle<br />
Abb. 17.6. Divisive Ballung<br />
Würde man einen Ballungsalgorithmus so lange weiter laufen lassen, bis<br />
keine Schritte mehr möglich sind, dann würde ein agglomerativer so lange<br />
rechnen, bis nur noch eine Klasse vorhanden ist, und ein divisiver so lange bis<br />
jede Klasse nur noch ein Element enthält. Das Ziel ist allerdings ein Zustand<br />
zwischen der minimalen und maximalen Zusammenlegung. So entsteht bei<br />
beiden Arten der Ballung ein Querschnitt durch einen Ballungsbaum (s.<br />
Abb. 17.7).<br />
Abb. 17.7. Blallung ergibt Querschnitt durch Ballungsbaum)<br />
17.2.3 Agglomerative Verfahren<br />
Verfahren der agglomerativen Kontextballung wurden in der kontinuierlichen<br />
Spracherkennung zum ersten Mal erfolgreich von Kai-Fu Lee eingesetzt [?].<br />
Dabei wurden mehrere komplette Triphone in eine Gruppe zusammengelegt.
17.2 Ballung von Kontexten 301<br />
Lee verwendete einen rein semikontinuierlichen HMM-Spracherkenner mit<br />
drei Datenströmen (Cepstren, Delta-Cepstren und Energie). Da jedes Triphon<br />
mit drei HMM-Zuständen modelliert wurde, bestanden die Parameter<br />
einer zu ballenden Einheit s aus neun diskreten Wahrscheinlichkeitsverteilungen<br />
γs,1 . . .γs,9. Als Distanzmaß verwendete Lee die Summe des<br />
Entropieanstiegs, der sich durch das Zusammenlegen zweier Ballungsknoten<br />
q und r zu s ergibt:<br />
D(q, r) =<br />
9 <br />
nq · H(γq,d) + nr · H(γr,d) − ns · H(γs,d) <br />
d=1<br />
(17.6)<br />
wobei ni die Anzahl der Trainingsdaten des Knotens i ist, und H(γ) die<br />
Entropie der Verteilung γ darstellt.<br />
Lees Ballungsalgorithmus sah wie folgt aus: 1<br />
1. initialisiere jeden Ballungsknoten mit einem Triphon<br />
2. berechne paarweise Distanzen zwischen allen Knoten<br />
3. vereinige die beiden Knoten mit der kleinsten Distanz<br />
4. a) berechne für jedes Triphon den Informationsgewinn, der durch<br />
Versetzen desselben in einen anderen Knoten entsteht<br />
b) falls durch Versetzen Gewinn erzielt werden kann, führe die<br />
Versetzung aus und gehe zu 4a<br />
5. solange Endekriterium nicht erfüllt, gehe zu 2<br />
Der Schritt 4 ist nötig, um optimale Leistung zu erzielen. Wird er weggelassen,<br />
fällt die Erkennungsrate des resultierenden Erkenners signifikant ab.<br />
Es ist allerdings genau dieser Schritt, der den Algorithmus sehr aufwendig<br />
macht. Der Schritt 2 ist nur zu Beginn des Algorithmus aufwendig. Später<br />
müssen immer nur die noch nicht berechneten Distanzen berechnet werden,<br />
das heißt die Distanzen zwischen dem gerade neu erzeugten Ballungsknoten<br />
und den anderen Knoten. Im Schritt 4a muß für jedes einzelne Triphon,<br />
das nicht zum neu erzeugten Ballungsknoten gehört, getestet werden, ob es<br />
1 Er unterscheidet sich von dem Standardalgorithmus in [?] im wesentlichen nur<br />
im zusätzlich eingeführten Schritt 4.
302 17. Kontextabhängige akustische Modelle<br />
vorteilhaft wäre, es dorthin zu versetzen. Und für jedes Triphon des neuen<br />
Ballungsknotens muß geprüft werden, ob es vorteilhaft wäre, es in einen<br />
anderen Knoten zu versetzen. Die Anzahl der zu berechnenden Distanzen<br />
wächst also durch den Schritt 4 um ein Vielfaches an.<br />
Der obige Algorithmus kann auch zur Ballung anderer Einheiten als<br />
Triphone verwendet werden. In [?] wird berichtet, daß die Wortfehlerrate<br />
durch die Verwendung von Senones (vgl. Abb. 17.2) statt gesamter Triphone<br />
um ca. 20% reduziert werden konnte.<br />
17.2.4 Divisive Verfahren<br />
Sowohl divisive als auch agglomerative Verfahren haben ihre Nachteile.<br />
Das Problem bei den divisiven Verfahren ist die Frage, auf welche Art die<br />
Modelle eines Knotens in zwei Unterknoten aufgeteilt werden können. Das<br />
könnten schließlich bei einem Knoten mit n Elementen immerhin 2 n mögliche<br />
Aufteilungen sein. Der Nachteil der agglomerativen Verfahren wiegt aber<br />
viel schwerer: nämlich die Vokabularabhängigkeit. Gehen wir beispielsweise<br />
davon aus, daß in den Trainingsdaten die Phonemtripel p1 p0 p2, p3 p0 p4,<br />
p5 p0 p6 und p7 p0 p8 vorkommen und dies alle Kontexte sind, in denen p0<br />
gesehen wird. Durch den Ballungsalgorithmus werden die Tripel p1 p0 p2 und<br />
p3 p0 p4 zu dem verallgemeinerten Modell m1 und die Tripel p5 p0 p6 und<br />
p7 p0 p8 zu dem Modell m2 zusammengelegt (Abb. 17.8).<br />
p1 p0 p2 p3 p0 p4 p5 p0 p6 p7 p0 p8<br />
m1<br />
Abb. 17.8. Agglomerative Ballung kann zu Vokabularabhängigkeit führen<br />
Das heißt, es gibt zwei verschiedenen Modelle, mit denen das Phonem<br />
p0 modelliert werden kann. Je nach Kontext entweder mit m1 oder m2.<br />
In den Testdaten könnten nun Wörter vorkommen, die es im Training<br />
nicht gab, und in einem Wort könnte das Phonem p0 im Kontext p2 p0 p5<br />
auftauchen. Die Fragen, welches der beiden vorhandenen Modelle für diesen<br />
Kontext besser geeignet ist, läßt sich auf Anhieb nicht beantworten. Zur<br />
m2
17.2 Ballung von Kontexten 303<br />
korrekten Beantwortung müßte der gesamte Ballungsvorgang, wiederholt<br />
werden, diesmal aber unter Einschließung von p2 p0 p5. Während des<br />
Trainings war es ja mangels Vorkommens dieses Kontextes und mangels<br />
akustischer Evidenz nicht möglich. Während der Erkennung ist zwar<br />
akustische Evidenz vorhanden, allerdings ist es weder praktikabel, zur<br />
Laufzeit, den Ballungsalgorithmus zu wiederholen noch wäre es berechtigt,<br />
zu erwarten, daß die wenige Evidenz in den Testdaten ausreicht, um ein gutes<br />
Ballungsergebnis zu liefern. Die einzig sinnvolle Vorgehensweise in einem<br />
solchen Fall wäre, für jedes Phonem auch ein kontextunabhängiges Modell<br />
bereitzuhalten und gegebenenfalls dieses zu verwenden. Auf jeden Fall wäre<br />
sowohl die Verwendung eines kontextunabhängigen Modells als auch die<br />
eines ” falschen“ kontextabhängigen keine optimale Lösung. Besser wäre es,<br />
herauszufinden, welches der vorhandenen kontextabhängigen am besten paßt.<br />
Dies kann durch den Einsatz eines divisiven Ballungsalgorithmus erreicht<br />
werden. Statt alle möglichen 2 n Divisionen einer Klasse von n Modellen<br />
zu antizipieren können nur einige wenige berücksichtigt werden. Da also<br />
bei der Ballung in jedem Knoten des Ballungsbaumes eine Entscheidung<br />
getroffen wird, wie der Knoten aufzutrennen ist, spricht man auch von<br />
Kontextentscheidungsbäumen. Sie fallen in den Komplex der allgemeinen<br />
Entscheidungsbäume (classification and regression trees CART). Dabei wird<br />
ein Fragenkatalog verwendet. Jede Frage ist eine ja/nein Frage und für jeden<br />
Kontext in einem aufzutrennenden Knoten wird mit Hilfe einer dem Knoten<br />
eigenen Frage entschieden, in welchen der entstehenden Unterknoten der<br />
Kontext kommen soll.<br />
Typische Fragen bei Kontextentscheidungsbäumen sind Fragen wie:<br />
” Ist das Vorgängerphonem ein Vokal“, oder “Ist das Nachfolgerphonem<br />
ein Frikativ“, aber auch Ist das Phonem selbst stimmhaft“ oder – wie<br />
”<br />
in Tab. 17.5 erwähnt – “Ist das Phonem am Anfang eines Wortes“. Das<br />
Ergebnis einer divisiven Ballung ist in Abb. 17.9 dargestellt. Ganz oben<br />
ist der Startknoten, in dem alle 17 in den Trainingsdaten vorkommenden<br />
Phoneme im Kontext enthalten sind. Diese sind entsprechend der<br />
in verschiedenen Spracherkennungssystemen üblichen Schreibweise als<br />
Phonem(linkerKontext|rechterKontext) angegeben. Die Frage, die in<br />
diesem Beispiel durch den Ballungsalgorithmus dem Startknoten zugeordnet<br />
wurde ist mit −1 = Vokal“ markiert und entspricht der umgangssprach-<br />
”<br />
lichen Formulierung: Ist das Vorgängerphonem ein Vokal“. Diese Frage<br />
”<br />
wird für 13 Kontexte mit ja und für vier Kontexte mit nein beantwortet.<br />
Der Ja-Nachfolgeknoten stellt dann die Frage, ob das Nachfolgephonem<br />
ein Stopplaut ist: +1 =Stopp“. Der Beispielbaum hat schließlich sieben<br />
”<br />
Blätter mit jeweils einem bis vier Kontexten. Wäre das das Ende des<br />
Ballungsprozesses, so würde das akustische Modell des Erkenners sieben<br />
akustische Einheiten haben, deren zeitliche Ausdehnung der eines
304 17. Kontextabhängige akustische Modelle<br />
Phonems entsprechen und deren räumliche Ausdehnung zwischen dem<br />
Raum eines einzelnen Kontextes (O(F|B)) und dem von vier Kontexten<br />
(F(O|M),F(A|M),A(O|M),B(A|M)) liegt – wobei natürlich der tatsächlich<br />
abgedeckte Teil des Merkmalsraums von einem Kontext auch größer sein<br />
könnte als der von vielen Kontexten.<br />
N(O|F) M(A|B) F(A|M)<br />
F(A|B) K(A|B)<br />
B(A|M) O(K|S) F(A|P)<br />
O(A|F) O(F|F) A(O|M) O(F|B) E(K|S)<br />
M(I|B) F(O|M) F(E|N) F(A|N)<br />
-1=Vokal<br />
ja<br />
nein<br />
M(A|B) F(O|M) F(A|B) F(E|N) K(A|B)<br />
B(A|M) O(A|F) F(A|M)<br />
A(O|M) F(A|P) F(A|N) M(I|B) N(O|F)<br />
+1=Stopp<br />
ja<br />
nein<br />
M(A|B) M(I|B) F(O|M) O(A|F) F(E|N)<br />
F(A|P) B(A|M) F(A|N) N(O|F)<br />
F(A|B) K(A|B) A(O|M) F(A|M)<br />
ja<br />
0=stimmlos<br />
ja<br />
+1=labial<br />
nein<br />
F(A|B)<br />
K(A|B)<br />
F(A|P)<br />
M(A|B)<br />
M(I|B)<br />
F(O|M)<br />
F(A|M)<br />
A(O|M)<br />
B(A|M)<br />
Abb. 17.9. Kontextentscheidungsbaum<br />
ja<br />
ja<br />
O(A|F)<br />
F(E|N)<br />
O(A|F)<br />
F(A|N)<br />
E(K|S) O(F|F)<br />
O(K|S) O(F|B)<br />
+1=Frikativ<br />
O(F|F)<br />
O(K|S)<br />
E(K|S)<br />
nein<br />
N(O|F)<br />
F(A|N)<br />
-1=A<br />
O(F|B)<br />
nein<br />
F(E|N)<br />
N(O|F)<br />
Durch die Angabe eines Fragenkatalogs mit k Fragen (typischerweise<br />
werden zwei bis drei Dutzend verschiedener Phonemklassen verwendet<br />
[?] [?]) sind also nicht mehr 2 n sondern nur noch k Aufteilungen eines<br />
Knotens möglich. Der Nachteil, daß dann die womöglich beste Aufteilung<br />
nicht gemacht werden kann, weil für diese keine entsprechende Frage im<br />
Katalog existiert, wird überwogen vom Vorteil, daß kaum noch ” unsinnige“<br />
Auftrennungen erlaubt werden, die eventuell nur wegen eines schlecht<br />
trainierten Modells (Ausreißer) stattfinden würden.<br />
nein
17.2 Ballung von Kontexten 305<br />
Ein divisiver Ballungsalgorithmus kann also im allgemeinen wie folgt<br />
skizziert werden:<br />
1. initialisiere einen Ballungsknoten mit allen zu ballenden Modellen<br />
2. berechne für jeden Blattknoten und jede Frage aus dem Fragenkatalog<br />
den Gewinn einer Auftennung<br />
3. führe von allen Auftrennung die gewinnbringendste aus<br />
4. solange Abbruchkriterium nicht erfüllt, gehe zu 2<br />
Der Gewinn einer Auftrennung in Schritt 2 kann als Gewinn der Beobachtungswahrscheinlichkeit<br />
(Likelihood-Distanz) oder als Informatinsgewinn<br />
(Entropie-Distanz) berechnet werden. Auf jeden Fall ist es wichtig, hier die<br />
gewichtete Distanz (also Gl. 17.4 statt Gl. 17.3) zu verwenden. Bei einer<br />
ungewichteten Distanz kann sich herausstellen, daß eine Auftrennung von n<br />
Modellen in (n − 1) : 1 (sofern es Fragen im Katalog gibt, die dies erlauben)<br />
am gewinnbringendsten ist, nur weil eines der Modelle eine Art Ausreißer<br />
ist. Die Folge wären entartete Kontextentscheidungsbäume mit geringer<br />
Breite und großer Tiefe. Grundsätzlich ist zu beobachten, daß die Gewinne<br />
mit wachsender Tiefe des Baumes abnehmen.<br />
Im Beispiel von Abb. 17.9 werden Kontexte verschiedener Phoneme in<br />
einem Modell zusammengelegt. Dies macht das Beispiel insofern unrealistisch,<br />
als eine gemeinsame Modellierung des Frikativs F und des Vokals O<br />
nicht sinnvoll ist. Sie sind offensichtlich viel mehr verschieden als gleiche<br />
Phoneme in verschiedenen Kontexten. Daher werden in der Spracherkennung<br />
normalerweise mehrere Kontextentscheidungsbäume erzeugt, zum Beispiel<br />
je ein Baum für jedes Phonem (Monophon) oder je ein Baum für jedes<br />
Subphonem. Die Wurzelknoten werden dann nur mit den verschiedenen<br />
Allophonen eines Phonems gefüllt, oder bei noch feinerer Aufteilung nur mit<br />
den gleichen Segmenten (Beginn, Mitte, Ende) der Allophone eines Phonems.<br />
Auf diese Art wird Wissen in den Ballungsalgorithmus gesteckt, das diesem<br />
zum einen die Arbeit erleichetrt, weil dann kleinere Bäume entstehen und<br />
weniger Entscheidungen getroffen werden müssen, zum anderen aber auch<br />
einige Freiheiten nimmt, akustische Phänomene gemeinsam zu modellieren.<br />
Es mag zwar einige Fälle geben, in denen Teile verschiedener Phoneme<br />
sogar sinnvollerweise zusammengelegt werden könnten, zum Beispiel das<br />
Ende des Affrikatsñ(erstes Phonem im Wort ” Zaun“) mit einem Segment<br />
des Frikativs s. Allerdings hat die Praxis gezeigt, daß die seltenen<br />
Fälle, in denen so etwas sinnvoll wäre den zusätzlichen Aufwand nicht lohnen.
306 17. Kontextabhängige akustische Modelle<br />
Es ist grundsätzlich möglich, auch andere Phänomene als (Sub-)Triphone<br />
zu ballen. Im allgemeinen Fall werden Entscheidungsbäume über Mengen<br />
von Subpolyphonen mit beliebieger Kontextbreite berechnet. Bei solchen<br />
Aufgaben kann es vermehrt dazu kommen, daß eine Kontextfrage über<br />
einen vom Zentralphonem weit entfernen Kontext weder mit ja noch mit<br />
nein beantwortet werden kann. Die Frage ” −5 = Vokal“, also ” ist das fünfte<br />
Phonem nach links ein Vokal“, kann für den Kontext A(B,D|N) gar nicht<br />
beantwortet werden, weil dieser Kontext nicht bekannt ist. Theoretisch<br />
müßten als statt binärer Entscheidungsbäume ternäre verwendet werden,<br />
die neben den Antworten ja und nein auch noch die Antwort ” unbekannt“<br />
erlauben. Allerdings gilt auch hier [?], daß der zusätzliche Aufwand und<br />
die zusätzlichen Komplikationen den Gewinn nicht lohnen, und man am<br />
einfachsten solche nicht beantwortbaren Fragen mit nein beantwortet.<br />
In [?] und [?] werden Experimente mit verschiedenen Kontextbreiten<br />
vorgestellt. Die Erkenntnis dabei entspricht im wesentlichen den Erwartungen,<br />
daß der Vorteil einer kontextabhängigen Modellierung mit wachsender<br />
Kontextbreite immer geringer wird. Beim Vergleich der deutschen mit der<br />
englischen Sprache stellt sich sogar heraus, daß im Deutschen noch weniger<br />
Kontext benötigt wird. Während im Englischen Kontexte der Breite ±3<br />
gelegentlich noch leichte Gewinne gegenüber ±2 bringen, ist im Deutschen<br />
schon bei ±2 (Quintphonen) kaum noch ein nennenswerter Unterschied<br />
zu ±1 (Triphonen) festzustellen. Das hängt vor allem von der viel stärker<br />
koartikulierten englischen Sprache ab.<br />
Abb. 17.10 zeigt, wie viele Fragen zu welcher Kontextbreite in einem<br />
Ballungsvorgang [?] mit divisiver Ballung und Entropiedistanz auf dem Wall<br />
Street Journal Korpus gestellt wurden. Zwei Erkenntnisse sind dabei zu<br />
entnehmen: Erstens, Kontexte geringerer Breite sind von größerer Bedeutung,<br />
und werde öfter befragt, und zweitens kommen Fragen zu entfernten<br />
Kontexten erst in sehr tiefen Regionen des Entscheidungsbaumes vor, also<br />
erst dann, wenn die Auftrennungsgewinne schon relativ klein geworden sind.<br />
Die gemeinsame Modellierung verschiedener akustischer Phänomene<br />
kann auf verschiedene Art erfolgen. Wie in Kap. 14 im Zusammenhang<br />
mit verschiedenen Kontinuierlichkeitsgraden schon besprochen, so kann die<br />
Vereinigung der Modelle auf der Ebene der Mixturgewichte oder auf der<br />
Ebene kompletter Mischverteilungen geschehen. In [?] wird die allgemeine<br />
Variante einer mehrstufigen Ballung mit dem JANUS Spracherkenner<br />
[?] vorgestellt. Dort wird in der ersten Stufe eine Zusammenlegung der<br />
Modelle auf der Ebene kompletter Mischverteilungen (Codebücher als<br />
Graustufenmatrizen und Mixturgewichte als Histogramme dargestellt)<br />
durchgeführt, und in der zweiten Stufe eine Zusammenlegung auf der Ebene<br />
der Mixturgewichte. Das Ergebnis des JANUS-Ballungsverfahren ist ein
Anzahl der<br />
Fragen ✻<br />
2000<br />
17.2 Ballung von Kontexten 307<br />
Baumtiefe<br />
✯<br />
Kontext<br />
links ②<br />
-5 -4 -3 -2 -1 0 1/4<br />
+1 +2 +3 +4 ③<br />
+5 Kontext rechts<br />
1/2<br />
3/4 1/1<br />
0<br />
Abb. 17.10. Auswahl der Kontextfragen in Abhängigkeit von der Baumtiefe<br />
Kontextentscheidungsbaum wie in Abb. 17.11 dargestellt. Das Ergebnis<br />
der ersten Phase ist dunkelgrau unterlegt. Die Blätter des Baumes nach<br />
dieser Phase werden alle durch eigene komplette Gauß-Mischverteilungen<br />
modelliert. In der zweiten Phase wird der divisive Ballungsalgorithmus<br />
fortgeführt. Die Codebücher mit den Gauß-Verteilungen bleiben unverändert<br />
erhalten. Am Ende der zweiten Phase werden dann verschiedene<br />
Mixturgewichteverteilungen über den Codebüchern der ersten Phase erzeugt.<br />
Der mehrstufige Ballungsprozeß kann somit wie folgt skizziert werden:
308 17. Kontextabhängige akustische Modelle<br />
B−m(31)(1)<br />
0=B<br />
B−m(30) B−m(31)<br />
B−m(30)(1)<br />
nein<br />
nein<br />
nein<br />
nein<br />
+2=Frikativ<br />
nein<br />
+1=Vokal<br />
Wurzelknoten<br />
(Mittelsegmente)<br />
ja<br />
ja<br />
−3=Stopp<br />
nein<br />
0=A<br />
−1=Vokal<br />
ja<br />
+2=Stille<br />
B−m(31)(3) B−m(31)(4)<br />
ja<br />
ja<br />
B−m(17)<br />
nein<br />
B−m(17)(1)<br />
ja<br />
B−m(31)(2)<br />
+1=Wortende<br />
B−m(17)(2)<br />
Abb. 17.11. Ausschnitt aus mehrstufigem Kontextentscheidungsbaum<br />
1. Phase<br />
ja<br />
2. Phase
17.2 Ballung von Kontexten 309<br />
1. Initialisiere einen Ballungsknoten mit allen n zu ballenden Modellen.<br />
Alle Modelle haben eine eigene Mixturgewichteverteilung über<br />
einem gemeinsamen Codebuch (semikontinuierliche HMMs).<br />
2. Führe divisive Ballung durch bis m Klassen entstanden sind<br />
(Abbruchkriterium).<br />
3. Für jede der m Klassen: trainiere ein eigenes Codebuch (Gauß-<br />
Mischverteilung) und eine eigene Mixturgewichteverteilung.<br />
4. Führe divisive Ballung erneut durch (ausgehend von bisher erzeugtem<br />
Baum und trainierten Mixturgewichten).<br />
Als Abbruchkriterium wird in den meisten Fällen ein auf Erfahrung<br />
basierender Wert für die Zahl der resultierenden Modelle (typischerweise in<br />
der Größenordnung von mehreren tausend bis mehreren zehntausend) verwendet.<br />
Dieser Wert hängt davon ab, wieviel Trainingsdaten zur Verfügung<br />
stehen. Andere mögliche Kriterien beziehen sich auf die Entwicklung der<br />
Entropie- beziehungsweise Likelihood-Distanzen. Der Ballungsprozeß kann<br />
abgebrochen werden, wenn die besten Distanzen unter einen Schwellwert<br />
fallen oder sich nicht mehr nennenswert ändern. Auf jeden Fall wird durch<br />
jede Auftrennung eines Knotens ein echt positiver Gewinn erzielt (abgesehen<br />
von der unrealistischen Auftrennung in zwei völlig gleiche Unterknoten).<br />
Darüber hinaus kann mit Hilfe einer Kreuzvalidierungsmenge ein automatischen<br />
Abbruch der Ballung erreicht, ohne daß zuvor vom Entwickler ein<br />
Endekriterium definiert werden muß.<br />
17.2.5 Laufzeitbetrachtungen<br />
Bei der Verwendung kontextabhängiger Modelle fällt ein Teil des Potentials<br />
für die Einsparung von Laufzeit weg, da im kontextunabhängigen Fall zum<br />
Beispiel für das Wort ” lila“ zu jedem Zeitpunkt nur eine Emissionswahrscheinlichkeit<br />
für beide L-Laute berechnet werden muß. Wenn die L-Laute<br />
kontextabhängig behandelt werden, haben sie – sofern sie nicht in eine Klasse<br />
zusammengefaßt werden – verschiedene Modelle. Ganz deutlich wird dieses<br />
Phänomen, wenn wir einen Erkenner für sehr große Vokabulare betrachten.<br />
Ist er kontextunabhängig und verwendet 50 Monophone zur Modellierung der<br />
Akustik, dann müssen – wenn die Phoneme nicht in Untersegmente aufgeteilt<br />
sind – zu jedem Zeitpunkt nur maximal 50 Emissionswahrscheinlichkeiten berechnet<br />
werden. Wenn der Erkenner aber Triphone verwendet, dann könnten
310 17. Kontextabhängige akustische Modelle<br />
das mehrere Zehntausend verschiedene sein, von denen je nach Einstellung<br />
des Suchalgorithmus fast alle berechnet werden müssen. Dies scheint auf<br />
den ersten Blick ein unter Umständen dramatischer Anstieg des Rechenaufwandes.<br />
Allerdings darf man diese Betrachtung nicht ohne Berücksichtigung<br />
der Möglichkeiten zur Beschneidung des Suchraumes machen. Abb. 17.12<br />
illustriert die Auswirkung der Verwendung von kontextabhängigen Modellen<br />
auf die Verteilung der Emissionswahrscheinlichkeiten. Die Abbildung stellt<br />
Emissionswahrscheinlichkeiten als Graustufen (weiß = niedrig, schwarz =<br />
hoch) dar. Da kontextabhängige Modelle einen kleineren Teil des Merkmalsraumes<br />
einnehmen haben sie eine deutlich größere diskriminative Fähigkeit<br />
und die Verteilung der verschiedenen Wahrscheinlichkeitswerte ist wesentlich<br />
” schärfer“ als für kontextunabhängige Modelle. Die Folge ist, daß es dann<br />
möglich ist, die Parameter des Suchalgorithmus, die die Beschneidung des<br />
Suchraumes festlegen viel aggressiver einzustellen und größere Bereiche des<br />
Suchraumes auszublenden.<br />
kontextabhängig kontextunabhängig<br />
Abb. 17.12. unterschiedlich ” scharfe“ Emissionswahrscheinlichkeitenmatrizen<br />
In der Praxis stellt sich so heraus, daß je nach Qualität der Sprachsignale<br />
und je nach Größe und Komplexität des Erkennervokabulars, mal mehr mal<br />
weniger aber doch in den meisten Fällen die kontextabhängigen Modelle<br />
letztendlich einen geringeren Aufwand haben beziehungsweise bei gleicher<br />
Laufzeit die besseren Erkennungsergebnisse erzielen.
17.2.6 Einbindung von Modalitätenfragen<br />
17.2 Ballung von Kontexten 311<br />
Die Ausprägung eines Lauts hängt natürlich nicht nur vom phonetischen<br />
Kontext ab, sondern auch von zahlreichen anderen Umständen. Am offensichtlichsten<br />
wird dies, wenn wir dasselbe Wort von Personen sprechen<br />
lassen, deren Aussprache von unterschiedlichen Dialekten oder zumindest<br />
Akzenten geprägt wird. Damit ist jetzt nicht eine komplett andere Aussprachevariante<br />
gemeint, die einen eigenen Eintrag im Aussprachelexikon<br />
verdient hätte, sondern die ” gleiche“ Phonemfolge, die sich jedoch anders<br />
anhört, je nachdem aus welcher Gegend der Sprecher kommt. Außer dem<br />
phonetischen Kontext und dem aktuellen Dialekt bzw. Akzent gibt es weitere<br />
so genannte Modalitäten, die die Aussprache beeinflussen. Das Geschlecht<br />
der Sprecherin oder des Sprechers hat erheblichen Einfluß vor allem auf<br />
die Tonlage. Bestimmte Laute verändern sich, wenn besonders schnell oder<br />
besonders langsam gesprochen wird. Selbst Hintergrundrauschen kann sich<br />
auf verschiedene Laute unterschiedlich auswirken, hochenergetische Laute<br />
wie Vokale werden durch Rauschen weniger gestört als niedrigenergetische<br />
wie Konsonanten. Ähnliches kann man auch bei Telefonsprache beobachten.<br />
Der typische Bandpaß eines Telefonkanals stört Laute, die große Anteile an<br />
hohen Frequenzen haben wie Frikative mehr, was man auch daran erkennt,<br />
daß die Laute F und S am Telefon schwer zu unterscheiden sind.<br />
0=stimmlos<br />
K1 K2<br />
+1=Stop<br />
0=Wortende<br />
K3 K4<br />
K5 K6<br />
-1=Vokal<br />
Geschwindigkeit = hoch<br />
+1=B<br />
-1=Frikativ<br />
K9 K10<br />
SNR < 30dB Geschlecht = F<br />
Abb. 17.13. Ballungsbaum mit Modalitätenfragen<br />
K7 K8<br />
Manche dieser Modalitäten sind vollkommen statisch wie zum Beispiel<br />
das Geschlecht oder der Dialekt und lassen sich womöglich vor dem eigentlichen<br />
Erkennungslauf bestimmen. Danach kann das passende akustische<br />
Modell ausgewählt und beibehalten werden. Andere Modalitäten wie Hintergrundrauschen<br />
oder auch die Sprechgeschwindigkeit können wesentlich<br />
dynamischer sein, und sich sogar innerhalb eines Satzes verändern.
312 17. Kontextabhängige akustische Modelle<br />
Verwendet man einen Entscheidungsbaum zum Auswählen der akustischen<br />
Atome in Abhängigkeit vom Kontext, so kann man den Entscheidungsbaum<br />
mit Fragen zu Modalitäten anreichern (s. Abb. 17.13. Gegebenenfalls<br />
muß man dann beim Bestimmen der Atome bis zur Berechnung der Emissionswahrscheinlichkeiten<br />
warten, weil erst dann feststeht, welche Modalitäten<br />
vorliegen, und kann dies nicht schon im voraus beim Aufbau des Suchbaumes<br />
festlegen.<br />
In [?] werden Experimente vorgestellt, in denen gezeigt wird, daß die<br />
Modalitäten Signal-Rausch-Abstand, Dialekt, Geschlecht des Sprechers<br />
und die Sprechgeschwindigkeit alle gewinnbringend in den Kontextentscheidungsbaum<br />
eingebunden werden können. Es gibt verschiedene<br />
Experimente, die zeigen, daß modalitätenspezifische Erkenner (zum Beispiel<br />
geschlechtsspezifische Erkenner in [?]) bessere Erkennungsleistung haben<br />
als ” gemischtmodale“. Dennoch kann man erwarten, daß ein Erkenner mit<br />
Modalitätenfragen gegenüber mehreren speziellen Erkennern Vorteile hat.<br />
Ein spezialisierter Erkenner wird nur mit einem Teil der Trainingsdaten<br />
trainiert und muß somit weniger Parameter haben oder er läuft Gefahr,<br />
diese schlecht zu trainieren. Ein Erkenner mit Modalitätenfragen trennt die<br />
Trainingsdaten nur für diejenigen Phoneme oder Allophone auf, für die dies<br />
hilfreich ist. Auf diese Art können modalitätenspezifische Modelle trainiert<br />
werden, aber dort wo dies keine Vorteile bringt, werden die Parameter mit<br />
allen Trainingsdaten statt nur mit einem Teil trainiert.<br />
Abb. 17.14 zeigt die Einteilung deutscher Dialektregionen in vier Klassen,<br />
wie sie mit Hilfe einer automatischen Ballung [?] gefunden wurden.<br />
Ausgangslage waren 21 deutsche Sprachregionen. Die durch die Ballung<br />
resultierenden vier Dialektklassen wurden als Modalitätenfragen in einem<br />
Experiment auf einer Terminvereinbarungsdatenbank [?] verwendet. Die<br />
Sprecher wurden explizit dazu angehalten Hochdeutsch zu sprechen, dennoch<br />
war die Sprache bei den meisten dialektisch gefärbt. Der Erkenner, der die<br />
Modalitätenfragen zur Herkunft des Sprechers beantworten konnte erzielte<br />
eine Verbesserung der Fehlerrate von 14.5% auf 13.5%.<br />
17.3 Wortübergangskontexte<br />
In einigen Sprachen wie im Englischen und ganz besonders im Französischen<br />
hängt die Aussprache eines Lautes stark von den angrenzenden Wörtern ab.<br />
Dies gilt vor allem für die Laute am Anfang und am Ende eines Wortes,<br />
aber durchaus auch für weiter im Inneren liegende Laute. Bei Aufbau eines<br />
HMM für ein Wort kann dies nicht einfach berücksichtigt werden. Wenn<br />
während der Trainingsphase ein Satz-HMM aufgebaut wird, dann steht die
0000000<br />
1111111<br />
01<br />
0000000<br />
1111111 A0<br />
1 000000<br />
111111<br />
01<br />
000000<br />
111111<br />
0000000<br />
1111111 01<br />
000000<br />
111111<br />
000 111 000000<br />
111111 D<br />
0000000<br />
1111111<br />
B C000000<br />
111111<br />
000 111 000000<br />
111111<br />
000 111 000000<br />
111111<br />
0000000<br />
1111111 000000<br />
111111<br />
000000<br />
111111 01<br />
0000000<br />
1111111 000000<br />
111111 L 01<br />
E<br />
0000000<br />
1111111<br />
00000 11111000000<br />
111111<br />
F 00000 11111<br />
G 00000<br />
11111 000000<br />
111111 N<br />
00000<br />
11111 O<br />
00000 11111 H 00000<br />
11111 000000<br />
111111<br />
M<br />
K00000<br />
11111<br />
00000 11111 00000<br />
11111<br />
I 000000<br />
111111<br />
00000<br />
11111<br />
00000 11111000000<br />
111111<br />
P<br />
00000 11111 J<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000<br />
1111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
Q R<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
S T U<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
17.3 Wortübergangskontexte 313<br />
000 111<br />
000 111<br />
000 111<br />
000 111<br />
000 111<br />
000 111<br />
Abb. 17.14. Ballung deutscher Dialektregionen in vier Klassen<br />
A Nordfriesland, B Ostfriesland, C Nordniedersachsen, D Mecklenburg, E<br />
Ostfalen, F Westfalen, G Niederrhein, H Mittelfranken, I Moselfranken, J Pfalz, K<br />
Hessen, L Brandenburg, M Thüringen, N Obersachsen, O Sorbien, P Ostfranken,<br />
Q Südfranken, R Nordbayern, S Niederalemanien, T Schwaben, U Mittelbayern<br />
benötigte Information unmittelbar zur Verfügung. Für die Erkennungsphase<br />
bedeutet aber die Verwendung von Wortübergangskontexten einen erheblichen<br />
Mehraufwand. Wollte man die Akustischen Modelle zur Modellierung<br />
eines Wortes sowohl vom vorausgehenden als auch vom nachfolgenden Wort<br />
abhängig machen müßte man theoretisch statt n Wörter n 3 Worttripel<br />
im Vokabular verwenden. In der Praxis reduziert man den Aufwand aber<br />
dadurch, daß man nur das erste und das letzte Phonem eines Wortes von<br />
den angrenzenden Wörtern abhängig macht, und dies auch noch nur von<br />
dem unmittelbar angrenzenden Phonem, selbst wenn innerhalb der Wörter<br />
breitere Kontexte verwendet werden. Mit diesen Einschränkungen ergibt<br />
sich für den Erkennungsprozeß lediglich ein etwas erhöhter Speicher- und<br />
Rechenaufwand beim Berechnen der Wortübergänge.
18. Effiziente Decodierverfahren<br />
Der größte Unterschied zwischen der Trainings- und der Erkennungsphase<br />
bei Hidden Markov Modellen ist die Art der verwendeten Suche. Für beide<br />
Probleme wird in der Regel der Viterbi-Algorithmus eingesetzt. Während<br />
beim Training die Transkription der Äußerung bekannt ist und so das HMM<br />
selbst mit optionalen Füllwörtern immer noch relativ einfach gestaltet ist,<br />
so enthält das entsprechende HMM für die Erkennung alle Vokabularwörter.<br />
Auch wenn das Erkennungs-HMM nie komplett aufgebaut wird, so bildet<br />
es doch einen riesigen Suchraum, durch den ein Viterbi-Pfad gefunden werden<br />
muß. Beim Entwurf des Viterbi-Algorithmus, ja sogar schon beim einfacheren<br />
DTW-Algorithmus, haben wir Optimierungen zur Zeitersparnis eingeführt.<br />
Möglich wäre es aber trotzdem, mit etwas mehr Zeitaufwand den<br />
Viterbi-Algorithmus ohne Beschneidungen des Suchraums für ein einzelnes<br />
Satz-HMM komplett abzuarbeiten. Bei der Erkennung kontinuierlicher Sprache<br />
mit sehr großen Vokabularen ist das nicht mehr möglich. Dafür ist es mit<br />
heutigen und auf absehbare Zeit verfügbaren Rechnern undenkbar, das komplette<br />
Erkennungs-HMM im Speicher zu halten, und schon gar nicht, dieses<br />
komplett zu durchsuchen. Daher bildet diese Suche in der Spracherkennungsforschung<br />
eine eigene Teildisziplin. Der Teil eines Spracherkenners, in dem<br />
die Suche implementiert ist, wird Decoder genannt.<br />
18.1 Decoderarten<br />
Um am Ende des Erkennungsvorganges eine Wortfolge ausgeben zu können,<br />
muß wie beim DTW die wahrscheinlichste Folge von Zuständen oder etwas<br />
einfacher die wahrscheinlichste Folge von Wörtern ausgegeben werden.<br />
Wenn die exakte Folge der Zustände nicht interessiert, kann der Viterbi-<br />
Algorithmus dahingehend modifiziert werden, daß auf die Berechnung und<br />
Speicherung der Rückwärtszeiger (Gl. 12.13) für Zustände, die nicht letzter<br />
Zustand eines Wortes sind, verzichtet wird.<br />
Wie Abb. 18.1 zeigt, daß es genügt, für jeden Wortendezustand abzuspeichern,<br />
welches Wort das beste Vorgängerwort war. Bei der Expansion eines<br />
Zustands in ein neues Wort kann diese Information erzeugt werden, und bei
316 18. Effiziente Decodierverfahren<br />
Wort i Wort i + 1<br />
Abb. 18.1. Zustandsbezogene und Wortbezogene Rückwärtszeiger<br />
Wort i + 1<br />
Wort i<br />
jeder weiteren Expansion eines In-Wort-Zustandes kann sie durchpropagiert<br />
werden, bis sie schließlich im Wortendezustand gespeichert werden.<br />
D<br />
C<br />
B<br />
A<br />
Abb. 18.2. Rückwärtszeigertabelle für die Wortfolge A C B D
18.1 Decoderarten 317<br />
Eine partielle Hypothese besteht so aus einer Folge von Wortendezuständen<br />
oder Wörtern zusammen mit den Zeitpunkten ihre Anfänge und<br />
Enden (s. Abb. 18.2). Am Ende des Erkennungsprozesses wird unter allen<br />
partiellen Hypothesen die Wahrscheinlichste als die endgültige ausgewählt.<br />
Man kann die Decoder für Spracherkennung in zwei Gruppen unterteilen:<br />
synchrone und asynchrone. Asynchrone Decoder verarbeiten mehrere partielle<br />
Hypothesen, die zu einem Zeitpunkt unterschiedlich lang sein können.<br />
Bei synchronen Decodern sind alle partiellen Hypothesen gleich lang (s.<br />
Abb. 18.3).<br />
synchron asynchron<br />
Abb. 18.3. Synchrone und asynchrone Suche<br />
Sowohl synchrone als auch asynchrone Decoder verwenden die gleiche<br />
Vorgehensweise der Zustandsexpansion und der Definition der kumulativen<br />
Distanz beziehungsweise Wahrscheinlichkeit, wie sie für den Viterbi-<br />
Algorithmus definiert ist. Die Unterschiede liegen in der Bestimmung, welche<br />
Zustände wann expandiert werden und welche Informationen über partielle<br />
Hypothesen gespeichert werden. Beide Suchparadigmen haben ihre Vor- und<br />
Nachteile. Der Typische asynchrone Decoder ist ein sogenannter Stack Decoder<br />
[?]. Er unterhält einen [?] Stapel (engl. stack) oder mehrere [?] Stapel,<br />
auf denen verschiedene Hypothesen abgelegt sind. Das oberste Stapelelement<br />
enthält die wahrscheinlichste partielle Hypothese (die mit der kleinsten<br />
kumulativen Distanz beziehungsweise größten kumulativen Wahrscheinlichkeit).<br />
Die anderen Stapelelemente sind nach absteigender Wahrscheinlichkeit<br />
sortiert. Wenn der Suchalgorithmus immer die wahrscheinlichste Hypothese<br />
vom Stapel nimmt, diese (das heißt ihren letzten Zustand) dann expandiert,<br />
und die resultierenden längeren Hypothesen in den Stapel einfügt so daß die<br />
Sortierung erhalten bleibt, dann ist sichergestellt, daß die erste Hypothese,<br />
die die komplette Aufnahme abdeckt, automatisch die beste ist.<br />
Zu den Vorteilen solcher Stack Decoder gehört der leichte Zugriff auf<br />
komplette Hypothesen. In jedem Stapelelement können Informationen abgespeichert<br />
werden, die sehr weit in die Vergangenheit zurückreichen. Bei einer
318 18. Effiziente Decodierverfahren<br />
reinen Viterbi-Algorithmus kann in einem Zustand der DTW-Matrix derartige<br />
Information nur schwer abgelegt werden, weil ein Zustand gleichzeitig<br />
in vielen verschiedenen Hypothesen enthalten sein kann. Die weitreichende<br />
Information kann dann bei Stack Decodern dafür verwendet werden sehr<br />
hilfreiche Entscheidungen zur Beschneidung des Suchraums zu treffen. Ein<br />
anderer Vorteil ist die leichte Extraktion von n-besten Listen. Wenn mehr<br />
als nur die Wahrscheinlichste Hypothese benötigt wird, dann stehen diese im<br />
Stapel direkt zum Auslesen bereit. Beschneidung des Suchraumes bedeutet<br />
bei Stack Decodern, daß einige Hypothesen aus den Stapel unten heraus<br />
fallen. Die Größe des Stapels ist beschränkt, und so wird dieser schon bei<br />
einem kleinen durchschnittlichen Verzweigungsgrand beim Expandieren von<br />
Hypothesen schnell gefüllt.<br />
In der Praxis werden synchrone Decoder häufiger verwendet als asynchrone.<br />
Dies liegt zum einen an traditionellen Gründen und zum anderen<br />
daran, daß für synchrone Decoder viele effiziente Algorithmen existieren.<br />
18.2 Beschneidung des Suchraumes<br />
Alle Suchalgorithmen in der Spracherkennung für große Vokabulare haben<br />
gemeinsam, daß der Suchraum auf die eine oder andere Art eingeschränkt<br />
werden muß. Dies läuft im Endeffekt immer darauf hinaus, zu entscheiden,<br />
ob die Expansion eines Zustands durchgeführt werden sollte oder nicht.<br />
Beim Verzicht auf eine Expansion kann die Suche Fehler machen. Als<br />
Suchfehler wird der Fall bezeichnet, bei dem die wahrscheinlichste Hypothese<br />
eine geringere Wortfehlerrate hat als die von Algorithmus gefundene.<br />
Auch wenn eine Expansion eine noch so geringe Wahrscheinlichkeit im<br />
Folgezustand hätte, kann in der Regel nicht ausgeschlossen werden, daß<br />
aus dieser partiellen Hypothese am Ende doch die Beste wird. Um solche<br />
Fälle zu minimieren ist es wichtig, richtige Entscheidungen zu treffen. Diese<br />
Entscheidungen müssen nicht nur auf der kumulativen Wahrscheinlichkeit<br />
eines Zustands basieren. Es ist auch sinnvoll ein wenig Vorauszuschauen.<br />
Die sogenannte Lookahead-Technik berechnet sehr schnell eine Vorhersage<br />
über die Entwicklung der kumulativen Wahrscheinlichkeit einer partiellen<br />
Hypothese, indem es zum Beispiel Expansionen mit Hilfe einfacher und somit<br />
schnell zu berechnender Emissionswahrscheinlichkeiten bewertet. Andere<br />
Möglichkeiten der Vorausschau ist die Berechnung von Sprachmodellwahrscheinlichkeiten<br />
der Wörter in die Expandiert werden soll. Natürlich kosten<br />
diese Vorausschauen Zeit, wenn sie aber eine deutlich bessere Beschneidung<br />
des Suchraums ermöglichen, so kann die dadurch gesparte Zeit überwiegen.
18.2 Beschneidung des Suchraumes 319<br />
Man kann die Auswahl der Expansionen nach verschiedenen Kriterien<br />
treffen. Bei synchronen Decodern kann entweder festgelegt werden, wie<br />
viele Zustände maximal zu jedem Zeitpunkt expandiert werden dürfen,<br />
oder welche Mindestwahrscheinlichkeit die Zielzustände haben sollen. Das<br />
Verlangen einer minimalen Wahrscheinlichkeit des Zielzustandes entspricht<br />
genau der Strahlsuche, wie sie in Abs. 11.3.2 definiert wurde. Auch die<br />
Beschränkung der Anzahl der Zustände ist eine Strahlsuche.<br />
Bei der Festlegung der Minimalwahrscheinlichkeit wird in der Regel<br />
die Wahrscheinlichkeit P0 der besten Hypothese als Ausgangspunkt genommen,<br />
und nur solche Zustände Expandiert, deren Wahrscheinlichkeit<br />
mindestens b · P0 beträgt. Die Breite des Suchstrahls wird durch den Faktor<br />
b ∈ [0, 1] bestimmt. Ist er 0, findet keine Suche statt, ist er 1, so findet<br />
keine Suchraumbeschneidung statt. Je kleiner er ist, umso stärker wird der<br />
Suchraum eingeschränkt. Der Vorteil dieser Vorgehensweise ist, daß sich<br />
die Strahlbreite automatisch reguliert. Wenn zu einem Zeitpunkt sehr viele<br />
Zustände eine Wahrscheinlichkeit nahe der besten haben, dann werden<br />
sehr viele Zustände expandiert. Dies ist insbesondere dann der Fall, wenn<br />
das Modell des Spracherkenners keine scharfe Unterscheidung unter den<br />
besten Hypothesen machen kann, wenn es also eine geringe Konfidenz hat.<br />
In solchen Fällen ist es sinnvoll, viele Expansionen durchzuführen, um<br />
die wahrscheinlichste Endhypothese nicht zu verlieren. Wenn der Abstand<br />
der Wahrscheinlichkeit der besten Hypothese zu den nächstbesten groß<br />
ist, also wenn der Erkenner eine hohe Konfidenz hat, dann fallen auch<br />
weniger Zustandswahrscheinlichkeiten in den Bereich [b · P0, P0] und es<br />
werden weniger Zustände expandiert. Problematisch kann dies allerdings<br />
werden, wenn zum Beispiel wegen einer schlechten Signalqualität über einen<br />
Zeitraum hinweg sehr viele Hypothesen nahezu gleich wahrscheinlich sind.<br />
Dann kann es vorkommen, daß so viele Zustände expandiert werden, daß<br />
der Erkennungsprozeß zu langsam wird.<br />
Die Verwendung einer Maximalzahl von ” aktiven“ Zuständen zu jedem<br />
Zeitpunkt hat den Vorteil, daß die Strahlbreite im voraus festgelegt ist. Es<br />
kann nicht passieren, daß die Suche in schlechten Regionen zu langsam wird.<br />
Dafür gibt es hier den Nachteil, daß die wahrscheinlichste Endhypothese<br />
verworfen wird, wenn zeitweise sehr viele partielle Hypothesen eine ähnlich<br />
hohe Wahrscheinlichkeit wie die beste haben.<br />
Daher werden in der Praxis oft beide Beschneidungsmethoden gleichzeitig<br />
angewendet. Die eigentliche Beschneidung findet mit Hilfe einer dynamischen<br />
Strahlbreite b · P0 statt. Eine Begrenzung der Zahl der aktiven Zustände<br />
verhindert aber, daß der Strahl zu breit wird.
320 18. Effiziente Decodierverfahren<br />
Die meisten Spracherkenner verwenden verschiedene Strahlfaktoren b, je<br />
nachdem in welchem Stadium sich der Erkennungsprozeß befindet. So ist es<br />
zum Beispiel sinnvoll für Expansionen an Wortübergängen andere Maßstäbe<br />
zu verwenden, da dort nicht nur die akustischen Wahrscheinlichkeiten sondern<br />
auch die Sprachmodellwahrscheinlichkeiten einfließen. mehrere Abhängige<br />
beams<br />
18.3 Baumdarstellung des Such-HMMs<br />
Die Rechenoperationen, die beim One-Stage-DP Algorithmus durchzuführen<br />
sind, um die Übergänge von Zeitrahmen t zu Zeitrahmen t + 1 zu berechnen,<br />
sind die gleichen für viele Zellen der DP-Matrix. So werden zum<br />
Beispiel für alle Wörter mit gleicher Anfangsphonemfolge innerhalb dieser<br />
übereinstimmenden Präfixe die gleichen Operationen durchgeführt. Es<br />
ist nun naheliegend, diese Operationen nur einmal durchzuführen, was<br />
im Prinzip bedeutet, daß die Menge aller Zustände des Such-HMMs als<br />
Präfix-Baum angeordnet werden. In Abb. 18.4 ist eine Synchrone Suche zu<br />
einem Zeitpunkt dargestellt. Die eingezeichneten Pfade sind drei partielle<br />
Hypothesen. Man kann erkennen, daß vom Anfang der Äußerung bis zum<br />
Zeitpunkt t1 alle Wörter des Vokabulars (HUT, HUF und HOF) völlig<br />
identisch behandelt werden. Zwischen t1 und t2 werden immer noch HUT<br />
und HUF gleich behandelt. Alle Pfade sind bis t1 ” parallel“. Grundsätzlich<br />
werden für die gleich schraffierten Bereichen auch die gleichen Berechnungen<br />
gemacht.<br />
Die einfachste Art, Wörter mit gleichen Anfängen gleich zu behandeln,<br />
ist sie in einem Phonem-Präfix-Baum anzuordnen. Statt einer linearen<br />
Anordnung (Abb. 18.5 links) kann das Such-HMM baumartig angeordnet<br />
werden (Abb. 18.5 rechts). Aus den ursprünglich neun Zuständen für das<br />
Vokabular HUT, HUF und HOF werden dann nur noch sechs zustände. Für<br />
sehr große Vokabular ergibt sich in der Praxis eine ungefähre Einsparung<br />
von zwischen 50% und 70% weniger Zuständen.<br />
Man beachte, daß die beiden Zustände für die F-Laute von HOF und<br />
HUF wegen der verschiedenen Vorgänger nicht gemeinsam modelliert werden<br />
können. Die besten Anfangszustände der F-Laute können zu verschiedenen<br />
Zeitpunkten beginnen und so zu völlig verschiedenen Teilpfaden führen.<br />
Da auch die Baumanordnung des Vokabulars als HMM betrachtet werden<br />
kann, können hier die gleichen auf dem Viterbi basierende Suchalgorithmen<br />
durchgeführt werden. Die Modellachse sieht nach der Transformation auch<br />
anders aus (s. Abb. 18.6).
HUT<br />
HUF<br />
HOF<br />
T<br />
18.3 Baumdarstellung des Such-HMMs 321<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
U01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
H<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
F<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
U01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
H<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
F<br />
O01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
H<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
01<br />
H<br />
t1<br />
HU<br />
HU<br />
Abb. 18.4. Identische Bereiche des Suchraums<br />
H U T<br />
H<br />
H<br />
U F<br />
O F<br />
Abb. 18.5. Lineare und baumartige Anordnung des Suchraumes<br />
T<br />
U<br />
H<br />
F<br />
U<br />
H<br />
F<br />
O<br />
H<br />
Abb. 18.6. Umgestaltung der Modellachse der Suchmatrix<br />
t2<br />
F<br />
T<br />
F<br />
U<br />
O<br />
H<br />
H<br />
U<br />
O<br />
T<br />
F<br />
F
322 18. Effiziente Decodierverfahren<br />
Die tatsächliche Zeitersparnis für den Suchalgorithmus ist in der Praxis<br />
etwas geringer als der Anteil der eingesparten Zustände. Zwar müssen<br />
weniger Zustandsexpansionen berechnet werden, aber bei der Berechnung<br />
der Emissionswahrscheinlichkeiten kann auch schon im linearen Fall mit<br />
Hilfe eines Caches die Mehrfachberechnung derselben Wahrscheinlichkeiten<br />
umgangen werden.<br />
18.3.1 Verzögerte Bigramme<br />
Wenn die Modellachse als Baum dargestellt ist, dann ist es nicht mehr<br />
möglich, beim Übergang aus dem letzten Zustand eines Wortes in das<br />
nächste Wort eine Bigramm-Wahrscheinlichkeit zu verwenden. In Abb. 18.7<br />
ist zu sehen, wie der Übergang aus dem letzten Zustand des Wortes HUT<br />
in den ersten Zustand des Wortes HOF bei linearer Anordnung mit einer<br />
Bigramm Wahrscheinlichkeit versehen werden kann, bei einer baumartigen<br />
Anordnung aber nicht.<br />
P(HOF|HUT) P(?|HUT)<br />
H U T<br />
H<br />
H<br />
U F<br />
O F<br />
Abb. 18.7. Bigrammwahrscheinlichkeit nicht bei Übergang anwendbar<br />
Bei der Baumstruktur steht beim Betreten des Zustands H noch nicht<br />
fest, zu welchem Wort der Zustand einmal gehören wird. Dies ist erst dann sicher,<br />
wenn der letzte Zustand eines Wortes betreten wird. Da aber – wie oben<br />
beschrieben – die Information über das beste Vorgängerwort beim Berechnen<br />
des Viterbi-Algorithmus durchpropagiert wird ist dies auch beim Betreten<br />
des letzten Zustands eines Wortes bekannt. Die Bigrammwahrscheinlichkeit<br />
kann nun an dieser Stelle zur kumulativen Hypothesenwahrscheinlichkeit<br />
dazumultipliziert werden. Dies geschieht zwar spät (daher ” verzögerte<br />
Bigramme“, engl: delayed bigrams) [?], aber immer noch rechtzeigtig, um am<br />
Ende eine völlig korrekte Gesamthypothesenwahrscheinlichkeit zu erhalten.<br />
Dennoch gibt es bei der Verwendung von verzögerten Bigrammen<br />
Probleme. Diese manifestieren sich insbesondere bei der Suchraumbeschneidung.<br />
Wenn Beschneidungsentscheidungen in einem Zustand, der kein<br />
H<br />
U<br />
O<br />
T<br />
F<br />
F
18.4 Sprachmodelle höherer Ordnung 323<br />
Wortendezustand ist, getroffen werden, dann steht weniger Information zur<br />
Verfügung. Möglicherweise wird eine Hypothese verworfen, die, wenn die<br />
Bigrammwahrscheinlichkeit in das aktuelle Wort bekannt wäre, wesentlich<br />
besser bewertet und somit erhalten worden wäre. Umgekehrt kann es<br />
vorkommen, daß die Suche unnötigerweise Zustände expandiert, die bei<br />
Kenntnis der niedrigen Bigrammwahrscheinlichkeit gar nicht erst betreten<br />
worden wären. Der geringer Zeitverlust ist dabei unproblematisch. Wie<br />
schwerwiegender ist die erhöhte Wahrscheinlichkeit für Suchfehler.<br />
18.4 Sprachmodelle höherer Ordnung<br />
An Abb. 15.10 ist zu erkennen, daß ein derartiges Such-HMM bestenfalls<br />
Bigramme als Wortübergangswahrscheinlichkeiten verwenden kann. Wenn<br />
trigramme verwendet werden sollen müßte das HMM wesentlich größer sein<br />
(s. Abb. 18.8).<br />
Das Trigramm-HMM enthält also n Kopien des Bigramm-HMMs aus<br />
Abb. 15.10. Auf die gleiche Art lassen sich auch Kopien von als Baumstruktur<br />
angeordneten HMMs zu einem Trigramm-Modell verbinden. Selbstverständlich<br />
kann für die Erkennung großer Vokabulare ein derartig großes HMM<br />
nicht komplett im Speicher gehalten werden. Daher werden nur die Teile<br />
dynamisch angelegt, die benötigt werden. Wenn ein Zustand expandiert<br />
wird, werden die ihm folgenden Zustände alloziert. Wenn Baumkopien<br />
erzeugt werden, entsteht auch hier wieder die gleiche Problematik wie bei<br />
den verzögerten Bigrammen.<br />
Eine Alternative selbst bei Bigramm-HMMs trotzdem Trigramm-<br />
Informationen zu verwenden sind sogenannte ” poor man’s trigrams“. Dabei<br />
wird für jeden Zeitpunkt t das Wort ˆw(t) gemerkt, das den wahrscheinlichsten<br />
Endzustand hat. Wenn dann ein Wortübergang von w1 nach w2<br />
stattfindet, und der Viterbi-Rückwärtszeiger von Wort w1 auf den Zeitpunkt<br />
t zeigt, so wird unabhängig davon, welches das beste Vorgängerwort von w1<br />
ist, als Übergangswahrscheinlichkeit P3(w2| ˆw(t), w1) verwendet.<br />
Statt umständliche Baumkopien zu machen, ist es auch möglich in den<br />
einzelnen Baumknoten mehrere Historien (Linguistische Kontexte) zu speichern,<br />
die dann bei der Expansion gegebenenfalls in den Nachfolgezustand<br />
” mitgenommen“ werden [?].
324 18. Effiziente Decodierverfahren<br />
Wort 1<br />
Wort 2<br />
Wort n<br />
Wort 1<br />
Wort 2<br />
Wort n<br />
Wort 1<br />
Wort 2<br />
Wort n<br />
. . .<br />
. . .<br />
. . .<br />
Abb. 18.8. Such-HMM für Trigramm-Sprachmodelle<br />
18.5 Suche ohne Sprachmodell<br />
.<br />
.<br />
.<br />
Wenn man die Erkenntnisse aus der Verwendung von Trigrammen und<br />
Bigrammen extrapoliert, so mußte man zum Schluß kommen, daß der<br />
komplette Verzicht auf ein Sprachmodell die Information zum Beschneiden<br />
des Suchraums derart minimiert, daß die Suche wesentlich länger dauern<br />
muß als mit irgend ein Sprachmodell. Genau das Gegenteil ist der Fall. In<br />
Abb. 18.9 ist der Übergang vom Zeitpunkt t zum Zeitpunkt t + 1 links ohne<br />
und rechts mit Sprachmodell dargestellt. Wenn kein Sprachmodell verwendet<br />
wird ist der beste Vorgängerzustand für alle Wortanfangszustände zum<br />
Zeitpunkt t+1 derselbe. In der Abbildung hat der Endzustand des Wortes D<br />
die kleinste kumulative Distanz. Das heißt aber, daß zum Zeitpunkt t auf die<br />
Expansion aller anderen Wortenden verzichtet werden kann. Es müssen also<br />
(abgesehen von eventuellen Suchraumbeschneidungen) zu jedem Zeitpunkt<br />
nur n (= Vokabulargröße) Wortübergänge hypothetisiert werden. Wird<br />
n 2<br />
n 2<br />
. . .<br />
n 2<br />
. . .<br />
. . .
18.6 Längenmodellierung 325<br />
ein Sprachmodell verwendet, müssen n 2 Übergänge genommen werden, da<br />
zum Zeitpunkt t noch nicht bekannt ist, welche Wortendezustände später<br />
inklusive der Sprachmodellwahrscheinlichkeiten als beste Vorgänger der<br />
Wortanfangszustände zum Zeitpunkt t + 1 sein werden.<br />
1715<br />
D D<br />
C<br />
B<br />
A<br />
991<br />
722<br />
1715<br />
991<br />
722<br />
1234 1234<br />
t − 1 t t + 1 t − 1 t t + 1<br />
Abb. 18.9. Expansionder Wortendezustände ohne/mit Sprachmodellk<br />
18.6 Längenmodellierung<br />
Betrachten wir den Viterbi-Pfad, wie er in Abb. 18.10 dargestellt ist. Hier<br />
wurde das Wort ” Apfel“ erkannt. Die Hypothese geht davon aus, daß die<br />
ersten drei Zeiteinheiten der A-Laut gesprochen wurde, dann elf Zeiteinheiten<br />
lang ein P-Laut, um schließlich die verbleibenden drei Laute in je einem<br />
Zustand abzuarbeiten. Ein derartiger Pfad ist aus phonetischer Sicht äußerst<br />
unwahrscheinlich. Das P ist ein Plosivlaut, der in der Regel sehr kurz ist, auf<br />
jeden Fall ist er meist wesentlich kürzer als typische Vokale. Das Problem,<br />
das den abgebildeten Pfad verursachen kann ist zum Beispiel ein gestörtes<br />
Sprachsignal. Da P-Laute sehr wenig Energie haben, unterscheiden sie sich<br />
kaum von Stillelauten. Vielleicht war das Signal im Bereich der zweiten Hälfte<br />
des Wortes gestört, oder es wurde sehr langsam gesprochen. Woran könnte<br />
ein Spracherkenner feststellen, daß ein derartiger Pfad sehr unwahrscheinlich<br />
ist?<br />
C<br />
B<br />
A
326 18. Effiziente Decodierverfahren<br />
L<br />
E<br />
F<br />
P<br />
A<br />
Abb. 18.10. Ein aus phonetischer Sicht sehr unwahrscheinlicher Pfad<br />
Die Faktoren, die die ” Aufenthaltsdauer“ einer Hypothese in einer<br />
Spracheinheit (zum Beispiel einem HMM-Zustand) beeinflussen, sind die<br />
Übergangswahrscheinlichkeiten und in noch größerem Maße die Emissionswahrscheinlichkeiten.<br />
Ignoriert man den Einfluß der Emissionswahrscheinlichkeiten<br />
und ist p die Wahrscheinlichkeit für einen Übergang aus einem<br />
HMM-Zustand zu sich selbst, dann verhält sich die Wahrscheinlichkeit für eine<br />
Aufenthaltsdauer von t Zeittakten exponentialverteilt gemäß (1 − p)p t−1 .<br />
Zweifellos reflektiert dies nicht in den meisten Fällen nicht die tatsächliche<br />
Verteilung. Eine explizite Längenmodellierung kann allerdings realisiert werden,<br />
indem für jede zu modellierende Spracheinheit (Zustand, Phonem, Wort)<br />
ein Längenhistogramm auf den Trainingsdaten geschätzt wird. Beim Expandieren<br />
eines Endzustandes einer Spracheinheit wird dann ein Strafterm zur<br />
kumulativen Wahrscheinlichkeit hinzugerechnet, der sich aus der Verweildauer<br />
und dem entsprechenden Histogrammwert ergibt [?].<br />
18.7 Mehrpaßsuchen<br />
Ähnlich wie es beim Forward-Backward-Algorithmus einen Vorwärtsund<br />
einen Rückwärtsdurchgang gibt, kann diese Idee auch auf die Suche<br />
übertragen werden. Auch wenn wir bei der Suche andere Motive haben,<br />
so gibt es durchaus auch hier gute Gründe mehrere Durchläufe durch die<br />
Aufnahme zu machen. Mitte der neunziger Jahre war es eine Art ” Running<br />
Gag“ bei den alljährlichen SLT-Workshops zu sagen, daß der Erkenner<br />
des Forschungslabors der US-Firma BB&N bei jeder DARPA-Evaluationen<br />
einen Durchgang (engl. pass) mehr als im Jahr davor hatte. Teilweise wurden<br />
Erkenner mit bis zu sechs Durchläufen vorgestellt.<br />
Grundsätzlich gibt es keinen Grund anzunehmen, daß in einem zweiten<br />
Durchgang Informationen gewonnen werden, die nicht auch schon im ersten<br />
Durchgang hätten gewonnen werden können. Die Frage ist nur, wieviel<br />
Aufwand dies macht. Und so kann es sich sehr wohl lohnen, in einem ersten<br />
besonders schnellen Durchlauf Informationen zu sammeln, die zwar nicht<br />
unmittelbar zu einer besseren Hypothese führen, aber mit deren Hilfe es
18.7 Mehrpaßsuchen 327<br />
möglich ist, den Suchraum des zweiten oder der darauffolgenden Durchgänge<br />
so zu beschneiden, daß ein sehr großer Laufzeitgewinn bei fast keinen<br />
Suchfehlern erzielt werden kann. Dies funktioniert natürlich nur, wenn der<br />
zweite Durchlauf aufgrund seines aufwendigen Verfahrens bessere Ergebnisse<br />
liefert als der erste.<br />
Die gleichzeitige Verwendung von als Baumstruktur organisierten Modellachsen<br />
und weitreichender Sprachmodelle ist höchst kompliziert. Schon bei<br />
so einfachen Sprachmodellen wie Bigrammen (s. Abs. 18.3.1) ergeben sich<br />
Schwierigkeiten. Sollen sogar Trigramme oder noch breitere Sprachmodelle<br />
verwendet werden, hat dies zur Folge, daß für Teile der Modellachse Kopien<br />
angefertigt werden müssen (Details dazu gibt es in [?]), was sowohl speicherals<br />
auch zeitaufwendig ist. Insbesondere die Entscheidungen, welche Teile<br />
des Suchraums beschnitten werden sollten, können oft nur mit unzureichender<br />
Information getroffen werden, oder können bei Fehlentscheidungen zu<br />
großen Verlusten in der Erkennungsgenauigkeit führen. Daher bietet es sich<br />
an, eine dramatische Beschneidung des Suchraumes im Voraus auszuführen,<br />
dabei ein einfacheres Suchmodell zu verwenden (z.B. nur Bigramme und kontextunabhängige<br />
akustische Modelle) und dann im zweiten Durchgang das<br />
komplexe Suchmodell (z.B. mit Trigrammen und vielen kontextabhängigen<br />
akustischen Modellen) auf dem beschnittenen Suchraum wesentlich schneller<br />
auszuführen. Man kann also sagen, daß der erste schnelle Durchgang die sehr<br />
Hilfreiche Information zur Beschneidung des Suchraums des zweiten Durchgangs<br />
liefert. Diese Information kann (wie z.B. in [?] in Form einer Matrix<br />
vorliegen, die angibt, welche Wörter zu welchen Zeiten überhaupt in Frage<br />
kommen (s. Abb. 18.11). Das Infragekommen eines Wortes kann darauf basieren,<br />
daß ein Minimum der dem Wort zugehörigen HMM-Zuständen aktiv<br />
sind, d.h. im ersten Durchgang vom Suchalgorithmus besucht werden.<br />
wn<br />
.<br />
w4<br />
w3<br />
w2<br />
w1<br />
Abb. 18.11. Wortaktivitätsmatrix zur Beschneidung des Suchraumes<br />
t
19. Parameterraumoptimierung<br />
Bei der Entwicklung eines HMM-basierten Spracherkenners müssen mehrere<br />
Entwurfsvariablen gefunden und optimiert werden. Entwurfsvariablen, die<br />
den Parameterraum der akustischen Modellierung betreffen, sind zum Beispiel<br />
die Anzahl der akustischen Modelle, die Anzahl der Mixturgewichteverteilungen<br />
und der Codebücher, der Kopplungsgrad der Kovarianzmatrizen,<br />
die Breite der modellierten Kontexte, die Anzahl der Zustände eines HMMs<br />
für die verwendeten Spracheinheiten, sowie deren Topologien. Weitere einzustellende<br />
Variablen sind die Größe der Codebücher, das heißt die Anzahl der<br />
Referenzvektoren je Codebuch und die Dimensionalität des Merkmalsraumes.<br />
Auch auf dem Gebiet der temporalen Modellierung der HMMs gilt es,<br />
Entwurfsentscheidungen zu treffen und Variablen einzustellen, wie zum<br />
Beispiel die Feinheit und den Kopplungsgrad der Übergangswahrscheinlichkeiten<br />
und eventuell vorhandene Parameter für explizite Längenmodellierung.<br />
Oft ist es sehr aufwendig und ressourcenintensiv, verschiedene mögliche<br />
sinnvolle Werte für die Entwurfsvariablen durch Experimente auszuwerten<br />
und auf diese Art zu optimieren. Teilweise wird in manchen Bereichen<br />
der Spracherkennungsforschung sogar von einer Art schwarzen Magie<br />
gesprochen, wenn Forscher sogenannte ” educated guesses“ (auf Erfahrung<br />
basierte Schätzungen) vornehmen. Nicht selten kann man beobachten, daß<br />
eine nur sehr wenig vom Optimum abweichende Einstellung bestimmter<br />
Architekturvariablen die Fehlerrate des Erkenners enorm erhöht.<br />
Auf Erfahrung basierende Schätzungen sind auch bei den zahlreichen<br />
sogenannten ” fudge factors“ 1 üblich. Dabei handelt es sich um der Theorie<br />
eigentlich widersprechende Parameter, wie z.B. die Werte z und q in Gleichung<br />
16.25. Solche Parameter werden aus verschiedenen Gründen für eine<br />
zufriedenstellende Funktion der Spracherkenner benötigt. Zum einen ist die<br />
getroffene Modellannahme (HMM erster Ordnung, Gauß-Mischverteilungen)<br />
nicht in völliger Übereinstimmung mit der Natur des Sprachproblems, zum<br />
anderen liegen in der Regel nicht so viele Trainingsdaten vor, daß das in der<br />
Statistik oft zitierte Gesetz der großen Zahl wirkt. Im Gegenteil, meistens<br />
1 engl. fudge: schmierige Schokoladencreme
330 19. Parameterraumoptimierung<br />
wird der Parameterraum der Spracherkenner so weit aufgeblasen wie nur<br />
irgendwie trainierbar. Man tendiert eher dazu, ein paar schlecht geschätzte<br />
Parameter zuviel zu verwenden, und notfalls Glättungsmethoden einzusetzen,<br />
als zu wenige Parameter zu verwenden, die dann aber gut geschätzt<br />
werden, denn fehlende Information kann nicht ersetzt werden, während<br />
zuviel Information bei geeigneter Handhabung nicht schädlich sein muß.<br />
Schließlich ist ein weiterer Grund für die Verwendung von ” fudge factors“<br />
die oft inkorrekte Implementierung der mathematischen Grundlagen, bei<br />
der, um Rechenzeit zu sparen, Approximationen vorgenommen werden.<br />
Das Ziel der Spracherkennungsforschung ist es, nicht nur fertige, funktionierende<br />
Produkte zu entwickeln, sondern auch Laien zu ermöglichen,<br />
einen für ihre speziellen Zwecke optimierten Spracherkenner selbst zu<br />
bauen, ohne dabei von ihnen zu verlangen, sich mit den verschiedenen<br />
Entwurfsvariablen auszukennen. Solange nicht abzusehen ist, daß fertige<br />
Spracherkennungsprodukte in jeder Umgebung, mit beliebigen Vokabularen,<br />
mit verschiedenen Sprachen und Dialekten sowie für viele verschiedene<br />
Anwendungsszenarien einwandfrei funktionieren, solange wird es interessant<br />
bleiben, daß Entwicklungsumgebungen existieren, mit denen auch Personen,<br />
die nicht auf dem Gebiet der Spracherkennung arbeiten, funktionierende<br />
Spracherkenner bauen können.<br />
Für die Umsetzung eines Forschungsprototypen in ein fertiges Produkt<br />
ist es deshalb sinnvoll, Methoden zu finden, die es ermöglichen, Entwurfsvariablen<br />
automatisch zu optimieren.<br />
19.1 Parameterarten<br />
Im folgenden gehen wir auf die Rolle verschiedener Parameter von typischen<br />
HMM-basierten Spracherkennern ein. Es ist nicht möglich, hier alle denkbaren<br />
Parameter zu behandeln, so daß vor allem die wichtigsten aufführen,<br />
das heißt diejenigen, die für Erkennungsleistung die größte Bedeutung haben.<br />
19.1.1 Mittelwertsvektoren<br />
Die Mittelwertsvektoren sind die wichtigsten Parameter der akustischen<br />
Modellierung mit Normalverteilungen, in dem Sinne, daß die Erkennungsleistung<br />
von einer optimalen Schätzung der Referenzvektoren erfahrungsgemäß<br />
stärker abhängt als von den Kovarianzmatrizen und den Mixturgewichten. Je<br />
größer die Dimensionalität des Merkmalsraumes ist, desto stärker fällt auch
19.2 Parameterkopplung 331<br />
der Einfluß der Referenzvektoren aus, da der durchschnittliche euklidische<br />
Abstand zweier Punkte im Einheitswürfel mit der Wurzel der Dimension<br />
wächst. Der durchschnittliche Wert eines Mixturgewichtes ist aber stets<br />
1/ns, unabhängig von der Dimension.<br />
19.1.2 Kovarianzmatrizen<br />
Lange Zeit wurde der JANUS-Spracherkenner ganz ohne trainierte Kovarianzmatrizen<br />
betrieben, das heißt, als Kovarianzmatrizen wurde stets die<br />
Einheitsmatrix angenommen. Wenn die restlichen Parameter unter dieser<br />
Annahme trainiert werden, so steigt die Fehlerrate des Erkenners um ca.<br />
10% bis 20% gegenüber einem Erkenner, der diagonale Kovarianzmatrizen<br />
verwendet. Auf die Verwendung von vollen Kovarianzmatrizen wurde im<br />
JANUS-Erkenner stets verzichtet, da der Zuwachs des Parameterraumes<br />
und der zusätzliche wesentliche erhöhte Rechenaufwand bei der Berechnung<br />
der Emissionswahrscheinlichkeiten in unerträgliche, nicht mehr handhabbare<br />
Größenordnungen steigt.<br />
Erstmals wurden im JANUS-Erkenner radiale Kovarianzmatrizen erfolgreich<br />
eingesetzt (siehe Abschnitt 19.4.1). Diese reduzieren die benötigten<br />
Kovarianz-Parameter um den Faktor der Dimensionalität des Merkmalsraumes,<br />
ohne daß dabei die Erkennungsrate zu sehr leiden muß.<br />
19.1.3 Mixturgewichte<br />
Typische Werte einzelner Normalverteilungen, wie sie in dieser Arbeit<br />
verwendet wurden, liegen im Bereich zwischen 10 −30 und 10 −10 mit einer<br />
entsprechend großen Varianz. Gleichzeitig schwanken die Mixturgewichte nur<br />
typischerweise zwischen 10 −5 und 10 0 . Im Hinblick auf diese Werte verwundert<br />
es nicht, daß die gemessenen Fehlerraten nur um wenige Prozentpunkte<br />
steigen, wenn alle Mixturgewichteverteilungen durch Gleichverteilungen<br />
ersetzt werden. Eine zufällige Initialisierung der Referenzvektoren dagegen<br />
würde den Erkenner total funktionsunfähig machen.<br />
19.2 Parameterkopplung<br />
Neben den Kopplungsmethoden, die durch den Kontinuierlichkeitsgrad des<br />
verwendeten HMMs vorgegeben sind, sind auch andere Parameterkopplungen<br />
von Interesse:
332 19. Parameterraumoptimierung<br />
19.2.1 Kopplung von<br />
Zustandsübergangswahrscheinlichkeiten<br />
Eine korrekte Schätzung der Zustandsübergangswahrscheinlichkeiten hat<br />
sich in den letzten Jahren als eher weniger bedeutend herausgestellt. Der<br />
Hauptzweck dieser Parameter ist – neben der Definition der erlaubten<br />
Zustandsfolgen – die Modellierung der Aufenthaltsdauern in den einzelnen<br />
Zuständen. Im folgenden seien die drei wesentlichen Gründe für die geringe<br />
Bedeutung dieser Parameter aufgeführt:<br />
Inkompatibilität zwischen Dichtewerten und Wahrscheinlichkeiten<br />
Während die Zustandsübergangswahrscheinlichkeiten echte Wahrscheinlichkeiten<br />
sind, müssen sie während der Berechnung eines Viterbi- oder<br />
Forward-Backward-Pfades mit den Dichtewerten der Emissionswahrscheinlichkeiten<br />
multipliziert werden. Da erfahrungsgemäß die Varianz der<br />
Dichtewerte einer hochdimensionalen Normalverteilung viel größer ist als<br />
die Varianz der echten Wahrscheinlichkeiten, werden alle Entscheidungen<br />
während des Viterbi- oder Forward-Backward-Algorithmus von den<br />
Emissionswahrscheinlichkeiten dominiert. Der Einfluß der Zustandsübergangswahrscheinlichkeiten<br />
kann vernachlässigt werden.<br />
Längenmodellierung durch die Emissionswahrscheinlichkeiten<br />
Da fast alle Spitzenspracherkenner sehr einfache HMM-Topologien verwenden,<br />
bei denen drei bis sechs linear angeordnete Zustände verwendet werden,<br />
wird die Aufenthaltsdauer in einem HMM-Zustand im wesentlichen von der<br />
Paßgenauigkeit der akustischen Modelle gesteuert. Ob ein Zustand verlassen<br />
und der Nachfolgezustand betreten werden sollte, kann ausreichend sicher<br />
nur mit Hilfe des akustischen Modells entschieden werden.<br />
Explizite Längenmodellierung<br />
Durch die Verwendung von Zustandsübergangswahrscheinlichkeiten können<br />
nur sehr eingeschränkte Wahrscheinlichkeitsverteilungen über die Aufenthaltsdauern<br />
in einzelnen Zuständen realisiert werden. Wenn die<br />
Wahrscheinlichkeit dafür, daß ein Zustand sein eigener Nachfolgezustand ist,<br />
p beträgt, dann berechnet sich die Wahrscheinlichkeit für einen Aufenthalt<br />
eines Viterbi-Pfades von t Zeiteinheiten als p t−1 · (1 − p). Es handelt sich<br />
also um eine einfache Exponentialverteilung. Durch geschicktes Anordnen<br />
mehrerer Zustände, die dasselbe akustische Modell verwenden, läßt sich zwar<br />
auch jede beliebige kompliziertere Verteilung approximieren, jedoch lohnt<br />
sich dieser Aufwand nicht. Stattdessen bietet sich eher an, eine explizite
19.2 Parameterkopplung 333<br />
Längenmodellierung einzusetzen. Dabei wird für jeden HMM-Zustand, bzw.<br />
für jede Äquivalenzklasse von Zuständen oder Zustandsfolgen, eine diskrete<br />
Wahrscheinlichkeitsverteilung von Aufenthaltslängen geschätzt. Nach Verlassen<br />
eines Zustandes oder einer Zustandsfolge wird dann die bis dahin<br />
akkumulierte Pfadwahrscheinlichkeit mit der Längenwahrscheinlichkeit<br />
verrechnet.<br />
Einschränkungen der Parameterkopplung<br />
In der Regel wird man nicht erlauben, daß jeder Parameter mit jedem<br />
anderen seiner Sorte gekoppelt werden kann. Das ist zum einen der Fall, weil<br />
die Parameter trotz Gleichartigkeit völlig verschiedene Bereiche des Parameterraumes<br />
belegen. So wird man eher davon absehen, die Kovarianzmatrizen<br />
aus einem Codebuch des Phonems G mit den Kovarianzmatrizen des<br />
Phonems S zu koppeln. Man wird also unter Einsatz von Wissen bestimmte<br />
Arten der Kopplung ausschließen. Ein weiterer Grund für die Einschränkung<br />
der möglichen Kopplungen ist die Vermeidung einer kombinatorischen<br />
Explosion. Es ist zum Beispiel mit der Leistung der heutigen Workstations<br />
ausgeschlossen, alle möglichen Kopplungen von 700 000 Subpolyphonen –<br />
ein nicht untypischer Wert – zu erlauben. Schon zu Beginn müßten ca. 245<br />
Milliarden Distanzen berechnet werden.<br />
Typische Einschränkungen für die Parameterkopplung werden so vorgenommen,<br />
daß keine Kopplungen über Phoneme hinweg erlaubt sind. Das<br />
heißt, es können keine Parameter eines Phonems mit denen eines anderen<br />
Phonems gekoppelt werden. Bei der Verwendung von subphonetischen<br />
Spracheinheiten, vermeidet man meist sogar die Kopplung von Parametern<br />
desselben Phonems, wenn sie zu verschiedenen Untereinheiten gehören.<br />
19.2.2 Arten der Parameterkopplung<br />
Kopplung durch A-priori-Wissen<br />
Verschiedene gleichartige Parameter können auf verschiedene Arten gekoppelt<br />
werden. Ebenso wie Einschränkungen der möglichen Kopplungen<br />
durch A-priori-Wissen vorgenommen werden, werden auch einfach wissensbasiert<br />
bestimmte Parameter gekoppelt, ohne daß eine mathematische<br />
Untersuchung der Sinnhaftigkeit durchgeführt wird. So verwendet man<br />
keine kontextabhängigen akustischen Modelle für Stille oder für bestimmte
334 19. Parameterraumoptimierung<br />
Geräusche. Man nimmt einfach a priori an, daß die akustische Erscheinung<br />
der Stille nicht von den davor oder danach gesprochenen Worten abhängt.<br />
Als weiteres Beispiel des Einsatzes von A-priori-Wissen kann man die<br />
Zustandsübergangswahrscheinlichkeiten ansehen. Im JANUS-Erkenner<br />
werden diese für alle artikulatorischen akustischen Modelle einfach einmalig<br />
festgesetzt und dann nicht mehr verändert.<br />
Kopplung über den Kontext<br />
In die Entscheidung, ob zwei akustische Modelle gekoppelt werden sollen,<br />
kann auch Kontextinformation einfließen. Zwei Modelle können sich ihre<br />
gesamten akustischen Parameter teilen, wenn sie das gleiche Phonem<br />
oder Subphonem in verschiedenen aber bezüglich eines Maßes ähnlichen<br />
Kontexten modellieren. So bietet es sich an, Phoneme, deren zwei oder drei<br />
rechte und linke Nachbarn gleich sind, aber der weiter entfernte Kontext sich<br />
unterscheidet, gemeinsam zu modellieren, in der Erwartung, daß durch die<br />
verschieden weiten Kontexte der Unterschied der Akustik unbedeutend ist.<br />
Datengetriebene Kopplung<br />
Der statistisch korrekteste Weg ist die datengetriebene Kopplung. Dabei<br />
wird ein Distanzmaß zwischen verschiedenen Parametern oder Parametermengen<br />
definiert. Diejenigen Parametermengen, die eine sehr kleine Distanz<br />
haben, werden gemeinsam modelliert. Wenn die Parametermengen einzelnen<br />
akustischen Modellen entsprechen, spricht man von einer Ballung dieser<br />
Modelle. Modellballung wird in fast allen leistungsfähigen Spracherkennern<br />
eingesetzt. In der Regel handelt es sich dabei um eine hierarchische Ballung,<br />
meist unter Verwendung von Entscheidungsbäumen.<br />
19.3 Architekturentwurf<br />
Während für die Suche der besten Parameter eines gegebenen parametrischen<br />
Modells etablierte und gut verstandene Algorithmen (z.B. Maximum<br />
Likelihood) existieren, gibt es keine Möglichkeit, uniform zu berechnen, welches<br />
parametrische Modell das beste ist. Man beschränkt sich daher darauf,<br />
zwischen zwei (oder mehr) verschiedenen Modellen dasjenige auszuwählen,<br />
das gemäß eines festgelegten Kriteriums das bessere ist. Für die Einstellung<br />
der Architekturvariablen bedeutet das, daß zum Beispiel an einem gegebenen<br />
System unter verschiedenen möglichen Modifikationen diejenige tatsächlich<br />
vorzunehmen ist, der die größte Gewinnerwartung zugeordnet wird.
19.3 Architekturentwurf 335<br />
Als Kriterien zur Bewertung einer Architekturmodifikation dienen<br />
in der Regel Maße, die basierend auf der Gesamtwahrscheinlichkeit der<br />
Trainingsdaten diejenige Architektur bevorzugen, für die die Gesamtwahrscheinlichkeit<br />
aller Trainingsdaten größer ist. Im folgenden werden solche<br />
Verfahren als ” likelihood-basierte“ Architekturoptimierungen bezeichnet.<br />
Andere Bewertungskriterien sind zum Beispiel solche, die andere prinzipiell<br />
wünschenswerte Eigenschaften berücksichtigen, wie den Informationsgewinn<br />
(das heißt den Entropieverlust), der durch eine Architekturmodifikation<br />
entsteht.<br />
Bei allen likelihood-basierten Optimierungsverfahren besteht die Gefahr<br />
der Überanpassung, wenn versucht wird, die Gesamtwahrscheinlichkeit aller<br />
Trainingsdaten zu optimieren, weil dabei nicht berücksichtigt wird, wie sich<br />
die Architekturmodifikation auf andere, nicht zur Trainingsmenge gehörende<br />
Daten auswirkt.<br />
Das Problem der Überanpassung ist auch bekannt aus der Theorie der<br />
künstlichen neuronalen Netze. Dort beobachtet man den Effekt, wenn ein<br />
neuronales Netz zu viele Epochen auf den Trainingsdaten trainiert wird.<br />
Wenn die Zahl der Parameter des Netzes ausreicht, so fängt es irgendwann<br />
an, die Trainingsdaten ” auswendig“ zu lernen, statt zu lernen, was deren<br />
Struktur ist. Für ungesehene Testdaten wird das im Netz gespeicherte<br />
Weltmodell ab diesem Zeitpunkt immer schlechter. Das Netz verliert an<br />
Generalisierungsfähigkeit. Das Problem wird dadurch gelöst, daß mit Hilfe<br />
einer Kreuzvalidierungsmenge der Zeitpunkt bestimmt wird, ab dem ein<br />
Leistungsabfall auf den Kreuzvalidierungsdaten eintritt. Diese Menge ist<br />
in der Regel eine Teilmenge der zur Verfügung stehenden Trainingsdaten,<br />
die, nachdem sie bestimmt ist, nicht mehr zum Trainieren verwendet wird.<br />
Sobald der Effekt der Überanpassung einsetzt, wird der Trainingsprozeß<br />
abgebrochen.<br />
Die Idee der Verwendung von Kreuzvalidierungsmengen läßt sich auch<br />
auf likelihood-basierte Optimierungsverfahren anwenden, sowohl um zu<br />
entscheiden, ob ein iterativer Optimierungsprozeß fortgeführt werden soll,<br />
als auch um zu bewerten, wie gut eine Architektur- bzw. Parametermodifikation<br />
ist. Die Bewertung einer Modifikation wird so vorgenommen,<br />
daß die Gesamtwahrscheinlichkeit der Kreuzvalidierungsmenge unter der<br />
Bedingung des modifizierten Systems berechnet wird. Wenn nun mehrere<br />
mögliche Systemmodifikationen antizipiert werden, dann sollte diejenige<br />
ausgeführt werden, die den größten Wahrscheinlichkeitsgewinn verspricht.<br />
Bei einem iterativen Optimierungsverfahren sollte das Verfahren so lange<br />
fortgesetzt werden, bis auf der Kreuzvalidierungsmenge kein Gewinn mehr<br />
festzustellen ist. Man sieht leicht ein, daß ohne eine Kreuzvalidierungsmenge<br />
ein Optimierungsverfahren, das die Zahl der Parameter mit jedem Schritt
336 19. Parameterraumoptimierung<br />
erhöht, auch die Gesamtwahrscheinlichkeit der Trainingsdaten beliebig weit<br />
erhöhen kann, im Extremfall so weit, daß jedes einzelne Trainingsdatum<br />
seinen eigenen Parameter im Parameterraum hat.<br />
Typische Vorgehensweisen beim Architekturentwurf werden selten<br />
veröffentlicht. Bei den obligatorischen Systembeschreibungen der Spracherkenner,<br />
die an den offiziellen internationalen (D)ARPA Evaluationen<br />
teilnehmen, werden die Parameterräume zwar beschrieben, aber man findet<br />
kaum Informationen darüber, warum diese Architektur ausgewählt wurde.<br />
In der Praxis sieht zum Beispiel die Optimierung der Zahl der akustischen<br />
Modelle so aus, daß für eine Reihe verschiedener Werte ein Erkenner trainiert<br />
und danach evaluiert wird. Der am besten arbeitende Erkenner wird<br />
schließlich zum System der Wahl. Oft läßt sich dieses Vorgehen allerdings<br />
automatisieren, so daß die Hauptlast vor allem durch den Rechenzeitbedarf<br />
bestimmt wird.<br />
19.4 Kompaktifizierung<br />
Ein kompakter Parameter hat mehrere Vorteile. Dazu gehören nicht nur<br />
die leichtere Trainierbarkeit sondern auch Aufwandsaspekte. Weniger<br />
Parameter können sowohl den zeitlichen als auch räumlichen Aufwand von<br />
Spracherkenner deutlich senken. Insbesondere im Hinblick darauf, daß in<br />
naher Zukunft die Spracherkennungstechnologie immer mehr in alltägliche<br />
kleine Geräte Einzug finden wird, ist es wichtig, auch mit kleinen Ressourcen<br />
gute Ergebnisse zu erzielen.<br />
19.4.1 Typen von Kovarianzmatrizen<br />
Es gibt verschiedene Gründe anzunehmen, daß die Verwendung von normalen<br />
Kovarianzmatrizen für die Berechnung der HMM Emissionswahrscheinlichkeiten<br />
mit Mixturen von Normalverteilungen nicht die beste denkbare<br />
Lösung ist. Die Gründe dafür sind zum einen praktischer Natur. Die Anzahl<br />
der Parameter einer vollen Kovarianzmatrix für einen d-dimensionalen<br />
Merkmalsraum beträgt d(d + 1)/2, während die Mittelwertevektoren<br />
lediglich jeweils d Parameter haben. Dadurch ergibt sich nicht nur ein<br />
enormer Speicherbedarf, sondern auch das Problem der Trainierbarkeit.<br />
Viele Parameter benötigen auch viele Trainingsdaten, um ausreichend gut<br />
geschätzt werden zu können.<br />
Ein anderer Nachteil voller Kovarianzmatrizen ist der erhöhte Rechenaufwand.<br />
Die Berechnung einer Normalverteilung mit einer Kovarianzmatrix,
19.4 Kompaktifizierung 337<br />
bei der nur die Diagonalelemente ungleich Null sind, kann wesentlich<br />
schneller durchgeführt werden, als wenn alle Matrixelement in die Rechnung<br />
mit einbezogen werden müssen.<br />
Ein weiterer Grund, der für die Verwendung diagonaler Kovarianzmatrizen<br />
spricht, ist die Tatsache, daß viele Dimensionen des Merkmalsraumes in<br />
der Regel gar nicht nennenswert miteinander korreliert sind, insbesondere<br />
dann, wenn Vorverarbeitungsmethoden angewendet werden, die als Seiteneffekt<br />
die Dekorrelation des Merkmalsraumes haben, wie zum Beispiel die<br />
lineare Diskriminanzanalyse (LDA).<br />
Schließlich bleibt noch zu erwähnen, daß zu wenige Trainingsdaten<br />
für volle Kovarianzmatrizen leicht dazu führen können, daß Beinahe-<br />
Singularitäten entstehen, das heißt, daß die Form der Gaußglocke einer<br />
Normalverteilung in einer bestimmten Richtung so spitz ist, daß die berechnete<br />
Wahrscheinlichkeit für Merkmalsvektoren, die in die Mitte der<br />
Gaußglocke fallen, extrem hoch ausfällt, während weiter entfernt liegenden<br />
Vektoren eine extrem niedrige Wahrscheinlichkeit zugewiesen wird. Wenn so<br />
eine beinahe-singuläre Kovarianzmatrix in dem Codebuch eines bestimmten<br />
Modells vorkommt, und ein Merkmalsvektor eines anderen Modells<br />
befindet sich ” zufällig“ innerhalb dieser Beinahe-Singularität, so wird ihm<br />
eine vermutlich wesentlich überhöhte Wahrscheinlichkeit zugewiesen, im<br />
ungünstigen Fall sogar eine wesentlich höhere als diejenige, die ihm vom<br />
Codebuch seines eigenen Modells zugewiesen würde.<br />
Wenn man Viterbi-Pfade analysiert und sich diejenigen genauer ansieht,<br />
die eine verhältnismäßig kleine Gesamtwahrscheinlichkeit haben, dann<br />
findet man oft eine Pfadform, wie sie in Abbildung 19.1 dargestellt ist. Der<br />
durch ausgefüllte Punkte dargestellte Pfad sei der ” korrekte“, bestimmt<br />
zum Beispiel durch einen besseren Erkenner. Der von einem schlechteren<br />
Erkenner gefundene Pfad ist durch die nicht ausgefüllten Markierungen<br />
dargestellt. Der Grund für die Abweichung des schlechten Pfades liegt an<br />
dem mit dem Quadrat markierten Punkt. Man sieht, daß der Pfad davor<br />
sehr steil nach oben steigt, das heißt, er überspringt viele HMM Zustände in<br />
kurzer Zeit, um an dem markierten Punkt anzukommen. Danach bleibt er<br />
lange Zeit im erreichten Zustand, um schließlich wieder mit dem korrekten<br />
Pfad zu verschmelzen. In diesem Fall war die lokale Wahrscheinlichkeit des<br />
quadratisch markierten Punktes so groß, daß dieser unter allen Umständen<br />
in den Pfad mit aufgenommen werden mußte. Wie Überprüfungen in<br />
solchen Fällen ergeben haben, ist oft eine Beinahe-Singularität in einer<br />
Kovarianzmatrix des zugehörigen Modells dafür verantwortlich.<br />
Bei der Verwendung von diagonalen Kovarianzmatrizen sinkt die Wahrscheinlichkeit<br />
des Auftretens von Beinahe-Singularitäten für Modelle mit
338 19. Parameterraumoptimierung<br />
Abb. 19.1. Ein typischer schlechter Viterbi-Pfad<br />
wenigen Trainingsdaten, weil alle kleinen Eigenwerte, deren Eigenvektoren<br />
nicht nahezu parallel zu einer Raumachse liegen, auf alle Achsen verteilt“<br />
”<br />
werden. So ist z.B. die volle Kovarianzmatrix der Menge { 0 1<br />
0 , 1 } singulär,<br />
die diagonale aber nicht.<br />
Aber selbst diagonale Kovarianzmatrizen können mehr Parameter als<br />
nötig enthalten. Oft ist es möglich, ohne signifikante Leistungseinbußen<br />
statt voller oder diagonaler Kovarianzmatrizen einfach die Einheitsmatrix<br />
zu verwenden. Einen Kompromiß zwischen diagonalen Matrizen und der<br />
Einheitsmatrix stellen radiale Matrizen dar, deren Diagonalelemente alle<br />
denselben Wert r haben, wobei die Nichtdiagonalelemente alle Null sind.<br />
Es liegt nun nahe, für verschiedene Codebuchvektoren auch verschiedene<br />
Kovarianzmatrixtypen zu verwenden. Da eine volle Matrix mehr Parameter<br />
hat, ist anzunehmen, daß sie – vorausgesetzt, sie kann hinreichend gut<br />
geschätzt werden – die Daten besser modelliert als eine diagonale. Wenn<br />
also für einen Codebuchvektor sehr viele Trainingsdaten zur Verfügung<br />
stehen, dann kann es vorteilhaft sein, für diesen Vektor eine volle Matrix zu<br />
verwenden. Umgekehrt kann es sinnvoll sein, für einen Vektor, der nur sehr<br />
wenige Trainingsdaten hat, eine Matrix mit wenigen Parametern, z.B. eine<br />
radiale Matrix zu verwenden.
19.4.2 Vereinfachung von Kovarianztypen<br />
19.4 Kompaktifizierung 339<br />
Die Verwendung von diagonalen statt vollen bzw. radialen statt diagonalen<br />
Kovarianzmatrizen führt nicht nur zu einer Verkleinerung des Parameterraumes,<br />
sondern auch zu einer Beschleunigung der Berechnung der<br />
Emissionswahrscheinlichkeiten. Die Mahalanobis-Distanz zwischen x und µ<br />
mit einer vollen Kovarianzmatrix Σ −1 = (1/σi,j) berechnet sich:<br />
M = (x − µ) T Σ −1 (x − µ)<br />
d d<br />
= yi · (yj · 1/σi,j) wobei yi = xi − µi<br />
i=1<br />
j=1<br />
Dabei müssen – vorausgesetzt, die Invertierung von Σ wurde bereits<br />
berechnet – O(d2 ) Multiplikationen und O(d) Additionen und Subtraktionen<br />
durchgeführt werden.<br />
⎛ ⎞<br />
Für eine diagonale Kovarianzmatrix Σ−1 = ⎝ 1/σ1<br />
...<br />
M = (x − µ) T Σ −1 (x − µ)<br />
d<br />
= y 2 i · 1/σi<br />
i=1<br />
1/σd<br />
⎠ ergibt sich:<br />
Hier müssen nur 2d Multiplikationen und O(d) Additionen und Subtraktionen<br />
gerechnet werden.<br />
Bei einer radialen Kovarianzmatrix Σ−1 <br />
1/σ...<br />
= ergibt sich:<br />
1/σ<br />
M = (x − µ) T Σ −1 (x − µ)<br />
d<br />
= 1/σ ·<br />
i=1<br />
y 2 i<br />
also neben O(d) Additionen und Subtraktionen, nur noch d + 1 Multiplikationen.
340 19. Parameterraumoptimierung<br />
Beim Umwandeln von Kovarianzmatrizen eines Typs in einen anderen<br />
sollte stets darauf geachtet werden, daß die resultierende Determinante<br />
gleich der ursprünglichen Determinanten ist.<br />
σ1 <br />
...σd<br />
Wenn eine diagonale Kovarianzmatrix MD = in eine radiale<br />
<br />
σ...σ<br />
<br />
MR = umgewandelt wird, dann wird σ definiert als d<br />
i σi.<br />
Dann gilt |MD| = |MR|. Veranschaulicht bedeutet das, daß der Ellipsoid,<br />
der die einfache Kovarianz um den Mittelwert darstellt, umgewandelt wird<br />
in eine Kugel mit gleichem Volumen.<br />
19.4.3 Selektive Radialisierung<br />
Motivation<br />
Der Begriff Radialisierung bezeichne die Umwandlung von diagonalen Kovarianzmatrizen<br />
in radiale, entsprechend der obigen Definition. Ausgehend<br />
davon, daß Fließkommamultiplikationen den größten Teil des Aufwands zur<br />
Berechnung einer multivariaten Normalverteilung darstellen, lohnt es sich,<br />
deren Anzahl zu minimieren. Die Multiplikation mit den Diagonalwerten der<br />
inversen Kovarianzmatrizen stellen auch ca. ein Drittel aller Fließkommaoperationen.<br />
Das heißt, daß durch Radialisierung im günstigsten Fall eine<br />
Zeitersparnis von etwa 30% erwartet werden kann. In der Praxis fällt diese<br />
Zeitersparnis kleiner aus, da die heutigen Rechnerarchitekturen komplizierte<br />
Fließkommaprozessoren besitzen, die mehrere Operationen gleichzeitig bzw.<br />
im sogenannten ” Pipeline-Modus“ durchführen können, was bedeutet, daß<br />
durch Vermeidung von Rechenschritten vor allem eine geringere Auslastung<br />
der Fließkommaprozessoren, aber nur eine kleine Zeitersparnis erreicht wird.<br />
Es lohnt sich aber auch aus anderen Gründen, so viele Kovarianzmatrizen<br />
wie möglich zu radialisieren. Ein Spracherkenner mit 5 000 Codebüchern<br />
zu je 32 48-dimensionalen Normalverteilungen benötigt für seine insgesamt<br />
160 000 Mittelwertsvektoren 7.68 Millionen Parameter. Die gleiche Menge<br />
wird noch einmal für die zugehörigen diagonalen Kovarianzmatrizen<br />
benötigt. Wenn nun jede Matrix mit einem einzigen statt 48 Parametern<br />
darstellbar ist, dann reduziert sich der Gesamtparameterraum von 15.36<br />
Millionen Parametern um 49% auf nur noch 7.84 Millionen.<br />
Durch die Verwendung von radialen Kovarianzmatrizen geht natürlich<br />
Information verloren. Dafür kann aber angenommen werden, daß zumindest<br />
durch die Radialisierung der weniger gut geschätzten Kovarianzmatrizen
19.4 Kompaktifizierung 341<br />
die Generalisierungsfähigkeit des Erkenners steigt. Während der Informationsgehalt<br />
mit der Anzahl der radialisierten Matrizen sinkt, steigt<br />
die Generalisierungsfähigkeit. Diese beiden auf die Erkennungsleistung<br />
entgegengesetzt wirkenden Einflüsse könnten bei einer bestimmten Zahl von<br />
radialisierten Matrizen eine optimale Erkennungsleistung liefern, die sogar<br />
über der Leistung des unveränderten, nur diagonale Matrizen verwendenden<br />
Erkenners liegt.<br />
Auswirkungen der Radialsierung<br />
Ausgehend von einem Erkenner, dessen Fehlerrate bei 8.8% lag, wurden<br />
in einem Experiment [?] unterschiedliche Mengen an Kovarianzmatrizen<br />
radialisiert. Die Abbildung 19.2 zeigt die Fehlerraten für verschiedene<br />
Kompaktifizierungsgrade. Dabei wurden alle Kovarianzmatrizen der Codebücher<br />
mit den wenigsten Trainingsdaten radialisiert. Man sieht, daß der<br />
Fehler durch geeignete Wahl der zu radialisierenden Matrizen von 8.8%<br />
auf 8.1% reduziert werden kann. Das ist eine relative Fehlerreduktion von<br />
8%. Eine Radialisierung aller Kovarianzmatrizen führt zu einer moderaten<br />
Erhöhung der Fehlerrate um etwa 1%, bei gleichzeitiger Nahezu-Halbierung<br />
des Parameterraumes und einer Einsparung von fast einem Drittel aller<br />
Fließkommaoperationen zur Berechnung der Emissionswahrscheinlichkeiten.<br />
Fehlerrate<br />
9<br />
8.8<br />
8.6<br />
8.4<br />
8.2<br />
8<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%<br />
Menge Radialisierter Matrizen<br />
Abb. 19.2. Fehlerrate nach Radialisierung
342 19. Parameterraumoptimierung<br />
19.4.4 Kopplung von Kovarianzparametern<br />
Neben der Verwendung von Kovarianzmatrizen mit wenigen Parametern<br />
bietet sich eine weitere Möglichkeit an, Parameter einzusparen, nämlich die<br />
Kopplung von Kovarianzmatrizen verschiedener Vektoren eines Codebuchs.<br />
Auf den ersten Blick stellt sich natürlich die Frage, weshalb ein Zusammenhang<br />
zwischen den Kovarianzen verschiedener Vektoren bestehen soll. In der<br />
Praxis stellt sich aber heraus, daß es oft gar nicht nötig ist, wirklich für jeden<br />
Vektor eine eigene Matrix zu verwenden. Dadurch, daß mehrere Vektoren<br />
sich eine Matrix teilen, wird diese zwar nicht mehr so spezifisch ausfallen,<br />
ihre Determinante wird wachsen, aber dafür kann sie dann auch zuverlässiger<br />
geschätzt werden und kann eine bessere Generalisierungsfähigkeit besitzen.<br />
Im folgenden werden Experimente [?] vorgestellt, bei denen verschiedene<br />
Grade der Kopplung bis hin zur Nahezuhalbierung aller akustischen Parameter<br />
ausgewertet wurden.<br />
Distanzmaß<br />
Um zu entscheiden, ob eine gemeinsame Modellierung zweier Kovarianzmatrizen<br />
erfolgversprechend ist, wird ein Distanzmaß benötigt, so daß<br />
Matrizen, die sehr verschieden sind, seltener und einander sehr ähnliche<br />
Matrizen öfter zusammengeballt werden. Die hier beschriebenen Ballungsexperimente<br />
wurden alle mit rein diagonalen Kovarianzmatrizen durchgeführt.<br />
Als Distanzmaße wurde die einfache euklidische Distanz verwendet. Sie ist<br />
einfach die euklidische Distanz der als Vektor betrachteten Diagonalelemente.<br />
Ballung der Kovarianzmatrizen<br />
Zur Ballung der Kovarianzmatrizen wurde der folgende einfache agglomerative<br />
Algorithmus verwendet:<br />
1. bestimme für jedes Codebuch s alle Distanzen D(s, i, j) zwischen den<br />
Kovarianzmatrizen Σs(i) und Σs(j)<br />
2. für die n kleinsten Distanzen:<br />
kopple die zugehörigen Kovarianzmatrizen<br />
Dabei wurde die Wirkung des Wertes n auf die Erkennungsleistung<br />
ausgewertet. Da bei der akustischen Modellierung mit Mixturen von multivariaten<br />
Normalverteilungen der Parameterraum im wesentlichen aus den<br />
Mittelwertsvektoren und den Kovarianzmatrizen besteht, nehmen diagonale<br />
Kovarianzmatrizen also etwa die Hälfte der gesamten Parameter ein. Damit<br />
wird die maximal erreichbare Einsparung an Parametern festgelegt.
Tabelle 19.1. Fehlerraten bei Kovarianzballung<br />
19.5 Lose gekoppelte Kovarianzen 343<br />
weniger Matrizen 0 0.625% 1.25% 2.5% 5% 10% 20%<br />
Fehlerrate 8.8% 8.9% 8.9% 8.9% 9.7% 11.2% 20.2%<br />
Man sieht aus Tabelle 19.1, daß durch Ballung von Kovarianzmatrizen<br />
mit euklidischer Distanz keine sinnvolle Kompaktifizierung des Parameterraumes<br />
möglich ist. Schon ab einer Beseitigung von nur 5% der Matrizen<br />
stellt sich eine nicht mehr tolerable Steigerung der Fehlerrate ein. An dieser<br />
Stelle bleibt die Frage offen, ob durch ein anderes Distanzmaß, oder ein<br />
spezielles Nachtrainieren des reduzierten Systems ein besseres Ergebnis<br />
erreichbar ist.<br />
In diesem Kapitel wurde gezeigt, daß es möglich ist, einen bereits<br />
trainierten Erkenner mit großem Parameterraum so zu verkleinern, daß ca.<br />
die Hälfte aller Parameter eingespart werden, ohne daß dies zu Lasten der<br />
Erkennungsleistung geht.<br />
Weniger erfolgreich verliefen Experimente, die zum Ziel hatten, die<br />
Anzahl der Referenzvektoren zu reduzieren. Keines der drei untersuchten<br />
Auswahlkriterien für zu entfernende Vektoren führte zu einer signifikanten<br />
Verkleinerung des Parameterraumes ohne eine gleichzeitige deutliche<br />
Erhöhung der Fehlerrate.<br />
Erfolgreicher war Idee der Radialisierung der Kovarianzmatrizen. Durch<br />
die Radialisierung bleibt die Determinante und somit das Volumen des durch<br />
die Kovarianzmatrix beschriebenen Ellipsoiden unverändert. Allerdings<br />
genügt ein einziger Parameter je Kovarianzmatrix, und die Zeit zur Berechnung<br />
der HMM-Emissionswahrscheinlichkeiten kann zusätzlich reduziert<br />
werden.<br />
19.5 Lose gekoppelte Kovarianzen<br />
Wie bei allen parametrischen Klassifikatoren, so auch bei Gauß-<br />
Mischverteilungen, hängt die Qualität der Parameter von der Menge<br />
der Trainingsdaten ab, mit deren Hilfe sie geschätzt werden. Da für das
344 19. Parameterraumoptimierung<br />
Schätzen voller Kovarianzmatrizen in der Regel nicht ausreichend viele<br />
Trainingsmuster zur Verfügung stehen bietet sich ein Vorgehen an, das in<br />
der Literatur als semitied covariances bezeichnet wird [?]. Hierbei werden<br />
für die Gauß-Mischverteilungen diagonale Kovarianzmatrizen Dj verwendet,<br />
allerdings teilen sich mehrere Gauß-Verteilungen zusätzlich eine gemeinsame<br />
volle Matrix A, so daß die effektive Kovarianzmatrix ADjA ⊤ ist und<br />
der Wahrscheinlichkeitswert für die Beobachtung x im Modell j wie folgt<br />
berechnet wird:<br />
1<br />
<br />
2πd |ADjA⊤ | e−12<br />
(x − µj) ⊤ (ADjA ⊤ ) −1 (x − µj)<br />
(19.1)<br />
Hierbei ist die Kovarianzmatrix σj = ADj, das Produkt einer modellunabhängigen<br />
vollen Matrix A und einer modellabhängigen Diagonalmatrix<br />
Dj. Die Berechnung von Gl. 19.1 kann vereinfacht werden:<br />
1 1<br />
<br />
|A| 2 2πd |Dj| e−12<br />
(x′ − µ ′ j )⊤D −1<br />
j (x′ − µ ′ j )<br />
mit<br />
(19.2)<br />
x ′ = A −1 x und µ ′ = A −1 µ (da A = A ⊤ ) (19.3)<br />
In Gl. 19.2 ist zu erkennen, daß für die Verwendung von semitied covariances<br />
kein besonderer zusätzlicher Rechenaufwand während der Erkennung<br />
nötig ist. Die resultierende Gauß-Verteilung ist verwendet weiterhin eine<br />
diagonale Kovarianzmatrix. Lediglich die Mittelwerte sowie die Vorfaktoren<br />
der Verteilungen müssen angepaßt werden. Die Multiplikation der Beobachtung<br />
x kann unter Umständen mit anderen Linearen Operationen in<br />
der Signalverarbeitung (zum Beispiel LDA, Vokaltraktlängennormierung<br />
oder ähnliche) kombiniert werden. Es ist nicht möglich, diejenige Matrix<br />
A, die die Beobachtungswarhscheinlichkeit aller Trainingsdaten optimiert,<br />
analytisch zu bestimmen. Daher ist wird ein iteratives Verfahren ähnlich<br />
dem Expectation Maximization Algorithmus verwendet.
20. Erkennung von Spezialvokabular<br />
Standard Spracherkenner versagen oft, wenn es darauf ankommt Dinge zu<br />
Erkennen, die in gewöhnlicher vorgelesener Sprache selten vorkommen. Dazu<br />
gehören zum Beispiel Buchstabierungen, bestimmte Eigennamen oder auch<br />
besondere Aussprachen. Diese Probleme lassen sich erleichtern, indem spezielle<br />
Spracherkenner oder Standard Spracherkenner mit speziellen Algorithmen<br />
verwendet werden, die genau auf dieses außergewöhnliche Vokabular<br />
spezialisiert sind. Im folgenden wird eine Auswahl von spezialisierten Erkennungsmethoden<br />
vorgestellt.<br />
20.1 Buchstabiererkennung<br />
Auch wenn in der natürlichen Sprache Buchstabierungen eher selten vorkommen<br />
und ein schlechtes Abschneiden eines Erkenners auf diesen Passagen sich<br />
auf die Gesamtperformanz eher wenig auswirkt, so gehören diese Fehler zu<br />
den unangenehmsten, weil der <strong>Mensch</strong> Buchstabierungen benutzt um entweder<br />
Eigennamen (Abkürzungen) von Firmen, Ereignissen zu referenzieren,<br />
oder um die Orthographie eines Wortes exakt zu definieren. Gerade in diesen<br />
Fällen, in denen es um die korrekte Orthographie geht, ist jeder Fehler ein<br />
Kardinalfehler. Bei einigen Erkennungsaufgaben sind Buchstabierungen fast<br />
immer die geeignetste Art der Informationsübermittlung, zum Beispiel beim<br />
Angeben seiner Adresse oder seines Namens. In Auto-Navigationssystemen<br />
ist Sprache ohnehin die schon aus Sicherheitsgründen vorzuziehende Bedienungsmethode,<br />
allerdings ist es relativ schwierig, Straßennamen aus einem<br />
Katalog von Hunderttausenden zu erkennen. Die Perplexität und die Verwechselbarkeit<br />
sind so hoch, daß ein Ausweichen auf die Buchstabierung die<br />
beste Methode darstellt. Gegebenenfalls kann ein Straßenname sogar als Wort<br />
ausgesprochen werden und zusätzlich buchstabiert werden. Durch dieses Redundanz<br />
wird die Aufgabe für den Erkenner wesentlich erleichtert. In solchen<br />
Fällen kann dann ein regulärer Erkenner für kontinuierliche Sprache verschiedene<br />
Hypothesen für den kontinuierlich gesprochenen Namen produzieren,<br />
unter denen der korrekte Name oft nicht die höchste Wahrscheinlichkeit hat.<br />
Ein zweiter Erkenner, der auf Buchstabiersequenzen spezialisiert ist, kann<br />
die Buchstabierung erkennen und ebenfalls mehrere Hypothesen erzeugen.
346 20. Erkennung von Spezialvokabular<br />
Eine Kombination der beiden Hypothesenlisten sieht im einfachsten Falle so<br />
aus, daß durch einfache Multiplikation der Wahrscheinlichkeiten ” gleicher“<br />
Namenshypothesen eine gemeinsame Hypothesenliste gebildet wird, in der<br />
dann mit höherer Wahrscheinlichkeit die korrekte Hypothese die beste ist (s.<br />
Abb. 20.1).<br />
Kontinuierlicher<br />
Erkenner<br />
Göthestraße<br />
Gothaer Straße<br />
Mörikestraße<br />
Gatterstraße<br />
Geraer Straße<br />
Göttersberg<br />
Krötengraben<br />
.<br />
0.19<br />
0.11<br />
0.09<br />
0.07<br />
0.04<br />
0.02<br />
0.01<br />
Buchstabier-<br />
Erkenner<br />
GERAERST...<br />
GEBERTS...<br />
GATTERS...<br />
GOTHAER...<br />
GOTTLIEB...<br />
GÖTHEST...<br />
GABLERS...<br />
.<br />
0.22<br />
0.10<br />
0.09<br />
0.08<br />
0.07<br />
0.05<br />
Abb. 20.1. Kombination von n-besten Hypothesen<br />
Gemeinsame<br />
n-besten Liste<br />
Gothaer Straße 0.0099<br />
Göthestraße<br />
.<br />
0.0095<br />
Geraer Straße 0.0088<br />
Gatterstraße 0.0063<br />
Gottliebstraße 0.0006<br />
Gartenstraße 0.0003<br />
0.04 Gablerstraße 0.0001<br />
Schon bei der Erkennung einzelner Buchstaben (z.B. der B-D-G-Task)<br />
wurde festgestellt, daß einfache Mustervergleicher mittels dynamischen<br />
Programmierens unter anderem deshalb Probleme haben, weil ein großer<br />
zeitlicher Teil der akustischen Evidenz eines Buchstaben nicht für die<br />
Unterscheidung von den anderen hilfreich ist. So sind die zur Unterscheidung<br />
der Buchstaben B, D und G wichtigen Verschlußlaute, die Phoneme b, d und<br />
g, nur sehr kurz, während die zur Unterscheidung unwichtigen Endungen,<br />
das Phonem esehr viel Raum einnimmt und so viel mehr zum Distanzmaß<br />
beiträgt.<br />
Wenn solche Eigenschaften des zu erkennenden Vokabulars vorher<br />
bekannt sind, kann der Erkenner auch daraufhin optimiert werden. Spezielle<br />
Trainingsmethoden oder Parameterräume können die Erkennungsraten<br />
deutlich verbessern.<br />
Eine wichtige Eigenschaft, die für die Erkennung von Buchstabiersequenzen<br />
erfolgversprechend ist, ist ein diskriminatives Training, wobei sich<br />
die Verwendung der Systemparameter vermehrt auf die Unterscheidung der<br />
Buchstaben konzentriert statt auf die möglichst exakte Modellierung jedes<br />
einzelnen Buchstaben unabhängig von den anderen. Immer wenn es um<br />
diskriminatives Training geht drängt sich die Idee der künstlichen neuronalen
20.1 Buchstabiererkennung 347<br />
Netze auf. In den letzten Jahren wurden immer wieder Methoden entwickelt,<br />
um Standard Modelle, die klassenabhängige Wahrscheinlichkeiten schätzen,<br />
auf diskriminative Art zu trainieren (Korrectives Training Abs. 13.3.1,<br />
Maximum Mutual Information Estimation - MMIE Abs. 13.3.1 und andere).<br />
Bei einem Buchstabiererkenner gibt es im Grunde zwei Vokabulare. Das<br />
eine besteht aus den ca. 30 Buchstabenbezeichnungen (A bis Z, Umlaute,<br />
Strich, Scharf-S, etc.), das andere aus den Wörtern, die Buchstabiert werden<br />
können. Im Prinzip läßt sich ein Erkenner bauen, dessen Vokabular aus nur<br />
den Buchstaben besteht, der aber ein n-Gramm Sprachmodell verwendet,<br />
wobei ” Gramm“ in diesem Fall nicht für ” Wort“ sondern für “Buchstabe“<br />
steht. Ein solcher Erkenner kann dann beliebige Buchstabensequenzen<br />
erkennen, bevorzugt aber diejenigen, die wahrscheinlicher sind. Ganz ohne<br />
Verwendung eines Buchstabensprachmodells wären alle (gleich langen)<br />
Buchstabenfolgen gleich wahrscheinlich. Der negative Effekt auf die Erkennungsrate<br />
wäre vergleichbar mit dem Effekt auf einen kontinuierlichen<br />
Spracherkenner, der kein Sprachmodell verwendet. Beim Buchstabieren stellt<br />
sich jedoch heraus, daß das zu verwendende Sprachmodell mit wachsendem<br />
Namensverzeichnis eine sehr große Kontextbreite (n-Gramme mit n >> 2)<br />
benötigt. Würden nur Bigramme oder Trigramme verwendet, so wäre<br />
deren Einfluß relativ gering. Eine wesentlich stärkere Einschränkung des<br />
Suchraums durch das Sprachmodell läßt sich durch Bauen eines minimalen<br />
Automaten erreichen [?] (s. Abb. 20.2).<br />
M<br />
01<br />
A I<br />
01<br />
Start<br />
I<br />
Y E<br />
L L<br />
N<br />
S K<br />
R<br />
Y<br />
Ende<br />
Abb. 20.2. Endlicher Mealy-Automat zum Buchstabieren von Maier, Mayer, Miller<br />
und Minsky<br />
Würde man alle zu erkennenden Buchstabiersequenzen als einzelne<br />
Wörter betrachten, könnte ein Isoliertworterkenner gebaut werden. Bei<br />
einem sehr großen Vokabular sollte der Zustandsraum kompaktifiziert<br />
werden, zum Beispiel in Form eines phonetischen Präfix-Baumes oder gleich
348 20. Erkennung von Spezialvokabular<br />
als minimierter Automat.<br />
Wenn die Benutzerschnittstelle so gestaltet ist, daß das System weiß,<br />
wann der Sprecher Buchstabierfolgen eingibt, kann ein isoliertes System<br />
mit einem Automaten wie in Abb. 20.2 direkt auf der Aufnahme eingesetzt<br />
werden. Dies wurde zum Beispiel in [?] für eine vollautomatische Telefonauskunft<br />
bzw. Telefonvermittlung mir sehr guter Erkennungsleistung gemacht.<br />
In vielen Anwendungen muß aber damit gerechnet werden, daß neben<br />
den Buchstabiersequenzen auch fließend gesprochene Wörter oder Phrasen<br />
auftreten, zum Beispiel: Mein Name ist Maier, M, A, I, E, R, ich wohne in<br />
”<br />
...“. Für solche Aufgaben genügt ein reiner Buchstabiererkenner nicht. Dann<br />
ist die beste Vorgehensweise eine Hintereinanderausführung von Erkennung<br />
mit einem kontinuierlichen Spracherkenner und einem spezialisierten Buchstabiererkenner<br />
[?]. Der Standard Spracherkenner erkennt dann im obigen<br />
Beispiel womöglich Mein Name ist Maier M ah Ihr R ich wohne in ...“. Mit<br />
”<br />
Hilfe von Konfidenzmaßen und eines Sprachmodells kann die Wortsequenz<br />
” M ah Ihr R“ als wahrscheinliche Buchstabierfolge identifiziert und der<br />
entsprechende Teil aus dem Sprachsignal herausgeschnitten werden, so daß<br />
der spezialisierte Buchstabiererkenner darauf die korrekte Buchstabenfolge<br />
erkennen kann. Ein Vergleich des Buchstabierhypothese mit der Hypothese<br />
des Standarderkenners kann am Ende noch zusätzliche Informationen liefern,<br />
die zur Entscheidung oder Revidierung, daß es sich um Buchstabieren<br />
handelt, verwendet werden können.<br />
20.2 Erkennung beliebiger Namen<br />
Lange Zeit wurde die Forschung auf dem Gebiet der Erkennung unbekannter<br />
Wörter vernachlässigt. Dies geschah vor allem deshalb, weil ein Großteil<br />
der Forschung auf englischer bzw. amerikanisch-englischer Sprache stattfand<br />
und immer noch stattfindet. Aufgrund der sehr wenigen Flexionen und<br />
sehr eingeschränkten Möglichkeiten der Komposition von Wörtern im<br />
Englischen genügen in der Regel wenige hunderttausend Wörter in einem<br />
Erkennervokabular um weit über 99% des Wörter der allermeisten Dokumente<br />
abzudecken. Von den nicht abgedeckten Wörtern sind die meisten<br />
Eigennamen, Abkürzungen oder seltene Symbolfolgen (z.B. Zahlen).<br />
Weil seit den achtziger Jahren fast ausschließlich die Wortfehlerrate als<br />
Maß für die Qualität eines Spracherkenners verwendet wurde, und weil dabei<br />
keine Unterscheidung gemacht wurde, welche Fehler schwerwiegender sind<br />
oder welche Fehler schwerwiegendere Konsequenzen für die nachgeschalteten<br />
Systeme wie Verstehen und Übersetzen haben, wurde auch wenig Energie in<br />
die Erkennung dieser OOV-Wörter investiert. In der Praxis stellt sich aber
20.2 Erkennung beliebiger Namen 349<br />
heraus, daß gerade das Falscherkennen oder Nichterkennen von Eigennamen<br />
zwar selten aber dafür umso ärgerlicher ist. Wenn gelegentlich der Kasus<br />
eines Artikels nicht richtig erkannt wird (dem statt den), so hat das meistens<br />
keine negativen Konsequenzen, der Satz kann immer noch richtig verstanden<br />
und übersetzt werden, die Reaktion des Gesamtsystems fällt immer noch zur<br />
Zufriedenheit des Benutzers aus. Wenn aber ein Eigenname (Person, Ort,<br />
Firma, Ereignis, etc.) falsch erkannt wird, ist ein korrektes Verstehen meist<br />
gar nicht möglich.<br />
Bei der Behandlung von unbekannten Wörtern gibt es zwei wesentliche<br />
Probleme zu lösen: Zum einen muß der Erkenner detektieren, daß an<br />
einer bestimmten Stelle ein unbekanntes Wort wahrscheinlich ist, und zum<br />
anderen muß er dann an dieser Stelle ein Wort hypothetisieren, das nicht in<br />
seinem Vokabular vorhanden ist.<br />
Die Detektion des Vorhandenseins eines Wortes außerhalb des Erkennervokabulars<br />
(OOV-Wort) kann auf unterschiedliche Art geschehen. In der<br />
Regel wird ein Detektor nicht nur eine binäre Entscheidung treffen, sondern<br />
eine bestimmte Wahrscheinlichkeit dafür schätzen, daß an einer Stelle der<br />
Hypothese ein OOV-Wort steht.<br />
Die naheliegendste Methode für solche Schätzungen ist die direkte Verwendung<br />
einer OOV-Sprachmodellklasse. Meist werden beim Berechnen von<br />
Sprachmodellen mit Hilfe großer Textkorpora selten beobachtete Wortfolgen<br />
als sogenanntes Discounting nicht explizit geschätzt. In vielen Fällen werden<br />
nicht nur ganze Wortfolgen, sondern sogar selten vorkommende Wörter –<br />
egal in welchem Kontext – überhaupt nicht modelliert. Wenn diese Wörter<br />
im Trainingstext für das Sprachmodell durch ein spezielles Wort, z.B.<br />
” OOV“, ersetzt werden, und nicht in das Vokabular des Erkenners aufgenommen<br />
werden, dann berechnet das Sprachmodell die Wahrscheinlichkeit,<br />
daß OOV“ an einer bestimmten Stelle auftritt. Diese Wahrscheinlichkeit<br />
”<br />
ist im Grunde schon relativ gut geschätzt, und weitere Informationsquellen<br />
scheinen nicht nötig zu sein, insbesondere wenn man bedenkt, daß bei vielen<br />
Erkennungsaufgaben die Wahrscheinlichkeit, ein OOV-Wort zu beobachten,<br />
sowieso ziemlich klein ist. Weitere Informationsquellen können aus dem akustischen<br />
Modell kommen. Typischerweise würde man erwarten, daß an einer<br />
Stelle der Hypothese, an der die Wahrscheinlichkeiten, die das akustische<br />
Modell für ein Wort liefert, wesentlich höher ist als die Wahrscheinlichkeiten<br />
für alle anderen Wörter, der Erkenner viel sicherer, d.h. konfidenter, ist als<br />
an einer Stelle, an der viele verschiedene Wörter eine Wahrscheinlichkeit<br />
ähnlich der besten Wahrscheinlichkeit haben. An solchen Stellen niedriger<br />
Konfidenz ist eher anzunehmen, daß ein OOV-Wort vorliegt, als an Stellen<br />
hoher Konfidenz.
350 20. Erkennung von Spezialvokabular<br />
Verschiedene Vorgehensweisen wurden untersucht, um nicht nur neue<br />
Wörter zu detektieren, sondern auch um eine sinnvolle Hypothese an ihrer<br />
Stelle auszugeben. In [?] wurde ein generisches Modell Verwendet, das durch<br />
ein großes HMM modelliert wurde, das alle Phoneme und eine gewisse<br />
Phonotaktik in Form bestimmter erlaubter Zustandsübergänge enthielt.<br />
Dieses Neue-Wörter-HMM wurde in der Suche genauso wie alle anderen<br />
Wörter verwendet und konkurrierte mit diesen. In vielen Fällen wurde<br />
das Neue-Wörter-HMM in die Hypothese eingebunden, wenn keines der<br />
Vokabularwörter eine ausreichend hohe Wahrscheinlichkeit hatte. Durch die<br />
relativ Große Freiheit in der Bildung von Phonemfolgen konnte in solchen<br />
Fällen die Wahrscheinlichkeit für irgend eine erlaubte Phonemfolge des<br />
Neue-Wörter-HMMs größer sein als die für jedes Vokabularwort (inklusive<br />
der entsprechenden Sprachmodellwahrscheinlichkeiten). Als Hypothese kann<br />
dann die Folge der Zustände durch das HMM angegeben werden, die dann<br />
zumindest die phonetische Repräsentation des Wortes Enthält, welche von<br />
einem geeigneten Algorithmus (zum Beispiel mittels HMMs [?]) in eine<br />
Textuelle Form gebracht werden kann.<br />
Für Diktiererkenner ist eine Vorgehensweise sinnvoll, wie sie zum Beispiel<br />
in der HDLA-Techik (s. Abs. 16.7.2) verwendet wird. Dort wird das Lexikon<br />
nach der ersten Erkennung verändert. Aus einem riesigen Hintergrundlexikon,<br />
das der Spracherkenner nicht verarbeiten könnte, das aber sehr viele<br />
Wörter und Eigennamen enthält, werden die erfolgversprechendsten Kandidaten<br />
anhand der zunächst fehlerhaften Hypothese ausgewählt und in das<br />
Erkennnervokabular aufgenommen. Ein erneuter zweiter Erkennungsvorgang<br />
hat dann eine größere Wahrscheinlichkeit, die korrekte Ausgabe zu liefern.<br />
Bei spontaner Sprache entsteht ein zusätzliches Problem, das bei<br />
Diktiererkenner weniger wichtig ist, nämlich das häufige Vorkommen von<br />
Wortfragmenten. Man kann nicht wirklich erwarten, daß ein Hintergrundlexikon<br />
nicht nur fast alle sinnvollen Wörter enthält und zusätzlich noch<br />
aller möglicherweise sprechbaren Wortfragmente. Daher wird in [?] ein<br />
Algorithmus vorgestellt, der einen endlichen Automaten aus einer Liste<br />
aller im Deutschen regulären Silben (ca. 11 000 Stück) baut, und dieses als<br />
Neue-Wörter-Modell verwendet.<br />
In [?] wird vor allem die Problematik der unbekannten Eigennamen<br />
behandelt, die sich oft nicht an die übliche Phonotaktik halten. Die dort<br />
verfolgte Idee besteht darin, keine ganzen Wörter durch HMMs mit hohen<br />
Freiheiten bei der Phonemfolgenwahl zu modellieren, sondern nur Teile<br />
davon. Die Anfänge der neuen Wörter müssen statt dessen mit einer<br />
Phonemsequenz aus einer aus den Trainingsdaten gewonnenen Menge<br />
beginnen. Dadurch werden dem Erkenner weniger Freiheiten gegeben und<br />
die Wahrscheinlichkeit für das Auftreten so genannter false alarms für
20.2 Erkennung beliebiger Namen 351<br />
OOV-Wörter an Stellen, an denen gar keine sind, minimiert.<br />
Je nach Erkennungsaufgabe (Diktieren oder spontaner Dialog), je nach<br />
Domäne (viele oder wenige Eigennamen) und je nach Vokabulargröße ist<br />
eine andere Vorgehensweise die sinnvollste. Ganz grob läßt sich sagen: je<br />
mehr Freiheiten der Sprecher beim Sprechen hat umso mehr sollte auch der<br />
Erkenner beim Konstruieren der neuen Wörter haben.
21. Robustheit und Adaption<br />
Lange Zeit waren Spracherkenner nur unter ganz bestimmten eng umrissenen<br />
Umständen verwendbar. Noch Ende der achtziger Jahre waren<br />
die Forderungen nach Sprecherabhängigkeit, hochqualitativen Nahbesprechungsmikrophonen,<br />
und relativ kleinen Vokabularen kaum zu umgehen.<br />
Die verwendeten Domänen mußten sich mit relativ einfachen Grammatiken<br />
beschreiben lassen und eine niedrige Perplexität haben. Der verwendete<br />
Sprachstil mußte dem beim Diktieren sehr nahe kommen. Spontane<br />
Sprache war nur sehr eingeschränkt einsetzbar. Die Umgebung durfte keine<br />
Störgeräusche produzieren und mußte möglichst ständig unverändert bleiben.<br />
Das Abweichen von einer dieser Forderungen führte stets zu einer<br />
deutlichen Erhöhung der Fehlerrate. So galten die Daumenregeln, daß<br />
sprecherunabhängige Erkenner doppelt so viele Fehler machen wie sprecherabhängige.<br />
Erkenner für spontane Sprache machten zwei bis drei mal<br />
so viele Fehler wie Diktiererkenner. Ähnlich Faktoren waren auch bei den<br />
anderen Problemen zu beobachten. Auch wenn die einzelnen Problemdimensionen<br />
nicht ganz orthogonal sind, so gilt dennoch oft, daß die Faktoren<br />
bei Erkennern, die mehere Probleme gleichzeitig angehen sich tendenziell<br />
multuplikativ verhalten.<br />
In diesem Zusammenhangen bezeichnet der Begriff Robustheit, die<br />
Fähigkeit eines Spracherkenners, nicht nur unter kanonischen Bedingungen<br />
sondern auch unter veränderten Umständen gut erkennen zu können. Also<br />
zum Beispiel auch dann, wenn der Sprecher sich ändert, der Sprechstil sich<br />
wechselt, der Erkenner in einer andere Umgebung wie etwa im fahrenden<br />
Auto oder auf der Straße eingesetzt wird, oder auch die Domäne und somit<br />
das Vokabular und die typischen Wortfolgen sich ändern.<br />
Die Geschichte der Spracherkennung läßt einen deutlichen roten Faden<br />
erkennen, der das Bestreben nach immer höherer Robustheit beschreibt.<br />
Tendenziell ist es sogar so, daß wenn ein Problemtyp wie zum Beispiel das<br />
Diktieren einigermaßen als gelöst erscheint, die Forschergemeinde das nächst<br />
schwierigere Problem angeht. Obwohl man zugeben muß, daß Diktiersysteme<br />
noch nicht die Qualität haben, die sie bräuchten, um eine weite Verbreitung
354 21. Robustheit und Adaption<br />
zu finden, fokussiert sich ein Großteil der Forschung auf wesentlich schwierigere<br />
Probleme wie das Erkennen spontaner Telefondialoge. Dies illustriert<br />
die Bedeutung, die der Problematik der Robustheit zugemessen wird.<br />
Zu den Verfahren, die am meisten zur Verbesserung der Robustheit<br />
beitragen, gehören verschiedene Methoden der Adaption. Hierbei gibt es<br />
zahlreiche Verfahren, die auf allen Ebenen eines Spracherkenners, von der<br />
Signalverarbeitung bis hin zur Nachbearbeitung der Hypothesen, eingesetzt<br />
werden. Im diesem Kapitel werden einige der wichtigeren vorgestellt.<br />
21.1 Sprecherabhängigkeit<br />
Die Fehlerraten für verschiedene Sprecher können mit dem selben Erkenner<br />
extrem stark variieren. Abb. 21.1 zeigt die Fehlerraten für die Sprecher 4t1<br />
bis 4tk der DARPA Wall Street Journal Evaluation vom Dezember 1994. Für<br />
jeden Sprecher sind die Fehlerraten mit allen Erkennern als Kreuze markiert.<br />
Abgesehen von der Schwankung der Fehlerraten für jeden einzelnen Sprecher<br />
ist erkennbar, daß die Fehler beim besten Sprecher, 4t3, zwischen ca. 2% und<br />
8% liegen, während die Fehler für den schwierigsten Sprecher, 4td, zwischen<br />
ca. 25% und 50% also etwa zehn mal so hoch liegen.<br />
Es gibt nun verschiedene Möglichkeiten, Erkenner auf einen bestimmten<br />
Sprecher zu adaptieren. Einige Eigenschaften, die einzelne Sprecher von<br />
anderen unterscheiden sind relativ leicht zu beschreiben, dazu gehören<br />
zum Beispiel die typische Sprechgeschwindigkeit, der gesprochene Dialekt<br />
oder Akzent, das Geschlecht und die damit verbundene Anatomie des<br />
Artikulationsapparates. Andere Eigenschaften sind wesentlich schwieriger<br />
zu beschreiben und sind fast nur in den Parametern der Spracherkenner<br />
wiederzufinden.<br />
Bereits erfolgreich eingesetzt wurden Verfahren, bei denen verschiedene<br />
Erkenner für verschiedene Gruppen von Sprechern trainiert wurden. Bei<br />
der Konstruktion von Multilingualen Erkennern sieh man es als selbstverständlich<br />
an, daß die erste naheliegende Vorgehensweise das Training<br />
von Sprachenabhängigen Erkennern ist, und das Training eines sprachenunabhängigen<br />
Erkenners erst danach folgt. Im grunde könnte man die gleiche<br />
Argumentation auch für Gruppen von Sprechern gelten lassen. Solange<br />
ausreichend viele Trainingsdaten für jede Gruppe zur Verfügung stehen,<br />
kann es sehr wohl von Vorteil sein, mehrere in sich homogene Gruppen<br />
zu definieren, die jeweils eine kleine Streuung für die HMM-Parameter zur<br />
Folge haben und so sehr gute ” scharfe“ Modell haben.
50<br />
45<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
21.1 Sprecherabhängigkeit 355<br />
+ + + + +<br />
+<br />
+ + + + +<br />
+<br />
+<br />
+ +<br />
+<br />
+ +<br />
+<br />
+<br />
+ + + + + + + + +<br />
+ + + + + +<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+ + + + + + +<br />
+<br />
+<br />
+<br />
+ +<br />
+<br />
+ + + +<br />
+ +<br />
+<br />
+ + + + + +<br />
+ + + + +<br />
+ + +<br />
+<br />
+ +<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+ +<br />
+ + + +<br />
+<br />
+<br />
+ +<br />
+ +<br />
+<br />
+ + + + + + + + + +<br />
+<br />
+<br />
+ +<br />
+<br />
+ +<br />
+<br />
+<br />
+ +<br />
+ + + +<br />
+ +<br />
+ +<br />
+<br />
+<br />
+ +<br />
+ +<br />
+ + + +<br />
+ + + +<br />
+ + + + +<br />
+<br />
+<br />
+ +<br />
+ +<br />
+<br />
+ + + + +<br />
+<br />
+<br />
+ + + +<br />
+ +<br />
+ +<br />
+<br />
+<br />
+ +<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+ +<br />
+ + +<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+ + + +<br />
+<br />
+ + + +<br />
+<br />
+<br />
+ +<br />
+ +<br />
+ + +<br />
+ +<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+<br />
+ +<br />
+<br />
+<br />
+<br />
+ +<br />
+<br />
+<br />
+<br />
+<br />
+ + + + + +<br />
+ +<br />
+<br />
+ + + +<br />
+<br />
+<br />
+<br />
+<br />
+ +<br />
+<br />
+ + + +<br />
+ +<br />
+<br />
+<br />
+ + + +<br />
+<br />
+<br />
+ +<br />
+<br />
+<br />
+ +<br />
+ + + + + + + +<br />
+<br />
+<br />
+<br />
+ +<br />
+<br />
+<br />
+ +<br />
+<br />
+ +<br />
4t34t94ta4th4tc 4t74t1 4te 4t54tk4t2 4ti 4t44t8 4tj 4tb4tg4t04t64td<br />
Abb. 21.1. Fehlerraten für verschiedene Sprecher und Erkenner<br />
Die erste naheliegende Auftrennung der Sprecher in Gruppen ist die<br />
Auftrennung in Geschlechter. So sind oft zwei getrennte Erkenner, einer für<br />
Frauen und einer für Männer, die jeweils mit der Hälfte der Trainingsdaten<br />
trainiert wurden, besser als ein geschlechtsunabhängiger Erkenner, der<br />
mit allen Daten trainiert wurde; natürlich vorausgesetzt, daß vor dem<br />
eigentlichen Erkennungsvorgang das Geschlecht des Sprechers bestimmt<br />
werden kann.<br />
Die Bestimmung des Geschlechts kann zumindest in den meisten Sprachen<br />
nicht mit Hilfe linguistischer oder phonetischer Mittel, wie sie zum Beispiel<br />
für die Bestimmung der Sprache oder des Dialekts verwendet werden,<br />
durchgeführt werden. In vielen Sprachen gibt es zwar geschlechtsabhängige<br />
Partizipien oder es wäre möglich, bei selbstbezüglichen Adjektiven deren<br />
Genus zu bestimmen, allerdings kann man sich kaum darauf verlassen, daß<br />
solche Selbstbezüglichkeiten, in denen die Sprecherin oder der Sprecher über<br />
sich selbst reden, auch tatsächlich in der Sprache vorkommen. Im Japanischen<br />
unterscheidet sich auch das typische Vokabular und die typischen<br />
verwendeten Wortfolgen zwischen der Sprache von Männern und der von<br />
Frauen. Allerdings hilft auch dies nur bei sehr langen spontan gesprochenen<br />
Passagen. Viel schneller und einfacher kann man das Geschlecht in allen<br />
Sprachen mit recht hoher Genauigkeit bestimmen, indem man zwei Merkma-<br />
+
356 21. Robustheit und Adaption<br />
le betrachtet: Ohne weiteres Wissen, gibt allein die Grundfrequenz F0 der<br />
Stimme einen wertvollen Hinweis. Männer sprechen in der Regel mit tieferer<br />
Stimme als Frauen. Das andere Kriterium kann man aus den Gesamtbeobachtungswahrscheinlichkeiten<br />
der beiden geschlechtsspezifischen Erkennern<br />
gewinnen. Unter der Voraussetzung, daß beide Erkenner die gleiche Struktur<br />
des Parameterraumes haben, so daß sich deren HMM-Emissions- und Übergangswahrscheinlichkeiten<br />
vergleichen lassen, und unter der Voraussetzung,<br />
daß beide das gleiche Sprachmodell verwenden, kann man P(X|λ männlich<br />
mit P(X|λ weiblich vergleichen und sich für das Geschlecht mit größerer<br />
Wahrscheinlichkeit entscheiden. Gegebenenfalls kann man noch, falls bekannt,<br />
die a priori Wahrscheinlichkeiten für die Geschlechter mit einbeziehen<br />
und mit Hilfe der Bayes-Regel sogar die a posteriori Wahrscheinlichkeiten<br />
P(Geschlecht|X) bestimmen. Es mag zwar sein, daß diese Methode nicht<br />
immer zum richtigen Ergebnis führt. In der Praxis stellt sich aber heraus,<br />
daß selbst dann, wenn die Geschlechtsklassifikation einen Fehler macht,<br />
der dann ” falsche“ Erkenner trotzdem die besseren Erkennungsergebnisse<br />
produziert, weil die Ursache für die Fehlklassifikation daher kommt, daß sich<br />
die Stimme der Sprecherin wie die eines eher typischen Mannes oder die<br />
Stimme des Sprechers wie die einer Frau anhören.<br />
21.2 Spontane Effekte<br />
Oft werden als die vier wichtigsten Qualitätseigenschaften von Spracherkennern<br />
beziehungsweise Spracherkennungsaufgaben genannt: die<br />
Sprecher(un)abhängigkeit, die Komplexität des Vokabulars, die Qualität<br />
des Signals und die Spontaneität der Sprache. Sie spannen sozusagen einen<br />
vierdimensionalen Raum auf, in dem sprecherabhängige Erkennung eines<br />
kleinen diktierten, also sorgfältig gesprochenen Vokabulars über einen<br />
ungestörten Kanal in der “leichtesten“ Ecke liegt, und sprecherunabhängige<br />
Erkennung spontaner <strong>Mensch</strong>-<strong>Mensch</strong>-Dialoge mit sehr großen Vokabularen<br />
und störungsbehafteten Übertragungskanälen in der ” schwersten“ Ecke liegt.<br />
Die Dimension der Sprecher(un)abhängigkeit verliert in der Forschung immer<br />
mehr an Bedeutung. Es wird kaum noch an sprecherabhängigen Systemen<br />
geforscht. Sprecherunabhängigkeit und Adaption sind hier die Mittel der<br />
Wahl. Kleine Vokabulare findet man nur noch für Spezialaufgaben, und<br />
die Größen typischer Vokabulare stellen weniger den Spracherkenner selbst<br />
von Schwierigkeiten, sondern vielmehr die Entwickler von Sprachmodellen.<br />
Die Problematik der Signalqualität wird in der Regel durch besondere<br />
Signal- und Modelladaptionsverfahren angegangen, und für viele bekannte<br />
Störungen (zum Beispiel Automobilgeräusche [?]) existieren auch relativ<br />
gute Lösungen. Die Dimension, die somit als die vermutlich schwierigste<br />
bezeichnet werden kann, ist die Spontaneität. Teilweise ist es sogar so, daß
21.3 Geräuschmodellierung 357<br />
ein Erkenner, der auf Spontaner Telefonsprache trainiert wurde, bessere<br />
Ergebnisse auf spontaner Sprache liefert, die über ein hochqualitatives<br />
Nahbesprechungsmikrophon aufgenommen wurde, als ein sehr guter Diktiererkenner<br />
für Nahbesprechungsmikrophone. Mit anderen Worten, die<br />
Änderung des Übertragungskanals wirkt sich weniger schädlich aus als die<br />
Änderung des Spontaneitätsgrades. Im folgenden werde einige Aspekte der<br />
Handhabung spontaner Sprache erläutert.<br />
Diktierte Sprache zeichnet sich nicht nur dadurch aus, daß die Artikulation<br />
der Worte sauberer ist, sondern auch dadurch, daß die Äußerung<br />
zuvor geplant werden kann. Je nach Anwendung ist es auch möglich, diese<br />
bei Auftreten irgendwelcher Probleme, zu wiederholen, so daß der Erkenner<br />
in der Regel eine saubere, fehlerfreie und Störgeräuschfreie Aufnahme bekommt.<br />
Bei spontaner Sprache entfällt diese Planung. Bei einigen Aufgaben<br />
sind sich die Sprecher nicht einmal bewußt, daß die Sprache aufgezeichnet<br />
wird und für die Erkennung verwendet wird. Solche Sprache enthält sehr oft<br />
Störgeräusche, so daß diese zu den spontanen Effekten zu rechnen sind.<br />
Andere spontane Effekte sind die Varianz der Sprechgeschwindigkeit, das<br />
ungrammatikalische Sprechen und die unsaubere Artikulation, die bis zum<br />
Falschaussprechen und Weglassen ganzer Lautfolgen geht.<br />
21.3 Geräuschmodellierung<br />
Sogar diktierte Sprache, aber vor allem spontane Sprache, insbesondere<br />
Dialoge zwischen <strong>Mensch</strong>en enthalten viele Abschnitte, die in der Regel in<br />
keinem Wörterbuch zu finden sind. Dazu gehören emphatische Pausen wie<br />
” äh“, ” ähm“, hm“ und so weiter, nichtsprachliche Laute wie Husten, La-<br />
”<br />
chen, Räuspern, unbeabsichtigte Geräusche mit der Zunge oder den Lippen,<br />
und vor allem Atemgeräusche. Gerade wenn es sich beim verwendeten Mikrophon<br />
um ein Nahbesprechungsmikrophon handelt, kann es leicht passieren,<br />
daß der Zug der Atemluft deutliche Artefakte ins Sprachsignal einbringt.<br />
Neben diesen durch den Artikulationsapparat erzeugten Geräuschen treten<br />
auch nichtartikulatorische Geräusche auf. Oft wird sogar das eigentliche<br />
Sprachsignal durch solche Geräusche überlagert. Dazu gehören Geräusche,<br />
die durch Bewegungen von Personen oder Gegenständen entstehen, die sich<br />
im Raum, in dem die Sprachaufnahme stattfindet, befinden.<br />
Artikulatorische Geräusche sind meist viel stärker mit der sie umgebenden<br />
Sprache korreliert als nichtartikulatorische. Emphatische Pausen<br />
werden an verschiedenen Stellen mit unterschiedlicher Wahrscheinlichkeit<br />
gemacht. Einige Wortsequenzen werden oft wie ein einzelnes Wort betrach-
358 21. Robustheit und Adaption<br />
tet, und werden kaum von Pausen unterbrochen, während an Stellen in einer<br />
Äußerung, an denen ein Gedankensprung stattfindet, die Wahrscheinlichkeit<br />
von Pausen jeder Art deutlich größer ist. Nichtartikulatorische Geräusche<br />
sind viel schwieriger zu handhaben, nicht nur weil sie mit der eigentlichen<br />
Sprache kaum korreliert sind, sondern auch weil sie eine viel größere Varianz<br />
haben. So ist es z.B. nicht leicht, ein Telefonklingeln als solches zu erkennen,<br />
weil heutzutage viele verschiedene Klingelgeräusche verwendet werden. Das<br />
Zuschlagen von Türen, das Klappern von Tastaturen oder das Quietschen<br />
von Bürostühlen, die selbst <strong>Mensch</strong>en oft nicht klassifizieren können,<br />
verschärfen das Problem noch.<br />
Akustische Geräuschmodellierung<br />
Vor einer expliziten Modellierung von Geräuschen ist es sinnvoll, zu analysieren<br />
welche Arten von Geräuschen vorkommen. In [?] werden die Geräusche<br />
auf einer spontansprachlichen Datenbank [?] mit transkribierten Geräuschen<br />
untersucht. Die artikulatorischen Geräusche verteilen sich wie in Tab. 21.1.<br />
Geräusch Anteil Durchschnittlich Anzahl<br />
pro Äußerung<br />
Füllwörter (ah, eh, oh, mh, etc.) 30% 1.5<br />
Atemgeräusche 47% 2.4<br />
Lachen 1% 0.6<br />
Lippen- und Schmatzgeräusche 20% 1.0<br />
Sonstige 2% 0.7<br />
Tabelle 21.1. Vorkommen von Geräuschen in spontaner Sprache<br />
Man sieht, daß im Schnitt über fünf artikulatorische Geräusch pro<br />
Äußerung vorkommen. Hinzu kommen noch die schwerer in Kategorien<br />
zusammenfaßbaren nicht-artikulatorischen Geräusche, von denen die häufigsten<br />
Tastaturgeklapper, Papier-Rascheln und Mikrophongeräusche (Reiben,<br />
Bewegen, Anstoßen) sind. Die nichtartikulatorischen Geräusche machen ca.<br />
1/5 aller Geräusche aus.<br />
In [?] werden ca. 40 verschiedene Geräuscharten untersucht und gezeigt,<br />
daß die beste Art der Geräuschmodellierung die Zusammenlegung aller
21.4 Adaptionsziele 359<br />
Geräusche in fünf oder sechs Klassen ist. Die Klassen können mit Hilfe eines<br />
agglomerativen Ballungsverfahrens gefunden werden. In [?] konnten auf<br />
ähnliche Weise mit 14 Geräuschklassen dramatische Verbesserungen der Fehlerrate<br />
erreicht werden, ca. 50% weniger Fehler insgesamt, und immer noch<br />
über ca. 10% weniger Fehler selbst auf sauberen Aufnahmen ohne Geräusche.<br />
Einbindung von Geräuschen ins Sprachmodell<br />
Es gibt zwei Paradigmen, die beim Modellieren von geräuschbehafteten<br />
Wortfolgen beachtet werden sollten. Einmal die Behandlung von Geräuschen<br />
wie gewöhnliche Wörter. Unter der Annahme, daß manche Geräusch<br />
bevorzugt an bestimmten Stellen in der Sprache auftreten, sollten sie<br />
bei der Berechnung der n-Gramme wie alle andere Wörter behandelt<br />
werden. Dies gilt insbesondere für Atemgeräusche, Lippenschmatzen und die<br />
meisten Füllwörter. Andere Geräusche, insbesondere nichtartikulatorische,<br />
können schwer vorhergesagt werden. Für diese sollte das Paradigma der<br />
Transparenz aus der Sicht des Sprachmodells verfolgt werden. Das heißt,<br />
sie sollten nicht wir gewöhnliche Wörter bei der Berechnung der n-Gramme<br />
verwendet, sondern an dieser Stelle zunächst ignoriert werden. Später,<br />
während der Erkennung sollten sie allerdings vom Sprachmodell nicht für<br />
” unmöglich“ gehalten werden, sondern “durchgereicht“ werden, so daß<br />
P(wn|w1, w2, . . . wi, wGeräusch , wi+1 . . . wn−1) genauso berechnet wird wie<br />
P(wn|w1, w2, . . . wi, wi+1 . . . wn−1).<br />
21.4 Adaptionsziele<br />
Die Adaption eines Spracherkenners an aktuelle Gegebenheiten kann verschiedene<br />
Ziele verfolgen. Entweder werden die Parameter des Erkenners and<br />
die Gegebenheiten oder das aufgezeichnete Signal wird an die Parameter des<br />
Erkenners angepaßt. Der erste Fall wird Modelladaption genannt, der zweite<br />
Signaladaption (s. Abb. 21.2.<br />
In beiden Fällen wird davon ausgegangen, daß die Trainingsdaten eine<br />
Art kanonischer Daten sind, die entweder durch Normierung oder durch<br />
Mittelung der Trainingsdaten den Durchschnitt aller Gegebenheiten (Sprecher,<br />
Kanal, Hintergrund) darstellen. Mit diesen Daten wird das kanonische<br />
Modell geschätzt, das direkt für die nichtadaptierte Erkennung verwendet<br />
wird.<br />
Wenn festgestellt wird, daß die Testdaten nicht dem Mittel der Trainingsdaten<br />
entsprechen, kann im Falle der Signaladaption eine Transformation
360 21. Robustheit und Adaption<br />
Trainings-<br />
daten<br />
Training<br />
Test Modelladaption<br />
Signaladaption<br />
Test-<br />
daten<br />
Signaltransformation<br />
Parameterschätzung<br />
Modell<br />
Erkennung<br />
transformiertes<br />
Signal<br />
Parametertransformation<br />
transformiertes<br />
Modell<br />
Hypothese<br />
Abb. 21.2. Verschiedene Ziele für die Adaption: Signal oder Modelle)<br />
berechnet und auf den Testdaten angewendet werden, so daß das Transformierte<br />
Signal besser auf das Modell paßt. Der Begriff ” passen“ kann in<br />
diesem Zusammenhang verschiedenes bedeuten. In den meisten Fällen ist<br />
damit gemeint, daß die Beobachtungswahrscheinlichkeit der Testdaten bei<br />
gegebenem Modell möglichst groß ist (Maximum Likelihood).<br />
Im Falle der Modelladaption, werden die Parameter des Erkenners so<br />
transformiert, daß sie auf das aktuelle Signal möglichst gut passen. Im<br />
Prinzip ist es auch möglich und oft sogar sinnvoll, beide Adaptionsziele<br />
gleichzeitig zu verfolgen. Wenn mit Hilfe der Signaladaption auch schon<br />
während des Trainings eine Normierung der Daten erzielt wird, dann kann<br />
auf diese Art die Streuung der Parameter oder auch deren Anzahl verkleinert<br />
werden und das ganze Modell robuster geschätzt werden.<br />
Die Transformation kann – und tut es in vielen Fällen auch – aus<br />
mehreren einzelnen Transformationen bestehen, die jeweils für einen Teil<br />
des Merkmalsraums oder einen Teil der Modelle gilt. Im Extremfall könnte<br />
jeder Parameter eine eigene Transformation haben. Wenn dafür ausreichend<br />
Adaptionsdaten zur Verfügung stünden, könnten allerdings die Parameter<br />
selbst damit trainiert werden.<br />
Gl. 21.1 zeigt, wie sich eine mögliche Signaladaption fS j (x) auf die<br />
Berechnung der Emissionswahrscheinlichkeiten mit Gauß-Mischverteilungen
auswirkt. In Gl. 21.2 wird eine Transformation fM j<br />
vektoren der Gauß-Verteilungen angewandt.<br />
K<br />
k=1<br />
K<br />
k=1<br />
cik ·<br />
cik ·<br />
21.5 Adaptionsmethoden 361<br />
(µ) auf die Mittelwerts-<br />
1<br />
· e−12<br />
2πd |Σik| (fS j (x) − µik) ⊤ Σ −1<br />
ik (fS j (x) − µik)<br />
1<br />
· e−12<br />
2πd |Σik| (x − fM j (µik)) ⊤ Σ −1<br />
ik (x − fM j (µik))<br />
(21.1)<br />
(21.2)<br />
Der Index jdeutet darauf hin, daß verschiedene Transformationen zur<br />
Verfügung stehen, so daß vor der Anwendung, j in Abhängigkeit vom Signal<br />
x, dem Modell i oder beiden bestimmt werden muß.<br />
21.5 Adaptionsmethoden<br />
Die Frage, die bei der Definition der Adaptionsziele offen gelassen wurde, ist<br />
die Frage nach der Bedeutung von ” Signal und Modell passen zusammen“.<br />
Die Frage, wie gut modelliert ein Modell das vorliegende Signal, wird in<br />
der Regel mit der Beobachtungswahrscheinlichkeit des Signals beantwortet.<br />
Auch wenn wir am liebsten als Optimierungskriterium die Wortfehlerrate<br />
verwenden würden, so gibt es keine analytischen Methoden, die Transformationen<br />
nach Gl. 21.1 oder 21.2 so berechnen, daß die resultierende<br />
Wortfehlerrate minimal wird. Wesentlich einfacher ist es mit Hilfe von<br />
Maximum-Likelihood Methoden die Beobachtungswahrscheinlichkeit zu<br />
optimieren. Für Gauß-Mischverteilungen bedeutet so eine Optimierung<br />
meisten das Lösen eines zwar hochdimensionalen aber ansonsten nicht weiter<br />
problematischen Gleichungssystems.<br />
Während die Maximum-Likelihood Methode (ML) die Signalwahrscheinlichkeit<br />
p(x|λ) zu optimieren versucht, ist das Ziel der Maximum-A-Posteriori<br />
Methode (MAP) die Optimierung der Parameterwahrscheinlichkeit p(λ|x),<br />
also die Frage welches sind denn die wahrscheinlichsten Parameter bei gegebenem<br />
Signal. Zusammengefaßt:<br />
ˆλ ML = argmaxp(X|λ)<br />
(21.3)<br />
λ<br />
ˆλ MAP = argmaxp(λ|X)<br />
(21.4)<br />
λ
362 21. Robustheit und Adaption<br />
Einen großen Unterschied macht die Existenz von transkribierten gegenüber<br />
nicht transkribierten Adaptionsdaten aus. Wenn bekannt ist, was<br />
der Sprecher des Signals, das zur Adaption verwendet wird, gesprochen<br />
hat, handelt es sich um eine überwachte Adaption. Im anderen Fall um<br />
eine unüberwachte. Beide Varianten haben ihre Existenzberechtigung.<br />
Der typische Einsatz überwachter Adaption sie so aus, daß der Sprecher<br />
aufgefordert wird einige wenige Sätze zu sprechen (vorzulesen), die dem<br />
System bekannt sind. Auf diesen Sätzen kann nun mit Hilfe eines Viterbioder<br />
Forward-Backward-Algorithmus eine relativ genaue Zuordnung von<br />
Einzelbeobachtungen zu Einzelmodellen gemacht werden. Das ist die Grundlage<br />
für eine gute Schätzung der Adaptionstransformationen. Unüberwachte<br />
Adaption ist immer dort interessant, wo es dem Sprecher nicht zugemutet<br />
werden kann, vor der eigentlichen Problemlösung durch Spracheingabe<br />
erst einige Adaptionssätze zu sprechen, zum Beispiel bei Bedienen eines<br />
Fahrkartenautomaten am Bahnhof, oder bei der Fahrplanauskunft über<br />
Telefon. In diesen Fällen dient in der Regel die Hypothese des Erkenners als<br />
(suboptimaler) Ersatz für die nicht vorhandene Transkription. Vorausgesetzt<br />
der Erkenner macht wesentlich mehr richtig als falsch kann ähnlich wie<br />
beim Trainieren ohne Transkriptionen (vgl. Abs. 13.3.2) mit Hilfe eines<br />
Konfidenzmaßes entschieden werden, welche Teile des Signals mit welchem<br />
Gewicht ins Training eingehen sollen.<br />
Im folgenden werden einige typische Transformationen und ihre Anwendung<br />
zur Adaption vorgestellt.<br />
21.5.1 MLLR<br />
Die Maximum-Likelihood lineare Regression ist eine Adaptionsmethode [?],<br />
die sich sowohl für den überwachten als auch unüberwachten Fall einsetzen<br />
läßt. Hierbei bedeutet ” unüberwacht“ nicht, daß die Zuordnung von Mustern<br />
zu Modellen vom MLLR-Algorithmus automatisch durchgeführt wird. Diese<br />
Zuordnung wird dem Algorithmus selbst in jedem Fall von außen vorgegeben,<br />
allerdings meist nicht in Form von Transkriptionen ( ” überwacht“) sondern<br />
in Form von (fehlerhaften) Erkennerhypothesen ( ” unüberwacht“). Eine<br />
vollständig adaptierte Gauß-Mischverteilung ist in Gl. 21.5 gegeben:<br />
pj(x|i) =<br />
K<br />
k=1<br />
cik ·<br />
1<br />
· e−1 2<br />
2πd |Σik| (x−Ajµik−bj) ⊤ (SjΣik) −1 (x−Ajµik−bj)<br />
(21.5)<br />
Hierbei wird der k-te Mittelwert µik der i-ten Mischverteilung ersetzt<br />
durch den transformierten Wert Ajµik − bj. Der Index j ist im Grunde
21.5 Adaptionsmethoden 363<br />
eine Funktion von i und k. Im einfachsten Fall gibt es nur eine einzige<br />
Transformation für alle Mittelwerte, im komplexesten Fall hat jede Gauß-<br />
Verteilung eine eigene Transformation (welche aber entweder bei wenig<br />
Adaptionsdaten nicht ausreichend gut geschätzt werden können, oder sehr<br />
vielen Adaptionsdaten, die schlechtere Variante im Vergleich mit einem<br />
EM-Training wären). Der Maximum-Likelihood Aspekt kommt von der Art,<br />
wie die Transformation gefunden wird:<br />
(Âj, ˆSj, ˆbj) = argmax pj(x|i) (21.6)<br />
(Aj,Sj,bj)<br />
Zwar könnte Aj eine beliebige Matrix sein, allerdings laßt sich die<br />
Maximum-Likelihood Optimierung am besten für Rotationsmatrizen<br />
durchführen. Im übrigen kann es sinnvoll sein, bei besonders wenigen<br />
Trainingsdaten, für Aj und Sj einfach Einheitsmatrizen zu verwenden, und<br />
die resultierende Transformation als eine einfache Translation der Mittelwertsvektoren<br />
zu implementieren. Tatsächlich stellt sich heraus, daß eine<br />
Transformation der Sj der Kovarianzmatrizen einen wesentlich geringeren<br />
positiven Effekt auf die Adaption hat als die Transformation der Mittelwerte<br />
[?].<br />
21.5.2 Label-Boosting<br />
Der zentrale Algorithmus beim Trainieren von Hidden Markov Modellen ist<br />
die Berechnung der γt(i) = P(qt = i|X, λ), also der Wahrscheinlichkeit dafür,<br />
daß der stochastische Sprachprozeß sich zum Zeitpunkt t bei gegebener<br />
Beobachtung X und HMM λ im Zustand si befindet (Gl. 12.16). Die Werte<br />
γt(i) werden nach der reinen Theorie mit Hilfe des Forward-Backward<br />
Algorithmus berechnet. Wie in Abs. 13.1.2 gezeigt, wird in der Praxis aber<br />
meist statt dessen der Viterbi-Algorithmus verwendet, beziehungsweise im<br />
voraus berechnete und abgespeicherte Viterbi-Pfade. Selbstverständlich ist<br />
die Qualität der Viterbi-Pfade von größter Bedeutung. Unexakt positionierte<br />
Zustandsübergänge führen dazu, daß die Modelle (Gauß-Mischverteilungen)<br />
mit ” falschen“ Trainingsdaten trainiert werden.<br />
Von Viterbi-Pfaden, die mit einem Sprecherunabhängigen Erkenner<br />
berechnet werden, kann man erwarten, daß sie nicht so gut sind wie Pfade,<br />
die mit einem auf den Sprecher spezialisierten Erkenner erzeugt wurden.<br />
Daher bietet sich ein Vorgehen an, das unter dem Namen ” Label-Boosting“<br />
bekannt ist (s. Abb. 21.3. Dabei werden iterativ neue HMM-Parameter St<br />
berechnet, wobei allerdings die Berechnung der γt(i) nicht mit sprecherunabhängigen<br />
HMM-Parametern sondern mit durch MLLR adaptierten
364 21. Robustheit und Adaption<br />
Parameter durchgeführt wird.<br />
sprecherunabhängiger<br />
Erkenner<br />
Sprecher 1<br />
Viterbi-<br />
Pfad<br />
Sprecher 2<br />
Viterbi-<br />
Pfad<br />
St .<br />
Sprecher n<br />
Viterbi-<br />
Pfad<br />
Abb. 21.3. Label-Boosting Verfahren<br />
MLLR1<br />
MLLR2<br />
MLLRn<br />
Viterbi-<br />
Pfad<br />
Viterbi-<br />
Pfad<br />
Viterbi-<br />
Pfad<br />
sprecherunabhängiger<br />
Erkenner<br />
St+1<br />
In jeder Iteration werden zunächst für jeden Sprecher j Pfade (Labels)<br />
dieses Sprechers aus der letzten Iteration verwendet um mit ihrer Hilfe<br />
die MLLRj Transformation auf den Sprecher j zu berechnen. Mit den so<br />
transformierten HMM-Parametern werden dann neue bessere Viterbi-Pfade<br />
berechnet. Erst die neuen Pfade beziehungsweise die daraus resultierenden<br />
γt(i) werden dann von Baum-Welch Trainingsalgorithmus zur Schätzung der<br />
neuen Parameter St+1 verwendet.<br />
21.5.3 SAT<br />
Während beim Label-Boosting für jeden Sprecher zwar eine eigene MLLR-<br />
Transformation berechnet wird, so findet dennoch keine Normierung in<br />
dem Sinne statt, daß versucht würde die Variationen zwischen den Sprechern<br />
auszugleichen. Dies ist Ziel des so genannten sprecheradaptiven<br />
Trainings (SAT). Dabei werden alle HMM-Parameter mit einer für alle<br />
Sprecher oder Sprechergruppen gemeinsamen Transformation adaptiert.<br />
Ähnlich wie beim Label-Boosting werden auch beim SAT sprecherabhängige<br />
MLLR-Transformationen basierend auf sprecherabhängigem EM-Training<br />
und mit vom Sprecher j abhängigen HMM-Parametern λ (j)<br />
i berechnet.<br />
In einem Synchronisierungsschritt wird aber aus allen sprecherabhängigen<br />
MLLR-Transformationen eine globale Transformation berechnet, die dann
21.5 Adaptionsmethoden 365<br />
auf die HMM-Parameter angewandt wird und in den sprecherunabhängigen<br />
Werten λi resultiert. Sowohl die neuen λi als auch die sprecherabhängigen<br />
Gewichte G (j)<br />
i werden in die nächste Iteration propagiert und dort als neue<br />
Ausgangsbasis verwendet.<br />
G (1)<br />
i−1<br />
λi−1<br />
G (n)<br />
i−1<br />
Adaption<br />
.<br />
.<br />
Adaption<br />
λ (1)<br />
i−1<br />
λ (n)<br />
i−1<br />
EM<br />
Training<br />
.<br />
.<br />
EM<br />
Training<br />
λ (1)<br />
i<br />
λ (n)<br />
i<br />
Abb. 21.4. Sprecheradaptives Training (SAT)<br />
21.5.4 MAP<br />
Berechne<br />
MLLR<br />
Berechne<br />
MLLR<br />
G (1)<br />
i<br />
G (n)<br />
i<br />
sync.<br />
Sei λ das Modell (Parametervektor), das durch die Beobachtung X adaptiert<br />
werden soll, mit der Beobachtungswahrscheinlichkeit p(X|λ). Wenden wir die<br />
Bayes-Regel auf Gl. 21.4 an, so erhalten wir:<br />
ˆλ = argmaxp(X|λ)<br />
· p(λ) (21.7)<br />
λ<br />
p(X|λ) läßt sich leicht berechnen. Es fehlen allerdings die p(λ). Diese<br />
müssen vor der Adaption auf dem Parameterraum geschätzt werden. Man<br />
sieht, daß sich die MAP-Adaption von der Maximum-Likelihood Adaption<br />
nur in diesem einen Faktor. Er sorgt dafür, daß eine kleine Menge an<br />
Adaptionsdaten nicht das gesamte Modell verändert. Die MAP-Adaption<br />
ändert somit nur diejenigen Parameter signifikant, für die es ausreichen<br />
Adaptionsdaten gibt.<br />
λi
366 21. Robustheit und Adaption<br />
21.5.5 VTLN<br />
Abb. 21.5 zeigt die idealisierte Vorstellung der Auswirkung unterschiedlich<br />
langer Vokaltrakte auf das durchschnittliche Spektrum eines Sprechers.<br />
Die fett gezeichnete Kurve in der Mitte stellt das Langzeitspektrum eines<br />
Sprechers mit durchschnittlich langem Vokaltrakt. Bei der linken Kurve,<br />
die in etwa die gleich Form hat wie die durchschnittliche, kommen eher<br />
niedrigere Frequenzen vor, so als sei die durchschnittliche Kurve nach links<br />
verschoben. Dies ist bei Sprechern mit langem Vokaltrakt zu erwarten, da<br />
lange Vokaltrakte längere Wellenlängen also niedrigere Frequenzen weniger<br />
dämpfen. Bei Personen mit relativ kurzem Vokaltrakt ist zu erwarten, daß<br />
vermehrt hohe Frequenzen vorkommen, daß also tendenziell das durchschnittliche<br />
Spektrum nach rechts verschoben ist.<br />
langer<br />
Vokal-<br />
trakt<br />
durchschnittliches<br />
Spektrum<br />
Abb. 21.5. Spektren für verschiedene Vokaltraktlängen<br />
kurzer<br />
Vokaltrakt<br />
Frequenz<br />
In der Praxis sehen die Durchschnittsspektren natürlich nicht so idealisiert<br />
aus wie in Abb. 21.5. Schließlich bestimmt nicht nur die Vokaltraktlänge<br />
sondern auch die von den Stimmbändern erzeugte Grundfrequenz die Anteile<br />
der verschiedenen Frequenzen am Spektrum.<br />
Eine Möglichkeit der Vokaltraktlängenadaption besteht darin, das<br />
Sprachsignal so zu transformieren, daß es dem eines Sprechers mit durchschnittlichem<br />
Vokaltrakt möglichst nahe kommt. Es handelt sich dabei<br />
also um eine Normierung und um eine Signaladaption (vgl. Gl. 21.1).<br />
Diese Normierung wird oft auch als Vokaltraktlängennormierung (VTLN)<br />
bezeichnet. Die beliebteste Art der VTLN ist die Neudefinition der Zusammenfassung<br />
der Fourierkoeffizienten zu Filterbänken. Sei B0(f) der<br />
Index des Filterbankkoeffizienten, der unter anderen den Energieanteil der<br />
Frequenz f aufnimmt. Betrachten wir einen Laut, bei dem der Durchschnitt<br />
der Frequenzen mit höchster Energie über alle Sprecher bei f0 liegt.<br />
Spricht nun ein Sprecher diesen Laut so, daß der größte Energieanteil bei<br />
der Frequenz f1 vorkommt, dann ist die Idee jetzt, eine Filterbankfunk-
21.5 Adaptionsmethoden 367<br />
tion B1(f) zu verwenden, bei der die Frequenz f1 auf B0(f0) abgebildet wird.<br />
Nun lassen sich Filterbankfunktionen prinzipiell beliebig kompliziert<br />
gestaltet. In der Praxis genügt es aber für die VTLN eine einfache Transformation<br />
v zu definieren, die aus zwei linearen Abbildungen zusammengesetzt,<br />
so daß B0(v(f1)) ≈ B0(f0):<br />
<br />
f · a für f ≤ q<br />
v(f) = 1 − p p − q<br />
f ·<br />
1 − q<br />
+<br />
1 − q<br />
für f ≥ q<br />
(21.8)<br />
Abb. 21.6 zeigt, wie die Funktion v(f) und der dazugehörende Effekt<br />
auf die Filterbankberechnung aussieht. Wenn der Vokaltrakt des Sprechers<br />
überdurchschnittlich lang ist (l > 1) dann wird für p ein Wert größer q<br />
gewählt, so daß v lang , die obere der dargestellten Kurven, verwendet wird.<br />
Für die Filterbänke bedeutet das, daß den oberen Frequenzen stärker zusammengestaucht<br />
werden und somit mehr Spektralkoeffizienten auf denselben<br />
Filterbankkoeffizienten abgebildet werden. Und die unteren Frequenzen<br />
werden gedehnt, so daß weniger Information aus diesen Bereichen, in denen<br />
der Sprecher bevorzugt spricht, in den Filterbankkoeffizienten erhalten<br />
bleiben. Für unterdurchschnittlich kurze Vokaltrakte (l < 1) ergibt sich das<br />
entsprechende gegenteilige Bild.<br />
1.0<br />
v(f)<br />
v lang<br />
l > 1<br />
l = 1<br />
vkurz l < 1<br />
q 1.0<br />
Abb. 21.6. Einfache VTLN-Filterbanktransformation<br />
p<br />
f<br />
l > 1 l < 1<br />
p<br />
Filterbänke Filterbänke<br />
für l > 1 für l < 1<br />
Bleibt noch die Frage zu klären, wie geeignete Werte für q und p gefunden<br />
werden. In der Praxis hat sich gezeigt, daß durch einer Verkomplizierung<br />
der Funktion v kaum Gewinne für die Erkennungsgenauigkeit erzielt werden<br />
können. So spielt es auch nur eine kleine Rolle, welcher Wert für q gewählt
368 21. Robustheit und Adaption<br />
wird. Aus empirischen Experimenten hat sich ergeben, daß mit q = 0.8 eine<br />
ausreichend gute Ausgangslage besteht, und dafür ein ” passender“ Wert für<br />
p gesucht wird. Möglich wäre es, p so zu bestimmen, daß die Abweichung<br />
des durchschnittlichen Sprecherspektrums vom Durchschnittsspektrum aller<br />
Sprecher minimal wird. Bessere Ergebnisse liefert allerdings die Bestimmung<br />
von p mit einer Maximum Likelihood Methode. Dabei wird für verschiedene<br />
Werte von p (typischerweise 0.9q, 0.92q, . . .1.08q, 1.10q) mit dem Forwardoder<br />
dem Viterbi-Algorithmus die Beobachtungswahrscheinlichkeit der zum<br />
Adaptieren verfügbaren Äußerungen gemessen, und schließlich derjenige<br />
Wert genommen, für die die Wahrscheinlichkeit am größten ist. Abb. 21.7<br />
zeigt die Verteilung verschiedener Werte für p eingestellt für mehrere hundert<br />
Sprecherinnen und Sprechern. Sehr gut zu erkennen ist die Bimodalität<br />
der Verteilung. Links die Werte p < 1, die vor allem bei Frauen gemessen<br />
wurden, und rechts die p > 1, die vor allem bei Männern gemessen wurden.<br />
180<br />
160<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0.95 1.05 1.15 1.25<br />
0.90 1.00 1.10 1.20<br />
Abb. 21.7. Verteilung der Spektren für verschiedene Vokaltraktlängen<br />
Die VTLN-Adaption kann zu verschiedenen Zeiten durchgeführt werden.<br />
Die erste naheliegende Idee ist, einen HMM-Erkenner ganz ohne Veränderung<br />
des Signals zu trainieren. Dadurch entstehen automatisch Modelle, die<br />
den Durchschnitt aller Trainingssprecher widerspiegeln. Vor der Erkennung<br />
einer Äußerung wird diese dann aber VTLN-adaptiert, so daß eventuelle<br />
Abweichungen vom Durchschnitt korrigiert werden. Schon dieses Vorgehen
21.5 Adaptionsmethoden 369<br />
trägt zur Reduktion der Fehlerraten bei (s. Tab. 21.2). Noch besser funktioniert<br />
das Verfahren allerdings, wenn es auch beim Trainieren verwendet<br />
wird. Denn der Effekt dabei ist eine zusätzliche Varianzverkleinerung der<br />
Modelle, da die Signale vor dem Training normiert werden. Experimente<br />
auf den Switchboard und Call-Home Benchmark Datenbasen ergaben<br />
Fehlerreduktionen von ca. 10% durch den Einsatz von VTLN-Adaption.<br />
VTLN im VTLN im<br />
Training Test Switchboard Call Home<br />
33.9% 46.7%<br />
× 33.0% 43.4%<br />
× × 31.3% 40.1%<br />
Tabelle 21.2. Wortfehlerraten mit und ohne VTLN
22. Künstliche Neuronale Netze<br />
Künstliche neuronale Netze haben mehrere Phasen ihrer Hochkonjunktur<br />
erlebt. Mit der Definition des McCulloch-Pitts-Neurons 1943 [?] wurde<br />
der Versuch unternommen, das Verhalten von neuronalen Systemen wie<br />
z.B. Gehirne mathematisch erfaßbar und beschreibbar zu machen. Als<br />
1962 Frank Rosenblatt ein Trainingsverfahren für eine bestimmte Art<br />
künstlicher neuronaler Netze (sogenannte Perzeptronen) vorstellte, wurden<br />
Hoffnungen geweckt, daß schon bald komplizierteste Probleme allein dadurch<br />
gelöst werden könnten, daß man einem künstlichen neuronalen Netz Trainingsmuster<br />
zusammen mit ihren erwarteten Ausgabemustern präsentiert<br />
und das Netz von ganz allein lernt, wie die ihm gestellte Aufgabe zu lösen ist.<br />
In einem abwertenden Artikel von Minsky und Papert [?] wurde das<br />
Perzeptron für untauglich erklärt, da es noch nicht einmal in der Lage war,<br />
das einfache XOR-Problem zu lösen. Obwohl schon damals klar war, daß<br />
das einfache Perzeptron sowieso nicht für die Lösung komplizierter Probleme<br />
herangezogen werden könnte, hatte der Artikel von Minsky und Papert eine<br />
dämpfende Wirkung auf die Weiterentwicklung der künstlichen neuronalen<br />
Netze. Mangelnde Erfolge in der Forschung auf dem Gebiet taten ihr weiteres<br />
um das hochgehandelte Thema für ein gutes Jahrzehnt abzukühlen.<br />
Erst Anfang bis Mitte der achtziger Jahre sorgten einige Arbeiten mit<br />
neuronalen Netzen für Aufsehen. Relativ schwierig empfundene Klassifikationsaufgaben<br />
wurden mit Hilfe künstlicher neuronaler Netze überraschend<br />
gut gelöst. Besonders spektakulär war zum Beispiel das System von Terrence<br />
Sejnowski [?], ein einfaches mehrschichtiges Perzeptron, das lernte, bei<br />
gegebenen sieben aufeinanderfolgenden Buchstaben, die dazu passende<br />
Aussprache im amerikanischen Englisch auszugeben. Wurde die Ausgabe des<br />
Netzes in damals schon vorhandene Sprachsynthesegeräte geleitet, konnte<br />
der Zuhörer den Lernvorgang mitverfolgen und beeindruckt miterleben,<br />
wie die Qualität der Aussprache sich mit jeder Trainingsiteration verbesserte.<br />
Ab Mitte der Achtziger wurden vermehrt künstliche neuronale Netze<br />
zum Zwecke der Spracherkennung eingesetzt. Anfangs wurden vor allem<br />
Phonemklassifikatoren gebaut, die mit sauber artikulierten und detailgenau
372 22. Künstliche Neuronale Netze<br />
ausgeschnittenen Aufnahmen einzelner Phoneme oder Diphone trainiert<br />
wurden.<br />
Der Einfachheit halber werden wir ab jetzt das Adjektiv ” künstlich“ im<br />
Zusammenhang mit neuronalen Netzen weglassen, weil wir uns nicht für die<br />
Funktionalität biologischer neuronaler Netze interessieren und auch nicht<br />
auf solche Netze eingehen werden. In diesem Kapitel wird die Einführung in<br />
die Arbeitsweise und das Training von neuronalen Netzen nicht ausführlich<br />
behandelt. Der interessierte Leser möge sich aus einem Fachbuch zu diesem<br />
Thema informieren. Wir wollen uns hier auf die Anwendung neuronaler<br />
Netze in der Spracherkennung konzentrieren, und nur soweit in die Theorie<br />
eindringen, wie dies für die hier beschriebenen Netze und Aufgaben sinnvoll<br />
ist.<br />
22.1 Probleme reiner HMM-Erkenner<br />
Die Standardmethode für das Trainieren von Hidden Markov Erkennern<br />
besteht aus den Baum-Welch Optimierungsregeln und dem Expectation Maximization<br />
Algorithmus zur iterativen Optimierung von Mischverteilungen.<br />
Beide Prinzipien basieren auf dem Auswerten von ” positiven Beispielen“.<br />
Dabei wird nur die Zugehörigkeit eines Musters zu einer Klasse aber nicht<br />
die Nichtzugehörigkeit zu anderen Klassen explizit berücksichtigt. Zwar gibt<br />
es auch für das Optimieren von HMM Erkennern diskriminative Verfahren<br />
(z.B. das Korrektive Training, Abs. 13.3.1), aber für neuronale Netze sind<br />
diskriminative Verfahren meist die geeignetste Trainingsmethode.<br />
Die Praxis hat außerdem gezeigt, daß viele Klassifikationsaufgaben mit<br />
Hilfe von neuronalen Netzen mit deutlich weniger Parametern bewältigt<br />
werden können als mit maximum-likelihood-basierten Klassifikatoren. Ein<br />
Maximum-Likelihood Klassifikator muß für jede Klasse C die klassenbedingte<br />
Wahrscheinlichkeit(-sdichte) P(x|C) über dem Merkmalsraum lernen.<br />
Dies geschieht für jede Klasse unabhängig von den anderen Klassen und<br />
unabhängig von der A-Priori-Wahrscheinlichkeit der Klasse. Zu dem Zeitpunkt,<br />
an dem der Maximum-Likelihood Klassifikator seine klassenbedingten<br />
Wahrscheinlichkeitsfunktionen schätzen muß, kann er noch nicht absehen,<br />
welche Details dieser Funktion wichtig sind und welche weniger wichtig sind.<br />
Abbildung 22.1 veranschaulicht den Mehrbedarf an Parametern für einen<br />
Maximum-Likelihood Klassifikator gegenüber einem Maximum-A-Posteriori<br />
Klassifikator. Der letztere berechnet P(C|x) und berücksichtigt dabei den<br />
Zusammenhang aller Klassen. Ein neuronales Netz, das diese a-posteriori<br />
Wahrscheinlichkeiten schätzen soll, muß nur eine einfache Näherung an das
p(x|A)<br />
22.2 Architekturen 373<br />
p(x|B) 1 p(A|x) p(B|x)<br />
Abb. 22.1. Maximum Likelihood und Maximum A-Posteriori Klassifikatoren<br />
tatsächliche P(C|x) berechnen, wofür weniger Parameter benötigt werden als<br />
für das Schätzen der wesentlich komplizierteren Kontur der klassenbedingten<br />
Wahrscheinlichkeitsfunktionen.<br />
Es wurden auch Versuche unternommen, neuronalen Netzen das Simulieren<br />
von Maximum-Likelihood Schätzern beizubringen (z.B. [?] [?]), die dabei<br />
verwendeten Trainingsalgorithmen erinnern aber an Standard stochastische<br />
Schätzer.<br />
22.2 Architekturen<br />
Je nach der Aufgabe, für die die neuronalen Netze eingesetzt werden<br />
sind verschiedene Architekturen sinnvoll. Werden sie als Berechner von<br />
Emissionswahrscheinlichkeiten verwendet, so sind mehrschichtige Perzeptronen<br />
ohne besondere Berücksichtigung der Dynamik eine gute Wahl. Die<br />
Aufgabe solcher Netze ist schließlich keine Klassifikationsaufgabe sondern<br />
die Approximation einer Dichtefunktion.<br />
Netze, die Entscheidungen treffen, arbeiten besser, wenn sie diese in<br />
Abhängigkeit von zuvor gemachten Entscheidungen treffen können, wenn sie<br />
also einen größeren zeitlichen Kontext verwenden. Solche Netze, die zuvor<br />
gewonnene Informationen für spätere Entscheidungen verwenden heißen<br />
rekurrente Netze.<br />
22.2.1 Netze zur Klassifikation<br />
In den Anfängen der Spracherkennung bestanden viele Forschungsaufgaben<br />
aus der Klassifikation von Lauten – meist einzelne Phoneme oder der so<br />
genannen BDG- bzw. BDGPTK-Task, bei der es um die Klassifikation der
374 22. Künstliche Neuronale Netze<br />
Plosivlaute b, d, g, p, t, k mit jeweils nachfolgendem englischen ” ee“-Laut<br />
ging. Da die Aufnahmen für solche Spracheinheiten relativ kurz waren, war<br />
es üblich, diese als ganzes auf die Eingabeneuronen eines mehrschichtigen<br />
Perzeptrons (engl. multi-layer perceptron MLP) zu legen. So gelang es unter<br />
günstigen Bedinungen (ein Sprecher, geräuschfreie Umgebung, saubere<br />
und exakt geschnittene Aufnahmen) relativ gute Klassifikationsraten zu erzielen<br />
(z.B. [?] [?]). Es stellte sich allerdings recht schnell heraus, daß einfache<br />
MLPs nicht geeignet waren um damit Laute unter ungünstigen Bedingungen<br />
oder gar kontinuierlich gesprochene Sprache zu erkennen. Im Laufe<br />
der Zeit wurden vermehrt komplexere Achitekturen als MLPs verwendet um<br />
die speziellen Eigenheiten gesprochener Sprache zu berücksichtigen. Einfache<br />
MLP-Klassifikatoren werden aber bis heute noch verwendet, um damit Teilaufgaben<br />
der Spracherkennung zu lösen, wie z.B. die Erkennung bestimmter<br />
Umstände (Sprechermerkmale, akustische Umgebung o.ä.) welche dann zu<br />
Steuerung des Erkennungsprozesses weiterverwendet werden.<br />
22.2.2 Elman-Netze und Jordan-Netze<br />
Ein häufiger Kritikpunkt an der Verwendung von neuronalen Netzen zur<br />
Erkennung von Sprache ist die Tatsache, daß ein ” reguläres“ MLP eine in<br />
dem Sinne statische Ausgabe produziert, daß diese nur von einem statischen<br />
Eingabefenster abhängt und nicht vom Zeitlichen Verlauf der Eingabemuster.<br />
Während Hidden Markov Modelle in der Lage sind, die Dynamik der<br />
Sprache durch ihre Zustandsfolgen zu modellieren, fehlt diese Fähigkeit<br />
bei gewöhnlichen MLPs. Ein Ansatz, der sich bis heute bei den erfolgreich<br />
verwendeten konnektionistischen Spracherkennern gehalten hat, besteht<br />
darin, daß die ” Entscheidung“, die das Netz trifft, davon abhängig gemacht<br />
wird, welche Entscheidung es einen oder einige Zeittakte zuvor getroffen<br />
hat. Dadurch wird eine Kontextabhängigkeit in den Entscheidungsprozeß<br />
eingebaut, die dafür sorgt, daß nicht zu jedem Muster ein ganz bestimmtes<br />
Klassifikationsergebnis nur durch die Netzgewichte definiert ist, sondern daß<br />
auch das vorherige Klassifikationsergebnis eine Rolle spielt.<br />
Die beiden naheliegenden Netzwerkarchitekturen werden als Elman-Netze<br />
und Jordan-Netze (s. Abb. 22.2). Bei Jordan-Netzen werden Ausgänge des<br />
Netzes wieder als Teil der Eingabe verwendet. Das heißt der Kontext wird<br />
durch die vorherige Klassifikation definiert. Bei Elman-Netzen werden die<br />
Ausgaben einiger Neuronen der versteckten Schichten wieder als Eingabe<br />
verwendet.
Jordan Elman<br />
22.2 Architekturen 375<br />
Eingabemuster Kontext Eingabemuster Kontext<br />
Abb. 22.2. Rekurrentes Neuronales Netz nach Jordan und Elman<br />
22.2.3 LVQ – Learning Vector Quantization<br />
Auf den ersten Blick erscheint die Einordnung des Learning Vector Quantisation<br />
Verfahrens in den Bereich der Neuronalen Netze als irgendwie<br />
unmotiviert. Tatsächlich ist der im folgenden vorgestellte LVQ-Algorithmus<br />
mit denen, die für das Trainieren und die Funktion von Perzeptronen<br />
verwendet werden, durchaus in vielen Bereichen vergleichbar.<br />
Die Idee hinter dem LVQ liegt darin, daß Referenzvektoren, die bestimmte<br />
Klassen repräsentieren, iterativ im Merkmalsraum verschoben werden.<br />
Das Ziel, das dabei verfolgt wird, ist den durchschnittlichen (euklidischen<br />
oder anderen) Abstand der Trainingsmuster zu ihrem entsprechenden<br />
Referenzvektoren zu minimieren. Der einfache LVQ-Algorithmus sieht wie<br />
folgt aus:<br />
1. gegeben: die Anhahl k der Klassen,<br />
und die Menge der Trainingsmuster v1, v2, . . . vT<br />
2. initialisiere beliebige k Referenzvektoren µ1, µ2, . . . µk,<br />
z.B. durch µi = vi<br />
3. ordne jedem Trainingsmuster vi den Repräsentanten<br />
µ f(i) seiner Klasse zu<br />
4. bewege µ f(i) ein wenig in Richtung vi,<br />
also µ ′ f(i) = µ f(i) + t · (vi − µ f(i))<br />
5. wenn Optimierungskriterium noch nicht ausreichend erfüllt,<br />
gehe zu Schritt 3
376 22. Künstliche Neuronale Netze<br />
Eine Variation des LVQ-Algorithmus ist die Erweiterung zu einem diskriminativen<br />
Lernverfahren. Dabei wird der Schritt 3 des obigen Algorithmus<br />
dahingehend erweitert, daß neben der Bestimmung der Klassenzugehörigkeit<br />
f(i) auch eine Klasse g(i) bestimmt wird, zu der das Trainingsmuster vi<br />
nicht gehört (aber zu der es klassifiziert würde, wenn das LVQ-Verfahren<br />
beendet wäre). Dann wird nicht nur µ f(i) in Richtung von vi bewegt, sondern<br />
auch µ g(i) von vi weg bewegt:<br />
µ ′ f(i) = µ f(i) + t · (vi − µ f(i)) (22.1)<br />
µ ′ g(i) = µ g(i) − t · (vi − µ f(i)) (22.2)<br />
Der um diese Funktionalität erweiterte LVQ-Algorithmus wird auch<br />
LVQ-2-Algorithmus genannt.<br />
In der Praxis kann man sowohl beim einfachen LVQ-Algorithmus als<br />
auch beim LVQ-2 das Problem beobachten, daß einige Ausreißer unter den<br />
Trainingsdaten dazu führen, daß die Verschiebungen bestimmter Referenzvektoren<br />
sehr groß ausfallen und so das ganze Gefüge der Referenzvektoren<br />
(das Codebuch) durcheinander gewürfelt werden kann. Um dies zu vermeiden,<br />
bietet es sich an, den Schritt 3 nur dann auszuführen, wenn das<br />
Trainingsmuster nicht allzu weit weg vom Referenzvektor liegt, also wenn<br />
|µ f(i) − vi| < w. Für den Fall des LVQ-2 bietet es sich sogar an, nur dann<br />
diskriminativ zu trainieren, wenn das Trainingsmuster in einem Fenster um<br />
die Trenngerade zwischen µ f(i) und µ g(i) zu liegen kommt.<br />
Abb. 22.3 illustriert, wie das LVQ-Verfahren als Neuronales Netz<br />
betrachtet werden kann. Das dargestellte Netz hat k Ausgabeneuronen,<br />
die den k Klassen entsprechen. Wenn an die Eingänge das d-dimensionale<br />
Muster vt = (vt1, vt2, . . . vtd) angelegt wird, dann ist die Ausgabe des j-ten<br />
Ausgabeneurons oj = <br />
i vtiwij. Dieser Wert ist genau die Korrelation<br />
zwischen dem angelegten Muster und dem Eingangsgewichtevektor des<br />
j-ten Neurons (w1j, w2j, . . . wdj). D.h. diejenige Klasse wird klassifiziert,<br />
deren Gewichtevektor die größte Korrelation hat. Es ist nun sowohl möglich,<br />
das abgebildete Perzeptron mit Hilfe des Backpropagation Verfahrens zu<br />
trainieren, als auch mit Hilfe des LVQ Verfahrens, wenn man lediglich die<br />
Eingabegewichte des j-ten Ausgangsneurons mit dem j-ten Referenzvektor<br />
des obigen LVQ-Algorithmus gleich setzt. Die Klassifikation selbst verwendet<br />
dann nicht den euklidischen sondern den Korrelationsabstand.<br />
Einige erfolgreiche Einsätze von LVQ in der Spracherkennung wurden<br />
z.B. in [?] [?] vorgestellt. Dabei wurden auf Hidden Markov Modellen
o1 . . . oj . . .<br />
vt1 . . . vti . . . vtd<br />
Abb. 22.3. LVQ-Algorithmus als Neuronales Netz<br />
ok<br />
22.2 Architekturen 377<br />
basierende Erkenner verwendet, bei denen die Emissionswahrscheinlichkeiten<br />
mit Hilfe eines LVQ-Netzes für jedes von drei Segmenten eines Phonems<br />
berechnet wurden. Die sprecherabhängigen Erkennungsraten lagen auf<br />
dem damaligen ” Conference Registration“ Benchmark in vergleichbaren<br />
Regionen wie die von auf Gauß-Mischverteilungen basierenden Erkennern.<br />
Bei sprecherunabhängiger Erkennung waren die Ergebnisse deutlich besser<br />
als mit vergleichbaren auf LPNNs basierenden Erkennern, jedoch konnten sie<br />
nicht an die von kontextabhängigen Gauß-Mischverteilungen heranreichen.<br />
22.2.4 Kohonens selbstorganisierende Karten<br />
Betrachtet man Sprachsignale aber auch andere Mustererkennungsaufgaben,<br />
so stellt man sich bald die Frage, wie man am geeignetsten den oft sehr<br />
hochdimensionalen Merkmalsraum umgestalten kann, ja sogar die Frage, wie<br />
hochdimensional der Merkmalsraum ” in Wirklichkeit“ ist, bzw. auf einen<br />
wie kleindimensionalen Raum man ihn schrumpfen lassen könnte. Nun sind<br />
rohe diskrete Sprachsignale per se eindimensional, allerdings werden einzelne<br />
Abtastwerte daraus nie für die Erkennung direkt verwendet. Kohonens selbst<br />
organisierende Karten (engl. Kohonen maps oder Kononen’s self organizing<br />
maps) sind neuronale Netze, die zum Ziel haben, einen hochdimensionalen<br />
Merkmalsraum so auf einen niedrigdimensionalen abzubilden, daß durch<br />
die Abbildung sowohl eine Klassifikation durchgeführt wird, als auch daß<br />
eine Ähnlichkeits- bzw. Nachbarschaftsbeziehung im Ursprungsraum auf<br />
eine Nachbarschaftsbeziehung im Zielraum abgebildet wird. Das heißt, daß<br />
tendenziell für drei Punkte X1, X2, X3 mit |X1 − X2| < |X1 − X3| nach der<br />
Abbildung f auf den Zielraum gilt |f(X1) − f(X2)| < |f(X1) − f(X3)|. Dies<br />
kann per definitionem nicht grundsätzlich in jedem Fall erreicht werden.<br />
Wenn man aber davon ausgeht, daß der Ursprungsraum nicht gleichförmig<br />
gefüllt ist, sondern die Daten darin eine gewisse Struktur haben, und daß die<br />
Dimensionalität des Zielraumes nicht zu niedrig ist, so kann ein relativ großer<br />
Anteil der Nachbarschaftsbeziehung durch die Abbildung aufrechterhalten<br />
wij
378 22. Künstliche Neuronale Netze<br />
werden.<br />
Der Algorithmus zum Erzeugen eines Kohonen-Netzwerkes sieht wie<br />
folgt aus:<br />
1. erzeuge eine Menge (eine ” Schicht“) von Neuronen Ei mit<br />
Nachbarschaftsbeziehung. z.B. eine zweidimensionales Gitter<br />
mit City-Block-Nachbarschaft, oder ein Wabenmuster etc.<br />
bezeichne N(m, n) die ” Nähe“ zweier Neuronen Em und En (z.B.<br />
1.0 für m = n und 0.0 für zwei Neuronen an entgegengesetzten<br />
Ecken der ” Schicht“)<br />
2. erzeuge für jede Dimension j = 1 . . .d des Ursprungsmerkmalsraums<br />
ein Eingabeneuron Ej, verbinde jedes Eingabeneuron mit<br />
jedem Schicht-Neuron i über das zufällig initialisierte Gewicht<br />
wji<br />
3. für die Eingabe X = (x1, x2, . . .xd) ist die Ausgabe des Neurons<br />
o(Ei) = |(w1i, . . . wdi) − (x1, . . . xd)|<br />
4. Trainingsphase<br />
a) wähle zur Eingabe X<br />
gezeichneten Knoten<br />
=<br />
i<br />
(x1, x2, . . .xd) den aus-<br />
∗ , dessen Gewichtevektor<br />
Wi∗ = (w1i∗, w2i∗, . . . wdi∗) am nächsten zu X liegt, also:<br />
|Wi∗ − X| ≤ |Wi − X|∀i<br />
b) verändere jedes Gewicht wji um einen Werte δji<br />
mit δji = α · N(i, i ∗ ) · (xj − wji)<br />
Die Klassifikation mit so einem Netzwerk geschieht genau so wie bei der<br />
Auswahl des i ∗ im Schritt 4a des obigen Trainingsalgorithmus. Man beachte,<br />
daß hier i ∗ eine zunächst einmal abstrakte Klasse ist, der man ohne weitere<br />
Analyse keinen konkreten ” Namen“ geben kann. Es ist allerdings so, daß<br />
durch den Faktor N(i, i ∗ ) bei der Anpassung der Gewichte benachbarte<br />
Neuronen ähnlich behandelt werden. Dies führt zwangsläufig dazu, daß<br />
benachbarte Neuronen auch ein ähnliches Reaktionsmuster an den Tag legen.<br />
Verwenden wir ein Kohonen-Netz zur Klassifikation von Sprachlauten,<br />
und protokollieren wir für einige bekannte Trainingslaute, welches Neuron<br />
jeweils das i ∗ ist, beziehungsweise bestimmen wir für jedes Neuron, bei
22.2 Architekturen 379<br />
welchem Laut/Phon es die größte Ausgabe produziert, dann ergibt sich ein<br />
” Karte“ der Laute, die zum Beispiel so aussehen kann wie in Abb. 22.4.<br />
a a<br />
o<br />
l<br />
.<br />
o<br />
o<br />
l<br />
o<br />
o<br />
.<br />
a<br />
o<br />
u<br />
a<br />
a<br />
u<br />
u<br />
a h<br />
a<br />
v<br />
h<br />
h<br />
v<br />
v<br />
h<br />
r<br />
r<br />
r<br />
œ<br />
r<br />
v vn<br />
tk<br />
p<br />
k<br />
œ<br />
m<br />
d<br />
œ<br />
r<br />
n<br />
p<br />
. . v k pt t p t p h # #<br />
Abb. 22.4. Kohonens selbstorganisierende Karte<br />
ah<br />
a<br />
Das Netz versucht also so gut wie möglich ähnliche Laute in ähnliche<br />
Gebiete der Netzschicht zu positionieren. Beim hier abgebildeten Netz<br />
wurde eine zweidimensionale Wabenstruktur als Nachbarschaftsbeziehung<br />
verwendet. Das Gebiet am oberen linken Rand der Schicht spricht vor<br />
allem bei A- und O-ähnlichen Lauten an, rechts unten finden sich vor allem<br />
verschiedene Konsonanten.<br />
Neben der Klassifikation eines einzelnen Lautes kann man mit Hilfe von<br />
Kohonen-Netzen auch kontinuierliche Sprache erkennen. Verwendet man zum<br />
Beispiel als Merkmale Kurzzeitspektren X1, . . . Xt für die Zeitpunkte 1 . . .t,<br />
und bestimmt zu jedem Zeitpunkt das Neuron mit maximaler Ausgabe.<br />
Diese Neuronen ergeben schließlich einen Pfad durch den Zielraum, anhand<br />
dessen ein Wort erkannt werden kann. Ein Beispiel dafür ist in Abb. 22.5 zu<br />
sehen, bei dem Teuvo Kohonen persönlich das finnische Wort ” humppila“<br />
gesprochen hatte.<br />
22.2.5 MS-TDNNs<br />
Eine in der Spracherkennung beliebte Architektur zur Berücksichtigung<br />
dynamischer Eigenschaften der Sprache ist das so genannten Time Delay<br />
Neural Net (TDNN). Die Dynamik geht auf zwei Arten in die Klassifikation<br />
ein, einmal in Form eines Fensters, das einen größeren Zeitlichen Kontext<br />
des Signals überdeckt und somit mehr als nur ein Kurzzeitspektrum als<br />
l<br />
n<br />
d<br />
f<br />
g<br />
n<br />
p<br />
f<br />
n<br />
t<br />
f<br />
g<br />
h<br />
p<br />
y<br />
n<br />
r<br />
e<br />
y<br />
hj<br />
r<br />
y<br />
j<br />
h<br />
e<br />
j<br />
j<br />
k<br />
j<br />
i<br />
hi<br />
e<br />
i<br />
j<br />
#<br />
i<br />
i<br />
j
380 22. Künstliche Neuronale Netze<br />
u<br />
a<br />
l<br />
h<br />
Abb. 22.5. Typische Folge aktivster Neuronen für das finnische Wort ” humppila“<br />
Eingabe in das Netz liefert, und darüber hinaus über die Definition der<br />
Netzwerkgewichte.<br />
Das erstmals in [?] [?] für die Spracherkennung verwendete TDNN<br />
ist in Abb. 22.6 dargestellt. Das Netz wurde verwendet um die isoliert<br />
gesprochenen Phoneme b, d, und g zu erkennen. Das Sprachsignal wurde<br />
zu 15 Vektoren (ein Vektor alle 10ms) zu je 16 Mel-Spektralkoeffizienten<br />
verarbeitet. Als Eingabeschicht wird ein Feld von 3 × 16 Neuronen als 30ms<br />
breites Fenster über die Aufnahme ” geschoben“. Über der Eingabeschicht<br />
ist die Verdeckte Schicht mit 8 Neuronen. Zwischen der Eingabe- und der<br />
verdeckten Schicht befinden sich drei verschiedene 16x8 große Gewichtematrizen.<br />
Jede enthält die Gewichte für eine andere Zeittaktverschiebung<br />
(Time Delay). Die Eingabe in ein Neuron der verdeckten Schicht in Abb.<br />
22.7 abgebildet. Für jedes Eingabeneuron ui gibt es n Zeitverzögerungen<br />
mit eigener Gewichtung. Diese Gewichtungen sind so angeordnet, daß die<br />
Gewichte für verschiedene Neuronen der verdeckten Schicht mit gleicher<br />
Zeitverzögerung miteinander gekoppelt sind.<br />
Die TDNNs haben eine zufriedenstellende Leistung bei der Erkennung<br />
isoliert gesprochener Phoneme. Für kontinuierliche Sprache sind sie jedoch<br />
nicht geeignet. Dafür wurden sie in [?] zu so genannten Multi-State Time<br />
Delay Neural Nets (MS-TDNNs) weiterentwickelt. Die MS-TDNNs sind eine<br />
Mischung zwischen Konnektionistischen Ansätzen und Hidden Markov Modellen.<br />
Dabei wird von den HMMs die Idee der Zustände, Zustandsübergänge<br />
und des Dekodierungsproblems übernommen, von den neuronalen Netzen<br />
werde die diskriminative Art des Trainings und die ” feed-forward“-basierte<br />
Art der Berechnung der Emissionswahrscheinlichkeiten übernommen.<br />
Bis zur Ebene der Phonemschicht sind TDNNs und MS-TDNNs gleich.<br />
Beide implementieren eine Phonemschicht, bei der jedem zu erkennenden<br />
p<br />
m<br />
i
g<br />
d<br />
b<br />
b d g<br />
Integration über die Zeit<br />
Phonemschicht<br />
3 Neuronen<br />
22.2 Architekturen 381<br />
versteckte Schicht<br />
8 Neuronen<br />
Eingabeschicht16 Mel-Koeffizienten<br />
15 Zeittakte<br />
Abb. 22.6. Time Delay Neural Network (TDNN) zur Erkennung von b, d, und g<br />
Phonem eine Reihe von Aktivierungswerten eines Neurons zugeordnet wird.<br />
Während bei TDNNs diese Aktivierungswerte über die Zeit aufsummiert werden<br />
sie bei MS-TDNNs als Ersatz für Emissionswahrscheinlichkeiten bzw.<br />
für lokale Distanzen in einem DTW-Algorithmus verwendet. Als reines neuronales<br />
Netz betrachtet, besitzt das MSTDNN einen (oder mehrere) Wortschichten<br />
über der Phonemschicht. Jedes Wort ist eine Konkatenation von<br />
Phonemen, durch die wie beim Viterbi- beziehungsweise DTW-Algorithmus<br />
die wahrscheinlichste Folge beziehungsweise diejenige mit der geringsten kumulativen<br />
Distanz gesucht (s. Abb. 22.8).
382 22. Künstliche Neuronale Netze<br />
wi<br />
wi+1<br />
d1 . . .<br />
ui<br />
dn<br />
wi+n<br />
Abb. 22.7. Ein Time Delay Neuron<br />
22.2.6 LPNNs<br />
<br />
. . . . . .<br />
wj<br />
wj+1<br />
d1 . . .<br />
uj<br />
dn<br />
wj+n<br />
Linked Predictive Neural Nets (LPNNs) wurden vor allem Anfang der<br />
Neunziger eingesetzt [?] [?]. Die Idee hinter diesen Netzen ist das Berechnen<br />
der Emissionswahrscheinlichkeiten durch Vorhersagenetzwerke. Dabei wird<br />
für jedes Modell ein Vorhersagenetzwerk (in der Regel ein einfaches mehrschichtiges<br />
Perzeptron) trainiert, das bei der Eingabe eines oder mehrerer<br />
Merkmalsvektoren einen anderen ” vorhersagen“ muß. Hierbei bedeutet Vorhersage<br />
nicht unbedingt Blick in die Zukunft. Eine ” Vorhersage“ des Vektors<br />
Xt zum Zeitpunkt t aus den Merkmalen Xt−1 und Xt+1 ist genauso denkbar<br />
und wurde auch in(engl. multi-layer perceptron MLP) der Tat verwendet.<br />
Das erwartete Verhalten dieser Vorhersagenetzwerke wird damit begründet,<br />
daß jedes Netzwerk seine Vorhersagefunktion nur auf Daten der ihm<br />
entsprechenden Modelle trainiert. Nun kann man davon ausgehen, daß die<br />
Qualität der Vorhersage, also die Nähe zum tatsächlichen Merkmalsvektor,<br />
für ein Netz, das mit A-Lauten trainiert wurde, besser ist, wenn es auf<br />
A-Lauten getestet wird, als wenn es auf B-Lauten getestet wird.<br />
Der kontinuierliche Spracherkenner selbst kann nur auf Basis der Baum-<br />
Welch Trainingsalgorithmen für Hidden Markov Modelle gebaut werden,<br />
lediglich die Emissionswahrscheinlichkeiten werden nicht wie zumeist mit<br />
Gauß-Mischverteilungen, sondern mit der Vorhersagequalität der Vorhersagenetze<br />
berechnet. In Abb. 22.9 ist der Zustand dargestellt, in dem sich<br />
der Erkenner zum Zeitpunkt t befindet. Die Größe der schwarzen Kreise in<br />
der DP-Matrix entspricht den Werten der Emissionswahrscheinlichkeiten<br />
beziehungsweise der Qualität der Vorhersage von Xt aus Xt−2 und Xt−1 für
Wn<br />
.<br />
.<br />
.<br />
W2<br />
W1<br />
Wn<br />
W2<br />
W1<br />
Abb. 22.8. Multi-State TDNN für die Wörter W1, . . . Wn<br />
22.2 Architekturen 383<br />
jedes der vier Vorhersagenetzwerke. Am besten paßt hier die Vorhersage des<br />
a2-Netzes. Die Wahrscheinlichkeit dafür, daß das Wort ” BAB“ gesprochen<br />
wurde, läßt sich dann aus der Summe der Emissionswahrscheinlichkeiten<br />
auf dem DTW-Pfad schätzen. Für andere Wörter würde die y-Achse der<br />
DP-Matrix eine andere Folge der Vorhersagenetze zusammengestellt werden.<br />
Die Ergebnisse beim Einsatz so gebauter Spracherkenner waren für<br />
sprecherabhängige Erkennung durchaus beachtlich. Die Fehlerraten für einen<br />
einzelnen Sprechern auf dem ” Conference Registration“ Benchmark lagen<br />
im einstelligen Prozentbereich.<br />
Pn<br />
P4<br />
P3<br />
P2<br />
P1
384 22. Künstliche Neuronale Netze<br />
BAB<br />
b1<br />
b2 a1<br />
a2<br />
b b b b a a a a a b b b b b<br />
Abb. 22.9. Linked Predictive Neural Networks für kontinuierliche Spracherken-<br />
nung<br />
22.2.7 Hierarchische Mixturen von Experten<br />
Die Feststellung, daß automatische Spracherkennung nicht nur aus Sicht des<br />
Sprachmodells, sondern auch aus Sicht des akustischen Modells abhängig<br />
von der Einsatzdomäne ist, und daß die Portierbarkeit und Skalierbarkeit<br />
über verschiedene Erkennungsaufgaben hinweg unzureichend ist, diente als<br />
Motivation zur Entwicklung von Hierarchischen Mixturen von Experten<br />
(HME) für das akustische Modell von Spracherkennern. Diese bilden die<br />
ideale Voraussetzung für eine leichte Skalierung der Parameterraumgröße<br />
durch entsprechende Wahl der Zahl der Hierarchieebenen [?]. Je mehr<br />
Hierarchieebenen verwendet werden, umso feiner gestaltet sich das akustische<br />
Modell. Bei Bedarf (Portierung auf andere Aufgaben oder andere<br />
Erkennungsumgebungen) kann die Zahl der Ebenen auch reduziert werden<br />
und so eine Version des Parameterraums verwendet werden, die weniger<br />
spezifisch und dafür mehr generalisierungsfähig ist. Mehr noch: in ein und<br />
derselben Hierarchie können verschiedene Parameterräume für verschiedene<br />
Zwecke integriert sein, und bei Bedarf mehr der eine oder mehr der andere<br />
Parameterraum verwendet werden.<br />
Die Idee hinter hierarchischen Mixturen von Experten ist die Modularisierung.<br />
Alle Parameter werden in einer Baumstruktur angelegt. Jeder<br />
Baumknoten beschreibt einen Teil des Merkmalsraums (zum Beispiel ein<br />
Phonem). Wenn dieser Teil der Raumes ausreichend genau beschrieben<br />
ist, oder sowieso nur wenige Trainingsbeispiele hat, ist es sinnvoll diesen<br />
Knoten als Blattknoten zu verwenden. Wenn aber der Raum groß ist, viele<br />
Trainingsdaten hat und diese auch noch eine große Varianz haben, dann<br />
t
22.2 Architekturen 385<br />
lohnt es sich, den Knoten ähnlich wie bei der divisiven Ballung (vgl. Abs.<br />
17.2.4) in zwei Unterknoten aufzutrennen. Die Auftrennung kann dann zum<br />
Beispiel zwei verschiedene Kontexte oder Kontextklassen erzeugen, sie kann<br />
aber auch dasselbe Modell auf zwei verschiedene Arten modellieren (zum<br />
Beispiel einmal mit Gauß-Mischverteilungen und einmal mit mehrschichtigen<br />
Perzeptronen). Die Auswahl des passenden Teilmodells oder der besseren<br />
Modellierungsart geschieht dann durch ein so genanntes Gate. Diese muß die<br />
Auswahl nicht digital treffen, viel besser ist eine von der aktuellen Situation<br />
und vom aktuell vorliegenden Signal abhängige Gewichtung der beiden<br />
Unterknoten. Das Resultat einer hierarchischen Mixtur von Experten ist in<br />
Abb. 22.10 skizziert.<br />
Gatingnetzwerk<br />
1<br />
x<br />
g11<br />
Expertennetzwerk<br />
1.1<br />
µ1<br />
Knoten 0<br />
µ<br />
<br />
g2<br />
g1<br />
µ2 <br />
Knoten 1 Knoten 2<br />
g12<br />
g21<br />
Gatingnetzwerk<br />
0<br />
g22<br />
Gatingnetzwerk<br />
2<br />
µ11 µ12 µ21<br />
µ22<br />
Experten- Experten- Expertennetzwerk<br />
1.2 netzwerk 2.1 netzwerk 2.2<br />
x x<br />
x x<br />
Abb. 22.10. Hierarchische Mixtur von Experten<br />
Die dargestellt Mixtur berechnet die Emissionswahrscheinlichkeit<br />
oder einen entsprechend umrechenbaren Bewertungsterm µ für einen<br />
HMM-Zustand. Dafür werden insgesamt vier spezialisierte Modelle (Expertennetzwerke)<br />
eingesetzt. Jeder dieser Experten ist auf einen bestimmten<br />
Aspekt des Modells (bestimmter Teil des Merkmalsraums, bestimmte<br />
Ausprägung des Modells, bestimmte äußere Bedingungen der Aufnahme)<br />
spezialisiert. Die Ausgaben von je zwei Experten werden mit Hilfe eines<br />
Gates gewichtet gemittelt. Sowohl die Experten als auch die Gates können<br />
auf verschiedenste Arten implementiert werden. In Abb. 22.10 sind beide<br />
als Neuronale Netzwerke dargestellt. Die Gating-Netze erhalten als Eingabe<br />
das aktuelle Sprachsignal und berechnen auf dieser Grundlage die<br />
Gating-Gewichte, so daß die Gesamtausgabe der Hierarchie schließlich<br />
x<br />
x
386 22. Künstliche Neuronale Netze<br />
µ = g1µ1 + g2µ2 = g1(g11µ11 + g12µ12) + g2(g21µ21 + g22µ22) ist.<br />
Der besondere Vorteil von Expertenhierarchien gegenüber größeren<br />
Netzwerken, die das Gesamtbild sehen können, besteht in der einfacheren<br />
Trainierbarkeit und Optimierbarkeit der einzelnen Experten. Insbesondere<br />
das diskriminative Trainieren derselben ist umso genauer, je sorgfältiger der<br />
Ausschnitt aus dem Merkmalsraum ausgewählt wird.<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
Knoten mit #Muster ≥ c1 (⇒ Adaption)<br />
00 11<br />
Knoten mit #Muster < c0 (⇒ beschneiden)<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
00 11<br />
Neue Knoten mit Adaptierten Netzen<br />
00 11<br />
Neue Blattknoten mt gekoppelten Modellen<br />
Abb. 22.11. Domänenadaption mit Hierarchischen Mixturen von Experten
22.2 Architekturen 387<br />
Die Adaption eines HME-Systems an eine neue Domäne geschieht<br />
ausgehend von einem großen detaillierten System das auf einer großen<br />
Menge von Trainingsdaten viele Modelle trainiert wurde (Abb. 22.11 oben).<br />
Zwei in der Regel empirisch zu bestimmende Schwellwerte c0 und c1 legen<br />
fest, mit den einzelnen Knoten bei der Adaption verfahren wird. Wenn<br />
die Zahl der Muster in den Testdaten (den Daten der neuen Domäne)<br />
mindestens c1 ist, so kann man davon ausgehen, daß ausreichend viele Daten<br />
vorhanden sind, um das dem Knoten entsprechende Modell mit Hilfe von<br />
Adaptionsmethoden (s. Kap. 21) auf die neue Domäne einzustellen. Die<br />
Knoten, für die es zwischen c0 und c1 Muster gibt, bleiben unverändert. Für<br />
die Knoten, auf die weniger als c0 Muster entfallen, wird angenommen, daß<br />
sie <strong>Sprachliche</strong> Einheiten modellieren, die nicht typisch für die neue Domäne<br />
sind. Wenn ein Knoten zu dieser Menge gehört, dann offensichtlich auch alle<br />
seine Nachfolgerknoten. Diese können dann aus dem Baum herausgenommen<br />
werden. Letztes bedeutet aber nicht, daß diese Phänomene gar nicht mehr<br />
modelliert werden. Es bedeutet nur, daß alle feiner Aufteilung aufgegeben<br />
wird, und alle seine Blätter zu einem neuen Blatt zusammengefaßt werden<br />
(s. Abb. 22.11 unten).
23. Verstehen von Sprache<br />
In den Anfängen der Spracherkennung waren die erkennbaren Vokabulare<br />
und auch die daraus konstruierbaren Sätze so einfach, daß die Bedeutung<br />
des Gesprochenen durch einfaches Nachsehen in einer zuvor angelegten<br />
Tabelle machbar war. Die ersten ernsthaften und weit verbreiteten Spracherkennungssysteme<br />
mit sehr großen Vokabularen waren Diktiersysteme.<br />
Bei solchen Systemen spielt die Bedeutung des Gesagten aus der Sicht<br />
des Erkenners nur eine untergeordnete bzw. gar keine Rolle. Auch wenn<br />
es möglich ist, die Erkennungsgenauigkeit durch Verstehen zu verbessern,<br />
beschränken sich Diktiersysteme auch heute noch größtenteils lediglich auf<br />
die Ausgabe von Wortfolgen, ohne dabei zu beachten, welchen Sinn diese<br />
haben. Bei Diktieraufgaben ist ein Verstehen auch nicht nötig. Die vom<br />
Benutzer gestellte Aufgabe ist dann erfüllt, wenn die gesprochene Wortfolge<br />
auf dem Bildschirm erscheint.<br />
Bei zahlreichen <strong>Kommunikation</strong>saufgaben ist es nötig, die Bedeutung des<br />
Gesprochenen zu erkennen, und das geht ab einer gewissen Komplexität der<br />
Sprache nicht mehr durch Nachsehen in einfachen Tabellen. Spezielle Algorithmen<br />
sind nötig, um mit Hilfe eines Kommandos ” Robbie, ich habe Durst.“<br />
den Haushaltsroboter dazu zu bewegen, ein Getränk zu holen oder zumindest<br />
die Frage zu stellen, was der Benutzer denn gerne trinken möchte.<br />
23.1 Verstehen gesprochener Sprache<br />
Geschriebene (elektronisch vorliegende) Texte sind aus mancherlei Gründen<br />
einfacher maschinell zu verstehen, als gesprochene Sprache. In der Regel kann<br />
man davon ausgehen, daß Personen, die Texte schreiben, dabei wesentlich<br />
mehr Zeit zum Überlegen und Formulieren von Sätzen haben als wenn sie<br />
spontan sprechen müssen. So sind grammatikalische Fehler in Texten viel<br />
seltener zu finden. Spontane Sprache enthält außerdem zahlreiche Effekte,<br />
die die eigentliche Wortfolge mit viel Ballast (emphatische Pausen, Stotterer,<br />
Wortabbrüche, Geräusche etc.) anreichern. Zusätzlich macht dann noch der<br />
Spracherkenner Fehler, so daß die Wortfolge, deren Sinngehalt verstanden<br />
werden soll, weit mehr von dem abweicht, was der Sprecher sagen wollte, als
390 23. Verstehen von Sprache<br />
wenn er es getippt hätte.<br />
Eine akustische Aufnahme einer Äußerung enthält außerdem keine<br />
Interpunktionszeichen und keine Unterscheidung zwischen Groß- und Kleinschreibung.<br />
Selbst wir <strong>Mensch</strong>en haben mit Texten ohne Interpunktion<br />
Probleme beim Verstehen. All diese Unterschiede zwischen gesprochener und<br />
geschriebener Sprache lassen vermuten, daß das Verstehen von Gesprochenem<br />
wesentlich schwieriger ist.<br />
Dies trifft in der Regel auch zu, insbesondere auch deshalb, weil die<br />
textuelle Darstellung von einem Spracherkenner erzeugt wird, der schon<br />
bei diktierter Sprache und bei spontaner Sprache noch mehr Fehler macht.<br />
Selbst wenn der Erkenner überhaupt keine Fehler machen würde, wäre die<br />
erkannte Sprache so voller störender Artefakte wie abgebrochener Wörter,<br />
lauter Pausen, und die Grammatik genügt fast nie den Regeln der Syntax,<br />
so daß die Analysemethoden für das Verstehen von Texten hier nicht<br />
ausreichend gut funktionieren.<br />
Allerdings hat gesprochene Sprache auch Merkmale, die normalerweise<br />
nur ihr eigen sind, und sich in Texten nicht widerspiegeln. Dazu gehört zum<br />
Beispiel die Prosodie (s.u.), aber auch andere <strong>Kommunikation</strong>smöglichkeiten<br />
wie Gestik, Mimik und Ausdruck von Emotionen. Zumindest die Prosodie<br />
und die emotionale Situation des Sprechers lassen sich im reinen Audiosignal<br />
wiederfinden. Abb. 23.1 zeigt ganz grob, wie ein System, das natürliche<br />
Sprache verstehen soll, aufgebaut ist.<br />
23.2 Prosodie<br />
Prof. Raj Reddy von der Carnegie Mellon University, Pittsburgh, sagte<br />
einmal, daß die Prosodie in der gesprochenen Sprache vergleichbare Bedeutung<br />
habe wie die Zwischenräume in der Schrift. Mit Prosodie wird im<br />
wesentlichen die Melodie und der Rhythmus einer Äußerung bezeichnet.<br />
Die meisten Spracherkenner verwenden zum Erkennen von Wortfolgen keine<br />
zuvor extrahierten prosodischen Informationen. Die in der Aussprache der<br />
selben Wortfolge ohnehin mögliche Variation überwiegt meist die durch die<br />
Melodie aufgesetzte zusätzliche Variation, so daß Spracherkenner in der<br />
Regel keine nennenswerten zusätzlichen Probleme daraus erwachsen, daß<br />
eine Wortfolge einmal als Aussage und einmal als Frage betont werden kann.<br />
In einigen wenigen tonalen Sprachen wie in einigen chinesischen Sprachen<br />
spielt die Melodie innerhalb eines einzelnen Lautes eine Rolle zur Unterscheidung<br />
von Silben und Wörtern. Solche Lautmelodien werden aber nicht<br />
vom Begriff Prosodie subsumiert, sondern lediglich die makroskopischen
Spracherkenner<br />
Wortfolge<br />
(Hypothesengraph)<br />
Analyse<br />
Sinn<br />
prosodische<br />
Merkmale<br />
weitere Detekoren<br />
Emotionserkenner<br />
Prosodie-Detektor<br />
Abb. 23.1. Verstehen gesprochener Sprache<br />
Emotionen<br />
23.2 Prosodie 391<br />
sonstige<br />
Merkmale<br />
satz- beziehungsweise phrasenübergreifende Melodien und Rhythmen.<br />
Zu den wichtigsten, die Prosodie bestimmenden Merkmalen gehören die<br />
folgenden:<br />
• Intonation<br />
Die Intonation (engl. Pitch) ist die Tonhöhe der Grundfrequenz mit der<br />
stimmhafte Laute artikuliert werden. Diese Grundfrequenz wird oft auch<br />
als F0 (wie die nullte Formante) bezeichnet. Sie kann auf verschiedene<br />
Arten bestimmt werden. Eine Möglichkeit ist die Analyse des Cepstrums<br />
(vgl. Abs. 8.3), die Grundfrequenz manifestiert sich dort in einem außergewöhnlich<br />
hohen Ausschlag bei der Quefrenz die der Grundfrequenz<br />
entspricht. Eine andere Möglichkeit besteht darin, die Autokorrelation<br />
auf dem Signal für verschiedene Verschiebungen zu messen. Wenn wir<br />
annehmen, daß die Grundfrequenz F0 Hz ist und daß das diskrete<br />
Sprachsignal s[n] mit einer Abtastrate von r Hz abgetastet wurde, dann<br />
ist davon auszugehen, daß die Autokorrelation <br />
i s[i] · s[i − r/F0] für eine<br />
Verschiebung um r/F0 am größten ausfällt. Auch für Vielfache k · r/F0<br />
dieser Verschiebung sind erhöhte Werte der Autokorrelation zu messen. In<br />
der Praxis ergeben sich für die Messung von F0 einige Probleme, die darin<br />
begründet sind, daß Sprache auch viele nicht stimmhafte Phasen enthält,<br />
daß Rauschen und Störgeräusche verschiedenster Art die Korrelationsmessungen<br />
und Cepstenbestimmung beeinträchtigen, und daß F0 selbst<br />
nicht konstant ist, sondern sich über die Zeit hinweg ändert – wodurch ja
392 23. Verstehen von Sprache<br />
der Beitrag zur Prosodie erst entsteht. Gute F0-Verfolger (Pitch-Tracker)<br />
erreichen korrekte Erkennungsraten in der Größenordnung von ca. 90% [?].<br />
• Pausen<br />
Aus der Dialogforschung weiß man, auch Nichtsprechen kann ein bedeutungstragender<br />
Sprechakt sein. Die Position und Länge von Pausen in<br />
einer Äußerung bestimmen die Prosodie dieser Äußerung mit. Bei nicht<br />
allzu verrauschten Aufnahmen bedarf es in der Regel keiner besonderen<br />
Pause-Detektoren. Alle ausreichend mächtigen Spracherkenner verwenden<br />
ein besonderes Pause- oder Stille-Wort, das von den meisten Instanzen<br />
eines Erkenners wie ein reguläres Wort behandelt wird und als solches<br />
auch in der Erkennerhypothese ausgegeben werden kann.<br />
• Betonung / Lautstärke<br />
Teilweise geht die Betonung eines Teils einer Äußerung einher mit einer<br />
Anhebung der Stimme (Erhöhung von F0). Der andere Weg zur Betonung<br />
ist die Erhöhung der Lautstärke. Auch wenn die empfundene Lautstärke<br />
etwas anderes ist als die Signalenergie, sowohl wegen der unterschiedlichen<br />
Phon und dBA Skalen als auch wegen der Tatsache, daß verschiedene<br />
Laute an sich schon in der unbetonten Version verschiedene typische<br />
Energien haben, so genügt in der Regel die Messung der Signalenergie zur<br />
Bestimmung der Lautstärke.<br />
• Rhythmus<br />
Der Rhythmus einer Äußerung wird durch den Lautstärkeverlauf und<br />
durch die Abfolge von Pausen und Sprache bestimmt. Er beschreibt<br />
mehr als nur eine lokale Betonung oder Hervorhebung sondern umfaßt<br />
weiterreichende die gesamte Äußerung umfassende Eigenschaften.<br />
Die prosodische Analyse einer sprachlichen Äußerung wird in zwei Phasen<br />
durchgeführt. In der ersten Phase werden die oben beschriebenen Merkmale<br />
bestimmt. In der zweiten Phase werden diese Merkmale beziehungsweise die<br />
zeitliche Abfolge dieser Merkmale analysiert und bestimmte Eigenschaften<br />
der Äußerung klassifiziert. Zum Beispiel, ob es sich um eine Frage handelt.<br />
Zu den durch die Prosodie klassifizierbaren Eigenschaften gehören:<br />
• Intention der Äußerung
War die Äußerung eine Aussage, eine Frage<br />
oder ein Befehl? Am einfachsten ist die Frage<br />
von einer gewöhnlichen Aussage zu Unterscheiden,<br />
weil bei Fragen üblicherweise am Ende<br />
die Grundfrequenz F0 angehoben wird. Die<br />
gleiche Wortfolge kann so einmal eine Aussage<br />
sein und einmal eine Frage (siehe nebenstehen-<br />
de Abb.).<br />
F0<br />
23.2 Prosodie 393<br />
” Es regnet.“<br />
F0<br />
” Es regnet?“<br />
Über die Eigenschaften Aussage/Frage hinaus gibt es noch die Unterscheidung<br />
nach Dialogakten, so kann eine Aussage initiativ sein. Ein völlig<br />
unbetontes ” Dieses Auto ist rot.“ dient lediglich der Informationsübermittlung.<br />
Wenn in dem Satz die Betonung auf das Wort ” ist“ gelegt wird,<br />
dann handelt es sich eher um eine Entgegnung beziehungsweise um die<br />
Kundgebung des Nichteinverstandenseins mit einer vorherigen Äußerung<br />
des Dialogpartners.<br />
• Aufmerksamkeitssteuerung<br />
Mit Hilfe der Prosodie kann durch Betonung bestimmter Wörter oder<br />
Phrasen die Aufmerksamkeit der Zuhörer auf diese gelenkt werden.<br />
Dadurch ändert sich zwar nicht die Bedeutung der Äußerung an sich,<br />
aber sehr wohl die Bedeutung der Äußerung oder der betonten Phrase im<br />
Zusammenhang mit den vorhergehenden und nachfolgenden Äußerungen.<br />
Zum Beispiel ist die Betonung des Wortes ” dieses“ im Satz ” Dieses Auto<br />
ist rot.“ als Kontrast zu Aussagen über Farben anderer Autos in früheren<br />
Äußerungen zu sehen, und ergibt erst zusammen mit den vorhergehenden<br />
Äußerungen seinen gesamten Sinn.<br />
• Auflösung von Ambiguitäten<br />
Oft ist die Kontrolle des Rhythmus oder die Positionierung von Pausen<br />
notwendig, um mehrdeutige Aussagen eindeutig zu machen. Da wir<br />
keine Satzzeichen sprechen, kann man aus einer prosodielosen monotonen<br />
Äußerung der Wortfolge ” Montag paßt mir nicht aber Dienstag“ die<br />
Bedeutung nicht zweifelsfrei extrahieren. Diese Worte können nämlich<br />
einmal wie ” Montag paßt mir, nicht aber Dienstag“ und ein anderes Mal<br />
wie ” Montag paßt mir nicht, aber Dienstag“ interpretiert werden. Wenn<br />
wir diesen Satz verständlich artikulieren wollen, müssen wir an der Stelle,<br />
an der in der Schriftform ein Komma steht, eine Pause machen.<br />
• Ausdruck der Emotionslage<br />
In der Prosodie spiegelt sich oft auch die emotionale Lage des Sprecher<br />
wider. Übermäßige Lautstärke, schneller Rhythmus und übertriebene<br />
Betonung sind oft Zeichen für Ärger. Eine betonungsarme leise Sprache
394 23. Verstehen von Sprache<br />
ist eher ein Hinweis auf eine traurige Gemütslage. Das Wissen um den<br />
emotionalen Zustand ist gerade für Dialogsysteme wichtig, die sich auf<br />
den Dialogpartner und seine aktuelle Lage einstellen sollten.<br />
23.3 Parsing<br />
Aus der Programmierung in sogenannten höheren Programmiersprachen ist<br />
der Begriff des Parsers bekannt. Ein Parser (im Deutschen oft auch Zerteiler<br />
genannt) hat die Aufgabe aus einer für <strong>Mensch</strong>en einfach lesbaren Darstellung<br />
eines Programms eine Darstellung zu erzeugen, die für die <strong>Maschine</strong> leichter<br />
zu verarbeiten ist. Der gleiche Begriff wird bei der linguistischen Analyse<br />
sprachlicher Wortfolgen verwendet. In diesem Abschnitt soll keine komplette<br />
Einführung in das Parsing gegeben werden. Dem Leser soll vor allem ein Eindruck<br />
davon vermittelt werden, welche Techniken beim Verstehen natürlicher<br />
Sprache Verwendung finden.<br />
23.3.1 Grammatische Zerteiler<br />
Die allermeisten Zerteilen für natürliche Sprache basieren auf einer im<br />
vergleich zu Programmiersprachen sehr viel größeren Menge an Regeln<br />
(sogenannte Produktionen). Solche Regelwerke lassen sich in eine der Kategorien<br />
” syntaktische Parser“ oder ” semantische Parser“ einordnen. Komplexe<br />
Parser enhtalten aber oft Anteile beider Kategorien. Snytaktische Parser<br />
orientieren sich mehr an den Regeln, wie Wörter zusammengesetzt werden<br />
können, um sinnvolle Sätze zu Bilden. Dabei spielen vor allem grammatische<br />
Konstrukte eine Rolle (s. linke Seite von Abb. 23.2), bei semantischen Parsern<br />
spielt die Anordnung der Wörter bzw. ihre grammatischen Bedeutungen<br />
eine untergeordnete Rolle (s. rechte Seite von Abb. 23.2). Hier kommen vielmehr<br />
semantische Eigenschaften, d.h. die Bedeutung der Wörter zum Tragen.<br />
In der Praxis erweist sich als besonderer Unterschied zwischen syntaktischen<br />
und semantischen Parsern ihre Domänen(un)abhängigkeit.<br />
Syntaktische Parser sind daher eher domänenunabhängig, da sie keine das<br />
Thema der zu analysisrenden Wörter betreffenden Informationen benötigen<br />
oder verarbeiten. Semantische Parser hingegen, können nach dem heutigen<br />
Stand der Technik nur domänenabhängig sein. Wenn, wie in Abb. 23.2<br />
dargestellt, Begriffe wie ” Essenswunsch“ modelliert werden, so is dies ein<br />
so konkretes ereignis, daß dieses in der allgemeinen Sprache nur sehr selten<br />
vorkommt. Eine entsprechende Regel würde z.B. nur sinnvoll als Teil eines<br />
Restaurant-Dialog-Parsers verwendet werden. Ein semantischer Parser für<br />
allgemeine themenunabhängige Sprache würde viel mehr Regeln benötigen
Syntaktischer Parser Semantischer Parser<br />
Nominalphrase Verbalphrase<br />
Nomen Hilfsverb<br />
PETER WILL<br />
Satz<br />
Nominalphrase<br />
Nomen<br />
PUDDING<br />
Verbalphrase<br />
Verbalphrase<br />
Verb<br />
ESSEN<br />
Essenswunsch<br />
Esser Essen<br />
Abb. 23.2. Verschiedene Arten von Zerteilern (Parsern)<br />
PETER PUDDING<br />
23.3 Parsing 395<br />
WILL ESSEN<br />
als in akzeptabler Zeit von <strong>Mensch</strong>en zusammengetragen werden könnten,<br />
er ist also domänenabhängig.<br />
Eines haben alle grammatischen Parser gemeinsam. Sie verarbeiten Terme<br />
und ersetzen Teile dieser Terme durch andere Terme (Termersetzungssystem).<br />
Die Terme befinden sich stets zwsichen zwei extremen, dem Extrem<br />
der ursrpünglichen Darstellung (d.h. der zu parsenden Wortfolge) und der<br />
Darstellung als Interpretation der Wortfolge. Es ist üblich, die Wörter (oder<br />
Symbole) der Wortfolge als ” Terminale“ und die Symbole der Interpretation<br />
als ” Nichtterminale“ zu bezeichnen. Ziel des Parsers ist es stets, eine Folge<br />
von Regelanwendungen zu finden, die eine Darstellung aus dem einen in das<br />
andere Extrem überführen. Man spricht von<br />
23.3.2 Suchstrategien<br />
Ab einer gewissen Komplexität des grammatikalischen Regelwerkes und<br />
der zu verstehenden Wortfolge ist es nicht mehr möglich, alle erlaubten<br />
Folgen von Regelanwendungen auszutesten. Die kombinatorische Explosion<br />
ist einfach zu groß. Es ist also nötig, den Suchraum geeignet zu beschneiden.<br />
Genauso wie bei der Suche nach wahrscheinlichen Zustandsfolgen im Viterbi-<br />
Algorithmus oder nach wahrscheinlichen Wortfolgen im One-Stage Dynamic<br />
Time Warping so kann man auch beim Zerteilen von Wortfolgen einzelnen<br />
Regeln und auch ganzen Folgen von Regeln Wahrscheinlichkeiten zuordnen,<br />
so daß für jede partielle Zerteilung (Parsebaum) eine Wahrscheinlichkeit<br />
(oder zumindest eine entsprechende Bewertung) berechnet werden kann,<br />
die dann als Basis für die Beschneidung des Suchraums dienen kann. Eine
396 23. Verstehen von Sprache<br />
Strahlsuche kann dann entscheiden, welche Parsebäume expandiert werden<br />
sollen und welche verworfen werden.<br />
Ganz abgesehen davon, daß in vielen Fällen Zerteilungen nicht eindeutig<br />
richtig oder falsch sind, kann durch eine Beschneidung des Suchraumes eine<br />
partielle Zerteilung verworfen werden, die wenn sie expandiert worden wäre,<br />
schließlich doch zur besten bzw. wahrscheinlichsten Zerteilung geführt hätte.<br />
Neben der Entscheidung, welche Zustände expandiert werden sollen,<br />
bleibt noch die Entscheidung, in welche Richtung die Suche durchgeführt<br />
wird. In jedem Fall wird eine Folge bzw. Baum von Regelanwendungen<br />
gesucht, an dessen Wurzel das Startsymbol der Grammatik steht, und an<br />
dessen Blättern die Wörter der zu verstehenden Wortfolge als Terminalsymbole<br />
stehen.<br />
Ebenso wie bei der Ballung akustischer Modelle (Abs. 17.2) lassen sich<br />
auch Parsebäume nach der bottom-up oder nach der top-down Methode<br />
konstruieren. Entsprechend unterscheidet man zwischen Bottom-Up-Parsern<br />
und Top-Down-Parsern. Bei Bottom-Up-Parsern besteht die Ausgangslage<br />
aus den Blättern, die nun wie bei der agglomerativen Ballung auf verschiedene<br />
Arten zu syntaktischen oder semantischen Einheiten zusammengefaßt<br />
werden, solange bis schließlich bei der letzten Zusammenfassung nur noch<br />
das Startsymbol entsteht. Erst dann wird aus dem Parse-Wald ein richtiger<br />
Parsebaum, denn erst dann gibt es nur noch eine Wurzel, wobei bis dahin<br />
viele einzelne Teilbäume auf verschiedenen Teilen der Wortfolge berechnet<br />
worden sind.<br />
Beim Top-Down-Parsen besteht jeder Zustand des Suchraumes aus<br />
einem richtigen Parsebaum, bei dem allerdings nicht alle Blätter Terminale<br />
sind. Die Suche ist erst dann zu Ende, wenn jedem Blatt des Baumes ein<br />
Terminalwort zugeordnet wurde.<br />
Beide Verfahren, top-down und bottom-up, haben Vor- und Nachteile.<br />
Der Vorteil des Top-Down-Parsens besteht darin, daß jeder Zustand des<br />
Suchraums einem ” grammatikalisch“ korrekten Parsebaum entspricht. So<br />
kann es nicht vorkommen, daß nach der Grammatik unzulässige Interpretationen<br />
untersucht werden.<br />
Der Nachteil des Top-Down-Verfahrens liegt in der Schwierigkeit, den<br />
Suchraum zu beschneiden. Schon bei kleinen Grammatiken mit kleinem Regelwerk<br />
können nach wenigen Regelanwendungen eine astronomische Zahl an<br />
möglichen partiellen Parsebäumen entstehen, die noch kein einziges Terminalsymbol<br />
enthalten. Ein reines Top-Down-Parsen hat also dann keinen Sinn,<br />
wenn so Beschneidungen des Suchraums vorgenommen werden müssen, be-
...<br />
SEIN RASEN GRÜNT<br />
Verb Verb Verb<br />
SEIN RASEN GRÜNT<br />
...<br />
...<br />
Nomen Verb Verb<br />
SEIN RASEN GRÜNT<br />
...<br />
Nominalphrase<br />
Pronomen<br />
...<br />
Pronomen<br />
Verbalphrase<br />
SEIN RASEN GRÜNT<br />
Nominalphrase<br />
Pronomen<br />
Nomen<br />
SEIN RASEN GRÜNT<br />
Satz<br />
Nomen<br />
Verb<br />
Nomen<br />
Verb<br />
Nominalphrase Verbalphrase<br />
Pronomen<br />
Verbalphrase<br />
Verb<br />
SEIN RASEN GRÜNT<br />
Nomen<br />
SEIN RASEN<br />
Abb. 23.3. Der Suchraum beim Bottom-Up-Parsing<br />
...<br />
...<br />
23.3 Parsing 397<br />
Verb<br />
GRÜNT<br />
vor auch nur ein Wort aus der zu analysierenden Wortfolge betrachtet wurde.<br />
Der Vorteil des Bottom-Up-Parsens besteht darin, daß alle Suchzustände<br />
aus Parsewäldern bestehen, die zu der Wortfolge passen. Allerdings kann<br />
es dazu kommen, daß die vielen (unabhängig voneinander konstruierten)<br />
Bäume des Parsewaldes nicht mehr zusammengefaßt werden können und das<br />
Startsymbol nicht mehr erreichbar ist.
398 23. Verstehen von Sprache<br />
Nominalphrase<br />
Nominalphrase<br />
Artikel Nomen<br />
...<br />
...<br />
Satz<br />
Satz<br />
Satz<br />
Verbalphrase<br />
...<br />
Satz<br />
Verbalphrase<br />
Verb Nominalphrase<br />
Artikel Nomen<br />
Nominalphrase<br />
Possesivpronomen<br />
Verbalphrase<br />
Nomen<br />
...<br />
...<br />
Verbalphrase<br />
Verb<br />
SEIN RASEN GRÜNT<br />
Abb. 23.4. Der Suchraum beim Top-Down-Parsing<br />
23.3.3 Repräsentation von Bedeutung<br />
Satz<br />
Verbalphrase<br />
Verb Nominalphrase<br />
Satz<br />
Verbalphrase<br />
Verb Nominalphrase<br />
...<br />
Satz<br />
Verbalphrase<br />
Nomen<br />
Richtig sinnvoll wird das Verstehen von Sprache erst dann, wenn mit der<br />
Bedeutung ” gerechnet“ werden kann, d.h. wenn z.B. Fragen beantwortet<br />
werden können, Daten gesammelt und zu neuen Sachverhalten zusammengelegt<br />
werden können. Dazu ist es nötig, ein Kalkül zu verwenden, das es<br />
erlaubt, aus vorhandenem Wissen neues abzuleiten, den Wahrheitsgehalt<br />
von Aussagen nachzuprüfen und neue Aussagen zu treffen. Ein besonders<br />
geeigneter Formalismus dafür ist die bekannte Prädikatenlogik. Zweifellos ist<br />
es so, daß die allgemeine Prädikatenlogik - schon die Prädikatenlogik erster<br />
Ordnung (PL1) - uns ein viel mächtigeres Werkzeug in die Hand gibt, als für<br />
die Darstellung der meisten einfachen Sachverhalte, wie sie in alltäglicher<br />
Sprache beschrieben werden, nötig ist. Andererseits ist es aber auch so, daß<br />
die natürliche Sprache wegen ihrer Ambiguität Möglichkeiten hat, die sich
23.3 Parsing 399<br />
weder durch exakte Logik noch durch eine Fuzzy Logic sinnvoll nachbilden<br />
lassen. Man denke nur an solche Dinge wie Humor, Ironie, Sarkasmus und<br />
andere Phänomene, die nicht einmal von <strong>Mensch</strong>en eindeutig und objektiv als<br />
solche erkannt werden können. Und wenn wir noch die Ergebnisse von Gödel<br />
und die sprachliche Möglichkeit, Paradoxien zu formulieren, betrachten,<br />
dann müssen wir der natürlichen Sprache eine Mächtigkeit zugestehen, die<br />
weder mit der PL1 noch mit Logiken höherer Stufen oder modalen Logiken<br />
erreichbar ist. In der Praxis sind solche Überlegungen bis heute nur selten<br />
von Bedeutung. Die heutigen, Sprache verstehenden Systeme sind noch<br />
sehr weit weg von der Leistungsfähigkeit, die ein nennenswert kompliziertes<br />
Kalkül benötigen würde. Daher werden oft auch für die Repräsentation von<br />
Wissen Ansätze verwendet, die eher in die Richtung von Entity-Relationship<br />
Modellen, KL-ONE, relationaler oder auch objektorientierter Datenbanken<br />
gehen. Solche Systeme sind ausreichend erforscht und ausreichend mächtig,<br />
um die Informationen zu modellieren, die in gewöhnlichen sprachlichen<br />
Dialogen ausgetauscht werden, und auf diesen Informationen einfache, aus<br />
der Logik abgeleitete Operationen durchzuführen. Dennoch haben alle diese<br />
Systeme als Grundlage die Prädikatenlogik, lediglich die Darstellung und die<br />
implementierten Kalküle unterscheiden sich. Daher werden wir im folgenden<br />
auch bevorzugt sprachlich geäußerte Sachverhalte als prädikatenlogische<br />
Formeln darstellen.<br />
Eine mögliche Darstellung des Satzes ” Peter ißt.“ könnte sein:<br />
Essen(Peter). Hierbei wird Peter als eine Konstante betrachtet und<br />
Essen als ein einwertiges Prädikat, das angibt, ob das Argument gerade ißt<br />
oder nicht. Ein Prädikat kann also für ein Ereignis verwendet werden. Die<br />
Argumente des Prädikats sind dann die Eigenschaften des Ereignisses. Das<br />
Prädikat ist genau dann wahr, falls das Ereignis stattfindet. Nun könnte<br />
der Satz aber auch komplizierter sein, zum Beispiel ” Peter ißt Pudding.“<br />
Um diesen Sachverhalt darzustellen, können wir nicht dasselbe Prädikat<br />
verwenden, weil es nicht in der Lage ist die zusätzliche Information über<br />
das Gegessene darzustellen. Wir brauchen daher ein anderes Prädikat, zum<br />
Beispiel EssenWas(Peter,Pudding). Dieses Prädikat ist zweiwertig und<br />
beinhaltet schon in seinem Namen, daß es nicht nur die essende Person,<br />
sondern auch das, was gegessen wird, ausdrückt. Es ist wahr, genau dann<br />
wenn Peter Pudding ißt, aber nicht, wenn er einen Apfel ißt. Wir können<br />
uns nun leicht vorstellen, welche Komplikationen nötig wären um auch Ereignisse<br />
wie ” Peter ißt abends gerne zum Nachtisch einen Pudding in seinem<br />
Lieblingslokal.“ Es erscheint nicht besonders sinnvoll, eine Wissensbank zu<br />
entwerfen, die auch das Prädikat EssenWerWasWoWannWieWozu mit fünf oder<br />
mehr Argumenten verwendet. An dieser Stelle bietet es sich an, das Ereignis<br />
selbst als Variable zu sehen und die Eigenschaften des Ereignisses jeweils<br />
mit eigenen Prädikaten zu modellieren:
400 23. Verstehen von Sprache<br />
∃w : Essen(w) ∧ Wer(w,Peter) ∧ Was(w,Pudding) ∧<br />
Wo(w,Lieblingslokal) ∧ Wie(w,gerne) ∧<br />
Wann(w,abends) ∧ Wozu(w,Nachtisch)<br />
also eine Konjunktion mehrerer Prädikate. So ist es leicht möglich, Ereignisse<br />
mit beliebig vielen Eigenschaften zu modellieren. Braucht man eine<br />
zusätzliche, während des Entwurfsprozesses noch nicht benutzte Eigenschaft<br />
A eines Ereignisses e, dann führt man ein neues Prädikat N(e, A) ein.<br />
Ereignisse, wie wir sie oben eingeführt haben, müssen nicht unbedingt<br />
” temporale“ Entitäten sein. Sie können auch konzeptuelle“ Entitäten sein.<br />
”<br />
Man spricht dann von Kategorien oder Konzepten. So drückt zum Beispiel<br />
der Satz Peter mag Pudding.“ kein konkretes Ereignis aus. Dennoch kann<br />
”<br />
man es mit Hilfe eines PrädikatsMögen(Peter,Pudding), das die Argumente<br />
WerMagEtwas und WasWirdGemocht hat, gut modellieren.<br />
Eine beliebte Repräsentation von Konzepten, Kategorien oder Ereignissen<br />
ist die Darstellung als so genannte Fallschablonen (engl.: case frames).<br />
Eine Fall-Schablone ist ein Behälter, der einen Namen hat, wodurch das<br />
modellierte Konzept beschrieben wird, und verschiedene Attribute. Dies ist<br />
ganz analog zur Darstellung von Klassen und Objekten in objektorientierten<br />
Modellen (z.B. UML). Eine Besonderheit der Fallschablonen ist, daß die<br />
Attribute keine Werte besitzen müssen. Eine Schablone kann also auch unvollständig<br />
ausgefüllt sein. In diesem Fall sind dann nicht alle Eigenschaften<br />
bekannt:<br />
” Peter ißt Pudding.“<br />
Essen<br />
Wer Peter<br />
Wo<br />
Was Pudding<br />
Wann<br />
Wie<br />
Wozu<br />
23.3.4 Fallschablonenzerteiler<br />
” Peter ißt gerne abends Pudding.“<br />
Essen<br />
Wer Peter<br />
Wo<br />
Was Pudding<br />
Wann abends<br />
Wie gerne<br />
Wozu
24. Dialogsteuerung<br />
Ein Dialog hat gegenüber einer einseitigen <strong>Mensch</strong>-<strong>Maschine</strong> <strong>Kommunikation</strong><br />
einige wesentliche Vorteile. Damit ist nicht nur die Selbstverständlichkeit<br />
gemeint, daß ein Dialog ” natürlicher“ ist als ein Monolog, und daß sich<br />
der Benutzer wohler fühlt. Aus der Sicht des Entwicklers sprachgesteuerter<br />
Systeme kann ein Dialog zwar einem System zusätzliche Komplexität<br />
verleihen, aber dafür erleichtert er auch in vielen anderen Bereichen die<br />
Probleme. So kann zum Beispiel mit Hilfe eines Dialoges dem Benutzer<br />
mitgeteilt werden, in welcher Phase der ” gemeinsamen“ Problemlösung man<br />
sich befindet. Oft ist es so, daß unvorbereitete oder ungeübte Benutzer von<br />
sprachgesteuerten Systemen nicht wissen, was von ihnen erwartet wird. Die<br />
Folge ist nicht nur, daß der Benutzer leicht Sätze formuliert, die nicht im<br />
vorgesehenen Szenario liegen, sondern auch daß die Sprache selbst unsicher<br />
wird und die akustischen Eigenschaften vom Normalfall erheblich abweichen.<br />
Eingespannt in einen Dialog hat der Benutzer die meiste Zeit über eine<br />
Rückkopplung und eine genauer umrissene Erwartungshaltung des Systems.<br />
Viele existierende Dialogsystemen – wenn man sie überhaupt so bezeichnen<br />
möchte – stellen die Benutzer vor das Problem, nicht genau zu wissen,<br />
was das System kann, und wie man sich als Benutzer verhalten sollte. So<br />
manche automatischen Telefonschnittstellen, bei denen ein ” Dialog“ mit<br />
Hilfe der Telefontastatur geführt werden soll, sind äußerst unfreundlich. Der<br />
Benutzer muß manchmal sehr lange warten um sich Optionen anzuhören,<br />
die er nicht benötigt oder nicht versteht, nur um schließlich doch die Taste<br />
zu betätigen, die ihn mit einem menschlichen Gesprächspartner verbindet.<br />
In einem natürlichsprachlichen oder sogar multimodalen Dialogsystem ist es<br />
viel leichter Möglich, den Benutzer aufzuklären, was er tun oder sagen kann<br />
und ihm bei bestimmten Problemen unter die Arme zu greifen. Nicht nur<br />
die Möglichkeit, den Benutzer zu informieren, sondern auch die Möglichkeit,<br />
ihn zu steuern, ist ein weiterer wichtiger Aspekt von Dialogsystemen. Im<br />
Extremfall kann das Dialogsystem von Benutzer verlangen, daß dieser nur<br />
eines aus einer kleinen Liste von erlaubten Kommandos äußert, so daß<br />
auf diese Art das Erkennervokabular klein gehalten werden kann und die<br />
Erkennungsrate hoch bleibt. Gerade die korrekte Reaktion in Fällen von<br />
<strong>Kommunikation</strong>sproblemen wie Erkennungsfehlern oder Fehlbedienungen ist
402 24. Dialogsteuerung<br />
ein Dialog sehr hilfreich.<br />
Grundsätzlich ist es auch möglich, die restriktive Wirkung des Dialogs<br />
an die aktuelle Situation anzupassen. Wenn aus irgendwelchen Gründen<br />
die <strong>Kommunikation</strong> schwierig wird, zum Beispiel durch schlechte akustische<br />
Verhältnisse, dann kann der Dialog die Freiheit des Benutzers einengen, und<br />
in Phasen leichter Verständlichkeit wieder mehr Freiheit gewähren (s. Abb.<br />
24.1). Schließlich sind Dialogsysteme das Mittel der Wahl zur Lösung komplexer<br />
Aufgaben, die sich in einem Monolog nur schwer formulieren lassen. In<br />
einem Dialog kann das System den Benutzer nach fehlenden Informationen<br />
fragen, ihn auf Fehler in seinen Kommandos aufmerksam machen und auch<br />
selbst Vorschläge zum weiteren Vorgehen machen. Es kann Inkonsistenzen<br />
erkennen und ein Klärungsgespräch führen, ehe es zum normalen Verlauf des<br />
Dialogs zurückkehrt.<br />
beginne mit<br />
maximaler Freiheit<br />
Benutzereingabe<br />
Eingabe klar<br />
verständlich?<br />
Systemantwort<br />
erhöhe Freiheit<br />
verringere Freiheit<br />
Abb. 24.1. Dialogs mit anpaßbarer Freiheit für Benutzereingaben<br />
Das Schema eines typisches Dialogsystem ist in Abb. 24.2 dargestellt.<br />
Die zentrale Komponente ist der Dialogmanager (oft auch Dialog Controller<br />
genannt, obwohl manche Autoren diese Begriffe semantisch trennen). Er<br />
enthält verbale Eingaben, entweder durch Eintippen oder – wie in der<br />
Abbildung dargestellt – als Hypothesen eines Spracherkenners, und er<br />
produziert Ausgaben die vom Ausgabemanager in Form von Grafiken, Textausgaben<br />
oder – wie abgebildet – als synthetisierte Sprache dem Benutzer<br />
präsentiert werden. Der Dialogmanager benutzt einen Algorithmus zum
24.1 Einheiten der sprachlichen <strong>Kommunikation</strong> 403<br />
Entscheiden welche Ausgabe er macht. Dieser Algorithmus benutzt nicht<br />
nur die letzte Eingabe, sondern er greift auch auf ein statisches Weltwissen<br />
in einer Wissensdatenbank und auf ein dynamisch von ihm selbst angelegtes<br />
Kontextwissen zu. Die statische Wissensdatenbank enthält Informationen<br />
über die Domäne (Objekte, Personen, Ereignisse, deren Namen und Eigenschaften,<br />
etc.). Die Kontextdatenbank enthält Informationen, die aus den<br />
Benutzereingaben extrahiert wurden (was wünscht der Benutzer, was weiß<br />
er, welche Daten hat er eingegeben, etc.).<br />
Wissens-<br />
datenbank<br />
Spracherkenner<br />
Hypothese<br />
Dialog-<br />
manager<br />
Kontext-<br />
wissen<br />
Sprach-<br />
synthese<br />
Ausgabemanager<br />
Abb. 24.2. Dialogsystem mit Sprachein- und Sprachausgabe<br />
24.1 Einheiten der sprachlichen <strong>Kommunikation</strong><br />
Im Zusammenhang mit Dialogsystemen werden verschiedene Verarbeitungseinheiten<br />
verwendet. Die aus der Linguistik bekannte und wohl<br />
als naheliegendste sinntragende Einheit ist ein Satz. Allerdings ist die<br />
Definition eines Satzes nicht selbstverständlich. Je nachdem, worauf es<br />
gerade ankommt, kann man zwei durch Komma getrennte Hauptsätze als<br />
einen Satz oder als zwei Sätze bezeichnen. Einige Wortfolgen bilden an sich<br />
keinen ” korrekten“ bzw. vollständigen Satz, weil ihnen ein oder mehrere<br />
wichtige Bestandteile wie Subjekt und Prädikat fehlen. Imperativsätze<br />
können durchaus auch ohne explizit angegebenes Subjekt vollständig sein<br />
(zum Beispiel. ” Geh schlafen!“). Ein einfaches ” Ja.“ enthält weder Subjekt
404 24. Dialogsteuerung<br />
noch Prädikat, und dennoch gehört es zu dem am häufigsten gehörten<br />
Äußerungen in den meisten Dialogen. Daher genügt der linguistische Begriff<br />
eines Satzes nicht, um alle Phänomene zu beschreiben, mit denen wir uns<br />
hier als Verarbeitungseinheiten in einem Dialogsystem beschäftigen.<br />
Eine aus Sicht der Spracherkennung geeignetere Einheit ist die Äußerung<br />
(utterance). Sie beinhaltet alles, was ein Sprecher zwischen zwei<br />
(nicht all zu kurzen) Pausen sagt. Dies kann ein vollständiger Satz sein,<br />
kann aber genauso auch nur ein Satzfragment, eine Phrase, ein einzelnes<br />
Wort oder gar nur ein Laut sein, andererseits aber auch aus mehreren<br />
aufeinanderfolgenden Sätzen bestehen. Viele Dialogsysteme, die von ihrem<br />
Benutzer nicht verlangen, den Beginn und das Ende einer Aufnahme durch<br />
Betätigen einer Taste zu markieren, verwenden Sprachdetektoren, die den an<br />
sich unbegrenzten Audiostrom segmentieren. Ein Segment ist üblicherweise<br />
von zwei Stillephase umgeben und entspricht einer Äußerung.<br />
In Dialogen (oder – wenn es den Begriff gäbe – in Polylogen) kann ein<br />
Sprecher mehrere Äußerungen tätigen, bevor ein anderer einen Dialogbeitrag<br />
leistet. Im Englischen wird die Menge der Äußerungen eines Sprechers, die<br />
er ununterbrochen macht, als Turn bezeichnet. Im Deutschen wurde diesem<br />
Begriff bisher kein anderes Wort als Übersetzung gegeben, so daß auch im<br />
Deutschen das Wort Turn verwendet wird. In vielen Sprachdatenbanken, die<br />
auch heute noch sehr oft mit expliziter Markierung von Aufnahmeanfängen<br />
und -enden gemacht werden, fällt der Begriff Turn meist mit dem Begriff<br />
Äußerung zusammen.<br />
Ein Dialog ist demnach eine folge von Turns, die abwechselnd von<br />
dem einen und dem anderen Dialogpartner kommen. Die Problematik des<br />
Gleichzeitigsprechens mehrerer Sprecher ist in der Spracherkennung noch<br />
nicht ausreichend behandelt. Vor allem bei <strong>Mensch</strong>-<strong>Mensch</strong>-Dialogen ist<br />
sogenannter crosstalk zu beobachtet. Bei <strong>Mensch</strong>-<strong>Maschine</strong>-Dialogen ist<br />
es unproblematisch, die Sprachsynthese abzubrechen, wenn die <strong>Maschine</strong><br />
feststellt, daß der menschliche Dialogpartner spricht. Aus diesen Gründen ist<br />
eine gesonderte Untersuchung des Gleichzeitigsprechens bei der Entwicklung<br />
von automatischen Dialogsystemen eher uninteressant, und wir gehen davon<br />
aus, daß die Sprecher bzw. der Sprecher und die <strong>Maschine</strong> sich abwechseln.<br />
Eine bestimmte Art des Gleichzeitigsprechens tritt jedoch so häufig auf,<br />
daß sie an dieser Stelle erwähnt werden muß. Dabei handelt es sich um die<br />
sogenannten Back-Channels. Sie sind keine Turns im eigentlichen Sinne. Es<br />
handelt sich vielmehr um sehr kurze Äußerungen, die man macht, während<br />
der Dialogpartner spricht, ohne diesen dabei zu unterbrechen. Das sind meist<br />
Äußerungen der Art ” hm“, ” ja“, ” aha“, ” oh“, ” okay“, die im wesentlichen<br />
nur das Vorhandensein der Aufmerksamkeit vermitteln sollen, bestenfalls
24.2 Sprechakte 405<br />
enthalten sie Information über Zustimmung, Erstaunen, Ablehnung und<br />
Ähnliches.<br />
Wenn der Turn des Dialogpartners unterbrochen oder abgebrochen wird,<br />
weil man selbst anfängt zu sprechen und der Dialogpartner daraufhin aufhört,<br />
wird im Englischen als Barge-In bezeichnet. Dieses Nicht-Ausredenlassen<br />
oder Hineinreden führt zum Wechsel des Turns.<br />
Selbst ganze Dialoge können selbst wiederum Bestandteile bzw. Untereinheiten<br />
anderer Dialoge sein. So redet man von Subdialogen, wenn der<br />
” eigentliche“ Dialog für kurze Zeit beiseite gelegt (geparkt) wird, während<br />
man sich einem speziellen Teilthema widmet. Nachdem dann der Subdialog<br />
beendet wird, wird der Hauptdialog fortgesetzt. Dies ist vergleichbar mit der<br />
Verwendung von Nebensätzen. Entsprechend kann es vorkommen, daß der<br />
” eigentliche“ Dialog verlassen wird um über den Dialog selbst zu reden. In<br />
diesem Fall reden wir von Metadialogen.<br />
24.2 Sprechakte<br />
Einige der oben aufgeführten <strong>Kommunikation</strong>seinheiten (meistens Äußerungen<br />
oder Turns) enthalten nicht nur einen semantischen Inhalt, wie er von<br />
einem Parser ermittelt würde, sondern auch eine Intention. Diese Intention,<br />
die ein Sprecher mit dem Sprechen verfolgt nennen wir Sprechakt. Der Einfachheit<br />
halber unterscheiden wir nicht zwischen verschiedenen Sprechakten<br />
in Abhängigkeit von der <strong>Kommunikation</strong>seinheit. Ein Sprechakt kann aus<br />
mehreren <strong>Kommunikation</strong>seinheiten bestehen, und eine <strong>Kommunikation</strong>seinheit,<br />
selbst ein kurzer Satz, kann mehrere Sprechakte beinhalten.<br />
Sprechakte können zum Beispiel als Aussage, Frage oder Antwort<br />
beschrieben werden. Um was für einen Sprechakt es sich bei einer Äußerung<br />
handelt, ist nicht immer eindeutig. Man denke zum Beispiel an rhetorische<br />
Fragen. Ebenso uneindeutig ist die Art der Unterteilung von Sprechakten in<br />
Klassen. Eine häufig verwendete Unterteilung ist die in sogenannte lokutive,<br />
illokutive und perlokutive Sprechakte. Gelegentlich liest man auch die<br />
Bezeichnungen lokutionär, illokutionär und perlokutionär (im Englischen:<br />
locutionary, illocutionary, perlocutionary). Diese Unterteilung wird als<br />
Klassifizierung in verschiedene Ebenen bezeichnet.<br />
Bei lokutiven Sprechakten handelt es sich um das direkte Ausdrücken<br />
eine Sachverhaltes. Man kann sagen, ein Satz hat seine Semantik als<br />
Bedeutung. Lokutive Sprechakte dienen meist dazu, eine Information zu<br />
übermitteln. Wenn ein Sprecher sagt: ” Draußen ist schönes Wetter.“, und
406 24. Dialogsteuerung<br />
der Zweck dieser Aussage ist lediglich eine Feststellung, dann ist dies ein<br />
lokutiver Sprechakt.<br />
Illokutive Sprechakte sind eher eine indirekte Ausdrucksweise. Ein<br />
Elternteil, das gerade mit einer wichtigen Arbeit beschäftigt ist und vom<br />
Kind dabei gestört wird, könnten den selben Satz ” Draußen ist schönes<br />
Wetter.“ äußern, damit aber weniger die Information des Kindes im Sinne<br />
haben, sondern vielmehr der Wunsch, das Kind möge draußen spielen.<br />
Perlokutive Sprechakte haben den – oft direkt geäußerten, aber<br />
manchmal auch unbeabsichtigten – Zweck, beim Zuhörer einen Effekt zu<br />
bewirken, wie zum Beispiel ihn etwas glauben oder fühlen machen, oder<br />
sogar ihn dazu zu bewegen, bestimmte Handlungen durchzuführen.<br />
24.3 Diskursmodellierung<br />
Die Diskursmodellierung ist bestrebt vor allem zwei Fragen zu beantworten:<br />
” Welche Information enthält eine Folge von Sätzen über die Summe der<br />
Informationen der einzelnen isolierten Sätze hinaus?“ und “Wie beeinflußt<br />
der Kontext, in dem eine Äußerung gemacht wird, den Sinngehalt derselben?“<br />
Diese Fragen wurden ursprünglich auf Texten untersucht. Obwohl es<br />
Gemeinsamkeiten zwischen Texten und gesprochenen Dialogen gibt, sind die<br />
Herausforderungen doch sehr verschieden. Wir wollen uns hier nur auf die<br />
gesprochenen Dialoge konzentrieren.<br />
Die Begriffe Dialog, Diskurs, Kontext, werden leider in der Literatur sehr<br />
unterschiedlich benutzt. Es hat wenig Sinn, zu versuchen, eine verbindliche<br />
Definition dieser Begriffe zu geben. Als Dialog werden derartig einfache Dinge<br />
wie Schaltflächen auf grafischen Benutzeroberflächen bezeichnet, aber auch<br />
derart komplexe Dinge wie die gesamte Steuerung umfangreicher <strong>Mensch</strong>-<br />
<strong>Maschine</strong> <strong>Kommunikation</strong>ssysteme. In mancher Literatur ist mit Dialog nur<br />
der verbale Dialog gemeint, und andere <strong>Kommunikation</strong>smodalitäten werden<br />
nicht dazu gerechnet. Diskurs und Kontext werden teilweise miteinander<br />
vertauscht. Die meisten Verwendungen dieser Begriffe überlappen sich in den<br />
Bedeutungen dahingehend, daß mit Dialog eine Komponente eines Systems<br />
gemeint ist, zu deren Aufgaben folgendes gehört:<br />
• Führen einer Folge von Interaktion zwischen mindestens zwei Dialogpartnern<br />
• Analyse der Benutzereingabe und Extraktion der Intention derselben<br />
• Erkennung eines oder mehrerer Ziele, die der Benutzer verfolgt<br />
• Aufbau und Pflege eines Kontextmodells
24.4 Entwicklung von Dialogsystemen 407<br />
• Planung der Schritte zum Erreichen der Ziele<br />
• Generierung von an den Benutzer gerichteten <strong>Kommunikation</strong>seinheiten<br />
24.4 Entwicklung von Dialogsystemen<br />
In der Forschung an der Dialogsystementwicklung werden vor allem zwei<br />
Ziele verfolgt: Die Gestaltung eines kooperativen auf Problemlösung ausgerichteten<br />
Dialogs und die Maximierung der Portabilität. Mit letzterem ist<br />
gemeint, daß Dialogsysteme mehr domänenunabhängig funktionieren sollen.<br />
Sie sollen bestimmte Interaktions- und Zielverfolgungsmuster realisieren,<br />
und des einem Nicht-Dialogexperten ermöglichen, sie an verschiedene<br />
Einsatzgebiete anzupassen. So sollte es beispielsweise dem Betreiber eines<br />
telefonischen Bestellservice möglich sein, festzulegen, welche Ziele bei einem<br />
Bestellungsgespräch erreicht werden sollen, welche Informationen dafür<br />
benötigt werden und wie die interne Objektdatenbank aufgebaut ist. Den<br />
Rest sollte das System automatisch erledigen können.<br />
24.4.1 Vorgehensweisen<br />
In der Forschung werden verschiedene Ansätze untersucht. Zu den wichtigsten<br />
gehören:<br />
• planbasierte Verfahren<br />
Hierbei wird ein Zustandsraum angenommen, in dem sich das System<br />
und somit der Dialog befinden kann. Verschiedene Sprechakte des Benutzers<br />
und verschiedene Reaktionen des Systems können verschiedene<br />
Zustandsübergänge hervorrufen. Ziel des Dialogsystems ist es, diejenigen<br />
<strong>Kommunikation</strong>sschritte zu unternehmen, die am wahrscheinlichsten<br />
und/oder am schnellsten zu dem gewünschten Dialogziel führen. Wenn<br />
zum Beispiel der Benutzer die Frage stellt: ” Entschuldigung, wissen Sie<br />
wie spät es ist?“ wäre eine Antwort wie ” Ich verzeihe Ihnen.“ oder ” Ja“<br />
semantisch und logisch korrekt, führt aber nicht so schnell zum Ziel wie<br />
die Antwort ” Nein.“ oder ” Kurz vor sieben.“<br />
• Dialoggrammatiken<br />
Ähnlich wie bei Grammatiken, die definieren, wie legal beziehungsweise<br />
wie wahrscheinlich eine Wortfolge ist, gibt es Grammatiken, die Folgen<br />
von <strong>Kommunikation</strong>sakten und deren Wahrscheinlichkeiten modellieren.<br />
Daß dies sinnvoll ist, erkennt man an typischen Paaren von zusammengehörigen<br />
Dialogakten (engl. adjacency pairs) wie Frage/Antwort,
408 24. Dialogsteuerung<br />
Vorschlag/Zustimmung oder Vorschlag/Ablehnung und so weiter. Solche<br />
Grammatiken werden Phasenstrukturgrammatiken genannt. Sie können<br />
zum Beispiel in der beliebten Form von kontextfreien Grammatiken dargestellt<br />
werden. Die Terminale dieser Grammatiken sind Akte wie: Frage,<br />
Forderung, Angebot, Antwort, Entgegnung, Vorschlag, Zustimmung,<br />
Ablehnung, etc. Mit Hilfe der Phasenstrukturgrammatik kann der gesamte<br />
Dialog geparst werden. Verschiedene Dialogabläufe und Dialogziele können<br />
so erkannt beziehungsweise verfolgt werden.<br />
• Fallschablonenbasierte Systeme<br />
Ähnlich wie bei Fallschablonenparsern zum Verstehen einzelner Äußerung,<br />
können solche meist relativ flachen Parser dazu verwendet werden<br />
Fallschablonen aus den im Dialog gewonnenen Informationen zu füllen.<br />
Die zwei Herausragenden Aufgaben des Dialogsystems bestehen aus dem<br />
Erkennen, für was für eine Art Fallschablone die eingegebenen Informationen<br />
von Bedeutung sind, und <strong>Kommunikation</strong>sakte durchzuführen – meist<br />
Rückfragen stellen (engl. grounding) – die dazu führen, daß der Benutzer<br />
die für das Füllen einer Schablone nötige Informationen liefert. Wenn eine<br />
Schablone “voll“ ist, dann hat das System alles benötigte Wissen um die<br />
mit der Schablone in Verbindung stehende Aktion auszulösen.<br />
• Statistische Systeme<br />
Solche Systeme verwenden auch Zustände und Übergänge oder Grammatiken<br />
mit Regelwerken oder Fallschablonen, die Wahrscheinlichkeiten und<br />
Vorbedingungen für bestimmte Aktionen des Systems werden allerdings<br />
anhand von vielen Beispielen automatisch gelernt. Dem System müssen<br />
Beispieldialoge mit der Information, ob sie erfolgreich verlaufen sind oder<br />
nicht, präsentiert werden, worauf das System seine internen Parameter so<br />
einstellt, daß es möglichst erfolgreiche Dialoge führt.<br />
• Endliche Automaten<br />
Dialogsysteme auf Basis endlicher Automaten sind eine Art Spezialfall<br />
von Planbasierten System, die auch einen Zustandsraum haben, und auf<br />
Dialoggrammatiken basierenden Systemen. Allerdings sind die Grammatiken<br />
für Automaten in der Chomsky-Hierarchie. niedriger (CH-3 statt<br />
CH-2), und somit weniger mächtig als kontextfreie. Trotz der Einfachheit<br />
solcher Systeme sind sie beliebt, weil es selbst für Laien einfach ist einen<br />
Dialog zu definieren. Noch einfacher als bei kontextfreien Grammatiken<br />
kann man die Dialogstruktur auch grafisch darstellen und so schnell<br />
überblicken. Typische Probleme bei solchen Systemen sind zu beobachten,
24.4 Entwicklung von Dialogsystemen 409<br />
wenn einzelne Dialogakte über mehrere Turns verteilt sind. Dann ist es<br />
schwer auf nur einem Turn die Intention zu erkennen und den Akt korrekt<br />
zu interpretieren. Umgekehrt kann es auch vorkommen, daß ein Turn<br />
multifunktional ist und eigentlich mehrere Dialogakte gleichzeitig enthält.<br />
Ein weiteres Problem grammatikbasierter Dialogsysteme besteht in der<br />
durch sie vorgegeben Strukturiertheit des Dialogs. Dadurch ist es zwar<br />
relativ einfach Das Verhalten des Systems zu definieren, allerdings mangelt<br />
es beim Einsatz an Flexibilität. Kleine Änderungen an der vorgesehen<br />
grammatikalischen Struktur können leicht zum Versagen des gesamten<br />
Systems führen.<br />
• regelbasierte Systeme (rational agency)<br />
Solche Systeme basieren auf einer Sammlung von Regeln und einem<br />
Inferenzsystem. Für besonders portable Systeme besteht das Regelwerk<br />
aus einen Teil domänenunabhängiger Regeln. Die Idee hinter rational<br />
agency ist die formale Beschreibung und Simulation von rationalem<br />
Verhalten. Typische Regeln sind zum Beispiel:<br />
System weiß: Benutzer kennt X<br />
⇒ System informiert Benutzer nicht über X<br />
oder<br />
System weiß: Benutzer kennt X nicht<br />
System weiß: Benutzer will Ziel Z erreichen<br />
System weiß: um Z zu erreichen, muß Benutzer X kennen<br />
⇒ System informiert Benutzer über X<br />
Um zu entscheiden, welche Aktionen das System als nächsten tun soll<br />
wendet es Methoden und Algorithmen aus dem Bereich des Automatischen<br />
Beweisens an.<br />
24.4.2 Gesprochene Sprache<br />
Gegenüber Dialogen auf grafischen Benutzeroberflächen oder textbasierten<br />
Dialogen mit Tastatureingabe treten bei gesprochenen Dialogen zusätzliche<br />
Probleme dadurch auf, daß die verwendeten Kognitiven Algorithmen zur<br />
Spracherkennung und Erfassung der Benutzeraktivitäten Fehler machen.
410 24. Dialogsteuerung<br />
Selbst bei völlig fehlerfrei eingetippten Texten kommen sehr oft Mißverständnisse<br />
zustande, weil die Dialoggrammatiken nicht vollständig sind<br />
und nicht alle möglichen Benutzereingaben vorhergesehen haben, und weil<br />
viele Dialogakte ambig zu verstehen sind. Diese Probleme verstärken sich<br />
noch, wenn ein Vorgeschalteter Spracherkenner die für spontane Dialoge<br />
übliche 10% bis 20% Wortfehlerrate produziert.<br />
Zusätzlich entstehen Probleme durch spontane Effekte in der Sprache.<br />
Das geht über die akustischen Störungen hinaus. Durch solche Effekte wird<br />
nicht nur die Aufgabe für den Spracherkenner erschwert. Wenn Satzfragmente<br />
gesprochen werden, kann dies selbst bei perfekter Erkennung zu<br />
Problemen bei der Interpretation ihrer Intention führen.<br />
Wenn Dialogsysteme dazu verwendet werden multilaterale Dialoge mit<br />
der Beteiligung mehrerer <strong>Mensch</strong>en zu unterstützen, dann sind vermehrt<br />
soziale Interaktionen zu beobachten. Wenn <strong>Mensch</strong>en mit anderen <strong>Mensch</strong>en<br />
reden gehen sie (in der Regel berechtigterweise) davon aus, daß<br />
die Dialogpartner ein bestimmten Weltwissen haben, das weit über das<br />
eines Computersystems hinaus reicht. So können bestimmte Sachverhalte<br />
manchmal durch Fallenlassen eines einzelnen Wortes oder einer kurzen<br />
Phrase angesprochen werden. Die <strong>Maschine</strong> hat dann ohne das Weltwissen<br />
keine Chance den Dialog zu verstehen.<br />
Darüber hinaus verwenden viele <strong>Mensch</strong>en beim Führen eines natürlichsprachlichen<br />
Dialogs auch nichtverbale <strong>Kommunikation</strong>sakte durch. Oft wird<br />
ein beachtlicher Teil der Information durch Gesichtszüge, Bewegungen und<br />
Gesten übermittelt. Diese Art zu kommunizieren ist in vielen <strong>Mensch</strong>en so<br />
verwurzelt, daß sie selbst beim Telefonieren gestikulieren und eine aktive<br />
Mimik an den Tag legen. Für andere <strong>Mensch</strong>en ist es in der Regel sehr einfach<br />
diese Information zu Interpretieren. Manche Dialogakte wie Zustimmung<br />
oder Ablehnung können mit einer einfachen kurzen Bewegung verständlich<br />
gemacht werden. Für maschinelle Systeme, die nur auf der Hypothese eines<br />
Spracherkenners beruhen ist dies nicht möglich. Die Forschung an multimodalen<br />
Dialogen, in denen auch videobasierte Kognition der Benutzeraktivitäten<br />
verwendet wird, befindet erst in den Anfängen, ebenso wie die Forschung<br />
an der Berücksichtigung und Einbindung Emotionalen Verhaltens in Dialoge.<br />
24.4.3 Wizard-of-Oz Experimente<br />
Ein Problem, das bei der Entwicklung dialogbasierter <strong>Mensch</strong>-<strong>Maschine</strong><br />
<strong>Kommunikation</strong>ssysteme ist der Wunsch, diese möglichst realistisch zu<br />
gestalten. Realistisch bedeutet dabei zum einen, daß das System sich so<br />
verhalten soll wie es menschliche Benutzer erwarten, und zum anderen,
24.4 Entwicklung von Dialogsystemen 411<br />
daß die Daten, die zur Entwicklung und zum Test des Systems verwendet<br />
werden, denen, wie sie beim fertigen System im Einsatz auftauchen sollen,<br />
möglichst nahe kommen. Gerade letzteres ist sehr schwierig zu erhalten.<br />
Die Erwartungen der Benutzer lassen sich aus Fragebögen oder aus vergleichbaren<br />
<strong>Mensch</strong>-<strong>Mensch</strong>-Dialogen extrahieren. Solange aber nicht zu<br />
erwarten ist, daß <strong>Maschine</strong>n genauso gute Dialogpartner wie <strong>Mensch</strong>en sind,<br />
und solange die meisten <strong>Mensch</strong>en mit einem maschinellen Dialogpartner<br />
ohnehin anders reden möchten als mit einem menschlichen, sind aufgezeichnete<br />
<strong>Mensch</strong>-<strong>Mensch</strong>-Dialog kein realistisches Vorbild für ein künstliches<br />
Dialogsystem.<br />
Bei der Datensammlung für die Spracherkennung kann meistens die<br />
Situation, in der später der Erkenner arbeiten soll simuliert werden, so daß<br />
die Sprachdaten relativ realistisch ausfallen. Eine Simulation des künstlichen<br />
Dialogsystems ist ohne seine Existenz sehr schwierig. Immerhin müßte ein<br />
guter Simulator ja schon die meisten Fähigkeiten des zu bauenden Systems<br />
haben. Die Problematik der besonderen Sprech- und Denkweise beim<br />
Kommunizieren mit <strong>Maschine</strong>n kann beim Sammeln der Beispieldialoge<br />
dadurch simuliert werden, daß der Testperson nur vorgegaukelt wird, sie<br />
würde mit einer <strong>Maschine</strong> sprechen. In Wirklichkeit ist für sie unsichtbar<br />
(und in manchen Datensammlungen sogar ohne sie zuvor davon in Kenntnis<br />
zu setzen) ein anderer <strong>Mensch</strong> (Experte oder Entwickler), der versucht die<br />
Reaktion des Systems manuell möglichst so zu generieren, daß der Benutzer<br />
(Datenspender) nicht merkt, daß ein <strong>Mensch</strong> dahintersteckt.<br />
Solche Situationen werden ” Wizard-of-Oz-Experimentierumgebungen“<br />
genannt (s. Abb. 24.3). Wenn Teile des Systems schon entwickelt sind, kann<br />
die versteckte Person (der Wizard of Oz) wo möglich das System reagieren<br />
lassen und bei Bedarf sich selbst einschalten.<br />
Benutzer<br />
00 11<br />
11 00<br />
00 11<br />
11 00<br />
Benutzer-<br />
schnittstelle<br />
00 11<br />
11 00<br />
00 11<br />
11 00<br />
Abb. 24.3. Wizard-of-Oz-Experimentierumgebung<br />
11 00<br />
<strong>Maschine</strong><br />
eingeweihter<br />
<strong>Mensch</strong>
25. Erkennung verschiedener Sprachen<br />
Auf der Welt gibt es mehrere tausend verschiedene Sprachen (die Schätzungen<br />
gehen von ca. 4000 bis nahezu 10000). Selbst Linguisten sind sich nicht<br />
immer einig darüber, ob es sich bei einem Paar um zwei eigenständige<br />
Sprachen oder um zwei Dialekte derselben Sprache handelt. Teilweise spielen<br />
historische Aspekte, teilweise auch politische Aspekte eine Rolle. So werden<br />
zum Beispiel das Kroatische und das Serbische von vielen Muttersprachlern<br />
aus politischen Gründen vehement als eigenständige Sprache verteidigt,<br />
obwohl die Unterschiede zwischen ihnen kleiner sind als zum Beispiel<br />
zwischen bairischem und Kölner Dialekt. Allerdings ist es auch so, daß nur<br />
ca. 100 bis 200 Sprachen von einer signifikanten Menge Personen gesprochen<br />
werden. Für den allergrößten Teil der Sprachen der Welt gibt es nur sehr<br />
wenige, manchmal nur einige Dutzend Sprecher. Teilweise existieren nicht<br />
einmal Schriftformen.<br />
Unter multilingualer Spracherkennung verstehen wir Systeme, die<br />
Komponenten haben, die prinzipiell unabhängig von einer bestimmten<br />
Sprache sind. Zwei wesentliche Gründe motivieren die Forschung, solche<br />
Systeme zu realisieren: Erstens sind wir noch weit davon entfernt, für alle<br />
wichtigen Sprachen gut funktionierende Erkenner zur Verfügung zu haben<br />
– geschweige denn für alle ca. 4000 Sprachen, und zweitens besteht die<br />
durchaus berechtigte Hoffnung, daß Erfahrungen, die mit einer Sprache<br />
gemacht werden, sich auch auf andere Sprachen anwenden lassen und so<br />
ein Synergieeffekt eintreten könnte, der einen multilingualen Erkenner im<br />
Schnitt zu besseren Erfolgen führt, als viele einzelne Erkenner.<br />
25.1 Eigenschaften verschiedener Sprachen<br />
Beim Beschäftigen mit verschiedenen Sprachen treten aus der Sicht des<br />
Spracherkennungsforschers Probleme auf, die aus linguistischer Sicht weniger<br />
bedeutsam sind oder bisher zumindest nicht besonders prominent waren.<br />
Allein schon die Frage nach der Definition eines Wortes scheint erstaunliche
414 25. Erkennung verschiedener Sprachen<br />
Probleme bereiten zu können.<br />
25.1.1 Definition eines Wortes<br />
In der Welt der Sprachen, die die lateinische oder kyrillische oder ähnliche<br />
Schriften verwenden, ist die Definition eines Wortes relativ einfach. Ein Wort<br />
ist das, was zwischen zwei Leerzeichen steht. Diese Definition hätte schon<br />
vor über 2000 Jahren standgehalten, einer Zeit in der noch keine Rede von<br />
Computerautomation und ASCII- oder UNI-Codes war.<br />
Aber schon beim Betrachten des Deutschen ist man sich nicht immer<br />
sicher, was aus linguistischer Sicht als einzelnes Wort betrachtet werden<br />
sollte. Wie wäre es mit ” Rad fahren“ gegenüber ” radfahren“ oder ” Europameisterschaft“<br />
gegenüber ” Europa Meisterschaft“. Die neulich eingeführte<br />
Rechtschreibreform hilft, die Konfusion diesbezüglich noch zu erhöhen. Aber<br />
auch in anderen einfachen Sprachen ist die Wortdefinition nicht immer klar.<br />
Im relativ einfachen Englischen kann man ” videotape“ neben ” video tape“<br />
verwenden. Noch schwieriger wird es in fernöstlichen Sprachen wie dem Chinesischen<br />
und dem Japanischen. Selbst wenn dort klar wäre, ob ein Partikel<br />
Teil des dazugehörigen Wortes ist oder ein eigenständiges Wort ist. Japaner<br />
und Chinesen unterscheiden in der Regel nicht die Zwischenräume zwischen<br />
Silben und Wörtern. Bei einer gegebenen Folge von Chinesischen Silben ist<br />
die korrekte Zusammenfassung in Wörter oft nur mit pragmatischem Wissen<br />
und mit dem Wissen über den Kontext, in dem sich die Silbenfolge befindet,<br />
möglich.<br />
25.1.2 Flektierende Sprachen<br />
Deutsch zählt zu den stark flektierenden Sprachen. Englisch und viele asiatische<br />
Sprachen, vor allem Chinesisch und Japanisch, sind nicht flektierende<br />
Sprachen. Bei flektierenden Sprachen werden semantische Modifikationen<br />
eines Wortes (Genus, Tempus, Kasus, Numerus, etc.) meist durch Anhängen<br />
oder Verändern bestimmter Morpheme, manchmal auch durch Ändern<br />
des Wortstammes gekennzeichnet. Bei nicht flektierenden Sprachen ergibt<br />
sich die Semantische Disambiguierung aus dem Kontext, manchmal durch<br />
Voranstellen oder Folgen eines zusätzlichen Wortes. Zwar gibt es auch<br />
im Englischen einige wenige Flexionen, sie beschränken sich aber auf die<br />
Partizipbildung, das Plural-S, das Possesiv-S und die Verbformen für die<br />
dritten Personen.
25.1.3 Komposition von Wörtern<br />
25.2 Identifikation von Sprachen (LID) 415<br />
Wer erinnert sich nicht mehr an die Wörter ” Donaudampfschiffahrtsgesellschaft“<br />
oder ” Radelrutschrunkelrübenscheibenräder“, die auch heute noch<br />
Schülern die für das Deutsche typische Kompositionsfähigkeit von Wörtern<br />
durch Konkatenation einzelner teilweise flektierter Wörter veranschaulicht.<br />
25.2 Identifikation von Sprachen (LID)<br />
Für das automatische Erkennen der Identität einer Sprache (engl.: Language<br />
IDentification, LID) gibt es verschiedene Anwendungen. Multilinguale<br />
Systemen haben den Zweck, in verschiedenen Sprachen benutzt werden zu<br />
können. Sie müssen irgendwie festgestellten, in welcher Sprache der Sprecher<br />
gerade spricht. Dies kann im nicht ergonomischen Fall so geschehen, daß der<br />
Sprecher bevor er anfängt zu sprechen mit Hilfe eines Auswahlschalters die<br />
entsprechende Sprache wählt und dann der passende Erkenner die Hypothesen<br />
liefert. Im ergonomischen Fall geschieht dies vollautomatisch. Sinnvoll<br />
ist das zum Beispiel bei Informationskiosken für Touristen, Messeständen<br />
und telefonischen Informationsdiensten.<br />
Angewandt wurde LID in der Praxis sogar bei einigen kalifornischen<br />
Notrufzentralen. Eine berühmte Einrichtung ist zum Beispiel der Language<br />
Line Interpreter der amerikanischen Telefongesellschaft AT&T im<br />
Zusammenhang mit der Notrufnummer 911 [?] . Anrufer, die in Not oder<br />
Panik geraten sind, sprechen häufig in ihrer Muttersprache einfach darauf<br />
los, auch wenn sie die englische Sprache ausrechend beherrschen, um ihr<br />
Problem zu beschreiben. LID kann hier helfen, Leben zu retten, wenn<br />
die Sprache eines hilfesuchenden Anrufers erkannt wird und dadurch, daß<br />
möglichst schnell ein verstehender Gesprächspartner zugeschaltet wird,<br />
schneller Hilfe geleistet werden kann. Im deutschen Forschungprojekt<br />
VERBMOBIL wurde zwischen verschiedenen Sprachen (Deutsch, Englisch,<br />
Japanisch) hin und her übersetzt. Dabei durften die Benutzer ohne vorher<br />
zu deklarieren, in welcher Sprache sie sprechen wollten, in das Gerät<br />
hineinsprechen und das Gesprochene übersetzten lassen. Andere denkbare<br />
Anwendungen liegen im Bereich der Überwachung und Sicherheitstechnik,<br />
zum Beispiel um alle Telefonate zwischen zwei Ländern herauszufiltern,<br />
die in einer bestimmten Sprache durchgeführt wurden. Im Hinblick darauf,<br />
daß die Welt immer ” kleiner“ wird, und auf internationaler Ebene immer<br />
mehr <strong>Kommunikation</strong> stattfindet, wird die Aufgabe der LID immer wichtiger.<br />
Für die LID wurden zahlreichen verschiedene Verfahren untersucht<br />
und ausgewertet. Die Aufgabe der Identifikation von Sprachen ist mit der<br />
reinen Spracherkennung und der Identifizierung von Sprechern verwandt.
416 25. Erkennung verschiedener Sprachen<br />
Erkenntnisgewinne und Leistungsverbesserungen in einem dieser Gebiete<br />
haben sich oft auch auf die anderen ausgewirkt. Dennoch hat die Identifizierung<br />
von Sprachen einige Eigenheiten: Während bei der Spracherkennung<br />
eine möglichst korrekte Wortfolge gefunden werden muß, ist dies für die<br />
Identifizierung einer Sprache eher weniger wichtig. Im Grunde kann ein<br />
System – ebenso wie <strong>Mensch</strong>en auch – eine Sprache identifizieren, ohne auch<br />
nur ein einziges Wort zu verstehen. Die Schwierigkeiten der LID resultieren<br />
zum einen aus der großen Variationsbreite der Sprechweise verschiedener<br />
Sprecher (Aussprache, Intonation, Sprechgeschwindigkeit, usw.), zum anderen<br />
aus der Veränderlichkeit der Themen und Inhalte des Gesprochenen. Im<br />
übrigen spielen nichtsprachliche Phänomene wie die Kanaleigenschaften, das<br />
Hintergrundrauschen oder Störgeräusche eine besonders schädliche Rolle,<br />
wenn die Klassifikatoren mangels linguistischen Wissens von diesen schlecht<br />
abstrahieren können.<br />
<strong>Mensch</strong>en haben die faszinierende Fähigkeit, innerhalb weniger Sekunden,<br />
teilweise anhand von nur zwei, drei Silben, nicht nur entscheiden zu<br />
können, ob ihnen eine gesprochene Sprache bekannt ist, sondern meist<br />
sogar um welche Sprache es sich handelt. Falls nicht, kann der <strong>Mensch</strong><br />
zumindest typische Charakteristika der Sprache angeben. Bevor wir uns<br />
darum bemühen, <strong>Maschine</strong>n diese Fähigkeit zur Sprachenidentifizierung<br />
beizubringen, sollte untersucht werden, welche Spracheigenschaften beziehungsweise<br />
welche Wissensquellen <strong>Mensch</strong>en zur Identifizierung heranziehen.<br />
Daraus können dann verschiedene Strategien und Informationsquellen, die<br />
für ein automatisches System sinnvoll sein können, abgeleitet werden. In [?]<br />
wird zu diesem Zweck eine Untersuchung an je zwei Personen aus zehn verschiedensprachlichen<br />
Ländern gemacht. Testpersonen wurden Sprachauszüge<br />
von 1, 2, 4 und 6 Sekunden Länge vorgespielt und die Tespersunen wurden<br />
anschließend gefragt, welche der zehn möglichen Sprachen gesprochen wurde.<br />
Danach wurden den Testpersonen mitgeteilt, welche Antwort richtig gewesen<br />
wären so daß sie daraus während der Versuchsreihe lernen konnten. Die<br />
Erkennungsrate lag im Schnitt bei 69,4% (zwischen 39,2% und 100%).<br />
Wichtige Faktoren, die die Erkennungsrate beeinflußten waren die Dauer der<br />
vorgelegten Sprachauszüge, die Vertrautheit der Testperson mit der Sprache<br />
und die Anzahl der Sprachen, die die Testpersonen schon vorher kannten.<br />
Am Ende der menschlichen LID-Experimente wurden die Testpersonen<br />
nach ihren Strategien zur Identifizierung der Sprachen befragt. Demnach<br />
benutzten viele eine Kombination mehrerer Methoden wie dem Heraushören<br />
bestimmter sprachentypischer Phoneme oder Wörter sowie der phonetischen<br />
und prosodischen Merkmale einer Sprache.<br />
Das Verstehen menschlicher Strategien ist ein wichtiges Hilfsmittel zur<br />
Lösung des Problems der automatischen Identifizierung von Sprachen.<br />
Grundsätzlich können sehr viele verschiedene Informationsquellen zur LID
25.2 Identifikation von Sprachen (LID) 417<br />
herangezogen werden. Sie können im wesentlichen in unterteilt werden in<br />
akustisch-phonetische Merkmale der Sprache, phonologische und<br />
phonotaktische Merkmale der Sprache, prosodische Merkmale der<br />
Sprache, Regeln über die Bildung von Wörtern einer Sprache aus<br />
Wortteilen, Regeln über die grammatikalische Struktur der Sprache:<br />
• Akustisch-phonetische Merkmale<br />
In verschiedenen Sprachen treten bestimmte Phoneme unterschiedlich<br />
häufig auf. Jede Sprache hat einen ureigenen Satz von Phonemen, der<br />
gelegentlich durch den Einfluß einiger Fremdwörter angereichert wird.<br />
Anzahl und Art der Phoneme können von Sprache zu Sprache stark<br />
variieren. So gibt es in der französischen Sprache vergleichsweise viele<br />
Nasallaute, die im Hochdeutschen so gut wie nie (außer in aus dem<br />
Französischen kommenden Fremdwörtern wie Restaurant“) vorkommen.<br />
”<br />
Das Deutsche hat den typischen velaren Reibelaut ç (wie im Wort<br />
” ich“), der vielen Nichtdeutschen beim Lernen der Sprache besondere<br />
Schwierigkeiten macht. Englisch ist berühmtberüchtigt für dasÌwie in<br />
” thin“ oder daswie in the“.<br />
”<br />
• Phonologische und phonotaktische Merkmale<br />
Verschiedene Sprache haben verschiedene Regeln, die definieren, wie<br />
phonetischen Einheiten zu Silben und Wörtern konkateniert werden<br />
können, oder zumindest, wie wahrscheinlich diese Konkatenationen sind.<br />
Die Hawaiianische Sprache ist dafür bekannt, daß sie sehr vokalreich ist<br />
und zwischen den Vokalen oft glottale Stopplaut vorkommen. Im den<br />
slawischen Sprachen können Laute wie r undsilbenbildend sein, etwa bei<br />
prst (Finger), was im Deutschen nicht erlaubt ist.<br />
• Prosodische Merkmale<br />
Prosodische Eigenschaften wie Betonung, Intonation, Rhythmus, Tempo<br />
und Pausen sind auch hilfreich, um Sprachen zu klassifizieren. Tonale<br />
Sprachen wie Vietnamesisch oder die chinesischen Sprachen haben eine<br />
ganz andere Intonationscharakteristik als die deutsche Sprache.<br />
• Regeln über erlaubte Wortbildungen<br />
Ähnlich wie Sprachen einen eigenen typischen Phonemsatz haben, so gilt<br />
dies erst recht für den Wortschatz. Wenn von einem LID-System erwartet<br />
wird, daß es eine Sprache identifizieren kann, auch wenn sie von einem<br />
Nichtmuttersprachler akzentuiert ausgesprochen wird, dann besteht bei<br />
Untersuchung der phonetischen Merkmale die Gefahr, daß der Sprecher<br />
bevorzugt die Phoneme seiner eigenen Sprache verwendet (zum Beispiel<br />
verwenden viele Deutsche beim Englischsprechen das ” deutsche“ r, ein v
418 25. Erkennung verschiedener Sprachen<br />
statt eines w, d oder s stattoderÌ. Dieses Problem ist nur in den Griff<br />
zu bekommen, wenn das System über den Wortschatz bescheid weiß.<br />
• Grammatikalische Struktur<br />
So wie die Phonotaktik definiert, wie aus Phonemen Wörter entstehen<br />
können, so gibt die Grammatik an, wie aus Wörtern Sätze entstehen.<br />
Beide sind von der Sprache abhängig. Daher kann eine Analyse der Grammatikalischen<br />
Struktur eines Satzes Identifizierung der Sprache hilfreich<br />
sein. Dafür muß natürlich ein Spracherkennungssystem vorhanden sein,<br />
um überhaupt Wortfolgen aus dem Gesprochenen heraus erkennen. Es ist<br />
dann zu erwarten, daß ein Erkenner, für eine Sprache A auf Sätzen in der<br />
Sprache A mit höherer Wahrscheinlichkeit Wortfolgen produziert, die den<br />
Grammatikregeln von A entsprechen, als wenn er einen Satz der Sprache<br />
B erkennt.<br />
Ein sprachidentifizierendes System sollte zur Unterscheidung von Sprachen<br />
möglichst viele dieser Informationsquellen einbeziehen.<br />
Die Architekturen für LID-Systeme können in zwei Gruppen unterteilt<br />
werden. In der ersten wird für jede zu identifizierende Sprache ein<br />
eigenständiges Modell trainiert. Bei der Identifizierung laufen alle eigenständigen<br />
Modelle parallel und produzieren unabhängig voneinander<br />
Erkennerhypothesen (Phonemfolgen oder Wortfolgen) mit dazugehörigen<br />
Beobachtungswahrscheinlichkeiten oder Konfidenzwerten. Diejenige Sprache,<br />
deren Modell die beste Bewertung für die Testäußerung liefert, wird als die<br />
gesprochene Sprache identifiziert. Architekturen dieser Gruppe werden von<br />
einem Großteil der Forscher verwendet (z.B. [?], [?], [?]).<br />
Die andere Gruppe zeichnet sich durch ein einziges Modell für alle Sprachen<br />
aus. Beim Erkennen der Testäußerung konkurrieren einzelne Teilmodelle<br />
(zum Beispiel Phoneme oder Wörter) miteinander. Die Teilmodelle haben in<br />
verschiedenen Sprachen verschiedene Auftretenswahrscheinlichkeiten. Diejenige<br />
Sprache, deren typische Teilmodelle am häufigsten in der Hypothese<br />
vorkommen wird schließlich identifiziert ([?], [?]).<br />
Ein Nachteil der Verfahren aus der ersten Gruppe ist, daß mit wachsender<br />
Zahl der zu identifizierenden Sprachen der insgesamt zu leistende Rechenund<br />
Speicherbedarf anwächst. Bei der zweiten Gruppe manifestiert sich ein<br />
ähnlich Nachteil in der steigenden Zahl verschiedener Teilmodelle. Diese<br />
wachsen allerdings sublinear mit der Zahl der Sprachen, da viele Sprachen<br />
auch viele gemeinsame Eigenschaften haben.
26. Zusätzliche Modalitäten<br />
Zweifellos ist die natürliche Sprache in den meisten Fällen die schnellste<br />
Methode, Information aus unserem Bewußtsein in einen Rechner einzugeben.<br />
Es gibt allerdings recht viele Situationen, in denen Sprache entweder<br />
überhaupt nicht verwendet werden kann (unter Wasser, im Theater, Konzert<br />
oder allgemein bei Veranstaltungen, bei denen Stille von den Anwesenden<br />
erwartet wird), und es gibt Situationen, in denen die <strong>Kommunikation</strong><br />
per Sprache durch andere Informationsübertragungskanäle unterstützt<br />
werden kann. Wir bezeichnen die unterschiedlichen Informationsübertragungskanäle<br />
üblicherweise als Modalitäten, nicht zu verwechseln mit<br />
dem gleichen Begriff im Zusammenhang mit der modalitätenabhängigen<br />
Modellierung Akustischer Modelle. <strong>Kommunikation</strong>ssysteme, die verschiedene<br />
<strong>Kommunikation</strong>skanäle unterstützen, werden als multimodale Systeme<br />
bezeichnet. In diesem Kapitel werden einige der wichtigsten Modalitäten und<br />
ihre Kombination mit Spracherkennung zu multimodalen Systemen erläutert.<br />
26.1 Lippenlesen auf Videoaufnahmen<br />
Taube <strong>Mensch</strong>en können oft mit erstaunlicher Genauigkeit Sprache von<br />
den Lippen sprechender <strong>Mensch</strong>en ablesen. Natürlich geht das nicht immer<br />
gut. Es gibt zahlreiche Wortpaare, die nicht anhand der Lippenbewegungen<br />
voneinander unterscheidbar sind. Zum Beispiel ” hart“ und ” Art“. Außerdem<br />
kann man noch relativ verständlich sprechen, ohne dabei die Lippen<br />
nennenswert zu bewegen, wie es viele Bauchredner in Varietes vorführen.<br />
Zum Leidwesen vieler Tauber sprechen viele Nicht-Bauchredner auch so, daß<br />
das Ablesen von den Lippen kaum möglich ist. Aber selbst bei perfekter,<br />
sehr deutlicher Aussprache ist eine <strong>Kommunikation</strong> nur mit Lippenlesen<br />
sehr schwierig und sehr fehlerbehaftet. Dennoch ist es so, daß das Bild der<br />
Lippen die Erkennung eines dazugehörigen akustischen Signals unterstützen<br />
kann. Dazu gibt es das kognitive Experiment, bei den <strong>Mensch</strong>en eine Video<br />
vorgespielt wird, auf dem das Gesicht einer Person zu sehen ist, die ein<br />
Wort wie zum Beispiel ” Bach“ spricht. Die Tonspur des Videos ist allerdings<br />
ausgetauscht durch eine Aufnahme auf der die Person ” Fach“ spricht. Die zu
420 26. Zusätzliche Modalitäten<br />
den beiden Wörtern gehörenden Lippenbewegungen sind klar voneinander<br />
zu unterscheiden. Der Anteil der Versuchspersonen, die bei so einem Video<br />
auf die Frage ” Was haben Sie gehört?“ mit ” Bach“, also dem Wort, das<br />
nur visuell aber nicht akustisch zu erkennen war, antworten, ist signifikant<br />
höher als bei einem Experiment, bei dem auch in der Videosequenz ” Fach“<br />
gesprochen wird. Dieses Experiment zeigt, daß <strong>Mensch</strong>en beim Erkennen<br />
von Sprache auch die visuelle Information die vom Sprecher kommt,<br />
nutzen. Dieser Effekt wird nach seinem Entdecker McGurk Effekt genannt [?].<br />
Ein weiteres Beispiel dafür ist die in diesem Zusammenhang gerne<br />
verwendete Cocktail-Party. Wenn viele <strong>Mensch</strong>en in einem Raum gleichzeitig<br />
reden, muß zum Verständnis des Gesprächspartners mehr als nur die Schallwelle<br />
des Sprechers analysiert werden. Weil wir zwei Ohren haben, können<br />
wir eine Art ” Beam-Forming“ machen und uns auf den Schall, der aus einer<br />
bestimmten Richtung kommt, konzentrieren. Der Leser kann sich leicht<br />
davon überzeugen, wie wichtig in so einer Situation zwei Ohren sind, indem<br />
er sich ein Ohr mit der Hand zuhält und dann kaum noch die Position der<br />
einzelnen Sprecher nur mit einem Ohr bestimmen kann. Zusätzlich zu dem<br />
Konzentrieren auf eine bestimmte Richtung der Signalherkunft, kann unser<br />
Gehirn sich auch noch auf bestimmte Frequenzbereiche konzentrieren und<br />
so die Sprache des Gegenüber mehr ” verstärken“ als die anderen Geräusche<br />
im Raum. Und schließlich hilft es auch noch, auf die Mundpartie zu schauen<br />
und die Lippenbewegungen zu verfolgen. So können insbesondere solche<br />
Wörter, die akustisch leicht verwechselbar sind, z.B. ” man“ und ” wann“<br />
besser unterschieden werden.<br />
Viseme sind die optischen Gegenstücke zu den akustischen Phonemen.<br />
Ähnlich wie ein Wort aus mehreren Phonemen zusammengebaut werden<br />
kann, so erscheint es im Videobild als Folge verschiedener Viseme. Die Abbildung<br />
zwischen Phonemen und Visemen ist allerdings nicht bijektiv. So sind<br />
zum Beispiel die Wörter ” Haus“ und ” aus“ zwar akustisch unterscheidbar,<br />
aber nicht auf der Videoaufnahme. Der Fall, daß es verschiedene Viseme für<br />
denselben Laut gibt, ist in natürlicher Sprache praktisch ausgeschlossen und<br />
für das Lippenlesen nicht von Bedeutung.<br />
In den Anfängen des Lippenlesens waren die Anforderungen an die Bildqualität<br />
noch sehr hoch. In [?] wird eine sehr gute Beleuchtung von mehreren<br />
Seiten erwartet. Aus den Aufnahmen wurden bestimmte Eigenschaften der<br />
Lippen gemessen (Höhe, Breite, Umfang, Fläche, usw.). Diese Meßwerte<br />
bildeten einen Merkmalsvektor, der dann mit wortweise abgespeicherten<br />
Mustern mittels DTW verglichen wurde, um so für verschiedene Wörter<br />
Wahrscheinlichkeiten zu berechnen. Der Lippenleser wurde verwendet, um<br />
die akustische Erkennung von isoliert gesprochenen Ziffern und Buchstaben<br />
zu verbessern. Dabei wurden mit Hilfe eines akustischen Erkenners die n
26.1 Lippenlesen auf Videoaufnahmen 421<br />
besten Hypothesen extrahiert, und unter diesen dann die am besten mit<br />
dem visuellen Erkenner übereinstimmende gewählt. Die Fehlerrate des Akustischen<br />
Erkenners für Buchstaben konnte von 36% auf 34% gesenkt werden.<br />
Die berichtete Fehlerreduktion von 5% auf 0% bei der Ziffernerkennung<br />
berechtigt allerdings zu Zweifeln an der Signifikanz der Testdaten.<br />
Später folgten andere Ansätze, bei denen zum Beispiel der optische<br />
Fluß berechnet und zu Klassifikation benutzt wurde [?]. Erste neuronale<br />
Ansätze wurden von [?] verfolgt. Dabei wurden zunächst nur statische<br />
Grauwertbilder der Lippen verwendet. Erwähnenswert für diese Arbeit<br />
war die Tatsache, daß bei der auch hier vorgenommenen gemeinsamen<br />
Erkennung mit einen zusätzlichen akustischen Erkenner die Gewichtung<br />
der visuellen und akustischen Klassifikatoren auf Basis der Messung des<br />
Signal-Rausch-Abstandes vorgenommen wurde. Das führte dazu, daß bei<br />
stark verrauschten Aufnahmen mehr Wert auf das Videosignal und bei sehr<br />
sauberen Aufnahmen mehr Wert auf das Audiosignal gelegt wurde.<br />
In [?] werden TDNNs [?] verwendet. Allerdings wurden die Lippenbewegungen<br />
nicht mit Hilfe eine Videokamera aufgezeichnet sondern mit Hilfe<br />
von im Gesicht der Sprecher befestigten Sensoren. Die Klassifikation erfolgte<br />
durch Multiplikation der Wahrscheinlichkeiten des akustischen Erkenners<br />
und des TDNNs.<br />
Spätere Arbeiten gehen dazu über kontinuierliche Sprache zu verarbeiten<br />
und dynamische Ansätze zu verfolgen. Die Verwendung neuronaler Netze<br />
hat sich aber zumindest für die Analyse und Vorklassifikation der Videoaufnahmen<br />
gehalten. [?] verwendet MS-TDNNs [?] [?] für die Erkennung<br />
kontinuierlich gesprochener Buchstabiersequenzen. Das Besondere an der<br />
Arbeit ist, daß die gleiche konnektionistische MS-TDNN Architektur sowohl<br />
für die visuelle als auch für die akustische Erkennung verwendet wurde.<br />
Dies erlaubt zahlreiche Freiheiten bei der Entscheidung der Fusion der<br />
Informationsströme. Prinzipiell war es möglich, bei exakt synchronisierten<br />
Daten die Fusion der akustischen und optischen Merkmale schon auf<br />
Signalebene durchzuführen. Allerdings führten die großen Unterschiede in<br />
der Dimensionalität und Informationsgehalt des Videostroms gegenüber dem<br />
Audiostrom zu Schwierigkeiten (das Netz konzentrierte sich fast ausschließlich<br />
auf den Videostrom). Eine Fusion auf höherer Ebene (verdeckte Schicht<br />
des neuronalen Netzes) funktionierte wesentlich besser [?]. Die Fehlerraten<br />
konnten im sprecherabhängigen Fall gegenüber einem rein akustischen<br />
Erkenner auf sauberen Daten um bis zu 40% und bei verrauschten Daten<br />
um über 50% gesenkt werden.
422 26. Zusätzliche Modalitäten<br />
26.2 Sprecherlokalisierung<br />
In Szenarien, in denen <strong>Maschine</strong>n für die Perzeption menschlicher <strong>Kommunikation</strong><br />
eingesetzt werden – unabhängig davon, ob für <strong>Mensch</strong>-<strong>Mensch</strong>- oder<br />
<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong> – kommt es oft vor, daß die räumliche<br />
Position eines Sprechers von Bedeutung ist. So ist es zum Beispiel für das<br />
Erzeugen einer Zusammenfassung einer Besprechung wichtig festzuhalten,<br />
von welchem Sprecher was gesagt wurde. Auch wenn dem System die Sprecher<br />
nicht bekannt sind, so kann es dennoch jedem Besprechungsteilnehmer<br />
einen virtuellen Namen zuordnen. Wenn keine zusätzlichen perzeptiven<br />
Möglichkeiten über im Raum installierte Kameras existieren, dann besteht<br />
eine Person für das System aus einer Stimme und einer Position. Personen<br />
könnte man sicher auch über den Inhalt dessen, was sie sagen, identifizieren.<br />
Sicherer aber geht es indem man entweder die Stimme analysiert, was in<br />
der Komplexität vergleichbar aufwendig ist, wie die Erkennung der Sprache<br />
selbst, oder man stellt den Ort des Schallquelle fest, von der aus das gerade<br />
Gesagte kommt.<br />
26.2.1 Akustisch<br />
Wenn zur Aufnahme eines Sprachsignals mehr als ein Mikrophon verwendet<br />
wird, kann man auf die Position der Quelle des Signals Rückschlüsse ziehen.<br />
Betrachten wir die stereophone Aufnahme eines Signals. Jedes der beiden<br />
Mikrophone ist mit einem eigenen Eingang eines Mehrkanal-Analog-Digital-<br />
Wandlers verbunden. Die Verwendung eines solchen Wandlers ist nötig, um<br />
eine exakte zeitliche Zuordnung der einzelnen Abtastwerte aus verschiedenen<br />
Kanälen zu ermöglichen. Nehmen wir der Einfachheit halber an, die<br />
Aufnahmevorrichtung, das heißt die beiden Mikrophone und die Schallquelle,<br />
befinden sich in der selben Ebene. Das erste Mikrophon liefert die Abtastwerte<br />
X1 = (x1[1], x1[2], . . .x1[n]) und das zweite Mikrophon die Werte<br />
X2 = (x2[1], x2[2], . . . x2[n]). Nehmen wir außerdem an, daß die Schallwellen,<br />
die bei den beiden Mikrophonen ankommen, sich nur unwesentlich voneinander<br />
unterscheiden, und daß der Hauptunterschied der zeitliche Versatz ist,<br />
also das der Schallquelle nähere Mikrophon die Welle zuerst mißt bevor diese<br />
auf das entferntere Mikrophon trifft. Wenn die beiden gemessenen Signale<br />
ausreichend ähnlich<br />
<br />
sind, kann man mit Hilfe der Korrelation den Zeitversatz<br />
d = argmaxd x1[i]·x2[i−d] messen. Bei einer Abtastrate von r Hz bedeutet<br />
ein Zeitversatz von m Abtastwerten einen Laufzeitunterschied von r · m Sekunden.<br />
Bei einer Aufnahme mit für die Spracherkennung typischen 16 kHz<br />
kann also der Laufzeitunterschied mit einer Genauigkeit von ca. 1/16000 Sekunde<br />
gemessen werden. Wenn nun noch die Schallgeschwindigkeit c bekannt<br />
ist, dann läßt sich daraus der Distanzunterschied der Schallquelle zu den<br />
beiden Mikrophonen berechnen:
∆d =<br />
m · r<br />
c<br />
26.2 Sprecherlokalisierung 423<br />
(26.1)<br />
Aus der Mathematik ist bekannt, daß die Menge der Punkte, die den<br />
gleichen Abstandsunterschied zu zwei gegebenen Punkten a und b haben,<br />
eine Hyperbel mit den beiden Brennpunkten a und b ist (s. Abb. 26.1).<br />
Betrachtet man noch das Vorzeichen des Abstandsunterschieds, dann bleibt<br />
für die mögliche Position der Schallquelle nur noch eine Hälfte einer Hyperbel.<br />
a<br />
∆a<br />
b<br />
∆b<br />
Abb. 26.1. Schallquellenortung mit 2 Mikrophonen<br />
Wenn die beiden Mikrophone so im Raum angeordnet sind, daß die<br />
Schallquelle eigentlich nur auf einer Seite der Verbindungsgeraden sein kann<br />
(z.B. wenn die Mikrophone an einer Vorrichtung angebracht sind, die an einer<br />
Wand befestigt ist), dann bleibt nur noch ein Arm einer Hyperbelhälfte. So<br />
kann zumindest der ungefähre Winkel der Schallquelle zu den Mikrophonen<br />
geschätzt werden. Für einige Anwendungen kann diese Schätzung schon<br />
genügen, zum Beispiel um ein Richtmikrophon auf die Quelle auszurichten<br />
oder um einen Roboter zu rufen, der sich dann zum Rufenden bewegt bzw.<br />
seine Kamera entsprechend positioniert.<br />
a b<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111<br />
Abb. 26.2. Geschätzter Winkel zur Schallquelle
424 26. Zusätzliche Modalitäten<br />
Eine wichtige Rolle spielt der Abstand der beiden Mikrophone. Wenn<br />
dieser zu gering ist, dann wird durch die Ungenauigkeit bei der Bestimmung<br />
der maximalen Korrelation ein Fehler gemacht. Zwar ist es möglich, nicht<br />
nur diskrete natürlichzahlige Werte d für die Korrelation zu verwenden<br />
(z.B. indem man stückweise Polynome durch die Abtastwerte schätzt und<br />
gegeneinander verschiebt), aber eine perfekte Messung des Laufzeitunterschiedes<br />
ist nicht möglich, insbesondere bei stark verrauschten Aufnahmen.<br />
Der Meßfehler fällt umso stärker aus, je geringer der Abstand zwischen den<br />
Mikrophonen ist. Im Extremfall, wenn der Abstand der Mikrophone kleiner<br />
ist als die Strecke, die der Schall in der Zeit zwischen zwei Abtastungen<br />
zurücklegt, kann die Korrelation nur für d ∈ {−1, 0, 1} maximal werden.<br />
Wird also nur ein diskretes d bestimmt, dann wird der Raum der möglichen<br />
Schallquellen nur in drei Unterräume getrennt. Es ist also sinnvoll, die<br />
beiden Mikrophone möglichst weit voneinander zu positionieren.<br />
Es ist nun nicht weiter schwierig, mit Hilfe eines dritten Mikrophons<br />
zwei weitere Hyperbeln zu berechnen, so daß sich alle drei in einem Punkt<br />
schneiden, in dem die Schallquelle liegen muß. Wir lassen die dazu gehörige<br />
Mathematik weg, da sie im wesentlichen nur aus dem Lösen eines unansehnlichen<br />
Gleichungssystems besteht und vom interessierten Leser leicht<br />
durchgeführt werden kann.<br />
Bei na Mikrophonen können also n/2 · (n − 1) Hyperbeln berechnet und<br />
alle miteinander geschnitten werden. Ist n hinreichend groß, dann können<br />
so viele Hyperbelschnitte berechnet werden, daß trotz verschiedener Ungenauigkeiten<br />
bei den Bestimmungen der Hyperbeln, der Durchschnitt aller<br />
Schnittpunkte eine sehr gute Schätzung für den Ort der Schallquelle darstellt.<br />
Beim menschlichen Hören mit zwei Ohren (dem binauralen Hören),<br />
spielen neben dem Laufzeitunterschied auch weitere Effekte eine Rolle. So<br />
” hören“ wir zum Beispiel den Schallschatten, den unser Kopf wirft. Wenn<br />
ein Signal von rechts kommt, dann kommt es am linken Ohr nicht nur später<br />
an als am Rechten, sondern auch noch durch den Kopf etwas gedämpfter.<br />
Diese Dämpfung hilft uns zusätzlich bei der Lokalisierung der Schallquelle.<br />
Ähnlich wie es für einäugige <strong>Mensch</strong>en möglich ist, dadurch dreidimensional<br />
zu sehen, daß der Kopf bewegt wird und so ein Auge die Aufgabe von<br />
zwei Augen quasi im Zeitmultiplexverfahren übernimmt, genauso können<br />
wir auch bei Hören, die Lokalisierungsgenauigkeit durch Bewegen des Kopfes<br />
verbessern. Insbesondere bei recht hochfrequenten Geräuschen, bei denen<br />
die Bestimmung der Laufzeitunterschiede besonders schwierig ist, kann man<br />
diese oft nur noch mit Zuhilfenahme von Kopfbewegungen orten.
26.2 Sprecherlokalisierung 425<br />
Eine andere Möglichkeit, die räumliche Auflösung des Gehörs zu verbessern,<br />
ist die Verwendung von Basisverbreiterern, wie sie in der Seefahrt<br />
zur Lokalisierung von Nebelhörnern heute noch eingesetzt werden. Dabei<br />
werden in jedes Ohr das Ende eines tubus-, muschel- oder kegelförmigen<br />
Schalleiters gesteckt, während die anderen Enden für die Schallaufnahme<br />
dienen und einen wesentlich größeren Abstand voneinander haben als die<br />
Ohren des <strong>Mensch</strong>en. Auf diese Art ist eine viel exaktere Bestimmung<br />
der Korrelation der beiden gehörten Signale und somit eine Messung von<br />
Laufzeitunterschieden möglich.<br />
Beamforming<br />
Beim Beamforming nutzt man die gleichen Techniken wie bei der Sprecherlokalisierung<br />
mittels Mikrophonarrays. Während bei der Sprecherlokalisierung<br />
der Laufzeitunterschied des Schalls von der Schallquelle zu verschiedenen<br />
Mikrophonen gemessen wird, wird beim Beamforming den eintreffenden<br />
Signalen je nach Mikrophon eine berechnete Verzögerung zugefügt, so daß<br />
die Summe der unterschiedlich verzögerten Signal alle Schallwellen, die von<br />
einer bestimmten Quelle kommen verstärkt und die Signale, die aus anderen<br />
Richtungen kommen unterdrückt.<br />
Wenn xi(t) das Signal bezeichnet, das am Mikrophon Mi ankommt, und<br />
∆i die Schallaufzeit vom gewünschten Ort Q bis zu Mi ist, dann berechnet<br />
sich das endgültige Signal x(t) wie:<br />
x(t) = <br />
xi(t − ∆i) (26.2)<br />
i<br />
Die Folge ist, daß in x(t) die Schallwellen von allen Orten außer Q nicht<br />
in Phase sind und nur die Wellen von Q in Phase sind. Eigentlich ist die<br />
Bezeichnung ” Beamforming“ zu schwach, denn in Wirklichkeit kann man das<br />
Verfahren bei Verwendung von drei oder mehr Mikrophonen ” Spotforming“<br />
nennen, denn es werden nicht nur Wellen aus einer bestimmten Richtung<br />
sondern von einem bestimmten Punkt selektiert.<br />
26.2.2 Mit Videoaufnahmen<br />
Eine weitere Möglichkeit, eine Sprecherlokalisierung durchzuführen ist die<br />
Verwendung einer Videokamera. Mit Hilfe eines Gesichterdetektionsverfahrens<br />
[?] und Gesichterverfolgungsverfahrens können Gesichter im Raum<br />
erkannt werden, die Analyse der Lippenregion sollte selbst bei entfernten
426 26. Zusätzliche Modalitäten<br />
Kameras, deren Aufnahmen nicht zum Lippenlesen geeignet sind, erkennbar<br />
sein, ob die Lippen sich bewegen. Die Korrelation der Information, wo sich<br />
im Raum bewegende Lippen befinden, mit der Information der akustischen<br />
Schallquellenlokalisierung gibt dann eine Robuste Schätzung der Position<br />
des Sprechers wieder.<br />
26.3 Handschrifterkennung, Gestikerkennung<br />
In der Handschrifterkennung unterscheidet man grundsätzlich zwischen zwei<br />
verschiedenen Ansätzen, der ” Offline“- und der ” Online“-Erkennung. Bei der<br />
Offline-Erkennung liegt dem Erkenner nur das Bild des handgeschriebenen<br />
Textes vor, bei der Online-Erkennung kann der Erkenner zusätzlich die<br />
gemessene Dynamik der Schrift zur Erkennung verwenden. In der Regel<br />
führt diese zusätzliche Information zu besseren Erkennungsraten, so daß<br />
sogar Systeme entwickelt werden, die versuchen, aus dem statischen Bild die<br />
verlorene Dynamikinformation zu rekonstruieren.<br />
Außer zur Erkennung von handgeschriebenen Texten bietet sich die<br />
Modalität der stiftbasierten Eingabe auch für die Erkennung von Formeln,<br />
Skizzen, Bildern und bestimmten Schreibgesten an. Während es einigermaßen<br />
einfach ist, in Skizzen zu erkennen, ob ein Objekt ein Rechteck<br />
oder ein Kreis ist, so gehört zur genauen Interpretation von komplexeren<br />
Objekten und insbesondere von deren Relationen zueinander wesentlich<br />
mehr ” Intelligenz“.<br />
Als zusätzliche Modalität zur Spracherkennung hat sich die Handschrifterkennung<br />
im Zusammenhang mit der Korrektur von Erkennungsfehlern von<br />
Diktiererkennern hilfreich gezeigt (s. folgenden Abschnitt).<br />
26.4 Fehlerbehandlungsmethoden<br />
Die Erfahrung hat gezeigt, daß die allermeisten stochastischen Klassifikatoren,<br />
sei es für die Erkennung von Sprache, Handschrift, Gesten oder<br />
Bilder, Fehler machen. Je nachdem, um was für eine Anwendung es sich<br />
handelt, sind Fehler mehr oder weniger tolerierbar. Bei einem Dialogsystem,<br />
bei dem der Benutzer per Sprache ein Kommando gibt ist es nicht weiter<br />
problematisch, wenn zwar das eine oder andere Wort des Kommandos<br />
mißverstanden wird, aber die gewünschte Aktion dennoch richtig verstanden<br />
und ausgeführt wird. So ist es zum Beispiel egal, ob der Erkenner in einem<br />
Videorecorder beim Kommando ” nimm die Tagesschau auf“ fälschlicherweise<br />
” nimm den Tagesschau auf“ verstanden wird. Hauptsache, das Gerät
26.4 Fehlerbehandlungsmethoden 427<br />
zeichnet die Tagesschau auf. Wenn man aber diesen Satz in ein Diktiersystem<br />
eingibt, so ist jeder einzelner Fehler ärgerlich und muß korrigiert werden.<br />
Bei den frühen käuflichen Diktiersystemen konnte man ein Codewort<br />
verwenden, das den Erkenner darüber informierte, daß das letzte Wort<br />
falsch erkannt wurde. So konnte man zum Beispiel ” oops“ sagen und das<br />
mißverstandene Wort wiederholen. Ein doppeltes Oops würde zum Ersetzen<br />
des vorletzten Wortes verwendet werden können. Entsprechend viele Oops<br />
hintereinander würden den Cursor um genauso viele Wörter zurück setzen.<br />
Selbst wenn man davon ausgeht, daß Fehlerkennungen sehr selten sind,<br />
so ist das Problem meistens nicht durch einfaches Wiederholen des falsch<br />
erkannten Wortes gelöst. Entweder spricht man das Wort bei der Wiederholung<br />
genauso aus wie beim ersten Mal, was dazu führt, daß der Erkenner<br />
genau den gleichen Fehler noch einmal macht, oder man tendiert zur<br />
Hyperartikulation und versucht das Wort überdeutlich auszusprechen, was<br />
dazu führt, daß es sich für den Erkenner ganz anders ” anhört“ als reguläre<br />
nicht hyperartikulierte Beispiele und so erst recht zu Erkennungsfehlern führt.<br />
Wenn wir uns zum Ziel setzen, einen Text möglichst schnell in einen<br />
Computer einzugeben, dann stellt sich die Frage, ob eine reine Eingabe per<br />
Sprache inklusive der nötigen Korrekturen tatsächlich die schnellste Methode<br />
ist. Zweifelsfrei wäre eine fließen gesprochene Spracheingabe wesentlich<br />
schneller als eine Eingabe per Handschrift, Tastatur oder Buchstabieren.<br />
Eine Eingabe per Tastatur ist sicher die am wenigsten fehleranfällige, dafür<br />
aber auch viel langsamere als die Sprache – zumindest für den durchschnittlichen<br />
Computerbenutzer.<br />
In [?] werden verschiedene Methoden der Fehlerkorrektur miteinander<br />
verglichen und anhand von Benutzerstudien gezeigt, daß bei einer geeigneten<br />
Auswahl von Korrekturmechanismen ein Text signifikant schneller eingegeben<br />
werden kann als nur mit Sprache allein (s. Abb. 26.3).<br />
Zum Korrigieren eignen sich neben der Wiederholung von Abschnitten<br />
einer Äußerung auch die Neueingabe per Tastatur oder Handschrift. Auch<br />
das sprachliche Buchstabieren eines Wortes ist möglich und insbesondere<br />
dann sinnvoll, wenn es sich um ein Wort handelt, das sich nicht im Erkennervokabular<br />
befindet. Schließlich ist es oft am einfachsten, ein Wort aus<br />
einer Liste auszuwählen. Dabei wird, wenn das fehlerhaft erkannte Wort<br />
identifiziert ist, auf dem Bildschirm eine Liste von Alternativen angeboten.<br />
Dann kann mit Hilfe des Mauszeigers – oder des Fingers im Falle eines<br />
Touchscreens – das in der Liste hoffentlich vorhandene korrekte Wort<br />
ausgewählt werden.
428 26. Zusätzliche Modalitäten<br />
0000000000000000<br />
111111111111111100<br />
11<br />
0000000000000000<br />
111111111111111100<br />
11<br />
0000000000000000<br />
111111111111111100<br />
11<br />
Erstes Tippen eines Textes Tippkorrekturen<br />
0000000000000000000<br />
11111111111111111110000000000<br />
1111111111<br />
0000000000<br />
1111111111<br />
0000000000000000000<br />
11111111111111111110000000000<br />
1111111111<br />
Erstes Diktieren eines Textes Gesprochene Korrekturen<br />
0000000000000000000<br />
1111111111111111111<br />
0000000000000000000<br />
1111111111111111111<br />
00000<br />
11111<br />
00000<br />
11111<br />
00000<br />
11111<br />
Erstes Diktieren eines Textes Multimodale<br />
Korrekturen<br />
Abb. 26.3. Zeiten zum Eingeben und Korrigieren eines Textes<br />
26.5 Multimodale Zeitzuordnung<br />
Immer, wenn mehrere <strong>Kommunikation</strong>smodalitäten parallel verwendet<br />
werden, begegnet man der Problematik der Zuordnung von Ereignissen<br />
bzw. Beobachtungen in der einen Modalität mit den Ereignissen und<br />
Beobachtungen in anderen Modalitäten. Wenn z.B. in einem multimodalen<br />
Terminkalender ein Termin verschoben werden soll, indem sein Zeitpunkt<br />
mit dem Stift durch Umkreisen markiert wird, der stattdessen gewünschte<br />
Zeitpunkt danach auch mit einer Schreibgeste markiert wird und während<br />
des Schreibens die Worte ” Verschiebe diesen Termin nach da.“ gesprochen<br />
werden, so bereitet es dem <strong>Mensch</strong>en überhaupt kein Problem, das Ereignis<br />
des Markierens des ursprünglichen Zeitpunkts dem Satzabschnitt ” diesen<br />
Termin“ und das Ereignis des Markierens des neuen Zeitpunktes dem<br />
Zeitabschnitt ” nach da“ zuzuordnen. Dies ist selbst dann noch der Fall,<br />
wenn der zeitliche Versatz der beiden Modalitäten so groß ist, daß zwei nicht<br />
einander zuzuordnende Ereignisse tatsächlich gleichzeitig stattfinden.<br />
Prinzipiell gibt es zwei verschiedene Methoden, dieses Problem zu<br />
lösen. Entweder die beiden Modalitäten werden komplett unabhängig<br />
voneinander erkannt und danach werden die Zustände der erkannten<br />
Zustandsfolgen mit Hilfe von übergeordnetem Wissen einander zugeordnet.<br />
Oder es wird ein Verfahren angewandt, bei dem schon während der<br />
Erkennung beide Modalitäten gleichzeitig in einem Durchlauf abgearbeitet<br />
werden. Die zweite Idee entspricht einem ” mehrdimensionalen“ DTW-<br />
Algorithmus. Wenn zwei Modalitäten mit zwei Hidden-Markov-Modellen<br />
λ1 und λ2 mit den Zuständen S1 = {s11, s1n} und S2 = {s21, s2m} modelliert<br />
werden, dann ist es möglich, einen gemeinsamen Zustandsraum<br />
t
26.5 Multimodale Zeitzuordnung 429<br />
S ′ = S1 × S2 = {s11,21, s11,22, . . .s11,2m, . . . s12,21 . . . s1n,2m} als Kreuzprodukt<br />
der beiden Zustandsmengen zu definieren. Die Wahrscheinlichkeit<br />
a ′ 1i,2j,1k,2l für den Übergang von Zustand s1i,2j in den Zustand s1k,2l läßt<br />
sich dann berechnen als das Produkt der Übergangswahrscheinlichkeiten<br />
a1i,1k und a2j,2l berechnen. Abb. 26.4 illustriert die Ausführung eines<br />
zweidimensionalen DTW-Algorithmus.<br />
Distanzfrage<br />
Ziel<br />
Distanzfrage<br />
Start<br />
Ende der<br />
Zeigegeste<br />
Beginn der<br />
Zeigegeste<br />
Wie weit ist es von hier nach da?<br />
Abb. 26.4. mehrdimensionaler DTW Algorithmus<br />
Die Modalität auf der X-Achse kommt von einem Spracherkenner, die Modalität<br />
der Y-Achse kommt von einem Zeigegestenerkenner. Die gemeinsame<br />
Modalität ist auf der Z-Achse aufgetragen. Im angegebenen Beispiel wird ein<br />
DTW-Pfad für das (gemeinsame) Modell einer Distanzabfrage dargestellt.<br />
Eine Distanzabfrage besteht demnach aus den beiden Zuständen Distanzab-<br />
”<br />
frage Start“ und Distansabfrage Ziel“. Während der Spracherkenner durch<br />
”<br />
seine Zustände wie“, weit“, ist“, es“, von“, hier“, nach“ und da“<br />
” ” ” ” ” ” ” ”<br />
geht, durchläuft der Gestikerkenner die Zustände Beginn einer Zeigegeste“<br />
”<br />
und Ende einer Zeigegeste“. Der resultierende DTW-Pfad liefert so auto-<br />
”<br />
matisch die wahrscheinlichkeitstheoretisch optimale Folge von gemeinsamen<br />
” Doppelzuständen“ aus der sich direkt die Zuordnung der Spracherkennerbeobachtungen<br />
zu den Gestikerkennerbeobachtungen extrahieren läßt.
27. Entwicklung von Anwendungen<br />
In diesem Kapitel wird die Entwicklung einiger Beispielanwendungen für<br />
automatische Spracherkenner vorgestellt. Dabei werden vor allem Aspekte,<br />
die über das reine Trainieren eines Erkenners hinausgehen beleuchtet. In der<br />
Praxis stellt sich nicht selten heraus, daß der eigentliche Trainingsprozeß<br />
wie er in Kap. 12 und Kap. 13 behandelt wurde, nur einen kleinen Teil des<br />
gesamten Entwicklungsaufwandes darstellt.<br />
27.1 Ein Erkenner für eine neue Aufgabe<br />
Obwohl es heute bestimmt Tausende Implementierungen von Spracherkennern<br />
für die meisten gängigen Sprachen gibt, stehen Spracherkennungsforscher<br />
dennoch immer wieder vor dem Problem, einen Erkenner zu<br />
entwickeln, der einer neuen Aufgabe besser gewachsen ist als die vorhandenen<br />
Erkenner. Die Gründe dafür, daß kein existierender Erkenner ausreichend<br />
gut funktioniert sind mannigfaltig. Über die gleichen Gründe hinaus, die<br />
die Spracherkennung schwierig machen (s. Kap. 2) und die eine Adaption<br />
sinnvoll machen (s. Kap. 21), spielen immer wieder neue Algorithmen<br />
und Verfahren eine Rolle, und führen dazu, daß kein Erkenner universal<br />
und optimal ist. Zur Zeit ist nicht abzusehen, daß dies in naher Zukunft<br />
anders sein sollte. Spannt man einen hochdimensionalen Raum auf, in dem<br />
jede Dimension einer Eigenschaft der Sprache wie in Kap. 2 beschrieben<br />
entspricht, dann verwundert es nicht, daß immer wieder ” neue Aufgaben“<br />
auftauchen, die noch nicht gut genug gelöst sind.<br />
Als ” neue Aufgaben“ treten häufig neue Domänen oder neue Sprachen<br />
auf. Im folgenden wird die Entstehung eines Erkenners für eine neue Sprache<br />
beschrieben. Die groben Schritte lassen sich zusammenfassen als:<br />
• Vorbereitung (Analyse des Problems / der neuen Sprache)<br />
• Datensammlung (Audioaufnahmen und Texte)<br />
• Datenaufbereitung
432 27. Entwicklung von Anwendungen<br />
• Erzeugen der Erkennerumgebung (Lexikon, Phonemklassen)<br />
• Training und Evaluation<br />
• Einbau in die Anwendung<br />
• Qualitätsanforderungen überprüfen und erfüllen<br />
27.1.1 Vorbereitung<br />
Zur Vorbereitung gehören Aufgaben wie das Sammeln von Informationen<br />
über die neue Sprache. Viele Sprachen haben Eigenheiten, die es im Englischen<br />
und Deutschen nicht in der Art gibt. Einige Sprachen verwenden in<br />
der Schriftform meist keine Vokale (hebräisch, arabisch), andere Sprachen<br />
benötigen die Tonalität zur Bedeutungsunterscheidung (chinesisch), wieder<br />
andere haben eine enorme Flexionsfreiheit (koreanisch), und einige Sprachen<br />
verwenden Laute, die es in kaum einer anderen Sprache gibt. Solche<br />
Eigenheiten müssen im voraus bekannt sein, und es muß eine Lösung der<br />
mit ihnen verbundenen Probleme geplant werden.<br />
Zur Vorbereitung gehört auch die Planung der anstehenden Datensammlung.<br />
Viele Informationen lassen sich aus dem Internet besorgen. Wichtig ist<br />
zu wissen, ob die Sprache eine an die Aussprache angelehnte Orthographie<br />
hat, was in der Sprache ein ” Wort“ ist, welcher anderen Sprache, in der es<br />
bereits Erfahrungen gibt, sie ähnlich ist und so weiter.<br />
27.1.2 Datensammlung<br />
Eine typische Datensammlung beginnt mit der Spezifikation der benötigten<br />
Daten. Für kontinuierliche Erkennung großer Vokabulare sind mindestens<br />
ca. 10 Stunden reiner Sprache nötig. Die Zahl der Sprecher sollte möglichst<br />
groß sein (mehrere Dutzend). Die Verteilung der Geschlechter und der<br />
Altersstufen sollte einigermaßen repräsentativ sein. Der Sprechstil sollte<br />
möglichst dem Stil, für den der Erkenner gebaut wird entsprechen (vorgelesenen<br />
Sprache für Diktiererkenner, spontane Sprache für Dialogerkenner).<br />
Meistens werden Sprachdaten von freiwilligen ” Sprachspendern“ gesammelt.<br />
Wenn es um eine neue Sprache geht, ist es nicht immer leicht, eine<br />
ausreichende Menge Muttersprachler in der Nähe des Forschungslabors zu<br />
finden. Im GlobalPhone Projekt der Universität Karlsruhe [?] reisten daher<br />
Studierende verschiedener Nationalitäten mit Aufnahmegeräten in ihre<br />
Heimatländer und sammelten dort von Muttersprachlern Sprachaufnahmen.<br />
Für spontansprachliche Aufnahmen wird eine Art Beispieldrehbuch<br />
benötigt, in dem festgehalten ist, wie die Aufnahmen grob aussehen sollen,
27.1 Ein Erkenner für eine neue Aufgabe 433<br />
und anhand dessen sich die Sprachspender orientieren können. Aufnahmen<br />
spontaner Sprache ziehen einen enormen Aufbereitungsaufwand (s.u.) nach<br />
sich. Viel leichter ist die Aufbereitung von diktierten Daten. Dazu empfiehlt<br />
es sich, vor den Aufnahmen Texte zu sammeln, die dann vorgelesen werden<br />
können. Ein einfaches Programm kann den Spendern einen Satz auf dem<br />
Bildschirm eines tragbaren Computers anzeigen. Den Spendern kann man<br />
zumuten, nach jedem korrekt vorgelesenen Satz eine Taste zu drücken, so<br />
daß das Aufnahmeprogramm den nächsten Satz anzeigt. Falls der Spender<br />
einen Fehler macht drückt er eine andere Taste und wiederholt den Satz. Auf<br />
diese Art läßt sich sehr schnell eine große Menge transkribierter Aufnahmen<br />
sammeln. Die Auswahl der Texte ist wichtig. Wenn der Erkenner für eine<br />
bestimmte Domäne gedacht ist, ist es hilfreich, auch Texte aus dieser<br />
Domäne zu verwenden. Auf diese Art kann sichergestellt werden, daß die<br />
akustische Übereinstimmung (typische Spracheinheiten und phonetische<br />
Kontexte) zwischen dem Modell des Erkenners und der zu erkennenden<br />
Sprache möglichst groß ist.<br />
Die Aufnahmeeinrichtung sollte die gleiche Art Mikrophone verwenden,<br />
wie sie später bei der Erkennung zum Einsatz kommen. Wenn kein tragbarer<br />
Computer zur Verfügung steht, kann ein digitales Tonbandgerät verwendet<br />
werden. Statt der ” weiter“- und “Fehler“-Tasten auf dem Computer kann<br />
hier ein akustischer Signalgeber verwendet werden, der unterschiedliche<br />
Piepstöne erzeugt, die sich hinterher leicht automatisch detektieren lassen.<br />
27.1.3 Datenaufbereitung<br />
Zur Datenaufbereitung gehört das Organisieren der gesammelten Aufnahmen<br />
in einer Datenbank. Ein Eintrag in der Datenbank sollte mindestens eine<br />
Referenz auf die Audio-Datei, die Transkription des darin Gesprochenen<br />
und die Information über die Zugehörigkeit zur Trainings-, Entwicklungsoder<br />
Testdatenmenge. Weitere Informationen über den Sprecher können je<br />
nach später durchgeführten Verfahren auch hilfreich sein.<br />
Bei diktierten und vorsegmentierten Aufnahmen ist diese Aufgabe relativ<br />
einfach zu erledigen. In der Regel genügt es, alle Aufnahmen zur Kontrolle<br />
anzuhören und mit der Transkription zu vergleichen, so daß eventuelle<br />
Fehler erkannt und beseitigt werden können. Bei spontaner Sprache ist<br />
der Prozeß der Datenaufbereitung viel aufwendiger. Die nicht vorhandenen<br />
Transkiptionen müssen in mühevoller Handarbeit erstellt werden. Wenn<br />
gewünscht, werden im ersten Schritt die Aufnahmen in einzelne Äußerungen<br />
segmentiert. Die Transkribieren müssen die Aufnahmen anhören und den<br />
Text (am besten inklusive aller Geräusche und falsch ausgesprochener
434 27. Entwicklung von Anwendungen<br />
Wörter oder Wortfragmente) eintippen.<br />
Zu den wichtigsten Daten die vom Erkenner benötigt werden gehört das<br />
Sprachmodell. Diese sollte aus einer sehr großen Menge Text erzeugt werden.<br />
Für Diktiererkenner, die vorgelesene Sprache erkennen sollen, ist dies oft<br />
relativ einfach. Meistens werden Nachrichtentexte verwendet, die es im<br />
Internet oder von Zeitungsverlagen auf CDs gibt. Als erstes müssen solche<br />
Texte ” normalisiert“ werden. Dazu gehört die Entfernung der Interpunktion,<br />
die Verschriftung von Zahlen, die Uniformisierung von Abkürzungen und die<br />
Entfernung von Formatierungsinformationen. Dies ist nötig, damit später<br />
die Berechnung von Sprachmodellen problemlos durchgeführt werden kann.<br />
Für die Erkenner von Spontansprache ist es wesentlich schwieriger, eine<br />
vergleichbar große Menge Textdaten zu sammeln. Die Standard Trainingsdaten<br />
für das Sprachmodell der Wall Street Journal Diktieraufgabe [?]<br />
umfassen über 300 Millionen Wörter. Für die spontanen Verbmobil Dialoge,<br />
mit denen ein großer Teil der Spracherkennungsforschung in deutscher Sprache<br />
durchgeführt wurde, standen hingegen gerade einmal 1/4 Million Wörter<br />
zur Verfügung. Daher empfiehlt es sich beim Erzeugen des Sprachmodells<br />
für spontane Sprache besonders vorsichtig umzugehen, und die wenigen<br />
vorhandenen spontanen Daten gegebenenfalls mit größeren nichtspontanen<br />
Daten zu interpolieren.<br />
Es gibt auch Bestrebungen, spontane Texte künstlich zu erzeugen.<br />
Die Idee hierbei ist es, große Mengen Schriftsprache so zu transformieren,<br />
daß die ähnlich wie spontane Sprache aussieht. Dazu gehören mehrere<br />
Einzeltransformationen wie das Umstellen von Wörtern, das Aufteilen<br />
langer Sätze in kürzere, das Ersetzen typisch schriftsprachiger Wörter durch<br />
umgangssprachliche und so weiter. Solche Verfahren werden Corpus Mapping<br />
genannt. Künstlich erzeugte Textkorpora sind aber erwartungsgemäß<br />
deutlich weniger wertvoll und für die Entwicklung von Spracherkennern<br />
weniger hilfreich als ” echte“.<br />
27.1.4 Erzeugen der Erkennerumgebung<br />
Bevor das Training beginnen kann müssen einige Entwurfskriterien festgelegt<br />
und einige Dateien erzeugt werden. Zu den Entwurfskriterien gehören zum<br />
Beispiel die Art der Berechnung der Emissionswahrscheinlichkeiten, dazu die<br />
Frage nach der Gestaltung des Parameterraums und der Signalverarbeitungsmethoden.<br />
Ohne weiteres Wissen wird man hier die gleichen Entscheidungen<br />
treffen, die bei einen vorhandenen Erkenner bekanntermaßen erfolgreich<br />
funktioniert haben.
27.1 Ein Erkenner für eine neue Aufgabe 435<br />
Aus den Textkorpora müssen n-Gramme berechnet werden. Typische<br />
Größen dieser n-Gramm Sprachmodelle liegen in der Größenordnung von<br />
mehreren Millionen bis mehreren Zig Millionen Bigrammen und Trigrammen<br />
sowie den dazugehörigen Back-Off Parametern.<br />
Ein weiterer Wichtiger Bestandteil der Erkennerumgebung ist das Aussprachelexikon.<br />
Für die verbreitetsten Sprachen existieren schon zahlreiche<br />
Lexika. Für seltenere Sprachen oft keine in elektronischer Form. In manchen<br />
Sprachen (zum Beispiel Serbisch und Kroatisch) kann die Orthographie<br />
direkt auch als phonetische Umschrift verwendet werden. In anderen Sprachen<br />
ist dies nicht möglich. In der Tat gibt es sogar sehr viele Sprachen die<br />
ganz ohne Schriftform existieren – zugegebenermaßen sind solche Sprachen<br />
nicht besonders weit verbreitet. Das Aussprachelexikon muß das gesamte<br />
Trainingsvokabular abdecken. Wörter, die nicht im Lexikon enthalten sind,<br />
können nicht mit den üblichen HMM-Erkennungsmethoden von Kap. 12<br />
erkannt werden. An dieser Stelle entstehen oft sehr zeitraubende Arbeiten.<br />
Selbst in etablierten Sprachen wie die deutsche tauchen immer wieder Wörter<br />
auf, die in den bis dahin benutzten Lexika nicht vorkommen. So kann man bei<br />
einer deutschen Datensammlung von mehreren Stunden Sprache erwarten,<br />
Hunderte von Wörtern zu erfassen, für die noch keine phonetische Umschrift<br />
vorhanden ist. Einige davon lassen sich automatisch erzeugen – zum Beispiel<br />
weil sie Komposita von bekannten Wörtern sind. für andere müssen Text-To-<br />
Speech-Systeme verwendet werden. Da weder die Kompositaerkennung noch<br />
die Text-To-Speech-Systeme perfekt funktionieren bedarf ein derart automatisch<br />
erzeugtes Lexikon einer nachträgliche Durchsicht durch einen Experten.<br />
Das Aussprachelexikon definiert somit auch den Phonemsatz der neuen<br />
Sprache. Dieser bildet die Grundlage für die initialen akustischen Modelle.<br />
Für die Erzeugung von Kontextentscheidungsbäumen wird ein Fragenkatalog<br />
benötigt, der an den Phonemsatz der neuen Sprache angepaßt ist. In<br />
der Regel ist es möglich, mit Hilfe der IPA-Lautedefinitionen jedem Phonem<br />
artikulatorische Eigenschaften zuzuordnen und in etwa die gleichen Mengen<br />
dieser Eigenschaften über verschiedene Sprachen hinweg zu verwenden.<br />
27.1.5 Training und Evaluation<br />
Vor dem eigentlichen Training steht die Initialisierung des Parameterraumes.<br />
Wenn es sich um einen Erkenner für eine neue Sprache handelt, dann liegen<br />
in der Regel keine Labels vor und es existiert auch kein ausreichend guter<br />
Erkenner, der gute Labels erzeugen könnte. Wenn ein Erkenner in einer<br />
ähnlichen Sprache existiert könnte dieser dazu herangezogen werden, initiale<br />
(schlechte) Labels zu erzeugen. Problematisch wird dies allerdings dann,<br />
wenn die Phonemsätze der alten und der neuen Sprache nicht übereinstimmen.<br />
Phoneme aus der neuen Sprache kann der alte Erkenner gar nicht
436 27. Entwicklung von Anwendungen<br />
etikettieren. Eine mögliche Vorgehensweise ist das Kopieren vorhandener<br />
Phonemmodelle in die neuen Modelle. Dann sind diese zwar aus der Sicht des<br />
Erkenners akustisch identisch, aber sie lassen sich immerhin mehr schlecht<br />
als recht erkennen. So wäre es möglich, im einen neuen Erkenner für die<br />
deutsche Sprache das im Amerikanischen übliche oÍ(wie in go oder show)<br />
als Ersatz für das deutsche o zu verwenden.<br />
In einem so frühen Stadium der Erkennerentwicklung ist es nicht<br />
ratsam gleich kontextabhängige akustische Modelle zu verwenden. Da diese<br />
jeweils einen kleinen Teil des Merkmals- und Parameterraumes einnehmen<br />
benötigen sie auch eine umso exaktere Zuordnung von Beobachtungen zu<br />
Modellen. Solange aber kein guter Erkenner existiert, genügt die Qualität<br />
dieser Zuordnungen nicht für ” scharfe“ kontextabhängige Modelle.<br />
Der neue Erkenner muß sich mit den unpassenden Parametern akustischer<br />
Modellen einer anderen Sprache oder mit schlechten Labels quasi<br />
am eigenen Schopf aus dem Sumpf ziehen. Diese geschieht in der Regel in<br />
einem iterativen Prozeß. In jeder Iteration wird ein etwas besserer Erkenner<br />
trainiert, der etwas bessere Viterbi-Pfade (Labels) berechnet, die dann für<br />
die nächste Iteration bessere Modelle erzeugen. Die Qualität des Erkenners<br />
wird nach jeder Iteration auf einer Kreuzvalidierungsmenge gemessen. Wenn<br />
festgestellt wird, daß keine weiteren Verbesserungen zu erwarten sind, wird<br />
der Schritt in die nächst höhere Komplexitätsstufe gemacht. Dann können<br />
feinere, kontextabhängige Modelle trainiert werden, die wiederum in der<br />
Lage sind, bessere Labels zu erzeugen. Ein Ballungsalgorithmus zum Zusammenfassen<br />
verschiedener Kontexte optimiert schließlich den Merkmalsraum.<br />
Es ist nicht ungewöhnlich, daß dieser iterative Trainingsvorgang mehrfach<br />
wiederholt wird. Insbesondere im Hinblick darauf, daß einige Algorithmen<br />
sich gegenseitig beeinflussen. So könnte zum Beispiel in einem relativ frühen<br />
Stadium eine LDA-Transformation berechnet werden, die auf einer mangelhaften<br />
Etikettierung der Daten beruht. Mehrere Erkenner mit verschieden<br />
vielen Trainingsiterationen und Komplexitätsgraden ihrer Parameterräume<br />
bauen auf dieser Merkmalsraumtransformation auf. Es ist nun nicht sinnvoll,<br />
einfach eine Neue LDA-Transformation mit den Labels eines besseren<br />
Erkenners zu berechnen. Der so transformierte Raum würde nicht mehr auf<br />
die Modelle des Erkenners passen. Daher muß nach der Erzeugung einer<br />
neuen LDA-Matrix das akustische Modell des Erkenners auch von Anfang<br />
an neu Trainiert werden.
27.1 Ein Erkenner für eine neue Aufgabe 437<br />
27.1.6 Qualitätsanforderungen überprüfen und erfüllen<br />
Wenn der Erkenner fertig trainiert ist, kann es schon zu spät sein, bestimmte<br />
Änderungen vorzunehmen. Daher müssen gegebenenfalls einige Anforderungen<br />
schon während des Trainingsprozesses berücksichtigt werden. Andere<br />
werden oft erst hinterher erfüllt. Typische Anforderungen an Spracherkenner<br />
sind zum Beispiel die Erwartung, daß er in Echtzeit läuft. Zwar gilt auch<br />
bei der Entwicklung von Spracherkennern immer wieder der Wahlspruch<br />
der Softwaretechnik ” Make it work first, before you make it work fast“,<br />
allerdings kann eine ungeeignete Architektur des Parameterraumes dazu<br />
führen, daß eine Erkennung in Echtzeit hoffnungslos ist. Die Geschwindigkeit<br />
der Erkennung kann in der Regel mit einigen Parametern (Breite des<br />
Suchstrahls) eingestellt werden, wobei eine Reduzierung der Erkennungszeit<br />
so gut wie immer mit einer Erhöhung der Fehlerrate verbunden ist. Unter<br />
Umständen kann es nötig sein, einen kleineren Parameterraum oder ein<br />
kleineres Sprachmodell verwenden zu müssen, um Echtzeitanforderungen<br />
erfüllen zu können.<br />
Manche Aufgaben benötigen eine schritthaltende Erkennung. Das heißt<br />
der Erkenner muß bevor eine Äußerung beendet ist, den Anfang schon erkannt<br />
haben. Er arbeitet dann nicht auf einer fertigen Audio-Datei sondern<br />
auf einem Audio-Strom oder auf einer wachsenden Audio-Datei. Wenn der<br />
Benutzer eines intelligenten Vortragsunterstützungssystem zum Beispiel sagt<br />
” Auf der nächsten Folie sehen Sie wir die Ergebnisse dieser Experimente auf<br />
den Daten ausgefallen sind, die wir letztes Jahr im Rahmen des Projektes<br />
FAME gesammelt ...“. Wenn der Redner keine Sprechpause macht, wird ein<br />
Sprachdetektor auch kein Ende der Äußerung detektieren, und das System<br />
würde nicht erwartungsgemäß funktionieren, wenn es nicht schon am Anfang<br />
dieser Äußerung auf die nächste Präsentationsfolie schalten würde.<br />
Wenn schritthaltende Erkennung benötigt wird, muß dies gegebenenfalls<br />
in den Signalverarbeitungsroutinen des Erkenners berücksichtigt werden.<br />
Normierungsverfahren, die auf Äußerungsebene arbeiten (zum Beispiel<br />
verschiedene Mittelwertsubtraktionsverfahren), müssen darauf ausgerichtet<br />
werden, mit einem Audiodatenstrom zu arbeiten, dessen Ende nicht abzusehen<br />
ist. Für Mittelwertssubtraktionen bedeutet dies meistens, daß die<br />
Mittelwert auf einem Zeitfenster in der Vergangenheit berechnet werden<br />
müssen. Bei komplizierten Suchalgorithmen bedeutet schritthaltende Erkennung,<br />
daß es nicht sinnvoll ist, mehrere Vorwärts- und Rückwärtsdurchläufe<br />
über die Aufnahme zu machen, wenn nicht klar ist, wann der Rückwärtsdurchgang<br />
gestartet werden soll.<br />
Andere Qualitätsanforderungen beziehen sich zum Beispiel auf die<br />
Adaptierbarkeit des Erkenners. Die am meisten verbreiteten Adaptionsmethoden<br />
sind Vokaltraktlängennormierungen und Maximum-Likelihood
438 27. Entwicklung von Anwendungen<br />
lineare Regression (s. Kap. 21).<br />
27.2 Beispiel: Videorecorder<br />
Auch wenn der technische Fortschritt die Bedienung von Videorecordern<br />
durch Techniken wie Videotextauswahl und Showview-Codes vereinfacht<br />
hat, scheuen immer noch viele <strong>Mensch</strong>en vor der Programmierung der<br />
Geräte zurück und benutzten sie zumeist nur zum Abspielen ausgeliehener<br />
Videofilme.<br />
Die Schnittstellenproblematik der Videorecorder hat nichts damit zu tun,<br />
daß die Aufnahmetechnik veraltet ist. Egal, ob die Geräte VHS-Kassetten,<br />
DVD oder Festplatten verwenden, das Problem liegt vielmehr in der <strong>Kommunikation</strong><br />
des Gerätes mit dem Benutzer.<br />
Ende der neunziger Jahre wurde an der Universität Karlsruhe ein Gerät<br />
entwickelt, das es dem Benutzer ermöglicht, einen Videorecorder nicht nur zu<br />
programmieren, sondern ihn auch als elektronische Programmzeitschrift zu<br />
benutzen. Das Gerät versteht Fragen wie Wann kommen heute abend die<br />
”<br />
Nachrichten?“ oder “Gibt es heute einen Krimi?“, einfache Bandfunktionen<br />
” Wirf die Kassette aus!“, aber auch Programmieranweisungen “Nimm den<br />
Film mit John Wayne auf!“.<br />
Für die Spracherkennung wurde ein mit spontaner deutscher Sprache<br />
trainierter Erkenner verwendet. Das Vokabular war mit ca. 600 Wörtern<br />
sehr klein. Allerdings lag die Perplexität der Aufgabe bei teilweise über<br />
2 000. Dies lag daran, daß das Aussprachelexikon für einige Wörter Hunderte<br />
verschiedener Aussprachen hatte. Da keine ausreichenden Mengen an Textdaten<br />
mit <strong>Mensch</strong>-Videorecorder Gesprächen zur Verfügung standen, konnte<br />
auch kein sinnvolles n-Gramm Modell dafür trainiert werden. Würde man<br />
von den vielen Schauspieler-, Sportler- und Politikernamen sowie Titeln und<br />
Untertiteln von Sendungen und deren Themen abstrahieren dann ist es aber<br />
mögliche eine einfache Grammatik zu definieren, die die meisten üblichen<br />
Gespräche, die ein <strong>Mensch</strong> mit einem Videorecorder führen würde abdeckt.<br />
Auf den Messen, auf denen das Vorführgerät ausgestellt wurde stellte sich<br />
heraus, daß mehr als die Hälfte der Äußerungen von der Sorte waren:<br />
” Programmiere “, ” Wann kommt “, ” Ich<br />
möchte einen sehen“ oder ” aufnehmen“. So wurde<br />
mangels Sprachmodell ein Ähnliches Vorgehen, wie bei klassenbasierten<br />
Sprachmodellen gewählt, nämlich ein klassenbasiertes Aussprachelexikon.<br />
Neben den ca. 600 alltäglichen Wörtern, die in einem einfachen <strong>Mensch</strong>-<br />
<strong>Maschine</strong>-Dialog verwendet werden, gab es Wörter wie
27.3 Beispiel: Adressenerkennung 439<br />
oder . Diese hatten jeweils Hunderte verschiedener möglicher<br />
Aussprachevarianten. Aus dem Index der Varianten, die der Erkenner<br />
auswählte, konnte dann der entsprechende Sendungstitel oder Schauspielername<br />
generiert werden.<br />
Neben dem Spracherkenner wurde noch ein so genannter flacher<br />
Parser benutzt, der entsprechend der einfachen grammatischen Struktur<br />
der Äußerungen mit Hilfe von regulären Ausdrücken nach bestimmten<br />
Phrasen suchte und so die Äußerungen klassifizierte und deren Inhalte<br />
in Fallschablonen ablegte. Fallschablonen waren zum Beispiel: Programmieranweisung,<br />
Senderabfrage, Zeitabfrage, Bandlaufwerkkommando,<br />
Uhrzeitabfrage und andere. Darüber hinaus gab es Datenstrukturen für<br />
partielle Sendungsspezifikationen. Zu einer vollständigen Programmieranweisung<br />
gehörten auch die vollständige Sendungsspezifikation. Um dies<br />
zu erreichen genügte es in manchen Fällen nur einen Schauspielernamen<br />
zu nennen (wenn dieser im gesamten überschaubaren Fernsehprogramm<br />
nur einmal auftaucht), in anderen Fällen konnte eine Sendung auch durch<br />
Angeben des Senders und einer Uhrzeit, oder durch Angeben einer Sparte<br />
und etwas über den Inhalt der Sendung exakt identifiziert werden. Wenn<br />
der Parser eine Programmieranweisung oder eine Inforationsanfrage zu<br />
einer nicht vollständig spezifizierten Sendung erkannt hatte, wurde der<br />
Benutzer darüber informiert, daß mehrere Sendungen in Frage kommen<br />
und er wurde aufgefordert im Dialog die Sendung vollständig zu spezifizieren.<br />
Für den praktischen Einsatz des Gerätes war vorgesehen, daß es sich<br />
die Informationen über das Fernsehprogramm aus dem Internet oder aus<br />
dem bei vielen Sendern vorhandenen Videotext-Dienst besorgt. Das System<br />
erreichte eine korrekte Transaktionsrate von ca. 90% auf den kooperativen<br />
Eingaben der Messebesucher [?] [?].<br />
27.3 Beispiel: Adressenerkennung<br />
Abgesehen von den zahlreichen bereits im Einsatz befindlichen Diktiersystemen<br />
gehören zu den Anwendungen, die einigermaßen gut realisierbar sind<br />
und für die auch reichlich Bedarf besteht, gehören Adressenerkennungssysteme.<br />
Dabei geht es darum, daß viele Telefondienste während des Anrufs voll<br />
automatisch ablaufen, und es lediglich hinterher nötig ist, die Adressen der<br />
Anrufer abzuhören und einzutippen. Solche Vorgehensweisen sind bei vielen<br />
TV-Gewinnspielen, Kunden-Hotlines verschiedener Firmen, Werbeaktionen<br />
etc. üblich.
440 27. Entwicklung von Anwendungen<br />
Auf den ersten Blick erscheint eine Automatische Erkennung solcher<br />
Daten als hoffnungslos. Das Problem ist ähnlich schwierig wie die Bedienung<br />
von Navigationssystemen oder von Web-Browsern. Die riesige Menge an<br />
möglichen Namen – und Adressen bestehen nahezu nur aus Namen und<br />
einigen Zahlen – macht eine Erkennung extrem schwierig. Dennoch ist<br />
es so, daß der Arbeitsaufwand, der normalerweise für die Transkribierer<br />
entsteht wesentlich gesenkt werden kann, wenn ein beachtlicher Anteil der<br />
Adressen mit ausreichender Sicherheit automatisch erkannt werden könnte.<br />
Bei mehreren Millionen Personennamen in Deutschland ist dies allerdings<br />
ohne zusätzliche Maßnahmen mit einem Standard Erkenner nicht möglich.<br />
Nicht nur, daß ein noch so großes Aussprachelexikon viele Namen gar nicht<br />
enthalten würde, auch ein naives Sprachmodell wäre wenig hilfreich. Eine<br />
Erkennungsaufgabe mit einer Perplexität von mehreren Millionen wäre mit<br />
den heutigen Techniken aussichtslos.<br />
Es ist nun aber möglich, auf zweierlei Art das Problem dramatisch<br />
zu erleichtern. Zum einen werden nur diejenigen Aufnahmen automatisch<br />
transkribiert, bei denen eine ausreichend hohe Konfidenz festgestellt wird.<br />
Alle anderen werden verworfen, und an einen menschlichen Transkribierer<br />
verwiesen. Natürlich sollte der Anteil solcher Aufnahmen möglichst gering<br />
sein. Bei der Mehrzahl der Adressen könnte man allerdings zur Senkung der<br />
Perplexität ein Telefonbuch benutzen. Ein allgemeines Sprachmodell, daß<br />
Klassen für Ortsnamen, Postleitzahlen, Straßennamen, Hausnummern, Vorund<br />
Nachnamen verwendet und ansonsten einige Wörter berücksichtigt,<br />
die bei der Formulierung von Adressen verwendet werden können, hat eine<br />
relativ niedrige Perplexität, weit unterhalb der Perplexität von Diktiersystemen,<br />
ja sogar unterhalb der Perplexität von einfachen Dialogsystemen wie<br />
Zugfahrplan- oder Kinoprogramm-Auskunftssystemen. Nur die Perplexität<br />
innerhalb dieser Klassen ist sehr groß. Ohne Verwendung weiteren Wissens,<br />
wäre die Perplexität innerhalb der Nachnamen-Klasse bei mehreren hunderttausend.<br />
Wenn man aber den Ort und sogar die Straße kennt, dann<br />
ist die Auswahl der möglichen Namen schon viel kleiner und bei bekannter<br />
Hausnummer in vielen Fällen sogar eindeutig. Umgekehrt kann aber auch ein<br />
erkannter Name für die Verringerung der Perplexität bei der Erkennung der<br />
Adresse hilfreich sein. Im Grunde hängen alle Komponenten einer Adresse<br />
voneinander ab.<br />
Erste Vorgehensweise:<br />
Jede Komponente wird unabhängig von den anderen Komponenten<br />
erkannt. Die Wahrscheinlichkeit, daß die beste Hypothese des Erkenners<br />
auch gleich die richtige ist, ist äußerst klein. Wenn der Erkenner für jede<br />
Komponente eine n-besten Hypothesenliste liefert, dann ist zu erwarten,<br />
daß die richtige Hypothese im Schnitt einen besseren Rang hat als der
27.3 Beispiel: Adressenerkennung 441<br />
Bekannte Komponenten Anzahl möglicher restlicher Adressen<br />
keine 38114 164<br />
Postleitzahl 11006<br />
Postleitzahl + Hausnummer 3930<br />
Nachnahme 14097<br />
Tabelle 27.1. Perplexitätsreduktion durch vorgegebene Adressenkomponenten<br />
Durchschnitt, also in der besseren Hälfte der n-besten Liste zu finden ist.<br />
Wenn pi(j) die Wahrscheinlichkeit dafür ist, daß das Vokabularwort wj<br />
die Hypothese für die i-te Adreßkompontente ist, dann erhalten wir für die<br />
aus k Komponenten bestehende Gesamthypothese<br />
argmax<br />
j1,j2,...,jk i=1<br />
k<br />
pi(ji) (27.1)<br />
Da es sich bei den pi(j) meistens um Dichten handelt bietet es sich an,<br />
alternativ statt der Dichtewerte den Rang ri(j) für das Wort wj innerhalb<br />
der n-besten Liste der i-ten Komponente zu verwenden und dann<br />
argmin<br />
j1,j2,...,jk i=1<br />
oder<br />
argmin<br />
j1,j2,...,jk<br />
k<br />
ri(ji) (27.2)<br />
k<br />
ri(ji) (27.3)<br />
i=1<br />
oder eine ähnliche Formulierung für die Gesamthypothese zu verwenden.<br />
Zweite Vorgehensweise:<br />
Eine zweite Vorgehensweise ist möglich, insbesondere dann, wenn die<br />
Menge der in Frage kommenden Adressen vor der Erkennung deutlich eingeschränkt<br />
werden kann. Dann ist es möglich, eine kontextfreie Grammatik zu<br />
definieren, die alle erwarteten Adressen abdeckt. Für alle ca. 40 Millionen<br />
Adressen aus allen deutschen Telefonbüchern würde diese Grammatik riesige<br />
Ausmaße annehmen. Wenn es aber möglich ist, weitere Hilfsmittel zu Rate<br />
zu ziehen, wie zum Beispiel die automatisch ermittelbare Rufnummer des<br />
Anrufers, oder zumindest die Vorwahl, oder wenn durch die Natur des angebotenen<br />
Telefondienstes nicht alle möglichen Adressen in Frage kommen, so<br />
daß die zu erzeugende kontextfreie Grammatik ausreichend kompakt ausfällt,<br />
dann kann man einen reinen HMM-Erkenner auf dem durch die Grammatik
442 27. Entwicklung von Anwendungen<br />
definierten Zustandsraum laufen lassen. Je größer dieser Zustandsraum<br />
ist, umso mehr wird es nötig sein, diesen zu beschneiden. Ein geeigneter<br />
Kompromiß zwischen dem Anteil der zuverlässig erkannten Adressen und<br />
dem dafür benötigten Zeitaufwand muß dann je nach Anwendung gefunden<br />
werden.<br />
Dritte Vorgehensweise:<br />
Es ist möglich verschiedene Spezialerkenner neben einem gewöhnlichen<br />
allgemeinen HMM-Erkenner für kontinuierliche Sprache einzusetzen. So<br />
bietet es sich gerade für Adressenerkennung an, besondere Systeme für das<br />
Verstehen von Buchstabiersequenzen [?] und Zahlen zu verwenden. In einem<br />
ersten Schritt müssen in der Aufnahme die Passagen detektiert werden, in<br />
denen buchstabiert wird oder Zahlen gesprochen werden. Dies kann zum<br />
Beispiel durch Vergleich der Konfidenzmaße des Allgemeinerkenners mit<br />
den entsprechenden Maßen der Spezialerkenner geschehen. Wir erwarten<br />
dann auf den Passagen, in denen Zahlen gesprochen werden ein besonders<br />
gutes Verhältnis der Konfidenz des Zahlenerkenners zur Konfidenz des<br />
Allgemeinerkenners. Ähnlich ist es auch bei Buchtabiersequenzen. Die<br />
Erkennungsleistung spezialisierter Erkenner auf den für sie vorgesehenen<br />
Daten ist meist deutlich besser als die eines allgemeinen Erkenners. Wenn<br />
erst einmal auf diese Art die Postleitzahl einer Adresse erkannt ist, kann<br />
dann der Suchraum für die restlichen Komponenten einer Adresse drastisch<br />
reduziert werden. Dabei können auch erkannte Buchstabensequenzen zu<br />
Hilfe genommen werden.<br />
Diese schrittweise Reduzierung des Suchraums kann auf unterschiedlichen<br />
Wegen geschehen. So kann, wenn statt der Postleitzahl der Nachname oder<br />
eine andere Komponente konfident erkannt wurde diese zur Verkleinerung<br />
des Suchraums verwendet werden und die weniger konfidenten Komponenten<br />
dann später bei kleinerem Suchraum mit weniger Verwechslungsgefahr<br />
erkannt werden.<br />
Schließlich bietet es sich an, mehrere der oben aufgeführten Vorgehensweisen<br />
parallel zu verwenden und so eine weitere Quelle zur Konfidenzsteigerung<br />
zu haben. Nur solche Aufnahmen, die nicht durch mindestens zwei Vorgehensweisen<br />
zu identischen Adressen erkannt werden, werden zur manuellen<br />
Transkription weitergereicht.
28. Der moderne Vortragsraum<br />
<strong>Kommunikation</strong> kann in verschiedene Bereiche unterteilt werden. Die<br />
Begriffe <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong> (MMK) und <strong>Mensch</strong>-<strong>Maschine</strong>-<br />
Interaktion umfassen eine große Zahl verschiedener Konzepte. Der wohl<br />
häufigste Kontext, in dem von MMK gesprochen wird, sind graphische<br />
und mechanische Benutzerschnittstellen. Benutzerschnittstellen können<br />
mehr oder weniger natürlich sein. Je natürlicher sie sein sollen, umso<br />
mehr perzeptive Fähigkeiten müssen sie haben. Der uns in diesem Kapitel<br />
interessierende Bereich ist derjenige, in dem es um die maschinenunterstützte<br />
<strong>Mensch</strong>-<strong>Mensch</strong>-<strong>Kommunikation</strong> geht. Dazu gehören zum Beispiel<br />
Sprachübersetzungssysteme [?] oder Verhandlungen unterstützende Systeme<br />
[?]. Zwei weitere wichtige Szenarien sind einmal Besprechungen und Diskussionen,<br />
zum anderen Vorträge und Vorlesungen.<br />
<strong>Kommunikation</strong><br />
<strong>Mensch</strong>-<strong>Mensch</strong> <strong>Mensch</strong>-<strong>Maschine</strong><br />
interaktiv nicht interaktiv interaktiv nicht interaktiv<br />
Verhandlungen,<br />
Besprechungen,<br />
Vorträge etc.<br />
klassisch, ohne<br />
<strong>Maschine</strong>n<br />
Fernsehen,<br />
Radio etc.<br />
komplexe<br />
Geräte,<br />
GUIs etc.<br />
mit maschineller Unterstützung<br />
moderner Vortragsraum<br />
Transkription,<br />
Diktieren etc.<br />
Abb. 28.1. Verschiedene Bereiche der (maschineninvolvierten) <strong>Kommunikation</strong>
444 28. Der moderne Vortragsraum<br />
Warum bieten sich gerade Vorträge und Vorlesungen als Einsatzgebiet<br />
der sprachlichen <strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong> an? Die zwei wichtigsten<br />
Motivationsgründe sind die Unterhaltung einer durchsuchbaren Datenbank<br />
und die ” Multimedialisierung“ von Vortragsräumen.<br />
” Es ist klar, was in der Informationsgesellschaft die knappste Ressource<br />
ist. Die menschliche Aufmerksamkeit.“ sagte einmal Herbert Simon, zu<br />
Lebzeiten Nobelpreisträger und Professor für Wirtschaftswissenschaften,<br />
Psychologie und Informatik an der Carnegie Mellon University in Pittsburgh,<br />
USA. Das Zitat faßt mehrere Forderungen an die <strong>Kommunikation</strong>stechnologie<br />
zusammen, Computer sollen ubiquitär sein, damit sie den <strong>Mensch</strong>en<br />
jederzeit und überall helfen können. Sie sollen pervasiv sein, also alle<br />
wichtigen Lebensbereiche durchdringen, und – ganz wichtig – sie sollen<br />
unsichtbar sein, also keine Aufmerksamkeit der Benutzer auf sich ziehen,<br />
sondern den <strong>Mensch</strong>en ermöglichen ihre gesamte Aufmerksamkeit den<br />
kommunizierten Inhalten sowie den anderen <strong>Mensch</strong>en, mit denen sie<br />
kommunizieren, zu widmen.<br />
Vorträge und Vorlesungen sind typische Ereignisse die als primäres Ziel<br />
die <strong>Kommunikation</strong> zwischen <strong>Mensch</strong>en haben. Ein moderner Vortragsraum<br />
sollte dafür sorgen, daß diese <strong>Kommunikation</strong> möglichst effizient und<br />
problemlos durchgeführt werden kann.<br />
28.1 Die Rolle der Spracherkennung<br />
Ein moderner Vortragsraum sollte ein multimodales System sein, das alle<br />
natürlichen <strong>Kommunikation</strong>sarten unterstützt. Die Sprache darf dabei<br />
nicht isoliert behandelt werden, sondern sie muß zusammen mit anderen<br />
Modalitäten interpretiert werden. Da Sprache aber zweifellos die einfachste<br />
und schnellste <strong>Kommunikation</strong>sart für komplizierte Sachverhalte ist, übernimmt<br />
sie in einem intelligenten interaktiven Raum die wichtigste Rolle<br />
unter den Modalitäten. In einem interaktiven Vortragsraum gibt es im<br />
wesentlichen drei verschiedene Arten von Sprache. Die erste ist solche, die<br />
direkt an den Raum gerichtet ist und Kommandos oder Anfragen an den<br />
Raum enthält oder Teil eines Dialogs mit dem Raum ist. Diese Sprache<br />
muß zwar nicht perfekt erkannt werden, aber dennoch nahezu perfekt<br />
verstanden werden. Erkennungsfehler sind weniger wichtig, wenn das System<br />
das gesagte dennoch versteht. Die zweite Art ist die Vortragssprache, also<br />
das, was der Redner über sein Thema erzählt. Diese Sprache muß weder<br />
perfekt erkannt noch verstanden werden. Es genügt, wenn die wichtigsten<br />
Inhalte erkannt werden, damit der Raum in der Lage ist, dem Vortrag zu<br />
folgen und abschätzen zu können, in welchem Stadium sich der Vortrag
28.1 Die Rolle der Spracherkennung 445<br />
befindet, und damit er nach dem Vortrag eine kurze Zusammenfassung für<br />
die Vortragsdatenbank generieren kann. Die dritte Art der Sprache ist die,<br />
die der Raum möglichst überhören sollte, also solche, bei der sich Benutzer<br />
des Raumes miteinander unterhalten.<br />
28.1.1 Automatische Bedienung der Medien<br />
Der Begriff ” Vorlesung“ stammt noch aus einer Zeit, in der Studenten und<br />
ein Dozent zusammenkamen. Die verwendeten Medien – sofern überhaupt<br />
welche verwendet wurden und nicht völlig freihändig vorgetragen wurde –<br />
bestanden aus einem handgeschriebenen Buch, das sehr schwer erhältlich<br />
war und nur mit sehr viel Aufwand reproduziert werden konnten. Und weil<br />
gleichzeitiges Lesen von vielen Personen in einem Buch sehr umständlich<br />
ist, wurde eben von einer Person vorgelesen, daher auch die Bezeichnung<br />
Vorlesung.<br />
Inzwischen sind die bei Vorlesungen verwendeten Medien viel leichter<br />
kopierbar. Oft sind sie sogar nahezu kostenlos aus dem Internet erhältlich.<br />
Sie sind nicht mehr handschriftlich sondern meist farbig und oft auch<br />
animiert. Trotz der einfachen Verfügbarkeit gibt es immer noch Vorlesungen.<br />
Ein wichtiger Grund, warum das Publikum immer noch zu Vorlesungen<br />
kommt ist die Unmittelbarkeit des Kontaktes zum Vortragenden und auch<br />
die Möglichkeit Zwischenfragen zu stellen. Zweifelsohne erfüllen Vorlesungen<br />
und Vorträge nicht nur den Zweck der Informationsvermittlung sondern vor<br />
allem auch einen sozialen Zweck, der im wesentlichen aus der Interaktion<br />
sowohl zwischen den Zuhörern und den Vortragenden als auch zwischen den<br />
Zuhörern untereinander besteht.<br />
Wenn wir die Entwicklung von Vorträgen und Vorlesungen über die Zeit<br />
extrapolieren, dann können wir erwarten, daß die Medien in Zukunft noch<br />
multimedialer werden. Sie werden immer mehr Video- und Audio-Dokumente<br />
und sogar interaktive Komponenten enthalten. Dieses wird insbesondere für<br />
die Vortragenden zweierlei Probleme mit sich bringen. Zum einen wird die<br />
Durchführung des Vortrags selbst komplizierter, zum anderen werden dafür of<br />
technische Geräte verwendet werden müssen, mit denen der Redner oft nicht<br />
vertraut ist. Daher sollte zu den zukünftigen Aufgaben eines Vortragsraumes<br />
neben dem Angebot technischer Geräte wie Projektoren, Lautsprecher, Videoabspielgeräte,<br />
Beleuchtung und Verdunkelung und Internet-Browser auch<br />
die Unterstützung der Anwesenden bei der Benutzung dieser Geräte gehören.<br />
Die ersten Schritte in Richtung eines intelligenten interaktiven Vortragsraumes<br />
bestehen darin einen einfachen Dialog zur Bedienung der<br />
wichtigsten Geräte anzubieten sowie das Weiterschalten der Vortragsfolien
446 28. Der moderne Vortragsraum<br />
zu übernehmen. Dazu gehören Benutzerkommandos wie ” Spiel dieses Video<br />
ab!“, “Könnten wir es etwas dunkler haben?“, oder “Wo ist der VGA-Stecker<br />
für den Projektor“. Solche Kommandos können teilweise sofort ausgeführt<br />
werden (Licht geht aus) oder einfach beantwortet werden (“Der Stecker liegt<br />
rechts auf dem Rednerpult.“), oder es wird etwas Unklares im Dialog geklärt<br />
( ” Welches Video meinen Sie?“).<br />
28.1.2 Verfolgen von Vorträgen<br />
Für die Archivierung von Vorträgen ist es weniger wichtig, daß das System<br />
das Gesprochene den einzelnen Folien oder sonstigen Präsentationsdokumenten<br />
exakt zuordnen kann. Es kann ja einfach mitprotokollieren zu<br />
welchem Zeitpunkt welche Folie aufgelegt war. So ist es dann nicht mehr<br />
schwierig eine Datenbasis (s. Abb. 28.2) anzulegen. Während des Vortrags<br />
ist es allerdings nötig, daß der Vortragsraum weiß, worüber der Redner<br />
gerade spricht, zum einen um so abhängig vom aktuellen Kontext passende<br />
Dienste anbieten zu können bzw. angeforderte Dienste richtig zu verstehen,<br />
und zum anderen um bei Bedarf automatisch Folien umzuschalten, Videos<br />
abzuspielen, Dokumente aus dem Internet zu besorgen und anzuzeigen.<br />
MY NAME IS *(IVI-<br />
CA) *(ROGINA)<br />
AND I WOULD LIKE<br />
TO INTRODUCE<br />
YOU TO THE<br />
*(INTERACTIVE) ...<br />
SPEAKING<br />
MAKING<br />
*(GESTURES)<br />
*(HAND-<br />
WRITING)<br />
EXPRESSING<br />
*(EMOTIONS)<br />
GIVING...<br />
HORSE<br />
BEACH<br />
*(RECO-<br />
GNITION)<br />
*(TOOLKIT)<br />
*(JANUS)<br />
+BREATH+<br />
HAS BEEN<br />
*(BENCH-<br />
MARKED)<br />
AT ...<br />
Abb. 28.2. Synchronisierung von Folien mit Erkennerhypothesen<br />
Das automatische Weiterschalten der Folien ist für einfache ” linear<br />
strukturierte“ Vorträge zunächst nur ein kleine Erleichterung für den<br />
Vortragenden. Wenn allerdings die Vorträge komplizierter und weniger linear
28.1 Die Rolle der Spracherkennung 447<br />
werden, wenn Folien nicht mehr linear durchgearbeitet werden oder wenn sie<br />
mit Bezug auf den Inhalt referenziert werden (zum Beispiel kann der Benutzer<br />
sagen “Zeige noch einmal die Folie mit der Tabelle mit den Ergebnissen der<br />
Experimente!“), dann kann dieser Dienst des Vortragsraumes noch hilfreicher<br />
sein. Die Entscheidung, ob eine neue Folie angezeigt werden soll, kann auf<br />
zwei Informationen basieren: Einmal die aktuelle Phase des Vortrags (welche<br />
Teile wurden schon bearbeitet, welche stehen bevor, worüber redet der Vortragende<br />
gerade) und zum anderen durch spezielle Auslöser, also bestimmte<br />
Wörter oder Phrasen, die eine bestimmte Folie mit großer Wahrscheinlichkeit<br />
identifizieren. Das können Wörter oder Wortfolgen aus der Folienüberschrift<br />
sein, oder Wörter, die nur auf einer einzigen Folie auftauchen beziehungsweise<br />
einen sehr hohen tfidf-Wert bezüglich einer Folie als Dokument haben.<br />
Unter der Voraussetzung, daß die vorgesehene Reihenfolge der Folien<br />
bekannt ist, kann eine Zuordnung der aktuellen Äußerung des Vortragenden<br />
zu einer Folie mit Hilfe eines DP-Algorithmus bestimmt werden. Dabei<br />
werden die vom Spracherkenner hypothetisierten Wörter mit denen auf<br />
den Folien verglichen (der Vergleich kann durchaus ” fuzzy“ stattfinden,<br />
so daß Wörter dennoch als ähnlich angesehen werden, auch wenn sie<br />
sich in ihre Flexionsform oder Zusammensetzung unterscheiden. Andere<br />
Ähnlichkeitskriterien wie bei der HDLA (s. Abs. 16.7.2) sind auch sinnvoll.<br />
Unter Berücksichtigung alles bis zu einem Zeitpunkt Gesagten kann ein<br />
Viterbi-Pfad berechnet werden, aus dem hervorgeht, welche Folie die zu<br />
diesem Zeitpunkt wahrscheinlichste ist. Der Anteil der Zeit, während der<br />
sich das System irrt und eine falsche Folie annimmt wird als Tracking-Fehler<br />
bezeichnet (engl. to track = verfolgen). In Abb. 28.3 zeigt der obere Balken<br />
der tatsächlichen zeitlichen Verlauf der benutzten Folien eines Vortrags,<br />
darunter die angenommenen Folien des Systems (nur aus den Hypothesen<br />
des Erkenners gefolgert). Die hellgrauen Bereiche sind diejenigen, in denen<br />
das System richtig liegt, die dunkelgrauen Bereiche sind die Tracking Fehler.<br />
Abb. 28.3. Tracking-Fehler
448 28. Der moderne Vortragsraum<br />
In [?] wird ein Tracking-Fehler einer einfachen Viterbi-Pfad-Berechnung<br />
um ca. 30% angegeben. Wird die Information des Viterbi-Pfades mit der<br />
Heuristik der Auslösewörter kombiniert kann diese auf ca. 5% gesenkt werden.<br />
28.1.3 Verwalten einer Vortragsdatenbank<br />
Im Hinblick darauf, daß Lerninhalte aus Vorlesungen und Informationen<br />
aus Vorträgen immer mehr über Datennetze verbreitet und gesucht werden,<br />
sollte eine sehr wichtige Aufgabe eines modernen Vortragsraums das Angebot<br />
eines Dienstes zur Archivierung von Vorträgen und Präsentationen und vor<br />
allem zum Suchen und Wiederfinden archivierter Vorträge sein. In [?] werden<br />
Arbeiten zum Archivieren und wiederfinden von Besprechungen vorgestellt.<br />
Die gleiche Vorgehensweise kann auch für Vorträge angewandt werden.<br />
28.2 Verfolgen eines Laserpointers<br />
Seit es die so genannten Laserpointer günstig zu kaufen gibt und diese<br />
kaum noch gefährlich sind, werden sie gerne an Stelle eines Zeigestockes<br />
während Präsentationen verwendet. Die Detektion eines Laserpointers auf<br />
der projizierten Präsentation kann für verschiedene Zwecke genutzt werden:<br />
Dies sind Unterstüzung des Vortragsverfolgers, Steuerung einer intelligenten<br />
Kamera, Verwendung lebendiger interaktiver ” Präsentationsfolien“, Interaktion<br />
mit dem Publikum. Diese werden im folgenden etwas näher beleuchtet:<br />
Wo möglich, läßt sich der Vortragsraum gleich mit einer kalibrierten<br />
Kamera ausstatten. Oft ist es aber so, daß ein Redner seinen ” eigenen kleinen<br />
Vortragsraum“ mit sich in seinem Notebook-Computer zu den Ereignissen<br />
trägt, bei denen er eine Präsentation geben möchte. Für solche Fälle muß<br />
das System zumindest ein wenig auf die wechselnde Umgebung adaptiert<br />
werden. Dies gilt sowohl für die akustischen Gegebenheiten aber auch für die<br />
Einstellungen der Video-Kamera. Die in allen Fällen bequemste Methode<br />
besteht darin, eine einfache Webcam auf die Projektionsfläche zu richten<br />
und die Kalibrierung vollautomatisch durchführen zu lassen.<br />
Zu dieser Kalibrierung gehören zum einen die Anpassung an die<br />
Lichtverhältnisse, zum anderen das Erkennen der Projektionsfläche auf dem<br />
Videobild. Ist die Projektionsfläche erst einmal erkannt, dann gilt es noch aus<br />
der Position des detektierten Laserpointers auf dem Videobild die entsprechende<br />
Position auf der Folie zu berechnen. Hierbei kann man im allgemeinen<br />
kaum hilfreiche Annahmen über die Projektion und deren Videoaufnahme<br />
machen. Manche Projektionen sind schon auf der Wand eher ein Trapez als
28.2 Verfolgen eines Laserpointers 449<br />
ein Rechteck. Zusätzlich ist oft die Projektionsfläche nicht vollständig senkrecht,<br />
und die Kamera kann auch nicht immer zentral im optimalen Abstand<br />
vor ihr positioniert werden. So kann man bestenfalls annehmen, daß das Bild<br />
der Projektionsfläche im Video zumindest ein Viereck darstellt (s. Abb. 28.4).<br />
Abb. 28.4. Beispielaufnahmen von Projektionsflächen<br />
In Abb. 28.5 ist eine Beispielaufnahme skizziert. Das Kamerabild ist die<br />
grau unterlegte Fläche. Die Präsentation ist durch die Punkte A, B, C und<br />
D begrenzt. Wird an der Stelle Q ein Laserpointer detektiert, dann sind<br />
die eigentlichen Koordinaten auf der Präsentation durch die Werte α und β<br />
geben, die wie folgt berechnet werden:<br />
A + α · (D − A) = Q + γ1 · (E − Q)<br />
D + α · (C − D) = Q + γ2 · (F − Q) (28.1)<br />
Genauer wird die Positionsbestimmung, wenn zusätzlich mögliche<br />
Krümmungen der Aufnahme der Projektion durch die Optik des Projektors<br />
oder der Kamera oder auch durch die Krümmung der Projektionswand<br />
berücksichtigt wird. In der Regel reicht die Auflösung einer einfachen
450 28. Der moderne Vortragsraum<br />
E<br />
Abb. 28.5. Berechnen der Position des Laserpointers auf der Folie<br />
Webcam nicht aus, um beliebig komplizierte Krümmungen zu schätzen.<br />
Allerdings ist der einfachste Schritt schon hilfreich, bei dem angenommen<br />
wird, daß die Ränder der Projektion als Kreisbögen darstellbar sind (vgl.<br />
Abb. 28.6, bei der das graue Rechteck das Kamerabild darstellt und die<br />
weiße gekrümmte Fläche die Folienprojektion). Dann kann man ähnlich wie<br />
bei Gl. 28.1 statt den Winkel zwischen den horizontalen Kanten, den Anteil<br />
des horizontalen “Halbmondes“ E − Q − F (unterbrochene Linien durch den<br />
Laserpunkt) am gesamten Halbmond, der durch die beiden Kreise K oben<br />
und K unten definiert wird, die relative vertikale Position des Laserpunktes<br />
berechnen.<br />
Eine sehr sinnvolle Anwendung für die Verfolgung eines Laserpointers<br />
ist die Positionierung eines Markierers. Laserpointer werden meist nur dazu<br />
verwendet, die Aufmerksamkeit des Publikums auf eine bestimmte Stelle<br />
der Projektion zu lenken. Leider ist es oft so, daß ein Zuhörer eine gewisse<br />
Reaktionszeit hat, um festzustellen, daß überhaupt ein Laserpointer auf die<br />
A<br />
D<br />
α<br />
β<br />
F<br />
Q<br />
C<br />
B
E<br />
K oben<br />
Q<br />
K rechts<br />
K unten<br />
H horiz<br />
H vert<br />
28.2 Verfolgen eines Laserpointers 451<br />
F<br />
G<br />
H<br />
K links<br />
Abb. 28.6. Positionsbestimmung bei zusätzlicher optischer Krümmung<br />
Projektion gerichtet wird. Dessen Position ist dann meist so unstabil, daß er<br />
bevor der Zuhörer erkannt hat, was hervorgehoben werden soll, schon wieder<br />
ausgeschaltet ist. Um ihn sinnvoll als Zeigestockersatz einzusetzen, müßte<br />
seine Erscheinung deutlich größter sein, als eine Art Piktogramm erscheinen<br />
und wesentlich stabiler positioniert werden. Alle diese Forderungen lassen<br />
sich durch ein Laserverfolgungssystem realisieren. Auf die Stelle, an der<br />
der Laser erkannt wurde, kann ein Zeigepiktogramm in Form eines Fingers<br />
projiziert werden. Die Bewegung des Punktes, verursacht durch zittrige<br />
Hände, kann durch die Software ausgeglichen werden. Der Zeiger kann<br />
dann auf der gewünschten Position verbleiben, auch nachdem der Laser<br />
abgeschaltet wurde – so lange bis er explizit wieder aus der Projektionsfläche<br />
herausbewegt wird.<br />
Ähnlich wie die meisten Präsentationsprogramme die Möglichkeit bieten,<br />
in bestimmten kleinen Bereichen wie der linken unteren Ecke mit Hilfe einer<br />
Schaltfläche oder mit Hilfe von Funktionstasten die Erscheinung und Funk-
452 28. Der moderne Vortragsraum<br />
tion des (Maus-)Zeigers einzustellen, so kann auch mit den Laserpointer eine<br />
Funktion ausgewählt werden, die zum Beispiel zwischen Fingerpiktogramm,<br />
Zeichenstift, Pfeil, Vergrößerungsglas und ähnliches wechselt.<br />
28.2.1 Unterstützung des Vortragsverfolgers<br />
Wird der Laserpointer zum Markieren einer Textpassage auf der aktuellen<br />
Folie verwendet, so kann diese Information dafür nützlich sein, die erkannten<br />
Hypothesen des Spracherkenners genauer den einzelnen Teilen der Präsentation<br />
zuzuordnen.<br />
Steuerung einer intelligenten Kamera<br />
Zur Archivierung von Vorlesungen und Vorträgen ist es sinnvoll, nicht nur die<br />
Folien abzuspeichern, sondern auch noch die Audio- und Video-Aufnahmen.<br />
Optimal wären Videoaufnahmen, die so aussehen, wie sie ein menschlicher<br />
Kameramann aufnehmen würde. Das heißt insbesondere, daß die Zoom-<br />
Funktion auf Weitwinkel gestellt wird, wenn im Vortrag nichts Besonderes<br />
passiert, in den anderen Fällen sollte die meiste Zeit die Projektion gefilmt<br />
werden und gelegentlich auch auf den Sprecher geschwenkt werden. Wenn der<br />
Sprecher über einen bestimmten Teil der Projektion spricht, ist es sinnvoll,<br />
diesen Teil zu vergrößern. Ein solches Verhalten läßt sich zum größten<br />
Teil automatisieren. Wenn eine neue Folien aufgelegt wird, wird diese eine<br />
Zeitlang festgehalten. Wenn sie ausreichend lange zu sehen war, kann die<br />
Kamera hin und wieder für eine kurze Zeit auf das Gesicht oder den Körper<br />
des Vortragenden schwenken. Immer wenn anhand der Erkennerhypothese<br />
ein Bereich der Projektion angesprochen wird, und insbesondere dann,<br />
wenn mit dem Laserpointer auf die Projektion gezeigt wird, wird dieser<br />
Teil vergrößert angezeigt. Eine derartige Aufnahme ist viel angenehmer zu<br />
verfolgen als die Aufnahme einer statischen Kamera, die immer das gleiche<br />
Bild zeigt.<br />
Außer der Archivierung hat ein ” intelligentes Kameramodul“ als ganz<br />
besonders wichtiges Einsatzgebiet räumlich verteilte Vorträge, bei denen<br />
das ganze Publikum oder ein oder mehrere Teile des Publikums sich in<br />
anderen Räumen als im Vortragsraum befinden. So wurden in den Jahren<br />
der hohen Informatik-Studierendenzahlen (2000 und 2001) vom Autor an<br />
der Universität Karlsruhe Vorlesungen in Informatik für zeitweise über 700<br />
Studierende in mehreren Hörsälen gleichzeitig gehalten. An den Interactive<br />
Systems Labs, die sowohl an der Universität Karlsruhe als auch an der<br />
Carnegie Mellon University in Pittsburgh, USA, angesiedelt sind, werden<br />
regelmäßig transatlantische Seminare durchgeführt. Für solche akademische,<br />
aber auch für ähnliche Veranstaltungen bei kommerziellen Videokonferenzen
28.2 Verfolgen eines Laserpointers 453<br />
ist die Übermittlung der Position eines Laserpointers sehr hilfreich, nicht<br />
zuletzt deshalb weil außer dem Redner selbst auch jeder aus dem Publikum<br />
so kommunizieren kann.<br />
Interaktive Präsentationsfolien<br />
Ein Laserpointer kann auch als eine Art Ersatz-Mauszeiger verwendet<br />
werden. Dies ermöglicht es, interaktive Schaltflächen auf den Folien unterzubringen.<br />
Wird eine Schaltfläche mit dem Laserpointer ausgewählt und wird<br />
eine Zeitlang darauf gezeigt, so kann dies detektiert und eine entsprechende<br />
Aktion ausgelöst werden. Optimal ist diese Funktionalität, wenn sie mit der<br />
Verarbeitung der Spracherkennerhypothese kombiniert wird. So kann dann<br />
der Redner mit der Sprache die Aktion bestimmen und mit dem Laserpointer<br />
das dazugehörige Objekt auswählen. Zum Beispiel könnten auf einer Folie<br />
mehrere Videos aufgeführt sein. Der Sprecher kann dann sagen ” Spiel dieses<br />
Video ab.“ und dabei mit dem Pointer eines der Videos auswählen.<br />
Es ist sogar möglich, während der Präsentation in diese hineinzuzeichnen.<br />
Dazu ist nur nötig, das Präsentationsprogramm so zu modifizieren, daß es<br />
an den Stellen auf die der Pointer zeigt eine Spur hinterläßt. Sicher sind<br />
die allermeisten Redner nicht in der Lage, einen Laserpointer so exakt zu<br />
bewegen, daß damit etwas so Feines wie Handschrift gezeichnet werden kann.<br />
Aber für grobe Objekte wie Striche, Ovale oder einfache Symbole reicht die<br />
Zeigegenauigkeit normalerweise aus.<br />
Interaktion mit dem Publikum<br />
Während die meisten Projektoren heutzutage Infrarot-Fernbedienungen<br />
haben, die gleichzeitig als Funk-Mauszeiger für einen angeschlossenen<br />
Computer fungieren können. Allerdings funktioniert dies normalerweise nur<br />
durch Betätigen von Tasten oder eines Rollballes auf der Fernbedienung und<br />
nicht durch Zeigegesten. Ein Vorteil von Laserpointern ist die Tatsache, daß<br />
seine Benutzung viel eher einem verlängerten Arm oder einem Zeigestock<br />
ähnelt und somit viel natürlicher ist. Ein weiterer Vorteil besteht in der<br />
Universalität. Sie sind unabhängig von der restlichen Hardware des Vortragsraumes.<br />
Und als dritten Vorteil muß man schließlich noch die Möglichkeit<br />
nennen, daß sich auch Personen aus dem Publikum mit einem eigenen<br />
Laserpointer an der Interaktion mit der Präsentation beteiligen können.<br />
28.2.2 Algorithmen zur Detektion von Laserpointern<br />
Im allgemeinen kann man nicht davon ausgehen, daß die Hardware von<br />
Projektoren und Kameras in einem Vortragsraum so aufeinander abge-
454 28. Der moderne Vortragsraum<br />
stimmt sind und so miteinander verbunden sind, daß die Kamera die<br />
Besonderheiten der Projektion berücksichtigen kann. Solche Besonderheiten<br />
sind zum Beispiel die Bildwiederholfrequenz. Wer kennt nicht die rückwärts<br />
rollenden Wagenräder der Postkutschen aus alten Wildwestfilmen oder die<br />
dunklen Balken, die über einen abgefilmten Bildschirm wandern. Diese<br />
Effekte kommen von unterschiedlichen Bildraten in der Bilddarstellung und<br />
der Aufnahme. Die gleichen Probleme kann man auch beim Abfilmen von<br />
projizierten Präsentationen beobachten. Darüber hinaus gibt es eine Vielzahl<br />
verschiedener Projektoren. Einige haben für jede der drei Grundfarben eine<br />
eigene Linse und einen eigenen Teilprojektor, andere projizieren für jedes<br />
Bild drei aufeinanderfolgende Teilbilder, für jede Grundfarbe eines. So kann<br />
es durchaus vorkommen, daß auf der Videoaufnahme immer nur der Rot-,<br />
Grün- oder Blauanteil eines Bildes zu sehen ist, aber nie ein Bild mit allen<br />
drei Farben gleichzeitig. Bei anderen Projektoren kommt es vor, daß nur<br />
ein Teil des Bildes auf der Aufnahme zu sehen ist und nie das komplette Bild.<br />
Die zwei naheliegenden Lösungen für die genannten Probleme sind das<br />
zeitliche Glätten entweder durch einen Algorithmus der aus mehreren aufeinanderfolgenden<br />
Bildern ein geglättetes berechnet oder durch Verwenden<br />
einer relativ langen Belichtungszeit. Beide Varianten bringen allerdings<br />
weitere Probleme mit sich. Die meisten handelsüblichen Kameras haben<br />
nicht die Fähigkeit, die das menschliche Auge hat, für verschiedene Teile des<br />
Sichtfeldes unterschiedliche Lichtempfindlichkeiten einzustellen. Wählt man<br />
eine relativ kleine Lichtausbeute wird die Aufnahmequalität schlecht, läßt<br />
man die Lichtausbeute unverändert, wählt aber eine lange Belichtungszeit,<br />
so wird die Belichtungsfläche extrem stark ausgeleuchtet und die Unterschiede<br />
zwischen dem hellen Laserpunkt und der Projektion werden immer kleiner.<br />
Besonders hilfreich ist die Betrachtung von ” Delta-Bildern“. Die meiste<br />
Zeit eines Vortrags bleibt die Projektionsfläche unverändert. Unter der<br />
Annahme, das die Kameraeinstellung so vorgenommen wurden, daß Asynchronizitäten<br />
keinen Effekt auf die Aufnahme haben, gibt es vier verschiedene<br />
Arten der Bildänderung. Erstens den Wechsel der Lichtverhältnisse (Sonne,<br />
Raumbeleuchtung), zweitens Verdeckungen der Projektionsfläche durch Personen<br />
oder Gegenstände, drittens das Wechseln der Folien und viertens das<br />
Erscheinen, Bewegen oder Verschwinden eines Laserpointers. Folienwechsel<br />
kann das System direkt ohne den Umweg über die Kamera detektieren.<br />
Änderungen der Lichtverhältnisse sind grundsätzlich bei allen videobasierten<br />
kognitiven Systemen problematisch. Man begegnet ihnen meist mit Helligkeitsnormierungsverfahren.<br />
Beim Verfolgen von Laserpointern spielen solche<br />
Änderungen eine untergeordnete Rolle, ebenso wie temporäre Verdeckungen,<br />
da diese in den wenigsten Fällen auch nur annähernd punktförmig sind und<br />
sich meistens auch auf mehrere Farben und nicht nur auf die Farbe des
Lasers auswirken.<br />
28.3 Erkennung spontaner Vortragssprache 455<br />
Die meisten heutigen Laser haben ein rotes licht. Einige sind grün.<br />
Für solche Laser ist eine Detektion am einfachsten, indem die Differenz<br />
der Ableitung des Grünanteils und der Ableitung des Rotanteils betrachtet<br />
wird. Wenn ein Bildfolge gegeben ist als folge von RGB Werten<br />
{R1(x, y), G1(x, y), B1(x, y), . . . Rn(x, y), Gn(x, y), Bn(x, y)}, dann kann die<br />
Position eines erscheinenden oder gerade bewegten Lasers zum Zeitpunkt t<br />
bestimmt werden als:<br />
(ˆx, ˆy) = argmax<br />
(x,y)<br />
(Rt(x, y) − Rt−1(x, y))<br />
− (Gt(x, y) − Gt−1(x, y))<br />
− (Bt(x, y) − Bt−1(x, y))<br />
(28.2)<br />
Gl. 28.2 basiert auf der Annahme, daß ein Laserpunkt so hell und so rot<br />
ist, daß die anderen Farben im Verhältnis zum Rot extrem schwach vertreten<br />
sind. Mit den bekanten ” Pixel-Koordinaten“ (ˆx, ˆy) kann dann nach Gl. 28.1<br />
die Position auf der Präsentation berechnet werden.<br />
28.3 Erkennung spontaner Vortragssprache<br />
Vortragssprache ist nicht ganz so spontan wie die Sprache in Besprechungen<br />
oder Telefonaten zwischen einander bekannten Personen. Bei Vorträgen redet<br />
meistens nur eine Person, ein gleichzeitiges Sprechen mehrerer ist kaum zu<br />
erwarten. Der Vortragende hat den Vortrag meistens ein wenig vorbereitet,<br />
oft auch die Präsentationsfolien selbst erstellt, so daß die Vortragssprache<br />
einigermaßen geplant ist. Dennoch ist sie wesentlich spontaner als diktierte<br />
Sprache. Die Verwendung eines völlig unadaptierten Diktiersystems zur<br />
Transkription von Vorträgen führt zu sehr schlechten Erkennungsraten, die<br />
drei bis fünf mal höher liegen als für diktierte Sprache [?]. Und dies gilt<br />
für die Benutzung von Nahbesprechungsmikrophonen. Bei Verwendung von<br />
Kragenmikrophonen steigt die Fehlerrate noch zusätzlich. Bis heute sind<br />
dem Autor keine Studien bekannt, die untersuchen, wie sich die mögliche<br />
Anspannung des Redners vor einem großen Publikum auf die Aussprache<br />
und insbesondere auf die Qualität der Spracherkennung auswirken. Man<br />
kann aber sicherlich davon ausgehen, daß die Situation in der sich ein<br />
Vortragender befindet der Sicherheit und Sauberkeit der Aussprache nicht<br />
gerade dienlich ist.<br />
Ein weiteres Problem von Vorträgen ist, daß sie sich meist auf ein ganz<br />
speziellen Thema beziehen und dieses auch tiefgreifend behandeln. Die
456 28. Der moderne Vortragsraum<br />
meisten guten Spracherkenner sind im wesentlichen mit Nachrichtentexten<br />
und vorgelesenen Nachrichten trainiert, so daß die Inhalte von zum Beispiel<br />
wissenschaftlichen Vortragen sehr schlecht darauf passen.<br />
Problematisch ist sehr wohl auch die Tatsache, daß oft keine Nahbesprechungsmikrophone<br />
verwendet werden. Ohne Adaption kann die Fehlerraten<br />
von Diktiererkennern auf Konferenzvorträgen bei über 90% liegen. Zu dieser<br />
großen Menge Fehler führt auch die größtenteils schlechte englische Aussprache<br />
von Nicht-Muttersprachlern. Eine deutliche Reduktion der Fehler auf ca.<br />
40% ist durch den Einsatz von MLLR-Adaption und Sprachmodelladaption<br />
möglich. Diese immer noch recht hohen Fehlerraten illustrieren deutlich wie<br />
problematisch Vortragssprache sein kann.<br />
28.3.1 Adaption des Sprachmodells<br />
Wenn Spracherkenner gute Erkennungsleistungen erbringen sollen, sind sie<br />
in der Regel auf irgend eine Art auf die Erkennungsaufgabe eingestellt. Auch<br />
wenn heute die Entwicklung immer mehr in Richtung sprecherunabhängiger<br />
Erkennung ganz ohne Einlernphase geht, so machen sprecherabhängige Erkenner<br />
immer noch wesentlich weniger Fehler. Aber nicht nur die Adaption<br />
an die akustischen Gegebenheiten ist hilfreich, sondern auch die Adaption<br />
des Sprachmodells. Gerade für die Schätzung von Sprachmodellparametern<br />
ist es sehr wichtig, daß eine große Menge an Textdaten existiert. Vorträge<br />
und Vorlesungen befassen sich oft mit wissenschaftlichen Themen, die man in<br />
den typischen Texten von Zeitungen nur sehr selten findet. Es ist viel leichter,<br />
riesige Mengen an politischen Nachrichtentexten zu sammeln als Texte über<br />
Spracherkennung. Selbst wenn man wissenschaftliche Abhandlungen als<br />
Quelle verwendet, so sind diese zwar sehr hilfreich bei der Erweiterung des<br />
Erkennervokabulars, aber der darin verwendete Sprachstil weicht sehr stark<br />
von der typischerweise recht spontanen Sprache eines Vortrags ab.<br />
Die häufigste Ausgangslage für einen intelligenten Vortragsraum ist die,<br />
daß das Thema des Vortrags und die Medien, die der Vortragende verwenden<br />
möchte, im voraus bekannt sind. Unter Umständen ” erfährt“ der Raum erst<br />
unmittelbar vor dem Vortrag, in dem Moment in dem der Redner seinen<br />
Notebook Computer anschließt, etwas über den Inhalt des Vortrags. Es ist<br />
nun wünschenswert, das ein Verfahren einsetzt, das mit Hilfe der wenigen<br />
Informationen, die es aus den Präsentationsfolien extrahieren kann, das<br />
Sprachmodell des Spracherkenners adaptiert. Da auf den Folien viel zu<br />
wenig Text steht, um damit robuste n-Gramme zu schätzen, benötigen wir<br />
also eine Ausgangslage, die auch mit sehr wenig Daten leicht und schnell<br />
adaptierbar ist.
28.3 Erkennung spontaner Vortragssprache 457<br />
Die Untersuchung der Präsentationsfolien und Dokumente verfolgt zwei<br />
Ziele. Das eine ist die Extraktion der wichtigen sinntragenden Wörter, das<br />
andere die Erzeugung einer textuellen Repräsentation (einfaches ASCII) der<br />
Dokumente, die dann dazu verwendet werden kann, eine Korrelation mit<br />
der Ausgabe des Spracherkenners zu berechnen. So weiß das System immer,<br />
über welchen Teil der Präsentation der Sprecher gerade spricht.<br />
Die extrahierten Wörter werden mit dem großen Hintergrundlexikon des<br />
Spracherkenners verglichen. Für jedes sinntragende Wort wird ein tfidf-Wert<br />
berechnet. Schließlich werden alle OOV-Wörter sowie die Wörter, deren<br />
tfidf-Wert über dem Durchschnitt liegt, als ” wichtige“ Wörter angesehen.<br />
Danach wird jedes wichtige Wort aus den Präsentationsdokumenten für<br />
eine Anfrage bei einer Internet-Suchmaschine verwendet. Die höchstrangigen<br />
m WWW-Seiten werden heruntergeladen und analysiert. Alle Fünfgramme<br />
deren mittleres Wort ein wichtiges Wort ist, werden extrahiert und abgespeichert.<br />
Zusätzlich können Anfragen gemacht werden, in denen mehrere<br />
(eventuell alle) wichtigen Wörter vorkommen. Bei solchen Anfragen kann<br />
erwartet werden, daß die gefundenen WWW-Seiten eine größere Ähnlichkeit<br />
mit dem Thema des Vortrags haben.<br />
Das primäre Ziel des Entwurfs des Sprachmodells ist es, zu ermöglichen<br />
daß neue Wörter möglichst einfach integriert werden können. Dafür eignet<br />
sich ein klassenbasiertes Trigramm-Sprachmodell. In [?] wird das Basis-<br />
Sprachmodell nur auf einem Vokabular besteht aus den häufigsten 2/3 der<br />
Wörter des Trainingskorpus trainiert. Die selteneren 1/3 der Trainingswörter<br />
werden mit Hilfe eines Ballungsverfahrens [?] zu einer Menge von Wortklassen<br />
zusammengeballt. Aus der Sicht des Basis-Sprachmodells handelt es sich<br />
bei den Klassen also um Klassen von OOV-Wörtern.<br />
Von den Klassen werden nur die Z größten verwendet. Alle kleineren<br />
Klassen werden in der Annahme, sie könnten eventuell durch zu wenige<br />
Trainingsdaten schlecht geschätzt sein, verworfen. Daraufhin wird ein<br />
klassenbasiertes Sprachmodell, bestehend aus dem Basis-Sprachmodell und<br />
den Klassen, erzeugt.<br />
Die entstehenden Klassen enthalten typischerweise Wörter gleicher Wortart,<br />
oder gleicher Flexionsform, aber auch Namen von Personen oder auch<br />
thematisch zusammenhängende Wörter, wie zum Beispiel in Abb. 28.7.<br />
Ein solches Sprachmodell ist nun dazu vorbereitet, neue Wörter aufzunehmen,<br />
indem sie als zusätzliches Element in eine passende Klasse eingefügt<br />
werden. Das Finden einer passenden Klasse geschieht wie folgt:
458 28. Der moderne Vortragsraum<br />
KLASSE-30 = { ASTHMA TUBERCULOSIS DIABETES POLIO PNEUMONIA<br />
DIARRHEA CHOLERA RAPHAEL ALCOHOLISM HEPATITIS MALARIA OBESITY<br />
MEASLES DEHYDRATION SCHIZOPHRENIA INGENUITY NAUSEA ADVIL<br />
MALNUTRITION ALLERGIES VALIUM UNTREATED MELANOMA HERPES<br />
ACETAMINOPHEN DYSENTERY ULCER SYPHILIS OSTEOPOROSIS COLDS<br />
LONGEVITY VOMITING PEROXIDE FLASHBACKS LIGGETT MENINGITIS ALS<br />
DIZZINESS TREMORS INFLUENZA SOYBEANS INDIGESTION DIPHTHERIA<br />
INSOMNIA NUMBNESS BULIMIA DEMENTIA LUPUS SIRHAN MENOPAUSAL<br />
AFFECTIONS PIMPLES MAIM MARKIE CHLAMYDIA POLYGAMY }<br />
Abb. 28.7. Beispiel für eine Wortklasse im Sprachmodell von [RS01]<br />
Sei v ein Wort das in das Sprachmodell eingefügt werden soll, und sei<br />
Φ(w) der Index der Klasse in die das Nicht-OOV-Wort w gehört. Für jede<br />
Klasse c ∈ Z wird Φv c (w) definiert als:<br />
Φ v ⎧<br />
⎨Φ(w)<br />
w ∈ V<br />
c(w) = c w = v<br />
⎩<br />
Φ(UNK) sonst<br />
(28.3)<br />
p(w|Φ v ⎧<br />
⎪⎨<br />
p(OOVc|c) · p(v|OOVc) w = v<br />
c (w)) =<br />
⎪⎩ #(w)<br />
#(Instanzen in c)<br />
w ∈ V<br />
(28.4)<br />
wobei<br />
p(OOVc|c) =<br />
und<br />
p(v|OOVc) =<br />
#(OOV-Instanzen in c)<br />
#(alle Instanzen in c)<br />
1<br />
#(verschiedene OOV Wörter in c)<br />
(28.5)<br />
(28.6)<br />
ist annähernd die Wahrscheinlichkeit dafür das Wort v unter den OOV-<br />
Wörtern in c ist, unter der Annahme daß alle Wörter darin gleichverteilt<br />
sind.<br />
Ĉv = argmax c∈Z<br />
wobei H = Φ v c(w1), . . . Φ v c(wj−1)<br />
<br />
j p(wj|Φ v c (wj)) · p(Φ v c (wj)|H)<br />
(28.7)<br />
Hier steht wj für das j-te Wort eines Textes der aus der Konkatenation<br />
aus dem Internet heruntergeladener Dokumente, die v enthalten, besteht<br />
Während in Gl. 28.7, H im allgemeinen die gesamte Historie des Wortes wj
28.3 Erkennung spontaner Vortragssprache 459<br />
meint, ist es sinnvoll, die Historie auf Trigramme zu beschränken, um so eine<br />
Übereinstimmung mit dem Sprachmodell des Erkenners zu gewährleisten.<br />
Eine Erweiterung des Verfahrens besteht darin, in Gl. 28.7 nicht nur<br />
die beste Klasse zu berechnen, sondern die besten n Klassen. Das optimale<br />
Ergebnis kann meist dadurch erzielt werden, daß die wichtigen Wörter in<br />
die besten drei bis fünf Klassen eingefügt werden. Durch das Einfügen aller<br />
wichtigen Wörter, auch der Nicht-OOV-Wörter kommen letztere mehrfach<br />
im Sprachmodell vor, einmal als einzelnen Individuum und einmal als<br />
Element einer oder mehrerer Klassen. Dies ist durchaus sinnvoll, denn mache<br />
Fachwörter haben in Vorträgen eine besondere Semantik, die möglicherweise<br />
besser durch die OOV-Klasse erfaßt wird als durch die durchschnittliche<br />
Verwendung des Wortes in den Trainingsdaten des Basis-Modells.<br />
Die in [?] vorgestellen Experimente belegen, daß die Wortfehlerrate des<br />
Spracherkenners auf drei verschiedenen Vorträgen allein durch Hinzufügen<br />
der aus den Vortragsfolien extrahierten OOV-Wörtern (ca. 5% der Vortragssprache)<br />
deutlich gesenkt werden konnte. Das Hinzufügen der ohnehin schon<br />
im Vokabular vorhandenen wichtigen sinntragenden Wörter in ausgewählte<br />
Sprachmodellklassen konnte die Fehlerrate darüber hinaus noch weiter reduzieren<br />
(s. Tab. 28.1).<br />
Vortrag A B C<br />
Ausgangssystem 33.5% 43.7% 31.0%<br />
nur OOV-Wörter hinzugefügt 28.1% 39.7% 29.8%<br />
alle ” wichtigen Wörter“ hinzugefügt 26.8% 37.8% 27.6%<br />
Tabelle 28.1. Fehlerrate des Vortragsverfolgers ohne/mit Sprachmodelladaption<br />
Im gleichen Experiment konnte gezeigt werden, daß auch die Tracking-<br />
Fehlerrate des nicht adaptierten Systems von zwischen 31.8% und 34.7% auf<br />
27.8% bis 31.0% beim adaptierten System verbessert werden konnte.<br />
Für die Leistung eines Vortragsverfolgers ist es selbstverständlich von<br />
größter Bedeutung, wie umfangreich die Informationen auf den Vortragsfolien<br />
sind. Wenn sich dort im wesentlichen nur Bilder und kaum Text befinden,<br />
dann ist die Aufgabe wesentlich schwieriger. Je mehr Text auf den Folien<br />
ist, und je näher der gesprochene Vortrag an den Folien liegt, umso sicherer<br />
arbeitet das System.
460 28. Der moderne Vortragsraum<br />
28.4 Das FAME Projekt<br />
Das EU-Projekt FAME beschäftigt sich unter anderem auch mit intelligenten<br />
Vortragsräumen. Es ist ein sehr gutes Beispiel dafür, welche Probleme<br />
auftauchen und welche Lösungen benötigt werden, wenn mehrere <strong>Mensch</strong>en<br />
gemeinsam an einer Aufgabe in einem intelligenten Raum arbeiten. FAME<br />
steht für Facilitating Agent for Multicultural Exchange. Am Projekt sind<br />
sieben akademische und industrielle Partner aus vier europäischen Ländern<br />
beteiligt [?].<br />
28.4.1 Ziele des Projektes<br />
Auch wenn das Projekt über die Problemstellung eines Vortragsraumes<br />
weit hinausgeht, so bildet dieser doch einen integralen Bestandteil des<br />
Gesamtsystems. Man kann Vorträge als Spezialfall einer allgemeinen Besprechung,<br />
wie sie in FAME auch betrachtet wird, sehen. Die Unterschiede<br />
zwischen wissenschaftlichen Vorträgen und wissenschaftlichen Besprechungen<br />
beziehungsweise Arbeitssitzungen lassen sich im wesentlichen wie folgt<br />
zusammenfassen:<br />
• Organisation<br />
Vorträge sind wesentlich strukturierter als Besprechungen. Es gibt eine<br />
(selten mehr) herausragende Person, den Redner. Dessen Position im<br />
Raum ist in etwas vorherzusehen, so daß ein automatischer Kameramann<br />
ihn relativ einfach finden kann. Der Ablauf eines Vortrags folgt gewissen<br />
Regeln (Begrüßung Präsentation, Fragen und Antworten, Verabschiedung).<br />
• Mikrophone<br />
Bei Vorträgen kann eher vom Sprecher erwartet werden, daß er ein am<br />
Kopf befestigtes Nachbesprechungsbügelmikrophon verwendet. Dieses<br />
liefert eine deutliche höhere Signalqualität als entfernt positionierte<br />
Mikrophone, wie sie im Falle einer Besprechung oder Arbeitssitzung<br />
verwendet werden müßten.<br />
• Sprechstil<br />
Vortragssprache ist mehr geplant als Diskussionssprache. Nicht nur weil<br />
der Redner sich schon vor dem Vortrag Gedanken gemacht hat, sondern<br />
auch weil er beim Vortragen etwas langsamer spricht und jeder einzelne<br />
Satz ein wenig in Gedanken vorformuliert wird. Daher kann man davon
ausgehen, daß die Erkennung etwas einfacher ist.<br />
• gleichzeitiges Sprechen<br />
28.4 Das FAME Projekt 461<br />
Schon in einfachen Dialogen, aber erst recht bei hitzigen Diskussionen<br />
tauchen vermehr spontane Effekte auf, Sätze werden mitten im Wort<br />
abgebrochen, teilweise später wieder fortgesetzt. Teilnehmer unterbrechen<br />
andere beim Sprechen, oder mehrere Leute sprechen gleichzeitig. All diese<br />
Phänomene sind bei einem Vortrag nicht oder nur sehr selten zu erwarten.<br />
• Vokabular und Sprachmodell<br />
Selbst bei wissenschaftlichen Besprechungen orientiert sich das verwendete<br />
Vokabular mehr an der Alltagssprache als an der Schriftsprache. Dies<br />
ist bei Vorträgen etwas anders. Hier werden Fachbegriffe öfter in unabgekürzter<br />
und nicht umgangssprachlicher Form verwendet. Bestimmte<br />
in der Schrift typische Phrasen fließen in die Vortragssprache ein. Die<br />
Wahrscheinlichkeit der Wortfolgen läßt sich eher anhand wissenschaftlicher<br />
Abhandlungen und sogar anhand von Zeitungstexten modellieren als mit<br />
spontanen Dialogen.<br />
• Dokumente<br />
Ein wichtiger besonders hilfreicher Vorteil ist das Vorhandensein von<br />
Dokumenten, die im Vorfeld analysiert werden können und zu Adaption<br />
des Erkenners und des gesamten Systems verwendet werden können. Diese<br />
fehlen in der Regel bei Besprechungen.<br />
28.4.2 Die FAME Blackboard Architektur<br />
Abb. 28.8 zeigt einen Ausschnitt aus der Beschreibung der Funktionalität des<br />
intelligenten Vortragsraumes, wie er im FAME Projekt implementiert wurde.<br />
Der Kasten in der Mitte stellt ein schwarzes Brett (blackboard) dar, über<br />
das die darum herum angebrachten Agenten miteinander kommunizieren.<br />
Zu den zentralen Agenten gehört der Aufmerksamkeitsdetektor, dessen<br />
wichtigste Aufgabe darin besteht, festzustellen, welche Informationsströme<br />
für welche Agenten von Interesse sind. Wie weiter oben erläutern gibt<br />
es vier verschiedene Arten der Sprache. Es ist vor allem Aufgabe des<br />
Aufmerksamkeitsverfolgers zu entscheiden, um was für eine Art Sprache es<br />
sich handelt.
462 28. Der moderne Vortragsraum<br />
Vortragsverfolgung<br />
X10 Raumsteuerung<br />
allgemeiner<br />
Spracherkenner<br />
Vortragssprache<br />
Vortragszustand<br />
X10-<br />
Kommando<br />
spezialisierter<br />
Spracherkenner<br />
Audiosegmente<br />
allgemeine<br />
Hypothese<br />
spezielle<br />
Hypothese<br />
Objektverfolgung<br />
Personenverfolgung<br />
Objekte<br />
Raumsteuersprache<br />
Raumzustand<br />
InformationsbedarfS<br />
Informationretrieval<br />
Abb. 28.8. Die FAME Blackboard Architektur<br />
Dokumente<br />
Videostrom<br />
Personen<br />
Systemantwort<br />
Ausgabemanager<br />
intelligente<br />
Kamera<br />
Sprachsegmentierer<br />
Aufmerksamkeitsverfolgung<br />
Dialogsteuerung<br />
Die Unterscheidung zwischen einem Dialog mit dem Raum und einem<br />
Dialog mit dem Publikum beziehungsweise der Vortragssprache geschieht<br />
vor allem auf zwei Arten. Einmal die Analyse der Erkennerhypothese eines<br />
allgemeinen ” Mehrzweckerkenners“, die auf das Vorkommen bestimmter<br />
Phrasen untersucht wird, die aussehen wir Raumkommandos. Und als<br />
zweite Methode der Vergleich der Hypothese des ” Mehrzweckerkenners“ mit<br />
der Hypothese eines spezialisierten Erkenners, der mit einer kontextfreien<br />
Grammatik als Sprachmodell auf Raumkommandos spezialisiert ist. Es liegt<br />
in der Bauart des spezialisierten Erkenners, daß dieser immer ein Raumkommando<br />
erkennt, auch wenn der Redner gerade seinen Vortrag hält, weil das<br />
Sprachmodell nur Raumkommandos zuläßt. Wie Experimente gezeigt haben<br />
[?] kann aber die Korrelation zwischen der speziellen Hypothese und der<br />
Mehrzweckhypothese herangezogen werden, um zu entscheiden, ob es sich<br />
wirklich um ein Raumkommando handelt. Im positiven Fall ist zu erwarten,<br />
daß die Korrelation hoch ist, im negativen eher niedrig. Diese Zweiteilung<br />
der Erkenner geschieht vor allem, weil ein spezialisierter Erkenner wesentlich<br />
weniger Fehler auf den Äußerungen macht, die für ihn vorgesehen sind.<br />
Der Wunsch des Redners, das Licht zu dimmen, läuft im FAME Blackboard<br />
Modell so ab. Der Redner spricht die Äußerung ” Licht dimmen, bitte“
28.4 Das FAME Projekt 463<br />
in sein Nahbesprechungsmikrophon. Über die Soundkarte des Raum-PCs<br />
gelangt das Sprachsignal zum Segmentierer. Dieser ist ein Agent mit der<br />
Aufgabe, Audiosegmente, die Sprache enthalten, auf das schwarze Brett<br />
zu legen. Diese Segmente werden dann von allen Erkennern (gegebenenfalls<br />
können sogar Erkenner für verschiedene Sprachen vorhanden sein)<br />
gelesen, und jeder Erkenner legt seine Hypothese auf das schwarze Brett<br />
zurück. Diese Hypothesen werden dann zusammen mit Informationen über<br />
Personen und Objekte (zum Beispiel deren Identitäten und Positionen)<br />
dazu verwendet, zu entscheiden, ob eine Nachricht an den Vortragsverfolger<br />
( ” Vortragssprache“) oder an die Dialogsteuerung ( ” Raumsteuersprache“)<br />
geschickt wird. Im Falle der Vortragssprache übernimmt der Vortragsverfolger<br />
die weitere Verarbeitung wie oben beschrieben. Im Falle eine<br />
Dialogs mit dem Raum kann nun die Dialogsteuerung verschiedene Aktionen<br />
durchführen. Sie kann eine Systemantwort erzeugen, die dann zum Beispiel<br />
als synthetisierte Sprache über Lautsprecher ausgegeben wird, oder sie<br />
kann direkt Steuerbefehle (zum Beispiel mit Hilfe des standardisierten X10<br />
Protokolls) an die Raumsteuerhardware schicken, oder auch eine Nachricht<br />
an einen Information-Retrieval Agenten schicken mit der Anforderung nach<br />
bestimmten Dokumenten. Im angeführten Beispiel, würde die Dialogsteuerung<br />
vom Aufmerksamkeitsdetektor darüber informiert werden, daß ” Licht<br />
dimmen, bitte“ ein Raumsteuerbefehl war. Wenn klar ist, welches Licht<br />
gemeint ist, kann ein entsprechendes Kommando an den Dimmer geschickt<br />
werden. Andernfalls kann die Systemantwort ” Welches Licht?“ als Teil eines<br />
Klärungsdialogs ausgegeben werden.
Literaturverzeichnis<br />
[Abt98] Abt. Intelligentes Bedienterminal. Ausschreibung Diplomarbeit,<br />
http://www.ee.ethz.ch/abt/all-div.html, ETH Zürich, (EEK 16), 1998.<br />
[ADNS94] X. Aubert, C. Dugast, H. Ney und V. Steinbiss. Large Vocabulary<br />
Continuous Speech Recognition of Wall Street Journal Corpus. In Proc.<br />
IEEE International Conference on Acoustics, Speech, and Signal Processing,<br />
Band 2, S. 129–132. IEEE, April 1994, Adelaide, Australia.<br />
[AS67] B. Atal und M. Schroeder. Predictive Coding of Speech Signals. In<br />
Proceedings of the IEEE Conference on Communication and Processing, S. 360–<br />
361. IEEE, 1967.<br />
[BAB94] K. Berkling, T. Arai und E. Barnard. Analysis of Phoneme-based<br />
Features for Language Identification. In Proc. IEEE International Conference<br />
on Acoustics, Speech, and Signal Processing, S. 289–292, Adelaide, April 1994.<br />
IEEE.<br />
[Ber] K. Bernardin. Automatische Generierung Akustischer Spracheinheiten.<br />
Studienarbeit, Universität Karlsruhe (TH).<br />
[BFRB96] A. Berton, P. Fetter und P. Regel-Brietzmann. Compound Words<br />
in Large Vocabulary German Speech Recognition. In Proc. IEEE International<br />
Conference on Acoustics, Speech, and Signal Processing, 1996.<br />
[BGY + 00] M. Bett, H. Gross, X. Yu, Y. Zhu, Y. Pan, J. Yang und A. Waibel.<br />
Multimodal meeting tracker. In Proceedings of the RIAO, April 2000, Paris.<br />
[BH95] M. Betz und H. Hild. Language Models for a Spelled Letter Recognizer.<br />
In Proc. IEEE International Conference on Acoustics, Speech, and Signal<br />
Processing, S. 856–859. IEEE, Mai 1995, Detroit, USA.
466 Literaturverzeichnis<br />
[BMHW93a] C. Bregler, S. Manke, H. Hild und A. Waibel. Bimodal Sensor<br />
Integration on the Example of “Speech-Reading”. In Proc. International<br />
Conference on Neural Networks, S. 667–670. IEEE, März 1993, San Francisco.<br />
[BMHW93b] C. Bregler, S. Manke, H. Hild und A. Waibel. Improving<br />
Connected Letter Recognition by Lipreading. In Proc. IEEE International Conference<br />
on Acoustics, Speech, and Signal Processing, S. I–557–561. IEEE, April<br />
1993, Minneapolis.<br />
[BMSZ97] J. Billa, K. Ma, G. Siu und G. Zavaliagkos. Acoustic Modelling<br />
Work at BBN. In Proceedings of the Hub-5 Conversational Speech Recognition<br />
Workshop, Linthicum Heights, Maryland, November 1997. NIST.<br />
[BPBB88] D. Bodoff, B. Petajan, B. Bischoff und N. Brooke. An Improved<br />
Automatic Lip Reading System to Enhance Speech Recognition. ACM SIGCHI,<br />
1988.<br />
[CT65] J. W. Cooley und J. W. Tukey. An Algorithm for the Machine Calculation<br />
of Complex Fourier Series. Mathematics of Computation, 19:297–301,<br />
1965.<br />
[CT91] T. M. Cover und J. A. Thomas. Elements of Information Theory.<br />
John Wiley & Sons, Inc., New York, 1991.<br />
[Dau88] I. Daubechies. Orthonormal of Compactly Supported Wavelets. Comm.<br />
Pure Appl. Mathematics, 41:906–966, 1988.<br />
[DBB52] K. Davis, R. Biddulph und S. Balashek. Automatic Recognition of<br />
Spoken Digits. Journal of the Acoustic Society of America (JASA), 24:637–642,<br />
1952.<br />
[DDC99] K. Demuynck, J. Duchateau und D. V. Compernolle. Optimal<br />
Feature Sub-space Selection based on Discriminant Analysis. In EURO-<br />
SPEECH99, Band II, S. 1311–1314, September 1999, Budapest, Ungarn.<br />
[DGDP96] N. Deshmukh, R. Ganapathiraju, R. J. Duncan und J. Picone.<br />
Human Speech Recognition Performance on the 1995 HUB-3 Corpus. In<br />
DARPA Speech Recognition Workshop, S. 129–134. Morgan Kaufmann, Februar<br />
1996, Arden House, New York.
Literaturverzeichnis 467<br />
[DH73] R. O. Duda und P. E. Hart. Pattern Classification and Scene Analysis.<br />
John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Signapore, 1973.<br />
[DP96] S. Das und M. Picheny. Automatic Speech and Speaker Recognition: Advanced<br />
Topics, chapter 19: Issues in Practical Large Vocabulary Isolated Word<br />
Recognition: The IBM Tangora System. Kluwer Academic Publishers, 1996.<br />
[Dud] H. Dudley. The Vocoder. Bell Labs, Record 18, S. 122-126, 1937; später<br />
in R.W. Schafer und J.D. Markel: Speech Analysis, IEEE Press, 1997.<br />
[Dud39] H. Dudley. Remaking Speech. Journal of the Acoustic Society of America<br />
(JASA), 11:169–177, 1939.<br />
[EP95] W. J. Ebel und J. Picone. Human Speech Recognition Performance on<br />
the 1994 CSR Spoke 10 Corpus. In DARPA Speech Recognition Workshop, S.<br />
53–59. Morgan Kaufmann, Januar 1995, Austin, Texas.<br />
[FAM] FAME. Projekt der EU im Rahmen des 5. Rahmenprograms, IST. Im<br />
Internet: http://www.fame-project.org.<br />
[FF59] J. Forgie und C. Forgie. Results Obtained from a Vowel Recognition<br />
Computer Program. Journal of the Acoustic Society of America (JASA),<br />
31(11):1480–1489, 1959.<br />
[FG66] J. Flanagan und R. Golden. Phase Vocoder. Bell Systems Technology<br />
Journal, 45 S. 1493ff, 1066.<br />
[FGH + 97] M. Finke, P. Geutner, H. Hild, T. Kemp, K. Ries und M. Westphal.<br />
The Karlsruhe-Verbmobil Speech Recognition Engine. In Proc. IEEE<br />
International Conference on Acoustics, Speech, and Signal Processing, Band 1,<br />
S. 83–86. IEEE, April 1997, München.<br />
[For73] G. D. Forney, Jr. The Viterbi Algorithm. Proceedings of the IEEE,<br />
61(3):268–278, März 1973.<br />
[FR96] J. Fritsch und I. Rogina. The Bucket Box Intersection Algorithm for<br />
Fast Approximative Evaluation of Diagonal Mixture Gaussians. In Proc. IEEE<br />
International Conference on Acoustics, Speech, and Signal Processing. IEEE,<br />
Mai 1996, Atlanta, USA.
468 Literaturverzeichnis<br />
[FR97] M. Finke und I. Rogina. Wide Context Acoustic Modeling in Read<br />
vs. Spontaneous Speech. In Proc. IEEE International Conference on Acoustics,<br />
Speech, and Signal Processing, Band 3, S. 1743–1746. IEEE, April 1997,<br />
München.<br />
[FR00] C. Fuegen und I. Rogina. Integrating Dynamic Speech Modalities into<br />
Context Descition Trees. In Proc. IEEE International Conference on Acoustics,<br />
Speech, and Signal Processing. IEEE, 2000, Istanbul.<br />
[Fri95] J. Fritsch. Schnelle Vektorquantisierung durch Bucket Voronoi Intersection<br />
Suche. Studienarbeit, Universität Karlsruhe (TH), März 1995.<br />
[Fri99] J. Fritsch. Hierarchical Connectionist Acoustic Modelling for Domain-<br />
Adaptive Large Vocabulary Speech Recognition. Dissertation, Universität Karlsruhe,<br />
1999.<br />
[FRSW95] J. Fritsch, I. Rogina, T. Sloboda und A. Waibel. Speeding Up<br />
the Score Computation of HMM Speech Recognizers with the Bucket Voronoi<br />
Itersection Algorithm. In EUROSPEECH95, S. 1091–1094, Madrid, September<br />
1995.<br />
[Fry59] D. Fry. Theoretical Aspects of Mechanical Speech Recognition. Journal<br />
of the Britisch Institute for Radio Engineering, 19:211–219, 1959.<br />
[Fue98] C. Fuegen. Optimierung der Sprachmodellgewichtung mit Hilfe neuronaler<br />
Netze. Diplomarbeit, Universität Karlsruhe, 1998.<br />
[Fue99] C. Fuegen. Integration von situationsabhängigen Modalitäten in Kontextentscheungsbäume.<br />
Diplomarbeit, Universität Karlsruhe, November 1999.<br />
[FW97] M. Finke und A. Waibel. Flexible Transcription Alignment. In IEEE<br />
Workshop on Speech Recognition and Understanding, Dezember 1997, Santa<br />
Barbara, California.<br />
[FWS + 01] C. Fügen, M. Westphal, M. Schneider, T. Schultz und A. Waibel.<br />
LingWear: A Mobile Tourist Information System. In Proceedings of the of<br />
the First International Conference on Human Language Technology Conference<br />
(HLT), März 2001, San Diego.<br />
[Gal97] M. Gales. Semi-Tied Full-Covariance Matrices for Hidden Markov Modells.<br />
Technical Report CUED/F-INFENG/TR 287, Cambridge University,
Literaturverzeichnis 469<br />
Engineering Department, Trumpington Street, Cambridge CB2 1PC, England,<br />
April 1997.<br />
[GFW98] P. Geutner, M. Finke und A. Waibel. Phonetic-Distance-Based<br />
Hypothesis Driven Lexical Adaptation for Transcribing Multilingual Broadcast<br />
News. In ICSLP, 1998.<br />
[GFWW98] P. Geutner, P. Finke, M. Scheytt, A. Waibel und H. Wactlar.<br />
Transcribing Multilingual Broadcast New Using Hypothesis Driven Lexical<br />
Adaptation. In DARPA Broadcast News Transcription and Understanding<br />
Workshop, 1998, Lansdowne, Virginia.<br />
[Gro97] S. Gross. Entwicklung eines Spracherkenners fr die Kroatische Sprache<br />
im Rahmen des GlobalPhone Projekts. Studienarbeit, Universität Karlsruhe<br />
(TH), März 1997.<br />
[GYS89] M. Goldstein, B. Yuhas und T. Sejnowski. Integration of Acoustic<br />
and Visual Speech Signals Using Neural Networks. IEEE Communications,<br />
November 1989.<br />
[HAH + 92] X. Huang, F. Alleva, S. Hayamizu, H. Hon, M. Hwang und<br />
K. Lee. The SPHINX-II Speech Recognition System. Technical Report CMU-<br />
CS-92-112, Carnegie Mellon University, Pittsburgh, 1992.<br />
[HAJ90] X. Huang, Y. Ariki und M. D. Jack. Hidden Markov Models for<br />
Speech Recognition. Edinburgh University Press, 1990.<br />
[HFS93] M. M. Hochberg, J. T. Foote und H. F. Silverman. A Comparison<br />
of State-Duration Distributions for HMM-Based, Connected Speech Recognition.<br />
IEEE Transactions on Speech and Audio Processing, 1993.<br />
[HFW91] P. Haffner, M. Franzini und A. Waibel. Integrating Time Alignment<br />
and Neural Networks for High Performance Continuous Speech Recognition. In<br />
Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing.<br />
IEEE, Mai 1991.<br />
[HGD90] C. Hemphill, J. Godfrey und G. R. Doddington. The ATIS Spoken<br />
Language System Pilot Corpus. NIST-Disc CD5-1.1, 1990.<br />
[HH91] M.-Y. Hwang und X. Huang. Shared-Distribution Hidden Markov<br />
Models for Speech Recognition. Technical Report CMU-CS-91-124, School of<br />
Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, USA,<br />
April 1991.
470 Literaturverzeichnis<br />
[Hil03] A. Hildebrand. Rekombination von Komposita in der Spracherkennung.<br />
Studienarbeit, Universität Karlsruhe (TH), August 2003.<br />
[HL88] W. Huang und R. Lippmann. Neural Net and Traditional Classifiers. In<br />
D. Anderson, Herausgeber, Neural Information Processing Systems, S. 387–396.<br />
American Institute of Physics, New York, 1988.<br />
[HMR + ] A. Hauptmann, J. Mostow, S. Roth, M. Kane und A. Swift. A<br />
Prototype Reading Coach that Listens: Summary of Project LISTEN.<br />
[HNB + 02] A. Hauptmann, T. Ng, R. Baron, W. Lin, M. Chen, M. Derthick,<br />
M. Christel und R. Jin. Video Classification and Retrieval with<br />
the Informedia Digital Video Library System. In Text Retrieval Conference<br />
(TREC02), November 2002, Gaithersburg.<br />
[HRRK94] M. M. Hochberg, S. Renals, A. Robinson und D. Kerschaw.<br />
Large Vocabulary Continuous Speech Recognition Using a Hybrid<br />
Connectionist-HMM System. In Proceedings of the International Conference<br />
on Speech and Language Processing, S. 1499–1502, September 1994, Yokohama.<br />
[HW92] P. Haffner und A. Waibel. Multi-State Time Delay Neural Networks<br />
for Continuous Speech Recognition. In Advances in Neural Network Information<br />
Processing Systems (NIPS-4-). Morgan Kaufman, 1992.<br />
[HW95] H. Hild und A. Waibel. Integrating Spelling Into Spoken Dialogue<br />
Recognition. In EUROSPEECH’95 (4th European Conference on Speech Communication<br />
and Technology), S. 1977–1980. IEEE, September 1995, Madrid,<br />
Spain.<br />
[HW96] H. Hild und A. Waibel. Recognition of Spelled Names over the Telephone.<br />
In Proceedings Fourth International Conference on Speech and Language<br />
Processing, S. 346–349, Oktober 1996, Philadephia, USA.<br />
[HZ93] T. Hazen und V. Zue. Language Identification using a Segment-based<br />
Approach. S. 1303–1306, Berlin, 1993.<br />
[IM94] R. Isotani und S. Matsunaga. A Stochastic Language Model for Speech<br />
Recognition Integrating Local and Global Constraints. In Proc. IEEE International<br />
Conference on Acoustics, Speech, and Signal Processing, Mai 1994,<br />
Adelaide, Australia.
Literaturverzeichnis 471<br />
[Ita75] F. Itakura. Minimum Prediction Residual Principle Applied to Speech<br />
Recognition. In IEEE Transactions on Acoustic, Speech, Signal Processing,<br />
Band 23, S. 67–72, 1975.<br />
[JBM75] F. Jelinek, L. R. Bahl und R. L. Mercer. Design of a Linguistic Statistical<br />
Decoder for the Recognition of Continuous Speech. IEEE Transactions<br />
on Information Theory, 21(3):250–256, 1975.<br />
[Jed98] M. Jedamzik. Ein ergonomisches Dialogsystem zur Steuerung von technischen<br />
Systemen in Wohnbereichen. Ausschreibung Diplomarbeit, Universität<br />
Dortmund, (Projektgruppe 277), 1998.<br />
[KA98] N. Kumar und A. Andreou. Heteroscedastic Discriminant Analysis<br />
and Reduced Rank HMMs for Improved Speech Recognition. Speech Communication,<br />
26:86–96, 1998.<br />
[Kat03] M. Katzenmaier. Verfolgen der Sprecheraufmerksamkeit mit Hilfe der<br />
Ausgabe des Spracherkenners. Studienarbeit, Universität Karlsruhe (TH), Februar<br />
2003.<br />
[Kau99] S. Kaufmann. Ein sprachgesteuerter Videorecorder. rfe, Verlag Technik,<br />
Dezember 1999.<br />
[Kem95] T. Kemp. Data-Driven Codebook Adaptation in Phonetically Tied<br />
SCHMMs. In Proc. IEEE International Conference on Acoustics, Speech, and<br />
Signal Processing, Band 1, S. 377–479. IEEE, Mai 1995, Detroit, USA.<br />
[Kem99] T. Kemp. Ein Automatisches Indexierungssystem für Fernsehnachrichtensendungen.<br />
Dissertation, Universität Karlsruhe, Dezember 1999.<br />
[KGS + 98] T. Kemp, P. Geutner, M. Schmidt, B. Tomaz, M. Weber,<br />
M. Westphal und A. Waibel. The Interactive Systems Labs View4You<br />
Video Indexing System. In ICSLP, Dezember 1998, Sydney.<br />
[KJ96] T. Kemp und A. Jusek. Modelling Unknown Words in Spontaneous<br />
Speech. In Proc. IEEE International Conference on Acoustics, Speech, and<br />
Signal Processing. IEEE, 1996.<br />
[Kla77] D. Klatt. Review of the ARPA Speech Understanding Project. Journal<br />
of the Acoustic Society of America (JASA), 62:1345–1366, 1977. (Siehe auch<br />
[?], S. 554-575).
472 Literaturverzeichnis<br />
[Kle00] M. Klein. Ein auf Flexionsformen basierendes Sprachmodell. Studienarbeit,<br />
Universität Karlsruhe (TH), Mai 2000.<br />
[KN93] R. Kneser und H. Ney. Improved Clustering Techniques For Class-<br />
Based Statistical Language Modelling. In EUROSPEECH’93 (3rd European<br />
Conference on Speech Communication and Technology), S. 973–977, September<br />
1993, Berlin, Germany.<br />
[KN02] S. Kanthak und H. Ney. Context-Dependent Acoustic Modeling Using<br />
Graphemes for Large Vocabulary Speech Recognition. In ICASSP 2002. IEEE,<br />
2002, Orlando, Florida.<br />
[Koh77] K. Kohler. Einführung in die Phonetik des Deutschen. Erich Schmidt<br />
Verlag, Berlin, 1977.<br />
[KS73] D. Klatt und K. Stevens. On the Automatic Recognition of Continuous<br />
Speech: Implications from a Spectrogram Reading Experiment. IEEE<br />
Transactions on Audio Electroacoustics, 21:210–217, 1973.<br />
[KSS03] M. Killer, S. Stüker und T. Schultz. Grapheme Based Speech Recognition.<br />
In Eurospeech 2003, 2003, Genf.<br />
[Kuh99] U. Kuhlmann. Achtung Aufnahme: Der sprachgesteuerte Videorecorder.<br />
ct, Heise Verlag, 23, 1999.<br />
[KVY93] S. Kapadia, V. Valtchev und S. Young. MMI Training For Continuous<br />
Phoneme Recognition on the TIMIT Database. In Proc. IEEE International<br />
Conference on Acoustics, Speech, and Signal Processing. IEEE, April<br />
1993, Minneapolis.<br />
[KWW00] T. Kemp, M. Weber und A. Waibel. End-to-End Evaluation of the<br />
View4You Broadcast News Transcription System. In RIAO 2000, April 2000,<br />
Paris.<br />
[LA96] L. Lamel und G. Adda. On Designing Pronunciation Lexicons for Large<br />
Vocabulary, Continuous Speech Recognition. In Proceedings Fourth International<br />
Conference on Speech and Language Processing, Oktober 1996, Philadephia,<br />
USA.<br />
[LCVC93] P. Le Cerf und D. Van Compernolle. Speaker Independent Small<br />
Vocabulary Speech Recognition using MLPs for Phonetic Labelling. In EURO-
Literaturverzeichnis 473<br />
SPEECH’93 (3rd European Conference on Speech Communication and Technology),<br />
S. 143–146, September 1993, Berlin, Germany.<br />
[Lee88] K.-F. Lee. Large-Vocabulary Speaker-Independent Continuous Speech Recognition:<br />
The SPHINX System. CMU-CS-88-148, Carnegie Mellon University,<br />
Pittsburgh, PA, April 1988.<br />
[Lee89] K.-F. Lee. Automatic Speech Recognition: the Development of the<br />
SPHINX System. Kluwer Academic Publishers, Boston, 1989.<br />
[LG93] L. Lamel und J. Gauvain. Identifying Non-linguistic Speech Features.<br />
S. 23–30, Berlin, 1993.<br />
[Lic50] J. Licklider. The intelligibility of amplitude-dichotomized, time-quantized<br />
speech waves. J. Acoustic Am., 22:820–823, 1950.<br />
[Lip89] R. Lippmann. Review of Research on Neural Nets for Speech Recognition.<br />
Neural Computation, 1(1):1–38, März 1989. (Auch in [?], S. 374–392).<br />
[LM89] K.-F. Lee und S. Mahajan. Corrective and Reinforcement Learning for<br />
Speaker-Independent Continuous Speech Recognition. Technical Report CMU-<br />
CS-89-100, Carnegie Mellon University, Pittsburgh, PA 15213, Januar 1989.<br />
[LW94] C. Leggetter und P. Woodland. Speaker Adaptation of Continuous<br />
Density HMMs Using Linear Regression. In Proceedings of the International<br />
Conference on Speech and Language Processing, Band 2, S. 451–454, 1994, Yokohama.<br />
[LW95] C. Leggetter und P. Woodland. Maximum Likelihood Linear Regression<br />
for Speaker Adaptation of Continuous Density Hidden Markov Models.<br />
Computer Speech and Language, 9:171–185, 1995.<br />
[LWL + 97] A. Lavie, A. Waibel, L. Levin, M. Finke, D. Gates, M. Gavalda,<br />
T. Zeppenfeld und Z. Puming. JANUS-III: Speech-to-Speech Translation<br />
in Multiple Languages. In Proc. IEEE International Conference on Acoustics,<br />
Speech, and Signal Processing, Band 1, S. 99–102. IEEE, April 1997, München.<br />
[MA01] J. Mostow und G. Aist. Smart Machines in Education, chapter Evaluating<br />
tutors that listen: An overview of Project LISTEN, S. 169–234. MIT/AAAI<br />
Press, 2001.
474 Literaturverzeichnis<br />
[Mai94] M. Maier. Dimensionalitätsreduktion von Sprachsignalen mit statistischen<br />
und neuronalen Methoden. Diplomarbeit, Universität Karlsruhe, 1994.<br />
[Mak75] J. Makhoul. Linear Prediction: A Tutorial Review. Proceedings of the<br />
IEEE, 63(4):561–580, 1975.<br />
[MBA + 93] Y. Muthusamy, K. Berklinig, T. Arai, R. Cole und E. Barnard.<br />
Comparison of Approaches to Automatic Language Identification using<br />
Telephone Speech. S. 1307–1310, Berlin, 1993.<br />
[Mey93] Y. Meyer. Wavelets: Algorithms and Applications. Society for Industrial<br />
and Applied Mathematics, Philadelphia, S. 13–31,101–105, 1993.<br />
[MK00] F. Metze und T. Kemp. Das View4You-System: End-to-End Evaluation.<br />
In Proceedings of KONVENS 2000, Oktober 2000, Illmenau.<br />
[MM76] H. McGurk und J. MacDonald. Hearing Lips and Seeing Voices.<br />
Nature, 264, 1976.<br />
[Moh97] M. Mohri. Finite-State Transducers in Language and Speech Processing.<br />
Computational Linguistics, 23(2), 1997.<br />
[MP43] W. S. McCulloch und W. Pitts. A Logical Calculus of the Ideas<br />
Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5:115–<br />
133, 1943.<br />
[MP69] M. Minsky und S. Papert. Perceptrons: An Introduction to Computational<br />
Geometry. MIT Press, Cambridge, Mass., 1969.<br />
[MP89] K. Mase und A. Pentland. Lip Reading: Automatic Visual Recognition<br />
of Spoken Words. Image Understanding and Machine Vision, Optical Society<br />
of America, Juni 1989.<br />
[MVC90] W. Ma und D. Van Compernolle. TDNN Labeling for a HMM<br />
Recognizer. In Proc. IEEE International Conference on Acoustics, Speech, and<br />
Signal Processing, April 1990.<br />
[MW02] F. Metze und A. Waibel. A Flexible Stream Architecture for ASR<br />
Using Articulatory Features. In ICSLP, 2002, Denver.
Literaturverzeichnis 475<br />
[Nag85] H.-H. Nagel. Einführung in die Mustererkennung. Skriptum zur gleichnamigen<br />
Vorlesung an der TH Karlsruhe, 1985.<br />
[NBF + 73] A. Newell, J. Barnett, J. Forgie, C. Green, D. Klatt, J. Licklider,<br />
J. Munson, D. Reddy und W. Woods. Speech Understanding Systems:<br />
Final Report of a Study Group. North Holland / American Elsevier, 1973.<br />
[Nes] Nespole! Projekt der EU im Rahmen des 5. Rahmenprograms, IST. Im<br />
Internet: http://www.itc-irst.it/nespole/.<br />
[Ney84] H. Ney. The Use of a One-Stage Dynamic Programming Algorithm for<br />
Connected Word Recognition. In IEEE Transactions on Acoustics, Speech, and<br />
Signal Processing, S. 263–271. IEEE, April 1984. (Auch in [?], S. 188–196).<br />
[Ney91] H. Ney. Speech Recognition in a Neural Network Framework: Discriminative<br />
Training of Gaussians Models and Mixture Desnities as Radial Basis<br />
Functions. In Proc. IEEE International Conference on Acoustics, Speech, and<br />
Signal Processing. IEEE, 1991.<br />
[NF90] M. Niranjan und F. Fallside. Neural Networks and Radial Basis Functions<br />
in Classifying Static Speech Patterns. Computer Speech and Language,<br />
4:275–289, 1990.<br />
[OB56] H. Olson und H. Belar. Phonetic Typewriter. Journal of the Acoustic<br />
Society of America (JASA), 28(6):1072–1081, 1956.<br />
[Ode92] J. J. Odell. The Use of Decision Trees with Context Sensitive Phoneme<br />
Modelling. Diplomarbeit, Department of Engineering, Cambridge University,<br />
Cambridge, UK, August 1992.<br />
[Pal89] D. S. Pallett. Benchmark Tests for DARPA Resource Management Database<br />
Performance Evaluations. In Proceedings of the ICASSP 89, S. 536–593,<br />
Glasgow, 1989. IEEE.<br />
[Pal97] D. Pallet. Proceedings of the Hub-5 Conversational Speech Recognition<br />
Workshop. Linthicum Heights, Maryland, November 1997. NIST.<br />
[Pau92] D. B. Paul. An Efficient A* Stack Decoder Algorithm for Continuous<br />
Speech Recognition with a Stochastic Language Model. In Proc. IEEE International<br />
Conference on Acoustics, Speech, and Signal Processing, S. 25–28, San<br />
Francisco, März 1992. IEEE.
476 Literaturverzeichnis<br />
[PGF + 95] D. S. Pallett, F. J. G., W. M. Fisher, J. S. Garofolo, B. A.<br />
Lund, A. Marin und M. A. Przybocki. 1994 Benchmark Tests for the<br />
ARPA Spoken Language Programm. In ARPA Workshop on Spoken Language<br />
Systems Technology, S. 5–36. Morgan Kaufmann, Januar 1995, Austin, Texas.<br />
[Reg88] P. Regel. Akustisch-Phonetische Transkription für die automatische Spracherkennung.<br />
In Informatik/<strong>Kommunikation</strong>stechnik, Band 10. VDI Verlag,<br />
Düsseldorf, 1988.<br />
[RK91] P. Rentzepopoulos und G. Kokkinakis. Phoneme to Grapheme Conversion<br />
Using HMM. In EUROSPEECH91, Genua, September 1991.<br />
[RLRW79] L. Rabiner, S. Levinson, A. Rosenberg und J. Wilpon. Speaker-<br />
Independent Recognition of Isolated Words Using Clustering Techniques. In<br />
IEEE Transactions on Acoustic, Speech, Signal Processing, Band 27, S. 336–<br />
349, 1979.<br />
[Rog97a] I. Rogina. Automatic Architecture Desing by Likelihood-Based Context<br />
Clustering with Crossvalidation. In Eurospeech, September 1997, Rhodos.<br />
[Rog97b] I. Rogina. Parameterraumoptimierung für Diktiersysteme mit unbeschränktem<br />
Vokabular. Dissertation, Universität Karlsruhe, Juni 1997.<br />
[RP92] V. Ramasubramanian und K. Paliwal. Fast K-dimensional Tree Algorithms<br />
for the Nearest Neighbor Search with Application to Vector Quantization<br />
Encoding. IEEE Transactions on Signal Processing, 40(3), 1992.<br />
[RS01] I. Rogina und T. Schaaf. Lecture and Presentation Tracking in an Intelligent<br />
Meeting Room. IEEE International Conference on Multimodal Interfaces,<br />
2001, Pittsburgh.<br />
[Rus89] G. Ruske. Gehörbezogene automatische Spracherkennung. Informationstechnik,<br />
31(5):316–323, 1989.<br />
[RW94] I. Rogina und W. Waibel. Learning State-Dependent Stream Weights<br />
for Multi-Codebook HMM Speech Recognition Systems. In Proc. IEEE International<br />
Conference on Acoustics, Speech, and Signal Processing, Band 2, S.<br />
217–220. IEEE, April 1994, Adelaide, Australia.
Literaturverzeichnis 477<br />
[RW95] I. Rogina und A. Waibel. The JANUS Speech Recognizer. In AR-<br />
PA Workshop on Spoken Language Systems Technology, S. 166–169. Morgan<br />
Kaufmann, Januar 1995, Austin, Texas.<br />
[Sch94] K. Schuber. Grundfrequenzverfolgung und deren Anwendung in der Spracherkennung.<br />
Diplomarbeit, Universität Karlsruhe, 1994.<br />
[Sch96] T. Schaaf. Vertrauensmaße für die maschinelle Spracherkennung. Diplomarbeit,<br />
Universität Karlsruhe, Oktober 1996.<br />
[Sch00] T. Schultz. Multilinguale Spracherkennung - Kombination akustischer<br />
Modelle zur Portierung auf neue Sprachen. Dissertation, Universität Karlsruhe,<br />
Jul 2000.<br />
[Sch01] T. Schaaf. Detection of OOV Words Using Generalized Word Models and<br />
a Semantic Class Language Model. In EUROSPEECH01, Aalborg, September<br />
2001.<br />
[Shi86] K. Shikano. Evaluation of LPC Spectral Matchin Measures for Phonetic<br />
Unit Recognition. Technical Report Technical Report, Carnegie Mellon University,<br />
Pittsburgh, 1986.<br />
[SMFW02] H. Soltau, F. Metze, C. Fügen und A. Waibel. A One-Pass<br />
Decoder Based on Polymorphic Linguistic Context Assignment. In ASRU, 2002.<br />
[SMW96] B. Suhm, B. Myers und A. Waibel. Interactive Recovery from<br />
Speech Recognition Errors in Speech User Interfaces. In ICSLP, S. 861–864,<br />
1996, Philadelphia.<br />
[SR86] T. Sejnowski und C. Rosenberg. NETtalk: A Parallel Network that<br />
Learns to Read Aloud. Technical Report JHU/EECS-86/01, John Hopkins<br />
University, Juni 1986.<br />
[SR87] T. J. Sejnowski und C. R. Rosenberg. Parallel Networks that Learn<br />
to Pronounce English Text. Complex Systems, 1:145–168, 1987.<br />
[SR95] T. Schultz und I. Rogina. Acoustic and Language Modeling of Human<br />
and Nonhuman Noises for Human-To-Human Spontaneous Speech Recognition.<br />
In Proc. IEEE International Conference on Acoustics, Speech, and Signal<br />
Processing, Band 1, S. 293–296. IEEE, Mai 1995, Detroit, USA.
478 Literaturverzeichnis<br />
[SR97] K. Seymore und R. Rosenfeld. Large-scale Topic Detection and Language<br />
Model Adaptation. In tech. report CMU-CS-97-152, Computer Science<br />
Department, Carnegie Mellon University, Juni 1997.<br />
[SSMW03] S. Stüker, T. Schultz, F. Metze und A. Waibel. Multilingual<br />
Articulatory Features. In ICASSP, 2003.<br />
[ST91] O. Schmidbauer und J. Tebelskis. An LVQ based Reference Model for<br />
Speaker-Adaptive Speech Recognition. CMU-Internal Report, 1991.<br />
[ST92] O. Schmidbauer und J. Tebelskis. An LVQ Based Reference Model for<br />
Speaker-Adaptive Speech Recognition. In Proc. IEEE International Conference<br />
on Acoustics, Speech, and Signal Processing, San Francisco, März 1992. IEEE.<br />
[ST95] E. Schukat-Talamazzini. Automatische Spracherkennung. Vieweg,<br />
Braunschweig, Germany, 1995.<br />
[Stü03] S. Stüker. Multilingual Articulatory Features. Diplomarbeit, Universität<br />
Karlsruhe, Mai 2003.<br />
[SWW93] B. Suhm, M. Woszczyna und A. Waibel. Detection and Transcription<br />
of New Words. In EUROSPEECH93, Berlin, September 1993.<br />
[TS91] J.-I. Takami und S. Sagayama. A successive State Splitting Algorithm<br />
for Efficient Allophone Modelling. ATR-Internal Report, ATR Interpreting Telephony<br />
Research Laboratories, Kyoto, Japan, 1991.<br />
[TW90] J. Tebelskis und A. Waibel. Large Vocabulary Recognition Using<br />
Linked Predictive Neural Networks. In Proc. IEEE International Conference<br />
on Acoustics, Speech, and Signal Processing. IEEE, April 1990.<br />
[TWPS91] J. Tebelskis, A. Waibel, B. Petek und O. Schmidbauer. Continuous<br />
Speech Recognition by Linked Predictive Neural Networks. In R. Lippmann,<br />
J. Moody und D. Touretzky, Herausgeber, Advances in Neural Information<br />
Processing Systems, San Mateo, CA, 1991. Morgan Kaufmann.<br />
[van99] D. van Compernolle. Speech Recognition by Goats, Wolves, Sheeps,<br />
and Non-Natives. In ESCA-NATO Tutorial and Research Workshop on Multilingual<br />
Interoperability in Speech Technology, S. 3–9, September 1999, Leusden,<br />
Niederlande.
Literaturverzeichnis 479<br />
[Ver98] Verein für Konsumenteninformation. Videorecorder Test. Konsument,<br />
Februar 1998.<br />
[Vit67] A. J. Viterbi. Error Bounds for Convolutional Codes and an Asymptotically<br />
Optimal Decoding Algorithm. IEEE Transactions on Information Theory,<br />
13(2):260–269, April 1967.<br />
[VW96] M. T. Vo und C. Wood. Building an Application Framework for Speech<br />
and Pen Input Integration in Multimodal Learning Interfaces. In ICASSP.<br />
IEEE, 1996, Atlanta.<br />
[Wai88] A. Waibel. Consonant Recognition by Modular Construction of Large<br />
Phonemic Time-Delay Neural Networks. In Advances in Neural Information<br />
Processing Systems. Morgan Kaufmann, November 1988.<br />
[War89] W. Ward. Modelling Non-verbal Sounds for Speech Recognition. In<br />
DARPA Workshop on Speech and Natural Language Processing, Oktober 1989.<br />
[WE92] W. Wahlster und J. Egelkamp. Wissenschaftliche Ziele und Netzpläne<br />
für das VERBMOBIL Projekt. DFKI Saarbrücken, April 1992.<br />
[Wei95] B. Weide. The Carnegie Mellon Pronunciation Dictionary, CMUDICT<br />
V0.4. Freie Software der Carnegie Mellon University, http://www.cs.cmu.edu,<br />
1995.<br />
[Wes00] M. Westphal. Robuste Kontinuierliche Spracherkennung für mobile informationssysteme.<br />
Dissertation, Universität Karlsruhe, Juni 2000.<br />
[WHH + 87] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano und K. Lang.<br />
Phoneme Recognition Using Time-Delay Neural Networks. Technical Report<br />
TR-1-0006, ATR Interpreting Telephony Research Laboratories, Oktober 1987.<br />
[Woo91] C. A. Wood. ATR Interpreting Telephony - Carnegie Mellon University<br />
Conference Registration Task. Tech Report ??, März 1991.<br />
[Woo95] P. Woodland. Persönliches Gespräch auf dem ARPA Workshop Spoken<br />
Language Technology, SLT, in Austin, Texas, im Januar 1995, 1995.<br />
[Wos98] M. Woszczyna. Fast Speaker Independent Large Vocabulary Continuous<br />
Speech Recognition. Dissertation, Universität Karlsruhe, Februar 1998.
480 Literaturverzeichnis<br />
[WOVY94] P. Woodland, J. Odell, V. Valtchev und S. Young. The HTK<br />
Large Vocabulary Recognition System: An Overview. In ARPA Spoken Language<br />
Technology Workshop, (keine Seitennumerierung ), März 1994, Princeton,<br />
New Jersey.<br />
[WSL92] G. Wolff, D. Stork und E. Levine. Nural Network Lipreading System<br />
for Improved Speech Recognition. In IJCNN, Juni 1992.<br />
[WSVJ97] A. Waibel, B. Suhm, M. T. Vo und Y. Jie. Multimodal Interfaces<br />
for Multimedia Information Agents. In ICASSP. IEEE, 1997, München.<br />
[WW94] M. Woszczyna und A. Waibel. Inferring Linguistic Structure in Spoken<br />
Languge. In Proceedings of the International Conference on Speech and<br />
Language Processing, 1994.<br />
[WW01] M. Westphal und A. Waibel. Model-Combination-Based Acoustic<br />
Mapping. In ICASSP, Mai 2001, Salt Lake City.<br />
[WWH98] H. Wactlar, M. Witbrock und A. Hauptmann. Informedia News-<br />
On-Demand: Using Speech Recognition to Create a Digital Video Library.<br />
Technical Report CMU-CS-98-109, Carnegie Mellon University, Pittsburgh, PA<br />
15213, USA, 1998.<br />
[Yan02] M. Yang. Detecting Faces in Images: A Survey. IEEE Transactions on<br />
Pattern Analysis and Machine Intelligence, 24, 2002.<br />
[YBC94] M. Y.K., E. Barnard und R. Cole. Reviewing Automatic Language<br />
Identification. IEEE Signal Processing, 11(4):33–41, Oct 1994.<br />
[YJC94] M. Y.K., N. Jain und R. Cole. Perceptual Benchmarks for Automatic<br />
Language Identification. In Proc. IEEE International Conference on Acoustics,<br />
Speech, and Signal Processing, S. 333–336, Adelaide, April 1994. IEEE.<br />
[YYDW99] J. Yang, W. Yang, M. Denecke und A. Waibel. Smart Sight: A<br />
Tourist Assistant System. In The Third International Symposium on Wearable<br />
Computers (ISWC), Oktober 1999, San Francisco.<br />
[Zis93] M. Zissmann. Automatic Language Identification using Gaussian Mixtures<br />
and Hidden Markov Models. In Proc. IEEE International Conference on<br />
Acoustics, Speech, and Signal Processing, S. 309–402, Minneapolis, 1993. IEEE.
Literaturverzeichnis 481<br />
[Zwi60] E. Zwicker. Zur Unterteilung des hörbaren Frequenzbereiches in Frequenzgruppen.<br />
Acustica, 10:185, 1960.
Sachverzeichnis<br />
F0, 391<br />
N-Gramme, 265<br />
αt(j), 189<br />
µ-law, 102<br />
k-Mittelwerte Verfahren, 134<br />
k-Nächste-Nachbarn, 132<br />
a-law, 102<br />
A/D Wandler, 77<br />
absolutes Discounting, 272<br />
Abtastfrequenz, 79<br />
Abtastfunktion, 80<br />
Abtasttheorem, 80, 98<br />
Abtastung, 77<br />
Adaption, 354<br />
Adaptionsmethoden, 361<br />
Adaptionsziele, 359<br />
adjacency pairs, 407<br />
Adressenerkennung, 439<br />
Affrikate, 72<br />
agglomerative Kontextballung, 300<br />
Air Travel Information System, 38<br />
Akustisch-phonetische Merkmale, 417<br />
akustisches Modell, 224<br />
Ali Baba, 33<br />
Aliasing-Effekt, 98<br />
Allophonen, 64<br />
Amplitude, 55, 106<br />
Amplitudenspektrum, 91<br />
Analog/Digital Wandler, 77<br />
Anatomie, 42<br />
Anfangswahrscheinlichkeiten, 186<br />
Anfangswahrscheinlichkeitsverteilung,<br />
186<br />
Anrufbeantworter, 29<br />
Anti-Aliasing Filter, 79<br />
aperplexity, 270<br />
Architekturentwurf, 336<br />
ARPA, 35<br />
Artikulationsapparat, 42<br />
Artikulationsort, 73<br />
artikulatorische Geräusche, 22, 357<br />
aspiriert, 74<br />
ATIS, 38<br />
Atlantikkabel, 34<br />
Auflösung von Ambiguitäten, 393<br />
Aufmerksamkeitssteuerung, 393<br />
Aufnahmeknop, 152<br />
Auslassungen, 248<br />
Aussprachelexika, 236<br />
Aussprachemodellierung, 236<br />
Aussprachevarianten, 240<br />
Aussteuerung, 79<br />
Authentifikation, 9<br />
Automatisches Folienweiterschalten,<br />
445<br />
B-D-G-Task, 346<br />
Back-Channels, 404<br />
Backoff-Verfahren, 272<br />
Backpropagation, 376<br />
Backward Algorithmus, 196<br />
Bag of Words, 266<br />
Bakis, 172<br />
Bakis-HMM, 201<br />
Bakis-Modell, 173<br />
Ballung von Kontexten, 297<br />
Ballungsbaum, 300<br />
bandbegrenzt, 90<br />
Barge-In, 405
484 Sachverzeichnis<br />
Bark-Skala, 117<br />
Basic Isodata Algorithmus, 134<br />
Basilarmembran, 53<br />
Baum-Welch-Regeln, 197<br />
Bayes Klassifikator, 140<br />
Beam Search, 174<br />
Beamforming, 425<br />
behinderte <strong>Mensch</strong>en, 8<br />
Beobachtungswahrscheinlichkeit, 195<br />
Beschneidung des Suchraumes, 318<br />
Bestimmung des Geschlechts, 355<br />
betonte Pausen, 21<br />
Betonung, 392<br />
Bigramm, 265<br />
bilabial, 73<br />
binaurales Hören, 424<br />
Biologie der Sprachkommunikation, 41<br />
Biphone, 291<br />
blinde <strong>Mensch</strong>en, 7<br />
BN (Broadcast News) Task, 38<br />
Bottom-Up-Parser, 396<br />
Buchstabenalphabet, 46<br />
Buchstabiererkennung, 345<br />
Bucket Voronoi Intersection, 137<br />
BVI, 137<br />
Cache-Sprachmodelle, 274<br />
Call Home Task, 38<br />
Car-PC, 12<br />
Carnegie Mellon University, 37<br />
CART, 303<br />
case frames, 400<br />
Cepstrum, 119<br />
CFG, 279<br />
Cochlea, 53<br />
Cocktail-Party, 420<br />
Cocktail-Party-Effekt, 28<br />
Codebuch, 134<br />
Computerspiele, 10<br />
Corpus Mapping, 434<br />
CTI, 14<br />
Cutoffs, 271<br />
DARPA, 35<br />
Data-Mining, 283<br />
Datenaufbereitung, 433<br />
Datensammlung, 432<br />
Datenströme, 229<br />
dBA, 58<br />
Decoder, 315<br />
Decoderarten, 315<br />
Dekodierungsproblem, 192<br />
delayed bigrams, 322<br />
Delta-Koeffizienten, 230<br />
dental, 73<br />
deterministische Klassifikatoren, 127<br />
Dezibel, 58<br />
diagonalen Kovarianzmatrizen, 337<br />
Dialekte, 413<br />
Dialog, 401<br />
Dialoggrammatiken, 407<br />
Dialogsystementwicklung, 407<br />
digitales Signal, 77<br />
Diktiersystem, 1, 4<br />
Dimensionalitätsreduktion, 148<br />
Diphone, 291<br />
Diphthonge, 69<br />
Dirac Distribution, 81<br />
Discounting, 272, 349<br />
diskrete Fouriertransformation, 99<br />
diskrete HMMs, 225<br />
Diskriminanzanalyse, 145<br />
Diskriminanzoptimierung, 145<br />
diskriminiatives Trainieren, 217<br />
divisive Kontextballung, 302<br />
Dorsum, 46<br />
Dozent, 445<br />
Druckwellen, 55<br />
DTW, 168<br />
DTW-Algorithmus, 169, 251<br />
DTW-Pfad, 168<br />
Dudley, 33<br />
dynamic time warping, 168<br />
dynamische Modalitäten, 311<br />
dynamisches Basissprachmodell, 275<br />
dynamisches Programmieren, 162<br />
Editierdistanz, 248<br />
Editierschritte, 161<br />
Eigennamen, 348
Eingabegeschwindigkeit, 2<br />
Einzelkommandoerkennung, 18<br />
Einzelspektrum, 98<br />
Einzelwort Spracherkenner, 169<br />
Elision, 21<br />
Elman-Netze, 374<br />
EM-Algorithmus, 145, 216<br />
Emissionswahrscheinlichkeit, 186<br />
emotionale Lage, 393<br />
emphatische Pausen, 21<br />
endliche Automaten, 408<br />
Endpunktdetektion, 151<br />
Energiespektrum, 91<br />
Engramme, 20<br />
Entropie einer Quelle, 267<br />
Entropiedistanz, 298<br />
Epiglottis, 43<br />
Ergodische Quellen, 268<br />
Erkennerentwicklung, 431<br />
Erkennungsszenario, 24<br />
erste Formante, 49<br />
Etikett, 206<br />
Evaluierungsproblem, 188<br />
Expectation Maximization, 144<br />
Expertenhierarchien, 386<br />
Faber, Joseph, 48<br />
Fahrzeug, 11<br />
Fallschablonen, 400<br />
Faltung, 83<br />
Faltungseigenschaft, 92<br />
FAME, 460<br />
Fehlerbehandlungsmethoden, 426<br />
Fensterbreite, 111<br />
Fernbesprechungsmikrophone, 57<br />
FFT, 102<br />
Filter, 51<br />
Filterbänke, 115<br />
flektierende Sprachen, 414<br />
Flexible Transkriptionen, 244<br />
Formanten, 49<br />
Fortes, 74<br />
Forward-Algorithmus, 189<br />
Forward-Backward Algorithmus, 196<br />
Fourieranalyse, 85<br />
Sachverzeichnis 485<br />
Fourierkoeffizienten, 87<br />
Fourierreihenzerlegung, 87<br />
Fouriertransformation, 89<br />
Framerate, 110<br />
Frequenzbereich, 34, 89, 108<br />
Frikative, 72<br />
Friktion, 72<br />
FTA, 244<br />
fudge factors, 329<br />
Fundamentalformel, 223<br />
Gate, 385<br />
Gaumen, 43<br />
Gaumensegel, 43<br />
Gaumensegels, 72<br />
generalisierte Poloyphone, 292<br />
Genus, 414<br />
Gerätesteuerung, 5<br />
Geräuschmodellierung, 357<br />
Geschichte, 33<br />
Gestikerkennung, 426<br />
Glottale, 74<br />
Glottis, 43<br />
Glättung von Sprachmodellen, 271<br />
Grammatikalität, 19<br />
Grammatische Zerteiler, 394<br />
Grenzfrequenz, 80<br />
grounding, 408<br />
Grundfrequenz, 45<br />
Haarzellen, 53<br />
Hammer, 53<br />
Handschrifterkennung, 426<br />
HARPY, 37<br />
HAT, 145<br />
Hauptachsentransformation, 145<br />
HDLA, 284<br />
Heim-Multimedia-Terminal, 14<br />
Helmholtz-Resonatoren, 49<br />
Hidden Markov Modelle, 35<br />
Hidden-Markov-Modelle, 177<br />
Hierarchische Mixturen von Experten,<br />
384<br />
hierarchischen Mixturen von Experten,<br />
230
486 Sachverzeichnis<br />
Hintergrundgeräusche, 27<br />
Hintergrundrauschen, 124<br />
Historie, 264<br />
HMEs, 384<br />
HMM-Einzelkommandoerkenner, 199<br />
HMM-Entwicklung, 205<br />
HMMs, 181<br />
Homophone, 261<br />
Hyperartikulation, 27, 427<br />
Hypothesis driven lexicon adaptation,<br />
284<br />
Hörfläche, 59<br />
ID of Command, 9<br />
Identifikation von Sprachen, 415<br />
illokutive Sprechakte, 406<br />
Impuls, 81<br />
Impulsantwort, 51, 84<br />
Indexierung, 8<br />
Information-Retrieval, 283<br />
Informationsgehalt des Parameterraumes,<br />
297<br />
Informationsgehalt von Sprachmodellen,<br />
267<br />
Informationsquelle, 267<br />
Informedia, 8<br />
Intelligenter Raum, 14<br />
Interaktive Präsentationsfolien, 453<br />
Intonation, 391<br />
inverse Fouriertransformation, 90<br />
IPA, 65<br />
IPA-Alphabet, 47, 65<br />
JANUS-Ballungsverfahren, 306<br />
Jeffrey Smoothing, 272<br />
Jordan-Netze, 374<br />
Kammfunktion, 97<br />
Kanalfunktion, 84<br />
Karhunen-Loeve-Transformation, 145<br />
Kasus, 414<br />
Katzenohr, 53<br />
Kausalität, 80<br />
Kehlkopf, 43<br />
Klassenbasierte Sprachmodelle, 275<br />
Klassenstreumatrix, 147<br />
KLT, 145<br />
Koartikulationseffekte, 21, 179, 247<br />
Kohonen Maps, 377<br />
<strong>Kommunikation</strong>sart, 28<br />
<strong>Kommunikation</strong>seinheiten, 403<br />
Kompaktifizierung, 336<br />
Kompositabildung, 286<br />
konfidenzgewichtetes Training, 220<br />
Kontextbreite, 292, 295<br />
kontinuierliche Fouriertransformierte,<br />
89<br />
kontinuierliche HMMs, 226<br />
kontinuierliche Sprache, 247<br />
Kontinuierlichkeit, 18<br />
Kontinuierlichkeitsgrade, 225<br />
Korrektives Trainieren, 217<br />
Kovarianzmatrix, 143<br />
Kovarianzmatrizen, 331, 336<br />
Kratzenstein, 48<br />
Kreisfrequenzvariable, 92<br />
kritische Bandbreite, 117<br />
kumulative Distanz, 168<br />
Kurzzeitspektrum, 110, 159<br />
Label-Boosting, 363<br />
Labels, 206<br />
labiodental, 73<br />
Lagrange, 85<br />
Language Line Interpreter, 415<br />
Langzeitspektrum, 109<br />
Laplace-Mischverteilungen, 143<br />
Laserpointer, 448<br />
laterale, 73<br />
LBG-Algorithmus, 134<br />
LDA, 145<br />
LDA-Transformation, 436<br />
Learning Vector Quantization, 375<br />
Lecture Tracker, 446<br />
Leistungsspektrum, 91<br />
Lenes, 74<br />
Lernen von Klassifikatoren, 128<br />
Lernrate, 196<br />
Licklider, 106<br />
LID, 10, 415
Liftering, 120<br />
Likelihood Distanz, 299<br />
Linde-Buzo-Gray, 134<br />
Linear Predictive Coding, 121<br />
lineare Diskriminanzanalyse, 145<br />
Lineare Vorhersage, 121<br />
lineare zeitinvariante Systeme, 80<br />
Linearität, 80<br />
Linked Predictive Neural Nets, 382<br />
Links-Diphone, 291<br />
Lippen, 43<br />
Lippenlesen, 419<br />
Lippenrundung, 75<br />
LISTEN, 11<br />
lokale Distanz, 168<br />
Lokalisierung der Schallquelle, 424<br />
lokutive Sprechakte, 405<br />
Longitudinalwelle, 55<br />
Lookahead, 318<br />
LPC-Koeffizienten, 121<br />
LPNNs, 382<br />
LTI Systeme, 81<br />
Luft, 55<br />
Luftdruck, 55<br />
Luftimpulse, 45<br />
Lunge, 45<br />
LVQ, 375<br />
Längenmodellierung, 325<br />
maximum mutual information<br />
estimation, 218<br />
Maximum-Likelihood lineare Regression,<br />
362<br />
McGurk Effekt, 420<br />
Mehrpaßsuchen, 326<br />
Mel-Skala, 117<br />
<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong>, 1<br />
Merkmalsraum, 186<br />
Mikrophonarray, 425<br />
Minimale Editierdistanz, 160<br />
minimales Paar, 64<br />
Mittelohr, 53<br />
Mittelwertssubtraktion, 124<br />
Mittelwertsvektoren, 330<br />
Mixturgewichte, 331<br />
Sachverzeichnis 487<br />
MLLR, 362<br />
MLP, 374, 382<br />
MMIE, 218<br />
Mobile Informationssysteme, 14<br />
Mobiltelefonie, 14<br />
moderner Vortragsraum, 444<br />
Momentum, 222<br />
Monophone, 290<br />
moving targets, 147<br />
MP3, 103<br />
MS-TDNNs, 379<br />
Multi-Streams, 229<br />
multilinguale Spracherkennung, 413<br />
multimodale Systeme, 419<br />
mumble words, 257<br />
Nachrichtensendung, 8<br />
Nahbesprechungsmikrophone, 25, 57<br />
Nasallaute, 71<br />
Natur des Sprechens, 41<br />
Navigationssysteme, 345<br />
neue Wörter, 237<br />
Neural Gas, 135<br />
neuronale Netze, 371<br />
nichtsprachliche Laute, 357<br />
Nichtterminale, 395<br />
Normierung, 123<br />
Nulldurchgangsrate, 106<br />
Numerus, 414<br />
Nur-Pole-Funktion, 121<br />
Nyquist-Theorem, 98<br />
Oberschwingungen, 120<br />
Offsetnachführung, 123<br />
Ohr, 52<br />
One Stage Dynamic Programming, 251<br />
Optimierungsproblem, 194<br />
optionale Füllwörter, 257<br />
ovales Fenster, 53<br />
Overfitting, 210<br />
palatoalveolar, 73<br />
Palatum, 43<br />
Parameterarten, 330<br />
Parameterkopplung, 203, 231, 331
488 Sachverzeichnis<br />
Parameterraum, 224, 329<br />
Parsing, 394<br />
Pascal, 55<br />
Pausen, 21<br />
PCA, 145<br />
PCM, 102<br />
PDA, 13<br />
Pentaphon, 291<br />
perlokutive Sprechakte, 406<br />
Perplexität, 24, 266<br />
Perzeptionsapparat, 52<br />
Perzeptronen, 371<br />
Phasenspektrum, 91<br />
Phasenstrukturgrammatiken, 408<br />
Phasenverschiebung, 90<br />
Phasenverschiebungen, 108<br />
Phon, 61<br />
Phone, 64, 290<br />
Phonem-HMM, 201<br />
Phoneme, 64<br />
Phonemsatz, 292<br />
Phonetik, 46, 63<br />
phonetisch gekoppelte HMMs, 228<br />
phonotaktische Merkmale, 417<br />
Pitch), 391<br />
Planungspausen, 21<br />
Plosivlaute, 71<br />
Polyphonen, 291<br />
poor man’s trigrams, 323<br />
Produktionen, 394<br />
Prosodie, 390<br />
prosodische Merkmale, 417<br />
Pulse Code Modulation, 102<br />
Qualitätsanforderungen, 437<br />
Quantisierung, 77<br />
Quantisierungsfehler, 79<br />
Quantisierungsrauschen, 79<br />
Quefrenz, 120<br />
Quelle-Filter-Modell, 51, 119<br />
Quintphon, 291<br />
radiale Kovarianzmatrizen, 331<br />
rational agency, 409<br />
Rechts-Diphone, 291<br />
Referenzmuster, 34<br />
Referenzvektoren, 134<br />
Reibelaute, 72<br />
rekurrente Netze, 374<br />
Resource Management, 270<br />
Resource Management Task, 37<br />
Reverberation, 57<br />
rhetorische Fragen, 405<br />
Rhythmus, 392<br />
Robustheit, 353<br />
Run-On-Erkennung, 263<br />
räumliche Ausdehnung, 293<br />
SAT, 364<br />
Satz, 403<br />
Schall, 55<br />
Schalldruckpegel, 58<br />
Schallenergie, 56<br />
Schallquelle, 55<br />
Schallwelle, 55<br />
Schildknorpel, 43<br />
schnelle Fouriertransformation, 102<br />
schritthaltende Erkennung, 263<br />
Schwa-Ellision, 240<br />
Schwellwertdetektor, 152<br />
Sejnowski, 238<br />
Selektive Radialisierung, 340<br />
semantische Parser, 394<br />
semikontinuierliche HMMs, 227<br />
Semitied Covariances, 343<br />
Senones, 293<br />
Shannon-Theorem, 98<br />
Signal-Rausch-Abstand, 79<br />
Signalenergie, 106<br />
Signalnormierung, 122<br />
Signalqualität, 25<br />
Silbe, 290<br />
SNR, 79<br />
Soundkarte, 79<br />
speaker-adaptive training, 364<br />
Speech Organ, 48<br />
Spektralanalyse, 97<br />
Spektrogramme, 113<br />
Spektrum, 91<br />
Spotforming, 425
Sprachdetektor, 152<br />
Sprachenidentifikation, 10<br />
Sprachlaute, 46<br />
Sprachmodell, 261<br />
Sprachsignale, 77, 105<br />
Sprachsynthese, 236<br />
Sprachsynthesesysteme, 48<br />
Sprachverstehen, 389<br />
Sprechakte, 405<br />
Sprecherabhängigkeit, 17, 354<br />
sprecheradaptives Training, 364<br />
Sprecherindentifikation, 9<br />
Sprecherlokalisierung, 422<br />
Sprechgeschwindigkeit, 23<br />
Stack Decoder, 317<br />
statische Modalitäten, 311<br />
statisches Basissprachmodell, 275<br />
stimmhaft, 72, 74<br />
stimmlos, 72, 74<br />
stochastische Klassifikatoren, 128<br />
Stottern, 22<br />
Strahlsuche, 174, 175<br />
Subdialogen, 405<br />
Subpolyphonen, 293<br />
Such-HMM, 320<br />
Sucharten, 315<br />
Suchfehler, 318<br />
SUR Projekt, 37<br />
SWB (Switchboard) Task, 38<br />
syntaktische Parser, 394<br />
TDNNs, 379<br />
Telefongespräche, 26<br />
Tempus, 414<br />
Termersetzungssystem, 395<br />
Terminale, 395<br />
Text-To-Speech Systeme, 236<br />
Text-To-Speech-Systeme, 435<br />
Time Delay Neural Nets, 379<br />
Top-Down-Parser, 396<br />
Training, 205<br />
Trainingsdaten, 210<br />
Transkriptionen, 207, 219<br />
Trigger, 274<br />
Trigramm, 265<br />
Triphone, 291<br />
Trommelfell, 52<br />
Turn, 404<br />
Übertragungsraten, 2<br />
unbetonte Pausen, 21<br />
ungeplante Sprache, 19<br />
ungrammatikalische, 20<br />
Unigramm, 265<br />
Uvula, 72<br />
Sachverzeichnis 489<br />
Vandermondsche Matrix, 101<br />
Varianten, 240<br />
Vektor Quantisierung, 129<br />
velare, 73<br />
Velum, 43, 72<br />
VERBMOBIL, 7, 415<br />
vereinfachtes Evaluierungsproblem, 188<br />
Verfolgen von Vorträgen, 446<br />
verschiedenskalige Basisfunktionen, 125<br />
Vertauschungen, 248<br />
verzögerte Bigramme, 322<br />
Vibrationslaute, 72<br />
Videoclips, 8<br />
Videorecorder, 6<br />
View4You, 8<br />
Viseme, 420<br />
Viterbi-Algorithmus, 193<br />
Viterbi-Pfad, 193<br />
Viterbi-Training, 209<br />
Vocoder, 33<br />
Vokabular, 28<br />
Vokaldreieck, 156<br />
Vokaltrakt, 45<br />
Vokaltraktformen, 46<br />
Vokaltraktlängennormierung, 366<br />
Vokaltraktmodelle, 47<br />
volle Kovarianzmatrizen, 337<br />
von Barkhausen, 117<br />
Vorhersagenetzwerke, 382<br />
Voronoi Regionen, 131<br />
Vortragssprache, 455<br />
VTLN, 366<br />
Wahrscheinlichkeitsmasse, 272
490 Sachverzeichnis<br />
Wall Street Journal, 38, 269<br />
Wavelets, 124<br />
weighted finte state transducer, 279<br />
Wetter-HMM, 184<br />
Widerstand-Kondensator-Einheit, 79<br />
Wizard-of-Oz, 410<br />
Wort, 289, 414<br />
Wort-HMM, 200<br />
Wortabbrüche, 20<br />
Wortcluster, 244<br />
Worterkennungsrate, 248<br />
Worterkennungsraten, 37<br />
Wortfehlerrate, 249<br />
Wortkorrektrate, 249<br />
Wortmodelle, 292<br />
Wortübergangskontexte, 312<br />
WSJ, 38<br />
Zahndamm, 43<br />
Zeitbereich, 89<br />
Zeitfrequenzvariable, 92<br />
zeitinvariant, 81<br />
Zeitinvarianz, 80<br />
zeitliche Ausdehnung, 293<br />
Zunge, 43