Sprachliche Mensch-Maschine-Kommunikation

Ivica Rogina 

Sprachliche 

Mensch-Maschine-Kommunikation 

25. Februar 2005 

xxxxxxxx-Verlag 

yyyyyyyy yyyyyyyyyyyyyyyy 

zzzzzzzz zzzzzzzz zzzzzzzz 

aaaaaaaa

Vorwort 

Dieses Buch ist ein Lehrbuch, das sich vor allem an Studierende richtet, 

die die Methoden der sprachlichen Mensch-Maschine-Kommunikation kennen 

lernen wollen. Es dient seit einigen Jahren als Skriptum zur gleichnamigen 

Vorlesung an der Universität Karlsruhe. Über den eigentlichen Lesestoff zur 

Einführung in die Spracherkennung hinaus enthält es eine Sammlung von 

Java Applets anhand derer wichtige Schritte im Prozeß der Entwicklung 

eines Spracherkenners nachvollzogen werden können. Es wurde Java gewählt, 

weil dieses auf den meisten Computern unverändert einsetzbar ist, und es 

erlaubt, die beiliegenden Programme auf einem beliebigen Rechner mit einem 

aktuellen Java-fähigen WWW-Browser – selbst über eine Internetverbindung 

– auszuführen und die Experimente durchzuführen. 

Die Kapitel sind so angeordnet, daß die Themen in etwa in der Reihenfolge 

behandelt werden, wie sie von jemandem angegangen würden, 

der ohne einschlägige Vorerfahrungen einen Spracherkenner entwickelt. 

So ist zum Beispiel der Themenbereich der akustischen Modellierung in 

mehrere Kapitel eingeteilt, weil die Verwendung von kontextabhängigen 

Modellen nicht benötigt wird, um die restlichen Verfahren der kontinuierlichen 

Spracherkennung zu bearbeiten. So sind dann auch zwischen der 

Einführung des akustischen Modells und dem Kapitel über kontextabhängige 

Modellierung Kapitel über einfache Suchalgorithmen und die Verwendung 

von Sprachmodellen eingefügt. Entsprechend ist die Thematik der Suchalgorithmen 

unterteilt in einen ersten Teil, der benötigt wird, um überhaupt 

kontinuierliche Sprache zu erkennen, und einige Kapitel später einen Teil, 

der sich mit den elaborierteren Algorithmen zu diesem Thema befaßt. Dies 

ist bewußt so gehalten, da nicht der Anspruch erhoben wird, ein umfassendes 

Nachschlagewerk für den aktiven Forscher bereitzustellen, sondern 

vielmehr ein Buch, das den Interessierten beim Einstieg in das inzwischen 

sehr umfangreiche Gebiet begleitet. Die zwangsläufig nötige Auswahl der 

Teilgebiete wurde vor allem unter Berücksichtigung der am Lehrstuhl von 

Prof. Waibel durchgeführten Projekte vorgenommen. 

Neben der Einführung in die Spracherkennung beschreiben die beiden 

letzten Kapitel Forschungsarbeiten des Autors, die nach seiner Promotion an 

den Interactive Systems Labs des Lehrstuhls von Prof. Waibel an der Fakultät 

für Informatik der Universität Karlsruhe durchgeführt wurden.

Inhaltsverzeichnis 

Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX 

Verzeichnis der Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI 

1. Nutzen und Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.1 Vorteile und Nachteile der Sprache als Eingabemodus . . . . . . . 2 

1.2 Anwendungsbeispiele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2.1 Diktieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2.2 Steuerung von Geräten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.2.3 Sprach-zu-Sprach-Übersetzung . . . . . . . . . . . . . . . . . . . . . 7 

1.2.4 Hilfe für Behinderte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

1.2.5 Indexierung akustischer Dokumente. . . . . . . . . . . . . . . . . 8 

1.2.6 Sprecheridentifikation und Authentifikation . . . . . . . . . . 9 

1.2.7 Identifikation von Sprachen . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.2.8 Unterhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.2.9 Hilfe beim Lesen und Sprechen Lernen . . . . . . . . . . . . . . 11 

1.2.10 Erkennung im fahrenden Fahrzeug . . . . . . . . . . . . . . . . . . 11 

1.2.11 Persönliche Digitale Assistenten (PDAs). . . . . . . . . . . . . 13 

1.2.12 Mobile Informationssysteme . . . . . . . . . . . . . . . . . . . . . . . 14 

1.2.13 Das Heim-Multimedia-Terminal im Intelligenten Raum 14 

1.2.14 Ein provokativer Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2. Eigenschaften und Taxonomie von Sprache und Spracherkennern 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.1 Sprecherabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2.2 Kontinuierlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.3 Spontaneität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.3.1 Grammatikalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.3.2 Wortabbrüche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

2.3.3 Deutlichkeit der Aussprache . . . . . . . . . . . . . . . . . . . . . . . 21 

2.3.4 Betonte und unbetonte Pausen . . . . . . . . . . . . . . . . . . . . . 21 

2.3.5 Wiederholungen und Stottern . . . . . . . . . . . . . . . . . . . . . . 22 

2.3.6 Artikulatorische Geräusche . . . . . . . . . . . . . . . . . . . . . . . . 22 

2.3.7 Varianz der Sprechgeschwindigkeit . . . . . . . . . . . . . . . . . . 23

VIII Inhaltsverzeichnis 

2.4 Erkennungsszenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

2.5 Perplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

2.6 Die Signalqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

2.6.1 Nahbesprechungsmikrophone. . . . . . . . . . . . . . . . . . . . . . . 25 

2.6.2 Telefongespräche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

2.6.3 Hintergrundgeräusche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.7 Das Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.8 Kommunikationsart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.9 Wie schwierig ist Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . 30 

3. Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

3.1 Geschichte der (D)ARPA Evaluationen . . . . . . . . . . . . . . . . . . . . 36 

4. Anatomie Sprachproduktion und Perzeption . . . . . . . . . . . . . 41 

4.1 Anatomie des Artikulationsapparates . . . . . . . . . . . . . . . . . . . . . 42 

4.1.1 Bestandteile des Artikulationsapparates . . . . . . . . . . . . . 43 

4.1.2 Der Prozeß der Sprachproduktion . . . . . . . . . . . . . . . . . . 45 

4.1.3 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.1.4 Modelle des Vokaltraktes . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

4.2 Anatomie des Gehörs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 

5. Akustische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

5.1 Was ist Schall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

5.2 Messung der Schallintensität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

6. Phonetische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

6.1 Lautliche Einheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

6.2 Die IPA Lautemenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

6.3 Gruppierung von Phonemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

6.3.1 Vokale und Konsonanten . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

6.3.2 Artikulationsarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

6.3.3 Artikulationsorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

6.3.4 Besondere Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

7. Grundlagen der Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . 77 

7.1 Analog/Digital Wandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

7.2 Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 

7.2.1 Die Dirac Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

7.2.2 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

7.2.3 Impulsantwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 

7.3 Fourieranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 

7.4 Die diskrete Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . 99 

7.5 Codierung akustischer Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Inhaltsverzeichnis IX 

8. Verarbeitung von Sprachsignalen . . . . . . . . . . . . . . . . . . . . . . . . 105 

8.1 Eigenschaften des Signals im Zeitbereich . . . . . . . . . . . . . . . . . . 105 

8.1.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

8.1.2 Nulldurchgangsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

8.1.3 Energie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

8.2 Spektralranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

8.2.1 Langzeitspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

8.2.2 Kurzzeitspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 

8.2.3 Spektrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

8.2.4 Filterbänke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

8.3 Cepstralanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

8.4 Codierung durch Lineare Vorhersage . . . . . . . . . . . . . . . . . . . . . . 121 

8.5 Einfache Signalnormalisierungen . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

8.5.1 Offsetnachführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

8.5.2 Mittelwertssubtraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 

8.6 Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 

9. Klassifikation und Mustererkennung . . . . . . . . . . . . . . . . . . . . . 127 

9.1 Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 

9.1.1 Deterministische und stochastische Klassifikatoren . . . . 127 

9.1.2 Parametrische und nichtparametrische Schätzer . . . . . . 128 

9.1.3 Überwachtes und unüberwachtes Lernen. . . . . . . . . . . . . 128 

9.1.4 Neuronale Netze als Klassifikatoren . . . . . . . . . . . . . . . . . 129 

9.1.5 Vektor Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 

9.1.6 Codebücher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 

9.1.7 Bayes Klassifikator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

9.1.8 Gaußklassifikatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

9.2 Der Expectation Maximization Algorithmus . . . . . . . . . . . . . . . 144 

9.3 Diskriminanzoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 

9.3.1 Hauptachsentransformation und Lineare Diskriminanzanalyse 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 

9.3.2 Dimensionalitätsreduktion . . . . . . . . . . . . . . . . . . . . . . . . . 148 

10. Erkennung statischer Sprachsignale . . . . . . . . . . . . . . . . . . . . . . 151 

10.1 Zeitsignalbasierte Erkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 

10.1.1 Endpunktdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 

10.1.2 Kombination von Merkmalen . . . . . . . . . . . . . . . . . . . . . . 155 

10.2 Das Vokaldreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 

10.3 Vergleich von Spektrogrammen . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 

11. Erkennung dynamischer Sprachsignale . . . . . . . . . . . . . . . . . . . 159 

11.1 Minimale Editierdistanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

11.2 Dynamisches Programmieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 

11.2.1 Distanz zwischen zwei Sprachsignalen . . . . . . . . . . . . . . 167 

11.3 Spracherkennung mittels Dynamic Time Warping . . . . . . . . . . . 169

X Inhaltsverzeichnis 

11.3.1 Einschränkungen des Suchraums . . . . . . . . . . . . . . . . . . . 171 

11.3.2 Dynamisches Programmieren mit Strahlsuche . . . . . . . 174 

12. Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 

12.1 Probleme mit einfachen Mustervergleichern . . . . . . . . . . . . . . . . 177 

12.2 Sprache als stochastischer Prozeß . . . . . . . . . . . . . . . . . . . . . . . . . 180 

12.3 Der HMM-Formalismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 

12.4 Die drei Probleme der Hidden Markov Modelle . . . . . . . . . . . . . 187 

12.4.1 Das Evaluierungsproblem. . . . . . . . . . . . . . . . . . . . . . . . . . 188 

12.4.2 Das Dekodierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . 192 

12.4.3 Das Optimierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . 194 

12.5 Spracherkennung mit Hidden Markov Modellen. . . . . . . . . . . . . 198 

12.5.1 Ein einfacher HMM Einzelkommandoerkenner . . . . . . . 199 

12.5.2 Abbildung von Wörtern auf Markov Modelle . . . . . . . . . 200 

12.5.3 Numerische Probleme in der Praxis . . . . . . . . . . . . . . . . 203 

13. Das Trainieren von Spracherkennern . . . . . . . . . . . . . . . . . . . . . 205 

13.1 Überblick über den HMM-Entwicklungsprozeß . . . . . . . . . . . . . 205 

13.1.1 Initialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 

13.1.2 Iterative Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 

13.2 Aufteilung der Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . 210 

13.3 Trainingsparadigmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 

13.3.1 Diskriminatives Trainieren . . . . . . . . . . . . . . . . . . . . . . . . . 216 

13.3.2 Trainieren ohne Transkriptionen . . . . . . . . . . . . . . . . . . . 219 

13.3.3 Momentum und adaptives Training . . . . . . . . . . . . . . . . . 221 

14. Das akustische Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 

14.1 Die Fundamentalformel der Spracherkennung . . . . . . . . . . . . . . 223 

14.2 Der Parameterraum des Akustischen Modells . . . . . . . . . . . . . . 224 

14.2.1 Emissionswahrscheinlichkeitsmodelle . . . . . . . . . . . . . . . . 224 

14.2.2 Kontinuierlichkeitsgrade . . . . . . . . . . . . . . . . . . . . . . . . . . 225 

14.3 Mehrere Datenströme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 

14.4 Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 

14.5 Mehrdimensionale Hidden-Markov-Modelle . . . . . . . . . . . . . . . . 233 

14.6 Aussprachemodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 

14.6.1 Aussprachelexika und Text-To-Speech Systeme . . . . . . . 236 

14.6.2 Neue Wörter einbinden . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 

14.6.3 Aussprachevarianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 

14.6.4 Flexible Transkriptionen . . . . . . . . . . . . . . . . . . . . . . . . . . 244 

15. Erkennung kontinuierlicher Sprache . . . . . . . . . . . . . . . . . . . . . . 247 

15.1 Bewertung von Erkennungshypothesen . . . . . . . . . . . . . . . . . . . . 248 

15.2 One Stage Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . 251 

15.3 Hidden Markov Modelle für kontinuierliche Sprache . . . . . . . . 256 

15.4 Einbindung eines einfachen Sprachmodells . . . . . . . . . . . . . . . . . 258

Inhaltsverzeichnis XI 

16. Verwendung von Sprachmodellen . . . . . . . . . . . . . . . . . . . . . . . . 261 

16.1 Wozu Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 

16.2 Wahrscheinlichkeiten von Wortfolgen. . . . . . . . . . . . . . . . . . . . . . 262 

16.3 N-Gramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 

16.4 Perplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 

16.5 Glättung und Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 

16.5.1 Cutoffs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 

16.5.2 Discounting. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 

16.5.3 Backoff-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 

16.6 Verschiedene weitere Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . 274 

16.6.1 Trigger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 

16.6.2 Cache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 

16.6.3 Klassenbasierte Sprachmodelle . . . . . . . . . . . . . . . . . . . . . 275 

16.6.4 Spezielle Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 

16.6.5 Gewichtung von Akustik und Linguistik . . . . . . . . . . . . . 281 

16.7 Adaption von Sprachmodellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 

16.7.1 Auswahl vorberechneter Modelle . . . . . . . . . . . . . . . . . . . 282 

16.7.2 Hypothesis driven lexicon adaptation . . . . . . . . . . . . . . . 284 

16.7.3 Kompositabildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 

17. Kontextabhängige akustische Modelle . . . . . . . . . . . . . . . . . . . . 289 

17.1 Suche nach der optimalen Spracheinheit . . . . . . . . . . . . . . . . . . . 289 

17.2 Ballung von Kontexten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 

17.2.1 Optimierungskriterien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 

17.2.2 Ballungsalgorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 

17.2.3 Agglomerative Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 300 

17.2.4 Divisive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 

17.2.5 Laufzeitbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 

17.2.6 Einbindung von Modalitätenfragen . . . . . . . . . . . . . . . . . 311 

17.3 Wortübergangskontexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 

18. Effiziente Decodierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 

18.1 Decoderarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 

18.2 Beschneidung des Suchraumes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 

18.3 Baumdarstellung des Such-HMMs . . . . . . . . . . . . . . . . . . . . . . . . 320 

18.3.1 Verzögerte Bigramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 

18.4 Sprachmodelle höherer Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 323 

18.5 Suche ohne Sprachmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 

18.6 Längenmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325 

18.7 Mehrpaßsuchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

XII Inhaltsverzeichnis 

19. Parameterraumoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 

19.1 Parameterarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 

19.1.1 Mittelwertsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 

19.1.2 Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 

19.1.3 Mixturgewichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 

19.2 Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 

19.2.1 Kopplung von 

Zustandsübergangswahrscheinlichkeiten . . . . . . . . . . . . . 332 

19.2.2 Arten der Parameterkopplung . . . . . . . . . . . . . . . . . . . . . . 333 

19.3 Architekturentwurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 

19.4 Kompaktifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 

19.4.1 Typen von Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . 336 

19.4.2 Vereinfachung von Kovarianztypen . . . . . . . . . . . . . . . . . 339 

19.4.3 Selektive Radialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 

19.4.4 Kopplung von Kovarianzparametern . . . . . . . . . . . . . . . . 342 

19.5 Lose gekoppelte Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 

20. Erkennung von Spezialvokabular . . . . . . . . . . . . . . . . . . . . . . . . . 345 

20.1 Buchstabiererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 

20.2 Erkennung beliebiger Namen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 

21. Robustheit und Adaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 

21.1 Sprecherabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 

21.2 Spontane Effekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 

21.3 Geräuschmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 

21.4 Adaptionsziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 

21.5 Adaptionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 

21.5.1 MLLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 

21.5.2 Label-Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 

21.5.3 SAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 

21.5.4 MAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 

21.5.5 VTLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 

22. Künstliche Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 

22.1 Probleme reiner HMM-Erkenner . . . . . . . . . . . . . . . . . . . . . . . . . . 372 

22.2 Architekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 

22.2.1 Netze zur Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 

22.2.2 Elman-Netze und Jordan-Netze . . . . . . . . . . . . . . . . . . . . 374 

22.2.3 LVQ – Learning Vector Quantization . . . . . . . . . . . . . . . 375 

22.2.4 Kohonens selbstorganisierende Karten. . . . . . . . . . . . . . . 377 

22.2.5 MS-TDNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 

22.2.6 LPNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 

22.2.7 Hierarchische Mixturen von Experten . . . . . . . . . . . . . . 384

Inhaltsverzeichnis XIII 

23. Verstehen von Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 

23.1 Verstehen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . 389 

23.2 Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 

23.3 Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 

23.3.1 Grammatische Zerteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 

23.3.2 Suchstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 

23.3.3 Repräsentation von Bedeutung . . . . . . . . . . . . . . . . . . . . . 398 

23.3.4 Fallschablonenzerteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 

24. Dialogsteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 

24.1 Einheiten der sprachlichen Kommunikation . . . . . . . . . . . . . . . . 403 

24.2 Sprechakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 

24.3 Diskursmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 

24.4 Entwicklung von Dialogsystemen . . . . . . . . . . . . . . . . . . . . . . . . . 407 

24.4.1 Vorgehensweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 

24.4.2 Gesprochene Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 

24.4.3 Wizard-of-Oz Experimente . . . . . . . . . . . . . . . . . . . . . . . . 410 

25. Erkennung verschiedener Sprachen . . . . . . . . . . . . . . . . . . . . . . . 413 

25.1 Eigenschaften verschiedener Sprachen . . . . . . . . . . . . . . . . . . . . . 413 

25.1.1 Definition eines Wortes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 

25.1.2 Flektierende Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 

25.1.3 Komposition von Wörtern . . . . . . . . . . . . . . . . . . . . . . . . . 415 

25.2 Identifikation von Sprachen (LID) . . . . . . . . . . . . . . . . . . . . . . . . 415 

26. Zusätzliche Modalitäten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 

26.1 Lippenlesen auf Videoaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . 419 

26.2 Sprecherlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 

26.2.1 Akustisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 

26.2.2 Mit Videoaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 

26.3 Handschrifterkennung, Gestikerkennung . . . . . . . . . . . . . . . . . . . 426 

26.4 Fehlerbehandlungsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 

26.5 Multimodale Zeitzuordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 

27. Entwicklung von Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . 431 

27.1 Ein Erkenner für eine neue Aufgabe . . . . . . . . . . . . . . . . . . . . . . 431 

27.1.1 Vorbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 

27.1.2 Datensammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 

27.1.3 Datenaufbereitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 

27.1.4 Erzeugen der Erkennerumgebung . . . . . . . . . . . . . . . . . . . 434 

27.1.5 Training und Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 435 

27.1.6 Qualitätsanforderungen überprüfen und erfüllen . . . . . . 437 

27.2 Beispiel: Videorecorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 

27.3 Beispiel: Adressenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439

XIV Inhaltsverzeichnis 

28. Der moderne Vortragsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 

28.1 Die Rolle der Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 

28.1.1 Automatische Bedienung der Medien. . . . . . . . . . . . . . . . 445 

28.1.2 Verfolgen von Vorträgen. . . . . . . . . . . . . . . . . . . . . . . . . . . 446 

28.1.3 Verwalten einer Vortragsdatenbank . . . . . . . . . . . . . . . . . 448 

28.2 Verfolgen eines Laserpointers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 

28.2.1 Unterstützung des Vortragsverfolgers . . . . . . . . . . . . . . . 452 

28.2.2 Algorithmen zur Detektion von Laserpointern . . . . . . . . 454 

28.3 Erkennung spontaner Vortragssprache . . . . . . . . . . . . . . . . . . . . . 455 

28.3.1 Adaption des Sprachmodells . . . . . . . . . . . . . . . . . . . . . . . 456 

28.4 Das FAME Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 

28.4.1 Ziele des Projektes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 

28.4.2 Die FAME Blackboard Architektur . . . . . . . . . . . . . . . . . 461 

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 

Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465

Tabellenverzeichnis 

1.1 Eingabegeschwindigkeiten verschiedener Modalitäten (Zeichen 

pro Minute) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2.1 Einige Beispiele für Vokabulargrößen . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

5.2 Schalldruckpegel für verschiedene Geräusche . . . . . . . . . . . . . . . . . . . 60 

6.1 Deutsche Aussprachebeispiele für einige IPA-Symbole . . . . . . . . . . . 66 

7.2 Verschiede Bedeutungen des Begriffs ” Spektrum“ . . . . . . . . . . . . . . . 91 

8.2 Durchschnittliche Längen (in ms) von Lauten im Englischen (gemessen 

auf dem Wall-Street-Journal Korpus [Rog97] ). . . . . . . . . . . 111 

11.1 Editierschritte und entsprechende Zustandsübergänge . . . . . . . . . . . 163 

12.1 Beispiel für 14 Tage Wetterbeobachtungen . . . . . . . . . . . . . . . . . . . . . 182 

14.1 Vor- und Nachteile verschiedener zeitlicher Ausdehnung von 

Spracheinheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 

14.2 Vor- und Nachteile verschiedener räumlicher Ausdehnung von 

Spracheinheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 

16.1 Perplexitäten verschiedener Erkennungsaufgaben . . . . . . . . . . . . . . . 270

XVI Tabellenverzeichnis 

17.1 Modellierung des Wortes ” Hallo“ mit verschiedenen Spracheinheiten290 

17.2 Abdeckung des Vokabulars durch Quasi-Ganzwortmodelle . . . . . . . 292 

17.3 Vor- und Nachteile unterschiedlicher zeitlicher Modellausdehnung . 294 

17.4 Vor- und Nachteile unterschiedlicher räumlicher Modellausdehnung 294 

17.5 Wortpositionsabhängige Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . 295 

19.1 Fehlerraten bei Kovarianzballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 

21.1 Vorkommen von Geräuschen in spontaner Sprache . . . . . . . . . . . . . . 358 

21.2 Wortfehlerraten mit und ohne VTLN . . . . . . . . . . . . . . . . . . . . . . . . . 369 

27.1 Perplexitätsreduktion durch vorgegebene Adressenkomponenten . . 441 

28.1 Fehlerrate des Vortragsverfolgers ohne/mit Sprachmodelladaption 459

Abbildungsverzeichnis 

2.1 Wortfehlerrate über Sprechgeschwindigkeit. . . . . . . . . . . . . . . . . . . . . 23 

2.2 Elemente der Sprachkommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.3 Drei Aufnahmen des Wortes ” sieben“ . . . . . . . . . . . . . . . . . . . . . . . . . 32 

3.1 Zeitplan von Allan Sears (DARPA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

3.2 Entwicklung der Worterkennungsraten mit der Zeit . . . . . . . . . . . . . 37 

4.1 Überlagerung und Übergänge von Lauten . . . . . . . . . . . . . . . . . . . . . . 43 

4.2 Anatomie des Artikulationsapparates . . . . . . . . . . . . . . . . . . . . . . . . . 44 

4.3 Verschiedene Formen des Vokaltraktes bei verschiedenen Vokalen . 46 

4.4 Resonatoren für deutsche Vokale nach Christian Gottlieb von 

Kratzenstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

4.5 Ein frühes mechanisches Sprachsynthesesystem . . . . . . . . . . . . . . . . 49 

4.6 Ein physikalisches Model des Vokaltraktes . . . . . . . . . . . . . . . . . . . . 50 

4.7 Ein System von Helmholtz-Resonatoren . . . . . . . . . . . . . . . . . . . . . . 50 

4.8 Formanten und Impulsantwort eins Systems von Helmholtz- 

Resonatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

4.9 Das Quelle-Filter-Modell der Sprachproduktion. . . . . . . . . . . . . . . . . 51 

4.10 Die wichtigsten Bestandteile des Menschlichen Ohrs . . . . . . . . . . . . 52 

4.11 Querschnitt durch das Innenohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

4.12 Frequenzabhängige Empfindlichkeit einzelner Basilarmembranbereiche 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

XVIII Abbildungsverzeichnis 

5.1 Energie eines Luftmoleküls bei der Schallübertragung . . . . . . . . . . . 56 

5.2 Schallenergie nimmt im Quadrat zur Entfernung ab . . . . . . . . . . . . . 57 

5.3 Die Hörfläche: Sprache und Musik im Frequenz/Lautstärke-Raum 59 

5.4 Schalldruckpegel und Lautstärke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6.1 Die Laute des International Phonetic Alphabet . . . . . . . . . . . . . . . . . 65 

6.2 Das Vokalviereck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

6.3 Dorsumweg bei den DiphthongenÁ,Ç,Íund eÁ. . . . . . . . . . . . . . 70 

6.4 Sagittalschnitte verschiedener Plosivlaute . . . . . . . . . . . . . . . . . . . . . . 70 

6.5 Sagittalschnitte verschiedener nasaler Konsonanten . . . . . . . . . . . . . 71 

6.6 Sagittalschnitte verschiedener Frikative . . . . . . . . . . . . . . . . . . . . . . . . 72 

7.1 Verschiedene Arten von Signalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

7.2 Funktionen eines A/D Wandlers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

7.3 Veranschaulichung der Dirac Distribution δ . . . . . . . . . . . . . . . . . . . . 82 

7.4 Die Stufenfunktion σ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

7.5 Darstellung von Impulsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

7.6 Die Fouriertransformierte des Einheitsimpulses . . . . . . . . . . . . . . . . . 93 

7.7 Die Fouriertransformierte zweier Impulse . . . . . . . . . . . . . . . . . . . . . . 93 

7.8 Fouriertransformierte von Impulsen mit unterschiedlichen 

Abständen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

7.9 Fouriertransformierte mehrerer Impulse . . . . . . . . . . . . . . . . . . . . . . . 95 

7.10 Fouriertransformierte unendlicher Impulsfolgen . . . . . . . . . . . . . . . . . 96 

7.11 Fouriertransformierte abgetasteter Signale . . . . . . . . . . . . . . . . . . . . . 97 

7.12 Illustration des Abtasttheorems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Abbildungsverzeichnis XIX 

8.1 Signale für stimmhafte und stimmlose Laute . . . . . . . . . . . . . . . . . . . 106 

8.2 Unendlich verstärkte Sprachsignale sind immer noch verständlich . 107 

8.3 Zerteilung von Signalen in einzelne Segmente . . . . . . . . . . . . . . . . . . 112 

8.4 Verschiedene Fensterfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

8.5 Fouriertransformierte verschiedener Fensterfunktionen (Breite 

N = 51) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

8.6 Entstehung eines Spektrogramms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

8.7 Spektrogramm der Wortfolge ” eins zwei drei“ . . . . . . . . . . . . . . . . . . 115 

8.8 Filterbänke gleicher Größe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

8.9 Filterbänke wachsender Größe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

8.10 Die Mel-Skala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 

8.11 verschiedene Berechnungen für Filterbänke: 1. Linear nichtüberlappend, 

2. logarithmisch nichtüberlappend, 3. logarithmisch 

überlappend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 

8.12 Das Cepstrum ist die Spektralanalyse des Spektrums. . . . . . . . . . . . 120 

8.13 Filtern und Liftern eines Signals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 

8.14 Nur-Pole-Funktion eines Linearen Vorhersagesystems. . . . . . . . . . . . 122 

8.15 Nur-Pole-Funktion beschränkt auf den Einheitskreis . . . . . . . . . . . . 122 

9.1 Arbeitsweise eines stochastischen parametrischen Klassifikators . . . 129 

9.2 Nachteile äquidistanter Merkmalsraumunterteilung . . . . . . . . . . . . . 131 

9.3 Nachteil der Nächste-Nachbar-Klassifikation . . . . . . . . . . . . . . . . . . . 131 

9.4 Klassifikator mit Mahalanobis-Distanzen . . . . . . . . . . . . . . . . . . . . . . 132 

9.5 k-nächste-Nachbar-Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 

9.6 Merkmalsraum als hierarchische Baumstruktur . . . . . . . . . . . . . . . . . 134 

9.7 Auftrennen einer Gauß-Verteilung in zwei . . . . . . . . . . . . . . . . . . . . . 137 

9.8 Das Bucket-Voronoi-Intersection Verfahren . . . . . . . . . . . . . . . . . . . . 139 

9.9 Funktionsweise eines Bayes-Klassifikators . . . . . . . . . . . . . . . . . . . . . . 141 

9.10 Veranschaulichung der Hauptachsentransformation. . . . . . . . . . . . . . 146 

9.11 Idealvorstellung der Wirkung einer LDA-Transformation . . . . . . . . 147 

9.12 Fehlerbestimmung bei der ” moving targets“ Methode . . . . . . . . . . . 148

XX Abbildungsverzeichnis 

10.1 Energiebasierter Sprachdetektor mit Schwellwertvergleich . . . . . . . . 153 

10.2 Sprachdetektor als Zustandsautomat . . . . . . . . . . . . . . . . . . . . . . . . . . 154 

10.3 Vokaldreieck nach [Lip89] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 

11.1 Zwei Spektrogramme zweier Aufnahmen des Wortes ” sieben“ . . . . 159 

11.2 Längennormalisierung durch lineare Zuordnung . . . . . . . . . . . . . . . . 160 

11.3 Nichtlineare Zuordnung von Abschnitten zweier Aufnahmen . . . . . 161 

11.4 Zuordnung einander entsprechender Buchstaben zweier Wörter . . . 162 

11.5 Optimierungsschritt beim Dynamischen Programmieren . . . . . . . . . 163 

11.6 Kostenberechnung für einen Editierschritt . . . . . . . . . . . . . . . . . . . . . 164 

11.7 Berechnung der Editierdistanz mit dynamischem Programmieren . 166 

11.8 DTW-Pfad in Matrixdarstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 

11.9 Verschiedene Zustandsübergangsschemata . . . . . . . . . . . . . . . . . . . . . 169 

11.10 Einzelworterkennung mit DTW-Algorithmus . . . . . . . . . . . . . . . . . . . 170 

11.11 Erwartungen an DTW-Pfade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 

11.12 Einschränkungen des DTW-Suchraumes . . . . . . . . . . . . . . . . . . . . . . . 173 

11.13 Eingeschränktes Bakis-Modell ist problematisch für unterschiedlich 

lange Aufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 

11.14 DTW mit Strahlsuche: nur wahrscheinliche Zustände werden expandiert 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 

12.1 Verschiedene Topologien für Hidden-Markov-Modelle . . . . . . . . . . . . 182 

12.2 HMM zur Modellierung des Wetters . . . . . . . . . . . . . . . . . . . . . . . . . . 183 

12.3 Berechnung von αt(. . .) aus αt−1(. . .) . . . . . . . . . . . . . . . . . . . . . . . . . 190 

12.4 Der Schritt im Forward-Algorithmus: αt(j) = bj(xt) 

i aijαt−1(i) 190 

12.5 Berechnung von zt(. . .) aus zt−1(. . .) . . . . . . . . . . . . . . . . . . . . . . . . . . 193 

12.6 Der Viterbi-Schritt: zt(j) = bj(xt)maxi aijzt−1(i) . . . . . . . . . . . . . . . 194 

12.7 Berechnung der ξ aus den α und β . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 

12.8 Komposition eines Wort-HMMs aus Phonem-HMMs . . . . . . . . . . . . 202 

12.9 Komposition eines Wort-HMMs aus sich wiederholenden Phonemen202

Abbildungsverzeichnis XXI 

13.1 Training mit Viterbi statt Forward-Backward . . . . . . . . . . . . . . . . . . 208 

13.2 Der Overfitting-Effekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 

13.3 Angleichung einer Punktmenge durch Polynome . . . . . . . . . . . . . . . . 211 

13.4 Korrektives Trainieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 

14.1 Rein diskretes Modell (keine Codebücher) . . . . . . . . . . . . . . . . . . . . . 225 

14.2 Voll kontinuierliches Modell (keine gemeinsame Nutzung von Codebüchern) 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 

14.3 Semikontinuierliches Modell (ein Codebuch, viele Mixturgewichteverteilungen) 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 

14.4 Phonetisch gekoppeltes semikontinuierliches Modell (ein Codebuch 

je Phonem) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 

14.5 Verschiedene Ebenen der Parameterkopplung . . . . . . . . . . . . . . . . . . 234 

14.6 Eindimensionales und zweidimensionales HMM . . . . . . . . . . . . . . . . . 235 

14.7 Suchraumbeschneidung bei vielen Varianten . . . . . . . . . . . . . . . . . . . 243 

15.1 Erweiterung des DTW-Algorithmus für kontinuierliche Sprache . . . 252 

15.2 Ein DTW-Pfad über mehrere Wörter . . . . . . . . . . . . . . . . . . . . . . . . . 253 

15.3 Grauwertdarstellung der Emissionswahrscheinlichkeiten . . . . . . . . . 253 

15.4 Möglicher Pfad für die Wortfolge B D A A C . . . . . . . . . . . . . . . . . . 254 

15.5 Möglicher Pfad für die Wortfolge D A C B D A . . . . . . . . . . . . . . . . 255 

15.6 Übergänge innerhalb der Wörter, dann Übergänge zwischen den 

Wörtern. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 

15.7 Aufbau eines HMMs für einen ganzen Satz. . . . . . . . . . . . . . . . . . . . . 256 

15.8 Satz-HMM mit verschiedenen Aussprachen . . . . . . . . . . . . . . . . . . . . 257 

15.9 Satz-HMM mit optionalen Füllwörtern . . . . . . . . . . . . . . . . . . . . . . . . 258 

15.10 Ein einziges HMM aus vielen einzelnen Wort-HMMs . . . . . . . . . . . . 258 

15.11 HMM für kontinuierliche Sprache linear dargestellt. . . . . . . . . . . . . . 259

XXII Abbildungsverzeichnis 

16.1 Sprachmodelle mit wenig (links) und viel (rechts) Informationsgehalt267 

16.2 Perplexität und Verwechselbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 

16.3 Sprachmodellauswahl mit einem HMM . . . . . . . . . . . . . . . . . . . . . . . . 277 

16.4 Automat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 

16.5 Entscheidungsalgorithmus zur Kompositabildung . . . . . . . . . . . . . . . 288 

17.1 Beispiel für generalisierte Triphone . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 

17.2 Beispiel für Senones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 

17.3 Anzahl Polyphone für verschiedene Kontextbreiten . . . . . . . . . . . . . 295 

17.4 Wieviele Polyphone gibt es, die x mal vorkommen? . . . . . . . . . . . . . 296 

17.5 Agglomerative Ballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 

17.6 Divisive Ballung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 

17.7 Blallung ergibt Querschnitt durch Ballungsbaum) . . . . . . . . . . . . . . 300 

17.8 Agglomerative Ballung kann zu Vokabularabhängigkeit führen. . . . 302 

17.9 Kontextentscheidungsbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 

17.10 Auswahl der Kontextfragen in Abhängigkeit von der Baumtiefe. . . 307 

17.11 Ausschnitt aus mehrstufigem Kontextentscheidungsbaum . . . . . . . . 308 

17.12 unterschiedlich ” scharfe“ Emissionswahrscheinlichkeitenmatrizen . . 310 

17.13 Ballungsbaum mit Modalitätenfragen . . . . . . . . . . . . . . . . . . . . . . . . . 311 

17.14 Ballung deutscher Dialektregionen in vier Klassen . . . . . . . . . . . . . . 313

Abbildungsverzeichnis XXIII 

18.1 Zustandsbezogene und Wortbezogene Rückwärtszeiger . . . . . . . . . . 316 

18.2 Rückwärtszeigertabelle für die Wortfolge A C B D . . . . . . . . . . . . . . 316 

18.3 Synchrone und asynchrone Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 

18.4 Identische Bereiche des Suchraums. . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 

18.5 Lineare und baumartige Anordnung des Suchraumes . . . . . . . . . . . . 321 

18.6 Umgestaltung der Modellachse der Suchmatrix . . . . . . . . . . . . . . . . . 321 

18.7 Bigrammwahrscheinlichkeit nicht bei Übergang anwendbar. . . . . . . 322 

18.8 Such-HMM für Trigramm-Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . 324 

18.9 Expansionder Wortendezustände ohne/mit Sprachmodellk . . . . . . . 325 

18.10 Ein aus phonetischer Sicht sehr unwahrscheinlicher Pfad . . . . . . . . . 326 

18.11 Wortaktivitätsmatrix zur Beschneidung des Suchraumes . . . . . . . . . 327 

19.1 Ein typischer schlechter Viterbi-Pfad . . . . . . . . . . . . . . . . . . . . . . . . . . 338 

19.2 Fehlerrate nach Radialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 

20.1 Kombination von n-besten Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 346 

20.2 Endlicher Mealy-Automat zum Buchstabieren von Maier, Mayer, 

Miller und Minsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 

21.1 Fehlerraten für verschiedene Sprecher und Erkenner . . . . . . . . . . . . . 355 

21.2 Verschiedene Ziele für die Adaption: Signal oder Modelle) . . . . . . . 360 

21.3 Label-Boosting Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 

21.4 Sprecheradaptives Training (SAT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 

21.5 Spektren für verschiedene Vokaltraktlängen . . . . . . . . . . . . . . . . . . . . 366 

21.6 Einfache VTLN-Filterbanktransformation . . . . . . . . . . . . . . . . . . . . . 367 

21.7 Verteilung der Spektren für verschiedene Vokaltraktlängen . . . . . . . 368

XXIV Abbildungsverzeichnis 

22.1 Maximum Likelihood und Maximum A-Posteriori Klassifikatoren . 373 

22.2 Rekurrentes Neuronales Netz nach Jordan und Elman . . . . . . . . . . . 375 

22.3 LVQ-Algorithmus als Neuronales Netz . . . . . . . . . . . . . . . . . . . . . . . . 377 

22.4 Kohonens selbstorganisierende Karte . . . . . . . . . . . . . . . . . . . . . . . . . . 379 

22.5 Typische Folge aktivster Neuronen für das finnische Wort ” humppila“ 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 

22.6 Time Delay Neural Network (TDNN) zur Erkennung von b, d, und g381 

22.7 Ein Time Delay Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 

22.8 Multi-State TDNN für die Wörter W1, . . .Wn . . . . . . . . . . . . . . . . . . 383 

22.9 Linked Predictive Neural Networks für kontinuierliche Spracherkennung 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 

22.10 Hierarchische Mixtur von Experten . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 

22.11 Domänenadaption mit Hierarchischen Mixturen von Experten . . . . 386 

23.1 Verstehen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 

23.2 Verschiedene Arten von Zerteilern (Parsern) . . . . . . . . . . . . . . . . . . . 395 

23.3 Der Suchraum beim Bottom-Up-Parsing . . . . . . . . . . . . . . . . . . . . . . . 397 

23.4 Der Suchraum beim Top-Down-Parsing . . . . . . . . . . . . . . . . . . . . . . . 398 

24.1 Dialogs mit anpaßbarer Freiheit für Benutzereingaben . . . . . . . . . . . 402 

24.2 Dialogsystem mit Sprachein- und Sprachausgabe . . . . . . . . . . . . . . . 403 

24.3 Wizard-of-Oz-Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . . . . 411 

26.1 Schallquellenortung mit 2 Mikrophonen . . . . . . . . . . . . . . . . . . . . . . . 423 

26.2 Geschätzter Winkel zur Schallquelle. . . . . . . . . . . . . . . . . . . . . . . . . . . 423 

26.3 Zeiten zum Eingeben und Korrigieren eines Textes . . . . . . . . . . . . . . 428 

26.4 mehrdimensionaler DTW Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 429

Abbildungsverzeichnis XXV 

28.1 Verschiedene Bereiche der (maschineninvolvierten) Kommunikation443 

28.2 Synchronisierung von Folien mit Erkennerhypothesen . . . . . . . . . . . 446 

28.3 Tracking-Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 

28.4 Beispielaufnahmen von Projektionsflächen . . . . . . . . . . . . . . . . . . . . . 449 

28.5 Berechnen der Position des Laserpointers auf der Folie . . . . . . . . . . 450 

28.6 Positionsbestimmung bei zusätzlicher optischer Krümmung . . . . . . 451 

28.7 Beispiel für eine Wortklasse im Sprachmodell von [RS01] . . . . . . . . 458 

28.8 Die FAME Blackboard Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . 462

1. Nutzen und Anwendungen 

Der Einsatz automatischer Spracherkennung kann vielerlei Motive haben. 

Zahlreiche Arbeiten, die von Menschen durchgeführt werden, bestehen 

darin, gesprochene Sprache in irgend einer Form in Text umzuwandeln. Das 

augenscheinlichste Beispiel dafür ist die Bürokraft, die diktierte Briefe tippt. 

Oft sind Computer beziehungsweise die auf ihnen laufende Software als 

sogenannte Job-Killer verschrien. Die Vergangenheit hat aber gezeigt, daß 

kaum Bürokräfte durch den Einsatz eines computergestützten Diktiersystems 

überflüssig geworden sind. Im Gegenteil, wie in vielen anderen Bereichen 

auch, so hat die Computertechnik auch hier die Arbeit der Menschen eher 

erleichtert und um neue Aspekte und Möglichkeiten bereichert. Wir wollen 

aber an dieser Stelle nicht weiter ins Philosophisch-Politische abschweifen. 

Festzuhalten bleibt, daß Spracherkennung durchaus eingesetzt wird, um 

Kosten zu sparen, wo menschliche Arbeitskräfte teuer sind. Die Verschriftung 

von Sprache ist aber nur ein kleiner Anwendungsbereich. Ein viel größerer 

ist der Bereich der Mensch-Maschine-Kommunikation. Dabei geht es weniger 

darum, menschliche Arbeit zu automatisieren, als vielmehr darum, den 

ohnehin nötigen Umgang mit Maschinen zu erleichtern. 

Schließlich gibt es noch einen dritten Bereich nämlich das Ermöglichen 

von Aktionen, die ohne automatische Erkennung kaum oder gar nicht 

durchführbar wären, wie z.B. das Bedienen von Geräten für Behinderte. 

Aber auch für nicht Behinderte gibt es Situationen, in denen eine normale 

Bedienung aus verschiedenen Gründen unangebracht ist, wie zum Beispiel 

das Wählen einer Telefonnummer auf einem Mobiltelefon oder das Eingeben 

eines Reisezieles während der Autofahrt. In diesem Kapitel wollen wir 

die Vorteile der Sprache gegenüber anderen Arten der Kommunikation 

beleuchten, den Einsatz automatischer Spracherkennungssysteme anhand 

einiger Anwendungsbeispiele motivieren und schließlich einige wichtige 

Begriffe im Zusammenhang mit Spracherkennungssystemen einführen und 

einen ersten Eindruck von der Schwierigkeit der Materie gewinnen.

2 1. Nutzen und Anwendungen 

1.1 Vorteile und Nachteile der Sprache als 

Eingabemodus 

Die typischen Alternativen zur Sprache für die Eingabe von Informationen 

in ein technisches System sind Tastaturen oder auch die Handschrift, wie 

man vor allem bei den kleinen Handflächencomputern (Palmtop), die auch 

als personal digital assistant (PDA) bezeichnet werden, beobachten kann. 

Hin und wieder werden auch ungewöhnliche Eingabemethoden verwendet, 

wie z.B. eingeblendete Tastaturen auf PDAs oder die Art wie der berühme 

Physiker Stephen Hawking schreibt: Dabei werden im wesentlichen alle 

eingebbaren Einheiten (Zeichen oder auch Wörter) zyklisch hervorgehoben, 

und es genügt, einen einzigen Auslöser zu betätigen, um das gerade hervorgehobene 

Symbol zu übernehmen. Mit einiger Übung und mit einer etwas 

intelligenten Auswahl der Reihenfolge der Präsentation der Zeichen kann 

auf dieser Art immer noch eine recht brauchbare Eingabegeschwindigkeit 

erreicht werden. Es ist allerdings so, daß für den durchschnittlichen Benutzer 

von Computern die Sprache immer noch der schnellste Modus der 

Informationsübertragung vom Menschen in die Maschine ist. Ein Vergleich 

verschiedener ” Übertragungsraten“ ist in Tabelle 1.1 angegeben. 

Eingabemodus Durchschnitt Spitzenleistung 

Handschrift 200 500 

Tastatur 200 1000 

Stenographie 500 2000 

Sprache 1000 4000 

Tabelle 1.1. Eingabegeschwindigkeiten verschiedener Modalitäten (Zeichen pro 

Minute) 

Außer der reinen Eingabegeschwindigkeit bietet die Spracherkennung 

auch einen Produktivitätsgewinn dadurch, daß andere Handlungen 

ermöglicht werden, die sonst nicht einfach möglich wären. Wenn z.B. die 

Hände nicht zum Bedienen einer Tastatur benötigt werden, können diese 

in der Zeit andere Aufgaben erledigen. So kann eine Person eine Inventur 

durchführen, dabei mit den Händen die Waren sortieren und gleichzeitig per 

Sprache ein Protokoll aufnehmen. Ein Chirurg kann mit den Händen eine 

Operation durchführen und per Sprache den Assistenzroboter bedienen. 

Neben der Entlastung der Hände bietet die Spracheingabe für viele Leute 

auch eine Entlastung der Augen. Viele Aufgaben mit Informationseingabe

1.1 Vorteile und Nachteile der Sprache als Eingabemodus 3 

können nur dann gut erledigt werden, wenn der Blick auf die Tastatur 

gerichtet ist oder zumindest auf den Bildschirm, um sicherzustellen, daß 

beim Tippen keine Fehler gemacht werden. Wenn es sinnvoll ist, daß die 

Aufmerksamkeit auf etwas anderes gerichtet ist als den Computer, wie 

zum Beispiel in einem fahrenden Auto, dann ist eine Dateneingabe per 

Sprache besonders sinnvoll. Sprachgesteuerte Autotelefone sind heute schon 

Standard. Erste Navigationssysteme mit Spracheingabe sind auf dem Weg 

zum Produkt. 

Sprache kann auch als zusätzliche Eingabemodalität neben anderen eingesetzt 

werden. So kann man Sprache zusammen mit Handschrifterkennung 

und der Erkennung von Gesten koppeln. Als Beispiel dafür stellt [?] und 

[?] einen Terminkalender vor. Man kann wie bei PDAs Termine per Stift 

(Handschrift) oder Tastatur eingeben, man kann Bereiche auswählen und 

verschieben, Wörter unterstreichen oder durchstreichen. So kann man zum 

Beispiel einen Termin mit dem Stift auswählen und sagen ” Verschiebe diesen 

Termin auf Mittwoch“. 

Sprache ist nicht nur die natürlichste Art der Kommunikation für 

Menschen, sie ist auch für einige Übertragungskanäle am besten geeignet. 

So zum Beispiel das Telefon. Um einen Videorecorder von unterwegs zu programmieren, 

wäre es am einfachsten, diesen per (Mobil-)Telefon anzurufen 

und ihm zu sagen, ” was man möchte“. 

Aber selbst in Situationen, in denen Dateneingaben selten sind, Sprache 

keinen Geschwindigkeitsvorteil gegenüber anderen Modalitäten hätte und 

auch kein Problem mit der Aufmerksamkeit oder der Verfügbarkeit der 

Hände besteht, gibt es viele Fällen, in denen Sprache trotzdem das Kommunikationsmittel 

der Wahl ist. Dies zum Beispiel deshalb, weil Mikrophone 

wesentlich leichter und kleiner sind als Tastaturen. Damit sind sie einfacher 

zu transportieren und am Körper beziehungsweise der Kleidung zu befestigen 

und man kann sogar während der Bewegung Daten eingeben oder Texte 

diktieren. 

Schließlich bleibt noch zu erwähnen, das Sprache nicht nur für Blinde 

sondern auch für Sehende in der Dunkelheit zur Kommunikation geeignet ist. 

Allerdings gibt es auch ebenso Situationen, in denen Sprache unerwünscht 

ist, zum Beispiel wenn dadurch andere Personen gestört werden könnten 

(Restaurant, Theater), oder in Umgebungen, in denen die Erkennungsrate 

besonders schlecht ist (Fußballstadion, Cocktailparty) oder nahezu bei null 

wäre (beim Schnorcheln). In solchen Fällen wird man in absehbarer Zukunft 

auch weiterhin Tastaturen verwenden.


1.2 Anwendungsbeispiele 

Seit es kommerzielle Diktiersysteme sehr günstig zu kaufen gibt und 

Sprachsteuerung sogar bei einigen Betriebssystemen und Anwendungsprogrammen 

mit dabei ist, hört man oft die Meinung, daß das Problem der 

Spracherkennung schon gelöst ist. Vergleicht man aber die Fähigkeiten 

dieser Diktiersysteme mit denen von Menschen, stellt man schnell fest, daß 

noch sehr viel Potential für Verbesserungen vorhanden ist und noch viel 

Entwicklungsaufwand zu erwarten ist. Selbst unter idealen Bedingungen – 

stille Umgebung, saubere Artikulation, gutes Nahbesprechungsmikrophon 

und ein dem System bekannter Sprecher – machen Diktiersysteme immer 

noch wesentlich mehr Fehler als Menschen. 

In einigen Untersuchungen [?] [?] wurde bei Versuchspersonen, denen 

Aufnahmen von Diktaten einiger Journalisten vorgespielt wurden, eine 

Wortfehlerrate von deutlich unter 1% gemessen. Ein Großteil der Fehler 

bestand zudem aus entschuldbaren falschen Schreibweisen von Eigennamen 

oder unterschiedlicher Interpretation verschiedener Wörtern mit gleicher 

Aussprache (sog. Homophone wie ” two“ und ” too“). 

Wenn wir aber von den Idealbedingungen für automatische Spracherkennung 

abweichen, stellen wir schnell fest, daß die Genauigkeit dramatisch 

nachläßt. Selbst das Wechseln des Teppichbodens in einem Büro kann schon 

dazu führen, daß die Zahl der Fehler eines Diktiersystems spürbar ansteigt. 

Bei zahlreichen Anwendungen für automatische Spracherkenner, die über 

das Diktieren hinausgehen, herrschen keine Idealbedingungen. Dort gibt es 

noch sehr viel Forschungsbedarf. Im folgenden werden einige Gebiete für den 

Einsatz von Spracherkenner vorgestellt und diskutiert. 

1.2.1 Diktieren 

Für viele ist die naheliegendste Anwendung für Spracherkennung das 

Diktieren. Das kommt auch daher, daß bereits zahlreiche Produkte dafür 

erhältlich sind. Das erste auf handelsüblichen Personalcomputern wirklich 

sinnvoll nutzbare Diktiersystem wurde Anfang der neunziger Jahre von der 

amerikanischen Firma Dragon Systems unter dem Namen ” Dragon Dictate“ 

eingeführt. Es war ein sprecherabhängiges Einzelworterkennungssystem. 

Dabei mußten Diktate so gesprochen werden, daß zwischen je zwei Wörtern 

eine Pause mit einer Mindestlänge (ca. 1/10 Sekunde) gemacht werden mußte. 

Inzwischen sind PC-basierte Diktiersysteme in der Lage, kontinuierlich 

gesprochene Sprache zu erkennen. Die Sprecherabhängigkeit nimmt auch 

ständig ab.

1.2 Anwendungsbeispiele 5 

Die Erkennungsleistungen kommerziell erhältlicher Erkenner sind schon 

im sprecherunabhängigen Zustand (also noch bevor der Erkenner auf einen 

bestimmten Sprecher eintrainiert wurde) so hoch, daß damit bestimmte 

kleinere Aufgaben relativ zuverlässig gelöst werden können. Um beim 

fließenden Diktieren jedoch so wenige Fehler wie möglich zu machen, ist es 

immer noch hilfreich, den Erkenner auf die Stimme des Diktierenden zu 

adaptieren. Diktiersysteme funktionieren um so besser, je bekannter und 

eingeschränkter die Domäne, das Themengebiet des Diktats, ist. Wenn ein 

Diktiersystem zum Diktieren beliebiger Briefe verwendet wird, macht es 

mehr Fehler als wenn es in einer relativ kleinen bekannten Domäne wie 

zum Beispiel das Diktieren von ärztlichen Diagnosen oder pathologischen 

Berichten oder Anklageschriften eines Anwalts verwendet wird. Dabei 

haben automatische Spracherkenner mit komplizierten Wörtern, wie sie 

oft von Fachleuten eines Gebietes verwendet werden, überraschenderweise 

sehr wenige Schwierigkeiten, während ihnen alltägliche Begriffe meist mehr 

Probleme bereiten. Dieser Sachverhalt wird in späteren Kapiteln erklärt. 

1.2.2 Steuerung von Geräten 

Während noch vor wenigen Generationen die Eltern ihren Kindern die 

Benutzung von ” Geräten“ in Haus und Hof zunächst verbaten und wenn sie 

alt genug waren, erklärten, kann man heute immer öfter den Fall beobachten, 

daß Kinder ihren Eltern erklären müssen, wie der Computer funktioniert, 

wie man ins Internet kommt, den neuen Herd, die Kaffeemaschine, den 

Wecker oder den Videorecorder programmiert. Offensichtlich übersteigt 

die Komplexität vieler moderner Geräte die Bereitschaft vieler Menschen, 

den Umgang mit Ihnen zu lernen. Es gibt zwar Tendenzen, die Bedienung 

komplizierter Geräte zu vereinfachen, allerdings steigt oft auch parallel dazu 

Funktionsumfang derselben immer weiter an. 

Eine Studie der Universität Dortmund [?] kommt zu dem Schluß: 

” Betrachtet man die Zugriffsmöglichkeiten, so erscheint einem die 

sprachliche Kommunikation am geeignetsten, weil sie für den Bewohner am 

einfachsten zu benutzen ist und wohl auch die gewünschten Informationen 

am schnellsten vermittelt.“ 

Auf die Frage, welches Gerät im Haushalt am schwierigsten zu bedienen 

ist, nennen die meisten Menschen den Videorecorder, obwohl es inzwischen 

recht viele Vereinfachungen für seine Programmierung gibt. So gibt es relativ 

verständliche Menüs, den Zugriff über Videotext-Seiten, die Verwendung 

von ShowView Nummern und ähnliches. Die Ausschreibung zu einer Di-


plomarbeit der ETH Zürich [?] meint sogar: 

” Moderne Geräte sind sehr flexibel und bieten eine große Zahl von Parametern, 

welche überwacht und eingestellt werden können. Diese Freiheit wird 

aber schnell zu einem Nachteil, wenn dadurch die Bedienung so kompliziert 

wird, daß der Anwender die Übersicht verliert. Man denke z.B. an gewisse 

Videorecorder, welche praktisch nur noch von Spezialisten bedient werden 

können.“ 

und von Wiener Verein für Konsumenteninformation [?] stammt ein 

Gerätetest, dessen Ergebnis für die Designer von Benutzerschnittstellen ein 

vernichtendes Urteil ausstellt: 

” Die Programmierung eines Videorecorders ist nicht nur für technische 

Laien ein Problem. Auch erfahrene Tester der Zeitschrift Konsument hatten 

Probleme, anhand der Bedienungsanleitung die beschriebenen Programmierschritte 

nachzuvollziehen. In seinem Hifi-Videorecodertest nahm Konsument 

insgesamt 17 Modelle der neuen Generation unter die Lupe und prüfte 

auch die Bedienungsfreundlichkeit der Geräte. Abgesehen von der sehr 

zeitraubenden Tätigkeit, scheiterten die Tester auch an der Programmierung 

von vier Modellen. Gründe für die Misere sind die meist unverständlich 

formulierten Gebrauchsanleitungen und die verunglückten Konstruktionen 

der Fernbedienungen.“ 

Wäre es da nicht wesentlich besser, ganz ohne Bedienungsanleitungen 

auszukommen? Wenn wir uns fragen, wie die Bedienung eines Gerätes 

aussehen müßte, damit man es benutzen kann, ohne sich vorher über die 

Funktionsweise informiert zu haben, dann lautet die häufigste Antwort: 

” Am besten wäre es, wenn man dem Gerät einfach sagt, was man will“. Das 

gilt nicht nur für komplizierte Geräte wie Videorecorder sondern auch für 

vermeintlich einfache, wie Fahrkartenautomaten. Der Autor selbst ist schon 

vor einem solchen der Münchner U-Bahn gestanden und mußte zugeben, 

daß es ihm nicht möglich war innerhalb einer Minute festzustellen, welche 

Karte wohl am geeignetsten war, damit zwei Personen ein Wochenende in 

München verbringen und dabei ein paar anvisierte Ziele besuchten. Wäre 

es nicht besser gewesen, wenn man dem Automaten einfach hätte sagen 

können: Wir zwei wollen bis Sonntag abend bleiben, das Olympiastadion, 

” 

das Deutsche Museum, das Platzl, die Wiesn und noch so zwei drei andere 

Attraktionen besuchen. Bitte das dafür günstigste Ticket.“.

1.2.3 Sprach-zu-Sprach-Übersetzung 


Im Jahr 1992 wurde vom Bundesministerium für Forschung und Technik 

das Projekt VERBMOBIL ausgeschrieben, das zum Ziel hatte, ein kleines, 

portables Sprach-zu-Sprach-Übersetzungssystem zu entwickeln, mit dem sich 

Geschäftsleute mit Partnern, deren Sprache sie nicht sprechen, unterhalten 

können. Es konnte zwar ein Vorführgerät entwickelt werden, aber die 

Leistung – insbesondere der Komponenten, die nach der Erkennung für die 

Übersetzung des Erkannten zuständig waren – hinter den ursprünglichen 

Hoffnungen zurückblieb. Eine brauchbare Übersetzungsrate konnte nur für 

stark eingeschränkte Aufgaben wie zum Beispiel die Vereinbarung eines 

Termins erreicht werden. 

1.2.4 Hilfe für Behinderte 

Für blinde Menschen ist meist das Gehör der wichtigste der Sinne. So 

ist hat auch die akustische Kommunikation einen wesentlich höheren 

Stellenwert als bei Sehenden. Wie sehr wir auf die visuelle Information 

um uns herum angewiesen sind, merken wir erst, wenn wir sie nicht mehr 

haben. Wir brauchen sie nicht nur, um selbst Nachrichten zu empfangen, 

wir brauchen sie auch, um Nachrichten abzuschicken. Um einen Text in 

das Textverarbeitungssystem einzugeben müssen wir uns vorher die visuelle 

Information über die Position der Tasten besorgen. Und weil wir beim 

Schreiben viele Fehler machen, brauchen wir ständiges Feedback, um zu 

kontrollieren, ob das was wir tippen wollten, auch wirklich angekommen ist. 

Für Blinde fehlt sowohl die visuelle Orientierung als auch das Feedback. 

Obwohl viele Blinde erstaunliche Fähigkeiten entwickeln, um trotzdem in 

ihrer Umgebung zurecht zu kommen, so sind die Problemlösungsstrategien 

oft mit erheblichem Mehraufwand – sowohl zeitlich als auch technisch – 

verbunden. Computertastaturen können mit einer zusätzlichen Braille-Zeile 

ausgestattet sein, aber das Lesen von Braille geht selbst für den schnellsten 

Leser immer noch viel langsamer als das Lesen von gedrucktem Text mit 

sehenden Augen. Das Leben könnte für Blinde wesentlich erleichtert werden, 

wenn sie weniger auf die oben beschriebenen Orientierungs- und Feedbackinformationen 

angewiesen wären. Wäre es nicht wesentlich einfacher, in einen 

Fahrstuhl zu steigen und das gewünschte Ziel zu sagen, statt erst die Wände 

nach den Knöpfen abzusuchen und dann mit etwas Glück aus der Anordnung 

dieser herauszuinterpretieren, welcher was bedeuten könnte. Zwar sieht man 

oft auch mit Braille beschriftete Tasten in Fahrstühlen, aber es gibt immer 

noch zahlreiche Geräte und Maschinen, für die das nicht gilt. Versuchen Sie 

einmal, ohne Hinzusehen Ihren Videorecorder zu programmieren, sofern das 

nicht auch mit Hinsehen problematisch ist.


Wo immer eine ” mechanische“ Bedienung für bestimmte Personen problematisch 

ist, sei dies mangels visuellen Informationskanals oder mangels 

Mobilität, bietet sich die natürliche Sprache an. Dies gilt vor allem für 

Gelähmte oder auf andere Art körperlich beeinträchtigte. 

Aber auch normalerweise nicht behinderte Menschen finden sich hin und 

wieder in Situationen, in denen sie in ihrer Mobilität den Behinderten nicht 

im Vorteil sind. So zum Beispiel als Patient im Krankenhaus. Das Rufen 

nach Hilfe wird auch heute schon in einigen Krankenhäusern per Stimme 

und nicht nur per Drücken auf einen Schalter ermöglicht. Viele einfache 

Handlungen, wie zum Beispiel das Einstellen der Temperatur, das Wählen 

des Fernsehsenders oder das Ein- und Ausschalten des Lichts können in 

solchen Fällen vom Patienten allein ohne fremde Hilfe durchgeführt werden. 

1.2.5 Indexierung akustischer Dokumente 

Im Zeitalter des Internets mit E-Mails und dem World Wide Web und in 

Zeiten, in denen Fernsehnachrichten einen viel größeren Beitrag zur Verbreitung 

von Nachrichten leisten als Zeitschriften, verwischt die Bedeutung 

des Begriffs Dokument. Während vor nicht allzu langer Zeit darunter nur 

beschriebenes Papier gemeint war werden heute damit auch Daten auf 

Datenträgern und Video- oder Audioaufnahmen bezeichnet. In den Archiven 

der Fernsehanstalten lagern Millionen von Bändern mit Aufzeichnungen von 

Nachrichten, Reportagen, Spielfilmen und anderem. Alle diese ” Dokumente“ 

müssen mühsam durchsucht und angesehen werden um eine Datenbasis mit 

deren Inhalten zu erstellen. Wenn die Inhaltsangaben sehr detailliert sein 

sollen, dann erfordert das viel Zeit und viel menschliche Arbeitsleistung. 

Aber nicht nur die Indexerstellung für archivierte Dokumente, sondern auch 

die für die Flut der täglich neu auf uns einstürzenden Informationsfluten 

ruft nach einer Automatisierung. 

Die Spracherkennung bietet dafür ein brauchbares Mittel. Auch wenn die 

Erkennungsraten noch deutlich unter 100% liegen, so genügt doch meistens 

die Erkennung einiger wichtiger inhaltstragender Wörter um das Thema 

einer Sendung oder eines Nachrichtenblocks zu identifizieren. 

Mehrere Projekte (z.B. das Informedia Projekt Informedia an der Carnegie 

Mellon University in Pittsburgh, USA [?] [?] und das View4You Projekt 

der Universität Karlsruhe [?] [?] [?]) beschäftigen sich mit dem Thema, auf 

mündliche Anfrage des Benutzers Videoclips aus den Nachrichten der letzten 

Zeit herauszusuchen. So kann der Benutzer zum Beispiel fragen ” Was gibt 

es Neues von der Börse?“ und das System liefert daraufhin Nachrichten zum

Thema Börse. 


Diese Vorgehensweise wird auch immer mehr für die im Internet erhältlichen 

Dokumente interessant. Die gestiegenen Übertragungsraten und 

die immer größeren zur Verfügung stehenden Bandbreiten verleiten die 

Netzgemeinde dazu mehr Audio- und Videodokumente zu publizieren. Wenn 

Suchmaschinen irgendwann auch WWW-Seiten finden sollen, in denen ein 

Film über ein bestimmtes Thema vorkommt, dann wird die automatische 

Spracherkennung dazu gute Dienste leisten. 

1.2.6 Sprecheridentifikation und Authentifikation 

Die Erkenntnis, daß sprecherabhängige Spracherkenner wesentlich bessere 

Erkennungsleistungen erreichen als sprecherunabhängige, hat schon früh 

dazu geführt, daß die Eigenschaften der Stimme, die einen Sprecher vom 

anderen unterscheiden, detektiert und dazu verwendet werden, den aktuellen 

Sprecher zu identifizieren. In den heutigen Zeiten, in denen die meiste 

Kommunikation elektronisch stattfinden und in denen die Prüfung der 

Korrektheit einer Urkunde aus Papier sich schwieriger gestalten kann als 

die Prüfung eines elektronischen Dokuments werden immer mehr Methoden 

gesucht, die eine möglichst sichere Identifikation von Personen garantieren. 

Dazu gehört auch die Authentifikation per Stimme. Automatische Portale, 

die durchgehende Personen filmen und zum Sprechen eines Paßwortes auffordern, 

können nur sehr schwer getäuscht werden. Es gibt zwar Eigenschaften 

des menschlichen Körpers, die noch eindeutiger sind als seine Stimme (z.B. 

die Fingerabdrücke oder die Muster der Blutgefäße in der Retina), aber 

nicht immer ist es opportun, diese Eigenschaften zu messen. Insbesondere 

bei akustischen Dokumenten, von denen es im Internet- und Multimedia- 

Zeitalter immer mehr gibt, wird die Feststellung der Authentizität immer 

wichtiger werden. 

Allerdings gab es den Bedarf für Sprecheridentifikation schon sehr früh. 

Schon zur Zeit des zweiten Weltkriegs, als der Einsatz von Telekommunikationseinrichtungen 

(Telefonen, Funkgeräten) vermehrt vorkam, entstand die 

Notwendigkeit der Feststellung, daß diejenige Person am anderen Ende der 

Leitung autorisiert ist, Kommandos zu geben, bzw. diejenige ist, für die sie 

sich ausgibt. So wurden schon damals Forschungsarbeiten durchgeführt, die 

die automatische Überprüfung der ” ID-of-Command“ zum Ziel hatten. 

Auch bei der Untersuchung von Flugzeugabstürzen wurden schon zur 

damaligen Zeit Tonbandaufnahmen aus dem Cockpit verwendet, auf denen 

die Sprecher automatisch identifiziert wurden. Und in der Forensik kommt 

es immer wieder vor, daß akustische Aufnahmen eindeutig einer Person


zugeordnet werden müssen. Dabei ist es auch möglich, Stimmenimitatoren, 

die die Stimme eines anderen für menschliche Ohren täuschend ähnlich 

nachmachen können, zu entlarven. 

1.2.7 Identifikation von Sprachen 

Es gibt verschiedene Gründe, warum die Identifikation einer Sprache in 

einer Aufnahme nützlich sein kann. Immer dann, wenn eine Entscheidung 

aufgrund der Sprache getroffen werden muß, z.B. bei einem automatischen 

Übersetzungssystem oder einer Anrufer-Hotline, bei der Menschen aus aller 

Welt anrufen können, kann die Kommunikation bequemer gemacht werden, 

wenn die Sprache, in der der Sprecher spricht, automatisch erkannt wird, und 

die entsprechende Übersetzungsmaschine aufgerufen wird oder der Anrufer 

mit einer Person verbunden wird, die seine Sprache spricht. Ein derartiges 

System wurde eine Zeit lang in Südkalifornien eingesetzt. Dort ist es nicht 

unüblich, daß viele Menschen des Englischen nicht ausreichend mächtig sind, 

um z.B. bei einem Anruf der Nummer 911 wegen eines Notfalls ihr Problem 

zu beschreiben. Viele reden einfach auf spanisch oder chinesisch oder in einer 

anderen Sprach los. Das eingesetzte System war in der Lage, automatisch 

zu erkennen, welche Sprache der Anrufer sprach und konnte so diesen mit 

einem seine Sprache verstehenden menschlichen Telefonisten verbinden. 

1.2.8 Unterhaltung 

Eine nicht zu unterschätzende Bedeutung für die automatische Spracherkennung 

ist die Unterhaltung. Hiermit ist nicht die deutsche Übersetzung 

des englischen conversation sondern des englischen entertainment gemeint. 

Sprachgesteuerte Computerspiele und sprachgesteuertes Spielzeug werden in 

naher Zukunft völlig normal sein. Viele technische Neuerungen haben ihren 

Siegeszug im Bereich der Unterhaltungssoftware oder der Spielzeugwelt 

angetreten bevor sie dann später in ” ernsthafteren“ Anwendungen Einsatz 

fanden. So wurden zum Beispiel zahlreiche graphische Algorithmen aufgrund 

der Anforderungen von Computerspielen entwickelt. Schließlich sollte man 

sich auch bewußt machen, daß in der heutigen Welt auch die Unterhaltungsindustrie 

einen wichtigen Anteil an unserem Wohlstand hat. Die Umsätze, 

die mit Spielesoftware und -hardware gemacht werden, sind in etwa in der 

gleichen Größenordnung wie sie mit Bürosoftware gemacht werden.

1.2.9 Hilfe beim Lesen und Sprechen Lernen 


Mitte der neunziger Jahre wurde an der Carnegie Mellon University (CMU) 

ein Projekt durchgeführt, das zum Ziel hatte, Kindern das Lesenlernen zu 

erleichtern. Motiviert wurde es durch die Meldung der US-Regierung, daß 

der Schaden, der in den USA jährlich durch Analphabetismus entsteht, sich 

auf ca. 100 Millionen Dollar beziffern läßt. Auch wenn die häufigsten Gründe 

für Analphabetismus eher sozialer Natur sind und weniger auf Probleme mit 

dem Lernen zurückzuführen sind, so gibt es doch viele Kinder, denen das 

Lesen und Schreiben leichter gemacht werden kann, indem man sie mit Spaß 

bereitenden Lernhilfeprogrammen dabei unterstützt. Das CMU-Projekt 

LISTEN [?] [?], verwendet automatische Spracherkenner, um Kindern beim 

Vorlesen von auf dem Bildschirm eingeblendeten Texten, ein Feedback zu 

geben. Wenn der Text korrekt vorgelesen wird und das System mit lustigen 

ermunternden Antworten reagiert, wird das Kind gelobt und dazu motiviert, 

noch mehr zu lesen. In einigen Experimenten konnte gezeigt werden, daß 

Kinder, die solche Systeme verwenden, im Durchschnitt schneller lernen als 

andere. 

1.2.10 Erkennung im fahrenden Fahrzeug 

Eine ganz besonders sinnvolle Anwendung für automatische Spracherkennung 

ist die Bedienung von Geräten in fahrenden Fahrzeugen. In den letzten 

Jahren wurde in den meisten Ländern Europas das Telefonieren während der 

Fahrt aus Sicherheitsgründen gesetzlich eingeschränkt. In einigen Ländern 

dürfen während der Fahrt sogar nur Telefone verwendet werden, die es 

ermöglichen, die Nummer des gewünschten Gesprächspartners per Stimme 

einzugeben. Oft ist es nämlich der Wählprozeß, bei dem die Autofahrer am 

meisten abgelenkt werden und am längsten den Blick von der Straße nehmen. 

Bereits heute gibt es relativ gut funktionierende Spracherkenner, die das 

Wählen per Stimme ermöglichen. Typischerweise erwarten sie eine kurze 

Einlernphase, in der der Benutzer die Namen der möglichen Gesprächspartner 

vorsprechen und so eintrainieren muß. Dadurch werden die Erkenner 

sprecherabhängig. Einige Systeme ermöglichen sogar eine sprecherunabhängige 

Erkennung der Ziffern 0 bis 9 und einiger spezieller vorgegebener 

Kommandos. Außer der Bedienung von Mobiltelefonen gibt es auf ähnliche 

Weise funktionierende Systeme zur Steuerung bestimmter Funktionen 

elektrischer und elektronischer Geräte im Auto. Über die Sinnhaftigkeit, die 

Lautstärke oder den Sender des Autoradios per Stimme einzustellen, mag 

man streiten. Typischerweise sind die dazu nötige Zeit und Aufmerksamkeit 

relativ gering. Die Steuerung sicherheitsrelevanter Funktionen wie Bremsen, 

Beleuchtung und so weiter wird man auf absehbare Zeit nicht automatischen


Spracherkennern überlassen, solange die Erkennungsgenauigkeit nicht sehr 

nahe bei 100% liegt. 

Es ist aber zu erwarten, daß in Zukunft im Auto einige zusätzliche 

Funktionen einziehen werden, die heute noch gar nicht oder nur wenig 

verbreitet sind. Alle Hersteller von Automobilen planen für die Zukunft 

sogenannte Car-PCs, also vollwertige Computer mit leistungsstarker Hardware, 

einem Betriebsystem und vielfältiger Software. Viele Funktionen, die 

heute in verschiedenen Geräten stecken (Radio, Navigation, Bordelektronik, 

Fahrtenbuch etc.) können dann in einem Gerät vereint werden. Das wird 

zum einen Kosten senken und zum anderen neue interessante Möglichkeiten 

eröffnen. Insbesondere wird es möglich sein, während der Fahrt Arbeiten zu 

erledigen, die heute kaum machbar sind. So werden Autofahrer das Auto 

auch als mobiles Büro nutzen können. Das Auto wird eine Verbindung zum 

Internet haben, es wird möglich sein, E-Mails zu diktieren, abzuschicken 

oder E-Mails von anderen Leuten zu empfangen. Man wird während der 

Fahrt im World-Wide-Web surfen können, das Navigationssystem wird 

nicht nur den Weg zum Ziel weisen, sondern wird sich mit dem Fahrer 

unterhalten können und auch über freie Hotelzimmer und Zimmerpreise, die 

Speisekarten naheliegender Restaurants oder die aktuellen Programme der 

Kinos in der Umgebung informieren. Eine derart komplizierte Interaktion 

kann – wenn überhaupt – nur mit natürlicher Sprache gemacht werden. Es 

wäre dem Fahrer weder zuzumuten, seine Eingaben per Tastatur oder Mini- 

Joystick zu machen, noch daß er eine Sammlung von Kommandowörtern 

oder Sequenzen derselben auswendig lernen müßte, um die Funktionen des 

Car-PCs zu steuern. Spontane unvorbereitete Sprache ist aber wesentlich 

schwieriger zu erkennen als zum Beispiel sorgfältig vorgelesene Sprache. Die 

grammatikalische Korrektheit und die Freiheit von Aussprachefehlern wird 

auch nachlassen, wenn wie beim Autofahren davon auszugehen ist, daß die 

Hauptkonzentration des Sprecher bei anderen Aktivitäten als dem Sprechen 

liegt, nämlich dem Beobachten des Verkehrs und dem Führen des Fahrzeugs. 

Schließlich kommt noch eine dritte Problematik hinzu: Die akustischen 

Verhältnisse in Fahrenden Autos sind alles andere als ideal. Störgeräusche 

kommen vom Motor, dem Autoradio, Blinkern, Scheibenwischern, dem 

Fahrtwind, eventuellem Regen und von anderen Verkehrsteilnehmern. Die 

Qualität des Sprachsignals, hängt zudem von der Kopfstellung des Fahrers 

ab und davon, ob die Fenster geöffnet oder geschlossen sind. 

Die Anstrengungen auf dem Gebiet der Spracherkennung im Auto zielen 

vor allem auf die Problematik der großen Variabilität und der niedrigen 

Qualität der Sprachsignale ab. In [?] [?] wird gezeigt, wie es möglich ist, 

basierend auf Spracherkennern, die für Erkennung in einer Büroumgebung 

entwickelt wurden, durch kleine Änderung und durch das Wissen über die 

typischen Geräusche in Autos, automatisch Erkenner zu erzeugen, die in


Fahrenden Fahrzeugen mindestens so gut funktionieren wie Erkenner, die 

speziell für die Erkennung im Auto mit im Auto gesammelten Beispieldaten 

trainiert wurden. 

1.2.11 Persönliche Digitale Assistenten (PDAs) 

Mobilität macht sich heute nicht nur durch Auto-Mobilität bemerkbar, sondern 

vor allem auch dadurch, daß Dinge, die früher stationär waren, relativ 

leicht portabel werden. Dazu gehören Geräte wie Telefone, Fernsehempfänger 

und Computer. Diese verschmelzen sogar immer mehr miteinander. PDAs 

werden heute schon mit Mobilfunkfähigkeit ausgestattet, und so manches 

Mobiltelefon bietet seinem Benutzer nicht nur die Möglichkeit, einfach 

Spiele zum Zeitvertreib zu spielen, sondern sogar volle Programmierbarkeit 

in verschiedenen Programmiersprachen und die Funktionalität, die typischerweise 

in PDAs vorhanden ist, wie Terminkalender, Notizblock und 

Adressensammlung. Im Hinblick auf die baldige Einführung der UMTS 

Technik wird heute schon neben der Möglichkeit der Bildtelefonie davon 

gesprochen, daß Internetinhalte wie Videos oder sogar Live-Empfang von 

digitalem Fernsehen dargestellt werden können. 

Die meisten Benutzer bevorzugen leichte und kleine Geräte, die unproblematisch 

mitzuführen sind. Aber je kleiner die Geräte werden, umso 

schwieriger wird es, Tastaturen oder andere Eingabegeräte unterzubringen. 

Die meisten Mobiltelefone haben eine Tastatur mit nur wenigen Tasten, 

so daß Eingeben von Texten zum Beispiel für SMS sehr umständlich und 

langwierig ist. Selbst mit viel Übung dauert es wesentlich länger als auf 

einer Standard Computertastatur. Einige Geräte bieten die Möglichkeit 

an, Eingaben mit Hilfe eines Stiftes auf einer berührungsempfindlichen 

Oberfläche zu machen. Dabei können Zeichen nach vorgegebenem Muster 

oder sogar in der eigenen vorher einzutrainierender Handschrift geschrieben 

werden. Dies kann zwar mit etwas Übung deutlich schneller gehen als mit 

einer kleinen Telefontastatur, allerdings braucht man in der Regel dazu beide 

Hände und den freien Blick auf die Geräte, was sie in vielen Situationen 

kaum benutzbar macht. 

Einige PDAs bieten schon heute Spracherkennungsfähigkeiten. Allerdings 

sind diese vor allem wegen der noch zu geringen Rechenleistung der 

Geräte sehr schwach. Das erkennen einzelner isolierter Kommandos aus 

einer vorgegebenen relativ kleinen Menge von Kommandos funktioniert 

ausreichend gut, aber das Diktieren von Briefen oder gar freies spontanes 

Sprechen beliebiger Inhalte wird auf PDAs noch etwas länger dauern als 

es ohnehin schon für Desktop PCs dauern wird. Zweifellos wird aber die


Spracherkennung die Verwendbarkeit von PDAs wesentlich verbessern. 

1.2.12 Mobile Informationssysteme 

Betrachten wir die Entwicklung in der Informationstechnologie der letzten 

Jahre und Jahrzehnte, so läßt sich eins deutlich erkennen. Eine der am 

meisten florierenden Sparten ist die der mobilen Kommunikation. Die 

Mobiltelefonie hat seit Anfang der neunziger Jahre einen Aufschwung erlebt, 

den damals niemand ernsthaft vorherzusagen wagte. Die Geschwindigkeit, 

mit der neue Telefon-Hardware und neue Dienste angeboten werden ist 

atemberaubend. Bereits heute übertrifft der Leistungsumfang und die Miniaturisierung 

der Geräte bei weitem das, was man sich zum Beispiel in den 

sechziger Jahren in Science-Fiction Serien wie dem ” Startrek“ erst für die 

Zeit in zweihundert Jahren vorgestellt hatte. Ein in diesem Zusammenhang 

erkennbarer Trend ist die Nutzung der Mobiltelefone für immer mehr Zwecke 

als für die reine sprachliche Kommunikation. Fotografie, Internetzugang, 

ja sogar einige Aspekte des mobilen Büros werden angeboten. Die Geräte 

Mobiltelefon und PDA verschmelzen immer mehr miteinander und sie werden 

recht bald zusätzlich nicht nur Diktiersysteme und Navigationssysteme 

enthalten, sie werden sich zum persönlichen mobilen Informationssystem 

entwickeln, das seinen Benutzer und dessen Profil kennt und jederzeit die 

für ihn interessanten Informationen zu Verfügung hält und entsprechende 

Fragen beantworten kann. Prototypen für sprachgesteuerte tragbare Touristeninformationssysteme 

existieren bereits [?] [?]. Solche Systeme erlauben 

es ihren Benutzern, nach dem Weg zu fragen und sich durch eine fremde 

Stadt navigieren zu lassen, sich Informationen über Sehenswürdigkeiten 

geben zu lassen, ja sogar in den wichtigsten touristischen Szenarien wie 

Hotelankunft, Souvenireinkauf, Restaurantbesuch und so weiter zwischen 

verschiedenen Sprachen übersetzen zu lassen. 

1.2.13 Das Heim-Multimedia-Terminal im Intelligenten Raum 

Eine andere Entwicklung der letzten Zeit ist die Technisierung vieler 

alltäglicher Vorgänge und Geräte. Hierbei ist nicht nur ein Zuwachs des 

Leistungsumfangs viele technischer und unterhaltungselektronischer Geräte 

zu beobachten, auch die Verschmelzung dieser ist ein Trend. So erfüllen 

heutige Personal Computer immer mehr Zwecke und vereinen immer 

mehr Geräte wie zum Beispiel das Telefon – für Computer-Telephony- 

Integration hat sich das Kürzel CTI schon eingebürgert – Faxgeräte, CDund 

Videoabspielgeräte, Videorecorder [?] [?] und Raumsteuerung [?]. Die 

Erweiterung der Befriedigung des Informationsbedarfs durch das World- 

Wide-Web geht einher mit einer kaum noch persönlich zu bewältigenden


Informationsflut. Deshalb ist zu erwarten, daß in Zukunft in vielen Heimen 

eine Art Heim-Multimedia-Terminal zu finden sein wird, welches seine 

Nutzer kennt, Nachrichten für sie aussucht und aufbereitet und per Sprache 

bedienbar sein wird. Die Benutzer werden nach Hause kommen und ihr 

Multimedia-Terminal fragen ” Was gibt’s Neues?“ und dieses wird dann dem 

Sportinteressierten die neuesten Fußballergebnisse nennen und dem politisch 

interessierten über die neuesten Kabinettsbeschlüsse berichten. Es wird 

auch als intelligenter Anrufbeantworter fungieren und die meisten Aufgaben 

einer Bürokraft erledigen wie die Verwaltung und teilweise autonome 

Durchführung der Korrespondenz oder das Organisieren von Ereignissen und 

Reisen. Um diesen enormen Funktionsumfang benutzerfreundlich anbieten 

zu können wird es um die sprachliche Bedienung keinen Weg herum geben. 

Auf lange Sicht wird das Multimedia-Terminal keinen konkreten Platz 

im Raum einnehmen, sondern überall, wo es der Benutzer gerne benutzen 

möchte, verfügbar sein. So werden Projektoren Informationen auf vielen 

verschiedenen Wänden im Haus darstellen können. Wenn der Benutzer sich 

aufs Sofa setzt, werden die Nachrichten auf dem Fernsehgerät dargestellt, 

wenn er im Flur ist, am LCD-Display, das an der Wand hängt und sonst 

zumeist ein Gemälde darstellt, wenn er im Bürozimmer ist, dann auf 

dem Computer-Monitor und so weiter. Das intelligente Haus wird voller 

intelligenter Räume sein die alle die Aktivitäten der Benutzer verfolgen 

– nicht nur was diese sagen, sondern auch wo sie sich befinden, welche 

Gesten sie machen und sogar in welcher Gemütslage sie sich befinden – um 

jederzeit die passenden Dienste anzubieten und erwartungsgemäß auf die 

Benutzerwünsche reagieren zu können. 

1.2.14 Ein provokativer Ausblick 

Woran denken wir, wenn wir uns die Spracherkennung in ferner Zukunft vorstellen? 

Den meisten von uns werden vermutlich Szenen aus Science-Fiction 

Filmen einfallen, in denen Sprache auf irgend eine Art von Maschinen 

erkannt wird. Schon in der Ersten Staffel der Serie ” Raumschiff Enterprise“ 

gibt es eine Folge, in der jemand spricht und eine mechanische Schreibmaschine 

das Gesprochene tippt. Während dies vor 30 Jahren noch ziemlich 

realitätsfremd war, wäre diese Szene heute kein Science-Fiction mehr. Aber 

es gibt viele andere Szenen, in denen die Maschinen nicht nur erkennen, was 

gesprochen wurde, sondern auch noch verstehen, was der Mensch meint. 

Der Computer weiß, wann er angesprochen wird, und wann er nicht mehr 

gebraucht wird. Er ist meist zwar logisch, aber versteht trotzdem auch 

Konzepte wie Humor und mehrdeutige Äußerungen. Die Ultimative Sprache 

erkennende Maschine ist der Android. Diese Maschine ist in vielen Beziehungen 

dem Menschen nachempfunden. Dabei ist das Gesamtbild ” künstlicher


Mensch“ so dominant, daß das Detail ” die Maschine erkennt Sprache“ so 

selbstverständlich und unwichtig ist, daß es nicht einen Moment in Frage 

gestellt wird. Auch die perfekte Funktionsweise wird stets erwartet. Ein 

Android in einem Science-Fiction hat bestenfalls algorithmische Probleme. 

Er weiß nicht, wie er sich verhalten soll, oder er hat mechanische Probleme, 

aber eine fehlerhafte Erkennung von Sprache kommt genauso selten oder 

noch seltener vor als bei lebenden Menschen. Was ist es, das viele von uns so 

fasziniert, wenn wir daran denken, Spracherkennungssysteme zu entwerfen. 

Abgesehen von einigen, die die ganze Sache sehr nüchtern sehen und alles nur 

als Mittel zur Verbesserung der Lebensqualität (nicht zuletzt der eigenen) 

sehen, steckt doch oft in einigen Forschen ein kleiner Dr. Frankenstein. Der 

Wunsch, Eigenschaften natürlichen Lebens nachzubauen, zu mechanisieren, 

automatisch reproduzierbar zu machen, die Erfüllung des Traumes des deus 

ex machina erhebt uns ein wenig zu Halbgöttern.

2. Eigenschaften und Taxonomie von Sprache 

und Spracherkennern 

In diesem Kapitel wollen wir einige Eigenschaften von Spracherkennern und 

Spracherkennungsaufgaben besprechen. Diese werden uns helfen, schneller 

beurteilen zu können, wie schwierig einzelne Aufgaben mit der heutigen Technik 

zu lösen sind, und welche Aufgaben welche Ressourcen und welche Erfolgsaussichten 

haben. So werden wir im folgenden auch eine Taxonomie der 

Spracherkennung einführen, eine Sammlung von Begriffen, mit denen Erkennungssysteme 

beschrieben werden, wie Automobile mit PS, Hubraumzahlen 

und Beschleunigungszeiten. 

2.1 Sprecherabhängigkeit 

Da wir nicht ausreichendes Wissen darüber haben, was genau die Akustik 

eines Wortes oder eines Phonems ausmacht, haben bisher alle Ansätze, 

Sprache rein wissensbasiert zu erkennen keinen zufriedenstellenden Erfolg 

gehabt. Das größte Problem ist, daß ein und dasselbe Wort, ja sogar ein 

und derselbe Laut auf quasi unendliche viele verschiedene Arten artikuliert 

werden kann. Wir Menschen besitzen die faszinierende Gabe, bestimmte 

Laute sofort identifizieren zu können, egal ob sie normal gesprochen oder 

geschrien oder geflüstert oder gesungen werden. Es ist auch egal, von welcher 

Person sie gesprochen werden. Unser Gehirn befähigt uns, sehr schnell diese 

sprecherspezifischen Eigenschaften eines Sprachsignals von denen, die über 

alle Sprecher hinweg in etwas konstant sind, zu trennen und die Erkennung 

der Sprache auf dem sprecherunabhängigen Teil des Signals durchzuführen. 

In der automatischen Spracherkennung sind einige andere Abhängigkeiten 

des Sprachsignals bekannt und haben ähnliche Probleme wie die Sprecherabhängigkeit. 

Im allgemeinen kann man sagen, die akustische Ausprägung 

eines Lautes oder Wortes variiert mit einigen Variablen wie zum Beispiel 

der Variablen ” Sprecher“ oder ” Übertragungsleitung“ oder ” Hintergrundgeräusche“ 

oder ” Sprechstil“. Es leuchtet ein, daß statistische Verfahren, 

die wir mangels Wissen über das Sprachsignal verwenden müssen, größere 

Probleme haben, Modelle für bestimmte sprachliche Einheiten zu schätzen, 

wenn die Beispielmuster stark variieren. Daher funktionieren Erkenner, die

18 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern 

mit uniformen bzw. wenig variierenden Daten trainiert wurden und auf 

passenden Daten eingesetzt werden, besser. Die Parameter der Modelle für 

eine sprecherabhängige Datenmenge sind viel ” schärfer“ und leichter von 

anderen Modellen zu unterscheiden als bei sprecherunabhängigen Daten. 

In einigen Situationen ist es unproblematisch, sprecherabhängige Erkenner 

zu verwenden. Bei persönlichen Diktiersystemen zum Beispiel, oder 

erst recht bei sicherheitskritischen Anwendungen, die sowieso nur von 

einer bestimmten Person verwendet werden dürfen. In solchen Situation 

ist man gut beraten, die höhere Leistungsfähigkeit sprecherabhängiger 

Systeme auszunutzen. Im allgemeinen jedoch wird man auf Anwendungen 

treffen, bei denen der Sprecher keine Zeit hat, erst langwierig seine Stimme 

einzutrainieren. Wer will schon erst einen langen Text vorlesen, ehe er 

am Fahrkartenautomaten sein Ziel eingeben kann? Daher fokussiert sich 

die Spracherkennungsforschung auf die sprecherunabhängige Erkennung, 

bestenfalls gesteht man ein, daß wenige Sekunden Sprache verwendet werden, 

um die Parameter der Erkenner an den Sprecher zu adaptieren. Ein Teil der 

Forschungsanstrengungen versucht das Sprachsignal so zu verarbeiten, daß 

die sprecherspezifischen Eigenschaften ausgeblendet werden und möglichst 

nur noch sprecherunabhängige übrigbleiben. 

2.2 Kontinuierlichkeit 

Die Erkennung einzelner Kommandos ist aus verschiedenen Gründen, die 

in den folgenden Kapiteln beleuchtet werden, einfacher als die Erkennung 

fließender Sprache. Bei gleichen zur Verfügung stehenden Ressourcen 

und gleich großem Vokabular funktioniert die Einzelkommandoerkennung 

präziser als die Erkennung kompletter beliebig formbarer Sätze. Das heißt, 

daß insbesondere bei Anwendungen, die mit wenig Ressourcen auskommen 

müssen, wie zum Beispiel Mobiltelefone, und bei Anwendungen, die kein 

großes Vokabular benötigen, wie zum Beispiel das Eingeben einer Telefonnummer, 

die Wahl eines Einzelkommandoerkenners naheliegt. 

In vielen Situationen ist aber ein fließendes Sprechen natürlicher. Eines 

der wichtigsten Ziele der automatische Spracherkennung ist es, die Kommunikation 

von Menschen mit Maschinen natürlicher zu machen. Daher 

beschäftigen sich die meisten Spracherkennungsforscher mit der Problematik 

der kontinuierlichen Spracherkennung.

2.3 Spontaneität 

2.3 Spontaneität 19 

Eine der wichtigsten Qualitäten einer Spracherkennungsaufgabe ist die Spontaneität 

der dabei gesprochenen Sprache. Man unterscheidet verschiedene 

Spontaneitätsgrade. Am einen Ende der Skala steht die sauber vorgelesene 

grammatikalisch korrekte Sprache. In der Praxis sind Situationen, in denen 

eine solch hoch qualitative Sprache erkannt werden soll, recht selten. Wenn 

die Texte, die vorgelesen werden, sowieso schon als Text vorliegen, ist es 

sicher einfacher, die Textvorlage zu verwenden als die Audioaufnahme des 

Vorgelesenen – immerhin machen heutige OCR-Systeme immer noch wesentlich 

weniger Fehler als Spracherkenner. Dennoch wurde lange Zeit bis Mitte 

der 90er Jahre zum größten Teil mit gelesen Daten (Resource Management 

Task [?], Wall Street Journal Task [?]) experimentiert, weil man von den 

Problemen, die eine größere Spontaneität mit sich bringt abstrahieren wollte. 

Am anderen Ende der Skala liegt die völlig ungeplante Sprache, so wie 

sie zwischen einander gut bekannten Menschen stattfindet. Zu den die Erkennung 

erschwerende Eigenschaften der spontanen Sprache gehören solche 

Effekte wie stark variable Sprechgeschwindigkeit, Lautstärke und Betonung, 

grammatikalisch falsche Konstrukte, abgebrochene oder wiederholte Wörter, 

Stottern, vermehrt auftretende nichtsprachliche Geräusche wie Atmen und 

andere Geräusche des Artikulationsapparates (Schmatzen, Husten, Zungenund 

Lippenbewegungen etc.), schlechte oder unkorrekte Aussprache vieler 

Wörter, vermehrte Verwendung von Akzenten oder Dialekten, hyperartikulierte 

und auch schwach artikulierte Wörter und Phrasen, stille und 

emphatische ( ” äh“) Pausen. In der Praxis kommt oft noch hinzu, daß die 

Erkennung solcher Sprache zusätzlich noch dadurch erschwert wird, daß 

die Kommunikation in nicht schallisolierten Räumen stattfindet, sondern 

in geräuschbehafteten Umgebungen mit Mikrophonen, deren Position und 

Qualität eventuell unbekannt sind. 

2.3.1 Grammatikalität 

Beim fließenden spontanen Sprechen werden viele grammatikalisch unkorrekte 

Sätze gesprochen, teilweise unbeabsichtigt, weil weniger Zeit zur Planung 

eines Satzes als beim Schreiben zur Verfügung steht, und teilweise beabsichtigt, 

um kürzere Äußerungen zu formulieren, die die gewünschte Information 

trotzdem übertragen. In einigen Sprachen entstehen grammatikalische 

Unkorrektheiten auch indirekt durch eine Veränderung der Aussprache. Im 

Deutschen zum Beispiel wird der Akkusativ des unbestimmten Artikels ein“ 

” 

also das Wort einen“ oft verkürzt wie der Nominativ gesprochen. Zum 

” 

Beispiel würde der folgende Satz beim Hörer keine Probleme verursachen: 

” Lassen Sie uns ein Termin ausmachen“. Eine geübte Bürokraft würde beim


Diktat dieses Satzes auch ohne großes Nachdenken die Akkusativform zu 

Papier bringen. Für einen automatischen Spracherkenner gehört aber schon 

ein wenig Intelligenz dazu, dies zu erkennen. Grammatikalisch falsche Sätze 

entstehen auch als mittelbare Folge anderer spontansprachlicher Effekte, die 

im folgenden beschrieben werden. 

Warum sollte ungrammatikalische Sprache schwieriger zu erkennen sein 

als grammatikalisch korrekte? In der Tat sollte da kein Unterschied sein, 

wenn jedes Wort isoliert und ohne Wissen um seinen Kontext erkannt werden 

müßte. Aber selbst, wenn isolierte Wörter erkannt werden müssen, ist das 

Wissen um den Kontext, in dem es gesprochen wird, für die Erkennung 

hilfreich, weil in einem bestimmten Kontext nicht jedes Wort erwartet oder 

zumindest nicht für wahrscheinlich angesehen wird. So läßt sich also eine 

Auswahl oder eine Gewichtung der zu erkennenden Wörter treffen, die 

bei der Erkennung hilfreich sein kann. Und bei fließender Sprache haben 

ungrammatikalische Phasen in einem Satz auch oft eine Unterbrechung 

des Redeflusses zur Folge oder bringen den Sprecher zum Stottern, was 

wiederum schlecht für die Erkennung ist. 

2.3.2 Wortabbrüche 

Ein typisches Phänomen beim spontanen Sprechen sind abgebrochene 

Wörter. Es gibt unterschiedliche Gründe dafür. In manchen Fällen kommt es 

daher, daß wir eine etwas unwahrscheinliche Wortfolge sagen wollen und uns 

eine dazu ähnliche aber viel wahrscheinlichere Folge ” herausrutscht“. Man 

kann sich vorstellen, daß in unserem Gehirn einige festgefahrene Denkstrukturen 

existieren, auch Engramme genannt, die immer wieder ablaufende 

Prozesse quasi vorberechnen und bei Bedarf als aufrufbare Unterprozedur 

bereitstellen. Wenn nun solche Engramme dadurch in Aktion treten, daß sie 

zwar teilweise ablaufen sollen aber an irgendeiner Stelle davon abgewichen 

werden soll, dann geschieht es leicht, daß unser Denkprozeß in diesem 

Engramm quasi eine Weile festgehalten wird und sich erst ” befreien“ muß. 

Dabei schießt er zunächst über den Punkt hinaus, an dem vom Standardweg 

abgezweigt werden sollte. Wir merken aber dann schnell, daß wir im Begriff 

sind, etwas ganz anderes zu artikulieren als wir eigentlich sagen wollten. 

Manchmal rutscht uns ein ganzes Wort oder sogar mehrere Wörter heraus, 

manchmal bemerken wir den Fehler mitten in einem Wort und brechen 

dieses ab. 

In anderen Fällen kommen die Wortabbrüche daher, daß wir zwar bewußt 

etwas sagen, uns aber mitten im Satz entschließen, die Sache anders zu 

formulieren. Üblicherweise wird dann die angefangene Formulierung nicht zu 

Ende gebracht, sondern sofort abgebrochen, gegebenenfalls auch mitten in

einem Wort. 


Zu erkennen, daß ein akustisches Fragment einen Wortabbruch darstellt 

und kein eigenständiges kurzes Wort ist, ist meist nur mit Intelligenz und 

Wissen über den Kontext machbar. Deshalb stellen abgebrochene Wörter 

automatische Spracherkenner vor besondere Probleme. 

2.3.3 Deutlichkeit der Aussprache 

Spontane Sprache zeichnet sich auch dadurch aus, daß man sich keine 

Zeit nimmt, jedes Wort deutlich zu artikulieren. Das führt zum Weglassen 

(Elision) einzelner Laute, ja sogar ganzer Silben. So entstellte Wörter sind 

schwieriger zu erkennen. Oft kommt es vor, daß verschiedene Wörter zu den 

gleichen kleinen Fragmenten zusammenschrumpfen. Ohne Kontextwissen ist 

es nicht möglich festzustellen ob der Laut s“ die Abkürzung für es“, für 

” ” 

” das“ oder für ist“ ist. Genauso schwierig ist es zu bestimmen, ob der Laut 

” 

” n“ von ” den“, ” ein“ oder einen“ kommt. 

” 

Neben Elisionen gibt es auch andere Undeutlichkeiten. So werden Laute 

entstellt, indem beim spontanen Sprechen vermehrt Koartikulationseffekte 

durch sich überlagernde oder gegenseitig beeinflussende Laute auftreten. Es 

werden nicht nur einzelne Laute anders artikuliert als bei sorgfältig geplanter 

Sprache, sondern ganze Lautfolgen werden durch andere ersetzt. Nicht selten 

geht das so weit, daß eine Wortfolge wie ” haben wir“ ersetzt wird durch 

etwas wie ” hammer“. Solche extremen Koartikulationen kommen nicht nur 

in Dialektsprache sondern auch bei Sprache vor, die man auf den ersten 

Blick als Hochdeutsch bezeichnen würde. 

2.3.4 Betonte und unbetonte Pausen 

Da beim spontanen Sprechen nur ein Minimum an Planung stattfindet, aber 

manchmal doch viel Planung nötig, muß das Sprechen für diese unterbrochen 

werden. Menschen verwenden vier Methoden, um die Planungspausen 

zu überbrücken. Die erste und einfachste ist, einfach nicht zu sprechen 

und während der Denkphase still zu sein. Die zweite ist das berühmte 

” äh“, das in verschiedenen Ausprägungen existiert. Im Deutschen sind 

die Formen äh“ und ähm“ die beliebtesten, aber auch mh“ wird gerne 

” ” ” 

verwendet. In anderen Sprachen sind andere solcher betonter (emphatischer) 

Pausen üblich. In einigen Sprachen werden sogar komplizierte Lautfolgen, 

ja sogar mehrsilbige Wörter zum Pausenfüllen benutzt wie zum Beispiel im 

Japanischen das Wort ano“. Die dritte Technik besteht darin, die zuletzt 

”


gesprochene Silbe in die Länge zu ziehen bis die Planung beendet ist, und 

der Redefluß fortgesetzt werden kann. Die vierte wird häufiger bei Sprachen 

mit vielen einsilbigen Wörtern (z.B. im ostasiatischen Raum) beobachtet. 

Dabei wird eine Silbe mehrfach hintereinander wiederholt. Das hört sich 

für manche Hörer ähnlich an wie Stottern, es handelt sich aber um einen 

anderen Effekt. 

2.3.5 Wiederholungen und Stottern 

Wiederholungen entstehen zum Beispiel, wenn man nach einer Unterbrechung 

z.B. durch eine betonte oder unbetonte Pause weiterspricht und dabei 

eine Phrase vollständig sprechen will: ” Da drüben steht eine - eine Vase.“ 

Bei diesem Satz wurde nach der Pause die Nominalphrase ” eine Vase“ als 

komplette Einheit gesprochen. 

Andere Wiederholungen entstehen wie im vorigen Abschnitt beschrieben 

durch Ausfüllen von Planungspausen, dann aber normalerweise nur mit 

einsilbigen Wörtern. 

Mehrsilbige Wörter werden manchmal wiederholt, wenn der Sprecher den 

Eindruck hat, daß die erste Version nicht korrekt oder schwer verständlich 

ausgesprochen wurde. 

Schließlich gibt es auch noch beabsichtigte Wiederholungen, teilweise um 

der Verständlichkeit Willen, teilweise aus rhetorischen Gründen. Solche Fälle 

sind aber, da beabsichtigt, keine spontansprachlichen Effekte im eigentliche 

Sinne. 

Das Wiederholen von einzelnen Wortfragmenten, oft nur Fragmente 

von Silben oder einzelne Phoneme, landläufig auch Stottern genannt, stellt 

Spracherkenner vor Probleme. Stottern kann verschiedene Ursachen haben, 

auf die wir hier aber nicht eingehen wollen. 

2.3.6 Artikulatorische Geräusche 

Häufiger als bei geplanter oder vorgelesener Sprache tauchen bei spontaner 

Sprache Geräusche auf, die wir Menschen leicht ” herausfiltern“ und so 

ignorieren können. Für einen automatischen Spracherkenner sind aber 

Atemgeräusche, Schmatzlaute und andere Geräusche, die durch den Artikulationsapparat 

verursacht werden kaum anders als reguläre Phoneme auch. 

Die häufigste Methode, dieses Problem anzugehen, besteht darin, solche


Geräusche wie jedes sprachliche Wort zu behandeln, und womöglich sogar 

die Kenntnis auszunutzen, daß einige Geräusche vermehrt an bestimmten 

Stellen auftreten. So werden Atempausen gerne zwischen vollständigen 

Phrasen gemacht und selten innerhalb dieser. 

2.3.7 Varianz der Sprechgeschwindigkeit 

In einem interessanten Experiment wurden Personen, die sich spontan 

unterhielten, aufgenommen und die Aufnahmen von Experten so transkribiert, 

daß jeder spontane Effekt und jedes artikulatorische Geräusch 

in der Verschriftung festgehalten wurde. Daraufhin wurden die Sprecher 

aufgefordert, die Verschriftungen noch einmal vorzulesen, dabei aber so 

spontan wie möglich zu klingen, also zu versuchen, das gleiche, was sie zuvor 

spontan gesprochen hatten, noch einmal möglichst exakt nachzusprechen. 

Schließlich wurden Spracherkenner auf beide Versionen angesetzt, und wie 

erwartet waren die Erkennungsraten auf den ursprünglichen Aufnahmen 

wesentlich schlechter als auf den nachgesprochenen Aufnahmen. Ein Grund 

für diese Beobachtung liegt darin, daß die Sprechgeschwindigkeit beim 

Vorlesen konstanter ist, als wenn völlig spontan gesprochen wird. 

Wortfehlerrate [%] 

35 

30 

25 

20 

15 

10 

5 

2 2.2 2.4 2.6 2.8 3 3.2 3.4 

Abb. 2.1. Wortfehlerrate über Sprechgeschwindigkeit 

Sprechgeschwindigkeit [Wörter/Sekunde]


In Abb. 2.1 ist die durchschnittliche (über die einzelnen Teilnehmer der 

DARPA Evaluation gemittelte) Wortfehlerrate auf den Wall Street Journal 

Daten von 1994 in Abhängigkeit von der Sprechgeschwindigkeit aufgetragen. 

Man erkennt nicht nur, daß die Fehlerrate bei sehr hohen Sprechgeschwindigkeiten 

dramatisch ansteigt. Auch bei besonders langsamer Sprechweise 

treten mehr Fehler auf als bei der mittleren Geschwindigkeit. Vergleichbare 

Beobachtungen werden bei Spracherkennern immer wieder gemacht. Je 

mehr die Testbedingungen vom Durchschnitt abweichen, umso schwieriger 

ist die Erkennung. Bei erhöhter Sprechgeschwindigkeit kommt zusätzlich 

zu der schlechten Übereinstimmung der Trainings- und Testdaten noch die 

Problematik hinzu, daß beim schnellen Sprechen viel öfter einzelne Laute 

extrem kurz und verfälscht ausgesprochen werden oder schlimmstenfalls 

sogar ganz ausgelassen werden. 

2.4 Erkennungsszenario 

Je kompakter das Szenario ist, umso wahrscheinlicher ist es, daß ein guter 

Erkenner dafür gebaut werden kann. Dies hängt zum einen damit zusammen, 

daß das Vokabular eines kompakten Szenarios kleiner ist, zum anderen damit, 

daß die Menge der verwendeten Sprachkonstrukte und Wortfolgen auch klein 

ist. Durch ein Szenario wird eine Erwartung vorgegeben. Erkennung bedeutet 

Vergleichen der aufgenommenen Sprache mit möglichen Erwartungen. Je 

kleiner die Menge der Erwartungen, umso weniger wahrscheinlich ist eine 

Verwechslung. 

2.5 Perplexität 

Auch wenn wir den Begriff der Perplexität erst in Kapitel 16 formal 

definieren, so wollen wir ihn doch schon hier verwenden. Zunächst genügt 

es zu wissen, daß die Perplexität ein Maß dafür ist, wie viele Wörter 

ein Erkenner im Schnitt gleichzeitig erkennen können muß. Eine niedrige 

Perplexität bedeutet, daß nur wenige Wörter zu einem Zeitpunkt 

zu unterscheiden sind, was bedeutet, daß die Erkennungsaufgabe leicht 

ist. Eine hohe Perplexität heißt, daß die Verwechslungsgefahr höher ist 

und damit auch die Fehlerwahrscheinlichkeit und die Schwierigkeit der 

Erkennungsaufgabe. So ist es zum Beispiel wesentlich einfacher, von einem 

Arzt diktierte Diagnosen zu erkennen, als den Name einer Person, die sich 

vorstellt. Während die Sprache von ärztlichen Diagnosen relativ uniform 

ist und an einer Stelle nur wenige verschiedene Wörter erwarten läßt,

2.6 Die Signalqualität 25 

muß beim Erkennen eines Namens dieser aus einer Menge von mehreren 

Millionen ausgewählt werden. Im Gegensatz zu so manchem ersten Eindruck 

ist es auch keineswegs schwierig, Wörter wie ” Desoxyribonukleinsäure“ 

zu erkennen. Womit könnte denn so ein Wort überhaupt verwechselt werden? 

2.6 Die Signalqualität 

Eine interessante Beobachtung kann man mit fast jedem Spracherkenner machen: 

Wenn die Übereinstimmung der zu erkennenden Aufnahme mit einem 

Muster oder einem Modell über der Zeit gemessen wird, hat die Meßkurve 

stets in etwa den gleichen Verlauf, unabhängig vom Vergleichsmuster oder 

dem zugrundegelegten Modell. Das heißt, die Varianz der Übereinstimmung, 

die durch den Vergleich mit verschiedenen Modellen entsteht, ist meist 

deutlich kleiner als die Varianz, die durch das Signal beziehungsweise seine 

Qualität selbst entsteht. Dies mag auf den ersten Blick als Problem für die 

Spracherkennung erscheinen. In der Praxis kommt es aber auf die Varianz 

der Signalqualität gar nicht so sehr an. Denn wenn es darum geht, das am 

besten passende Modell zu einer Aufnahme zu finden, werden tatsächlich nur 

die Übereinstimmungsunterschiede bei Vergleich mit verschiedenen Modellen 

gemessen und davon das Optimum für die Klassifikation verwendet. 

Trotzdem hat die Qualität des Signals einen großen Einfluß auf die Erkennungsrate. 

Dabei sind manche Störungen, die der Mensch als unerträglich 

empfindet (z.B. Rauschen) für Spracherkenner weniger problematisch und 

andere, die der Mensch fast überhören kann (z.B. laute Hintergrundmusik, 

Stimmen anderer Menschen) vom Erkenner sehr schwer in den Griff zu 

bekommen. 

Die Signalqualität hängt von der Aufnahmeumgebung ab. Welche 

Geräusche außer der zu erkennenden Sprache gibt es noch? Was für ein 

Mikrophon wird verwendet und wie ist es relativ zum Sprecher positioniert? 

Was für ein Übertragungskanal wird verwendet (störungsfrei oder Telefon)? 

2.6.1 Nahbesprechungsmikrophone 

Nahbesprechungsmikrophone haben die Eigenschaft, daß sie die Leistung 

des Audiosignals messen, welche umgekehrt proportional zum Quadrat des 

Abstands der Schallquelle vom Mikrophon ist. Das heißt, daß ein Mikrophon, 

das im Abstand von ca. 2 cm vom Mund – typisch für sogenannte Headsets 

oder Bügelmikrophone – befestigt ist, den Sprachschall 2000- bis 3000-facher


stärker aufnimmt, als gleichlaute Geräusche in etwa 1 m Entfernung. Der 

Autor hat selbst die Erfahrung gemacht, daß bei Verwendung eines billigen 

Nahbesprechungsmikrophons die Erkennungsgenauigkeit des auf mehreren 

Messen vorgeführten Spracherkenners nicht merklich darunter leidet, wenn 

am 10 m entfernten Nachbarstand so laute Musik gespielt wird, daß man sich 

dort fast nur schreiend unterhalten kann. Fast die gesamte Forschung auf 

dem Gebiet der Spracherkennung bis Mitte der neunziger Jahre wurde im 

wesentlichen mit Nahbesprechungsmikrophonen gemacht. Die Signalqualität 

von fernbesprechbaren Mikrophonen – oft auch Raummikrophone genannt 

– ist selbst bei vorherigem Wissen über den Abstand der Schallquelle zum 

Mikrophon deutlich schlechter. Die größten Schwierigkeiten aber kommen 

dadurch zum Vorschein, daß Störgeräusche jeglicher Art viel stärker in 

die Aufnahmen eingehen, vor allem dadurch, daß die Variationen der 

Signale, hervorgerufen durch viel mehr verschiedene mögliche Abstände und 

Eigenschaften der Raumakustik, stark zunehmen. 

Man kann feststellen, daß selbst bei großem Abstand (von ca. 2 bis 3 

Metern) Sprache noch verhältnismäßig gut erkannt werden kann, wenn zuvor 

dieser Abstand genau bekannt ist und keine Störgeräusche vorhanden sind. 

Das gelingt nur deshalb gut, weil der Spracherkenner auf diese besonderen 

Abstands- und Raumakustikverhältnisse spezialisiert wird. Wenn aber keine 

idealen Bedingungen vorliegen, und der Abstand nicht bekannt ist, fällt die 

Erkennungsgenauigkeit dramatisch ab. 

2.6.2 Telefongespräche 

Auch wenn in den Zeiten der Breitband-Individualkommunikation es immer 

mehr möglich ist, Sprache nahezu unverfälscht zu übertragen, so ist dennoch 

damit zu rechnen, daß in vielen Teilen der Welt noch eine Zeit lang Sprachkommunikation 

über das Medium Telefon geführt wird, so wie es seit über 

hundert Jahren praktiziert wird. 

Fast alle Telefonnetze der Welt verwenden einen Bandpaßfilter, der 

nur einen Teil des akustischen Spektrums durch die Leitungen überträgt – 

typischerweise in etwa zwischen 300 Hz und 3000 Hz. Nicht nur automatische 

Spracherkenner, auch Menschen haben größere Probleme, Telefonsprache 

zu verstehen, als breitbandige Sprache. Insbesondere diejenigen Laute, die 

sich vor allen durch Frequenzanteile jenseits der oberen Grenze von 3000 

Hz manifestieren sind schwerer zu unterscheiden. So kann man z.B. am 

Telefon ein S von einem F viel schwerer trennen, als wenn man dem Sprecher 

gegenüber steht.

2.6 Die Signalqualität 27 

Allerdings besteht die Problematik bei der Telefonspracherkennung nicht 

nur in der kleineren Bandbreite der Signale, sondern auch darin, daß die 

Telefonleitungen und die Übertragungsgeräte (Telefone, Vermittlungsstellen, 

usw.) die Signale zusätzlich verzerren. 

Schließlich bleibt noch zu erwähnen, daß der Sprechstil beim Telefonieren 

sich vom Sprechen mit einem direkt sichtbaren Gegenüber unterscheidet. 

Gestik und Mimik werden bei rein akustischen Telefonen nicht übertragen 

und können somit nicht als zusätzliches Kommunikationsmittel verwendet 

werden. Daher werden oft Sachverhalte, die sonst mittels Gesten ausgedrückt 

werden, mit Worten umschrieben. Auch das Wissen um die Verschlechterung 

des Sprachsignals führt dazu, daß man teilweise versucht, überdeutlich zu 

sprechen (Hyperartikulation). 

2.6.3 Hintergrundgeräusche 

Auch wenn bei Nahbesprechungsmikrophonen nur wenige Probleme mit 

Hintergrundgeräuschen zu beobachten sind, so kann man dennoch feststellen, 

daß bei hochspezialisierten Erkennern, zum Beispiel solchen, die stark auf 

einen bestimmten Sprecher in einer bestimmten Umgebung eingestellt sind, 

wie die ersten kommerziell erhältlichen Erkennungssyteme, der Wechsel der 

Umgebung oder auch das Hinzukommen von Hintergrundgeräuschen, die in 

der Trainingsphase noch nicht vorhanden waren, zu geringerer Erkennungsleistung 

führt. 

In vielen Fällen ist die Verwendung von Nahbesprechungsmikrophonen 

nicht opportun. Das Tragen eines Bügelmikrophons schränkt in einigen 

Situationen die (Bewegungs-)Freiheit des Sprechers zu sehr ein. Bei der 

Bedienung von Automaten, z.B. eines Fahrkartenautomaten am Bahnhof, 

kann nicht erwartet werden, daß der Benutzer sich ein Mikrophon zum 

Munde führt oder seinen Mund nahe an das Mikrophon halten muß. 

Auch beim Autofahren ist es angenehmer, wenn das Mikrophon nicht am 

Kopf befestigt ist, sondern sich beispielsweise irgendwo am Armaturenbrett 

befindet. Bei dieser Entfernung sind aber zahlreiche Geräusche wie das 

Motorengeräusche, der Lärm der anderen Verkehrsteilnehmer, die Geräusche 

von Geräten am und im Auto (Blinker, Scheibenwischer, Radio) deutlich in 

der Sprachaufnahme zu hören. 

Während es bei einigen Autogeräuschen wie dem eigenen Motor und 

dem Radio möglich ist, diese dort abzugreifen, wo sie entstehen und dann 

mittels relativ einfacher Filter aus der Sprachaufnahme nahezu komplett 

zu entfernen, so ist dies bei anderen Geräuschen, vor allem der Sprache


anderer Personen, kaum möglich. Der so genannte Cocktail-Party-Effekt 

beschreibt die Problematik, eine einzelne Stimme aus einem Wirrwarr vieler 

verschiedener Stimmen herauszuhören. Wir Menschen sind bei dieser Aufgabe 

erstaunlich gut. Wir können selbst relativ leise Stimme von Personen 

verfolgen und mithören, die sich in einer Menschenmenge weiter weg von uns 

befinden, als manche in unmittelbarer Nachbarschaft sprechende Menschen. 

Wenn wir uns konzentrieren, können wir aus einer Aufnahme, auf der zwei 

bis drei Leute mit gleicher Lautstärke sprechen jeden einzelnen Sprecher 

heraushören und erkennen, was er sagt. Die Spracherkennungstechnik ist bei 

weitem noch nicht in der Lage diese Fähigkeit auch nur annährend so gut 

nachzuahmen. 

2.7 Das Vokabular 

Ein Kriterium, das die Anfänge der Entwicklung der Spracherkennungsforschung 

begleitet hat war die Größe des Erkennervokabulars, das heißt 

die Zahl der verschiedenen Wörter, die ein Erkenner gleichzeitig erkennen 

kann. Während man früher vor allem an der Erkennung einzelner Laute 

und später einzelner vollständiger Wörter arbeitete, wurde klar, daß die 

Schwierigkeit mit der Zahl der zu erkennenden Wörter schnell steigt. 

Spracherkennungssysteme waren nur für sehr eingeschränkte eng umrissene 

Aufgaben möglich. Anfang und Mitte der Achtziger Jahre sprach man 

noch von großen Vokabularen ab ca. 1000 Wörtern. In den Neunzigern war 

die Größe von 64000 Wörtern lange Zeit Standard für große Vokabulare 

(LVCSR = Large Vocabulary Continuous Speech Recognition). Diese Größe 

hatte drei Ursachen: Zum einen läßt sich so das Vokabular mit 16 Bits 

codieren, zum anderen genügt diese Größe, um im Englischen mehr als 

99% der in Zeitungstexten verwendeten Wörter abzudecken, und drittens 

wurde der in den Neunzigern beliebte Benchmarktest, der auf vorgelesenen 

Wall-Street-Journal-Artikeln basiert, auf eine Vokabulargröße von 60000 

Wörtern festgelegt. 

2.8 Kommunikationsart 

Einen wichtigen Einfluß auf die Schwierigkeit einer Erkennungsaufgabe hat 

die Art der Kommunikation. Damit meinen wir, ob sich zwei Personen 

miteinander unterhalten, also ein Dialog stattfindet, oder ob eine Person 

allein redet (z.B. Briefe diktiert oder einen Vortrag hält).

2.8 Kommunikationsart 29 

zu erkennende Aufgabe Vokabulargröße 

Ein/Aus-Schalter, Not-Aus-Schalter 1 

Triviales Menü (Ja/Nein) 2 

Ziffern 0 bis 9 (z.B. Telefonwahl) 10 + x 

Einfache Maschinen bedienen 20 − 500 

Informationssysteme 

(Zugfahrplan, Flugbuchung, Resource Management) 500 − 5 000 

Alltägliche Kommunikation 10 000 − 20 000 

Bürokorrespondenz 20 000 − 60 000 

Normales Englisch −200000 

Deutsche Zeitschrift (Süddeutsche) während eines Jahres 1 600 000 

Tabelle 2.1. Einige Beispiele für Vokabulargrößen 

Bei Dialogen oder gar bei Diskussionen mit mehreren Beteiligten kommen 

Probleme hinzu, die bei einzelnen Sprechern nicht zu erwarten sind, wie zum 

Beispiel das Abbrechen des Sprachflusses mitten im Satz, weil gerade eine 

andere Person spricht, oder auch das Inswortfallen oder Gleichzeitigsprechen 

mehrerer Sprecher. 

Der Stil der Sprache hängt auch stark davon ab, was man vom Kommunikationspartner 

erwartet. Mit einer vertrauten Person spricht man viel 

umgangssprachlicher, verwendet häufiger Dialekte, akustische Verschmierungen 

und Floskeln, die alle Gesprächspartner kennen. Beim Reden mit 

Fremden spricht man in der Regel deutlicher und vorsichtiger. 

Solange das Sprechen mit Maschinen nicht alltäglich ist - und vermutlich 

auch dann nicht, wenn es soweit ist - ist der Dialog mit Maschinen oft 

irgendwie unangenehm. Als Anrufbeantworter noch eine Besonderheit waren 

und in Deutschen Telefonbüchern sogar durch ein Q neben der Telefonnummer 

gekennzeichnet waren, empfanden viele Leute das Sprechen einer 

Aufnahme als sehr unnatürlich und irgendwie seltsam. Anrufbeantworter 

sind inzwischen alltäglich geworden. Dennoch sprechen sehr viele anders als 

mit einem menschlichen Gesprächspartner. 

Wenn man Menschen dabei beobachtet, wie sie sich mit Maschinen unterhalten 

(z.B. mit einer Zugfahrplanauskunft oder einem System, das Auskunft 

über das Kinoprogramm gibt) kann man oft zwei Extreme beobachten. 

Manche Menschen sprechen übervorsichtig und artikulieren übertrieben 

langsam mit vielen Pausen, verwenden ein vereinfachtes Vokabular und 

reden ähnlich wie mit einem Kind oder einem Menschen der die Sprache


nicht versteht. Andere wiederum versuchen sich so zu verhalten als würden 

sie mit einem Menschen reden, was oft dazu führt, daß die Grenzen des 

Erkennungssystems überschritten werden, und das System sich nicht wie 

erwartet verhält. Teilweise wird dann versucht, das System ins Lächerliche 

zu ziehen oder zu provozieren. Meist endet das damit, daß der Benutzer 

enttäuscht (oder manchmal auch erheitert) die Kommunikation aufgibt. 

2.9 Wie schwierig ist Spracherkennung 

Im Jahr 1971 hat die von der US-Amerikanischen Regierungsagentur ARPA 

eingesetzte ” Speech Understanding Systems Study Group“ einen Bericht [?] 

verfaßt, in dem die so genannten 19 Dimensionen von sprachverstehenden 

Systemen aufgelistet werden. Diese 19 Eigenschaften beschreiben insbesondere 

die Schwierigkeit der Erkennungsaufgabe. Es waren dies im einzelnen: 

Art der Sprache (Speech) einzelne Kommandos oder fließend 

Anzahl der Spracher einer oder mehrere 

Art der Sprecher Muttersprachler, Dialekt, etc. 

Art der Umgebung Geräusche, Lärm 

Kommunikationssystem Übertragungsmedium, Telefon 

Systemtraining Menge der Trainingsdaten 

Sprechertraining Vorbereitung der Benutzer 

Vokabulars Größe und ” Freiheit“ des Wortschatzes 

Art der Sprache (Language) Menge der syntaktischen Regeln 

Aufgabe des Systems Menge der semantischen Regeln 

Sprecherpsychologie Modell des Benutzers 

Interaktivität Komplexität des Dialogs 

Zuverlässigkeit Welche/Wieviele Fehler sind tolerierbar 

Rechenzeit Wie schnell muß das Ergebnis vorliegen 

Rechnerleistung Anforderung an die Hardware 

Speicher Anforderung an den Rechnerspeicher 

Systemorganisation Komplexität des gesamten Systems 

Kosten Preis aller Bestandteile 

Fertigstellungstermin Wann wird das System fertig sein 

Abgesehen davon, daß uns heute einige Punkte als überspezifiziert erscheinen, 

insbesondere die Menge der Punkte über die Systemanforderungen, 

gibt es einzelne Dimensionen, die wir heute anders formulieren würden als 

1971. Immerhin war die Erkennung völlig freier Sprache mit Vokabularen in 

der Größenordnung von 10 5 Wörtern damals noch nicht machbar. So würden 

wir heute die Dimension ” Vokabular“ ergänzen durch die Perplexität der 

Aufgabe (die Zahl der im Mittel an einer Stelle des Erkennungsvorgangs zu

erwartenden Wörter). 

2.9 Wie schwierig ist Spracherkennung 31 

In der obigen Liste beziehen sich die meisten Punkte auf die Komplexität 

der Aufgabe. Zweifelsohne war der Rechen- und Speicheraufwand lange Zeit 

ein die Forschung stark einschränkendes Kriterium. Selbst heute, da die Leistung 

gewöhnlicher verbreiteter Prozessoren um mehrere Größenordnungen 

über derer von 1971 liegt, wären wir nicht so weit, wie wir sind, wenn nicht 

schon damals viel Energie darin investiert worden wäre, Spracherkennung 

mit den wenigen zur Verfügung stehenden Ressourcen zu machen. Es ist 

auch heute nicht abzusehen, daß die Leistung von Standardrechnern so 

dramatisch zunehmen wird, daß ein ökonomischer Umgang mit Zeit und 

Speicherplatz nicht mehr wichtig wäre. 

Dennoch kann man sagen, daß der größte Teil der Probleme der Spracherkennung 

nicht von der Komplexität sondern eher von der Variabilität 

kommt. Es ist so, daß aus den wenigen Bits pro Sekunde, die im Gehirn 

eines Menschen entstehen, um eine Nachricht zu formulieren, schließlich 

eine Folge von typischerweise 256000 Bits pro Sekunde wird (s. Abb. 2.2). 

Ohne bedeutenden Informationsverlust, lassen sich diese 256 KBit um 

ca. 90% reduzieren. Diese Datenflut läßt sich relativ einfach und schnell 

verarbeiten. In einem Bruchteil der Zeit, in der die Daten anfallen, werden sie 

verarbeitet und in komprimierter Form dem eigentlichen Erkenner zugeführt. 

Technisches Gegenstück 

Sprachgenerierung 

gedruckter Text 

(50 bps) 

Phonemfolgen/Prosodie 

Formulierung 

der Nachricht 

(200 bps) 

diskret 

Codierung 

mit Sprache 

kontinuierlich neuromuskuläre 

Aktionen 

artikulatorische 

Bewegungsparameter 

(2000 bps) 

Schallquelle 

Stimmbänder 

Sprecher 

Artikulattionsapparat 

(30000 bps) 

Datenübertragung 

Abb. 2.2. Elemente der Sprachkommunikation 

Sprachverstehen 

Verstehen 

der Nachricht 

Sprachdekodierung 

Neuroübertragung 

Basilarmembran 

Zuhörer 

Bedeutung/Semantik 

Phoneme, Wörter, 

Sätze, Prosodie 

diskret 

kontinuierlich 

Merkmalsextraktion 

Spektralanalyse


Aus der Sicht des automatischen Spracherkenners besteht Sprache aus 

einer über der Zeitachse aufgetragenen Folge von Spannungsmessungen, die 

am Mikrophon durch Luftdruckänderungen ausgelöst werden. In Abb. 2.3 

sind drei Aufnahmen des Wortes ” sieben“ von der selben Person dargestellt. 

Obwohl es sich jedes Mal um dasselbe Wort handelt, sehen die Aufnahmen 

sehr verschieden aus. Bis jetzt ist es noch niemandem gelungen definitiv 

festzulegen, wie bestimmte Laute in einer Aufnahme aussehen müßten oder 

welche Eigenschaften die Aufnahme haben müßte. Man kann sehr wohl 

einige Eigenschaften für die meisten Laute angeben. Allerdings zeigt sich in 

der Praxis, daß zum einen diese Eigenschaften nicht immer leicht zu messen 

sind und deren konkrete Ausprägung sehr stark schwanken kann, zum 

anderen genügt selbst die Feststellung dieser Eigenschaften nicht immer, um 

einen Laut zu identifizieren. 

Es ist faszinierend, mit welcher Selbstverständlichkeit, wir Menschen einen 

Laut oder ein Wort verstehen können, unabhängig davon, ob sie laut oder 

leise, schnell oder langsam gesprochen sind, ob sie normal gesagt, geflüstert, 

geschrien oder gesungen werden, unabhängig davon, wer sie spricht, in welcher 

Gemütslage der Sprecher sind befindet, und unabhängig von vielen anderen 

das Signal maßgeblich verändernden Kriterien. 

Abb. 2.3. Drei Aufnahmen des Wortes ” sieben“

3. Geschichte der Spracherkennung 

Die Idee, Sprache automatisch zu erkennen, hat schon die Menschen im 

Altertum fasziniert. Weltbekannt sind die Geschichten um Ali Baba, der 

versuchte, mittels des Paßwortes ” Sesam öffne dich“ in eine Höhle zu 

kommen. In Sizilien nahe der antiken Stadt Syrakus gibt es noch heute eine 

Höhle, die das Ohr des Dionysos genannt wird. Sie ist so geformt, daß sie wie 

eine riesige Ohrmuschel wirkt und im Altertum von den Syrakusern dazu 

benutzt wurde, die Geräusche von Angreifern frühzeitig zu erkennen. 

Die ersten Versuche, Sprache auf irgend eine algorithmische Art zu 

bearbeiten, gehen wohl auf Homer Dudley zurück. Der in vielen Abhandlungen 

über Spracherkennung zitierte Artikel [?] von 1939 ” Remaking 

Speech“ und schon zuvor in [?] beschreibt eine Erfindung, die Homer 

Dudley, ein Mitarbeiter der Bell Telephony Laboratories, 1928 gemacht 

hatte, die es ermöglichen sollte, Sprache über ein im selben Jahr verlegtes 

transatlantisches Kabel zu übertragen, obwohl das Kabel nur Frequenzen 

bis maximal 100 Hz übertragen konnte. Zwar waren 100 Hz für die damalige 

Zeit und für eine so weite Entfernung enorm, jedoch viel zu wenig, um damit 

verständliche Sprache zu übertragen. Dudleys Idee war es nun, einen so 

genannten ” Vocoder“ zu bauen, der bestimmte Eigenschaften des Sprachsignals 

extrahiert, diese codiert und über das Kabel schickt. Auf der anderen 

Seite könnte dann das Sprachsignal aus den übertragenen Eigenschaften 

wieder synthetisiert werden. Sprachübertragung durch elektromagnetische 

Wellen war damals schon weit verbreitet, selbst transatlantisch war dies 

schon gelungen, und im Hinblick darauf, daß damals nicht klar war, welche 

Eigenschaften des Sprachsignals übertragen werden sollten – die Bestimmung 

der Zustände des Artikulationsapparates war zwar angedacht aber technisch 

nicht machbar – war es nicht weiter verwunderlich, daß die Erfindung gute 

zehn Jahre benötigte um zum ersten Mal ernsthaft eingesetzt zu werden. 

Im Jahr 1939 wurde ein riesiger Apparat aus vielen Röhrenverstärkern und 

anderen klobigen Bauteilen auf der Weltausstellung in New York vorgeführt, 

der die spektralen Eigenschaften des Signals analysieren und codieren 

konnte. Vermutlich war die Hauptattraktion des Gerätes das Abspielen 

von lustig klingender Sprache, nachdem diese auf 1551 Bit pro Sekunde 

komprimiert worden war. Im zweiten Weltkrieg allerdings wurde es nötig,

34 3. Geschichte 

eine abhörsichere Leitung zwischen dem Weißen Haus in Washington und 

London zu verwenden auf der auch Sprache übertragen werden konnte. Da 

Dudleys Erfindung die Sprache digitalisierte, war es ein Leichtes, die digitale 

Version zu verschlüsseln und über das Atlantikkabel zu übertragen. Schon 

bald wurden höhere Übertragungsraten möglich, und die Verwendung der 

Halbleitertechnik ermöglichte weiteren Fortschritt, so daß Dudleys Vocoder 

bald nicht mehr aktuell war. Jedoch ist es ihm zu verdanken, daß viele 

Sprachforscher sich Gedanken gemacht haben, welche Eigenschaften ein 

Sprachsignal ausmachen, was benötigt wird, um den Inhalt des Gesprochenen 

wiederzuerkennen, und wie diese Eigenschaften sinnvoll codiert werden 

können. Auch spätere Sprachanalysesysteme (z.B. [?]) bedienten sich des 

Begriffs ” Vocoder“. 

Schon Ende der vierziger, Anfang der fünfziger Jahre [?] [?] wurden 

Forschungsarbeiten durchgeführt, um aus digitalisierten Sprachsignalen 

deren Inhalt zu extrahieren. Die ersten Experimente wurden noch auf 

dem reinen Signal gemacht. Später ging man dazu über, das Signal so 

vorzuverarbeiten, daß als Merkmalsraum für die Erkennung nicht mehr der 

Zeitbereich, sondern der Frequenzbereich des Signals verwendet wurde. Die 

erstaunlich guten Leistungen von Experten [?], die anhand einer vorliegenden 

Spektralanalyse eines Sprachsegments das Gesagte korrekt herauslesen 

konnten, ermunterte die Forscher dazu, das Spektrum als das Merkmal der 

Wahl für die automatische Spracherkennung zu verwenden. 

Die frühen Forschungsarbeiten wurden mit Aufnahmen von Vokalen eines 

Sprechers durchgeführt [?] [?]. Erst später fing man an, größere Spracheinheiten 

zu erkennen. Als es möglich war, ganze Wörter zu erkennen [?] [?], 

entstanden verschiedene Anwendungen, wie zum Beispiel die Steuerung von 

Geräten oder die Identifizierung von Sprechern. Der Benutzer mußte jedes 

zu erkennende Wort ein oder mehrere Male sprechen, damit der Erkenner 

Referenzmuster anlegen konnte. Während der Erkennung wurde dann das 

Gesprochene mit den gespeicherten Referenzen verglichen und die Klasse 

des am besten passenden Musters identifiziert. 

In den siebziger Jahren wurde die Erkennung von kontinuierlicher 

sowie sprecherunabhängiger Sprache vorangetrieben [?]. Die Größen der 

verwendeten Wortschätze und die Vielfalt der akustischen Eigenschaften 

verschiedener Sprecher machten es nicht mehr praktikabel, für jedes zu 

erkennende Wort Referenzmuster zu sammeln und abzuspeichern. Die 

angelegten Referenzmuster bezogen sich nun auf kleinere Spracheinheiten, 

wie Phoneme, aus denen jedes Wort des Erkennervokabulars konkateniert 

werden konnte. Der Einsatz kontinuierlicher Sprache brachte einen weiteren 

Schwierigkeitsgrad mit sich. Nun waren die Grenzen der einzelnen Wörter 

nicht mehr vorgegeben und mußten vom Erkenner selbst gefunden werden,

3. Geschichte 35 

so daß neuartige Fehler wie das Nichterkennen gesprochener Wörter oder das 

fälschlicherweise Erkennen nicht gesprochener Wörter auftraten. Außerdem 

werden die Wörter in kontinuierlicher Sprache anders ausgesprochen, die 

Satzmelodie fängt an eine Rolle zu spielen, und an den Wortgrenzen 

treten Koartikulationseffekte auf. Zur Lösung all dieser Probleme boten 

sich Hidden Markov Modelle als die geeignetste Lösung an. Sie boten die 

Möglichkeit, komplexe Spracheinheiten wie Wörter oder Sätze aus kleineren 

Einheiten leicht zusammenzusetzen. Suchtechniken ermöglichten es, unter 

Zuhilfenahme von Sprachmodellen Wortfolgen zu erkennen, die nie zuvor 

in der Entwicklung der Erkenner oder der Sprachmodelle beobachtet wurden. 

Verschiedene Anwendungen für das Erkennen sprecherunabhängiger 

Sprache wurden entwickelt. Dazu gehörten so einfache Dinge wie das 

Bedienen von Geräten, aber auch so komplizierte wie die Übersetzung in 

eine andere Sprache [?]. Lange Zeit war eine ausreichend gute Erkennung 

nur bei einer Einschränkung der Domäne gesichert. Das Diktieren beliebiger 

Texte war dennoch nur mit kurzen Pausen zwischen je zwei Wörtern sinnvoll 

möglich. Bis heute hat sich auf dem Markt noch kein Produkt etabliert, 

das es erlaubt, beliebige Diktate von beliebigen Sprechern mit zufriedenstellender 

Genauigkeit zu erkennen. Selbst die Forschungsprototypen sind 

nur wenig besser als die käuflich erhältlichen. Die Anforderungen an ein 

Diktiersystem sind normalerweise so hoch, daß jedes mißverstandene Wort 

als unakzeptabler Fehler angesehen wird. Bei anderen Anwendungen, bei 

denen die Sprache dazu verwendet wird, eine bestimmte Aktion zu initiieren, 

können Fehlerkennungen toleriert werden, solange immer noch die korrekte 

Aktion durchgeführt wird. Diktierte Sprache ist in der Regel anders als 

spontane Sprache, weil der Diktierende sorgfältiger spricht und versucht, 

grammatikalische Fehler und Störungen wie Geräusche oder Stottern zu 

vermeiden. Das heißt, daß die Erkennung spontaner Sprache eine größere 

Herausforderung darstellt, was sich auch in der Praxis durchweg in Form 

schlechterer Erkennungsraten bemerkbar macht. Dennoch lassen sich die 

meisten Erkenntnisse, die in der Forschung mit diktierter Sprache gewonnen 

werden, auch auf die Erkennung spontaner Sprache anwenden. 

Einer der wichtigsten Motoren der Spracherkennungsforschung waren 

die Programme der Defense Advanced Research Projects Agency“ 

” 

(DARPA – zeitweise auch nur ARPA genannt) der US Regierung, von 

deren Seite zunehmend Wert darauf gelegt wird, Sprache unter widrigen 

Bedingungen (schlechte Aufnahmequalität, laute Hintergrundgeräusche, 

Nichtmuttersprachler, Telefonsprache etc.) zu erkennen. Obwohl diese Ziele 

erstrebenswert sind, ist die Leistung der weltbesten Erkenner auf sogenannter 

” sauberer“ Sprache noch lange nicht gut genug, um das Problem als gelöst 

zu betrachten. Aus Untersuchungen [?] [?] weiß man, daß Menschen beliebige 

klare Aufnahmen in ihrer Muttersprache mit weniger als einem Prozent


Fehler erkennen können. Davon sind die heutigen Spracherkenner noch eine 

Größenordnung entfernt. Abb. 3.1 zeigt die Beschreibung der Situation und 

die etwas zu optimistischen Erwartungen der DARPA Mitte der neunziger 

Jahre, die bis heute nocht nicht in vollem Umfang erfüllt werden konnten. 

Mobilität Einsatzmöglichkeiten 

Panzer, Hubschrauber 

(überall) 

Geräuschumgebung 

Automobilgeräusche 

Funkverbindungen 

Mobiltelefone 

normales Büro 

verschiedene Mikrophone 

Telefongespräche 

Sprechstil 

geplante 

Sprache 

stiller Raum 

hochqualitative 

Mikroph. 

natürlichsprachlicher 

Mensch-Maschine Dialog 

alle Sprechstile, incl. 

Mensch-zu-Mensch Dialoge 

alle Sprecher einer Sprache 

auch Nichtmuttersprachler 

regionale Akzente 

mehrere Sprachen 

sprecherabängig 

vorsichti- anwendungs- 

ges Lesen spezifisch 

Englisch 

sprecheradaptiv 

mehrere Expertenjahre 

für Sprachmodell 

Abb. 3.1. Zeitplan von Allan Sears (DARPA) 

ein Ingengieurjahr 

mit spezifischen Daten 

Benutzermenge 

Portierbarkeit auf neue Anwendungen 

anwendungsunabhängig 

oder -adaptiv 

Verfügbarkeit Kosten 

1985 1995 1999 2002 

3.1 Geschichte der (D)ARPA Evaluationen 

Abb. 3.2 zeigt die Entwicklung der Fehlerraten der besten Erkenner bei 

DARPA Evaluationen. Noch vor Beginn der Zeitachse in Abb. 3.2, in der Zeit 

von 1971 bis 1976, initiierte die DARPA das SUR (Speech Understanding 

Research) Projekt mit dem Ziel, Spracherkenner zu entwickeln, die bis dahin 

unerreichte Leistungen erbringen sollten. So wurde erwartet, daß zusammenhängende 

Sprache erkannt werden sollte. Dabei sollte es möglich sein, 

mehrere Sprecher zu verstehen. Das System sollte nicht notwendigerweise 

vollständig sprecherunabhängig sein, aber zumindest sollte die Menge and 

Daten, die benötigt würde um auf einen neuen Sprecher umzustellen, gering

% Wortfehlerrate 

100 

60 

50 

40 

30 

20 

10 

6 

5 

vorgelesene spontane 

Sprache Sprache 

RM 

5000 

Wörter 

3.1 Geschichte der (D)ARPA Evaluationen 37 

Telefonkonversationen 

WSJ 

20000 

Wörter 

unbeschränktes 

Vokabular 

1000Wörter 60000Wörter 

Nachrichten 

SWB 

4 

’87 ’88 ’89 ’90 ’91 ’92 ’93 ’94 ’95 ’96 ’97 ’98 ’99 ’00 ’01 ’02 ’03 ’04 

BN 

Abb. 3.2. Entwicklung der Worterkennungsraten mit der Zeit 

STT 

Meetings 

gehalten werden. Die Größe des Vokabulars wurde mit mindestens 1000 

Wörtern veranschlagt, und die Menge der erlaubten Äußerungen wurde 

durch eine künstliche Grammatik mit einem mittleren Verzweigungsgrad 

von 33 definiert. Die zu entwickelnden Systeme sollten auf einem 100 

MIPS Rechner weniger als 10% Fehler machen und dabei nur wenige Male 

langsamer als in Echtzeit laufen. 

Das erfolgreichste System des SUR Projektes wurde 1976 an der Carnegie 

Mellon University in Pittsburgh entwickelt und erfüllte alle Erwartungen. 

Bei nur ca. 20 Adaptionssätzen je Sprecher konnte HARPY die Sprache von 

fünf Sprechern mit weniger als 5% Fehlern erkennen. Auf einem 4 MIPS 

Rechner (einer PDP-10 von digital) lief der Erkenner in ca. 80-facher Echtzeit. 

Seit dem SUR Projekt wurden bis heute verschiedene Evaluationen von 

Spracherkennern organisiert. Ende der Achtziger und Anfang der Neunziger 

war noch die so genannte Resource Management Task der internationale 

Standard Benchmark für die Leistungsmessung von Erkennern für sprecherunabhängige 

kontinuierliche Sprache. Die Resource Management Task (RM) 

bot für das Training der Erkenner mehrere Stunden Sprachaufnahmen von 

ca. 80 verschiedenen Sprechern. Ebenso wie im SUR Projekt wurde auch bei 

RM eine künstliche Grammatik verwendet die geeignet war, die Kommandos 

zu beschreiben, die ein Marineoffizier zur Kontrolle und Steuerung der 

weltweiten US-Marineressourcen sprechen sollte. Die Vokabulargröße betrug


auch hier ca. 1000 Wörter. 

Als abzusehen war, daß RM der Forschung kaum noch Herausforderungen 

bot, ging die DARPA dazu über, schwierigere Aufgaben zu verfolgen. Anfang 

der Neunziger wurden die ATIS (Air Travel Information System) und WSJ 

(Wall Street Journal) Benchmarks definiert. Bei ATIS bestand die Aufgabe 

darin, nicht nur die Sprache einer Person zu erkennen, die einen Flug buchen 

möchte, sondern auch das Gesprochene zu verstehen und mit dem Sprecher 

einen Dialog zu führen, bis der gewünschte Flug gefunden und gebucht 

war. Die größte Herausforderung gegenüber RM stellte jetzt die spontane 

Sprache dar. Zwar waren die zu sprechenden Sätze in der Regel nicht sehr 

kompliziert, aber es wurde keine feste Grammatik vorgegeben, die Benutzer 

konnten frei sprechen. Die Behandlung spontaner Sprache mußte mit neuen 

Problemen (fehlerhafte Aussprache, Geräusche, Wortabbrüche etc.) fertig 

werden. Die neue Herausforderung bei WSJ bestand vor allem in dem großen 

Vokabular. Ausgehend von zunächst 5000 Wörtern wurde der Benchmark 

in wenigen Jahren auf schließlich offiziell unbeschränkte (praktisch aber 

60000 Wörter große) Vokabulare ausgeweitet. Derart große Vokabulare 

brachten nicht nur die Problematik mit sich, mehr verwechselbare Wörter 

zu besitzen, sie trieben auch die entwickelten Erkenner an die Grenzen der 

Rechnerkapazitäten. Die zur Verfügung gestellten Trainingsdaten übertrafen 

beim WSJ alle bis dahin verfügbaren. Mit insgesamt fast 200 Stunden 

Sprachaufnahmen von mehreren hundert Sprechern standen so viele Trainingsdaten 

zur Verfügung, daß die Parameterräume der Akustischen Modelle 

sehr groß gewählt werden konnten. Auch die Textdaten, die zum Trainieren 

der linguistischen Sprachmodelle verwendet wurden hatten mit 300 000 000 

Worten eine enorme Größe. Die WSJ Aufnahmen bestanden aus diktierten 

und vorgelesenen Zeitungsartikeln. Die Qualität der Aufnahmen war wie bei 

SUR, RM und ATIS sehr gut. Die Sprache wurde immer in einem ruhigen 

Büro mit einem Nachbesprechungsmikrophon aufgenommen. 

Mitte der Neunziger, als die Fehlerraten der besten Erkenner, die an den 

alljährlichen Evaluationen teilnahmen, für unbeschränkte Vokabulare bei ca. 

6% war, ging die DARPA dazu über, Erkennungsaufgaben zu definieren, 

bei denen die Umstände deutlich schwieriger waren. Dabei wurden dann 

zunächst die SWB (Switchboard) Task und die BN (Broadcast News) Task 

definiert. Bei SWB ging es darum, Sprache von Personen zu erkennen, die 

sich über das Telefon über ein vorgegebenes Thema unterhalten. In einer 

späteren Varianten (Call Home Task) wurde auf die Vorgabe des Themas 

verzichtet, und die Personen durften sich mit Bekannten oder Verwandten 

am Telefon über beliebige Themen unterhalten. Die Gespräche wurden 

mitgeschnitten und in Handarbeit transkribiert. Für die SWB-Evaluation 

im Jahre 2004 wurde die Trainingsdatenmenge um ein Größenordnung 

von 250 auf ca. 2500 Stunden erweitert. Die ersten Evaluationen auf

3.1 Geschichte der (D)ARPA Evaluationen 39 

SWB ergaben bei allen Teilnehmern sehr hohe Fehlerraten um 50%. Experimente 

ergaben, daß weniger die die Signalqualität verschlechternden 

Eigenschaften der Telefonleitungen, sondern vielmehr die sehr spontane 

völlig freie Sprache für den großen Fehlerzuwachs verglichen mit WSJ 

verantwortlich war. Im Laufe weniger Jahre verbesserten sich die bei den 

Evaluationen gemessenen Fehlerraten auf schließlich nahe 20%. Mit den 

extrem erweiterten Trainingsdaten des Jahres 2004 konnten die Fehlerraten 

noch einmal deutlich auf schließlich ca. 15% reduziert werden. Die neue 

Herausforderung bei BN bestand vor allem darin, daß die Audiodaten aus 

vielen verschiedenen Quellen stammten. Die aufgezeichneten Nachrichtensendungen 

bestanden nicht nur aus der Sprache des Nachrichtensprechers, 

sondern enthielten auch Sprache von Interviewpartner, Korrespondenten, 

telefonisch übermittelten Berichten und sogar von Titelmusik, Jingles, 

und der zwischendurch gesendeten Werbeblöcken. 2004 wurde in die Reihe 

der DARPA Evaluationen unter dem Bereich ” Speech-to-Text (STT)“ die 

Erkennung von spontanen Besprechungen aufgenommen. Die beiden Punkte 

in Abb. 3.2 geben die Wortfehlerraten der besten Systeme für Nahbesprechungsmikrophone 

(32.7%) und für ein einzelnes Tischmikrophon (49.8%) an. 

Die Tendenz der am häufigsten bearbeiteten Erkennungsaufgaben 

geht heute in die Richtung von maschinenunterstützter Mensch-Mensch- 

Kommunikation, wie sie zum Beispiel bei Verhandlungen, Besprechungen 

und auch Vorträgen oder Vorlesungen zu finden ist. Die Schwierigkeiten 

dieser Aufgaben liegen zum einen in der größeren Spontaneität als zum Beispiel 

beim Diktieren oder bei geplanter Sprache in Fernsehnachrichten, zum 

anderen im größeren (Spezial-)Vokabular und einer größeren Spezialisierung 

bei den verwendeten Phrasen als bei alltäglichen Telefondialogen.

4. Anatomie Sprachproduktion und Perzeption 

In diesem Kapitel werden einige Grundlagen der Biologie der Sprachkommunikation 

behandelt. Ein Verständnis der Prozesse, die in der Natur des 

Sprechens und Hörens liegen, kann helfen, die Modelle, die wir uns von 

der Natur machen, leichter zu verstehen. Ohne das Bewußtsein, daß alle 

Mathematik zur automatischen Spracherkennung im Prinzip das nachbilden 

soll, was in der Natur abläuft, laufen wir leicht gefahr, die Modelle für die 

Realität zu halten. So manches schwer erklärliche Verhalten der Programme, 

die wir entwickeln, ist darauf zurückzuführen, daß das zugrundegelegte 

Modell der Wirklichkeit nicht ausreichend genau entspricht. 

Bei der Frage nach der besten Art, Funktionen der Natur nachzubilden, 

hört man oft das Argument, daß es nicht nötig sei, der Natur genau auf die 

Finger zu schauen. Schließlich schlagen Flugzeuge ja auch nicht mit ihren 

Flügeln. Aber auch wenn Flugzeuge starre Flügel haben und Autos keine 

Beine, so ist ein Studium der Vorgänge in der Natur nicht grundsätzlich 

wertlos. 

Gerade in der automatischen Spracherkennung ist es so, daß die Art der 

Modellierung der natürlichen Prozesse nicht wirklich überzeugend ist. Das 

größte Problem ist, daß wir gar nicht wissen, was eigentlich modelliert werden 

soll und welches das geeignetste Modell ist. Die am besten funktionierenden 

Spracherkennungssysteme basieren fast ausschließlich auf Statistik. Wenn wir 

einen Spracherkenner bauen, dann leiten wir keine Regeln dafür ab, welche 

Eigenschaften bestimmte Laute haben, und wie man diese Eigenschaften 

messen kann. Wir wissen nämlich gar nicht, welche Eigenschaften zum 

Beispiel der Laut ” ah“ hat. Wir können uns vielleicht viele ” ah“-Laute hören 

oder auch die aufgezeichneten und verarbeiteten Signale betrachten, wir 

werden aber nur statistische Aussagen machen können, weil wir feststellen 

müssen, daß häufig beobachtete Eigenschaften nicht notwendigerweise 

vorhanden sein müssen. Und wenn wir dann noch verschiedene ” ah“-Laute 

unter verschiedenen Bedingungen betrachten (geschrien, geflüstert, gesungen, 

von Kindern gesprochen, von Rauchern gesprochen, usw.), stellen wir 

sogar fest, daß sogar eine statistische Aussage über ihre Eigenschaften nur 

schwer möglich ist. Zum einen kann es vorkommen, daß die akustischen

42 4. Anatomie Sprachproduktion und Perzeption 

Eigenschaften eines ah“, das auf eine bestimmte Art gesprochen wurde, 

” 

den Eigenschaften eines oh“ ähnlicher sind, als den Eigenschaften eines 

” 

” ah“, das auf eine andere Art gesprochen wurde. Zum anderen ist es so, 

daß selbst der Laut, den wir als ah“ bezeichnen, sich ganz unterschiedlich 

” 

anhören kann, je nachdem von welchem Menschen er artikuliert wird, und 

in welchem Kontext er gesprochen wird. Neben der großen Variabilität der 

möglichen Aussprachen desselben Lautes stellt die Menge an Daten, die 

bei Sprachaufnahmen anfallen, ein weiteres Problem dar. Erst Anfang der 

80er Jahre war die Technik in der Lage, digitalisierte Audioaufnahmen in 

zufriedenstellender Qualität zu verarbeiten und der breiten Bevölkerung 

zugänglich zu machen. Während eine Schreibmaschinenseite Text etwa 2 

KByte (unkomprimiert) Speicher benötigt, braucht man zu Speichern einer 

Sprachaufnahme in der diese Seite vorgelesen wird – angenommen, das 

dauert zwei Minuten – in CD-Mono-Qualität immerhin ca. 10 MByte, also 

das 5000-fache. Selbst mit sehr guten Kompressionsverfahren läßt sich ein 

Zwei-Minuten-Sprachsignal nicht auf nennenswert weniger als 100 KByte 

komprimieren, wenn es hinterher noch verständlich sein soll. Allein schon die 

Tatsache, daß sich Sprachaufnahmen so drastisch komprimieren lassen, läßt 

darauf schließen, daß sie sehr viel für das Verstehen redundante Information 

enthalten. Eine wichtige Aufgabe der Sprachsignalverarbeitung besteht 

demnach darin, möglichst viel von dieser Redundanz zu entfernen und nur 

das übrig zu lassen, was wirklich benötigt wird, um die Sprache zu erkennen. 

Leider sind wir von der idealen Lösung dieses Problems noch sehr weit 

entfernt. Um zu verstehen, was in einem Sprachsignal wirklich wichtig ist, 

kann es unter Umständen hilfreich sein, zu verstehen, wie ein Sprachsignal 

entsteht, und wie die Anatomie im Menschen funktioniert, die Sprache 

produziert: der Vokaltrakt mit seinen Bestandteilen, und auch der Apparat, 

der Sprachsignale verarbeitet und zum Verstehen weiter ins Gehirn leitet, 

das Ohr. 

4.1 Anatomie des Artikulationsapparates 

Das Verständnis der Anatomie der Teile des Menschen, die für die Produktion 

von Sprache zuständig sind, ist hilfreich für das Verstehen der Signale, die 

der Artikulationsapparat erzeugt. Tatsächlich gibt es einige Bestrebungen, 

die Sprache nicht nur als Beobachtung akustischer Phänomene zu betrachten, 

sondern als akustische Manifestation von Zuständen und Zustandsfolgen 

der Artikulatoren, der Bestandteile des Artikulationsapparates. Dies ist 

insbesondere deshalb sinnvoll, weil allein schon aus physikalischen und 

biologischen Gründen nicht jeder Zustand des Artikulationsapparates 

jedem anderen unmittelbar folgen kann. Die Artikulatoren müssen stetige 

Bewegungen durchführen, können keine Sprünge machen. Die Ausprägung

4.1 Anatomie des Artikulationsapparates 43 

einzelner Laute hängt also davon ab, welche Laute danach und welche 

davor artikuliert werden. Teilweise wird der Schluß eines Lautes noch von 

einem Teil der Artikulatoren gesprochen während ein anderer Teil schon den 

Anfang des folgenden Lautes produziert (s. Abb. 4.1). 

[U] [F] [ER] 

Abb. 4.1. Überlagerung und Übergänge von Lauten 

4.1.1 Bestandteile des Artikulationsapparates 

Abbildung 4.2 skizziert einen Sagittalschnitt durch den Kopf eines Menschen, 

bei dem alle wichtigen an der Artikulation von Sprache beteiligten 

Teile ausgewiesen sind. Dazu gehören Mund- und Rachenraum, der einen 

Resonanzkörper darstellt, ebenso wie die Nasenhöhle, die bei einigen 

Lauten (den Nasalen) als zusätzlicher Resonanzraum hinzugenommen 

werden kann. Die Luftröhre verläuft vor der Speiseröhre. Letztere ist an 

der Spracherzeugung kaum beteiligt. Damit beim Schlucken keine Speisen 

und Flüssigkeiten in die Luftröhre gelangen, wird diese abgedeckt durch ein 

Luftröhrenverschlußläppchen, der sogenannten Epiglottis. In der Höhe des 

Halses befindet sich der Kehlkopf. Geschützt vom Schildknorpel beinhaltet 

er die Stimmbänder. Die Stimmbänder sind wie zwei halbkreisförmige 

Läppchen ähnlich einer doppelten Schwingtüre, wie man sie aus den Saloons 

der Wildwestfilme kennt, die einander gegenüberliegend die Luftröhre 

verschließen können. Die Luftröhrenöffnung, die durch die Stimmbänder 

freigelassen wird, nennt man Glottis. Neben den Stimmbänden ist das 

wichtigste Organ des Artikulationsapparates die Zunge. Ihre Stellung ist 

verantwortlich für die meisten Lautunterscheidungen, vor allem bei Vokalen. 

Das Gaumensegel (Velum) ist das hintere Ende des weichen Gaumens 

und kann die Verbindung zwischen der Mundhöhle und der Nasenhöhle 

verschließen, was bei den meisten Lauten auch geschieht. Nur bei nasalen 

Lauten senkt sich das Velum und öffnet die Verbindung. Der Mundraum 

ist nach oben hin abgeschlossen, in der Mitte durch den harten Gaumen 

(Palatum) und vorne durch den Zahndamm. Auch die Zähne und die Lippen 

sind an der Artikulation beteiligt, vor allem bei Reibelauten. Schließlich wird 

auch die Abstrahlung der Schallwellen durch die Form der Öffnungen der 

Nasenlöcher und der Lippen beeinflußt. Der Bereich von den Stimmbändern 

Zeit


Speiseröhre 

(Esophagus) 

Gaumensegel 

(Velum) 

Uvula 

Rachen 

Glottis 

Zähne 

Schildknorpel 

Luftröhre 

(Trachäa) 

Nasenhöhle 

Zahndamm (Alveoli) 

Gaumen (Palatum) 

Epiglottis 

Abb. 4.2. Anatomie des Artikulationsapparates 

Zunge 

Nasenlöcher 

Oberlippe 

Unterlipe


bis zum Mundraum wird auch als Vokaltrakt bezeichnet. Typischerweise ist 

der Vokaltrakt bei Männern länger als bei Frauen. 

4.1.2 Der Prozeß der Sprachproduktion 

Beim Sprechen wird zunächst durch Verkleinern der Lunge die darin enthaltene 

Luft komprimiert, sie strömt in der Luftröhre nach oben. Bei stimmlosen 

Lauten ist die Glottis weit geöffnet und die Luft kann ungehindert hindurchfließen. 

Es entstehen zwar Verwirbelungen der Luft beim Vorbeiströmen 

an den Stimmbändern und anderen Organen aber der Luftfluß wird in der 

Glottis nicht unterbrochen. Bei stimmhaften Lauten wird die Glottis durch 

die Stimmbänder periodisch verschlossen und geöffnet. Dabei wird der aus 

der Lunge kommende Luftstrom in einzelne Impulse zerhackt. Die Frequenz, 

mit der dies geschieht, wird durch die Anspannung der Stimmbänder 

bestimmt. Die Spannung der Stimmbänder wird durch Muskeln am Rand 

der Luftröhre gesteuert. Ähnlich wie bei Gitarrensaiten schwingen auch die 

Stimmbänder schneller, wenn sie stärker angespannt sind. Die Frequenz, mit 

der Luftimpulse erzeugt werden, nennt man die Grundfrequenz. Der Leser 

mache sich aber klar, daß durch die Stimmbänder die Luft nicht wie bei 

schwingenden Saiten von Musikinstrumenten in Schwingungen versetzt wird, 

sondern in diskrete einzelne Impulse zerstückelt wird. Da die Impulse sehr 

hochfrequent sind und im Rest des Artikulationsraumes moduliert werden, 

können wir die einzelnen Impulse nicht mehr getrennt wahrnehmen. 

Die Luftimpulse verlassen die Luftröhre in den Rachenraum, wobei 

die Epiglottis geöffnet sein muß. Deshalb ist es auch nicht ratsam, beim 

Sprechen zu essen oder zu trinken. Wenn das Velum die Öffnung zum 

Nasenraum freigibt, dann breiten sich die Impulse auch in die Nasenhöhle 

aus, sonst nur in den Mundraum. Die Form der Mundhöhle bestimmt stark, 

wie sich einzelne Laute anhören. Sie wird vor allem durch die Lage der 

Zunge bestimmt. 

Abb. 4.3 zeigt mehrere Sagittalschnitte für verschiedene Vokale. Man 

unterscheidet zwischen tonalen Sprachen und nicht tonalen Sprachen. 

Während bei nicht tonalen Sprachen die an den Stimmbändern erzeugte 

Impulsfrequenz (die Grundfrequenz) keine Rolle für die Unterscheidung 

von Lauten spielt, ist dies bei tonalen Sprachen anders. Insbesondere im 

Chinesischen ist der Verlauf der Grundfrequenz während eines Lauts von 

entscheidender Bedeutung. Im Deutschen allerdings kann jeder Laut mit 

verschiedenen Grundfrequenzen und sogar mit verschiedenen zeitlichen 

Frequenzverläufen artikuliert werden, ohne daß er mit einem anderen 

verwechselt werden kann. So ist es also nicht die Erzeugung des Schalls an 

den Stimmbändern, die einen Laut vom anderen trennt, sondern allein die


Form des Vokaltraktes. Dabei spielt insbesondere die Position des obersten 

Punktes der Zunge (Dorsum) die ausschlaggebende Rolle. 

die 

Mähr Aah Jean Heu 

Fluß 

mit hey 

Fuß 

matt 

nett 

Abb. 4.3. Verschiedene Formen des Vokaltraktes bei verschiedenen Vokalen 

4.1.3 Sprachlaute 

Bei naiver Betrachtung der Sprachproduktion geht man davon aus, daß 

Sprache eine Aneinanderreihung von irgendwie klassifizierbaren und benennbaren 

Einheiten, den Sprachlauten besteht. Die Bennennung dieser 

Einheiten kann man schon als eigene Teildisziplin der Phonetik ansehen. 

Alle in Europa üblichen Schriften verwenden eine Art Buchstabenalphabet, 

bei dem jeder Buchstabe – oder zumindest einige kleine Buchstabengruppen 

– einem Laut entsprechen. Die sehr alten hebräischen, arabischen 

und griechischen Schriften, aber auch die lateinischen und kyrillischen 

Schriften waren ursprünglich als lautebeschreibende Schriften konzipiert. 

hör


Verschiedene Dialekte sowie ständige modifizierende Einflüsse durch andere 

Sprachen haben oft die Aussprache von der Schriftform abweichen lassen, 

so daß heute aus der Schriftform oft nur mit Hilfe von Kontextwissen 

die Aussprache in einer ” Hochsprache“ abgeleitet werden kann. Mit der 

immer weiter fortschreitenden Globalisierung und Internationalisierung der 

Sprachen werden die Vokabulare mit neuen Namen und neuen Fremdwörtern 

angereichert, bei denen nicht immer eine neue Schriftform eingeführt wird. 

Einige Sprachen – vor allem slawische – haben den Einzug von Fremdwörtern 

und sogar fremder Eigennamen stets mit einer neuen Orthographie begleitet. 

So konnte man in Serbokroatischen Lexika von Gete (Goethe) und Sreda 

(Schröder) lesen. 

Wegen der sehr unterschiedlichen Verwendung der Alphabete war schon 

früh klar, daß die üblicherweise verwendeten Orthographien ungeeignet 

waren, um Folgen von Lauten zu beschreiben. In allen Sprachen gibt es viel 

mehr verschiedene Laute als Buchstaben. Die Wissenschaft, die sich mit 

der Erforschung der Sprachlaute befaßt, ist die Phonetik, abgeleitet vom 

griechischen Wort für Laut: ” Phon“. Die ” 

iInternational Phonetics Assosiation“ (IPA) hat eine Lautschrift eingeführt, 

das IPA-Alphabet, mit dem es ermöglicht werden sollte, alle Laute aller 

Sprachen der Welt in Textform darzustellen (s. Abs. 6.2). 

4.1.4 Modelle des Vokaltraktes 

Weil die Originale schwer zu beschreiben sind, machen uns gerne Modelle. 

Ein Modell kann man schon von vorn herein so entwerfen, daß es physikalisch 

und mathematisch analysierbar und beschreibbar ist. Außerdem kann das 

Modell nach Belieben verfeinert oder vereinfacht werden, je nachdem welche 

Funktionen wir untersuchen wollen. 

A 

E I O U 

Abb. 4.4. Resonatoren für deutsche Vokale nach Christian Gottlieb von Kratzen- 

stein


Physikalische Modelle 

Noch lange bevor man an die Realisierbarkeit automatischer Spracherkennung 

glaubte, wurden Sprachsynthesesysteme gebaut, die immerhin in der 

Lage waren, Vokale verständlich zu sprechen. Dabei wurde versucht, die 

Funktion des menschlichen Vokaltraktes so gut wie möglich nachzubilden. 

Abb. 4.4 zeigt die Entwürfe von Christian Gottlieb von Kratzenstein. Dabei 

wird von unten Luft in die Modelle geblasen. Allerdings gehört schon viel 

guter Wille dazu, die entstehenden Geräusche als die entsprechenden Vokale 

zu interpretieren. 1846 baute Joseph Faber die sogenannte ” Speech Organ“ 

(siehe Abbildung 4.5) – ein Instrument, dem man nachsagt, daß es verständliche 

Sprache produzieren konnte, ja sogar flüstern und Arien singen konnte. 

In London wurden damals Konzerte gegeben, auf denen die Maschine ” God 

Save the Queen“ gesungen haben soll. Sicherlich wären die meisten von uns, 

die mit den besten heute erhältlichen Sprachsynthesesystemen unzufrieden 

sind, mit der Qualität der von der Speech Organ produzierten Sprache noch 

viel unzufriedener gewesen, aber angesichts der mageren Ressourcen der 

damaligen Zeit war die Leistung, so eine Maschine zu bauen, doch beachtlich. 

Ähnliche mechanische Nachbildungen des Vokaltraktes kann man auch 

im Deutschen Museum in München bewundern und einige sogar selbst 

ausprobieren, indem man mit Hilfe eine Blasebalges Luft durch einen 

verformbaren künstlichen Vokaltrakt pumpen kann. 

Je nach eingestellter Form hört sich der produzierte Laut anders an, für 

das menschliche Ohr meist sehr ungewöhnlich. Sicher spielt dabei ein wenig 

auch die Psychologie eine Rolle. Wissend, daß ein Geräusch von so einem 

einfachen Gerät produziert wird, nehmen wir an, daß es künstlich klingen 

muß. 

Wird aus einer Tonaufnahme menschlicher Sprache ein sehr kurzes 

Stück, ein Laut, herausgeschnitten und in einer Endlosschleife abgespielt, 

dann fängt auch dieses an, sich sehr künstlich anzuhören und es ist schwer 

vorstellbar, daß es menschlichen Ursprungs ist. 

Aus dem Physikunterricht der Schule werden die meisten Leser sich an 

akustische Experimente mit einfachen Röhren erinnern. Den Effekt, den eine 

Röhre auf den durch sie hindurchlaufenden Schall hat, kann man relativ einfach 

beschreiben. Abb. 4.6 zeigt eine mögliche Vorstellung für ein Modell des 

Vokaltraktes, das physikalisch analysiert werden kann. Eine Vereinfachung 

dieses komplizierten Modells ist die Anordnung mehrerer einfacher Röhren 

mit unterschiedlichen Längen und Durchmessern hintereinander. Wenn die 

Röhren alle die gleiche Länge aber unterschiedliche Querschnittsflächen 

A1 . . .An haben (s. Abb. 4.7), läßt sich die Impulsantwort des Gesamtsy-


Abb. 4.5. Ein frühes mechanisches Sprachsynthesesystem 

stems relativ einfach beschreiben ([?], [?]). 

Betrachtet man das Verhalten des Röhrensystems als Filter, stellt 

man fest, daß einige Frequenzen des durchlaufenden Schalls weniger, andere 

stärker gedämpft werden. Trägt man die ” Durchlässigkeit“ über der Frequenzachse 

auf, entstehen typischerweise Funktionen wie in Abb. 4.8. Diejenigen 

Frequenzen, die besonders ungedämpft durch die Röhren kommen, heißen 

Formanten. Als erste Formante wird die niedrigste Frequenz bezeichnet, bei 

der in der Impulsantwort ein deutlicher Maximalwert vorkommt. In Abb. 

4.8 sind die ersten drei Formanten eines Beispielsystems markiert. .


Luftröhre 

00000 11111 

00000 11111 00 11 

00 11 

Rachen 

Stimmbänder 

00000 

11111 

00000 

11111 

00000 

11111 00 11 

Lunge 

00000 

11111 

00000 

11111 00 11 

00000 

11111 

00000 

11111 

00000 

11111 

Abb. 4.6. Ein physikalisches Model des Vokaltraktes 

Lippen 

A1 

A2 

A5 

A6 

Abb. 4.7. Ein System von Helmholtz-Resonatoren 

Nasenhöhle 

Velum Mund 

Glottis


Impulsantwort 

1. 2. 3. f [Hz] 

Abb. 4.8. Formanten und Impulsantwort eins Systems von Helmholtz-Resonatoren 

Systemtheoretische Modelle 

Zu den beliebtesten Modellen des Vokaltraktes gehören so genannte Quelle- 

Filter-Modelle. Die Idee bei diesen Modellen ist, daß am Anfang des 

Spracherzeugungsprozesses ein Generator steht, der sowohl strukturierte 

Wellen (wie bei stimmhaften Lauten) als auch weißes Rauschen (wie bei 

stimmlosen Lauten) erzeugen kann. Diese Wellen durchlaufen dann einen 

Kanal (den Vokaltrakt), dessen Wirkung auf die Wellen mit Hilfe eines 

linearen zeitinvarianten Systems (LTI - linear time-invariant) beschrieben 

werden kann. Solche Effekte werden auch als Filter bezeichnet. Die Funktion 

eines Filters wird am besten durch seine Reaktion auf einen Impuls, die 

Impulsantwort, beschrieben. Die Impulsantwort ist diejenige Funktion, 

mit der ein in den Filter hineingeleitetes Signal gefaltet wird, um das 

Ausgangssignal zu berechnen. Ein Kanal wie der Vokaltrakt kann dabei aus 

mehreren hintereinandergeschalteten Filtern bestehen, wobei der Ausgang 

von Filter i+1 aus dem Ausgang von Filter i gefaltet mit der Impulsantwort 

von Filter i + 1 besteht. 

Abb. 4.9 zeigt ein Beispiel für ein Quelle-Filter-Modell. 

Rausch− 

generator 

Wellen− 

generator 

u Vokal− u ∗ v u ∗ v ∗ l 

Lippen 

trakt 

Abb. 4.9. Das Quelle-Filter-Modell der Sprachproduktion


4.2 Anatomie des Gehörs 

Bei der Frage, welche Eigenschaften des Sprachsignals wichtig für die 

Erkennung sind, bietet es sich an, den menschlichen Perzeptionsapparat zu 

untersuchen. Die Erwartung besteht darin, daß mit dem Wissen, wie das 

Ohr Schall verarbeitet, dieses auch auf die Modelle übertragen werden kann. 

Wenn wir wüßten, welche Merkmale eines Signals überhaupt vom Ohr über 

den Hörnerv ans Gehirn geliefert werden, könnten wir daraus schließen, daß 

die anderen Merkmale für das Erkennen nicht von Bedeutung sind. 

Es leuchtet ein, daß diejenigen Frequenzen des Schalls, die wir nicht 

hören, weil sie zu hoch oder zu niedrig sind, auch irrelevant für die Spracherkennung 

sein müssen. 

Äußerer 

Gehörgang 

Außenohr Mittel- ohr Innenohr 

Hammer 

Amboß 

Steigbügel 

Trommelfell 

Ovales Fenster 

Rundes Fenster 

Eustachische Röhre 

Bogengänge 

zur Nasenhöhle 

Abb. 4.10. Die wichtigsten Bestandteile des Menschlichen Ohrs 

Hörnerv 

Gehörschnecke 

Abb. 4.10 zeigt die wichtigsten Bestandteile des menschlichen Ohrs. 

Die von außen sichtbare Ohrmuschel dient als Schalltrichter. Die Bedeutung 

so eines Schalltrichters wird schnell klar, wenn man sich selbst die 

Trichterwirkung durch anlegen der gewölbten Handflächen hinter die Ohren 

verstärkt. Der ” eingefangene“ Schall wird durch den äußeren Gehörgang 

bis zum Trommelfell geleitet. Dieses wird in Schwingungen versetzt, die 

an eine Konstruktion von Gehörknöchelchen weitergegeben werden. Der 

Hohlraum hinter dem Trommelfell ist über die Eustachische Röhre mit dem

4.2 Anatomie des Gehörs 53 

Nasenraum verbunden. Die Eustachische Röhre dient vor allem dazu, den 

Druckunterschied zwischen dem Raum hinter dem Trommelfell und dem 

Außendruck auszugleichen. Wir empfinden eine schnelle Druckänderung 

zumeist unangenehm, weil dadurch das Trommelfell in die eine oder andere 

Richtung gedehnt wird, bevor der Druck über die Eustachische Röhre 

ausgeglichen wird. Gelegentlich kann man den Druckausgleich absichtlich 

herbeizwingen, indem man sich die Nase zuhält und soviel Druck aufbaut, 

daß die Eustachische Röhre ” durchgepustet“ wird. Das Trommelfell und die 

drei Gehörknöchelchen bilden das Mittelohr. Direkt mit dem Trommelfell ist 

der Hammer verbunden. Dieser überträgt die Schwingungen auf den Amboß, 

welcher diese wiederum an den Steigbügel weitergibt. Der Steigbügel ist 

am so genannten ovalen Fenster mit dem Innenohr verbunden. Hinter dem 

ovalen Fenster befinden sich die Gehörschnecke und die darüber liegenden 

Bogengänge. Beide sind mit einer Flüssigkeit gefüllt, die die Schwingungen 

des ovalen Fensters aufnimmt. In der Gehörschnecke sind letztendlich die 

Rezeptoren, die die Bewegung der Flüssigkeit an die Nervenstränge des 

Gehörnervs weitergeben. 

Ein Querschnitt durch die Gehörschnecke (Cochlea) ist in Abb. 4.11 

dargestellt. Von Bedeutung sind hier insbesondere die Haarzellen auf der 

Basilarmembran. Diese Härchen werden von der schwingenden Flüssigkeit 

angeregt. Dabei reagieren verschiedene Bereiche der Basilarmembran unterschiedlich 

stark auf bestimmte Frequenzen. 

Abb. 4.12 stellt die Reaktion einzelner Haarzellen auf verschiedene 

Frequenzen dar. Jede Kurve im Schaubild entspricht einem Härchen. Einige 

Härchen reagieren überhaupt nicht auf Frequenzen über ca. 1000 Hz, andere 

reagieren ganz besonders auf Frequenzen von mehreren tausend Hz und 

nur ganz wenig auf niedrige Frequenzen. Die hier dargestellten Messungen 

wurden zwar an einem Katzenohr durchgeführt, qualitativ unterscheiden 

sie sich aber nicht vom menschlichen Ohr. Eine weitere Auffälligkeit im 

Schaubild ist, daß auf der x-Achse die Frequenz logarithmisch aufgetragen 

ist, d.h. es gibt wesentlich mehr Härchen, die auf niedrige Frequenzen 

reagieren als solche, die auf hohe Frequenzen reagieren. Härchen, die nur 

auf Frequenzen über 1000 Hz reagieren, gibt es gar keine. Dies deutet 

darauf hin, daß für das Gehör – und insbesondere für das Verstehen von 

Sprache – vor allen die niedrigeren Frequenzen von Bedeutung sind. Ein 

Spracherkennungssystem könnte diese Feststellung nutzen.


Hörnerv 

Reißnersche 

Membran 

Tektoriale 

Membran 

Haarzellen 

Basilarmembran 

Abb. 4.11. Querschnitt durch das Innenohr 

Dämpfung (dB) 

0 

-20 

-40 

-60 

-80 

100 1000 10000 

Frequenz (Hz) 

Abb. 4.12. Frequenzabhängige Empfindlichkeit einzelner Basilarmembranbereiche

5. Akustische Grundlagen 

Zum Verständnis der Spracherkennung und insbesondere zum Verständnis 

der dabei verwendeten Algorithmen für die Verarbeitung von Sprachsignalen 

sind Kenntnisse über die physikalische Natur von Sprachsignalen nützlich. In 

diesem Kapitel werden die Eigenschaften von Schall, dem Träger von Sprachsignalen 

beschrieben. 

5.1 Was ist Schall 

Aus physikalischer Sicht ist Schall eine Longitudinalwelle, die sich in einem 

Medium ausbreitet. Das Medium bestimmt nicht nur die Ausbreitungsgeschwindigkeit 

sondern auch die Dämpfung verschiedener Frequenzbereiche. 

Bei der Ausbreitung von Schall bewegen sich die Moleküle des Mediums, 

indem sie die Anregung durch die Schallquelle in Ausbreitungsrichtung 

weitergeben. Wenn wir von Schall sprechen, denken wir beim Medium 

meistens an Luft. Bei Luft, genauso wie bei anderen Gasen, ändert sich 

der Druck durch Kompression des Mediums. Bei anderen Medien (z.B. bei 

Flüssigkeiten) scheidet Kompression aus, aber auch bei solchen Medien gibt 

es Druckwellen, bzw. Eigenschwingungen und Resonanzen. 

Eine elementare Schallwelle zeichnet sich dadurch aus, daß der Druck an 

einer Stelle sich wie eine Sinusfunktion verhält, also beschreibbar ist durch 

eine Wellenlänge, eine Amplitude und eine Phase. Jeder konstante Ton ist 

die Überlagerung von elementaren Wellen. 

Für die Spracherkennung ist nur die Schallübertragung durch die Luft 

interessant. Der Luftdruck wird in Pascal (Pa) gemessen. Der durchschnittliche 

Luftdruck auf der Erdoberfläche beträgt 10 5 Pa (der Standard 

Luftdruck, 10 5 Pa = 1 bar). Der kleinste Druckunterschied, den wir als 

hörbar empfinden, beträgt etwa 10 −5 Pa (= 10 − 10 bar). Das sind zehn 

Größenordnungen kleiner als der Standard Luftdruck. Eine sehr laute 

Schallquelle, z.B. der Knall beim Abfeuern einer Gewehrkugel, erzeugt 

in unmittelbarer Umgebung ein Geräusch, dessen Luftdruckschwankung 

nur ca. 10 2 Pa erreicht. Das ist weniger als der Unterschied zwischen dem

56 5. Akustische Grundlagen 

normalen Luftdruck im Erdgeschoß und im Keller eines Gebäudes. Man 

möchte meinen, daß der Abstieg in den Keller sehr laut und schmerzhaft sein 

sollte. Das wäre er auch, wenn wir mehrere hundert mal pro Sekunde auf 

und absteigen könnten. Denn alle Frequenzen, die unterhalb von ca. 10 bis 

20 Hz liegen nehmen wir nicht mehr als Schall wahr, und deswegen bringen 

sie unseren Gehörapparat nicht in Schwingungen. 

Mit dem Schall wird Energie übertragen. Unter der Voraussetzung, daß 

die Wellenfronten einer Schallwelle einen Kreisring bzw. eine Kugeloberfläche 

bilden, und unter der Idealannahme, daß keine Schallenergie in thermische 

Energie des Mediums umgewandelt wird, ist die Energiemenge, die durch 

eine Fläche bestimmter Größe senkrecht zur Schallausbreitungsrichtung 

gelangt, umgekehrt proportional zum Quadrat des Abstandes der Fläche 

von der Schallquelle. Die Energie steckt in der Bewegung der Moleküle des 

Übertragungsmediums (Abb. 5.1). 

Abb. 5.1. Energie eines Luftmoleküls bei der Schallübertragung 

0 

x 

v 

E = 1 

2 mv2 + 1 

2 kx2 

Dabei wechselt die Form der Energie zwischen der rein kinetischen 

Energie, 1 

2 mv2 der Moleküle und der in einer ” virtuellen“ Rückholfeder mit 

Federkonstante k gespeicherten Energie, 1 

2 kx2 , die die Moleküle wieder in 

ihre Ausgangslage zieht. Dabei bewegt sich die Molekülgeschwindigkeit v 

zwischen −vmax und +vmax, und die Auslenkung x der Moleküle zwischen 

−xmax und +xmax. 

Der Druck eines Gases ist proportional zur durchschnittlichen Geschwindigkeit 

seiner Moleküle, während die Energie proportional zur maximalen 

Geschwindigkeit der Moleküle ist. Daraus ergibt sich, daß die Schallenergie 

mit dem Quadrat des Abstandes zur Schallquelle abnimmt, während der 

Druck linear abnimmt (s. Abb. 5.2). 

Es gibt Mikrophone unterschiedlichster Art. Wir wollen an dieser Stelle 

aber zunächst ein Kriterium genauer betrachten. Einige Mikrophone messen 

eher die Energie, die durch den Schall auf sie übertragen wird, andere 

Mikrophone hingegen messen die Luftdruckänderungen. Es gibt auch Zwischenformen 

und verschiedene elektronische Schaltungen, die die eigentliche 

Messung nachbearbeiten, so daß praktisch alle denkbaren Eigenschaften 

des Schalls mehr oder weniger erfaßt und übertragen werden können.

Quelle 

a 

x 

2a 

Abb. 5.2. Schallenergie nimmt im Quadrat zur Entfernung ab 

4x 

5.1 Was ist Schall 57 

Grundsätzlich gilt aber festzuhalten, daß diejenigen Mikrophone, die eher 

den Luftdruck messen, besser geeignet sind, um als Fernbesprechungsmikrophone 

verwendet zu werden, während diejenigen, die eher die Schallenergie 

messen, mehr als Nahbesprechungsmikrophone verwendet werden. Wenn ein 

Mikrophon auf die Schallenergie reagiert und in einer Entfernung von einem 

Zentimeter vor dem Mund besprochen wird, dann ist eine Schallquelle, 

die genauso laut wie der Sprecher aber 1 Meter entfernt ist, ca. 10 000 

mal schwächer im Ausgangssignal des Mikrophons vorhanden. Solche 

Nahbesprechungsmikrophone sind in der Regel so unempfindlich gegenüber 

entfernten Störgeräuschen, daß selbst Musik in Rock-Konzertlautstärke aus 

der Nachbarschaft die Aufgabe für einen Spracherkenner kaum erschwert. 

Umgekehrt ist es so, daß energie-sensitive Mikrophone ungeeignet sind, um 

Sprache über größere Distanzen aufzunehmen. 

In vielen Situationen ist es wünschenswert, daß der Benutzer eines 

sprachverstehenden Systems kein Mikrophon vor dem Mund tragen muß, 

sondern frei sprechen kann, während das Mikrophon irgendwo im Raum in 

einer unscheinbaren Ecke steht. Die Erkennung von Sprache, die über so 

große Distanzen aufgezeichnet wird bereitet Spracherkennern immer noch 

große Probleme. Zum einen ist es so, daß Störgeräusche im Gegensatz zu 

Aufnahmen mit Nahbesprechungsmikrophonen kaum gedämpft werden, 

und zum anderen werden die Aufnahmen durch viele Reverberationen 

(Schallreflexionen an den Wänden) gestört. Bei großer Entfernung zwischen 

Sprecher und Mikrophon ist zudem eine vermehrte Variabilität der Signale 

zu erkennen. Der am Mikrophon ankommende Schall hängt stark ab von der


Entfernung des Sprechers, von seiner Orientierung (spricht er in Richtung 

Mikrophon oder in eine andere Richtung) und von den Räumlichen Gegebenheiten 

(Position von Möbeln, Beschaffenheit des Bodenbelags, Größe des 

Raumes etc.). 

Experiment 5.1: Synthese Akustischer Signale 

Starten Sie das Applet Sound Composition. Auf der Oberfläche sehen Sie 

zwei Felder. Im oberen sind mehrere Schieberegler dargestellt, von denen 

jeder einer bestimmten Frequenz entspricht. 

Im unteren Feld sehen Sie die Welle, die entsteht, wenn die Frequenzen 

gewichtet mit dem Wert des Schiebereglers aufaddiert werden. Wir ignorieren 

hier, daß die Wellen auch mit unterschiedlichen Phasen aufaddiert werden 

könnten. 

Erzeugen Sie verschiedene Überlagerungen, sehen Sie sich das Bild der 

resultierenden Wellenform an und spielen Sie das Signal durch Drücken von 

PLAY ab. 

Versuchen Sie, so etwas wie harmonische und weniger harmonische Töne zu 

erzeugen und festzustellen, was einen Ton harmonisch macht. 

5.2 Messung der Schallintensität 

Bedenken wir, daß der leiseste hörbare Ton den Luftdruck um ca. 10 −5 Pa 

moduliert, und daß der lauteste hörbare, sehr schmerzhafte, Ton den Druck 

um ca. 10 2 Pa moduliert, dann verstehen wir, daß eine logarithmische Skala 

zur Messung des Schalldruckpegels sinnvoll ist. Das etablierte Maß ist das 

Dezibel (dB). Das Dezibel ist keine eigenständige physikalische Einheit, 

sondern beschreibt nur den Logarithmus eines Verhältnisses zweier Werte. 

Daher wir das dB auch für andere Zwecke als für die Messung des Schalls 

verwendet. Insbesondere bei der Angabe von Verstärkungsfaktoren bedient 

man sich gerne des Dezibels. Die ursprünglich zu Ehren von Alexander 

Graham Bell benannte Pegel- Einheit ” Bel“ ist gerade eine um den Faktor 

10 gröbere Skala. Um auch Absolutwerte zu beschreiben verwendet man 

das dBA, den mit 10 multiplizierten Zehnerlogarithmus des Verhältnisses 

der übertragen Schallenergie zu einem willkürlich festgelegten Wert. Der

absolute Schalldruckpegel ist definiert als 

20 · log 10 

 

P 

P0 

5.2 Messung der Schallintensität 59 

(5.1) 

wobei P die Luftdruckänderung des gemessenen Schalls ist und 

P0 = 2 ·10 −5 Pa ein willkürlich festgelegter Basisdruck ist. Unter Berücksichtigung 

der Tatsache, daß die vom Schall übertragene Energie proportional 

zum Quadrat der Luftdruckänderung ist, ergibt sich somit auch die Gleichung: 

10 · log 10 

 

I 

I0 

(5.2) 

wobei I die vom gemessenen Schall übertragene Energie ist, und I0 die 

Energie ist, die ein Schall überträgt, der den Luftdruck um P0 moduliert. 

Zur Veranschaulichung können wir zum Beispiel sagen, wenn ein Kanal den 

Schall um +20dB verstärkt, dann bedeutet das, daß der Luftdruck um den 

Faktor 10 verstärkt wird. Oder wenn ein Kanal den Schall um -6dB dämpft, 

wird der Luftdruck um ca. den Faktor 2 gesenkt. 

Übertragungsleistung (W/m 

00000000000000 

11111111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

00000000 

11111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

00000000 

11111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

00000000 

11111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

0000000000 

1111111111 

00000000 

11111111 

0000000000 

1111111111 

00000000000000 

11111111111111 

00000000000000 

11111111111111 

00000000000000 

11111111111111 

2 ) Schalldruckpegel (dB) 

10 

130 phon 

100 

80 

60 

40 

20 

0 

−10 

10 −11 

10 −12 

10 −9 

10 −8 

10 −7 

10 −6 

10 −5 

10 −4 

10 −3 

10 −2 

10 −1 

100 

10 

1 

140 

130 

120 

120 

110 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

20 40 100 200 1000 4000 10000 Hz 

000 111 

000 111 

Hörschwelle 

000 111 

000 111 

000 111 

Musik 

000 111 

000 111 

Sprache 

Abb. 5.3. Die Hörfläche: Sprache und Musik im Frequenz/Lautstärke-Raum 

Abbildung 5.3 veranschaulicht, in welchem Bereich wir Sprache und 

Musik hören. Die Schalldruckpegel von Sprache liegen zwischen 35 dB und


75 dB, je nach Frequenz sogar nur in einem kleineren Intervall dazwischen. 

Die Dynamik von Musik ist deutlich größer, ebenso der Frequenzbereich. 

Die maximale Frequenz bei der Produktion von Sprache liegt bei ca. 5 kHz 

bis 6 kHz, in sehr kleinen Anteilen auch einige Oberwellen die noch darüber 

liegen können. Höhere Frequenzen spielen aber keine Rolle. 

Geräusch Schalldruckpegel 

Referenzwert P0 

0 dB 

leisester hörbarer 1000 Hz Ton 6 dB 

ruhige Nacht 20 dB 

leises Flüstern 25 dB 

Brummen eines Kühlschranks 40 dB 

leises Sprechen 50 dB 

normale Unterhaltung 65 dB 

typischer Straßenlärm 80 dB 

vorbeifahrendes Motorrad 90 dB 

Schreien 100 dB 

Preßlufthammer 100 dB 

Hubschrauber 110 dB 

Rock-Konzert 120 dB 

Luftalarmsirene 130 dB 

Schmerzgrenze 140 dB 

Gewehrschuß 140 dB 

Raketenstart 180 dB 

Tabelle 5.2. Schalldruckpegel für verschiedene Geräusche 

In Kap. 4 wurde beschrieben, wie unser Gehörapparat die Empfindlichkeit 

auf der Frequenzachse logarithmiert. Die tiefen Frequenzen enthalten 

wichtigere Informationen und werden deshalb feiner aufgelöst. Aber nicht 

nur die Frequenzachse wird logarithmiert sondern auch die Intensitätsachse, 

das heißt, daß wir n Schallquellen, die mit der gleichen Energie abstrahlen 

nicht als n mal so laut empfinden wie eine einzelne, sondern nur um einen 

additiven Wert, der proportional zu n ist. Unser Lautstärkeempfinden läßt 

sich also beschreiben durch: 

Lautstärke von 1 Schallquelle = L 

Lautstärke von n Schallquellen = L + a · n 

(5.3)

5.2 Messung der Schallintensität 61 

Daraus geht hervor, daß die Steigerung im Lautstärkeempfinden nicht 

von der Ausgangslautstärke abhängt. Das heißt, daß n auf den Boden 

fallende Nadeln genauso viel lauter sind als eine Nadel, wie n Gewehrschüsse 

lauter sind als einer. Das mag auf den ersten Blick seltsam klingen, aber bei 

genauer Betrachtung sieht man die Vorteile einer solchen Logarithmierung. 

Es wäre zum Beispiel bei einer linearen Abbildung von Schallintensität auf 

die Lautstärke nicht besonders hilfreich, die Fähigkeit zu besitzen, genau 

zu unterscheiden, ob man 100 Stimmen oder 101 Stimme gleichzeitig hört, 

während sich eine einzelne etwas leise sprechende Person so anhören würde 

wie null Personen. 

Das subjektive Empfinden von Lautstärke weicht sowieso von der 

physikalischen Definition des Schalldruckpegels ab. Ganz offensichtlich 

wird das bei Tönen einer Frequenz, die am Rande der Hörfläche liegen. 

Um einen 20 kHz Ton zu hören – nicht jedes menschliche Ohr ist 

dazu in der Lage – muß schon ein beträchtlicher Schalldruckpegel vorliegen. 

Bei anderen Frequenzen so zwischen 1000 und 3000 Hz genügen 

schon viel kleinere Schalldrücke um einen deutlich hörbaren Ton zu erzeugen. 

Wenn man Testpersonen Tone verschiedener Intensitäten und verschiedener 

Frequenzen vorspielt und sie subjektiv die Lautstärke schätzen läßt, 

ergibt sich ein Zusammenhang zum Schalldruckpegel, wie er in Abb. 5.4 dargestellt 

ist. Das Maß, das die subjektiv empfundene Lautstärke wiedergibt, 

ist das Phon. Bei 1000 Hz entspricht der Phon-Wert dem absoluten Schalldruckpegel. 

Für Frequenzen zwischen 1000 Hz und einigen 1000 Hz ist der 

Phon-Wert meist höher als der dBA-Wert. Für Frequenzen unter 1000 Hz 

und Frequenzen weit über 3000 Hz ist meist der dBA-Wert höher.

absoluter 

Schalldruckpegel [dB] 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

50 Hz 

100 Hz 

200 Hz 

500 Hz 

Abb. 5.4. Schalldruckpegel und Lautstärke 

100 phon 

80 

60 

40 

20 

0 

1 kHz 2 kHz 5 kHz 10 kHz 20 kHz

6. Phonetische Grundlagen 

Die Phonetik war schon im Altertum eine wissenschaftliche Disziplin. Spätestens 

zu der Zeit, als man dazu über ging, die Symbole der Schrift nicht mehr 

als sinntragende Einheiten zu betrachten, sondern als Repräsentanten akustischer 

Phänomene [?], wurde die genauere Untersuchung des Phonemsatzes 

verschiedener Sprachen interessant. Dies ging sogar so weit, daß die Schrift, 

die ursprünglich dafür gedacht war, die Sprache zu beschreiben, zur Norm 

wurde und die Sprache in ihrer Entwicklung von der Schrift geprägt wurde. 

Bis heute hat sich die gegenseitige Beeinflussung von gesprochener und geschriebener 

Sprache fortgesetzt. Vor allem im angelsächsischen Sprachraum 

wurde der Einfluß auf die Sprache vor allem durch die Schrift geprägt, was 

sich dadurch manifestiert, daß die Regeln für die Aussprache von Wörtern 

bei gegebener Orthographie dort besonders kompliziert sind. Im Englischen 

wurden Erweiterungen der Sprache meist in Schriftform aufgenommen und 

eine neue Aussprache wurde dafür kreiert (z.B. knob, vision, orange, etc.). In 

anderen Sprachen gab es aber auch die gegenteilige Tendenz. So wurde vor 

allem in Slawischen Sprachen, die dafür bekannt sind, daß ihre Orthographie 

oft eins zu eins auf eine Lautschrift abgebildet werden kann, die Lautfolge 

eines neuen Wortes in die Sprache aufgenommen und eine neue Orthographie 

kreiert (z.B. Gete statt Goethe). Durch die starke gegenseitige Beeinflussung 

von Schrift und Sprache und durch die Jahrtausende andauernde Entwicklung 

beider Kommunikationsformen sind die beiden so weit auseinander divergiert, 

daß es heute schon eine relativ schwierige Aufgabe geworden ist, 

aus der orthographischen Darstellung eines Wortes die dazu gehörige phonetische 

Darstellung zu gewinnen. Algorithmen, die dieses Problem lösen, 

werden ” Text-To-Speech“ Systeme (TTS) genannt und werden vor allem für 

die Sprachsynthese gebraucht. 

6.1 Lautliche Einheiten 

Es ist sehr schwer, Laute, die der Mensch artikulieren kann, so genau zu 

beschreiben, daß sie eindeutig wiedererkannt werden könnten. Das kommt 

nicht zuletzt daher, daß artikulatorische Laute keine diskreten Erscheinungen 

sind, sondern daß auch unendlich viele Zwischenformen zwischen zwei

64 6. Phonetische Grundlagen 

Lauten existieren können. So kann man zwischen je zwei Vokalen beliebig 

viele Abstufungen artikulieren. Wann ein bestimmter Laut ein ” A“ ist, ist 

gar nicht so einfach zu definieren. Hört man zum Beispiel arabischer Sprache 

zu, so würde man, wenn das Arabische fremd ist, viele Laute, die ein Araber 

als ein ” I“ bezeichnet, als ein ” Ä“ bezeichnen. In welche phonetische Klasse 

man einen Laut kategorisieren würde, hängt nicht nur von der Gewohnheit 

des Gehörs ab, sondern auch vom Kontext, in dem der Laut gesprochen wird. 

Trotz der Schwierigkeit, exakte Klassen definieren zu können und der 

Schwierigkeit, Laute zu klassifizieren, ist eine sinnvolle Forschung nur dann 

möglich, wenn man zumindest von einer Existenz von Klassen ausgeht, 

auch ohne deren Beschreibung zu kennen. Bevor wir das Problem, die 

Klassen automatisch zu finden, angehen, sollten wir als Grundlage das die 

Erkenntnisse verwenden, die die Phonetiker in den letzen Jahrhunderten 

erarbeitet haben. 

In so gut wie jeder Sprache gibt es viele hundert verschiedene Laute 

gibt. Nicht alle dienen der Unterscheidung von Wörtern, und nicht alle 

entsprechen einem Buchstaben des Alphabets oder einer Buchstabensequenz. 

Oft läßt sich aus einer Buchstabensequenz die dazu passende Lautfolge nicht 

ableiten. Das kommt zum einen daher, daß einige Wörter auf verschiedene 

Arten korrekt ausgesprochen werden können ( König“ oder Könich“), und 

” ” 

zum anderen daher, daß selbst zwei auf den ersten Blick gleiche Aussprachen 

doch unterschiedlich sind, wenn man genau hinhört ( weg“ oder Weg“). 

” ” 

Ein eindeutig bestimmter Laut wird auch als Phon bezeichnet. Neben der 

Einteilung der Laute in Phone gibt es auch die Einteilung in Phoneme. 

Während Phone akustisch motivierte Einheiten sind (es sind einfach sich 

ausreichend voneinander unterscheidende Laute), handelt es sich bei Phonemen 

um linguistisch motivierte Einheiten. Ein Phonem ist eine Menge von 

Phonen (seinen Allophonen), definiert dadurch, daß es zur Unterscheidung 

von Wörtern benötigt wird. Genauer gesagt: Ein Phonem ist ein Laut, der 

ein Wort von einem minimalen Partner unterscheidet. Ein minimales Paar 

sind zum Beispiel Haus“ und Maus“. Das heißt die jeweils ersten Laute 

” ” 

dieser beiden Wörter sind Phoneme. Auf den ersten Blick möchte man 

meinen, daß es zu jedem Phon ein minimales Paar existieren müßte. Dem 

ist aber nicht so. Im Deutschen gibt es zum Beispiel verschiedene Arten, das 

” ch“ auszusprechen. Weiter hinten im Mundraum artikuliert wird es nach 

den Vokalen A, O, und U (z.B. Dach, doch). In allen anderen Fällen wird es 

weiter vorne artikuliert (z.B. dich, Molch). Es gibt keine zwei Wörter, die 

verwechselt werden könnten, wenn die falsche Aussprache gewählt würde. 

Also handelt es sich beim deutschen ch“-Laut um ein Phonem, das die 

” 

Menge der zwei Phone ch“ wie in Dach“ und ch“ wie in dich“ vereint. 

” ” ” ” 

Ähnlich verhält es sich auch beim R“-Laut, der den Sinn eines Wortes 

” 

nie verfälscht, egal auf welche Art er artikuliert wird. Selbst zu beginn

6.2 Die IPA Lautemenge 65 

des zwanzigsten Jahrhunderts, als die offizielle Deutsche Bühnenaussprache 

definiert wurde, und genauer definiert wurde, welche ” R“-Laute gerollt und 

welche weicher gesprochen werden sollten, existierte nur ein Phonem ” R“. 

Während zwei Phone in einer Sprache ein einziges Phonem sind, könnten 

die gleichen zwei Phone in einer anderen Sprache verschiedene Phoneme 

sein, das heißt, daß die Definition eines Phonems von der zugrundeliegenden 

Sprache abhängt. Aber trotz der klaren Definition der Phoneme als Unterscheidungskriterium 

minimaler Paare sind sich Linguisten und Phonetiker 

nicht immer einig. Teilweise kommt das daher, daß viele Sprachen lebendig 

sind und mit der Zeit verschiedene Fremdwörter aufnehmen müssen, die 

vielleicht sprachfremde Laute enthalten (z.B. ” Restaurant“) oder neue 

minimale Paare erzeugen (z.B. ” froh“ und ” Francs“). 

6.2 Die IPA Lautemenge 

Das bisher erfolgreichste System zur Darstellung von Lauten ist das Alphabet 

der ” International Phonetics Association“, IPA(s. Abb. 6.1). Auch 

wenn viele Phonetiker unterschiedlicher Meinung sind, was die Gleichheit 

oder Verschiedenheit bestimmter Laute betrifft, und auch wenn mit der Zeit 

neuere Symbole in das IPA-Alphabet aufgenommen werden mußten, so ist 

auch heute noch dieses Alphabet die international anerkannte Standardschreibweise 

für lautliche Beschreibungen von Aussprachen. 

Abb. 6.1. Die Laute des International Phonetic Alphabet 

Bei genauerer Betrachtung fällt allerdings schnell auf, daß das IPA- 

Alphabet, ebenso wie viele Weisheiten der Phonetik sehr stark linguistisch 

und viel weniger akustisch geprägt sind. So gib es im IPA-Alphabet Symbole


Konsonanten Vokale 

IPA Beispiel IPA Beispiel 

p Papa, hoppla, Abt iIgel, Biene 

t Tal, Theater, Lotto, Rad i Idee, Kritik 

k Kopf, Chaos, Backe, Fuchs, Tag Áintakt, Mitte, Kritik 

b Bote, Ebbe yüben, Bühne 

d Deich, buddeln y Büro, Physik 

g Garten, Egge üppig, müssen, Gymnasium 

f faul, Vater, Phonetik, Affe eedel, Mehl, See 

s Sandwich, City, Masse, große e lebendig, Detail 

ËSchule, Stamm, Chef, mischen Ähre, käme 

ç Chemie, Predigt, Mädchen Äste, Essen, entzwei, Fest 

Lachen, Buch, Tauchen begehren, Liebe 

ÎWagen, Vase, ewig øÖse, trösten, Friseur 

z Sahne, Dose, äußerst, Puzzle ø Ökonomie 

Genie, Journal, Garage œ öffnen, Gehöft, Flirt 

j ja, Mayonnaise, Nation uBluse, Blues, Filou 

Ã,, r Rose, Krug, Karren u Uran, Ouvertüre, Akku 

pf Pfahl, Kopf, hüpfen ÍKuckuck, Mutter, good-bye 

ñZunge, heizen, Katzen, Ivica oohne, groß, Depot 

tratschen, Cevapcici o Moral, Auto 

Dschungel, Maharadscha, Job ÇOchse, Sorge, Konflikt 

m Mund, Kamm, Trommel Atem, nah, Etat 

n Nase, Henne, Mann a alt, Ratte 

Bretagne, Cognac erfahren, Verband, Kur, Oper 

Æsingen, sinken, lang aÁEi, Kaiser, Geweih 

l Lust, Schnalle, Knall aÍaus, rauh, Couch 

h Hahn, Uhu ÇTreue, Efeu, Bläue 

Tabelle 6.1. Deutsche Aussprachebeispiele für einige IPA-Symbole

6.3 Gruppierung von Phonemen 67 

für Diphthonge (Vokalübergänge) und Affrikate (bestimmte Doppelkonsonanten), 

die aus akustischer Sicht ganz klar kein einzelner Laut sondern eine 

Folge mehrerer Laute sind. 

6.3 Gruppierung von Phonemen 

Es gibt sicherlich viele sinnvolle Arten, Phoneme in Gruppen zusammenzufassen. 

Die Motivation liegt dabei aus der Sicht des Spracherkennungsforschers 

in der Hoffnung, daß Phoneme, die in einer Gruppe liegen, eine gewisse 

Gemeinsamkeit haben, welche sich gegebenenfalls maschinell lernen läßt 

und so eine automatische Klassifikation vereinfachen könnte. Insbesondere 

besteht die Hoffnung, aus der Tatsache, daß der Artikulationsapparat sich 

beim Sprechen stetig bewegt und keine Sprünge von einem Zustand in eine 

völlig anderen machen kann, schließen zu können, daß die Manifestation 

eines Lautes davon abhängt, welches der vorhergehende und der nachfolgende 

Laut ist. Im Kapitel 17 werden Beispiele dafür gegeben, wie diese 

Kontextabhängigkeit für die Spracherkennung modelliert werden kann. 

Im folgenden werden Phoneme unterschieden nach ihrer Artikulationsart 

(physikalisches Phänomen), den Ort der Artikulation im Vokaltrakt und 

einiger anderer besonderer Eigenschaften. 

6.3.1 Vokale und Konsonanten 

Die erste Unterteilung von Lauten lernt man schon früh in der Schule, 

nämlich diejenige in Vokale und Konsonanten. Hierbei bezeichnen Vokale 

solche Laute, die allein artikuliert und ” gehalten“ werden können, während 

Konsonanten nur zusammen (con-) mit anderen Lauten gut klingen (sonant). 

Auf den ersten Blick sind diese Unterscheidungen relativ einfach zu 

treffen. Bei näherer Betrachtung muß man im Deutschen allerdings zu den 

üblichen fünf Vokalen A, E, I, O, U (jeweils mit mehreren IPA-Symbolen) 

zumindest noch die Umlaute Ä, Ö, und Ü hinzunehmen. Etwas strittiger 

wird dann die Frage, ob auch Doppellaute wie EI und EU als Vokale zu 

betrachten sind. Im übrigen sind auch viele im allgemeinen den Konsonanten 

zugeordnete Laute wie M, N, S und andere problemlos allein artikulierbar. 

In der Tat gibt es in vielen Sprachen (vor allem in den slawischen) 

Wörter, die ganz ohne Laute auskommen, die im Deutschen als Vokale gelten. 

Daher sind die deutschen Bezeichnungen Selbstlaute“ für Vokale und 

” 

” Mitlaute“ für Konsonanten irreführend. In der Spracherkennung wird


die Unterscheidung zwischen Vokalen und Konsonanten demnach auch 

nicht wirklich vorgenommen. Das was man landläufig als Vokal bezeichnet 

müßte aus phonetischer Sicht vielmehr als ” stimmhafter Laut, bei dem der 

Luftstrom durch den Mundraum nicht behindert wird“ genannt werden. 

Vokale und Konsonanten haben allerdings eine sehr unterschiedliche 

Bedeutung für die Schrift und für die Aussprache. Es ist nahezu unmöglich, 

den folgenden Satz, bei dem die Konsonanten entfernt wurden zu verstehen: 

E OE OAE I I E U EEE 

Wenn der gleiche Satz aber ohne Vokale geschrieben wird: 

TXT HN VKL ST NCHT SCHWR Z VRSTHN 

dann hat man durchaus eine realistische Chance. In der Tat werden 

in einigen Sprachen (zum Beispiel Arabisch und Hebräisch) in der Schrift 

meist die Vokale weggelassen. Der Schluß, daß somit auch für die Spracherkennung 

die Konsonanten die wichtigere Rolle spielen wäre allerdings 

nicht korrekt. Tatsächlich ist es nämlich so, daß der Anteil der Vokale 

am Sprachsignal sowohl zeitlich als auch energetisch Betrachtet wesentlich 

höher ist als der der Konsonanten. Daher dürfen wir erwarten, daß Vokale 

auch einen erheblichen Einfluß auf die Funktion eines Spracherkenners haben. 

Wir bezeichnen Laute als ” stimmhaft“, wenn bei ihrer Artikulation, die 

Stimmbänder schwingen. Man kann dies leicht fühlen, indem man seine 

Finger beim Sprechen seitlich an den Kehlkopf hält. Auch die Laute m, n 

und j sind stimmhafte Laute. Wenn dann noch die Luft ungehindert durch 

den Mund strömen kann handelt es sich um einen Vokal. Bei m und n strömt 

die Luft durch die Nase – der Leser möge zum Test ein m oder n artikulieren 

und sich dann die Nase zuhalten. Beim j-Laut wird der Luftstrom durch die 

Zunge behindert und strömt seitlich an ihr vorbei. 

Wie sich ein Vokal anhört hängt nun im wesentlichen von der Position des 

höchsten Punktes des Zungenrückens (Dorsum) ab. Sicherlich spielt auch die 

Schwingungsfrequenz der Stimmbänder eine Rolle. Sie bestimmt aber nur die 

Tonhöhe des Vokals, während die Qualität durch die Form des Mundraumes 

vorgegeben wird. Das Dorsum befindet sich bei Vokalen in einem Bereich 

den man grob als Viereck ansehen kann. Das sogenannte ” Vokalviereck“ [?] 

ist in Abb. 6.2 dargestellt. Es berücksichtigt nicht unterschiedliche Längen 

(z.B. e in ” weg“ gegenüber ein ” Weg“). Dazu wäre eine weitere Dimension 

nötig, die das Vokalviereck dann zu einem Vokalklotz macht. Die links der von 

oben nach unten verlaufenden Linien stehenden Laute werden mit gerundeten 

Lippen artikuliert, die rechts stehenden mit nicht gerundeten.

Abb. 6.2. Das Vokalviereck 

uÏ oÇ 

 


Áy 

i 

ø e 

œ 

æ 

 

Œ a 

Ufer 

Biene 

Mutter Physik Mitte 

Auto 

Öko genug 

Liebe 

morgen 

Flirt Essen 

Äh 

alt 

Í 

 

 

In den meisten Sprachen werden auch so genannte Diphthonge verwendet. 

Dabei handelt es sich um zwei Vokale, die hintereinander mit fließendem 

Übergang artikuliert werden (s. Abb. 6.3). 

6.3.2 Artikulationsarten 

Während Vokale vorrangig durch die Position des Dorsums definiert werden, 

ist das Hauptkriterium zur Unterscheidung von Konsonanten die Artikulationsart. 

Sie gibt an, mit welchem Mechanismus der Luftstrom manipuliert 

wird um einen Laut entstehen zu lassen. 

Verschlußlaute oder Plosive 

Bei Verschlußlauten wird der Luftstrom durch den Vokaltrakt für eine kurze 

Zeit vollständig unterbrochen. 

Die typischen Verschlußlaute sind b, d, g, p, t, k. Sie lassen sich in zwei 

Untergruppen aufteilen, p, t und k sind völlig stimmlos, während bei den 

Anfangsstücken von b, d und g die Stimmbänder noch etwas mitschwingen. 

Bei b und p findet der Verschluß des Vokaltraktes durch die Lippen statt. 

Bei d und t wird der Luftstrom dadurch unterbrochen, daß die Zunge an den 

Zahndamm und die Zähne des Oberkiefers gedrückt wird. Und bei g und k

Á 


00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

00000000 

11111111 

 

000000 

111111 

000000 

111111 

000000 

111111 

000000 

111111 

000000 

111111 

000000 

111111 

Ç 

Í Á 

eÁ 

0000 1111 

0000 1111 

0000 1111 

0000 1111 

0000 1111 

0000 1111 

0000 1111 

0000 1111 

a 

Abb. 6.3. Dorsumweg bei den DiphthongenÁ,Ç,Íund 

wird der Rücken der Zunge gegen den Gaumen gedrückt. 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

In den Anfängen der Spracherkennungsforschung wurden gerne Systeme 

untersucht, die nur die sechs typischen Plosive erkennen mußten. Beschränkt 

auf die teilweise stimmhaften wurde damals die sogenannte B-D-G-Task 

zum Standard-Benchmark für Spracherkenner. 

b, p d,t g,k 

Abb. 6.4. Sagittalschnitte verschiedener Plosivlaute


In Abb. 6.4 sind drei Sagittalschnitte für sechs verschiedene Plosivlaute 

dargestellt. Grau unterlegt ist jeweils die Stelle des Vokaltraktes, an der der 

Luftstrom unterbrochen wird. 

Nasale 

Die typischen Nasallaute, die in fast allen Sprachen der Welt vorkommen 

sind die Konsonanten m und n, oft auchÆ. In einigen Sprachen – die 

bekannteste dürfte wohl Französisch sein – werden auch viele Vokale nasal 

ausgesprochen. Dabei senkt sich das Gaumensegel, das normalerweise die 

Öffnung des Rachenraums zur Nasenhöhle verschließt, und läßt so einen 

Teil des Luftstroms durch die Nasenhöhle. Diese dient dann als zusätzlicher 

Resonanzkörper, der den Luftstrom moduliert und über die Nasenlöcher 

abgestrahlt. Deshalb hören sich auch Nasallaute seltsam an, wenn man 

verschnupft ist. 

m n Æ 

Abb. 6.5. Sagittalschnitte verschiedener nasaler Konsonanten 

In Abb.6.5 sind drei Sagittalschnitte für die Nasalen Konsonanten dargestellt. 

Auch bei diesen Lauten wird der Luftstrom im Mundbereich an einer 

Stelle blockiert (grau unterlegt). Da hier aber im Gegensatz zu den Plosiven 

das Velum geöffnet ist, kann die Luft über die Nase ausströmen. Bei genauer 

Betrachtung kann man feststellen, daß die Form des Vokaltraktes mit Ausnahme 

des Velums beim m genauso aussieht wie bei den Plosiven b und p, 

beim n wie bei den Plosiven f und t, und beimÆwie bei den Plosiven g und 

k. Eine Unterscheidung in stimmhaft und stimmlos gibt es bei den nasalen 

Konsonanten nicht, sie sind alle stimmhaft.


Vibrationslaute 

Bei Vibrationslauten befindet sich ein Teil des Artikulationsapparates, typischerweise 

die Zungenspitze (Apis), das Zäpfchen (Uvula), oder Teile des 

Gaumensegels (Velum). Dabei handelt es sich fast ausschließlich um Varianten 

des R-Lautes (IPA SymboleÃ,, r und andere). 

Frikative 

Die Bezeichnung Frikativ kommt von Friktion (Reibung). In der deutschsprachigen 

Literatur werden Frikative oft auch Reibelaute genannt. Sie entstehen 

dadurch, daß der Luftstrom an einer Stelle im Vokaltrakt behindert wird. 

An dieser Stelle reibt die Luft an den Teilen des Artikulationsapparates, die 

die Verengung erzeugen. 

Î,f z,s ,Ë 

j, 

Abb. 6.6. Sagittalschnitte verschiedener Frikative 

Auch bei den Frikativen gibt es die Unterscheidung zwischen stimmhaften 

und stimmlosen. In Abb. 6.6 sind die stimmhaften FrikativeÎ, z,und j, sowie 

die ihnen entsprechenden stimmlosen Frikative f, s,Ë, unddargestellt. 

Affrikate 

Als Affrikate werden Laute bezeichnet, die eigentlich aus zwei Lauten bestehen: 

einem Plosiv und einem unmittelbar folgenden Frikativ, wie z.B. am Anfang 

von Pfeffer oder Zaun. Wenn der Plosivlaut und der Frikativ unabhängig 

ausgesprochen werden, hört es sich anders an (z.B. wie in Klumpf uß).

6.3.3 Artikulationsorte 


Neben der Möglichkeit, die Laute nach der Artikulationsart zu klassifizieren, 

gibt es die Klassifikation nach dem Artikulationsort. 

Bilabiale 

Wenn ein Laut dadurch entsteht, daß beide Lippen sich (beinahe) berühren, 

wird er als bilabialer Laut bezeichnet. Beispiele dafür sind b, m und p. In 

einigen Sprachen gibt es noch weitere Laute. Z.B. der H-Laut im Japanischen 

oder der spanische Mischlaut zwischen b undÎwerden auch oft bilabial 

gesprochen. 

Labiodentale 

Lippe und Zähne artikulieren gegeneinander. Meist sind es die Unterlippe 

und die oberen Schneide- und Eckzähne. Z.B. f undÎ. 

Dentale / Alveolare 

Die Zunge, vor allem der vordere Teil der Zunge, berührt die Zähne (dental), 

wie bei t und d, oder den Zahndamm (alveolar), wie bei n und l. 

Palatoalveolare 

Zunge und Zahndamm bzw. harter Gaumen artikulieren zusammen. Dies ist 

meist bei Frikativen der Fall. Je nach genauer Position können so verschiedene 

als härter oder weicher empfundene Zischlaute erzeugen. Typische Vertreter 

palatoalveolarer Laute sind das stimmloseËund sein stimmhaftes Pendant, 

das in der deutschen Sprache so gut wie gar nicht vorkommt. Bei korrekter 

Aussprache müßte es im Wort Garage stimmhaft gesprochen werden. 

Velare 

Bei den velaren Lauten wird die Zunge gegen das Gaumensegel gedrückt, wie 

bei k, g undÆ. 

Laterale 

Der Artikulationsort ist neben der Zunge. Die Zunge berührt an mehreren 

möglichen Stellen das Dach des Mundraumes (Zahndamm, harter oder weicher 

Gaumen), während die Luft seitlich an der Zunge vorbeiströmt. Dies ist 

beim j und l so.


Glottale 

Bei einigen Lauten wie dem silbeninitialen h im Deutschen entsteht die Reibung 

der Luft an der Stimmritze. Die Stimmbänder sind nicht in Schwingung, 

verengen aber die Stimmritze. Bei vielen silbeninitialen Vokalen ist die Glottis 

vor Beginn der Silbe geschlossen. Bevor die Stimmbänder anfangen zu 

schwingen, wird unterhalb der Stimmbänder etwas Druck aufgebaut. Beim 

Öffnen der Stimmritze entsteht dann ein kleiner Plosivlaut, der sogenannte 

Glottale Verschlußlaut, IPA-SymbolÈ. In der fließenden Sprache ist der Verschlußlaut 

kaum merklich, bei genauer Analyse des Sprachsignals ist er aber 

meistens deutlich zu erkennen. 

6.3.4 Besondere Eigenschaften 

Viele Laute haben neben dem Artikulationsort und der Artikulationsart diverse 

andere Eigenschaften, nach denen Sie unterschieden werden können. 

Stimmhaftigkeit 

Einer der offensichtlichsten und wichtigsten Eigenschaften eines Lautes ist 

die Frage, ob er stimmhaft oder stimmlos ist. Wenn man sich beim Sprechen 

die Finger an den Kehlkopf hält, kann man die Vibrationen der Stimmbänder 

spüren. Auch im Sprachsignal ist es sehr einfach stimmlose Laute (vergleichbar 

mit ungeordnetem Rauschen) von stimmhaften Lauten (erkennbare, sich 

wiederholende Wellenform) zu unterscheiden. 

Aspiration 

In der alten deutschen Rechtschreibung, wie sie bis Anfang des 20. Jahrhunderts 

gültig war, wurden viele T-Laute, die heute mit einfachem T geschrieben 

werden, noch mit TH geschrieben (z.B. thun statt tun). In dieser Schreibweise 

spiegelte sich die Tatsache wider, daß die meisten T-Laute mit einem 

unmittelbar folgenden ” Ausatmen“ artikuliert werden, also aspiriert sind. Da 

die Aspirationseigenschaft im Deutschen nicht zur Unterscheidung von Lauten 

dient, und da es so gut wie keine nicht-aspirierten T laute gibt, ist die 

TH-Schreibweise fast nur noch bei Fremdwörtern aufrechterhalten worden. 

Stärke 

Bei einigen Lauten werden verschiedene Artikulationsstärken unterschieden. 

Im Deutschen spielt die Unterscheidung von schwach artikulierten Lauten 

(Lenes) und stark artikulierten Lauten (Fortes) keine Rolle.

Lippenrundung 


Lippenrundung Die letzte Instanz des Vokaltraktes bilden meist die Lippen. 

Für einige Laute sind alle Teile des Artikulationsapparates bis auf die Lippen 

identisch. So unterscheiden sich die Laute i (wie in Tier) und y (wie in Tür) 

nur dadurch, daß im einen Fall die Lippen weniger im anderen mehr gerundet 

sind. Durch die Rundung ändern sich die Schallabstrahlungseigenschaften.

7. Grundlagen der Signalverarbeitung 

Ein Verständnis für die Verarbeitung von Signalen ist im Zusammenhang 

mit der Spracherkennung nicht nur wichtig, weil die Algorithmen bei 

der Aufarbeitung von Sprachsignalen verwendet werden, sondern auch, 

weil sich die Eigenschaften von Signalen bis in die höheren Ebenen des 

Spracherkenners auswirken. Eine Detaillierte Abhandlung aller Grundlagen 

und Methoden der Signalverarbeitung würde den Rahmen dieses Buches 

sprengen. Das folgende Kapitel konzentriert sich daher vor allem auf die 

aus der Sicht der Spracherkennungsforschung interessanten Aspekte dieses 

Themas. 

7.1 Analog/Digital Wandlung 

Das erste, was eine Schallwelle durchläuft, wenn sie von Digitalrechnern 

verarbeitet wird ist normalerweise ein Analog/Digital Wandler (A/D 

Wandler). Wir wollen uns an dieser Stelle nicht mir der Physik oder 

den elektrotechnischen Grundlagen von A/D Wandlern befassen. Wir wollen 

aber einige Dinge festhalten, die im weiteren Verlauf von Bedeutung sind. 

Schallwellen als physikalisches Phänomen bewirken in jedem Punkt des 

Raumes Luftdruckänderungen. Beim Messen dieser Luftdruckänderungen 

bzw. der dadurch transportierten Energie werden von einem Mikrophon 

elektrische Spannungen geliefert. Diese Spannungen ergeben über die Zeit 

betrachtet eine kontinuierliche reellwertige analoge Funktion. Analogrechner 

werden schon lange nicht mehr in nennenswerter Häufigkeit verwendet, und 

Digitalrechner arbeiten nur mit digitalen Daten. Um aus einem analogen 

kontinuierlichen Signal ein zeitdiskretes und digitales Signal zu machen 

sind zwei Operationen nötig (s. Abb. 7.1). Der Schritt, der aus einem 

kontinuierlichen Signal ein diskretes macht, heißt ” Abtastung“ und wird von 

einem so genannten Halteglied bewerkstelligt. Der Schritt, der aus einem 

analogen Signal ein digitales macht, heißt ” Quantisierung“ und wird von 

einem oder mehreren Komparatoren durchgeführt. Abb. 7.2 zeigt die groben

78 7. Grundlagen der Signalverarbeitung 

Bestandteile eines Analog/Digital Wandlers. 

kontinuierlich 

diskret 

analog 

Abb. 7.1. Verschiedene Arten von Signalen 

00 11 

00 11 

00 11 

Anti- 

Aliasing 

Filter 

(Tiefpaß) 

Halte- 

glied 

Abb. 7.2. Funktionen eines A/D Wandlers 

digital 

Abtastung 

Quanti- 

sierung 

Quantisierung 

Wird die Meßwerteachse im Bereich zwischen f min und fmax in dem 

alle Meßwerte liegen, in 2 n äquidistante Intervalle eingeteilt, dann bedeutet 

Quantisieren das Abbilden eines Wertes x auf q(x) gemäß: 

q(x) = ⌊2 n · 

(x − fmin ) 

⌋ (7.1) 

(fmax − fmin ) 

Die Werte f min und fmax werden durch die Hardware (A/D-Wandler) 

bestimmt. Wenn das physikalische Signal so stark ist, daß der Wertebereich

7.1 Analog/Digital Wandlung 79 

des Wandlers oft nicht ausreicht, dann wird dieses Phänomen ” Übersteuern“ 

genannt. 

Beim Quantisieren geht Information verloren. In Gl. 7.1 wird jeder Wert 

auf den Anfang des Intervalls, in dem er liegt abgebildet. Wenn innerhalb der 

Intervalle die Meßwerte einigermaßen gleichverteilt sind (wovon auszugehen 

ist, wenn ausreichend viele Intervalle vorhanden sind), dann ist der Erwartungswert 

der Abweichung e des quantisierten vom ursprünglichen Wert eine 

halbe Intervallbreite: 

E[e] = 1 

2 n+1 · (fmax − f min ) (7.2) 

Diese Abweichung wird Quantisierungsfehler genannt. Man kann den 

Effekt des Quantisierungsfehlers so betrachten, als sei das ursprüngliche 

Signal mit einem Störsignal verrauscht worden. 

Der Signal-Rausch-Abstand gibt das Verhältnis der Energie des Signals 

zur Energie des Quantisierungsrauschens an. Die Energie des Signals x 

ist x 2 , und die Energie des Quantisierungsrauschens ist e 2 . Das heißt der 

Signal-Rausch-Abstand (SNR für signal to noise ratio) ist definiert als: 

SNR = 10 log10( E[x2 ] 

E[e2 ) in dB (7.3) 

] 

Der Erwartungswert der Signalenergie E[x2 ] ist nicht unbedingt 

( 1 

2 (fmax − fmin )) 2 , weil die Meßwerte normalerweise nicht zwischen fmin und fmax gleichverteilt sind. Daß in der Regel dennoch ( 1 

2 (fmax − fmin )) 2 

herauskommt liegt daran, daß typischerweise fmax = −fmin , und die 

Aussteuerung in den positiven Meßbereich fast die gleiche ist, wie die in den 

negativen Meßbereich. 

Da wir hier aber vor allem auf die Verarbeitung von Sprachsignalen 

mit Digitalrechnern eingehen wollen, bezeichnen wir mit A/D Wandler 

das, was die meisten handelsüblichen Soundkarten tatsächlich tun. Der 

erste Schritt (Anti-Aliasing Filter) dient dazu, daß Artefakte ausgeschlossen 

werden, die durch Frequenzen im Schallsignal, die höher sind als die doppelte 

Abtastfrequenz, entstehen. Oft sind diese Anti-Aliasing Filter tatsächliche 

Widerstand-Kondensator-Einheiten, die nur eine bestimmte Maximalfrequenz 

passieren lassen, also einen Tiefpaßfilter bilden. 

Dabei wird der Wertebereich des Signals in eine endliche Zahl von 

Intervallen aufgeteilt. Typischerweise ist diese Zahl eine Potenz von 2. Dies 

ist nicht nur wegen der Architektur der Digitalrechner sinnvoll, sondern


wird quasi automatisch aufgrund des hierarchischen internen Aufbaus vieler 

A/D Wandler postuliert. Der Zweierlogarithmus dieser Intervallzahl wird 

als ” Auflösung“ des Wandlers mit der Einheit ” bit“ angegeben. Übliche 

Werte sind 8 bit oder 16 bit. Je nach Aufgabe gibt es in einigen Fällen auch 

Wandler mit anderen Auflösungen. Wie wir aus Abs. 5.2 wissen, schwankt 

der Schalldruckpegel von Sprache um ca. 60 dB zwischen leisem Flüstern 

und lautem Schreien. Wenn wir wollen, daß der Signal-zu-Rausch-Abstand 

in der gleichen Größenordnung ist, dann stellen wir fest, daß eine Auflösung 

von ca. 12 bit in der Regel ausreichend ist. Eine höhere Auflösung würde 

nur mehr wertlose Information in die Aufnahme bringen. 

Die Abtastfunktion des A/D Wandlers wird im wesentlichen durch die Abtastfrequenz 

beschrieben. Sie gibt die Rate an, mit welcher die quantisierten 

Signale in eine diskrete Folge von Abtastwerten gewandelt werden. Aufnahmen 

in CD-Qualität verwenden eine Abtastrate von 44.1 kHz, DAT (Digital 

Audio Tape) Recorder tasten mit 48 kHz ab, die meisten Sound-Karten bieten 

standardmäßig 16 kHz und 8 kHz an. Im weiteren Verlauf dieses Kapitels 

wird auf das Abtasttheorem eingegangen, welches besagt, daß man, um keine 

Information zu verlieren, ein Signal mit der maximalen Frequenz ω mit einer 

Abtastfrequenz von mindestens 2ω abtasten muß. Die in diesem Zusammenhang 

relevante Maximalfrequenz wird normalerweise durch den Anti-Aliasing 

Filter festgelegt, aber auch durch den Gesamtaufbau der Aufzeichnungseinrichtung 

(z.B. der Mikrophoneigenschaften) beeinflußt. Meistens paßt die digitalisierte 

Version des Signals nicht optimal auf die analoge Version, selbst 

wenn die Abtastrate ausreichend hoch ist, weil die meisten A/D Wandler verschiedene 

Frequenzen unterschiedlich gut quantisieren. Wir wollen uns aber 

mit dieser Problematik nicht weiter befassen und gehen davon aus, daß die 

Qualität der verwendeten A/D Wandler ausreichend hoch ist. Halten wir also 

fest: Die Funktion eines A/D Wandlers wird im wesentlichen durch drei 

Variablen beschrieben: ωg, die Grenzfrequenz des Anti-Aliasing Filters; b, die 

Auflösung in bits; und r die Abtastrate. 

7.2 Systeme 

Im Zusammenhang mit der Signalverarbeitung wird oft von Systemen 

gesprochen. Im allgemeinen ist damit ein Algorithmus gemeint, der aus 

einem Eingabesignal ein Ausgabesignal erzeugt: f in → System → f out . 

Wenn es aber um die digitale Verarbeitung von Sprachsignalen geht, interessiert 

eigentlich nur eine bestimmte Klasse von Systemen, die sogenannten 

kausalen linearen zeitinvarianten Systeme. Kausal bedeutet, daß f out (x) 

nur von f in (−∞ . . . x) abhängt, d.h. die Ausgabe eines Systems hängt zu 

einem Zeitpunkt nur von den bis dahin gelesenen Eingaben ab und nicht 

von den in der ” Zukunft“ noch ankommenden ab. Ein System wird dann

7.2 Systeme 81 

als zeitinvariant bezeichnet, wenn die Ausgabe nur von der Eingabe und 

nicht vom ” Zeitpunkt“ der Eingabe abhängt, also wenn f in (x) = g in (x − t) 

dann ist auch f out (x) = g out (x − t). Ein zeitinvariantes System wird 

darüber hinaus als linear bezeichnet, wenn es die Eigenschaften der Linearität 

erfüllt, also: wenn f in (x) = a · g in1 (x) + b · g in2 (x), dann ist 

auchf out (x) = a · g out1 (x) + b · g out2 (x). Lineare zeitinvariante Systeme 

werden in der Literatur gerne mit der Abkürzung LTI (linear time-invariant) 

bezeichnet. Einige einfache Eigenschaften von LTI Systemen kann man schon 

an der Definition ablesen. Kein LTI System ist z.B. eines, das als Ausgabe 

das Quadrat der Eingabe ausgibt. Ein besonders einfaches LTI System ist 

eines mit einer konstanten Ausgabe, bei dem gilt f out (x) = c∀x, oder auch 

ein so genanntes Verzögerungsglied mit f out (x) = f in (x − t). 

Systeme können auch diskret sein. Dann geht man davon aus, daß sowohl 

die Eingabe f in [i] als auch die Ausgabe f out [i] Folgen sind, mit natürlichen 

i ∈ N oder zumindest ganzen i ∈ Z. Die o.a. Eigenschaften Kausalität, 

Zeitinvarianz und Linearität gelten entsprechend auch für diskrete Systeme. 

In der Praxis der Mustererkennung genügt meist der Umgang mit diskreten 

Systemen, während analoge Systeme nur als mathematischen Fundierung 

dienen. 

7.2.1 Die Dirac Distribution 

Ein besonderes, in der Theorie der Signalverarbeitung häufig verwendetes 

Signal ist die so genannte Dirac Distribution. Oder auch ” Impuls“ genannt. 

Dabei handelt es sich im mathematischen Sinne nicht um eine Funktion. 

Daher auch die Bezeichnung Distribution. In der Praxis wird die Dirac 

Distribution jedoch oft wie eine normale Funktion behandelt. Man kann die 

Distribution definieren als 

 

0 falls |x| > |t| 

δ(x) := lim ft(x) mit ft(x) = 

t→0 t/2 falls |x| ≤ |t| 

(7.4) 

Dieser Sachverhalt wird in Abbildung 7.3 veranschaulicht. Offensichtlich 

gilt: 

∀t : 

∞ 

−∞ 

ft(x)dx = 1 (7.5) 

Entsprechend wird dann in mathematischen Berechnungen, in denen die 

Dirac Distribution vorkommt auch angenommen, daß


∞ 

−∞ 

a · δ(x)dx = a (7.6) 

Das ist so als wäre a · δ(x) eine Funktion, die überall 0 ist außer für 

x = 0, wo sie den Wert a · ∞ annimmt. An dieser Stelle sieht man auch 

die Problematik, wenn man die Dirac Distribution als Funktion behandelt. 

Eine ausführliche Diskussion dieser Problematik würde aber den Rahmen 

des vorliegenden Buches sprengen. 

f 

1/6 

f 

1/4 

f 

1/2 

f 

1 

Abb. 7.3. Veranschaulichung der Dirac Distribution δ 

Die Definition von δ über das Integral hat zur Folge, daß die Multiplikation 

von δ mit einer Funktion g den Wert von g(0) ” extrahiert“ genauer: 

∞ 

−∞ 

∞ 

−∞ 

δ(x) · g(x)dx = g(0) (7.7) 

δ(x − τ) · g(x)dx = g(τ) (7.8) 

Eine andere Sichtweise der Dirac Distribution ist die, daß δ(x) definiert 

ist als die Ableitung der Stufenfunktion 

σ(x) = 

0 falls x < 0 

1 falls x ≥ 0 

f 2 

f 

3 

(7.9) 

Da ein Impuls keine Funktion im Mathematischen Sinne ist, hat es auch 

nicht viel Sinn von einem Funktionswert zu sprechen. Dennoch verwendet 

man zur Veranschaulichung von Impulsen gerne Diagramme, bei denen Funktionskurven 

eingezeichnet werden, die aus einem Strich bestehen, der an der

σ(x) 

Abb. 7.4. Die Stufenfunktion σ 

7.2 Systeme 83 

Stelle des Impulses, als Höhe den Wert des Integrals des Impulses hat (s. 

Abb. 7.5). 

1 

h 

Einheitsimpuls mit h skalierter Impuls mehrere Impulse 

Abb. 7.5. Darstellung von Impulsen 

In der Signalverarbeitung werden oft diskrete Meßreihen verwendet. Dabei 

werden in gleichen zeitlichen Abständen t Werte h0, h1, . . . hn gemessen. Die 

gesamte Meßwertreihe kann nun interpretiert werden als Impulsfolge n i=0 hi· 

δ(x − i · t) 

7.2.2 Faltung 

Die Wirkung eines Kanals auf ein Signal läßt sich mathematisch am besten 

als eine Faltung beschreiben. 

(f ∗ g)(x) = 

∞ 

−∞ 

f(x − t)g(t)dt (7.10) 

In Gl. 7.10 ist f das Signal und g die Funktion des Kanals, mit der das 

Signal gefaltet wird. 

Betrachten wir ein diskretes lineares zeitinvariantes System, so läßt sich 

jeder seiner Ausgabewerte f out [n] als Linearkombination einer begrenzten 

Menge von Eingabewerten f in [n − k], f in [n − k + 1], . . .f in [n] mit den 

Gewichtungskoeffizienten a[i] darstellen: 

f out [n] = 

k 

a[i]fin [n − i] (7.11) 

i=0


Man erkennt in Gl.7.11 die diskrete Variante von Gl. 7.10. In der Tat 

ist Gl. 7.11 die diskrete Faltung f ∗ a wobei alle nicht betrachteten Folgenelemente 

implizit als 0 angesehen werden. Man kann also manche Faltungen 

als lineare zeitinvariante Systeme betrachten. Umgekehrt können die meisten 

in der Praxis der Signalverarbeitung relevanten Übertragungskanäle als LTI- 

Systeme angesehen werden und somit mit Hilfe einer Faltung beschrieben 

werden. 

Experiment 7.1: Faltung von Signalen 

Starten Sie das Applet Convolution. Auf der Oberfläche sehen Sie zwei 

Signalauswahlfelder, mehrere Funktionsgraphen und einen Schieberegler. 

Mit dem linken Auswahlfeld wählen Sie die Funktion f aus Gl. 7.10 und 

mit dem rechten die Funktion g. Die ausgewählen Signale werden darunter 

dargestellt. Der Schieberegler am unteren Rand bestimmt den Wert der 

Laufvariablen t. 

Unterhalb der Signale werden f(t − x) und g gleichzeitig dargestellt. 

Durch verstellen des Schiebereglers können Sie die horizontale Position von 

f(t − x) steuern. Das Produkt von f(t − x) und g wird darunter in Form 

einer Schwarzen Fläche dargestellt. Die Größe dieser Fläche (der Wert des 

Integrals) folgt darunter als orange gefüllte Kurve. 

Wählen Sie verschiedene Signale aus und Falten Sie diese miteinander. 

Beobachten Sie insbesondere den Effekt der Faltung mit einer Impulsfolge 

und dabei die Wirkung des Abstandes der Impulse auf das Resultat. 

7.2.3 Impulsantwort 

Betrachten wir die Faltung eines Impulses δ(x) mit einer Kanalfunktion g(x), 

so erhalten wir (δ ∗ g)(x) = ∞ 

δ(x − t)g(t)dt = g(x). Mit anderen Worten, 

−∞ 

die Kanalfunktion g ist gleichzeitig die Ausgabe des Kanals, wenn als Eingabe 

ein einzelner Impuls verwendet wird. Daher wird die Funktion meist auch 

als Impulsantwort bezeichnet. Man kann also die komplette Wirkung eines 

Kanals dadurch beschreiben, daß man angibt, wie der Kanal auf einen Impuls 

reagiert.

7.3 Fourieranalyse 

7.3 Fourieranalyse 85 

Fourier stellte die Behauptung auf, jede periodische Funktion, die ein paar 

minimale Bedingungen erfüllt, läßt sich darstellen als die (möglicherweise 

unendliche) Summe von Sinusfunktionen. Aus heutiger Sicht erscheint es 

unverständlich, warum führende Mathematiker der damaligen Zeit, vor 

allem der große Lagrange, Fouriers Theorie mit naiven Begründungen 

ablehnten wie z.B. daß die Summe von differenzierbaren Funktionen stets 

differenzierbar sei. Trotz der zunächst mangelnden Anerkennung setzte sich 

Fourier schließlich durch, und viele Mathematiker, die zuvor verächtlich auf 

ihn herabgeschaut hatten, mußten seine Ergebnisse akzeptieren. 

Betrachten wir zunächst nur periodische Funktionen. Es leuchtet ein, daß 

eine Funktion f(x) mit der Periode T dargestellt werden kann als g(t) = 

f(t ·T/2π) wobei g die Periode 2π hat. Betrachten wir nun die Frage, ob sich 

jede 2π-periodische Funktion f als trigonometrische Reihe darstellen läßt, 

definiert als 

∞ 

f(x) = an · cosnx + bn · sin nx 

n=0 

In der Literatur findet man auch andere Darstellungen. Wenn man beachtet, 

daß cosx = sin(x − π/2) so kann man auch ganz auf die Verwendung des cos 

verzichten. 

Wir verwenden aber wegen der Eleganz der folgenden Gleichungsumformungen 

die Darstellung mit sin und cos. Man kann an der obigen Darstellung 

einige Eigenschaften der Funktion recht einfach ablesen. Es gilt z.B.: wenn 

f(x) an der Stelle t konvergiert, dann auch an der Stelle t + 2π und auch für 

alle ganzen k an den Stellen t + 2kπ. Wenn die Reihe überall konvergiert, 

dann ist f(x) eine periodische Funktion mit der Periode 2π. Sollten alle 

ai = 0 sein, so ist die Funktion ungerade, und wenn alle bi = 0, dann ist die 

Funktion gerade. 

Versuchen wir für eine gegebene 2π-periodische Funktion f(x) die Werte 

an und bn zu berechnen. Sei also: 

f(x) = 1/2a0 + a1 cosx + b1 sin x + · · · + an cosnx + bn sin nx + · · · 

Wenn die Reihe gleichmäßig konvergiert, dann ist f(x) auf dem Intervall 

[0, 2π] integrierbar. Multiplizieren wir beide Seiten der Gleichung mit cosmx 

und berechnen dann das bestimmte Integral von 0 bis 2π, so erhalten wir 

2π 

0 

f(x) · cosmx dx (7.12)


= 

2π 

0 

 

a0 

2 

∞ 

∞ 

 

cosmx + an cosnxcosmx + bn sin nxcosmx dx 

n=1 

für die rechte Seite von Gl. 7.12 gilt: 

2π 

0 

und 

2π 

0 

und 

2π 

0 

a0 

2 

cosmx dx = 

0 für m = 0 

π · a0 für m = 0 

⎧ 

⎨0 

für m = n 

cosnxcosmx dx = π 

⎩ 

2π 

für m = n = 0 

für m = n = 0 

n=1 

(7.13) 

(7.14) 

sin nxcosmx dx = 0 (für alle m, n) (7.15) 

Aus den Gl. 7.13 bis 7.15 können wir ableiten, daß 

2π 

0 

 

π · an für m = n = 0 

f(x) · cosmx dx = 

0 sonst 

(7.16) 

Jetzt wird auch deutlich, wieso der Faktor 1 

2 vor dem a0 zur besseren 

Eleganz der Formel beiträgt. Er erspart uns bei der Bestimmung der ai eine 

Fallunterscheidung für i = 0 oder i = 0. 

Lösen wir also komplett nach an auf, so erhalten wir: 

an = 1 

π 

2π 

0 

f(x) · cosnx dx (7.17) 

Wir können die Gl. 7.12 analog nach bn auflösen, indem wir statt beide 

Seiten mit cosmx diesmal mit sin mx multiplizieren und ansonsten genauso 

weiter vorgehen. Dann erhalten wir schließlich: 

bn = 1 

π 

2π 

0 

f(x) · sin nx dx (7.18)


Die gezeigte Darstellung einer periodischen Funktion als trigonometrische 

Reihe bezeichnen wir als Fourierreihenzerlegung, und die Werte 

a0, a1, b1, a2, b2, . . . an, bn . . . heißen Fourierkoeffizienten der Funktion f im 

Intervall [0, 2π]. 

Es gilt offensichtlich für f periodisch mit Periode 2π, daß sich die 

Fourierkoeffizienten auch über einem beliebigen Intervall der Länge 2π 

berechnen lassen, also: 

an = 1 

t+2π 

π 

bn = 1 

π 

t 

t+2π 

t 

f(x) · cosnx dx (7.19) 

f(x) · sin nx dx (7.20) 

Oft ist die zu analysierende Funktion f nicht periodisch. Dann ist es aber 

meist so, daß man sich sowieso nur für einen Teil des Definitionsbereiches 

interessiert und berechnet dann die Fourierkoeffizienten nur für diesen Teil. 

Das ist dann so, als würde man annehmen, die Funktion wiederhole sich 

auf dem Rest des Definitionsbereichs und hätte als Periode die Länge des 

untersuchten Intervalls. 

Auf einige Eigenschaften der Fourierreihenzerlegung sei hier noch hingewiesen. 

Es gilt für alle f(x): 

lim 

s 

n→∞ 

r 

s 

lim 

n→∞ 

r 

f(x)cos nxdx = 0 (7.21) 

f(x)sin nxdx = 0 (7.22) 

deshalb gilt auch (für f auf [r, s] integrierbar): 

lim 

n→∞ an = 0 und lim 

n→∞ bn = 0 (7.23) 

Das heißt, f(x) wird durch die partielle Teilsumme der Fourierreihenzerlegung


1 

2 a0 + 

N 

(an cosnx + bn sinnx) (7.24) 

n=1 

immer genauer angenähert. Sollte die Periode T = 2π sein, so ergibt sich 

aus 

f(x) = 1 

2 a0 + 

∞ 

 

an cos( 2π 

T nx) + bn sin( 2π 

T nx) 

 

n=1 

für die Fourierreihenkoeffizienten 

an = 2 

T 

T 

bn = 2 

T 

0 

T 

0 

(7.25) 

f(x) · cos( 2π 

nx) dx (7.26) 

T 

f(x) · sin( 2π 

nx) dx (7.27) 

T 

Die Fourierreihenentwicklung läßt sich statt mit trigonometrischen 

Funktionen auch in Exponentialdarstellung schreiben. Nehmen wir an, f(t) 

sei periodisch mit der Periode L = 2π/ω0, also: 

f(t) = a0 

2 + 

∞ 

(an coskω0t + bn sin kω0t) (7.28) 

n=1 

dann ergibt sich für die Fourierkoeffizienten: 

ak = 2 

L/2 

f(t) · coskω0t dt (7.29) 

L −L/2 

und 

bk = 2 

L/2 

f(t) · sin kω0t dt (7.30) 

L −L/2 

Verwenden wir nun noch die Exponentialdarstellung der trigonometrischen 

Funktionen: 

cosx = eix + e −ix 

2 

und sinx = eix − e −ix 

2i 

(7.31)

so erhalten wir 

f(t) = 

∞ 

k=−∞ 

cke ikω0t 


mit ck = 1 

L/2 

f(t)e 

L −L/2 

−ikω0t dt (7.32) 

Die Koeffizienten ck lassen sich auch durch die entsprechenden ak und bk 

darstellen: 

⎧ 

⎨a0/2 

k = 0 

ck = (ak − ibk)/2 

⎩ 

(a−k + ib−k)/2 

k > 0 

k < 0 

Der partiellen Summe 

1 

2 a0 + 

(7.33) 

n 

(ak coskω0t + bk sin kω0t) (7.34) 

k=1 

entspricht dann: 

n 

k=−n 

cke ikωot 

(7.35) 

Die Fourierreihenzerlegung ist eine Art Vorstufe zur Fouriertransformation, 

welche sich nicht nur auf periodische sondern auf beliebige integrierbare 

Funktionen anwenden läßt. Dies ergibt sich zum Beispiel, wenn die Periode 

L in den Gl. 7.26 und 7.27 gegen unendlich strebt. 

Während die ursprüngliche Signalfunktion eine Funktion über dem 

Definitionsbereich der Zeit ist, ist die Fouriertransformierte eine Funktion 

über dem Definitionsbereich der Frequenzen. Wir sprechen daher auch von 

einer Transformation aus dem Zeitbereich in den Frequenzbereich. 

Die kontinuierliche Fouriertransformierte F(ω) der kontinuierlichen 

Funktion f(t) ist definiert als 

F(ω) = 

+∞ 

−∞ 

f(t) · e −iωt dt (7.36)


F wird auch als das Spektrum von f bezeichnet. Die inverse Abbildung 

wird inverse Fouriertransformation genannt: 

f(t) = 1 

2π 

+∞ 

−∞ 

F(ω) · e iωt dω (7.37) 

Der partiellen Summe bei der Fourierreihenentwicklung entspricht bei 

der kontinuierlichen Fouriertransformation die Integration über ein endliches 

Intervall der Frequenzachse. Wenn eine Funktion f(t) zusammengesetzt ist 

aus Schwingungen mit einer maximalen Frequenz die kleiner als ωg ist, dann 

heißt f(t) bandbegrenzt und läßt sich schreiben als: 

f(t) = 1 

+ωg 

F(ω) · e 

2π −ωg 

iωt dω (7.38) 

Das heißt insbesondere, daß F(ω) = 0 für |ω| > ωg. In der Praxis können 

wir davon ausgehen, daß Sprachsignale immer bandbegrenzt sind. Selbst 

wenn sie sehr hohe Frequenzen enthalten sollten, was sehr selten vorkommt, 

führt dies durch die in der Regel bei typischen Analog-Digital Wandlern 

(bzw. ” Soundkarten“) vorgeschalteten Anti-Aliasing-Filter dazu, daß diese 

Frequenzen keinen Effekt auf die Signalverarbeitung haben. Für die Sprache 

sind sowieso nur Frequenzen wie in Abb. 5.3 dargestellt von Bedeutung. 

Mischt man Schwingungen verschiedener Frequenzen ω1, ω2, . . . zu einem 

Signal f(t) = sin(ω1t + φ1) + sin(ω2t + φ2) + . . . zusammen, und kann 

man davon ausgehen, daß keine zwei Frequenzen ωi und ωj Vielfache 

voneinander sind, so spielt es für den resultierenden Ton keine Rolle, mit 

welchen Phasenverschiebungen φ1, φ2, . . . die Mischung durchgeführt wird. 

Das Ergebnis hört sich gleich ein. In der Praxis sind Sprachsignale sowieso 

nicht nur aus einer Handvoll einzelner Schwingungen zusammengesetzt, so 

daß das Problem der Phasenverschiebung komplett vernachlässigt werden 

kann. Gehen wir nun davon aus, daß eine Fouriertransformierte F(ω) aus 

einem Phasenanteil und einem Amplitudenanteil besteht: 

F(ω) = |F(ω)| · e iΦ(ω) 

(7.39) 

Auch wenn nach der Definition der Begriff Spektrum für die gesamte 

Fouriertransformierte steht, so wird er oft auch abkürzend für das Leistungsspektrum 

verwendet. Tab. 7.2 faßt verschiedene Bedeutungen des Begriffes 

zusammen. Für die Spracherkennung spielt das (komplexe) Spektrum 

sowie das Phasenspektrum keine bedeutende Rolle. Am wichtigsten ist das


Leistungsspektrum oder das Amplitudenspektrum. Diese unterscheiden sich 

nach der beliebten Anwendung des Logarithmus nur noch um einen Faktor 

2 voneinander. 

Bezeichnung Term 

Spektrum |F(ω)| · e iΦ(ω) 

Amplitudenspektrum |F(ω)| 

Phasenspektrum Φ(ω) 

Leistungsspektrum |F(ω)| 2 

= Energiespektrum 

Tabelle 7.2. Verschiede Bedeutungen des Begriffs ” Spektrum“ 

Ähnlich wie bei der Willkürlichkeit der Wahl der Koeffizienten bei der 

Fourierreihenzerlegung (z.B. beim Vorfaktor des Koeffizienten a0 und bei 

der Entscheidung cos(x) statt sin(x + π/2) zu verwenden) gibt es auch 

verschiedene Möglichkeiten der Transformation aus dem Zeitbereich in den 

Spektralbereich. So findet man in mancher Literatur auch Definitionen, die 

von Gl. 7.36 abweichen. Dementsprechend ist dann auch die inverse Fouriertransformierte 

etwas anders definiert. So findet man z.B. in physikalischen 

Lehrbüchern auch öfter mal die etwas symmetrischere Definition, bei der die 

Faktoren vor dem Integral nicht 1 gegenüber 1/(2π) sind, sondern sowohl 

für die Vorwärts- als auch für die Rückwärtstransformation jeweils 1/ √ 2π. 

Aus der Definition der Fouriertransformierten lassen sich leicht einige 

interessante Eigenschaften ableiten. Wenn F(h) die Fouriertransformierte 

der Funktion h ist, dann gelten die folgenden Gleichungen: 

Linearität 

F(c1f1 + c2f2) = c1F(f1) + c2F(f2) (7.40) 

Ableitung 

F(f (n) 

1 ) = (iω) n F(f) (f (n) = n − te Ableitung von f) (7.41)


Verschiebung 

F(f(t − T)) = e −iωT F(f) (7.42) 

F(e −iω0t f(t)) = F(ω − ω0) (7.43) 

Faltung 

F(f ∗ g) = F(f) · F(g) (7.44) 

Für die Verarbeitung von Sprachsignalen sind vor allem die Linearitätseigenschaft 

und die Faltungseigenschaft von Interesse. Dies leuchtet 

besonders ein, wenn wir die Produktion von Sprache entsprechend dem 

Quelle-Filter Modell (s. Abs. 4.1.4) betrachten, dann gibt es ein Anregungssignal 

u(t), das in der Regel an der Stimmritze entsteht, und einen Kanal 

v(t), der durch die Form des Vokaltraktes geprägt wird. Man kann die 

Abstrahlfunktion l(t) der Lippen und Nasenlöcher getrennt betrachten oder 

auch der Einfachheit halber mit in den Vokaltraktkanal einfließen lassen. 

Der Vollständigkeit wegen sollte man auch noch den Kanal betrachten, 

der in der Schallübertragung durch die Luft a(t) und in der elektrischen 

Signalübertragung vom Mikrophon bis zum Analog/Digital-Wandler m(t) 

gegeben ist. Berücksichtigt man auch hier, daß die Hintereinanderausführung 

mehrerer Faltungsoperationen wieder eine Faltung ist, so kann man auch 

alle Kanäle zu einem einzigen h(t) zusammenfassen. 

Die Fouriertransformierte des gemessenen Signals s(t) = u(t) ∗v(t) ∗l(t) ∗ 

a(t) ∗ m(t) = u(t) ∗ h(t) ist dann S(ω) = U(ω) · V (ω) · L(ω) · A(ω) · M(ω) = 

U(ω) · H(ω) wobei S, U, V, L, A, M und H die Fouriertransformierten von 

s, u, v, l, a, m und h sind. Aus der recht komplizierten Operation der Faltung 

eines Signals mit der Kanaleigenschaft im Zeitbereich entsteht also eine 

recht einfache Multiplikation im Frequenzbereich. 

Betrachten wir die Fouriertransformierte eines einfachen Impulses (Abb. 

7.6), also ˆ δ = F(δ). Wir können dies mit ein wenig salopper Mathematik wie 

folgt berechnen: 

F(δ)(ω) = 

∞ 

δ(t)e 

−∞ 

−iωt dt = e −iω·0 = 1 (7.45) 

Oder, wenn wir berücksichtigen, daß ω = 2π/T, können wir auch 

schreiben F(δ)(t) = 1 

2π , wobei t jetzt nicht mehr als Kreisfrequenzvariable 

(Einheit: Radialwinkel pro Sekunde) sondern als Zeitfrequenzvariable 

(Einheit: 1.0 pro Sekunde) betrachtet wird.

δ(x) 

F(δ)(ω) 

Abb. 7.6. Die Fouriertransformierte des Einheitsimpulses 


Und die Fouriertransformierte von zwei Impulsen (Abb. 7.7) F(δτ + δ−τ) 

ist entsprechend 

F(δτ + δ−τ)(ω) = 

δτ(x) + δ−τ(x) 

∞ 

−∞ 

(δ(t − τ) + δ(t + τ))e −iωt dt 

= e −iω·τ + e −iω·(−τ) 

= 2 cos(ωτ) (7.46) 

Abb. 7.7. Die Fouriertransformierte zweier Impulse 

F(δτ + δ−τ)(ω) = 2 cos(ωτ) 

Man kann an der Fouriertransformierten 2 cos(ωτ) leicht erkennen, daß 

die ” Frequenz“ τ des Cosinus umso höher ist, je weiter die beiden Impulse 

voneinander entfernt sind. Lassen wir die beiden Impulse aufeinander zu 

gegen null wandern, so verlängert sich die Periode der Fouriertransformierten 

bis sie schließlich ∞ ist und die Fouriertransformierte nur noch eine 

Konstante ist, wie die eines einfachen Impulses mit doppelter Höhe (vgl. 

Abb. 7.8). 

Je mehr Impulse wir transformieren, umso mehr Schwingungen enthält 

im allgemeinen die Transformierte. Abb. 7.9 zeigt die Transforierten für 3, 5, 

9 und 17 Impulse. Wenn wir die Zahl der Impulse unendlich werden lassen,


Abb. 7.8. Fouriertransformierte von Impulsen mit unterschiedlichen Abständen 

also eine unendliche Impulsfolge betrachten, dann ist die Fouriertransformierte 

auch eine Impulsfolge (Abb. 7.10). Auch hier gilt, die ” Frequenz“ der 

Transformierten ist umgekehrt proportional zur Frequenz der ursprünglichen 

Funktion. Oder allgemein: 

f(x) = 

δak(x) ⇒ F(ω) = 

δ2πk/a(ω) (7.47) 

k∈Z 

k∈Z 

Die inverse Fouriertransformation ist fast die gleiche Transformation wie 

die ” Vorwärtstransformation“. Im Prinzip gibt es keinen Grund, warum 

man nicht die Inverse als die eigentliche und umgekehrt definiert. Es ist eine 

willkürliche Festlegung. Es gilt nämlich: 

∞ 

f(x) = α e 

−∞ 

iωt 

∞ 

1 

f(s)e 

2πα −∞ 

−iωs 

ds dω (7.48)

Abb. 7.9. Fouriertransformierte mehrerer Impulse 

7.3 Fourieranalyse 95


Abb. 7.10. Fouriertransformierte unendlicher Impulsfolgen 

Wie auch immer man die Fouriertransformation als vorwärts“ oder 

” 

” rückwärts“ deklariert, und egal welche Kombination der Vorfaktoren 

α, 1/(2πα) man wählt, die wesentlichen Eigenschaften der Transformation 

bleiben erhalten. Man muß nur beim Rechnen entsprechend konsistent 

vorgehen. Wir hatten die Fouriertransformierte eines Impulses berechnet 

(oder auch zweier Impulse, wobei ein Impuls als Spezialfall von zwei 

aufeinanderfallenden Impulsen gesehen wurde) und gefunden, daß die 

zugehörige Transformierte eine Cosinus-Funktion ist. Wir erwarten also, daß 

die Fouriertransformierte eines Cosinus ein (Doppel-)Impuls ist. Prüfen wir 

dies nach: 

F(ω) = 1 

∞ 

cos(t)e 

2π −∞ 

−iωt dt (7.49) 

= 1 

∞ 

cost · (cosωt + i sinωt)dx 

2π 

−∞

∞ 

∞ 

= 1 

cost · i sinωt dx+ 

2π −∞ 

 

= 0 ∀ω 

1 

costcosωt dx 

2π −∞ 

 

 

∞ ω = ±1 

= 

0 sonst 


Wenn wir wieder ein bißchen salopp mit der Mathematik der Funktionen 

und Distributionen umgehen, sehen wir, daß die Fouriertransformierte 

des Cosinus fast überall null ist, außer an den Stellen ω = −1 und 

ω = 1, an denen sie jeweils einen positiven Einheitsimpuls hat. Das heißt, 

F(ω) = δ(ω − 1) + δ(ω + 1). 

Die Betrachtung von Fouriertransformierten von Impulsen ist deshalb 

interessant, weil Spracherkenner in der Praxis mit abgetasteten, also diskreten, 

Signalen arbeiten. Ein solches Signal kann als Folge von Impulsen 

unterschiedlicher Höhe betrachtet werden. 

f(t) 

f(t) · s2(t) 

Zeitraum 

Frequenzraum 

F(ω) ∗ S2(ω) 

F(ω) 

s1(t) S1(ω) 

s2(t) S2(ω) 

f(t) · s1(t) 

F(ω) ∗ S1(ω) 

Abb. 7.11. Fouriertransformierte abgetasteter Signale 

In Abb. 7.11 ist der Effekt der Abtastung auf die Spektralanalyse von 

Signalen dargestellt. Das Abtasten eines kontinuierlichen reellwertigen 

Signals mit der Zeitdarstellung f(t) entspricht der Multiplikation mit der 

Impulsfolge (Kammfunktion) s(t), die sich als Summe unendlich vieler


einzelner Impulse mit Abstand T schreiben läßt. Im Frequenzbereich ist 

die Transformierte dieses Produktes die Faltung F(ω) ∗ S(ω) der Transformierten 

F und S der beiden Faktorfunktionen, wobei S(ω) wiederum eine 

Impulsfolge ist, deren Impulse allerdings einen Abstand von 2π/T haben. 

Die Faltung des Spektrums F mit der Impulsfolge S ist dann die regelmäßige 

Wiederholung des Spektrum im selben Abstand wie die Impulse von S. 

Wenn wir im einen Fall die Funktion mit einer kurzperiodigen Impulsfolge 

s1 abtasten und im anderen Fall mit einer langperiodigen Impulsfolge s2, 

dann ist der Effekt im Frequenzraum der, daß die Wiederholungen des 

Spektrums im ersten Fall in relativ großem Abstand erfolgen und im zweiten 

Fall in so kurzen Abständen, daß das i-te Spektrum noch nicht ” abgeklungen“ 

ist, wenn das i + 1-te Spektrum schon ” anfängt“. Die Folge sind also 

überlagerte Einzelspektren, deren Summe mit dem Einzelspektrums weniger 

Ähnlichkeit hat. 

Bei nicht bandbegrenzten Signalen f ist das Spektrum F unendlich 

ausgedehnt (alle Frequenzen kommen vor), die allermeisten in der Natur 

gemessenen Signale (eigentlich alle, wenn man quantenphysikalischen 

Artefakten absieht) sind aber bandbegrenzt. Außerdem fallen die Anteile 

höher werdender Frequenzen immer kleiner aus, so daß bei ausreichend 

großen Abständen der Impulse der Transformierten Abtastfunktion keine 

nennenswerte Überlagerung eintritt. 

Der Effekt der Überlagerung der Einzelspektren wird als Aliasing-Effekt 

bezeichnet. Er ist immer dann zu beobachten, wenn in einem Signal 

sehr hohe Frequenzen vorkommen und/oder die Abtastfunktion zu selten 

abtastet. Die Berechnung einer minimalen Abtastrate, die nötig ist, um 

den Aliasing-Effekt zu vermeiden, ist nicht weiter schwierig. In Abb. 7.12 

ist die Situation für ein bandbegrenztes Signal f dargestellt. Weil wir im 

Falle von Sprachaufnahmen davon ausgehen, daß f reellwertig ist, ist F eine 

symmetrische Funktion (läßt sich nur mit Hilfe von Cosinus-Komponenten 

zusammenbauen). Wenn f als maximalen Frequenzanteil die Grenzfrequenz 

ωg enthält, dann ist der Frequenzbereich, in dem F ungleich null sein kann 

auf −ωg ≤ ω ≤ +ωg beschränkt. Wir können also die ” Breite“ des Spektrums 

mit 2ωg angeben. Der Abstand, in dem die Spektren sich wiederholen ist 

2π/T, wenn die Abtastung im Abständen von T erfolgt. Um Aliasing zu 

verhindern, muß also für die Abtastrate ωs gelten: 

2π 

T > 2ωg ⇒ T < 2π 

2ωg 

ωs = 2π 

T ⇒ ωs > 2ωg 

(7.50) 

(7.51)

7.4 Die diskrete Fouriertransformation 99 

Gl. 7.51 wird das Abtasttheorem oder auch das Nyquist-Theorem 

genannt, in anderem Zusammenhang gelegentlich auch Shannon-Theorem. 

Die Gültigkeit des Theorems läßt sich wie folgt auch beweisen: 

Sei f(t) eine bandbegrenzte Funktion mit der Periode L und der Grenzfrequenz 

ωg. Die Fourierreihe von f ist 

f(t) = 

dann ist 

n 

k=−n 

e iωgt f(t) = e iωgt 

cke ikω0t 

n 

k=−n 

mit ω0 = ωg/n (7.52) 

cke ikω0t = 

2n 

ck−n(e iω0t ) k 

k=0 

(7.53) 

Der letzte Term in Gl. 7.53 ist ein Polynom 2n−ten Grades in e iω0t . Das 

heißt, es ist mit 2n + 1 Punkten eindeutig bestimmbar, nämlich durch die 

Abtastpunkte f(t0), f(t0 + ts), . . . , f(t0 + 2nts) mit n = ωg · (L/2π) und 

ts < π/ωg. 

Daß 2n Punkte nicht ausreichen und somit eine Abtastung mit einer 

Frequenz ωs = 2ωg, die nicht echt größer als die Grenzfrequenz ωg ist, 

unzureichend ist, kann man an einem einfachen Beispiel nachprüfen. Sei als 

Signal ein einfacher Sinus f(x) = sinx mit der Frequenz 1 gegeben. Eine 

Abtastung mit der Frequenz 2 würde die Werte sin 0, sinπ, sin 2π, . . .sin nπ 

liefern. Diese sind alle 0. 

7.4 Die diskrete Fouriertransformation 

Prinzipiell läßt sich die Fouriertransformierte einer Impulsfolge analytisch 

als die Summe der Transformierten jedes einzelnen Impulses berechnen. 

Sinnvoller ist allerdings die Anwendung der diskreten Fouriertransformation 

für zeitdiskrete Signale. 

Sei durch Abtasten der Funktion f(x) an den Stellen 0, 2π 4π 

n , n 

das zeitdiskrete Signal s[0], s[1], . . .s[n − 1] entstanden, also s[k] = f(k · 2π 

n ). 

Wenn f(x) bandbegrenzt ist, dann ist entsprechend der Gl. 7.52 

, . . . (n−1)·2π 

n


f(t) 

f(t) · s(t) 

Zeitraum 

Frequenzraum 

−ωg 

F(ω) ∗ S(ω) 

F(ω) 

+ωg 

s(t) = ∞ −∞ δ(n · T) S(ω) = ∞ δ(n · 2π/T) 

−∞ 

Abb. 7.12. Illustration des Abtasttheorems 

f(t) = 

m 

k=−m 

c[k]e ikt 

2π/T 

Wenn f(x) nicht bandbegrenzt ist, dann gilt für große m immer noch 

f(t) ≈ 

m 

k=−m 

c[k]e ikt 

Schreiben wir nun f als Impulsfolge: 

n−1 

f(t) = 

k=0 

2ωg 

(7.54) 

(7.55) 

s[k] · δ 2kπ (t) (7.56) 

n 

dann ist entsprechend Gl. 7.35 

s[k] = f(k · 2π 

n−1 

 

) = c[j] e 

n 2kπi 

j n 

j=0 

Bezeichnen wir e 2πi 

n als w, so ergibt sich: 

(7.57)

n−1 

s[k] = c[j] · w kj 

j=0 

Offensichtlich gilt 

7.4 Die diskrete Fouriertransformation 101 

(7.58) 

w n = e 2πi = 1 (7.59) 

Das heißt, w n ist eine n-te Einheitswurzel. Der Vektor C = 

(c[0], c[1], . . .c[n − 1]) ⊤ , das heißt die komplexen Koeffizienten der Fourierreihe 

wird als die diskrete Fouriertransformierte des Vektors 

S = s[0], s[1], . . .s[n − 1] bezeichnet und berechnet sich analog zum kontinuierlichen 

Fall als 

c[k] = 1 

n−1 

s[j] · 

n 

w −kj 

j=0 

(7.60) 

Dementsprechend wird Gl. 7.58 auch die inverse diskrete Fouriertransformation 

genannt. Bei genauerer Betrachtung der Gl. 7.60 ist 

erkennbar, daß die Transformation in Form einer Matrix-Multiplikation 

darstellbar ist: 

⎛ 

⎜ 

⎝ 

c[0] 

c[1] 

c[2] 

. 

c[n−1] 

⎞ 

⎟ 

⎠ 

= 1 

n 

⎛ 

1 1 1 . . . 1 

⎜ 

⎝ . 

. 

. 

. .. . 

Oder in Kompaktdarstellung: 

1 w−1 w−2 . . . w−(n−1) 1 w−2 w−4 . . . w−2(n−1) 1 w −(n−1) w −2(n−1) . . . w −(n−1)(n−1) 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟· 

⎜ 

⎟ ⎜ 

⎠ ⎝ 

s[0] 

s[1] 

s[2] 

. 

s[n−1] 

⎞ 

⎟ 

⎟(7.61) 

⎟ 

⎠ 

C = DFTn · S (7.62) 

Hierbei ist DFTn die Vandermondsche Matrix von 

(1, w −1 , w −2 , . . .w −(n−1) ) der Ordnung n, auch diskrete Fouriertransformationsmatrix 

der Größe n genannt. Sie ist leicht invertierbar, und es gilt 

DFT −1 

n (i, j) = 

1 

n · DFTn(i, j) 

(7.63)


Die Berechnung des Signals s[i] aus den Frequenzanteilen c[i] geschieht 

entsprechend einfach mit Hilfe der inversen diskreten Fouriertransformation 

S = DFT −1 

n · C (7.64) 

Bei der Berechnung eines diskreten Leistungsspektrums (c[0], c[1], . . .c[n− 

1]) eines Signals (s[0], s[1], . . .s[n − 1]), das aus einem durch ω bandbegrenz- 

ten f(x) durch Abtasten mit der Abtastrate 2 · ω gewonnen wurde, ist der 

am Gesamtsignal. 

Wert c[i] der Anteil der Frequenz iω 

n 

Betrachtet man die Rechenschritte, die nötig sind, um die DFT- 

Matrixmultiplikation durchzuführen stellt man fest, daß viele Rechenoperationen 

wiederholt werden. Da w eine n-te Einheitswurzel ist, gilt zum 

Beispiel (w j ) n = w j oder (w j ) (n/2) = −w j . Unter Vermeidung doppelter 

Berechnung derselben Werte wurde in [?] ein Teile-und-herrsche-Algorithmus 

vorgestellt, der die obige Matrixmultiplikation statt mit dem üblichen zeitlichen 

Aufwand von ca. O(n 3 ) in nur O(n log n) berechnet. Der Algorithmus 

ist unter dem Namen schnelle Fouriertransformation (engl. fast Fourier 

transform FFT) bekannt. Er funktioniert optimal für Werte von n, die 

Zweierpotenzen sind (wegen des Teile-und-herrsche-Prinzips). Er hat in 

vielen Bereichen der Signalverarbeitung und Mustererkennung den Aufwand 

für Umwandlung eines Signals aus dem Zeitbereich in den Frequenzbereich 

so reduziert, daß durch ihn erst sinnvolles Arbeiten möglich wurde. Es existieren 

einige Abwandlungen des Algorithmus, die bei Kenntnis der Art des 

Signals (zum Beispiel reellwertig) oder bei bestimmten Einschränkungen des 

Ergebnisses (zum Beispiel nur Leistungsspektrum ist interessant) besonders 

effizient arbeiten. 

7.5 Codierung akustischer Signale 

Die natürlichste Methode der Codierung von Sprachsignalen ist die so 

genannte Pulse Code Modulation (PCM). Auf irgend eine Art sind die 

allermeisten gängigen Codes (ob bekannt als .wav oder .au oder .riff etc.) 

PCM-Codes. In einer Datei stehen die Meßwerte in ihrer zeitlichen Reihenfolge 

hintereinander, wobei n Bits (typischerweise 8 oder 16) als natürliche 

Binärzahl oder als ganze Zahl in Zweierkomplementdarstellung den Bereich 

f min bis fmax auf die Werte 0 bis 2 n − 1 bzw. −2 n−1 bis 2 n−1 − 1 abbilden. 

In der Regel werden die meisten Meßwerte von Sprachsignalen, die der 

Analog/Digital-Wandler liefert, eher in der Nähe der 0 (bzw. des Wertes,

7.5 Codierung akustischer Signale 103 

der dem Ruhezustand entspricht) liegen als in der Nähe der extremen 

Aussteuerung. Wenn quantisierte Sprache mit 8 Bits codiert wird, dann 

können damit 256 verschiedene Werteintervalle referenziert werden. Die 

meisten Messungen ballen sich in derselben Gegend. Um die 8 Bits besser 

auszunutzen, empfiehlt es sich, mehr und dafür kleinere Intervalle um den 

Stillemeßwert herum zu verwenden und wenige größere Intervall in der Nähe 

der Extrema. So kann dann je nach Sichtweise entweder mehr Information 

in den 8 Bits codiert werden oder man benötigt weniger Bits um die gleiche 

Menge an Information zu codieren. Die gebräuchlichsten Methoden der 

variablen Intervallfestlegung sind die so genannten a-law und µ-law Codes. 

Bei µ-law wird vor der Codierung der Meßwert f(x) zu f µ (x) abgebildet, 

wobei 

f µ (x) = fmax · sgn(f(x)) · log(1 + µ|f(n)|/fmax)/ log(1 + µ) (7.65) 

mit µ = 100 . . .500 

Der Wert µ kann mehr oder weniger willkürlich gewählt werden, und 

bestimmt den ” Stauchungsgrad“ der Abbildung. 

Bei der Codierung von Sprachsignalen spielt bis in die heutige Zeit, 

in der wir immer weniger mit Speicherplatzproblemen in Computern zu 

kämpfen haben die Kompression von Audiosignalen eine Rolle. Ohne Videound 

Audio-Dateien ist es heute für den durchschnittlichen Computer- 

Privatanwender kaum mehr möglich die riesigen Festplatten sinnvoll zu 

füllen. Auch die üblichen RAM Speichergrößen genügen bei weitem, um 

mehrere Stunden Audio-Aufnahmen in sehr guter Qualität aufzunehmen. 

Während in den Anfängen der digitalen Signalverarbeitung oft nur wenige 

Sekunden Audio im Speicher gehalten werden konnten und man sich 

Gedanken machen mußte, wie man die Dateien komprimieren kann, so wird 

dies heute immer noch, wenn auch auf höherem Niveau bei den so genannten 

MP3 Dateien gemacht. 

Im Laufe der Zeit wurden verschiedene Kompressionsmethoden entwickelt. 

Nur wenige versuchen die abgetasteten Signalwerte völlig verlustfrei 

zu speichern. Die besten verlustfreien Komprimierer können Sprachsignale 

je nach Abtasttiefe, Abtastrate und Qualität der Aufnahme auf ca. 50% der 

ursprünglichen Größe reduzieren. Im Zusammenhang mit dem Phasenspektrum 

wurde festgestellt, daß die Phaseninformation in Sprachsignalen für das 

Verständnis derselben ohne Bedeutung ist. Oft kann man weitere Information 

einsparen, wenn man z.B. berücksichtigt, daß eine Schwingung mit sehr 

hoher Amplitude, eine andere mit sehr niedriger Amplitude ” übertönt“, und 

so die Information über die leisere Schwingung manchmal ganz weggelassen 

werden kann, ohne daß sich die gesamte Hörempfindung merklich ändert. Auf 

solche und weiteren Annahmen berufen sich so genannte verlustbehaftete


Kompressionsverfahren wie z.B. das für MP3 verwendete. 

Auch die in Kap. 8 beschriebenen LPC-Koeffizienten wurden ursprünglich 

nicht als sinnvolle Sprachsignalvorverarbeitung für die Spracherkennung 

eingeführt, sondern als mögliche Kompressionsmethode.

8. Verarbeitung von Sprachsignalen 

Sprachsignale werden typischerweise als diskrete Abtastfolgen von Spannungsverläufen, 

die an einem Mikrophon durch Änderungen des umgebenden 

Schalldrucks bzw. der Schallschnelle anliegen, dargestellt. Die Spannungsverläufe 

werden von einem Analog-Digital-Wandler zu diskreten Zeitpunkten 

quantisiert und als diskretes Signal mit endlichem Wertebereich ausgegeben. 

Die wichtigsten Parameter der Analog-Digital-Wandlung sind die Abtastfrequenz 

und die Auflösung. Typische Werte sind 16kHz und 16 bit. 

8.1 Eigenschaften des Signals im Zeitbereich 

Die Darstellung eines abgetasteten Sprachsignals als Kurve hat vermutlich 

jeder Leser schon einmal gesehen (zum Beispiel Abb. 2.3). Schon beim Anblick 

einer solchen Darstellung des Signals im Zeitbereich erscheint es dem 

Betrachter sehr schwierig, damit gesprochene Sprache zu erkennen. Betrachten 

wir zunächst einige leicht erkennbare Eigenschaften. Wenn die horizontale 

Auflösung der Darstellung nicht ausreicht, um jeden Abtastwert einzeln anzuzeigen, 

erkennt man meist nur die sogenannte Einhüllende (engl.: envelope). 

Diese ist stark korreliert mit der Energie des Signals. Meist kann man an 

dieser Einhüllenden ziemlich leicht erkennen, in welchen Zeitbereichen des 

Signals gesprochen wurde. Umgekehrt ist das in der Regel nicht so einfach. 

Dort, wo die Einhüllende nicht nennenswert von der Nullinie abweicht, kann 

trotzdem Sprache vorliegen, dann aber meist solche Teile, die nicht stimmhafte 

Laute enthalten. Abb. 8.1 stellt zwei Signale gegenüber. Das linke ist 

ein Ausschnitt aus einer Aufnahme eines stimmhaften Lauts, in dem deutlich 

eine Regelmäßigkeit zu erkennen ist. Auf den ersten Blick wird das Signal aus 

nur wenigen einzelnen Wellen zusammengesetzt. Auf der Rechten Seite der 

Abbildung ist die Aufnahme eines stimmlosen Lauts zu sehen. Hier ist keine 

Ordnung zu erkennen. In der Tat lassen sich stimmlose Frikative wie zum 

Beispiel ein [s] auch sehr gut durch einfaches weißes Rauschen synthetisieren.

106 8. Verarbeitung von Sprachsignalen 

stimmhafter Laut [a] stimmloser Laut [s] 

Abb. 8.1. Signale für stimmhafte und stimmlose Laute 

8.1.1 Amplitude 

Mit ” Amplitude“ wird normalerweise bei einem periodischen Signal die regelmäßig 

wiederkehrende maximale Aussteuerung bezeichnet. Ein Sprachsignal 

an sich ist nicht periodisch. Es enthält aber oft kurze Abschnitte, vor 

allem bei stimmhaften Lauten, die man als annähernd periodisch bezeichnen 

kann. Daher wird auch die maximale Aussteuerung innerhalb eines kurzen 

Zeitbereichs als Amplitude bezeichnet. 

8.1.2 Nulldurchgangsrate 

Die Nulldurchgangsrate gibt an, wie oft das Signal in einem Zeitabschnitt 

von einem Abtastwert auf den nächsten sein Vorzeichen wechselt. Abgesehen 

vom Hintergrundrauschen kann man davon ausgehen, daß die Nulldurchgangsrate 

bei stimmhaften Lauten kleiner ist als bei stimmlosen. Stimmlose 

Laute haben meist weniger Energie und werden durch ein nichtperiodisches 

Rauschen angeregt. 

Wenn das Sprachsignal und das Hintergrundrauschen sich überlagern 

und die Sprache lauter als das Rauschen ist, dann wird der Anteil des 

Rauschens an der Nulldurchgangsrate reduziert, weil seine Nulldurchgänge 

nicht durch null sondern durch c = 0 wobei |c| größer ist als die Amplitude 

des Hintergrundrauschens. 

Im Jahr 1950 zeigte J.C.R. Licklider [?], daß unendlich verstärkte Sprachsignale 

sich zwar seltsam anhören aber dennoch in der Regel für Menschen 

gut verständlich sind. Unendlich verstärkte Signale sind natürlich nicht 

beliebig laut, aber sie stoßen immer an den Grenzbereich der maximalen 

Aussteuerung der verwendeten Geräte an. 

8.1.3 Energie 

Die Energie eines Signals innerhalb eines Zeitabschnittes ist definiert als die 

Summe der Quadrate der einzelnen Abtastwerte. In Anlehnung an die Physik

8.2 Spektralranalyse 107 

ursprüngliches 

Signal 

unendlich 

verstärktes 

Signal 

Abb. 8.2. Unendlich verstärkte Sprachsignale sind immer noch verständlich 

kann man die Energie eines Signals auch mit der Energie einer schwingenden 

Feder vergleichen. Die gespeicherte Energie in einer ausgelenkten Feder 

ist auch proportional zum Quadrat der Auslenkung bzw. proportional zur 

maximalen Geschwindigkeit bei einer Schwingung. 

Die Energie eines Abschnitts einer Sprachaufnahme ist ganz besonders 

hilfreich, um zu entscheiden, ob in dem Abschnitt überhaupt Sprache vorliegt. 

In der Praxis werden oft ziemlich einfache Sprachdetektoren verwendet 

um die Aufmerksamkeit eines Spracherkenners zu steuern, der nicht erst 

durch Knopfdruck vom Benutzer zum Erkennen aufgefordert werden muß. 

Solche einfachen Sprachdetektoren basieren oft auf nicht viel mehr als auf 

der Energie des Signals. Typischerweise werden Toleranzintervalle definiert, 

in denen die Energie kurzzeitig auch einmal unter einen Schwellwert fallen 

kann, ohne daß ein Ende der Sprache angenommen wird, oder umgekehrt 

in Stillephasen kurzzeitig den Schwellwert übersteigen kann, ohne das der 

Erkenner gleich anspringt (siehe auch Abs. 10.1.1). 

8.2 Spektralranalyse 

Eine Vorgehensweise zur automatischen Spracherkennung scheint beim 

Anblick von Sprachsignalen im Zeitbereich von vorn herein als aussichtslos,


nämlich der direkte Vergleich zweier unmodifizierter Signale. Angesichts der 

riesigen Varianz, die der gleiche Laut in seiner Zeitbereichsdarstellung haben 

kann, kann ein direkter Vergleich der Abtastwerte, wenn überhaupt, nur in 

sehr eingeschränkten Erkennungsaufgaben und nur unter sehr eingeschränkten 

Bedingungen zu irgendwelchen nennenswerten Erkennungsraten führen. 

Das Identifizieren von einem Vokal aus einer Menge von zwei Vokalen könnte 

womöglich so gemacht werden, aber kontinuierliche Sprache bedarf ganz 

anderer Vorgehensweisen. 

Bei der Frage, welche Information in einem Sprachsignal denn überhaupt 

für die Erkennung von Bedeutung ist, orientiert man sich gerne daran, 

welche Information das menschliche Ohr dem Gehirn liefert. Dabei kann 

man davon ausgehen, daß die wesentliche Information in den Anteilen 

einzelner Frequenzen am Gesamtsignal enthalten ist. Zwar können wir 

durch die Wahrnehmung von Phasenverschiebungen die Quelle eines Signals 

orten, da dessen Schallwellen an dem einen Ohr früher als an dem anderen 

ankommen, aber ganz offensichtlich kann man Sprache auch genauso gut 

verstehen, wenn sie nur durch ein Ohr gehört wird. Bei der Ortung von 

Schallquellen spielt zusätzlich noch die Form und Bewegung des Kopfes eine 

Rolle. Aber auch diese tragen bestenfalls zur virtuellen Verbesserung eines 

Sprachsignals bei und nicht zum Verstehen selbst. Durch Untersuchungen 

am menschlichen Ohr, wie sie im Kapitel 4 beschrieben wurden, wissen wir, 

daß einzelne Abschnitte der Gehörschnecke auf bestimmte Frequenzbereiche 

im Signal reagieren und so das Ohr eine Art Fourieranalyse durchführt. 

Daher arbeiten die allermeisten Spracherkennungssysteme auf irgend einer 

Art der Darstellung des Sprachsignals im Frequenzbereich. 

Experiment 8.1: Spektralanalyse 

Starten Sie das Applet Signal Processing. Auf der Oberfläche sehen Sie ein 

Feld, in dem eine Wellenform dargestellt wird, und einige Schaltflächen zum 

Aufnehmen, Abspielen und Analysieren eines Teilsignals. 

Wenn Sie auf Aufnahme drücken, können Sie in das Mikrophon Ihres 

Computers ein paar Sekunden lang sprechen und die Wellenform des Signals 

betrachten. Nehmen Sie zunächst einen einfachen Pfeifton auf. 

Markieren Sie den Teil der Aufnahme, in dem der Pfeifton zu erkennen ist 

und spielen Sie ihn mit Abspielen zur Kontrolle nochmal ab.


Klicken Sie jetzt auf Fouriertransform und betrachten Sie das angezeigte 

Spektrum. Wenn Ihr Pfeifton ” sauber“ war, dann dürfte im Spektrum 

abgesehen von ein paar Wacklern hier und da im wesentlichen nur ein 

einziger deutlicher Ausschlag zu erkennen sein. 

Die horizontale Achse des Spektrums ist die Frequenzachse. An Ihr können 

Sie ablesen, welche Frequenz Ihr Pfeifton hatte. 

Machen Sie noch eine Aufnahme, bei der Sie diesmal zwei oder drei Pfeiftöne 

hintereinander mit unterschiedlichen Tonhöhen aufnehmen. Im Spektrum 

sollten Sie dann zwei oder drei Ausschläge erkennen. 

Machen Sie noch ein paar Aufnahmen und betrachten Sie die dazugehörigen 

Spektren. Probieren Sie insbesondere einige Vokale und einige Frikative aus 

(z.B. ein lautes und deutliches Ah oder ein besonders lautes Sch.) 

Machen Sie eine Aufnahme, in der Sie viele verschiedene Laute sprechen, 

z.B. einen ganzen Satz. 

8.2.1 Langzeitspektrum 

Nimmt man eine komplette Aufnahme, die es gilt zu erkennen, also zum 

Beispiel ein Wort oder einen Satz, und berechnet das Spektrum dieser 

Aufnahme, dann erhält man so etwas ähnliches wie die Überlagerung der 

Spektren aller in der Aufnahme vorkommenden Laute. Es ist schon bei 

wenigen Lauten kaum möglich, und bei vielen Lauten eigentlich unmöglich, 

in so einem Spektrum die ” Teilspektren“ der einzelnen Laute zu identifizieren. 

Eine Rekonstruktion der Reihenfolge, in der die Laute artikuliert 

wurden, ist unmöglich. Daher eignet sich ein Spektrum, das über einer längeren 

Aufnahme berechnet wird, nicht, um darauf Spracherkennung zu machen. 

Wir können aber leicht feststellen, daß die Spektren einzelner ” uniformer“ 

Laute diese Laute oft recht gut charakterisieren. Die naheliegende 

Vorgehensweise besteht also darin, nicht ein Spektrum über die gesamte 

Aufnahme zu berechnen, sondern viele Spektren über einzelne Teile der 

Aufnahme, in denen ein wenigstens einigermaßen stationärer Laut zu hören 

ist. 

Im übrigen bringen echte Langzeitspektren eine weitere Herausforderung 

mit sich. Wenn die Aufnahme aus Tausenden oder gar Hunderttausenden 

Abtastwerten besteht, dann ist die Berechnung der diskreten Fouriertransformierten 

(DFT) auf einem so langen Vektor extrem aufwendig bis gar nicht 

mehr sinnvoll durchführbar. So sind viele Langzeitspektraldarstellung (wie


z.B. im Experiment 8.1) in Wirklichkeit nur gemittelte Spektren mehrerer 

gleichlanger Teilaufnahmen, für die die Berechnung einer DFT in akzeptabler 

Zeit machbar ist. 

8.2.2 Kurzzeitspektrum 

Um Sprache zu erkennen, bietet es sich also an, statt eines Langzeitspektrums 

viele aufeinanderfolgende Kurzzeitspektren zu berechnen, von denen 

jedes einem Laut entspricht. Da wir zu der Zeit, zu der wir entscheiden 

müssen, auf welchen Teilen eines Signals ein Kurzzeitspektrum berechnet 

wird, ja noch gar nicht wissen, wo ein Laut anfängt und wo die Grenze zum 

nachfolgenden Laut ist, müssen wir also anders vorgehen. Die erste Idee, im 

Signal nach stationären Teilen zu suchen ist relativ schwierig umzusetzen. 

Aus der reinen Wellenform des Signals ist es zwar möglich, bestimmte grobe 

Strukturen wie Sprache / Stille, oder stimmhaft / stimmlos zu erkennen, 

aber die Auftrennung in einzelne Laute ist nicht sinnvoll machbar. Als 

Alternative drängt sich die Methode auf, einfach in regelmäßigen kurzen 

Zeitintervallen ein neues Spektrum zu berechnen. Wenn diese Intervalle 

genügend kurz sind – z.B. kürzer als der zu erwartende kürzeste Laut – dann 

können wir davon ausgehen, daß jeder Laut aus mehreren hintereinander 

liegenden ähnlichen Kurzzeitspektren besteht. 

Mit Framerate wird üblicherweise der zeitliche Abstand einzelner Kurzzeitspektren 

bezeichnet. Jedes einzelne Spektrum wird auf einem kleinen 

Zeitrahmen (Frame) berechnet. Bevor wir uns für einen bestimmten regelmäßigen 

Abstand entscheiden, könnte ein Blick auf die durchschnittlichen 

Längen einzelner Laute hilfreich sein. Eine Längenstatistik für Laute des 

amerikanischen Englisch ist in Tab. 8.2 dargestellt (die Werte wurden mit 

einem Erkenner, der nicht alle IPA-Laute kannte, ermittelt, daher die nicht 

1:1 Abbildung von IPA-Symbolen zu Lauten). Die kürzesten Laute nehmen 

im Schnitt ca. 40 Millisekunden Zeit in Anspruch. Die längsten haben 

einen Schnitt von einer achtel Sekunde. Selbstverständlich kommen in der 

natürlichen Sprache auch Laute vor, die signifikant kürzer sind als 40 ms, 

und es ist auch problemlos möglich, einzelne Laute mehrere Sekunden lang 

anzuhalten. Dennoch ist es sinnvoll, alle 10 ms ein neues Spektrum zu 

berechnen. Dann kann man davon ausgehen, daß selbst die kürzesten Laute 

im Schnitt aus einigen wenigen Kurzzeitspektren zusammengebaut werden 

können. Die meisten Spracherkenner verwenden daher auch Frameraten von 

ca. 10 ms. Unter Umständen kann eine dynamische Variation dieses Wertes 

sinnvoll sein, zum Beispiel um variierende Sprechgeschwindigkeiten etwas 

auszugleichen oder auch um in relativ stationären Teilen dadurch Rechenzeit 

einzusparen, daß weniger Frames berechnet werden.

Ê 


Laut Beispiel Länge Laut Beispiel Länge Laut Beispiel Länge 

Á u i butter 39 m mam 64 a /Bob 88 

d 

Æ aÍ 

dad 47 r red 64/ her 91 

but 49/ e get 66 see 94 

v vet 52 you 66 w wow 94 

bit 53 t toe 67 cow 98 

h hat 54 g get 68Ì thin 100 

ring 56 k can 69Ë 

aÁ 

61Ç oÍ eÁ 

she 102 

n nun 58 f fun 70 s so 103 

b Bob 58 l let 72 bye 108 

this 59 p pie 77 say 115 

j yes 60 æ bad 79 go 116 

Joe saw 87 chat 125 

Tabelle 8.2. Durchschnittliche Längen (in ms) von Lauten im Englischen (gemes- 

sen auf dem Wall-Street-Journal Korpus [Rog97] ) 

Die Anzahl der Abtastwerte, aus denen ein Kurzzeitspektrum berechnet 

wird, wird Fensterbreite genannt und muß nicht unbedingt mit dem Abstand 

der einzelnen Spektren übereinstimmen (s. Abb. 8.3). Typischerweise 

sind die Längen der Segmente größer als ihr Abstand, so daß sie sich 

überlappen. Es gibt hauptsächlich zwei Gründe für ein solches Vorgehen. 

Zum einen wählt man gerne eine Framerate von 10 ms, und bei einer 

Abtastrate von z.B. 16 kHz würden 10 ms aus 160 Werten bestehen. Will 

man die Fouriertransformierte eines 160-dimensionalen Vektors mit Hilfe der 

schnellen Fouriertransformation (FFT) berechnen, muß man eine 256 × 256 

DFT-Matrix verwenden – dazu müssen die fehlenden 96 Koeffizienten auf 

Null gesetzt werden. Zum anderen werden wir im folgenden Abschnitt sehen, 

daß es sinnvoll ist, die Ränder eines ausgeschnittenen Segments zu ” glätten“, 

weshalb eine Überlappung der Segmente eine bessere Ausnutzung der darin 

enthaltenen Information bedeutet. 

Nun ist die Fouriertransformierte im kontinuierlichen Fall definiert als unendliches 

Integral, und im diskreten Fall so als wäre das zu transformierende 

Signal periodisch indem es immer wieder wiederholt würde. Wenn aus der 

Aufnahme f(x) ein Segment s(x) zwischen den Zeitpunkten t1 und t2 her-


Framerate 

1. 

Segment 

2. 

Segment 

Abb. 8.3. Zerteilung von Signalen in einzelne Segmente 

ausgenommen wird, dann entspricht dies der Multiplikation des Signals mit 

einer Rechteck-Fensterfunktion“ w(x), wobei: 

” 

 

1 für x ∈ [t1, t2] 

s(x) = f(x) · w(x) und w(x) = 

(8.1) 

0 sonst 

Von Gl. 7.44 wissen wir, daß die Fouriertransformierte (wie jede andere z- 

Transformierte auch) des Produktes zweier Funktionen gleich der Faltung der 

beiden Transformierten der Funktionen ist. Wenn wir also die Fouriertransformierte 

eines ” ausgeschnittenen“ Segmentes berechnen, ist das Ergebnis die 

Faltung der Transformierten des Gesamtsignals mit der Transformierten der 

Fensterfunktion. Wollen wir nun, daß der Effekt des Fensters möglichst minimal 

auf die Spektralanalyse ausfällt, können wir ein bestimmtes Fenster 

wählen. Gar keinen Effekt hätte es, wenn die Transformierte der Fensterfunktion 

ein Impuls wäre, denn die Faltung einer Funktion mit einem Impuls 

verändert die Funktion nicht. Leider ist es aber so, daß der Impuls die


Transformierte der Funktion w(x) = 1∀x ist, was hieße, wir dürften aus dem 

Signal gar nichts ausschneiden. Wenn wir ein Segment mit der Rechteck- 

Fensterfunktion ausschneiden, entspricht dies im Spektralbereich der Faltung 

des Spektrums des Gesamtsignals mit dem Spektrum der Rechteckfunktion. 

Nun weicht das Spektrum der Rechteckfunktion deutlich von einem Impuls 

ab. Wir sollten also eine bessere Kurzzeitspektralanalyse erwarten dürfen, 

wenn wir die Segmente mit einer Fensterfunktion ausschneiden, deren Transformierte 

einem Impuls näher kommt als die Transformierte des Rechtecks. 

Abb. 8.4 zeigt einige typische Fensterfunktionen. In Abb. 8.5 sind die Fouriertransformierten 

(d.h. die Leistungsspektren) eines Rechteckfensters und 

eines Hanning-Fensters (jeweils der Breite 51 Abtastwerte) dargestellt. Es ist 

gut zu erkennen, daß die Transformierte des Hanning-Fensters viel näher an 

der Dirac-Distribution liegt als die Transformierte eines Rechtecks. 

Rechteck Gauß 

wn = 1 wn = e − 1 2 · 

Hamming 

Hanning 

n−N/2 2 

σN/2 

wn = 0.54 − 0.56 · cos( 2πn 

2πn 

) wn = 0.5 − 0.5 · cos( N−1) N−1) ) 

Abb. 8.4. Verschiedene Fensterfunktionen 

8.2.3 Spektrogramme 

Die häufigste Darstellung von Sprachsignalen sind Spektrogramme. Dabei werden 

viele aufeinanderfolgende Kurzzeitspektren hintereinander als Graustufenvektoren 

dargestellt. In Abb. 8.6 sind fünf Spektren, s1, . . .s5, dargestellt. 

Zu jedem Spektrum wird ein entsprechender Graustufenvektor, v1, . . .v5 erzeugt. 

Die Aneinanderreihung mehrerer vertikaler Graustufenvektoren ergibt


dB 

0 

-20 

-40 

-60 

-80 

-100 

-120 

Rechteckfenster 

Hanning-Fenster 

0 π/2 

π 

Abb. 8.5. Fouriertransformierte verschiedener Fensterfunktionen (Breite N = 51) 

dann eine Graustufenmatrix, deren i-te Zeile dem i-ten Frequenzband entspricht, 

und deren j-te Spalte dem Zeitpunkt j entspricht. Abb. 8.7 zeigt 

einen Ausschnitt aus einem Spektrogramm einer tatsächlichen Sprachaufnahme, 

bei der die Worte ” eins, zwei, drei“ gesprochen wurden. 

s1 s2 s3 s4 s5 

v1 v2 v3 v4 v5 

s1 s2s3s4s5 

f 

v1 v3 v5 

v2 v4 

Abb. 8.6. Entstehung eines Spektrogramms 

Es gibt Menschen, die mit erstaunlicher Zuverlässigkeit Graustufendarstellungen 

von Spektrogrammen ” lesen“ können. Diese Fähigkeit geht nicht 

t

Abb. 8.7. Spektrogramm der Wortfolge ” eins zwei drei“ 


– zumindest nicht nur – darauf zurück, daß sie für jedes Kurzzeitspektrum 

erkennen können, von welchem Laut es stammt, sondern vielmehr darauf, 

daß sie eine herausragende Kombinationsgabe besitzen, ähnlich wie bei 

Menschen, die Texte lesen können, bei denen von jeder Zeile die obere Hälfte 

oder gar noch mehr verdeckt ist. 

8.2.4 Filterbänke 

Wie in Abs. 4.2 beschrieben, ist die Empfindlichkeit des Ohres unterschiedlich 

für verschiedene Frequenzen. Das menschliche Ohr hat eine feinere 

Auflösung für niedrigere Frequenzen. So liegt es nahe, anzunehmen, daß 

diejenigen Frequenzbereiche, die das Ohr schlechter auflöst, auch weniger 

wichtig für die Erkennung von Sprachlauten sind. Zumindest würde man 

erwarten, daß eine Signalverarbeitung, die das Verhalten des Ohres in dieser 

Beziehung nachahmt, dadurch eher Vorteile als Nachteile für die Erkennungsgenauigkeit 

hat. Die übliche diskrete n-Punkt-Fouriertransformierte 

liefert n + 1 diskrete Werte, wobei der 0-te Wert der Frequenz ω = 0 (dem 

durchschnittlichen Abstand des Signals von der Zeitachse) entspricht und 

der i-te Wert der Frequenz ωs n 

2i mit ωs als Abtastrate. Zweifellos ist es bei 

einer durchaus typischen 256-Punkt-DFT äußerst unwahrscheinlich, daß zwei 

Laute darin unterschieden werden können, daß ein ganz bestimmter Punk 

einen ganz bestimmten Wert hat. Vielmehr sind Laute daran zu erkennen, 

daß bestimmte Punktbereiche in bestimmten Wertebereichen liegen. Eine 

Auflösung von 256 Punkten enthält zwar viel Information, vieles davon ist 

aber entweder redundant oder zumindest irrelevant. Wünschenswert wäre 

eine Transformation, die die 256 Koeffizienten in wesentlich weniger wandelt 

und dabei die für die Erkennung wichtigen Inhalte beibehält. 

Bei der Kompression von Videos und Bildern mit Hilfe der JPEG und 

MPEG Verfahren werden unter anderem dadurch Daten eingespart, daß


bestimmte Details so weggelassen werden, daß ein Ausschnitt eines Bildes 

nur noch niedrige Frequenzen enthält. Eine völlig weiße Fläche mit gelegentlichen 

schwarzen Punkten hat in der entsprechenden zweidimensionalen 

Fouriertransformierten viele hohe Frequenzanteile. Ein Tiefpaßfilter und 

eine anschließende Rücktransformation in den Bildbereich führt dazu, daß 

die schwarzen Punkte ganz verschwinden oder nur noch die Fläche grau 

einfärben. Ein ähnliches Vorgehen verfolgen verschiedene Kompressionsalgorithmen 

bei der Kompression von Sprachsignalen. 

Die Frage, was bei Audiosignalen irrelevante Details sind, wird dabei 

etwas anders beantwortet als bei Bildern, aber das Prinzip ist ähnlich. 

Leiten wir ein Signal, das eine Grenzfrequenz von 16 kHz hat durch einen 8 

kHz Tiefpaßfilter, dann benötigen wir zum Codieren des Resultat auch nur 

noch die Hälfte der Datenmenge. Das Signal bleibt dennoch verständlich. Je 

stärker wir filtern, umso weniger Daten fallen an und umso unverständlicher 

wird das Signal. 

Sinnvoller als ein Tiefpaßfilter ist die Zusammenfassung von benachbarten 

DFT-Koeffizienten. Dadurch werden die Informationen über die hohen Frequenzen 

nicht ignoriert und kleine unwichtige Variationen werden dennoch 

” geglättet“. Die einfachste Art wäre die Verwendung mehrerer Bandpaßfilter, 

deren Koeffizienten alle zu einem so genannten Filterbankkoeffizienten zusammengefaßt 

werden. Bei einer Aufteilung der n DFT-Koeffizienten a1, . . .,an 

in m Filterbankkoeffizienten b1, . . .,bm (s. Abb. 8.8) würde sich bi berechnen 

als: 

bi = n 

m · 

(i+1)· m 

n −1 

 

j=i· m 

n 

aj 

ωg/2 

ωg/4 

ωg/6 

0 

Abb. 8.8. Filterbänke gleicher Größe 

b0 b1 b2 

(8.2) 

Wollen wir die Funktion des Ohres einigermaßen nachahmen und die 

tieferen Frequenzen feiner auflösen, dann sollten wir Filterbänke verwenden, 

die mit steigender Frequenz immer breiter werden, wie in Abb. 8.9.

0 b1 b2 

Abb. 8.9. Filterbänke wachsender Größe 


Bleibt noch zu klären, wie die einzelnen Filter am besten zu wählen sind. 

In zwei verschiedenen Experimenten wurden zwei Funktionen, die Mel-Skala 

und die Bark-Skala [?] [?] gefunden, die an die entsprechenden Funktionen 

des menschlichen Ohrs angelehnt sind. 

Der Begriff Mel ist die Abkürzung für Melody und ist darin motiviert, 

die Frequenzskala so in Abschnitte zu unterteilen, wie sie ein (ungeübter) 

Mensch einteilen würde. Bei den Mel-Experimenten werden Probanden Töne 

verschiedener Frequenzen vorgespielt, und die Hörer müssen schätzen, um 

welche Frequenz es sich handelt. Trägt man in einem Koordinatensystem die 

geschätzten Frequenzen f ′ (mit der Einheit 1 Mel) gegen die tatsächlichen f 

(mit der Einheit 1 Hz) auf ergibt sich eine in etwa logarithmische Kurve. Im 

Mittel läßt sich diese Kurve approximieren durch 

f ′ = 1125 log(0.0016f + 1) (8.3) 

Die so genannte Bark-Skala ist benannt nach dem deutschen Akustiker 

von Barkhausen. Die Idee hierbei ist es, Versuchspersonen zwei Töne 

vorzuspielen und die Hörer dann entscheiden zu lassen, ob es sich um zwei 

verschiedene oder um die selben Frequenzen handelt. Weil das menschliche 

Ohr tiefere Frequenzen besser auflösen kann, ist zu erwarten, daß zwei Töne 

mit den Frequenzen 100 Hz und 110 Hz besser voneinander zu unterscheiden 

sind, als zwei Töne mit den Frequenzen 1000 Hz und 1010 Hz. Für 

jeden Frequenz gibt es somit eine kritische Bandbreite (minimale hörbare 

Frequenzdistanz) gemessen in der Einheit 1 bark. Trägt man die kritische 

Bandbreite gegen die Frequenz auf, ergibt sich eine ähnlich gekrümmte 

Kurve wie bei der Mel-Skala. 

In Abb. 8.11 sind verschiedene Möglichkeiten der Berechnung von Filterbänken 

dargestellt. Wenn das diskrete Kurzzeitspektrum 100 Koeffizienten 

liefert, und am Ende 10 Filterbänke erzeugt werden sollen, so werden 

diese in der Praxis meist in Form von überlappenden Intervallen berechnet. 

Der achte Filterbank-Koeffizient ist in der Abb. grau dargestellt. Er wird 

als die Gewichtete Summe der Spektralkoeffizienten im Bereich des grauen 

Dreiecks berechnet. Hierbei beginnt und endet jedes Dreieck in der Mitte der 

angrenzenden Bereiche, und die Höhe des Dreiecks gibt die Gewichtungsfaktoren 

an. Da bei einer solchen Definition die Summe der Integrale unter allen


geschätzte Frequenz [Hz] 

3000 

2500 

2000 

1500 

1000 

500 

0 

0 1000 2000 3000 4000 5000 6000 7000 8000 

tatsächliche Frequenz [Hz] 

Abb. 8.10. Die Mel-Skala 

Dreiecken genauso groß ist wie die entsprechenden Fläche nichtüberlappender 

Rechtecke, bleibt die gesamte Signalenergie erhalten, wird allerdings über 

die einzelnen Filterbankkoeffizienten ” verschmiert“. 

1. 

2. 

3. 

Abb. 8.11. verschiedene Berechnungen für Filterbänke: 1. Linear nichtüberlap- 

pend, 2. logarithmisch nichtüberlappend, 3. logarithmisch überlappend

8.3 Cepstralanalyse 

8.3 Cepstralanalyse 119 

Betrachten wir das Quelle-Filter-Modell des Vokaltraktes wie in Abb. 4.9 

dargestellt. Dabei nehmen wir an, daß das aufgezeichnete Sprachsignal 

entsteht, indem eine Anregungsschwingung a durch mehrere hintereinanderfolgende 

Filter gefiltert wird. Wenn wir davon ausgehen, daß es sich bei 

diesen Filtern um lineare zeitinvariante Filter handelt, dann können wir die 

Hintereinanderausführung mehrerer Filter zur Anwendung eines einzigen 

Filters b zusammenfassen. Die Beobachtung ist dann also die Faltung 

c = a ∗ b von a mit b. 

Wenn wir eine Spektralanalyse, also eine Fouriertransformation der Beobachtung 

durchführen, erhalten wir: C = A · B wobei C die Transformierte 

von c, A die Transformierte von a und B die Transformierte von b ist. Eine 

anschließende Logarithmierung liefert log C = log A + log B. Jetzt sehen 

wir, daß das logarithmierte Spektrum eine Summe zweier logarithmierter 

Spektren ist. Spricht jemand mehrere Vokale hintereinander, so kann dabei 

die Anregungsschwingung unverändert bleiben während sich die Form des 

Vokaltraktes, insbesondere die Lage der Zunge ändert. Das heißt über eine 

gewisse Zeit bleibt a konstant, während nur b sich ändert. Berechnet man 

den Mittelwert ¯ C = Ā + ¯ B von log C über diesem Zeitraum und subtrahiert 

ihn von jedem einzelnen logarithmierten Kurzzeitspektrum, dann erhalten 

wir log A(t) + log B(t) − ¯ C = log B(t) − ¯ B, also nur noch Anteile des 

” variablen“ Anteils des Signals. Analog verhält es sich, wenn wir annehmen, 

daß der Vokaltrakt – und somit der gesamte Filter – konstant bleibt. Dann 

befinden sich im mittelwertsbefreiten logarithmierten Spektrum nur die 

” variablen“ Anteile der Anregungsfunktion. 

Eine anschließende Fouriertransformation oder auch deren Inverse ändert 

aufgrund der Linearitätseigenschaften derselben an diesen Sachverhalten 

nichts. In Anlehnung an die Bezeichnung ” Spektrum“ bezeichnen wir die 

Funktion FT −1 (log FT(f)) als das Cepstrum der Funktion f. 

Statt der vollständigen inversen Fouriertransformation FT −1 kann 

auch eine andere spektralanalysierende Transformation wie z.B. die diskrete 

Cosinus-Transformation verwendet werden. In jedem Fall ist das 

Ergebnis die Spektralanalyse des Spektrums selbst, so daß die niedrigen 

Cepstralkoeffizienten die niedrigen Schwingungsanteile des als Schwingung 

betrachteten Spektrums enthalten und die höheren Cepstralkoeffizienten die 

höherfrequenten Schwingungsanteile enthalten. 

Insbesondere kann man sagen, daß der 0-te Cepstralkoeffizient den 

Konstantanteil des Spektrums beschreibt, also den durchschnittlichen Wert 

aller einzelnen Spektralanteile des Ursprungssignals, d.h. die Gesamtenergie.


Der erste Cepstralkoeffizient gibt im wesentlichen die Differenz der 

Anteile der niedrigeren Frequenzen (untere Hälfte aller Frequenzen) im 

Signal und der Anteile der hohen Frequenzen (obere Hälfte aller Frequenzen) 

an. 

Die Einheit des Argumentes einer Cepstralfunktion ist die Quefrenz 

(auch Hertz). Wenn ein Signal mit der Abtastrate ωs abgetastet wird 

und dann mit einer n-Punkt DFT transformiert wird, entspricht der i-te 

Cepstralkoeffizient der Quefrenz ωs · i/(2n). Wenn in einem Spektrum die 

Frequenzanteile f, 2f, 3f . . . usw. besonders stark vertreten sind, bedeutet 

dies, daß in der Spektralanalyse des Spektrums die Quefrenz f besonders 

stark ausschlägt. 

Wenn ein Kanal wie der Vokaltrakt eine Frequenz f besonders wenig 

dämpft, dann gilt dies auch für die Oberschwingungen i·f. Dies wirkt sich im 

Spektrum eines Signals darin aus, daß im Cepstrum bei der Quefrenz f ein 

herausragender Ausschlag zu beobachten ist (s. Abb. 8.12 – die Oberwellen 

der Grundfrequenz von 200 Hz sind im Cepstrum deutlich sichtbar). 

Spektrum 

(Frequenz) 

Cepstrum 

(Quefrenz) 

200 1000 Hz ∞ 800 400 200 Hz 

Abb. 8.12. Das Cepstrum ist die Spektralanalyse des Spektrums 

Wird ein Signal dadurch transformiert, daß bestimmte Frequenzen 

unterdrückt werden (niedrige bei einem Hochpaßfilter, hohe bei einem 

Tiefpaßfilter), dann spricht man vom Filtern eines Signals. Wird nur ein 

bestimmtes Frequenzband durchgelassen und alle kleineren und größeren 

Frequenzen unterdrückt, dann ist das ein Bandpaßfilter. Entsprechend 

spricht man bei Unterdrücken/Durchlassen bestimmter Quefrenzen eines 

Cepstrums vom Liftering (s. Abb. 8.13). 

Eine Lifter-Transformation, die z.B. die höheren Cepstralkoeffizienten 

unterdrückt, wirkt sich auf das in den Zeitraum zurücktransformierte Signal 

so aus, daß die Anteile, die die Mikrostruktur des Spektrums bewirken 

beseitigt werden. Das ist in etwa vergleichbar mit einer Transformation, die 

aus einem ” reichen“ Ton wie den einer Violine einen ” ärmeren“ Ton wie den

Spektrum 

Cepstrum 

Abb. 8.13. Filtern und Liftern eines Signals 

einer Flöte macht. 

8.4 Codierung durch Lineare Vorhersage 121 

Filtern 000 111 

000 111 

000 111 

000 111 

Liftern 000 111 

000 111 

000 111 

000 111 

8.4 Codierung durch Lineare Vorhersage 

In den Sechzigern wurde zunächst ohne die Motivation, dadurch eine 

Vorverarbeitung für die Spracherkennung zu entwickeln, an Codierverfahren 

gearbeitet, die eine kompaktere Darstellung des Sprachsignals ermöglichen, 

insbesondere für die digitale Speicherung und Übertragung [?]. Als besonders 

sinnvoll erwies sich das Verfahren der linearen Vorhersage. Wir werden 

im folgenden zeigen, wieso es sich dabei um eine Art Spektralanalyse handelt. 

Ziel der Linearen Vorhersage ist es, eine möglichst gute Schätzung des 

Abtastwertes s(n) als Linearkombination der p vorausgegangenen Abtastwerte 

s(n − 1)...s(n − p) abzugeben, also: 

s(n) = e(n) + 

p 

ais(n − i) (8.4) 

i=1 

Da meist s(n) nicht exakt als Linearkombination der vorherigen p Werte 

dargestellt werden kann, liegt die Vorhersage um einen Fehler e(n) daneben. 

Man wird sagen, daß eine Wahl der Vorhersagekoeffizienten ai umso besser 

ist, je kleiner der Fehler im Schnitt ist. Die Vorhersagekoeffizienten ai werden 

auch LPC-Koeffizienten (Linear Predictive Coding [?]) genannt. 

Abb. 8.15 zeigt, wie die Funktion aus Abb. 8.14 auf dem Einheitskreis 

aussieht. Da Sprachsignale reellwertig sind, ist die hier dargestellte 

z-Transformierte symmetrisch. Die Funktionswerte auf dem Einheitskreis 

zwischen 0 ◦ und 180 ◦ wiederholen sich spiegelbildlich zwischen 180 ◦ und 360 ◦ . 

Später wurde dann die LPC-Darstellung als sinnvoller Merkmalsraum für 

Spracherkennungssysteme erkannt [?]. Mit der Zeit ging ihre Bedeutung aber


Abb. 8.14. Nur-Pole-Funktion eines Linearen Vorhersagesystems 

180 ◦ 

Abb. 8.15. Nur-Pole-Funktion beschränkt auf den Einheitskreis 

90 ◦ 

0 ◦ 

0 ◦ 

approximiertes 

Spektrum 

im Bereich der Erkennung von sauberer Sprache über Nahbesprechungsmikrophone 

zurück und das Cepstrum entwickelte sich zum Merkmalsraum der 

Wahl für die meisten Erkenner. 

8.5 Einfache Signalnormalisierungen 

Wie in Abschnitt 2.9 erläutert, liegt der wichtigste Grund für die Schwierigkeit 

der automatischen Spracherkennung in der großen Variabilität, mit 

der die gleiche Wortfolge in einem akustischen Signal manifestiert werden 

kann. Betrachtet man die orthographische Darstellung als die kanonische 

Darstellung der entsprechenden Wortfolge, so kann man den gesamten 

90 ◦

8.5 Einfache Signalnormalisierungen 123 

Spracherkennungsprozeß als eine Art Normierung ansehen. So weit wollen 

wir aber nicht gehen. Wenn wir hier von Normierung reden, dann meinen 

wir damit die Transformation des Signals, so daß die Variabilität abnimmt 

und die Parameter des Erkennungssystems besser geschätzt werden können, 

bzw. daß weniger Parameter für die gleiche Klassifikationsleistung benötigt 

werden. Eine sehr einfache Normierung, die man leicht als sinnvoll ansieht, 

ist die Normierung der Lautstärke. Eine Wortfolge bleibt sicher dieselbe, 

unabhängig davon wie der Mikrophonverstärker eingestellt ist. Wozu sollte 

man also dem Erkenner die ” Mühe“ machen, Darstellung der gleichen Laute 

für verschiedene Lautstärken lernen zu müssen. Einige Normierungsverfahren 

können schon auf dem reinen Signal durchgeführt werden, andere verwenden 

Wissen über die Lautfolge und greifen erst viel später im Erkennungsprozeß. 

8.5.1 Offsetnachführung 

Je nachdem, auf welche Art das Sprachsignal weiter verarbeitet wird, kann 

es durchaus schädlich sein, wenn die ” Nullinie“ nicht bei null sondern 

irgendwo daneben liegt. Bei vielen A/D Wandlern kann es vorkommen, daß, 

selbst wenn gar kein Signal anliegt, ein Wert ungleich null geliefert wird. 

Dieser Wert wird als Offset des A/D Wandlers bezeichnet. Insbesondere 

wenn die Energie eines Signals berechnet werden soll, kann das Ergebnis 

durch einen Offset stark verfälscht werden. Daher ist es sinnvoll, bei einer 

Sprachaufnahme den Durchschnittswert aller Abtastwerte zu berechnen 

und diesen von allen Werten zu subtrahieren. Um einer schleichenden 

Wanderung des Offsets entgegenzuwirken, sollte dies sogar auf jedem 

ausreichend langen Teilstück einer Aufnahme gemacht werden. Wenn wir 

davon ausgehen, daß die kleinste Informationstragende Frequenz in einer 

Sprachaufnahme nicht unter 10 Hz liegt, dann kann der Offset auf Abschnitten 

der Länge 1/10 Sekunde jeweils neu geschätzt und so nachgeführt werden. 

Einen vergleichbaren Effekt kann man dadurch erzielen, daß man statt 

des aufgezeichneten Signals dessen Ableitung verwendet. In der Regel ist der 

Unterschied zwischen einem Sprachsignal und dessen Ableitung nicht hörbar. 

Nimmt man an, daß das Signal als Superposition mehrerer Sinus-Funktionen 

mit verschiedenen Frequenzen und Phasen entseht, dann ist die Ableitung 

davon wieder einer Superposition von den gleichen Sinus-Funktionen mit 

denselben Frequenzen nur mit anderen Phasen. Da aber nach allgemeiner 

Einschätzung das Phasenspektrum keine Rolle bei der Erkennung von Sprache 

spielt, enthält das abgeleitete Signal alle relevanten Informationen, ist 

aber mittelwert- bzw. offset-bereinigt.


8.5.2 Mittelwertssubtraktion 

Unabhängig von der Bedeutung der Cepstralkoeffizienten, bei denen ein 

” konstanter“ und eine variabler“ Signalanteil entfaltet werden, enthalten 

” 

Sprachaufnahmen oft auch über eine gewisse Zeit konstante additiv überlagerte 

Geräusche. Aufgrund der Linearität der Fouriertransformation (und 

auch der Inversen) finden sich additive Anteile in der Zeitdarstellung als 

additive Anteile in der Frequenzdarstellung wieder. Das heißt, daß z.B. 

ein Hintergrundrauschen (z.B. die typische Büroakustik mit dem Surren 

von PC-Lüftern und Festplatten) sich sowohl im Spektrum als auch im 

Cepstrum als additiver Anteil wiederfinden, der über eine bestimmte Zeit 

relativ konstant ist. 

Wenn wir davon ausgehen, daß das Hintergrundgeräusch während 

einer gesamten Aufnahme unverändert ist, dann empfiehlt es sich, das 

durchschnittliche Spektrum oder das durchschnittliche Cepstrum von allen 

Kurzzeitspektren bzw. Kurzzeitcepstren zu subtrahieren. Dadurch wird 

auf jeden Fall der zeitlich konstante Anteil des Hintergrundgeräusches aus 

dem Signal entfernt, allerdings werden auch konstante Anteile aus dem 

Sprachanteil des Signals auch entfernt. Die Praxis hat gezeigt (z.B. [?]), daß 

der Schaden durch die Mittelwertssubtraktion bei weitem durch die Vorteile 

aufgewogen wird. Zum einen ist für die Erkennung von Sprachsignalen der 

konstante Anteil weniger wichtig als der variable, zum anderen können 

störende Hintergrundgeräusche, die während der Erkennung aber nicht in 

den Trainingsdaten auftreten, die Erkennungsqualität sehr stark senken. 

Dabei ist weniger das Vorhandensein der Geräusche ausschlaggebend sondern 

vielmehr die Unterschiedlichkeit der Trainings- und der Testaufnahmen. 

Wenn wir nicht davon ausgehen, daß das Hintegrundrauschen während einer 

gesamten Aufnahme konstant ist, können wir mit Hilfe eines Schleppfensters 

von jedem Kurzzeitspektrum, den Mittelwert einiger vorangegangenen 

Spektren subtrahieren. Am einfachsten ist es, dabei ein exponentiell abfallend 

gewichtetes Fenster zu verwenden, so daß des i-te Spektrum xi ersetzt 

wird durch x ′ i = i−1 

k=0 ek−i · xk. 

8.6 Wavelets 

Für den Raum der bandbegrenzten 2π-periodische Funktionen bilden die 

Funktionen cos(0x), sin(x), cos(x), sin(2x), cos(2x), . . . sin(nx), cos(nx) eine 

Orthonormalbasis. Jede Funktion läßt sich als Linearkombination von Sinusund 

Cosinusfunktionen verschiedener Frequenzen darstellen. Schon relativ 

früh nachdem Fouriers Theorie anerkannt wurde, wurden auch andere Basen 

angedacht. Betrachtet man die Fourierreihen für unstetige Funktionen,

8.6 Wavelets 125 

zum Beispiel eine Rechteckfunktion, so ist diese nur sehr schwer durch 

die Summe von Sinus- und Cosinusfunktionen zu synthetisieren. Während 

die Summe im ” flachen“ Bereich des Rechtecks relativ schnell konvergiert, 

bilden sich an den ” Ecken“ extreme Ausschläge, deren Höher kurioserweise 

trotz Konvergenz nicht kleiner wird. Solches und ähnliches Verhalten der 

Fourieranalyse unstetigen oder ” sehr spitzen“ Funktionen hat dazu geführt, 

daß eine Synthese mit Hilfe anderer Funktionen so genannter ” Wavelets“ [?] 

angestrebt wurde. Dabei werden keine unendlich ausgedehnten Funktionen 

(wie sin und cos) verwendet, sondern Funktionen mit endlichem Definitionsbereich. 

Die Basis besteht dann aus einer Menge gleichartiger Funktionen, 

die aber unterschiedlich stark im Zeitbereich in die Breite gedehnt sind 

(verschiedenskalige Basisfunktionen). Die ungedehnte Ursprungsfunktion 

wird auch als ” Mutterfunktion“ Φ bezeichnet. Die Basis besteht aus den 

Funktionen: 

s − 

Φsl(x) = 2 2 Φ(2 −s x − l) (8.5) 

mit verschiedenen ganzzahligen ” Dehnungsfaktoren“ s und verschiedenen 

Phasenverschiebungen l. Die Überlegungen zur Waveletanalyse von 

Funktionen sind dann vergleichbar mit der Fourieranalyse und führen für 

Diskrete Signale zu einer Diskreten Wavelet Transformation (DWT) die 

ebenso eine lineare Matrixtransformation ist und auch eine schnelle Variante 

(fast wavelet transform) besitzt. Bei der Wahl der Mutterfunktion Φ gibt 

es viele Freiheiten. Manche Forscher [?] verwenden sogar fraktale Mutterfunktionen. 

In der Erkennung kontinuierlicher Sprache unter alltäglichen 

Bedingungen haben sich Wavelettransformation allerdings nicht gegenüber 

Fouriertransformationen durchsetzen können.

9. Klassifikation und Mustererkennung 

Automatische Spracherkennung kann als eine Art der Klassifikation angesehen 

werden. Gegeben ist eine Sprachaufnahme, also ein Muster, und gesucht 

ist die Klasse (z.B. Phonem, Silbe, Wort, Wortfolge), zu der das Muster 

gehört. In der Tat waren die frühen Versuche, Sprache zu erkennen, vergleichbar 

mit den meisten Musterklassifikationsaufgaben, wie die Erkennung 

von Zeichen, oder Bildern. 

9.1 Klassifikatoren 

Klassifikatoren lassen sich in verschiedene Gruppen aufteilen. Eine mögliche 

Aufteilung ist die in deterministische und stochastische Klassifikatoren. Deterministische 

Klassifikatoren basieren auf Regeln, die fest vorgegeben sind 

und bestimmen genau eine Klasse zu der das Muster gehört. Stochastische 

Klassifikatoren bedienen sich der Wahrscheinlichkeitstheorie, und bestimmen 

für ein Muster x die A-Posteriori-Wahrscheinlichkeit p(C|x) dafür, daß x zur 

Klasse C gehört. Eine Klassifikation wird dann so durchgeführt, daß x der 

Klasse C ∗ mit 

C ∗ = argmaxp(C|x) 

(9.1) 

C 

zugeordnet wird. 

9.1.1 Deterministische und stochastische Klassifikatoren 

Der Begriff Determinismus hat in diesem Zusammenhang nichts damit zu 

tun, daß die Ausgabe eines Algorithmus nicht vorherbestimmt ist. Mit 

deterministischen Klassifikatoren sind nicht diejenigen gemeint, die das 

Gegenstück zu den indeterministischen sind (letztere werden hier sowieso 

nicht betrachtet), sondern die das Gegenstück zu den stochastischen Klassifikatoren 

bilden. Stochastische Klassifikatoren sind solche, die auf den Einsatz 

von Verfahren aus der Wahrscheinlichkeitstheorie und Stochastik beruhen. 

Deterministische Klassifikatoren kommen in der Regel nur für sehr einfache 

Aufgaben in Betracht, bei denen einige Eigenschaften über die Klassen

128 9. Klassifikation und Mustererkennung 

bekannt sind, deren korrekte Erkennung sofort mit absoluter Sicherheit auf 

die dazugehörige Klasse schließen läßt. Die allermeisten Mustererkennungsaufgaben 

sind aber so gestaltet, daß derartige Eigenschaften entweder nicht 

bekannt sind, nicht ausreichend exakt definiert werden können oder nicht 

ausreichend sicher erkannt werden können. 

Für die Erkennung von Sprache gelten alle drei Einschränkungen, für 

viele Laute können wir weder genau beschreiben, was diese Laute ausmacht, 

noch könnten wir diese Eigenschaften in einem Sprachsignal mit hinreichender 

Genauigkeit detektieren. Daher werden wir uns hier auch nicht mit 

deterministischen Klassifikatoren befassen. 

Stochastische Klassifikatoren werden gerne in parametrische und nicht 

parametrische Schätzer unterteilt, je nachdem ob eine bestimmte parametrisierbare 

Annahme über die Verteilung der Stichprobendaten gemacht 

wird oder nicht. Beim Lernen der Schätzer anhand der Trainingsstichprobe 

wird außerdem unterschieden zwischen überwachtem und unüberwachtem 

Lernen. Im ersteren Fall wird zum Lernen die Klassenzugehörigkeit eines 

Stichprobenelements verwendet, im letzteren liegen diese Informationen 

nicht vor oder werden nicht benutzt. 

9.1.2 Parametrische und nichtparametrische Schätzer 

Nichtparametrische Schätzer kommen in der Spracherkennung selten zum 

Einsatz. Typische Beispiele für nichtparametrische Schätzer sind diskrete 

Wahrscheinlichkeitsfunktionen (meist dargestellt als Histogramme), die für 

jedes Ereignis aus einer diskreten Menge von Ereignissen durch Zählen der 

Häufigkeiten aller Ereignisse die relative Häufigkeit berechnet und damit 

die Wahrscheinlichkeit des Ereignisses schätzen. Für kontinuierliche Merkmalsräume 

können auf ähnliche Art Häufigkeiten für bestimmte Intervalle 

oder Teilräume berechnet werden. Mit der Parzen-Fenster Methode [?] [?] 

geht das sogar für unterschiedlich groß gewählte Teilräume in Abhängigkeit 

von der lokalen Belegungsdichte durch die Trainingsdaten. 

Bei stochastischen Klassifikatoren gibt es typischerweise eine Trainingsphase, 

in der die Parameter des Systems geschätzt werden und eine Testphase 

in der zuvor ungesehene Stichproben klassifiziert werden (s. Abb. 9.1). 

9.1.3 Überwachtes und unüberwachtes Lernen 

Beim Lernen von Klassifikatoren, egal ob parametrisch oder nicht parametrisch, 

kann man unterscheiden zwischen überwachtem und unüberwachtem

Transkript 

A/D 

Converter 

Parameterschätzung 

Parameter 

Signal- 

Verarbeitung 

Klassifikator 

Hypothese 

9.1 Klassifikatoren 129 

Trainining 

Klassifikation 

Abb. 9.1. Arbeitsweise eines stochastischen parametrischen Klassifikators 

Lernen. Beim überwachten Lernen ist für jedes Muster bekannt, zu welcher 

Klasse es gehört. Beim unüberwachten Lernen ist dies nicht der Fall. Oft 

ist es sogar so, daß nicht einmal bekannt ist, wieviele und welche Klassen es 

überhaupt gibt. In der Spracherkennung kommen beide Varianten des Lernens 

vor. Das unüberwachte Lernen findet zum Beispiel Verwendung beim 

Erzeugen von Codebüchern mit dem k-Mittelwerte Verfahren. Überwachtes 

Lernen wird allerdings viel häufiger verwendet. 

9.1.4 Neuronale Netze als Klassifikatoren 

Für die meisten interessanten Klassifikationsaufgaben ist es kaum sinnvoll 

möglich, deterministische Klassifikatoren zu definieren. Eine naheliegende 

Idee besteht darin, die Regeln des Klassifikators ” zu lernen“. Für einfache 

lineare Klassifikationsaufgaben wurde schon früh eine einfache Variante eines 

neuronalen Netzes eingesetzt, das sogenannte Perzeptron. 

Neuronale Netze werden zur Lösung von Klassifikationsaufgaben auch 

außerhalb des Gebiets der automatischen Spracherkennung eingesetzt. Immer 

dann, wenn anzunehmen ist, daß die optimalen Trennflächen zwischen 

den zu unterscheidenden Klassen im oft hochdimensionalen Merkmalsraum 

nichtlinear sind, bietet sich der Einsatz etwas komplexerer neuronaler Netze 

an, z.B. sogenannte mehrschichtige Perzeptronen (Multi Layer Perceptrons 

- MLPs). 

Die Verwendung neuronaler Netze in der Spracherkennung wird in Kap. 

22 ausführlich behandelt. 

9.1.5 Vektor Quantisierung 

In der Regel sind die zu klassifizierenden Muster Punkte aus einem mehrdimensionalen 

prinzipiell unendlichen Vektorraum, typischerweise R n . In


vielerlei Hinsicht wäre es leichter mit Indizes von Mustern zu arbeiten. Dann 

könnten viele Funktionen auf den Mustern in Form einer Tabelle implementiert 

werden. Aus komplizierten Dichtefunktionen, die nur parametrisch 

geschätzt werden können, würden nichtparametrisch schätzbare diskrete 

Wahrscheinlichkeitsverteilungen. Daher werden gerade für Systeme mit 

kleiner Rechenleistung wie zum Beispiel Mobiltelefone gerne einfache Indizes 

statt hochdimensionaler reellwertiger Vektoren verwendet. Die Gewinnung 

der Indizes erfolgt mittels einer Vektor Quantisierung. 

Abstandsmaße 

Die übliche Art der Vektor Quantisierung ist der Vergleich des zu quantisierenden 

Vektors X mit zuvor abgespeicherten Referenzvektoren µ1 . . .µk. 

Als Index I(X) des Vektors X wird dann der Index des ihm am nächsten 

liegenden Referenzvektors verwendet, also: 

I(X) = argmind(X, 

µi) (9.2) 

i 

Das am häufigsten verwendete Distanzmaß d(·) ist die euklidische 

Distanz. Für einige bestimmte Fälle kann auch eine andere Distanz, z.B. 

City-Block sinnvoll sein. 

Manchmal werden nicht Distanzen zu einzelnen Referenzvektoren 

berechnet, sondern gleich zu alle gegebenen k Klassen C1 . . .Ck. Hier 

ist es üblich, als Distanz d(X, C) den Abstand von X zum Mittelwert 

der Klasse C, also den durchschnittlichen Abstand zu allen bekannten 

Elementen der Klasse C, zu verwenden. Auch hier gilt, daß je nach Problem 

auch andere Distanzmaße sinnvoll sein können, zum Beispiel der kleinste 

oder auch der größte Abstand d(X, µ) zu allen bekannten Elementen µ von C. 

Klassifikation mit Vektor Quantisierung 

Im Rahmen der Vektorquantisierung ist es ein Ziel, die Abbildung Mustervektor 

→ Referenzvektor so zu gestalten, daß die Abweichung möglichst 

klein ist. Denn wo immer ein Referenzvektor an der Stelle des eigentlichen 

Mustervektors verwendet wird, macht das System Fehler, so genannte 

Quantisierungsfehler. 

Es ist also sinnvoll, die Quantisierung so zu gestalten, daß möglichst 

kleine Quantisierungsfehler vorkommen. Die einfachste naheliegende Lösung, 

eine Unterteilung des Merkmalsraums in gleich große, äquidistante Teilräume 

wie in Abb. 9.2 ist für die meisten Anwendungen, in denen zu erwarten 

ist, daß die Mustervektoren nicht gleichverteilt im Raum liegen, nicht 

praktikabel. Die Referenzvektoren 1,4,5,6,7,11 und 12 in Abb. 9.2 haben 

gar keine Beispiele während die anderen Referenzvektoren jeweils mehrere

1 2 3 4 5 

6 7 8 9 10 

11 12 13 14 15 

Abb. 9.2. Nachteile äquidistanter Merkmalsraumunterteilung 

Beispiele repräsentieren müssen. 


Verwendet man die häufigste Klassifikationsmethode mittels Vektorquantisierung, 

den Index des Referenzvektors mit kleinstem euklidischen Abstand, 

so ergibt sich eine Unterteilung des Merkmalsraum in so genannte Voronoi- 

Regionen. Positioniert man mehrere Referenzvektoren in einem Raum, so 

umschließt die Voronoi-Region eines Vektors alle Punkte des Raumes, die 

näher an diesem als an allen anderen Referenzvektoren liegen. Es ist leicht 

einzusehen, daß jede Voronoi-Region konvex sein muß. 

Abb. 9.3. Nachteil der Nächste-Nachbar-Klassifikation 

Abb. 9.3 illustriert, daß der mit × markierte Punkt zu einem Referenzvektor 

auf der rechten Hälfte des Merkmalsraumes zugeordnet würde. 

Ein menschlicher Beobachter würde diese Zuordnung allerdings als eher 

unwahrscheinlich ansehen, weil alle Punkte der rechten Hälfte einen sehr 

kleinen Teilraum einnehmen, in den der mit × markierte nicht hineinfällt.


Würde man auf diese Art zwei verschiedene Phänomene modellieren, so 

würden durch eine einfache Nächste-Nachbar-Schätzung die Punkte in der 

grau unterlegten Fläche mit großer Wahrscheinlichkeit falsch klassifiziert 

werden. 

Abb. 9.4. Klassifikator mit Mahalanobis-Distanzen 

Eine Lösung dieses Problems bietet die Verwendung von Mahalanobis- 

Distanzen statt euklidischer Distanzen: 

d(µ, x) = (x − µ) ⊤ Σ −1 (x − µ) (9.3) 

Hierbei ist die Distanz eines Musters x zu einem Klassenrepräsentanten µ 

zusätzlich durch die Kovarianzmatrix Σ beeinflußt. Wenn Σ die Einheitsmatrix 

ist, so ist die Mahalanobis-Distanz gleich dem Quadrat der euklidischen 

Distanz. Mahalanobis-Distanzen sind allerdings wesentlich aufwendiger zu 

berechnen, und benötigen darüber hinaus noch die Schätzung von Σ aus 

allen Beispielvektoren, die zu der Klasse gehören. Abb. 9.4 illustriert, die 

Mahalanobis-Distanzen für zwei Repräsentanten, von denen der linke mehr 

und der rechte weniger streut. Die Höhe des Gitters gibt für jeden Punkt 

des Merkmalsraums die Summe der Mahalanobis-Distanzen zu den beiden 

Repräsentanten an. Die konzentrischen Ellipsen sind jeweils Punkte mit 

gleicher Mahalanobis-Distanz zu einem der Repräsentanten. Der mit dem 

Pfeil markierte Punkt würde – obwohl näher am rechten Repräsentanten – 

zur linken Klasse zugeordnet werden. 

k-Nächste-Nachbarn 

Ein typischer Fehler, den einfache Nächster-Nachbar-Klassifikatoren machen, 

ist das Nichterkennen eines Ausreißers in den Referenzdaten. Liegt ein


Beispiel aus Klasse C1 mitten unter vielen Beispielen für C2, dann definiert 

es einen Teil des Merkmalsraum fälschlicherweise als zur Klasse C1 gehörend. 

Solche Fehlklassifikationen lassen sich leicht vermeiden, wenn man statt des 

einen nächsten Nachbarn die k nächsten Nachbarn betrachtet. 

Abb. 9.5. k-nächste-Nachbar-Klassifikation 

nächster Nachbar 

Klasse 

6 nächste Nachbarn 

Klasse 

Abb. 9.5 illustriert, wie der nächste Nachbar des als Kreuz markierten 

Testpunktes zur Klasse der Dreiecke gehört. Erweitert man aber den 

Umgebungskreis, so daß die nächsten 6 Nachbarn darin liegen, dann ist die 

darunter am häufigsten vertretene Klasse die Klasse der Kreise. Was für ein 

Wert für k sinnvoll ist, hängt von der Menge der Klassen und der Dichtheit 

der Referenzmuster im Merkmalsraum ab. 

Baumstrukturen 

Teilt man den Merkmalsraum hierarchisch in Unterräume auf, so kann 

diese Hierarchie als Baum dargestellt werden, dessen Blätter dann Teilräumen 

entsprechen die jeweils durch einen Referenzvektor repräsentiert werden. 

So eine Hierarchie kann sinnvollerweise durch Trennhyperebenen entwickelt 

werden, die jeweils orthogonal zu einer Koordinatenachse liegen. 

Der Aufbau der Baumstruktur [?] [?] erfolgt am besten durch Aufteilung 

des Raums entlang der Achse der größten Ausdehnung (s. Abb 9.6). Ohne 

weiteres Wissen, ist die Annahme, daß wenn die Daten überhaupt irgendwie 

multimodal verteilt sind, daß dies dann am wahrscheinlichsten an den Enden 

der Achse mit größter Varianz ist.


3. 

2. 

3. 

A B 

1. 1. 

1. 

3. 

2. 

C 

3. 

D 

3. 

Abb. 9.6. Merkmalsraum als hierarchische Baumstruktur 

9.1.6 Codebücher 

2. 

3. 

Eine Sammlung von Referenzvektoren wird Codebuch genannt. Verschiedene 

Verfahren zur Erzeugung von Codebüchern sind üblich. Hier werden einige 

davon vorgestellt. 

k-Mittelwerte / Neural Gas 

Das k-Mittelwerte Verfahren wird oft auch Linde-Buzo-Gray-Algorithmus 

(LBG-Algorithmus) oder auch Basic Isodata Algorithmus genannt. Er läuft 

wie folgt ab: 

Geben seien T Beispielvektoren v1, v2, . . . vT sowie der Wert k, der angibt, 

aus wie vielen Referenzvektoren das Codebuch bestehen soll. 

1. initialisiere k beliebige Mittelwerte µ1, µ2, . . .µk 

(z.B. µi = vi) 

2. ordne jedem Vekor vi den Repräsentanten µ f(i) 

zu, zu dessen Klasse vi gehört 

3. ersetze jeden Mittelwert µi durch den Durchschnitt 

aller ihm zugeordneter Beispielvektoren 

4. solange mit dem Ergebnis nicht zufrieden, fahre 

mit Schritt 2 fort 

Typische Abbruchbedingungen sind z.B. eine vorgegebene Zahl an 

Iterationen, meist ein auf Erfahrung basierender Wert. Möglich ist es auch, 

2. 

3. 

1. 

2. 

2. 

3.


den durchschnittlichen (oder ggf. maximalen) Abstand aller Beispielvektoren 

zu ihrem Referenzvektor zu betrachten, und die Schleife dann abzubrechen, 

wenn dieser Abstand unter einen festgelegten Wert fällt, oder wenn der 

durchschnittliche Abstand sich nicht mehr oder kaum noch ändert. 

Prinzipiell kann die Zuordnung f(i) der Beispiele zu Referenzen auch 

überwacht erfolgen, allerdings würden sich im Falle des überwachten Lernens 

eher andere Verfahren anbieten. Der k-Mittelwerte Algorithmus ist vielmehr 

das Standardverfahren für unüberwachtes Lernen. Dann wird in der Regel 

f(i) = argmin j |µj − vi| gewählt, als der zu vi nächste Referenzvektor. 

Eine Verallgemeinerung des LBG-Algorithmus ist das so genannte Neural 

Gas. Dabei wird keine harte“ Zuordnung f(i) getroffen, sondern eine ver- 

” 

teilte Zuordnung f(i, j) mit k j=1 f(i, j) = 1. Dann wird der Schritt 3 des 

LBG-Algorithmus dahingehend modifiziert, daß jeder Mittelwert durch den 

gewichteten Durchschnitt aller Beispielvektoren ersetzt wird, also 

µ ′ j = 

 

i 

1 

· (f(i, j) · vi) (9.4) 

f(i, j) 

Experiment 9.1: k-Mittelwerte 

i 

Starten Sie das Applet k-Means. Am oberen Rand sehen Sie verschiedene 

Schaltflächen. Neben der Anzeige für den Wert der Variablen k befinden sich 

Schalter zum Verändern derselben. Stellen Sie k auf den Wert 3 ein. 

Klicken Sie nun beliebig viele Punkte in die freie Fläche. Wenn sie danach 

auf Init drücken, werden die k = 3 zuerst eingegebenen Punkte mit drei 

verschiedenfarbigen Symbolen (initiale Mittelwerte) markiert. Jeder andere 

eingegebene Punkt erscheint in einer der drei Farben, je nachdem welcher 

der Mittewerte ihm am nächsten ist. 

Am oberen Rand sehen Sie den Wert der Streuung (korrekter gesagt, den 

durchschnittlichen euklidischen Abstand aller Punkte zu ihren jeweiligen 

Referenzmittelwerten) Eingeblendet. Betätigen Sie die Schaltfläche Step 

und beobachten Sie, wie die Mittelwertemarkierungen sich bewegen und die 

Streuung abnimmt. Die einzelnen Stichprobenpunkte ändern nun durch die 

neue Position der Mittelwerte gegebenenfalls ihre Farbe. 

Nach endlich vielen Schritten wird die Streuung nicht mehr weiter sinken 

und die Mittelwerte ändern ihre Position nicht mehr. Ebenso bleiben die 

Zuordnungen der Stichprobenpunkte zu den Mittelwerten konstant.


Durch Klicken auf Reset können Sie Eingabefläche wieder löschen und ein 

neues Problem eingeben. Versuchen Sie für verschiedene Werte von k Punkte 

so einzugeben, daß möglichst viele Iterationen durchlaufen werden können, 

bis ein Optimum erreicht wird. 

Der Begriff ” neural gas“ ist angelehnt an die Vorstellung eines 

abkühlenden Gases. Der Grad an Streuung der Zuordnung variiert dabei 

wie bei allen Simulated-Annealing-Algorithmen von anfangs sehr stark 

(f(i, j) = 1/k ∀i, j) bis schließlich die Zuordnung eindeutig (f(i, j) = 1 für 

ein bestimmtes j und 0 für alle anderen) wie beim reinen LBG-Algorithmus 

ausfällt. 

Bleibt noch zu klären, wie ein sinnvoller Wert für k bestimmt werden 

kann. Es wurden Ansätze verfolgt, die Größe eines Codebuchs automatisch 

zu bestimmen [?]. Dabei wird im Wesentlichen für verschiedene Werte von 

k ein Neural-Gas- oder ein k-Mittelwerte-Algorithmus berechnet und die 

durchschnittliche Streuung auf einer zuvor aus den Trainingsdaten entfernten 

Teilmenge (Kreuzvalidierungsmenge) bestimmt. Ab einem bestimmten k 

ist zu erwarten, daß die Streuung auf den Kreuzvaldierungsdaten nicht 

mehr genauso schnell absinkt wie auf den Trainingsdaten. Dies ist dann ein 

sinnvoller Wert für k. Experimente in [?] haben die Erwartung bestätigt, 

daß Klassen, die von vorn herein eher uniform beziehungsweise unimodal 

erscheinen wie zum Beispiel die Klasse der Beispielspektren für Stillelaute, 

auch mit wesentlich weniger Referenzen auskommen als eher Komplexe 

Klassen wie die Spektren von Diphthongen. 

In der Praxis hat sich allerdings herausgestellt, daß der Gewinn an 

fein dosierter Modellierungsgenauigkeit oft durch die sich ergebenden 

numerischen Probleme wieder aufgehoben werden. Der Vergleich von multivariaten 

Gauß-Mischverteilungen mit stark unterschiedlichen Größen von 

Mixturen benötigt nachträgliche Korrekturparameter (so genannte fudge 

factors). Die Erkennungsraten von Spracherkennern mit so automatisch 

bestimmten Codebuchgrößen waren nicht signifikant besser als diejenigen 

von Erkennern mit im voraus auf konstante Größe festgelegten Codebüchern. 

In der Tat gehört zu den am häufigsten angewandten Methoden der 

Codebuchgrößenbestimmung die auf Erfahrung basierte Schätzung. In diese 

Schätzung fließen vor allem die Menge der Trainingsdaten und der maximale 

erlaubte Aufwand für die Erkennung ein. Je mehr Trainingsdaten zur 

Verfügung stehen und je weniger Anforderungen and die Echtzeitfähigkeit 

des Klassifikators gestellt werden, umso größer können die Codebücher 

gewählt werden.


Eine weitere Möglichkeit ist das Erzeugen von Codebüchern durch 

” Wachsenlassen“. Dabei besteht das initiale Codebuch aus nur einem Refe- 

renzvektor. In Abb. 9.7 ist das einelementige Codebuch links als Gausglocke 

(s.u.) über allen Trainingsmustern dargestellt. Der Algorithmus zum Wachsenlassen 

der Codebücher [?] prüft nun iterativ welche Referenzvektoren 

aus so vielen Daten gemittelt werden, daß diese Daten womöglich bimodal 

verteilt sind und es sinnvoller wäre, sie mit zwei Referenzvektoren N1 und 

N2 zu modellieren, die jeweils auf den Daten X1 und X2 geschätzt werden. 

Das Wachstum der Codebücher kann abgebrochen werden, wenn sonst nicht 

mehr ausreichend Trainingsdaten zum schätzen der einzelnen Mittelwerte 

vorhanden wären. 

N1 

Abb. 9.7. Auftrennen einer Gauß-Verteilung in zwei 

Das Bucket Voronoi Intersection Verfahren 

Bei sehr großen Codebüchern (manche Spracherkenner haben mehrere Millionen 

Referenzvektoren) muß natürlich die ständig vorkommende Berechnung 

der Distanzen möglichst zeitsparend durchgeführt werden. Dazu bieten 

sich zwei Strategien an: einmal eine effiziente Berechnung der Distanzen 

selbst, und zum anderen die Einsparung von unnötigen Distanzberechnungen. 

Wenn es darum geht, nur den nächsten Referenzvektor zu finden, dann 

ist es möglich, die euklidische Distanzberechnung abzubrechen, wenn die 

nach j Dimensionen akkumulierte Teildistanz größer ist, als die bis dahin gefundenen 

kleinste Gesamtdistanz. Sortiert man die Dimensionen absteigend 

nach ihrer Varianz, dann kann man so zusätzlich die Wahrscheinlichkeit 

dafür maximieren, daß ein Abbruch der Distanzberechung vorgenommen 

werden kann. Die Praxis hat gezeigt, daß man für Sprachdaten, und da 

insbesondere für ca. 16-dimensionale Spektral- oder Cepstral-Vektoren, 

durch den Abbruch der Distanzberechnungen nur wenig Zeit einsparen kann. 

Immerhin führt man durch die jetzt benötigten Vergleiche der Teildistanzen 

mit der minimalen Gesamtdistanz einen zusätzlichen Aufwand ein. Diesen 

kann man zwar wiederum reduzieren, indem man den Vergleich nicht nach 

X1 

N2 

X2


jeder Dimension, sondern nur nach jeder zweiten oder dritten durchführt, 

aber ein Zeitgewinn von mehr als etwa 10% bis 20% ist nur selten möglich. 

Viel mehr Zeit kann eingespart werden, wenn man die Zahl der in Betracht 

zu ziehenden Referenzvektoren deutlich reduziert. Das im allgemeinen 

hierfür geeignetste Verfahren ist das Bucket Voronoi Intersection Verfahren, 

ursprünglich eingeführt in [?], später für die Spracherkennung eingesetzt in 

[?]. Die Idee hierbei ist es, den Merkmalsraum hierarchisch zu unterteilen, 

zum Beispiel zu halbieren und so die in Frage kommenden Referenzvektoren 

im Idealfall mit n Merkmalsraumunterteilungen auf nur noch O(log n) Stück 

zu reduzieren. 

Wählt man als Unterteilung des Merkmalsraums eine einfache zu einer 

Koordinatenachse xj senkrechte Hyperebene H : xj = t, dann genügt es, 

einen einzigen Vergleich (vi < t) zweier reeller Zahlen durchzuführen, um 

zu entscheiden, auf welcher Seite der Hyperebene ein zu klassifizierender 

Testvektor V = (v1, . . . vd) liegt. Allerdings ist es jetzt nicht korrekt, für 

den Rest der Nächste-Nachbar-Suche nur noch diejenigen Referenzvektoren 

zu betrachten, die auf der selben Seite der Hyperebene liegen wie der 

Testvektor. Statt dessen müssen zusätzlich alle Referenzvektoren, deren 

Voronoi-Regionen auch nur zum Teil auf der Seite des Testvektors liegen, 

auch betrachtet werden. Glücklicherweise ist das Feststellen, ob die Voronoi- 

Region eine Hyperebene schneidet, relativ schnell (in logarithmischer Zeit 

bezüglich der Anzahl der Referenzvektoren) machbar. 

Der Bucket Voronoi Intersection Algorithmus ist in Abb. 9.8 illustriert. 

Im vorliegenden Beispiel wird der Merkmalsraum zuoberst von der Trennhyperebene 

A zerteilt, die linke ” Hälfte“ wird durch B und die rechte 

durch C abermals unterteilt. Um einen möglichst nahe am Logarithmus 

liegenden Unterteilungsfaktor zu erreichen, ist es sinnvoll, im voraus diese 

Trennhyperbenen so zu wählen, daß möglichst wenige Voronoi-Regionen 

durch sie zerschnitten werden. Auch wenn diese Prüfung etwas Zeit kostet, 

so ist dies nicht weiter problematisch, denn es genügt, dies für jede Ebene 

ein einziges Mal zu machen. Dies kann ” im voraus“ berechnet werden, 

und kostet während der Klassifikation keine Zeit mehr. So entsteht also 

eine komplette Baumstruktur. Jeder Baumknoten repräsentiert eine 

Trenhyperebene, und die Klassifikation, beziehungsweise das Finden des 

nächsten Referenzvektors, besteht aus den Abstieg in diesem Baum, wobei 

jeder Abstiegsschritt jeweils nur ein einziger reellwertiger Vergleich ist. Der 

Idealfall, daß keine Voronoi-Region durch eine Hyperebene zerschnitten wird 

kommt im allgemeinen so gut wie nie vor. In der Praxis ist es sogar so, daß 

es bei sehr hochdimensionalen Räumen völlig impraktikabel ist, den Baum 

so tief durchzusuchen, bis für jedes Blatt nur noch ein Referenzvektor übrig 

bleibt. Daher beendet man die Konstruktion des Baumes nach einer zuvor

B 

A 

A 

B C 

Abb. 9.8. Das Bucket-Voronoi-Intersection Verfahren 


C


festgelegten Tiefe und ist damit zufrieden, daß in jedem Baumblatt dann 

noch einige wenige Referenzvektoren aufgelistet sind, zu denen es dann gilt, 

Distanzen zu berechnen. 

In [?] [?] konnte mit Hilfe des Bucket-Voronoi-Intersection Verfahrens 

eine Reduktion des Aufwandes zum Finden des nächsten Referenzvektors 

um 50% bis 80% erreicht werden. In [?] wird eine Erweiterung 

des Verfahrens von der einfachen Nächste-Nachbar-Suche auf die approximative 

Auswertung von Gauß-Mischverteilungen (s. Abs. 9.1.8) vorgestellt. 

9.1.7 Bayes Klassifikator 

Die zentrale Idee hinter dem Bayes Klassifikator besteht darin, daß für jede 

Klasse C ein Modell definiert wird, das die klassenbedingten Wahrscheinlichkeiten 

P(x|C) berechnet. Die Bayes Regel besagt nun: 

P(C|x) = 

P(x|C) · P(C) 

P(x) 

Entsprechend 9.1 wird nun x der Klasse C ∗ zugeordnet mit 

C ∗ = argmaxP(C|x) 

C 

(9.5) 

P(x|C) · P(C) 

= argmax 

C P(x) 

= argmaxP(x|C) 

· P(C) (9.6) 

C 

Ein Bayes-Klassifikator kann also die A-Priori-Verteilung der Merkmale 

ignorieren und arbeitet wie in Abb. 9.9 dargestellt. 

9.1.8 Gaußklassifikatoren 

Viele natürliche Zufallsprozesse produzieren normalverteilte Beobachtungen. 

Normalverteilungen werden auch Gauß-Verteilungen genannt, sie haben einige 

angenehme mathematische Eigenschaften, weshalb sie gerne als Standard 

Modelle verwendet werden, wenn kein Wissen über die tatsächliche Verteilung 

der zu modellierenden Daten vorhanden ist. Wenn eine einzelne Zufallsvariable 

x normalverteilt ist, dann läßt sich die Wahrscheinlichkeitsdichte für ihre 

Beobachtung angeben als: 

p(x) = 

1 

√ 

2πσ2 e−1 

(x − µ) 

2 

2 

σ2 (9.7)

K1 

p(x|2) 

x 

K2 

max 

p(2) 

. 

p(x|n) 

Kn 

p(x|1) 

p(2) 

p(n) 

Abb. 9.9. Funktionsweise eines Bayes-Klassifikators 

t=1 


argmax i p(C|x) 

wobei µ der Erwartungswert (das erste Moment) der Verteilung ist, und 

σ2 die Varianz (das zweite Moment, definiert mit Hilfe des Erwartungswertes 

gemäß σ2 = E(x2 ) − E 2 (x)). Wenn Zum Schätzen dieser Parameter die Trainingsmuster 

x1, x2, . . . xT verwendet werden, so ergibt sich als bester Schätzwert 

ˆµ = 1 

⊤ 

xt und ˆσ 

n 

2 = 1 

⊤ 

(xt − ˆµ) 

n 

2 

(9.8) 

Da in der Praxis das Gesetz der großen Zahl so gut wie niemals dazu 

führt, daß die geschätzten Parameter (Mittelwert) den Verteilungseigenschaften 

(Erwartungswert) exakt gleichen, und da diese Unterscheidung 

auch nur von theoretischer Bedeutung ist, werden sie im folgenden auch 

nicht mehr unterschieden, und wir schreiben einfach µ unabhängig davon, 

ob µ oder ˆµ gemeint ist. 

Sehr viele Klassifikationsaufgaben, und dazu gehört insbesondere die 

Spracherkennung, haben hochdimensionale Merkmalsräume. Mehrdimensionale 

Normalverteilungen werden auch multivariate Normalverteilungen genannt. 

In diesem Fall besteht eine Beobachtung aus einem d-dimensionalen 

Spaltenvektor xi = (xi1, xi2, . . .xid) ⊤ , und die Verteilung berechnet sich als: 

p(x) = 

t=1 

1 

e 

(2π) d |Σ| −1 

2 (x − µ)⊤Σ −1 (x − µ) 

(9.9) 

wobei µ hier der d-dimensionale Mittelwertsvektor und Σ die Kovarianzmatrix 

ist und geschätzt wird gemäß: 

µ = 1 

n 

⊤ 

t=1 

xt und Σ = 1 

n 

⊤ 

(xt − µ) · (xt − µ) ⊤ (9.10) 

t=1


Experiment 9.2: Multivariate Normalverteilungen 

Starten Sie das Applet ” One Gaussian“. Auf der Oberfläche sehen Sie 

die Darstellung einer zweidimensionalen Normalverteilung (Gaußglocke). 

Am oberen Rand können sie in den Eingabefeldern die Parameter dieser 

Verteilung eingeben. 

Verändern sie die x- und y-Koordinaten der Mittelwerte, und beobachten 

Sie, wie sich die Darstellung ändert. 

Durch ändern des Kovarianzwertes a können sie die Ausdehnung der Gaußglocke 

in x-Richtung ändern. Der Wert von d beeinflußt die Ausdehnung in 

y-Richtung. 

Beachten Sie, daß Sie nicht beliebige Werte eingeben können, da die 

Determinante der Kovarianzmatrix immer größer als 0 sein muß. 

Wenn die Ausdehnungen in x- und y-Richtung verschieden sind, dann kann 

die Gaußglocke durch ändern des Wertes c rotiert werden. Probieren Sie 

auch hier verschiedene Einstellungen aus. 

Gauß-Mischverteilungen 

Die in der Spracherkennung am häufigsten verwendeten parametrischen 

Schätzer sind Gauß-Mischverteilungen. Eine einzelne multivariate Gauß- 

Verteilung – auch Normalverteilung genannt – hat die Form: 

Nµ,Σ(x) = 

1 

e 

2πd |Σ| −1 

2 · (x − µ)TΣ −1 (x − µ) 

(9.11) 

Bei der Gauß-Mischverteilung wird die Wahrscheinlichkeit dafür, daß eine 

Beobachtung x zur Klasse j gehört, berechnet als gewichtete Summe mehrerer 

einzelner multivariater Gauß-Verteilungen: 

kj 

Nj(x) = 

i=1 

cji 

1 

 

2πd |Σji| e−12 

· (x − µji) T Σ −1 

ji (x − µji) 

(9.12)


Hierbei ist µji der Mittelwert der i-ten Gauß-Verteilung der Klasse j, 

Σji die Kovarianzmatrix der i-ten Gauß-Verteilung der Klasse j und kj die 

Anzahl der Gauß-Verteilungen mit Hilfe derer die Klasse j modelliert wird. 

Experiment 9.3: Gauß-Mischverteilungen 

Starten Sie das Applet ” Gaussian Mixture“. Auf der Oberfläche sehen 

Sie die Darstellung einer zweidimensionalen Mischverteilung von vier 

Gaußglocken. Am oberen Rand können sie in den Eingabefeldern die Parameter 

der einzelnen Gauß-Verteilungen sowie die Mixturgewichte eingeben. 

Verändern sie zunächst die Mixturgewichte, und beobachten Sie, wie sich die 

Höhe einer einzelenen Gaußglocke ändert. 

Versuchen Sie durch Einstellen der passenden Parameter eine Mischverteilung 

zu erzeugen, die die Form des Buchstabens U hat. 

Es leuchten ein – und kann es auch beweisen – daß jede sinnvolle Verteilung 

durch die gewichtete Summer einer ausreichend großen Zahl einzelner 

Gauß-Verteilungen beliebig genau angenähert werden kann. Wenn also 

Gauß-Mischverteilungen verwendet werden, dann kann davon ausgegangen 

werden, daß das Modell auf jeden Fall ausreichend mächtig gestaltet werden 

kann. Allerdings erweist es sich in der Praxis, daß kaum jemals genügend 

Trainingsdaten vorliegen, um eine große Mischverteilung gut zu schätzen. 

Laplace-Mischverteilungen 

Manche Erkenner (zum Beispiel [?]) verwenden statt Gauß-Mischverteilungen 

die numerisch etwas einfacheren Laplace-Mischverteilungen, bei denen die 

rechenaufwendigen Exponentiationen entfallen. 

kj 

Lj(x) = 

i=1 

cji 

1 

d 

k=1 2λijk 

− 

· e 

d |xk − µijk| 

k=1 

λijk 

(9.13) 

Statt einer Kovarianzmatrix werden hier Werte λijk zur Modellierung 

der Streuung der Muster der j-ten Laplace-Verteilung des i-ten Modells 

in der k-ten Dimension des Merkmalsraumes verwendet. Hierbei wird 

eine Unabhängigkeit (nur Varianzen, keine Kovarianzen) der einzelnen 

Dimensionen angenommen. Da man auch mit ausreichend vielen Laplace- 

Verteilungen eine beliebge reale Verteilung annähern kann, unterscheiden


sich die beiden Ansätze Gauß- und Laplace-Verteilungen qualitativ kaum. 

Wenn im logarithmischen Bereich gerechnet wird, und der Logarithmus 

des von der Beobachtung unabhängigen Vorfaktors 1/ (2π) d |Σ| im voraus 

berechnet wird, dann besteht auch im Falle der Gauß-Mischverteilungen 

die Berechnung der Wahrscheinlichkeit lediglich aus Multiplikationen und 

Additionen. 

9.2 Der Expectation Maximization Algorithmus 

Für das Schätzen der Parameter einer Gauß-Mischverteilung mittels Maximum 

Likelihood ist keine analytische Lösung bekannt. Das Problem 

liegt darin, daß zwar für eine gegebene Zuordnung von Trainingsmustern 

zu Referenzvektoren für jeden Referenzvektor mittels üblicher Maximum- 

Likelohood Verfahren das globale Optimum für die Parameter der einzelnen 

Gauß-Verteilungen sowie die optimalen Mixturgewichte zu bestimmen 

sind. Bei unüberwachtem Lernen ist aber eine solche Zuordnung nicht 

gegeben. Statt dessen wird die Zuordnung automatisch berechnet, indem 

jeder Trainingsvektor zu jedem Referenzvektor proportional zum Anteil 

des Referenzvektorbeitrags zur Gesamtwahrscheinlichkeit zugeordnet wird. 

Diese hängt aber wiederum von den Gauß-Parametern ab. 

Da eine simultane Optimierung sowohl der Gauß-Parameter und der 

Trainingsdatenzuordnung nicht möglich ist, bietet sich ein iteratives Verfahren 

an, bei dem in jeder Iteration die eine Parametermenge in Abhängigkeit 

von der Einstellung der anderen Parametermenge der vorigen Iteration 

optimiert wird. Im Detail sieht dies aus wie folgt: 

Bezeichne γtk := E[xt ∈ k], den Erwartungswert dafür, daß der Beispielvektor 

xt ∈ R d (aus der Trainingsmenge x1, x2, . . . xT) zu Klasse k, also 

zum k-ten Referenzvektor gehört. Somit ist γtk die gewichtete Zuordnung des 

Beispielvektors xt zum k-ten Referenzvektor. Wenn µk der k-te Mittelwertsvektor 

ist, Σk die Kovarianzmatrix der k-ten Gauß-Verteilung ist und ck das 

entsprechende Mixturgewicht ist, dann werden diese Werte ersetzt durch: 

¯ck = 1 

T 

¯µk = 

¯Σk = 

⊤ 

t=1 

1 

 

t γtk 

γtk 

1 

 

t γtk 

⊤ 

t1 

γtkxt 

⊤ 

γtk(xt − µk)(xt − µk) T 

t1 

(9.14) 

(9.15) 

(9.16)

Dabei wird γtk geschätzt als 

γtk = ck · Nk(xt) 

 

j cjNj(xt) 

9.3 Diskriminanzoptimierung 145 

(9.17) 

Dieser iterative Optimierungsalgorithmus wird Expectation Maximization 

Algorithmus (EM-Algorithmus) genannt. 

9.3 Diskriminanzoptimierung 

Allein schon bei der Betrachtung des unverarbeiteten Zeitsignals wird klar, 

daß es sehr viel Information enthält, die für die Unterscheidung verschiedener 

Laute nicht von Bedeutung sind. Bei vielen Klassifikationsaufgaben ist es 

daher sinnvoll, den verwendeten Merkmalsraum so zu transformieren, daß 

diejenigen Eigenschaften der Muster, die zur Diskriminierung verschiedener 

Klassen stärker beitragen können, auch stärker berücksichtigt werden. Im 

folgenden werden wir zwei Transformationen betrachten, die eine Optimierung 

der Diskriminanzeigenschaften des Merkmalsraums zum Ziel haben: 

Die einfache Hauptachsentransformation und die etwas aufwendigere lineare 

Diskriminanzanalyse (LDA), oft auch als Karhunen/Leuve Transformation 

bekannt. 

9.3.1 Hauptachsentransformation und Lineare 

Diskriminanzanalyse 

Die Hauptachsentransformation (HAT) wird oft auch Karhunen-Loeve- 

Transformation (KLT) oder im Englischen principal component analysis 

(PCA) genannt. Sie hat zum Zweck einen n-dimensionalen Merkmalsraum 

so in einen m < n-dimensionalen zu transformieren, daß der entstehende 

quadratische Fehler minimal wird. Unter günstigen Umständen (wie in Abb. 

9.10 mit n = 2, m = 1) können zwei Klassen nach der Transformation immer 

noch problemlos getrennt werden. 

Wie gut eine Klassentrennung (Diskriminanz) Diskriminanzanalyse 

möglich ist, spielt bei der Hauptachsentransformation keine Rolle. Sie 

berücksichtigt weder die Zahl der Klassen, noch deren einzelne Verteilungen. 

Die lineare Diskriminanzanalyse (LDA) beruht auf der Idee der Erweiterung 

der Hauptachsentransformation auf sehr viele Klassen [?]. Abb. 9.11 zeigt 

die (praktisch nicht erreichbare) Idealvorstellung einer LDA. Dabei wird 

eine lineare Transformation des Merkmalsraums gesucht, die – wenn auf alle 

Mustervektoren angewandt – dazu führt, daß die einzelnen Klassen einer


Abb. 9.10. Veranschaulichung der Hauptachsentransformation 

Klassifikationsaufgabe besser getrennt werden. Im nicht transformierten 

Raum (links) sind die Trennlinien viel schwerer zu lernen als im transformierten 

Raum (rechts). 

Allgemein läßt sich das Ziel einer LDA-Transformation wie folgt definieren: 

Seien k Klassen gegeben. Bezeichne µi denn Mittelwert aller Muster x (i) 

j , 

die zur Klasse i gehören, und Wi die Streumatrix der Klasse i (within scatter). 

µ sei der Mittelwert aller Muster und T die Streumatrix aller Klassen (total 

scatter). Die durchschnittliche Streuung W sei der mit den Klassengrößen ni 

gewichtete Mittelwert aller Wi, also: 

Wi = 1 

ni 

ni 

j=1 

(x (i) 

j − µi) · (x (i) ⊤ 

j − µi) 

k ni 

W = 

n 

i=1 

Wi, 

k 

mit n = 

i 

T = 1 

N(xj − µ) · (xj − µ) 

n 

⊤ 

j=1 

ni 

(9.18) 

(9.19) 

(9.20) 

Gesucht ist nun eine lineare Transformation A, die dazu führt, daß die 

Klassen möglichst weit voneinander weg liegen und jede Klasse möglichst 

kompakt ist, d.h. daß die Beispiele einer Klasse möglichst nahe beieinander 

liegen. Formal heißt das, wir suchen: 

Ā = argmax 

A 

|TA| 

|WA| 

= argmax 

A 

|TA · W −1 

A | (9.21)


wobei TA die Gesamtstreumatrix und WA die gemittelte Klassenstreumatrix 

nach Anwenden der Transformation A sind. 

Dieses Optimierungsproblem läßt sich mit Hilfe einer simultanen Diagonalisierung 

[?] lösen. Die gesuchte Matrix A ergibt sich demnach als die 

Matrix der Eigenvektoren von TW −1 , absteigend sortiert nach der Größe der 

dazugehörigen Eigenwerte: 

A = (φ1φ2 · · · φd) (9.22) 

wobei d die Dimensionalität des Merkmalsraums ist und φi der i-te Eigenvektor 

von TW −1 . 

Abb. 9.11. Idealvorstellung der Wirkung einer LDA-Transformation 

Nach dem Erfolg der linearen Diskriminanzanalyse in der Spracherkennung 

wurden einige Versuche unternommen, auch nichtlineare Varianten 

zu verwenden [?]. Während die analytische Optimierung der Parameter 

einer linearen Transformation noch zu bewerkstelligen ist, ist dies für 

beliebige Transformation in der Regel nicht möglich. Die naheliegende 

Vorgehensweise bei der Suche nach einer guten nichtlinearen Transformation 

ist die Verwendung von neuronalen Netzen. Man kann zeigen, daß die 

Transformation, die ein Perzeptron mit einer verborgenen Schicht, das 

als Klassifikator trainiert wird und eine lineare Übertragungsfunktion 

verwendet, genau eine Hauptachsentransformation lernt. Die Gewichte 

der verborgenen Schicht – betrachtet als Matrix – sind die Koeffizienten 

der HAT-Matrix. Nur das Ersetzen der linearen Übertragungsfunktion 

durch eine nichtlineare (z.B. Stufenfunktion oder Sinoid) ändert an der 

Qualität der Transformation nur wenig. Es ist aber möglich, die Optimierungsfunktion 

an die Diskriminanzfunktion der LDA (|T ·W −1 |) anzunähern. 

Das Verfahren der ” moving targets“ beginnt mit einem Neuronalen Netz, 

das eine Identitätsabbildung oder eine zufällige Abbildung durchführt. Die


zurückzupropagierenden Fehler werden erst dann auf Basis der Ausgabe des 

Netzes berechnet, indem die Bilder aller Elemente einer Klasse als in die 

Richtung des Mittelwerts der Klasse zu verschieben sind. Zusätzlich wird zum 

Fehlervektor ein Vielfaches des Vektors addiert, der den Klassenmittelwert 

vom Mittelwert aller Klassen entfernt. Wenn N(x) die Ausgabe des Netzes 

für den Vektor x ist, und C(x) die Klasse ist, zu der x gehört, dann berechnet 

sich der Fehler E(x) wie: 

E(x) = N(x) − αµW(x) − βµT 

(9.23) 

µW = 1/|C| 

N(y) (9.24) 

y∈C(x) 

µT = 1/n 

N(y) (9.25) 

y 

wobei n die Zahl aller Trainingsmuster ist. 

αµW 

βµT 

Abb. 9.12. Fehlerbestimmung bei der ” moving targets“ Methode 

In [?] konnte mit Hilfe der reinen analytischen LDA die Fehlerrate eines 

Diktiererkenners im kontextunabhängigen Fall von 24% auf 13% und um 

kontextabhängigen Fall von 13% auf 10% gesenkt werden. Die konnektionistische 

Variante konnte zwar die Erkennungsleistung nicht noch weiter 

steigern, jedoch die Optimierungsfunktion |TA|/|WA| besser optimieren. Die 

LDA gehört damit zu den Beiträgen, die die Qualität der Spracherkennung 

relativ stark verbessert haben. Allerdings sollte auch angemerkt werden, daß 

sich die Gewinne mit den Gewinnen anderer hilfreicher Algorithmen, wie 

Signaladaption (s. Kap. 21), Mittelwertssubtraktion, Vokaltraktlängennormierung 

(s. Abs. 21.5.5) nicht additiv verhalten. 

9.3.2 Dimensionalitätsreduktion 

Es ist bekannt, daß durch eine (deterministische) Transformation egal 

welcher Art keine Informationen gewonnen werden können, die nicht schon


im Ursprungsmuster enthalten sind [?]. Allerdings ist auch offensichtlich, 

daß nicht alle Information in einem Sprachsignal für die Erkennung von Bedeutung 

ist. Und selbst die wichtige kommt meist redundant vor. Bevor ein 

Spracherkenner oder ein Klassifikator ein Muster zur Erkennung bekommt, 

wird dieses aus dem Ursprungssignal durch verschiedene Informationsreduktionsschritte 

gewonnen. Dabei spielen sowohl wissensbasierte als auch 

stochastische beziehungsweise datengetriebene Verfahren eine Rolle. So wird 

zum Beispiel zuerst basieren auf dem Wissen, daß die Phaseninformation 

unbedeutend ist, diese bei der Transformation des Signals vom Zeitbereich 

in den Frequenzbereich ignoriert. Später werden die einzelnen Frequenzbereichskoeffizienten 

zu wenigen Filterbankkoeffizienten zusammengefaßt. Die 

Art der Zusammenfassung ist zumindest teilweise datengetrieben, indem sie 

sich an den Definitionen der Mel- oder Bark-Skalen orientiert. In der Erwartung, 

daß selbst bei den Filterbankkoeffizienten immer noch redundante 

Information steckt, insbesondere dann, wenn mehrere aufeinanderfolgende 

Vektoren zusammen betrachtetet werden, und mit dem Wissen, daß ein 

kleiner dimensionierter Merkmalsraum die Klassifikationsaufgabe erleichtern 

und den Parameterraum verkleinern kann, hat es durchaus Sinn, auch nach 

der Filterbankberechnung eine weitere Reduktion des Informationsgehalts 

durchzuführen. 

Einige Arbeiten versuchen die Dimensionalität des Merkmalsraums 

durch Auswahl bestimmter Dimensionen zu reduzieren. Wesentlich mehr 

Freiheiten hat man allerdings wenn man eine LDA anwendet. Betrachtet 

man die LDA-Transformationsmatrix A, so steht in der i-ten Spalte der 

Eigenvektor des der Größe nach i-ten Eigenwertes, also der Eigenvektor des 

größten Eigenwertes in der ersten Spalte und derjenige mit dem kleinsten 

Eigenwert in der letzten Spalte. 

Offensichtlich sind diejenigen Dimensionen des transformierten Merkmalsraumes, 

die eine sehr kleinen Eigenwert haben für die Klassifikation 

eher unwichtig, so daß statt der Transformation A die dimensionsreduzierte 

Transformation A ′ verwendet werden kann, ohne daß dadurch große Nachteile 

für die Klassifikation befürchtet werden müssen. 

⎛ ⎞ 

a11 · · · a1n 

⎜ 

A = ⎝ 

. 

. .. 

⎟ 

. ⎠ A ′ ⎛ ⎞ 

a11 · · · a1d 

⎜ 

= ⎝ 

. 

. .. 

⎟ 

. ⎠ (9.26) 

an1 · · · ann 

an1 · · · and 

Im Falle der nichtlinearen Transformation mit künstlichen neuronalen 

Netzen läßt sich die Reduktion der Dimensionalität des Zielmerkmalsraumes 

gleichzeitig mit der Berechnung der Transformationsfunktion durchführen, 

indem einfach die Zahl der Ausgabeneuronen reduziert wird. Allerdings ist es 

dann nicht mehr so einfach möglich, anhand der Eigenwerte zu entscheiden,


wie viele und welche Dimensionen erhalten bleiben sollen. 

Ein Nachteil der LDA besteht darin, daß alle Informationen über die 

Klassen in nur zwei Streumatrizen steckt. Dadurch werden die individuellen 

Verteilungen für einzelne Klassen nicht berücksichtigt. Verschiedene Ansätze 

versuchen die LDA dahingehend zu erweitern, daß diese Informationen beim 

Bestimmen der Transformation berücksichtigt werden (zum Beispiel [?] [?]).

10. Erkennung statischer Sprachsignale 

In diesem Kapitel werden wir einen ersten funktionierenden Spracherkenner 

zusammenstellen. Er wird aber nur sehr eingeschränkt einsetzbar sein. Basierend 

auf den Erkenntnissen aus den vorausgegangenen Kapiteln werden 

wir Sprachsignale verarbeiten und auf die so gefundenen Eigenschaften der 

Signale Klassifikationsalgorithmen anwenden. 

10.1 Zeitsignalbasierte Erkennung 

Versuchen wir zunächst einmal Merkmale des Zeitsignals selbst zu untersuchen. 

Betrachten wir die Wellenform einer Sprachaufnahme, so fällt als 

erstes auf, daß die auf den Amplituden bestimmte Einhüllende in etwa die 

Silbenstruktur der Äußerung widerspiegelt. Zweifellos scheint der Versuch, 

größere Vokabulare anhand der Einhüllenden zu erkennen, aussichtslos. 

Denkbar wäre höchstens ein Erkenner, der zum Beispiel zwei oder drei 

Wörter unterscheiden soll, die alle unterschiedlich viele Silben haben. 

Im folgenden werden einige Möglichkeiten der Untersuchung des reinen 

Zeitsignals veleuchtet. 

10.1.1 Endpunktdetektion 

Im Sprachaufnahmeapplet wird der Beginn und das Ende einer Sprachaufnahme 

durch Drücken eines Aufnahmeknopfes festgelegt. In vielen Situationen 

ist die Verwendung eines solchen Knopfes jedoch nicht wünschenswert. Zum 

einen sind das Situationen, in denen man die Hände frei haben möchte, um 

mit ihnen andere Aufgaben zu erledigen, und zum anderen solche Fälle, in 

denen das Anbringen solcher Knöpfe unpassend ist, wie zum Beispiel bei 

einem Münzfernsprecher. 

Abgesehen davon, daß die ständige Betätigung eines Knopfes für den 

Benutzer lästig ist und dem eigentlichen Ziel der maschinellen Sprachkommunikation, 

nämlich der Steigerung der Ergonomie der Mensch-Maschine- 

Schnittstelle, entgegensteht, stellen solche Knöpfe auch Fehlerquellen dar.

152 10. Erkennung statischer Sprachsignale 

Jeder, der schon mal Walkie-Talkies oder CB-Funk Geräte benutzt hat, hat 

den ein oder anderen Fall erlebt, daß der Sprecher den Sendeknopf mitten 

in der ersten gesprochenen Silbe betätigt und mitten oder kurz vor der 

letzten Silbe schon wieder losläßt, so daß der Anfang und das Ende des 

Gesprochenen abgeschnitten werden. 

Aus Erfahrung mit Vorführungen von Spracherkennungssystemen wissen 

wir außerdem, daß unerfahrene Benutzer sich unsicher sind über die korrekte 

Bedienung eines Aufnahmeknopfes. Das fängt an mit der Frage, ob der 

Knopf nur einmal kurz gedrückt werden soll oder ob er während der 

gesamten Aufnahme gedrückt bleiben soll, und reicht bis zu Personen, die 

den Knopf für jedes Wort, das sie sprechen, einzeln kurz antippen. Bei 

solchen Problemen hilft auch möglicherweise vorhandenes Feedback in Form 

eines akustischen Start-/Stoppsignals oder eines visuellen hervorgehobenen 

Ohres nicht viel. 

Teilweise ist es problematisch, auf Aufnahmegrenzen zu verzichten und 

den Erkenner ununterbrochen laufen zu lassen. Dies ist deshalb nicht immer 

angebracht, weil die durchschnittliche Erkennung dann höchstens in Echtzeit 

oder noch schneller ablaufen müßte. Nicht jede Erkennungsaufgabe kann so 

schnell mit ausreichender Erkennungsgenauigkeit ablaufen. Außerdem stellt 

es eine große Ressourcenverschwendung dar, wenn ganze Computer ständig 

damit beschäftigt sind, Sprache zu erkennen, obwohl nur einen Bruchteil der 

Zeit wirklich Sprache vorliegt. 

Wünschenswert wäre es, wenn auf das Bestimmen der Aufnahmegrenzen 

durch den Benutzer ganz verzichtet werden könnte. Das Sprachverarbeitungssystem 

sollte selbständig erkennen, wann die aufgezeichnete Wellenform 

Sprache darstellt und wann nicht. Die naheliegendste Vorgehensweise ist 

ein einfacher Schwellwertdetektor, der immer dann, wenn die Energie des 

Signals über einem Schwellwert liegt, diesen Bereich der Aufnahme dem 

Spracherkenner zur Erkennung gibt. Dabei wird die Energie des Signals 

über einen bestimmten Zeitraum gemessen (typischerweise 10 bis 100 Millisekunden). 

Diese Meßwerte bilden eine zeitliche Folge. Um zu vermeiden, 

daß der Sprachdetektor anspringt, wenn nur eine kurzzeitige Überschreitung 

des Schwellwertes – z.B. durch Störgeräusche – verzeichnet wird, kann die 

Entscheidung ” Sprache liegt vor“ auch erst dann getroffen werden, wenn 

eine ausreichend große Zahl an aufeinanderfolgenden Meßwerten über dem 

Schwellwert liegt. Entsprechend wird das kurzzeitige Unterbrechen der Sprache 

durch kurze Niedrigenergiephasen verhindert, indem das System erlaubt, 

daß einige wenige Meßwerte unterhalb des Schwellwertes akzeptiert werden, 

ohne daß die Hochenergiephase als beendet angesehen wird. Solche kurzen 

Unterbrechungen könnten zwar auch durch Störungen im Aufnahmeapparat 

verursacht werden, viel eher aber kommen sie von den Pausen beim Spre-

10.1 Zeitsignalbasierte Erkennung 153 

chen. Nicht nur zwischen einzelnen Wörtern werden Sprechpausen gemacht, 

oft sogar innerhalb eines Wortes. Und oft handelt es sich bei kurzzeitigen 

Niedrigenergiephasen auch nicht um explizite Sprechpausen sondern um 

leises Sprechen oder auch um die Artikulation von etwas länger anhaltenden 

Konsonanten oder Konsonantenfolgen, die in der Regel wesentlich weniger 

Energie haben als Vokale. 

In Abb. 10.1 ist der Verlauf der Signalenergie über die Zeit dargestellt 

und der Bereich, der vom Sprachdetektor als Sprache erkannt würde grau 

unterlegt. Eine kleine Spitze über dem Schwellwert und eine kurze Phase 

darunter ändern nichts am aktuellen Zustand. 

Abb. 10.1. Energiebasierter Sprachdetektor mit Schwellwertvergleich 

Wir können also einen derartigen auf Messung der Signalenergie basierenden 

Sprachdetektor durch ein Zustandsautomaten darstellen. 

In Abb. 10.2 ist ein solcher Zustandsautomat dargestellt. Nach jeder 

Energiemessung findet ein Zustandsübergang statt. Wenn die Energie 

über dem Schwellwert liegt, wird jeweils der mit ⊕ markierte Übergang 

genommen, im anderen Fall der mit ⊖ markierte. 

Natürlich kann in der Praxis ein solcher Automat beliebig verfeinert 

werden. So können (und sollten meist auch) für verschiedene Übergänge 

verschiedene Schwellwerte verwendet werden. Auch die Zahl der Zwischenzustände, 

in denen ein Sprache/Nichtsprachewechsel antizipiert wird (die 

Werte u und v in Abb. 10.2) können variiert werden. 

Die Einstellung des Schwellwertes erfolgt bei solchen Detektoren meist 

empirisch. Es werden einige Aufnahmen gemacht und die Energie gemessen. 

Daraufhin entscheidet der Bediener, welcher Schwellwert sinnvoll ist. Besser 

ist eine automatische Einstellung, entweder mit Hilfe eines genormten 

Signalgebers oder adaptiv mit Hilfe der vom Spracherkenner gelieferten 

Erkennungshypothesen. Man kann erwarten, daß ein einigermaßen gut 

funktionierender Erkenner zumindest ausreichend genau Stille von Sprache 

unterscheiden kann, um damit einen initialen Schwellwert zu bestimmen,


Stille 

1 mal über Schwellwert 

2 mal über Schwellwert 

v mal über Schwellwert 

1 mal unter Schwellwert 

2 mal unter Schwellwert 

u mal unter Schwellwert 

Abb. 10.2. Sprachdetektor als Zustandsautomat 

Sprache 

der dann schrittweise mit jeder neuen Aufnahme angepaßt und so verbessert 

werden kann. 

Für sehr viele Anwendungen, vor allem in wenig störgeräuschbehafteter 

Umgebung, funktioniert ein einfacher Zustandsautomat ausreichend gut. 

Manchmal kann es jedoch vorkommen, daß das Hintergrundrauschen oder 

die Umgebungsgeräusche so stark sind, daß ein sinnvoller Schwellwert kaum 

zu finden ist. In solchen Fällen empfiehlt es sich, weitere Merkmale außer der 

Signalenergie zur Sprachdetektion zu verwenden. Um Sprache von Rauschen 

zu unterscheiden bietet sich zum Beispiel die Nulldurchgangsrate an. In der 

Annahme, daß das Signal ohne Sprache sich im Idealfall um den Wert Null 

herumbewegt und im Falle von Sprache niedrigfrequentere Energieanteile 

diese kleinen Schwankungen von der Nulldurchgangslinie etwas entfernen, 

kann man erwarten, daß die Nulldurchgangsrate bei Sprache (vor allem 

bei Vokalen) niedriger ist als bei einfachem Rauschen. Allerdings hängt die 

Nulldurchgangsrate auch von den gerade artikulierten Lauten ab, so daß die 

einfache Verwendung eines Schwellwertes oder - im Falle eines zweidimensionalen 

Merkmalsraumes bestehend aus Energie und Nulldurchgangsrate 

- einer Schwellebene nicht mehr gut genug funktioniert. Ein nichtlinearer

10.1 Zeitsignalbasierte Erkennung 155 

Klassifikator scheint in solchen Situationen angebrachter. Zum Beispiel 

könnte ein Gauß-Klassifikator verwendet werden, der zwei multivariate 

Normalverteilungen, eine für Sprache und eine für Stille modelliert. Im 

allgemeineren Fall könnten sogar mehrere Verteilungen je Modell verwendet 

werden und so der Grenzverlauf zwischen den Modellen beliebig kompliziert 

modelliert werden. 

In machen Situationen, insbesondere wenn die Rechnerkapazität dies 

erlaubt, kann zur Detektion von Stille sogar ein kompletter Spracherkenner 

verwendet werden. Dieser Spracherkenner muß nicht mit einem großen 

Vokabular laufen. Zum Beispiel würde ein Lauteerkenner, der auch den 

” Laut“ Stille erkennen kann ausreichen. Im Extremfall kann das Vokabular 

des Erkenners aus nur zwei Vokabeln“, Stille und Sprache, bestehen, was 

” 

dann einem einfachen Klassifikator wie weiter oben beschrieben sehr nahe 

kommt. 

10.1.2 Kombination von Merkmalen 

Für Nahbesprechungsmikrophone funktionieren einfache, nur die Energie 

messende Detektoren meist ausreichend gut. Wenn die Aufnahmebedingungen 

aber so sind, daß die Hintergrundgeräusche in etwa so laut sind wie 

leise Anteile der Sprache, müssen etwas intelligentere Detektoren verwendet 

werden. Hin und wieder beobachtet man das Phänomen, daß die letzten 

Silben eines Satzes von Detektoren abgeschnitten werden, weil es üblich ist, 

die Lautstärke am Ende eines Satzes zu senken, was dazu führt, daß die 

Signalenergie unter den Schwellwert fällt, der höher als das Hintergrundrauschen 

gewählt wurde. 

Auch Sprachlaute, die nur wenig Energie haben, wie zum Beispiel Konsonanten, 

werden leicht von einfachen Detektoren als Stille mißverstanden. 

In solchen Fällen bietet es sich an, weitere Eigenschaften des Signals außer 

der Energie zu messen. 

Die Nulldurchgangsrate und der Verlauf der Amplituden sind Merkmale, 

die gerne verwendet werden. Zwar ist es so, daß die Energie des Signals 

dem Integral unter dem Quadrat der Amplitude entspricht, aber dennoch 

enthält die Amplitude zusätzliche Information. Hohe Amplituden, die nicht 

lange anhalten haben wenig Energie, deuten aber auf Plosivlaute oder 

Stopplaute hin. Die Nulldurchgangsrate bzw. die Änderung derselben kann 

auch Hinweise darauf geben, daß Sprache vorliegt, obwohl die Energie sehr 

niedrig ist.


Eine der sinnvollsten Arten, einen Sprachdetektor unter Verwendung 

mehrer Eigenschaften des Signals zu machen, ist ein multivariater Gauß- 

Klassifikator. Im n-dimensionalen Merkmalsraum wird je Klasse (Stille vs. 

Sprache) eine Normalverteilung geschätzt. Wenn genügend Aufnahmedaten 

vorliegen, kann man auch mehrere Normalverteilungen zu einem Codebuch 

je Klasse schätzen. Solche Gaußklassifikatoren, zusätzlich versehen mit einer 

” dynamischen Entscheidungsglättung“ ähnlich wie beim Zustandsautomaten 

funktionieren, in der Regel höchst zufriedenstellend. 

10.2 Das Vokaldreieck 

In Abb. 4.8 ist die Bedeutung des Begriffes Formanten skizziert. Ende 

der Achtziger wurden Versuche unternommen, aus dem Sprachsignal die 

Formanten zu extrahieren [?] [?]. Dabei wurden verschiedene amerikanische 

Vokale gesprochen. Die erste und zweite Formante, F1 und F2 wurden gemessen 

und zur Charakterisierung der Aufnahmen verwendet. Beim Auftragen 

der Meßpunkte in ein Koordinatensystem nahmen die Koordinatenpaare 

in etwa den Bereich eines Dreiecks ein (s. Abb. 10.3). Daher entstand der 

Name ” Vokaldreieck“. 

Bei den Klassifikationsexperimenten von [?] wurden ein einfaches dreischichtiges 

Perzeptron verwendet, das zur Klassifikation die in Abb. 10.3 

eingezeichneten Trennlinien fand. 

In der Praxis stellt sich jedoch die Formantenanalyse für die Erkennung 

kontinuierlicher Sprache als ungeeignet heraus, hauptsächlich deshalb, weil 

es meistens sehr schwierig bis unmöglich ist, die Formanten zu extrahieren. 

10.3 Vergleich von Spektrogrammen 

Ist ein Stück Audioaufzeichnung erst einmal als Sprache identifiziert, muß 

es nun klassifiziert werden. Die Standardmethode der Einzelworterkennung 

wie sie auch heute in einfachen Erkennern (z.B. Einzelkommandoerkenner 

in Mobiltelefonen, Fernbedienungen oder PDAs) verwendet wird, ist der 

Vergleich des aufgezeichneten Musters mit allen in Frage kommenden 

Mustern aus einem zuvor gelernten und abgespeicherten Katalog von 

Referenzmustern. Jedem zu erkennenden Kommando wird eine oder mehrere 

Referenzen zugeordnet. 

Ein direkter Vergleich der Wellenformen hätte keine Chance, sinnvolle 

Erkennungsergebnisse zu liefern. Selbst die mit allergrößter Sorgfalt

F2 [Hz] 

4000 

2000 

1000 

500 

0 

ÁÁÁ 

ÍÍÍ 

ÁÁ 

Á 

Á 

iÁ ÁÁÁÁÁÁ 

ÍÍÍ ÍÍÍÍ 

 

ÇÇÇÇ ÍÍ 

ÍÇ 

 

Á Á 

Á 

æ 

10.3 Vergleich von Spektrogrammen 157 

i i 

i 

i 

i 

i 

i i 

i 

iii i 

i i i 

i i 

i i 

ii 

i 

i i i 

ii i 

i 

i i 

i 

æ 

æ æ 

æ æ æ æ 

æ æ æ 

æ æ æ 

æ æ æ 

æ 

æ æ 

æ 

 

æ 

ÁÁÁÁ ÁÁÁÁ 

ÁÁÁÁ ÁÁ 

i 

ÍÍ 

Í 

 

 

 

æ 

æ 

ÍÍÍ 

 

æ 

ÇÇÇ 

uu u u 

u 

u uuu uuu 

u 

u uu u 

uu u uu 

u u 

u u 

u 

500 

Abb. 10.3. Vokaldreieck nach [Lip89] 

ÍÍ Í 

 

ÇÇÇ 

 

æ 

æ 

æ 

ÇÇÇ Ç ÇÇÇÇ 

 

1000 

1500 

möglichst exakt wiederholten Wörter resultieren in völlig verschiedenen 

Signalen. Selbst das Abspielen ein und derselben Aufnahme über ein und 

denselben Lautsprecher, zweimal aufgezeichnet mit ein und derselben 

Aufnahmeapparatur liefert verschiedene Wellenformen, bei denen man 

bestenfalls Ähnlichkeiten im Verlauf der Amplitude (Einhüllende) erkennen 

kann, kaum aber in den Details einzelner Abtastwerte. 

Viel robuster ist da die Verwendung von Spektren, oder besser noch auf 

wenige Filterbänke reduzierte Spektren. Die Erkennung einiger isolierter 

Phoneme ist schon anhand des Leistungsspektrums möglich. Dies kann bei 

Vokalen durch Bestimmen der Formanten und durch Positionierung des 

Lauts im Vokaldreieck geschehen. Für Konsonanten kann man mehrere 

Spektren aufzeichnen und mitteln oder mehrere gemittelte in einem Codebuch 

abspeichern. Bei der Erkennung wird das zu erkennende Muster mit 

F1 [Hz]


denen der Codebücher verglichen und so klassifiziert. 

Sobald die Menge der zu erkennenden Klassen mehr als nur eine ” Handvoll“ 

ist, versagen solche einfachen Spektrenvergleiche. Ähnlich schlecht funktionieren 

sie, wenn nicht nur statische Laute wie Vokale, sondern etwas kompliziertere 

Dinge wie kurze Lautfolgen erkannt werden sollen. Dies ist beim 

Buchstabieren der Fall. Die bereits mehrfach erwähnte B-D-G-Task ist ein 

Beispiel dafür. Anfang der Achtziger war die erfolgreichste Vorgehensweise 

bei dieser Beliebten Aufgabe die Analyse mehreren aufeinanderfolgender 

Kurzzeitspektren. In der Tat gehörten relativ einfach strukturierte neuronale 

Netze (Multi-Layer-Perzeptronen) zu den am besten funktionierenden Lösungen. 

Dabei wurden oft die Eingangsneuronen als ein Fenster zum Spektrogramm 

betrachtet, so daß n aufeinanderfolgende Kurzzeitspektren als jeweils 

d-dimensionale Filterbankvektoren in die n·d große Eingabeschicht der Netze 

geführt. Die Trainingsmethoden und Architekturfeinheiten wurden dann oft 

noch so modifiziert, daß die in der Dynamik des Signals liegende Besonderheit 

der Sprache berücksichtigt wurde (vgl. Kap. 22).

11. Erkennung dynamischer Sprachsignale 

Sprache ist ein sehr dynamischer Prozeß. Viele Laute hören sich nur im 

Kontext so an, wie man das erwartet. Selbst wenn wir unsere eigene Stimme 

aufnehmen und ein Kurzzeitspektrum berechnen und diesen Bereich immer 

wieder abspielen erkennen wir uns meist selbst nicht darin. Ein aus einer 

Aufnahme herausgeschnittener Vokal hört sich plötzlich wie das Brummen 

eines Automotors an, Konsonanten verschwinden komplett und ähnliche 

Beobachtungen können leicht gemacht werden. Das kann sogar so weit 

gehen, daß drei verschiedene geübte Akustiker in dem gleichen Stückchen 

Sprachaufnahme völlig verschiede Wörter, ja sogar Zwei- oder Dreiwortfolgen 

zu hören glauben. 

Erst das Hintereinanderabspielen aller kleinen Spracheinheiten läßt 

das Phänomen Sprache entstehen. Daher sind nur auf die Klassifikation 

statischer Sprachstückchen basierende Erkenner nie über das Erkennen 

einzelner Phoneme hinausgekommen. 

Abb. 11.1. Zwei Spektrogramme zweier Aufnahmen des Wortes ” sieben“ 

In Abb. 11.1 sind zwei Spektrogramme dargestellt. In beiden Aufnahmen 

wurde das Wort ” sieben“ gesprochen. Wenn eine der Aufnahme eine Referenzaufnahme 

wäre und die andere mit dieser bei der Klassifikation verglichen 

würde, müßten nicht nur Distanzen zwischen einzelnen Kurzzeitspektren 

berechnet werden sondern auch noch bestimmt werden, welche Spektren aus 

der einen Aufnahme mit welchen aus der anderen verglichen werden sollen.

160 11. Erkennung dynamischer Sprachsignale 

In Abb. 11.2 sieht man, daß eine einfache lineare Zuordnung von Kurzzeitspektren 

verschieden langer Aufnahmen problematisch ist. Die relativ lange 

Stillephase am Anfang der vertikal dargestellten Aufnahme trifft so auf schon 

einsetzende Sprache aus der horizontal dargestellten Aufnahme. In der vertikalen 

folgt außerdem eine Stillephase zwischen den beiden letzten Wörtern 

oder Lauten, der überhaupt kein Gegenstück aus der horizontalen Aufnahme 

entspricht. 

Abb. 11.2. Längennormalisierung durch lineare Zuordnung 

Vielmehr müßte die Zuordnung von Teilen zweier Signale eher nichtlinear 

wie in Abb. 11.3 geschehen. 

11.1 Minimale Editierdistanz 

Zur Motivation des Prinzips des dynamischen Programmierens wollen 

wir hier mit einem einfacheren aber dem Vergleich von Spektrogrammen 

ähnlichen Problem anfangen. Beim Vergleich von Texten gibt es verschiedene 

Anwendungen, bei denen die so genannte minimale Editierdistanz gemessen 

wird. Viele Textverarbeitungsprogramme bieten nicht nur die Möglichkeit, 

Texte auf Rechtschreibfehler zu überprüfen, sondern erlauben sich gelegentlich 

auch diese während der Eingabe durch den Benutzer automatisch

11.1 Minimale Editierdistanz 161 

Abb. 11.3. Nichtlineare Zuordnung von Abschnitten zweier Aufnahmen 

zu korrigieren. Einige auf Texteingabe basierende Benutzerschnittstellen 

z.B. Shells in UNIX können auch Eingabefehler selbständig korrigieren. 

Beim Suchen von Stichwörtern in Textkorpora kann es sinnvoll sein, die 

Übereinstimmung des Suchwortes mit einem Teil des Textes nicht unbedingt 

fehlerfrei zu verlangen, z.B. um leicht veränderte Versionen wie konjugierte 

Formen oder Tippfehler auch finden zu können. Bei der Erkennung von 

gedruckten Texten (Optical Character Recognition – OCR) können falsch 

erkannte Buchstaben oft dadurch korrigiert werden, daß zu allen zu erkennenden 

Wörtern die Minimale Editierdistanz berechnet wird, und so aus 

SPRAGHE schnell SPRACHE wird, weil letzteres durch Vertauschen eines 

einzigen Buchstaben aus ersterem erzeugt werden kann. 

Wie lösen wir das Problem nach der Suche der minimalen Editierdistanz 

zwischen zwei Wörtern X = x1, . . .xn und Y = y1, . . .ym? Ein einfacher 

Vergleich von xi mit yi liefert offensichtlich nicht das gewünschte Ergebnis, 

denn dann wäre die Distanz zwischen SPRACHE und SRACHE viel zu 

groß, obwohl nur ein Buchstabe ausgelassen wurde. Wir müssen also zuerst 

wissen, welches Zeichen von X mit welchem Zeichen von Y verglichen 

werden muß. Der Einfachheit halber nehmen wir an, es gibt nur folgende 

Editierschritte: Ein Zeichen unter dem Cursor überschreiben, ein Zeichen 

unter dem Cursor löschen, ein Zeichen an der Cursorposition einfügen 

und den Cursor bewegen. Wenn wir das Bewegen des Cursors nicht als 

distanzrelevante Editierschritte betrachten, und das Überschreiben eines 

Zeichens mit sich selbst auch nicht, dann bleiben nur drei Editierschritte, 

die zur Distanz beitragen: Das Überschreiben oder Vertauschen eines 

Zeichens, das Einfügen und das Löschen eines Zeichens. So kann z.B. aus 

den Wort SPRACHEN STRAUSSE werden, indem man das P durch ein T


überschreibt, das U nach dem A einfügt, CH durch SS ersetzt (zwei Schritte) 

und schließlich das N löscht. Insgesamt wären das also fünf Editierschritte. 

Die Zuordnung der einzelnen Buchstaben sieht dann aus wie in Abb. 11.4. 

S P R A C H E N 

S T R A U S S E 

Abb. 11.4. Zuordnung einander entsprechender Buchstaben zweier Wörter 

Natürlich kann man auch auf andere Art aus SPRACHEN das Wort 

STRAUSSE machen. Wenn man so will ist es auch möglich, indem man 

erst alle Zeichen von SPRACHEN löscht (8 Schritte) und dann alle Zeichen 

von STRAUSSE einfügt (8 Schritte), insgesamt also 16 Editierschritte 

durchführt. Tatsächlich werden mindestens fünf Schritte benötigt. 

11.2 Dynamisches Programmieren 

Die Standardmethode zur Berechnung der minimalen Editierdistanz ist 

das so genannte dynamische Programmieren (DP). Es wird nicht nur 

beim Vergleich von Mustern, sondern auch bei zahlreichen anderen Optimierungsproblemen 

eingesetzt. Die Idee ist dabei immer, daß man eine 

optimale Gesamtlösung aus mehreren optimalen Teillösungen berechnen 

kann. Im Falle der minimalen Editierdistanz können wir zum Beispiel davon 

ausgehen, daß wir wüßten, was die Minimalen Editierdistanzen zwischen 

den Teilwörtern x1, . . . xk und y1, . . .yl bekannt sind. Welche Teildistanzen 

müßten bekannt sein, um die minimale Distanz zwischen x1, . . . xi und 

y1, . . . yj zu berechnen. 

Wenn wir nur die drei oben genannten Schritte (Einfügen, Löschen, 

Überschreiben) haben, dann kann am Ende des Editierens y1, . . . yj nur dann 

herauskommen, wenn als letzter Schritt entweder xi gelöscht wurde, xi mit 

yj überschrieben wurde oder yj eingefügt wurde (oder xi und yj gleich sind, 

also kein Editierschritt nötig wäre). 

Wenn wird das Editieren als Prozeß betrachten, dann durchläuft dieser 

eine Folge von Zuständen, wobei ein Zustand durch die beiden Positionen 

i und j beschrieben ist. Dem gesamten Editierprozeß steht also ein Zustandsraum 

der Größe n · m zur Verfügung (wenn X = x1, x2 dotsxn und

11.2 Dynamisches Programmieren 163 

Y = y1, y2, . . .ym). Der Prozeß beginnt mit dem Zustand (1, 1) und muß 

am Ende im Zustand (n, m) ankommen. Jeder Editierschritt ist nun ein 

Zustandsübergang: 

Editierschritt Zustandsübergang 

xi−1 auslassen (i − 1,j) → (i, j) 

yi einfügen (i ,j − 1) → (i, j) 

xi durch yj ersetzen (bzw. unverändert lassen) (i − 1,j − 1) → (i, j) 

Tabelle 11.1. Editierschritte und entsprechende Zustandsübergänge 

c1 

c2 

cn 

q1 

q2 

qn 

d2i 

d1i 

d3i 

Si 

mink ck + dki 

Abb. 11.5. Optimierungsschritt beim Dynamischen Programmieren 

Die Idee hinter dem dynamischen Programmieren besteht nun darin, die 

minimalen Kosten für das Erreichen eines Zustandes aus den minimalen 

Kosten aller möglichen Vorgängerzustände und den Kosten für den Zustandsübergang 

zu berechnen. In Abb. 11.5 hat der Zustand Si insgesamt n 

verschiedene mögliche Vorgängerzustände q1, q2, . . .qn, für die die jeweiligen 

minimalen Kosten c1, c2, . . . cn bekannt sind. Wenn die Kosten für den 

Zustandsübergang von qk nach Si mit dki bezeichnet wird, dann sind die 

Kosten für das Erreichen von Si über den Vorgängner qk gleich ck + dki, und 

die minimalen Kosten dafür, auf egal welchem Wege zu Si zu kommen, sind 

mink ck + dki. 

Wenn zur Darstellung des Editierprozesses eine Anordnung wie in Abb. 

11.2 gewählt wird, also x1, x2, . . .xn entlang der Abszisse und y1, y2, . . .ym 

entland der Ordinaten, dann ergibt sich eine Matrix. Jeder Matrixkoeffizient


entspricht einem DP-Zustand. Editieren bedeutet, die Matrix von links unten 

nach rechts oben zu durchlaufen, wobei als Editierschritte, die in Abb. 11.6 

dargestellten möglich sind. Bezeichnen wir mit C(i, j) die minimale Editierdistanz 

zwischen x1, . . . xi und y1, . . .yi. Dann können wir C(i, j) mit Hilfe der 

Kenntnis von xi, yj, C(i−1, j), C(i, j−1) und C(i−1, j−1) berechnen gemäß: 

⎧ 

⎨ cd +C(i − 1, j) 

C(i, j) = min c 

⎩ i +C(i, j − 1) 

δxi,yj · cs +C(i, j − 1) 

(11.1) 

wobei δxi,yj das Kronecker-Delta ist. c d bezeichnet die Kosten für das 

Auslassen (delete) eines Zeichens c i die Kosten für das Einfügen (insert) und 

cs (substitute) die Kosten für das Ersetzen eines Zeichens durch ein anderes. 

Im einfachsten Fall setzt man ce = c i = cs = 1. 

yi 

yi−1 

xi−1 

xi 

C(i, j) xi−1 auslassen 

Abb. 11.6. Kostenberechnung für einen Editierschritt 

xi ggf. mit 

yi überschreiben 

yi einfügen 

Wenn das Ziel nicht nur die Berechnung der minimal Anzahl der Editierschritte 

sein soll, sondern auch noch die Folge dieser Schritte selbst, dann ist 

es nötig, daß zu jedem Zustand der beste Vorgängerzustand abgespeichert 

wird. Für diese Referenzen wird oft der Ausdruck Rückwärtszeiger (englisch 

backpointer) verwendet, und die Menge aller Rückwärtszeiger als Tabelle der 

Rückwärtszeiger (englisch: backpointer table). Der Rückwärtszeiger des Zu- 

stands (i, j) berechnet sich analog zu Gl. 11.1 als: 

R(i, j) = argmin 

{(i−1,j), (i−1,j−1), (i,j−1)} 

⎧ 

⎨ cd +C(i − 1, j) 

c 

⎩ i +C(i, j − 1) 

δxi,yj · cs +C(i, j − 1) 

(11.2) 

Schließlich gibt R(n, m) den letzen Editierschritt an. Ist R(n, m) = 

(n − 1, m), so heißt dies, daß im letzten Schritt xn ausgelassen werden muß. 

R(n, m) = (n, m − 1), dann muß im letzten Schritt ym eingefügt werden.


Und wenn R(n, m) = (n − 1, m − 1), dann muß – falls xn = ym – xn durch 

ym ersetzt werden. Bezeichnet man mit E(n, m) diesen Editierschritt und 

verfolgt man die Rückwärtszeiger zurück bis zum Zustand (1, 1). Dann 

erhält man aus der umgekehrten Folge der Editierzustände 

R(n, m), R(R(n, m)), . . . R(R(· · ·(R(n, m)) · · ·)) = R (e) (n, m) (11.3) 

die Folge der nötigen Editierschritte: 

E(R (e−1) (n, m)), E(R (e−2) (n, m)), . . . E(R(n, m)), E(n, m) (11.4) 

Diese Folge enthält dann alle Schritte, auch die Ersetzungen von einzelnen 

Zeichen durch das gleiche Zeichen, die dann beim Berechnen der Kosten 

nicht mitgezählt werden dürfen. 

Unter Umständen kann es bei Gl. 11.3 zu algorithmischen Randerscheinungen 

kommen. Wenn zum Beispiel X = AB und Y = C verglichen 

werden sollen, dann hat die Resultierende DP-Matrix nur eine Zeile und 

es wäre nicht möglich, einen wie in Abb. 11.6 dargestellten ” diagonalen“ 

Schritt zu machen. Es gäbe auch nur einen Rückwärtszeiger und somit nur 

einen möglichen Editierschritt. Sicher lassen sich solche Randfälle durch 

entsprechende Fallunterscheidungen explizit behandeln. Der Algorithmus 

selbst kann aber so einfach wie oben vorgestellt bleiben, wenn man die 

zu vergleichenden Zeichenfolgen leicht modifiziert: Man ersetzt X durch 

x0, x1, . . .xn+1, wobei x0 und xn+1 jeweils Sonderzeichen sind, die weder in 

X noch in Y vorkommen (analog wird mit Y verfahren). Dann entspricht 

das Auslassen einer Anfangssequenz x1, . . .xk der Zuordnung dieser Zeichen 

zu y0. 

Der Vergleich der Wörter X = ANDACHT und Y = NOCHMAL ist in 

Abb. 11.7 dargestellt. In jeder Matrixzelle ist die zu dem entsprechenden 

Zustand gehörige minimale Editierdistanz angegeben und ein Verweis auf 

den Vorgängerzustand. Die Zuordnung der xi zu den yj ist durch graue 

Kreisscheiben markiert. Verfolgt man diese von links unten nach rechts oben, 

so ergibt sich in diesem Beispiel die folgende Folge von Editierschritten zur 

Umwandlung von ANDACHT in NOCHMAL: 

Auslassen von A (Kosten 1) 

Ersetzen von N durch N (Kosten 0) 

Auslassen von D (Kosten 1) 

Ersetzen von A durch O (Kosten 1) 

Ersetzen von C durch C (Kosten 0) 

Ersetzen von H durch H (Kosten 0)


Einfügen von M (Kosten 1) 

Einfügen von A (Kosten 1) 

Ersetzen von T durch L (Kosten 1) 

Das ergibt als Gesamtkosten: 6 Editierschritte. Je nachdem, welcher 

Editierschritt in Gl. 11.1 gewählt wird, wenn verschiedene Schritte die 

gleichen Minimalkosten verursachen, können durchaus verschiedene Editierfolgen 

minimal sein. So läßt sich zum Beispiel die Schrittfolge Auslassen + 

Ersetzten auch alternativ als Ersetzen + Auslassen mit dem gleichen Effekt 

erreichen. 

# 

L 

A 

M 

H 

C 

O 

N 

# 

# 

8 

7 

6 

5 

4 

3 

2 

1 

0 

7 7 7 7 7 7 7 

6 6 

5 6 6 5 

1 1 

1 

7 

5 5 5 5 5 

4 4 4 4 4 3 4 

3 3 3 3 

2 2 2 

2 

2 

3 

6 6 6 6 6 

A N D A C H T 

Abb. 11.7. Berechnung der Editierdistanz mit dynamischem Programmieren 

Experiment 11.1: Minimale Editierdistanz 

Starten Sie das Applet Edit Distance. Auf der Oberfläche sehen sie zwei 

Felder, in die sie die Wörter X und Y eintragen können. 

Wenn sie auf Start drücken, wird eine neue DP-Matrix erzeugt, die den 

Aufbau hat wie Abb. 11.7. 

Durch Klicken auf Schritt wird ein DP-Schritt ausgeführt, das heißt, alle 

minimalen Editierdistanzen, die mit dem aktuell angezeigten Informationen 

unmittelbar zu berechnen sind, werden berechnet. 

Auf der DP-Matrix erscheinen dann die minimalen Editierdistanzen sowie 

für jeden Zustand eine Referenz auf den ” besten“ Vorgänger. 

3 

3 

4 

6 

3 

4 

4 

5 

5 

4 

4 

5 

5 

6 

5 

4 

5 

6 

6 

7 

# 

6 

5 

5 

5 

6 

7 

7 

8


Wenn der letzte Schritt ausgeführt wurde und der Zustand in der rechten 

oberen Ecke erreicht ist, dann wird der DP-Pfad (also alle für das minimale 

Editieren zu durchlaufenden Zustände) hervorgehoben. 

11.2.1 Distanz zwischen zwei Sprachsignalen 

Das dynamische Programmieren gibt uns also ein Werkzeug in die Hand, 

mit dessen Hilfe es möglich ist, zwei Folgen so miteinander zu vergleichen, 

daß möglichst viele gleiche Abschnitte einander zugeordnet werden. Dieses 

Prinzip läßt sich auch auf den Vergleich von Sprachsignalen anwenden. 

Statt der Wortfolgen X und Y treten dort dann die Mustervektorfolgen X 

und Y auf, wobei xt das zum Zeitpunkt t gemessene Sprachsignal ist. Im 

Unterschied zu Texten haben wir bei Sprachsignalen das Problem, daß die 

miteinander zu vergleichenden Vektoren (z.B. mel-skalierte Spektren) so gut 

wie nie identisch sind. Dann wäre die Editierdistanz immer gleich der Länge 

der längeren Aufnahme. Eine einfache Änderung beseitigt das Problem. 

Statt für das ” Überschreiben“ eines Vektors 1.0 Editierschritte zu rechnen, 

verwenden wir ein Distanzmaß (z.B. die Euklidische Distanz) zwischen den 

Vektoren. In der Praxis stellt sich heraus, daß dies sogar genügt, und für das 

Einfügen und Löschen von Vektoren gar kein Editierschritt bzw. gar keine 

Kosten berechnet werden müssen. 

1 2 5 6 9 

3 10 1314 

4 7 8 1112 1516 1 2 5 6 9 

3 10 1314 

4 7 8 1112 1516 16 

15 

14 

13 

12 

11 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

Abb. 11.8. DTW-Pfad in Matrixdarstellung 

1 2 5 6 9 

3 10 1314 

4 7 8 1112 1516


Wenn das dynamische Programmieren also dazu verwendet wird, zwei 

Sprachsignale zeitlich so zu verzerren, daß sie dadurch möglichst gut 

aufeinander passen, dann wird dies dynamic time warping (DTW) genannt. 

Auch im Deutschen findet man häufiger den englischsprachigen Ausdruck 

als das deutsche Pendant ” dynamische Zeitverzerrung“. Das Ergebnis ist 

dann analog zum DP-Pfad ein DTW-Pfad (s. Abb. 11.8). Je feiner die 

Sprachaufnahmen granuliert sind, das heißt, je kürzer die Zeitabschnitte 

sind, für die jeweils ein neuer Merkmalsvektor beobachtet wird, umso 

unwichtiger wird die Betrachtung von Auslassungen und Einfügungen. Wenn 

wir zwei Signale X = x1, . . . xn und Y = y1, . . .ym betrachten gehen wir 

davon aus, der DTW-Pfad k = min(n, m) Zuordnungen (also eine Relation) 

{(xi1, yj1), (xi2, yj2), . . . (xik , yjk )} (11.5) 

findet, und die Distanz zwischen X und Y berechnet sich als Summe 

(kumulative Distanz) aller ” lokalen“ Distanzen: 

d(X, Y ) = 

k 

|xil − yjl | (11.6) 

l=1 

Als lokale Distanzen |xil − yjl | werden meist einfache euklidische Distanzen 

verwendet. In der Praxis stellt sich heraus, daß in der Tat das 

Nichtberücksichtigen der Auslassungen und Einfügungen keine merklichen 

Auswirkungen auf die Distanzberechnung hat. Somit stellt sich an dieser 

Stelle die Frage, ob nicht auch andere Zustandsübergangsschemata als 

bei der minimalen Editierdistanz sinnvoll sind. Abb. 11.9 zeigt verschiede 

Möglichkeiten an. Oben links ist das Schema zu sehen, das auch für die Editierdistanz 

verwendet wurde. Oben in der Mitte ist eine leichte Abwandlung 

davon dargestellt, bei der höchsten eine Auslassung oder Einfügung hintereinander 

stattfinden darf, so daß nicht längere Abschnitte eines Musters 

komplett ignoriert werden können. Das Übergangsschema oben links wird 

Bakis-Schema genannt. Es ist für die Berechnung von Editierdistanzen wegen 

des fehlenden Einfügeschrittes nicht geeignet. Da dies aber beim Vergleich 

von Sprachaufnahmen keine Bedeutung hat, und da das Bakis-Schema als 

sehr angenehme Eigenschaft hat, immer nur von Zuständen (t, . . .) auf 

Zustände (t + 1, . . .) überzugehen, ist es das in der Spracherkennung am 

häufigsten benutzte. Es ermöglicht so relativ effiziente Implementierungen. 

Das Schema unten links ist eine Modifikation des Bakis-Schemas, bei der 

keine zwei aufeinanderfolgenden horizontalen Schritte erlaubt sind – auch 

hier, um zu verhindern, daß größere Bereiche einer Aufnahme komplett 

ignoriert werden können. Auch wesentlich komplexere Schemata wie unten 

in der Mitte und unten rechts (hier mit zusätzlich gewichteten in die 

Distanzberechnung mit eingehenden Straftermen versehen) wurden gelegentlich 

verwendet. Das Schema unten links (Itakura-Schema) verbietet ein 

zweimaliges Nach-Rechts-Gehen“ und stellt so auch eine Mindeststeigung 

”

11.3 Spracherkennung mittels Dynamic Time Warping 169 

des Pfades sicher. In der Praxis hat sich allerdings das Bakis-Modell als das 

praktikabelste herausgestellt. Nennenswerte Vorteile konnten für die anderen 

Schemata bei ” gewöhnlichen“ Spracherkennungsaufgaben nicht festgestellt 

werden. 

Abb. 11.9. Verschiedene Zustandsübergangsschemata 

2 2 

11.3 Spracherkennung mittels Dynamic Time Warping 

Abb. 11.10 gibt einen Überblick über einen Einzelwort Spracherkenner, der 

auf dem DTW-Algorithmus basiert. Eine Testaufnahme wird analysiert 

und in eine Folge von Kurzzeitspektren umgewandelt. Im Erkenner ist 

für jedes von n Vokabularwörtern ein Referenzmuster abgespeichert. Die 

Testaufnahme wird mit jeder Referenz verglichen, ein DTW-Pfad wird 

berechnet und die kumulative Distanz ausgegeben. Unter allen Referenzen 

wird diejenige mit der kleinsten kumulativen Distanz als Erkennungshypothese 

gewählt. Der Begriff Einzelwort bezeichnet hier nicht ein Wort im 

linguistischen Sinne, sondern lediglich die Tatsache, daß keine Sätze aus 

Wörtern beliebig kombiniert werden können. Als Einzelworte in diesem 

Sinne können durchaus auch mehrere Worte hintereinander gesprochen oder 

sogar (linguistisch gesehen) ganz Sätze sein. Der vielleicht korrektere Begriff 

wäre Erkennung von isolierten oder Einzelkommandos. 

Um die Leistung zu verbessern, können für jedes Vokabularwort mehrere 

Referenzen abgespeichert werden. Als Hypothese kann dann immer noch das 

Wort ausgegeben werden, zu dem die Referenz mit dem kleinsten Abstand 

1 

2 

1


Testaufnahme 

Wort 1 

Wort 2 

Wort n 

. . . 

Abb. 11.10. Einzelworterkennung mit DTW-Algorithmus 

gehört, oder man gibt das Wort aus, dessen alle Referenzen den kleinsten 

durchschnittlichen Abstand haben. 

Derartige Erkenner sind durchaus als einfache Kommandoerkenner tauglich. 

Einige Soundkarten beinhalten solche Erkenner in ihrem Softwarepaket 

und die in Mobiltelefonen eingebauten sprachgesteuerten Wählmechanismen 

funktionieren auf derselben Idee. 

Experiment 11.2: DTW-Erkenner 

Starten Sie das Applet DTW. Auf der Oberfläche sehen zwei Karteikarten, 

eine (betitelt mit ” Recording“) zum Aufzeichnen und Abspielen von drei 

kurzen Sprachaufnahmen. Sie können einen Teil der dargestellten Aufnahme 

ausschneiden indem Sie ihn mit gedrücktem Mauszeiger überfahren. Eine 

der Aufnahemn ist mit Reference bezeichnet, die anderen mit Signal 1 und 

Signal 2. 

Wenn Sie drei Aufnahmen gemacht haben und auf die Kartei DTW 

zurückschalten, sehen Sie zwei DTW-Matrizen, die die lokalen Distanzen 

der Sprachvektoren als Graustufen darstellen. Wenn Sie dieselbe Aufnahme 

für die das Testmuster und für die Referenz verwenden, sehen Sie, daß die 

Graustufenmatrix symmetrisch ist und entlang der Diagonalen (von links 

unten nach rechts oben) überall die Distanzen 0 hat. 

Durch Klicken auf DTW 1 wird ein kompletter DTW-Algorithmus zum 

Vergleichen des Signals 1 mit dem Referenzmuster berechnet. Entsprechend 

verhält sich DTW 2 . 

Auf der DTW-Matrix erscheint dann der DTW-Pfad hervorgehoben und 

darunter wird die akkumulierte Distanz angezeigt. 

d1 

d2 

dn 

min


Nehmen Sie zwei verschiedene Wörter auf, und speichern sie das eine als 

Signal 1 und das andere als Signal 2. Damit ist die Datenbasis dieses 

minimalistischen Erkenners komplett. 

Nehmen Sie nun ein weiteres Wort auf (praktischerweise sprechen Sie eines 

der schon gespeicherten Wörter noch einmal) und speichern dieses als 

Testmuster ab. 

Wenn Sie nun die DTW-Algorithmen auf beiden Signalen rechnen lassen, 

dann können Sie die beiden akkumulierten Distanzen vergleichen und das 

Wort mit der kleineren Distanz als erkannt betrachten. 

Versuchen Sie einen Eindruck davon zu gewinnen, wie gut/schlecht die 

Erkennung funktioniert in Abhängigkeit davon, wie ähnlich sich die Wörter 

sind. 

Mit den Schaltflächen ” Bakis“, ” Itakura“ und ” Symmetrisch“ können Sie 

das Übergangsmuster wählen, das der DTW-Algorithmus verwenden soll. 

11.3.1 Einschränkungen des Suchraums 

Wenn man Muster von mehreren Sekunden Länge mit dem DTW- 

Algorithmus vergleichen möchte, kann es lohnenswert sein, nicht die gesamte 

DTW-Matrix abzusuchen, sondern nur solche Zustände zu betrachten, 

die überhaupt betreten werden können oder sogar nur solche, die eine 

Mindestwahrscheinlichkeit haben. Das Bestimmen, welche Zustände als 

Nachfolger des Zustandes (i, j) in Frage kommen wird als ” Expandieren“ 

von (i, j) bezeichnet. Zwei Sprachsignale mit jeweils 1000 Vektoren würden 

eine DTW-Matrix mit 1 000000 Elementen aufspannen. Auch wenn diese 

heute vom Speicherbedarf her unproblematisch wäre, so sollte zumindest 

aus Laufzeitgründen geprüft werden, wie das Expandieren eines Zustandes 

gegebenenfalls die Suche nach dem DTW-Pfad vereinfacht werden kann. Die 

Menge der besuchbaren Zustände wird DTW-Suchraum genannt. 

Auf jeden Fall sollten die resultierenden DTW-Pfade einige Erwartungen 

erfüllen, wie sie in Abb. 11.11 dargestellt sind. Es sollte sichergestellt sein, 

daß die Pfade von links unten nach rechts oben verlaufen. Sie sollten auch 

monoton sein. Eine Nichtmonotonie des Pfades würde bedeuteten, daß ein 

Teil einer Aufnahme mit zwei verschiedenen Teilen der anderen Aufnahme 

verglichen würde, etwas das für normale Spracherkennung keinen Sinn hat 

(außer gegebenenfalls beim Vergleichen eines Lachens bestehend aus vielen 

” ha“ mit einem Lachen bestehend aus einem einzigen ha“). Besonders 

” 

hohe Sprünge sollten vermieden werden, um so eine lokale Kontinuität des


Pfades zu gewährleisten. Lange Stücke mit großer Steilheit bedeuten, daß 

ein sehr kleiner Teil einer Aufnahme mit einem sehr großen Teil der anderen 

verglichen würde. Eine mangelnde Geradlinigkeit des Pfades würde darauf 

hindeuten, daß die Sprechgeschwindigkeiten besonders ungleichmäßig wären, 

was zwar möglich aber eher unwahrscheinlich wäre. Und schließlich deutet 

eine extreme Abweichung des Pfades von der Diagonalen auch darauf hin, 

daß die Aufnahmen sehr schwer vergleichbar sind. 

Endpunkte 

links unten / rechts oben 

Monotonie lokale Kontinuität 

Geradlinigkeit nahe an der Diagonalen 

Abb. 11.11. Erwartungen an DTW-Pfade 

Einige Einsparungen am Suchraum ergeben sich direkt aus dem 

verwendeten Übergangsschema. Abb. 11.12 zeigt, daß bei bestimmten 

DTW-Übergangsschemata – wie z.B. dem Bakis-Schema ohne zwei aufeinanderfolgende 

horizontale Schritte – der DTW-Pfad eine Mindeststeigung 

von 1/2 und eine Maximalsteigung von 2 haben muß. Wenn der Pfad links 

unten beginnen und rechts oben enden muß, so bleibt nur ein rautenförmiger 

Bereich der gesamten DTW-Matrix übrig, der überhaupt ” betreten“ werden 

kann. Weder eine Expansion in den nicht betretbaren Teil der Matrix noch 

die Berechnung lokaler Distanzen ist nötig. Der vergrößerte Ausschnitt in der 

Abbildung zeigt, daß der mit dem Pfeil markierte Übergang nicht betrachtet 

werden muß, weil ein Betreten des Zielzustandes nicht mehr in Einem Pfad 

resultieren kann, dessen Ende rechts oben ist. 

Geht man davon aus, daß ein stark von der Diagonalen abweichender 

Pfad ohnehin nur bei schlecht übereinstimmenden Aufnahmen vorkommen 

kann, dann kann es sich lohnen, den DTW-Suchraum auf ein Fenster um

Steigung 

2 

1/2 

2 


Steigung 

1/2 

Abb. 11.12. Einschränkungen des DTW-Suchraumes 

die Diagonale herum zu beschränken, so daß aus der Raute eine Schlauch 

mit spitzen Enden entsteht. Dadurch reduziert sich der Rechenaufwand von 

O(n · m) auf O(n + m), also von quasi-quadratischem auf linearen Aufwand. 

Solche Suchraumeinschränkungen sind allerdings nicht immer anwendbar. 

Sie bieten sich an für Kleinsterkenner, die mit sehr wenigen 

Ressourcen auskommen müssen (wie zum Beispiel in Mobiltelefonen oder 

Haushaltsgeräten), und einen kleinen Wortschatz von unter 100 Wörtern 

beziehungsweise Kommandos erkennen können, die nur als isolierte Kommandos 

und nicht im Kontext beliebiger Sprache gesprochen werden dürfen. 

Auch dürfen keine Sprechpausen erlaubt sein, und die Sprechgeschwindigkeit 

muß bei der zu erkennenden Aufnahme und den abgespeicherten Mustern 

in etwas gleich groß sein. Abb. 11.13 zeigt, was geschehen kann, wenn die 

Sprechgeschwindigkeiten zu unterschiedlich sind und damit die Länge der 

Aufnahmen stark voneinander abweichen. Solange die Aufnahmen gleich 

lang sind, entsteht als Suchraum eine gleichseitige Raute. Diese verengt 

sich umso mehr, je unterschiedlicher die Aufnahmezeiten sind, und kann im 

Extremfall dazu führen, daß der Suchraum komplett verschwindet, wenn die 

eine Aufnahme mehr als doppelt so lang ist wie die andere. 

Möglichkeiten diesen Problemen zu begegnen gibt es in der vorherigen 

Längennormierung, bei der Jede Aufnahme auf eine vorher festgelegte Länge


Abb. 11.13. Eingeschränktes Bakis-Modell ist problematisch für unterschiedlich 

lange Aufnahmen 

gestaucht oder gedehnt wird, oder in der Verwendung komplizierterer Übergangsschemata, 

die dann aber die Suchraumbeschränkung wie beim Bakis- 

Schema nicht mehr erlauben. Eine Längennormierung kann aber auch den 

nachteiligen Effekt der Verfälschung der Aufnahme haben und so zu mehr Erkennungsfehlern 

führen. In der Praxis hat sich gezeigt, daß die beste Möglichkeit 

sowohl den Suchraum einzuschränken als auch unterschiedliche Aufnahmelängen 

und beliebige Übergangsschemata zu verwenden in der Strahlsuche 

besteht. 

11.3.2 Dynamisches Programmieren mit Strahlsuche 

Der Begriff der Strahlsuche ist die Übersetzung aus dem Englischen beam 

search. Die Idee hierbei ist angelehnt an einen Menschen, der im Dunkeln mit 

einer Taschenlampe einen Gegenstand sucht. Der Lichtkegel der Taschenlampe 

kann nun verschieden breit sein. Ein sehr breiter Strahl leuchtet einen 

großen Bereich des Suchraumes aus. Der Mesch muß dann entsprechend lange 

diesen ausgeleuchteten Bereich betrachten, festzustellen, ob der gesuchte 

Gegenstand darin liegt. Die Wahrscheinlichkeit ihn so zu finden ist dafür 

groß. Klein ist diese Wahrscheinlichkeit, wenn der Lichtkegel eher schmal ist. 

Dafür ist das Analysieren des ausgeleuchteten Bereichs in viel kürzerer Zeit 

möglich. Unter Umständen ist es sogar möglich, schnell Entscheidungen zu 

treffen, wo die Suche fortgesetzt werden soll. Eine Strahlsuche läuft darauf 

hinaus einen passende Strahlbreite zu finden, die einen guten Kompromiß 

darstellt zwischen Suchaufwand und Wahrscheinlichkeit das Gesuchte zu 

finden. Ein zu enger Strahl birgt die Gefahr, daß die Suche fehlschlägt, ein 

zu breiter, daß sie zu lange dauert. 

Abb. 11.14 zeigt wie die Strahlsuche beim DTW-Algorithmus angewandt 

werden kann. Im Suchraum gibt es dann drei verschiedene Arten von 

Zuständen: wahrscheinliche, unwahrscheinliche und unbesuchte. Ein Zustand 

wird als wahrscheinlich angesehen, wenn die für ihn akkumulierte Distanz 

unterhalb eines Schwellwertes liegt, sonst gilt er als unwahrscheinlich. Die 

Strahlsuche expandiert jeden wahrscheinlichen Zustand entsprechend des


verwendeten Übergangsschemas und expandiert die unwahrscheinlichen 

Zustände überhaupt nicht. Dies führt dann dazu, daß einige Zustände im 

Suchraum auch nicht besucht werden. Für diese finden dann auch keine 

Berechnungen von lokalen oder kumulativen Distanzen statt, und sie werden 

selbstverständlich auch nicht expandiert. Zu jedem Zeitpunkt der Sucht 

gibt es also eine Menge expandierbarer Zustände. Wenn darunter auch der 

Zielzustand (rechts oben in der DTW-Matrix) ist, dann kann die Suche 

beendet werden. 

nicht besuchte 

Zustände 

unwahrscheinliche 

Zustände 

wahrscheinliche 

Zustände 

Abb. 11.14. DTW mit Strahlsuche: nur wahrscheinliche Zustände werden expan- 

diert 

Der Schwellwert, der bestimmt, welche Zustände als wahrscheinlich gelten, 

kann entweder empirisch festgelegt werden, oder aber man kann ihn 

dynamisch während der Suche modifizieren, zum Beispiel so, daß er vergrößert 

wird (also der Strahl verbreitert wird), wenn nur wenige Zustände 

wahrscheinlich sind, und daß er verkleinert wird (engerer Strahl), wenn die 

Expansionsrate sehr hoch ist.

12. Hidden Markov Modelle 

Man kann sagen, daß alle Erkenner für sprecherunabhängige kontinuierliche 

Erkennung großer Vokabulare entweder direkt auf der Theorie der Hidden- 

Markov-Modelle beruhen oder zumindest wesentliche Teile der Erkenner nach 

deren Prinzipien funktionieren. Wegen der großen Bedeutung der Hidden- 

Markov-Modelle werden sie in diesem Kapitel detailliert behandelt. 

12.1 Probleme mit einfachen Mustervergleichern 

Wie bereits bei der Einführung des DTW-Algorithmus kennengelernt, 

bringen einfache Vergleiche von Sprachaufnahmen einige Probleme mit sich. 

Nicht nur die zeitliche Verzerrung spielt da eine Rolle, sondern vor allem 

die Menge der Referenzmuster. Bisher sind wir immer davon ausgegangen, 

daß wir für jedes zu erkennende Wort ein Referenzmuster abgespeichert 

haben. Dies bedeutet zum einen, daß wir entweder ein durchschnittliches auf 

viele Einzellfälle gar nicht gut passendes Muster verwenden, oder sehr viele 

Muster benötigen, was wiederum ein Problem für die Erkennerlaufzeit und 

für das Sammeln der Muster darstellt. Man stellt schnell fest, daß der reine 

Mustervergleichsansatz für die Erkennung sprecherunabhängiger Sprache 

eher ungeeignet ist. 

Ein weiteres gravierendes Problem ist die Skalierung des Aufwandes mit 

der Vokabulargröße. Wenn wir für jedes Wort ein Muster benötigen, dann 

sehen wir bald ein, daß ein Erkenner für Vokabulare in der Größenordnung 

10 5 kaum sinnvoll realisierbar ist. Insbesondere dann, wenn für jedes Wort 

auch noch mehrere Muster abgelegt werden sollen. Diese müßten vorher erst 

einmal mühevoll gesammelt werden. 

Abgespeicherte Muster sind nicht nur sprecherspezifisch, sondern auch 

umgebungsspezifisch. Das heißt, daß die Erkennungsrate bei Sprecherwechsel 

aber auch bei Umgebungswechsel (anderes Mikrophon, andere Raumakustik) 

abfällt.

178 12. Hidden Markov Modelle 

Wenn es um die Erkennung kontinuierlicher Sprache geht, dann machen 

Mustervergleicherkenner zusätzliche Schwierigkeiten. Der Dynamic Programming 

Algorithmus kann zwar für kontinuierliche Sprache eingesetzt werden, 

aber wir haben schon bei seiner Einführung auf Probleme hinsichtlich der 

Effizienz bei großen Vokabularen hingewiesen. 

Der schwerwiegendste Nachteil (abgesehen von der Erkennungsqualität) 

ist aber die Abhängigkeit vom Vokabular. Wenn für jedes zu erkennende 

Wort ein Muster abgespeichert werden muß, bedeutet dies, daß Wörter, für 

die keine Muster vorhanden sind, auch nicht erkannt werden können. Dies 

ist vor allem für Sprachen mit vielen Flexionsmöglichkeiten wie zum Beispiel 

die deutsche Sprache problematisch. 

Der innerhalb eines Jahres verwendete Wortschatz einer Tageszeitung 

kann leicht in der Größenordnung 10 6 liegen. Es ist im Deutschen völlig 

unproblematisch, neue Wörter zu bilden, die die meisten von uns noch 

nie gehört haben aber trotzdem auf Anhieb verstehen. Denken Sie zum 

Beispiel an diesen Satz: ” Das Kondensmilchdosenloch ist zugemilcht.“ Es 

ist wahrscheinlich, daß Sie die Hälfte der Wörter dieses Satzes zum ersten 

Mal lesen. Das erste seltene Wort ( ” Kondensmilchdosenloch“) illustriert 

die Fähigkeit der deutschen Sprache, einzelne Wörter zu größeren zusammenzukleben. 

Und das zweite ( ” zugemilcht“) zeigt, wie durch Flexion ein 

Wort aus Partikeln (Morphemen) gebildet werden kann. Die Behandlung 

solcher Probleme wird auch weiterhin schwierig sein, aber wenn wir bei der 

Erkennung mittels einfachen Mustervergleichen wie bisher kennengelernt 

bleiben wollen, werden solche Probleme kaum lösbar sein. 

Wir sehen schon, die Problematik läuft auf die Stückelung der Sprache 

hinaus. Ganze Wörter scheinen für die Spracherkennung problembehaftet 

zu sein. Das Trainieren von einzelnen Silben oder Phonemen, um deren 

Muster abzuspeichern, dürfte aber auch nicht erfolgversprechend sein. Die 

akustische Evidenz eines Phonems in einem Sprachsignal ist ziemlich klein 

(im Schnitt ca. 50 bis 60 ms). Derartig kurze Muster zu vergleichen zieht 

sehr hohe Fehlerraten nach sich. 

Wie stellen wir uns also den kontinuierlichen Spracherkenner vor? Welche 

Eigenschaften sollte er haben? 

Kurze Spracheinheiten 

Wir wollen nicht mit ganzen Wörtern als Einheiten arbeiten. Kurze Einheiten, 

aus denen Wörter ” zusammengebaut“ werden können sind geeigneter, 

weil sie öfter in den Trainingsdaten auftreten und so besser trainiert werden 

können. Und wir brauchen weniger Trainingsdaten, zumindest nicht mehr so

12.1 Probleme mit einfachen Mustervergleichern 179 

viele Daten, daß jedes zu erkennende Wort darin vorkommt. 

Sprecherunabhängigkeit 

Wir wollen Sprache von jedem beliebigen Sprecher erkennen können, ohne 

daß vorher eine Einlernphase nötig wäre. Das bedeutet, daß wir keine 

sprecherspezifischen Muster abspeichern sollten, sondern versuchen müssen, 

das aus dem Sprachsignal zu extrahieren, was über alle Sprecher hinweg 

invariant ist. Zumindest sollten wir versuchen die Varianz über verschiedene 

Sprecher irgendwie zu modellieren. 

Kontinuierliche Sprache 

Wir wollen nicht auf die Erzwingung von Stillepausen zwischen einzelnen 

Wörtern setzen. Jeder Sprecher soll ganz natürlich sprechen dürfen und dabei 

Pausen machen, wann er es für richtig hält. Dabei werden wir das Problem 

der Koartikulationseffekte lösen müssen. Ein Wort, das isoliert gesprochen 

wird, hört sich ganz anders an, als wenn es in einem Satz gesprochen wird. 

In einigen Sprachen – wie zum Beispiel dem Englischen oder Französischen 

– fallen die Koartikulationseffekte wesentlich deutlicher aus als in Sprachen 

wie Deutsch oder Japanisch. So spricht der US-Amerikaner Wörter, die mit 

einem S-Laut enden aus, als würden sie mit einem SH-Laut enden, wenn 

die Wörter gefolgt werden von einem Wort, das mit einem Y-Laut beginnt 

(z.B.: this year → thishyear). Ganz extrem wird es aber, wenn durch die 

Koartikulation eigentlich neue Wörter entstehen, so finden heute schon die 

koartikulierten Folgen want to oder give me als neue Wörter wanna und 

gimme Einzug in Wörterbücher. Auch im Deutschen gibt es derart heftige 

Koartikulationen: Wir sagen zum Beispiel solche Dinge wie hammer“ statt 

” 

” haben wir“ oder ” haste“ statt hast du“. Ein einfacher Mustervergleicher 

” 

hätte damit fast unlösbare Probleme. Unser idealer Erkenner sollte damit 

zurechtkommen. 

Unbekannte Wörter 

Es soll möglich sein, auch nicht trainierte Wörter dadurch zu erkennen, 

daß ihre Komponenten erkannt werden, und das Wort als Sequenz seiner 

Komponenten definiert wird. So erreichen wir eine Unabhängigkeit des 

Erkenners vom Vokabular. Im Idealfall kann der Erkenner unverändert für 

jede Aufgabe verwendet werden, wenn zuvor eine Datei erstellt wurde, in 

der steht, wie die zu erkennenden Wörter aus den Untereinheiten gebildet 

werden können.


Mathematisches Fundament 

Es wäre schön, wenn die Verfahren, die unser idealer Erkenner verwendet, 

auf einer soliden mathematischen Grundlage basierten. Auf diese Art wäre 

es dann einfacher, Algorithmen nachzuvollziehen und deren Funktionsweise 

und Korrektheit zu begründen. 

12.2 Sprache als stochastischer Prozeß 

Der selbe Laut hört sich jedes Mal ein bißchen anders an, selbst wenn er 

vom selben Sprecher unter den selben Bedingungen artikuliert wird. Es ist 

praktisch ausgeschlossen, daß ein Mensch zwei identische Sprachsignale der 

durchschnittlichen Länge eines Phonems (ca. 50ms) von sich geben kann. 

Wenn bei der Vorverarbeitung des Signals soviel Information entfernt wird, 

daß ein 50ms langer Abschnitt mit nur wenigen Parametern beschrieben 

wird, kann dies zwar schon mal vorkommen, aber wenn es möglich wäre, 

genau die Information aus einem Sprachsignal zu extrahieren, die die phonetische 

Klasse des gesprochenen Lauts eindeutig bestimmt, dann wäre das 

Problem der Spracherkennung allein schon mit dieser Vorverarbeitung gelöst. 

Wir können aber leicht beobachten, daß ein bestimmter Laut, mehrmals 

gesprochen, in seinen Signalformen gewisse Ähnlichkeiten besitzt. So können 

wir zwar am Signal erkennen, ob ein Laut z.B. stimmhaft oder stimmlos 

ist. Es ist auch nicht weiter schwer, einen Erkenner zu bauen, der nur 

anhand des rohen Signals ein ” Ah“- von einem ” Sch“-Laut unterscheidet, 

aber es ist uns dennoch nicht möglich, genau die Eigenschaften anzugeben, 

die ein Signal haben muß, damit ein Mensch es als ein ” Ah“ erkennt. Das 

geht schon allein deshalb nicht, weil sich Menschen untereinander, selbst 

nach beliebig häufigem genauem Hinhören, nicht einig sind, was in einer 

Aufnahme tatsächlich gesprochen wurde. 

Experimente [?] [?] haben gezeigt, daß selbst bei Aufnahmen von 

vorgelesenen Texten unter perfekten Aufnahmebedingungen die Hörer nicht 

zu 100% in der Lage waren, den gelesenen Text korrekt wiederzugeben, 

sondern auch 0.5% bis 2% Fehler machten. Bei sehr schlechten Aufnahmebedingungen 

wie sie z.B. beim Telefon vorliegen, kommt es sogar vor, daß der 

eine Hörer ein Wort wie ” Okay“ versteht, während ein anderer sich sicher 

ist, daß ” Yeah“ gesagt wurde. 

Man kann also festhalten, daß sowohl gilt, ein und dasselbe Signal kann 

verschieden interpretiert werden, als auch ein und derselbe Laut kann und 

wird in der Regel bei verschiedenen Äußerungen verschieden ausfallen.

12.2 Sprache als stochastischer Prozeß 181 

Betrachtet man die Signale mehrerer Aufnahmen eines Lautes, so stellt 

man fest, daß diese (wenn geeignet vorverarbeitet) mehr oder weniger von 

einem ” durchschnittlichen“ Signal abweichen. Je nachdem, wie die Definition 

eines Lautes ist (Phonem, Phon, etc.), kann es auch oft vorkommen, daß 

derselbe Laut verschiedene ” durchschnittliche“ Ausprägungen hat, z.B. 

in verschiedenen akustischen Kontexten. Wie ein Signal für einen Laut 

genau aussehen wird, kann man nur mit einer gewissen Wahrscheinlichkeit 

vorhersagen. Das heißt, man kann den Vorgang der Spracherzeugung als 

stochastischen Prozeß betrachten, stochastischer Prozeß ein Prozeß der 

bestimmte Signale emittiert in Abhängigkeit vom Zustand, in dem er sich 

gerade befindet. Als Zustände können die einzelnen Laute näherungsweise 

angenommen werden. Wenn jemand also das Wort ” Hallo“ sagt, nehmen 

wir näherungsweise an, daß sein Artikulationsapparat ca. vier Zustände (H, 

A, L, O) durchläuft, in jedem Zustand eine gewisse Zeit verweilt und in 

jedem Zustand ein Signal erzeugt (bzw. Symbol emittiert), dessen Form 

zufällig aber abhängig vom Zustand ausfällt. Wenn wir nun noch die Zeit 

diskretisieren und das gesamte Modell nur zu diskreten Zeitpunkten betrachten, 

wenn wir außerdem den Zustandswechseln zu jedem Zeitpunkt eine 

Wahrscheinlichkeit zuordnen, dann erhalten wir ein Markov Modell. Markov 

Modelle werden in der Forschung in verschiedenen Disziplinen verwendet. 

In der Spracherkennung typische Topologien sind in Abb. 12.1 dargestellt. 

Bei ergodischen Modellen sind alle Zustandsfolgen gleich gut möglich. 

Solche Modelle werden nur für spezielle Teilaufgaben der Spracherkennung 

verwendet. Für die Modellierung von Sprache findet man viel häufiger mehr 

oder weniger linear angeordnete Zustande. Im einfachsten Fall hat jeder 

Zustand nur einen Übergang zum nächsten Zustand und zu sich selbst. 

Beim Bakis-Modell kommen zusätzlich noch Übergänge zum übernächsten 

Zustand dazu. Dieses Bakis-HMM entspricht dem Bakis-Übergangsmuster 

beim DTW-Algorithmus (vgl. Abs. 11.2.1). Einige Erkenner verwendet noch 

weitere Sprünge, so daß – wie im links-nach-rechts Modell gezeigt beliebig 

viele Zustände übersprungen werden können. Gelegentlich ist es sinnvoll 

zwei einfache Modelle als Alternativen parallel zu schalten. Dies wird vor 

allem dann genutzt, wenn für dasselbe Phänomen zwei verschiedene Modelle 

(z.B. zwei verschiedene Aussprachen desselben Wortes) eingesetzt werden. 

Ein gerne verwendetes Beispiel für Markov Modelle ist das Wetter. 

Man stelle sich vor, das Wetter kann zwei Zustände annehmen, nämlich 

” schönes Wetter“ und schlechtes Wetter“. Dabei kann sowohl bei schönem 

” 

Wetter als auch bei schlechtem Wetter die Sonne scheinen. Sicher ist es 

wahrscheinlicher, daß man das Wetter als schön bezeichnet, wenn die 

Sonne scheint, aber auch ohne Sonnenschein kann dies mit einer kleinen 

Wahrscheinlichkeit vorkommen. Außerdem kann man meist beobachten, daß 

das Wetter ein wenig konstant ist. Das heißt, wenn das Wetter erst einmal


linear 

links-nach-rechts 

alternative Pfade 

Bakis 

ergodisch 

Abb. 12.1. Verschiedene Topologien für Hidden-Markov-Modelle 

schlecht ist, dann ist die Wahrscheinlichkeit dafür, daß es am nächsten 

Tag auch schlecht ist, größer, als daß es gut ist (ungeachtet irgendwelcher 

Wettervorhersagen). Man könnte zwei Wochen lang das Wetter beobachten 

und jeden Tag notieren, ob das Wetter schön oder schlecht war und ob 

die Sonne geschienen hat. Dann könnte eine Tabelle wie 12.2 entstehen (+ 

bedeutet schönes Wetter, − bedeutet schlechtes Wetter). 

Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 

Zustand + + + + – – – + + – – + + + 

Sonne 

Tabelle 12.1. Beispiel für 14 Tage Wetterbeobachtungen 

Der Tabelle kann man entnehmen, daß von den 14 protokollierten Tagen 

9 als schön und 5 als schlecht markiert wurden. An 6 der 9 schönen Tage 

schien die Sonne, während sie nur an einem der 5 schlechten Tage zu sehen 

war. Insgesamt fanden zwischen den 14 Tagen 13 Zustandsübergänge statt, 

davon waren 6 Übergänge von schön“ nach schön“, 2 von schön“ nach 

” ” ” 

” schlecht“, 3 von ” schlecht“ nach ” schlecht“ und 2 von schlecht“ nach 

” 

” schön“. Das heißt zum Beispiel, daß die Wahrscheinlichkeit, dafür daß das 

Wetter, wenn es einmal schön ist, mit 75%-iger Wahrscheinlichkeit auch am


folgenden Tag schön ist. Daraus läßt sich das Markov Modell in Abbildung 

12.2 konstruieren. 

Die Zustandsübergänge sind mit ihren entsprechenden Wahrscheinlichkeiten 

markiert. In jedem Zustand ist zudem eine diskrete Wahrscheinlichkeitsverteilung 

über dem diskreten Raum der zwei möglichen Beobachtungen 

” Sonnenschein“ und kein Sonnenschein“ gegeben. Entsprechend der Sprech- 

” 

weise ein Zustand emittiert ein Merkmal“ werden diese Verteilungen auch 

” 

Emissionswahrscheinlichkeitsverteilungen genannt. In diesem Beispiel sind 

wir davon ausgegangen, daß am ersten Tag der Beobachtungen schönes 

Wetter war. 

Da wir nur zwei Wochen protokolliert haben, können wir keine sinnvolle 

Aussage über die Wahrscheinlichkeit der Art des ersten Zustandes machen. 

Würden wir mehrere unabhängige Beobachtungssequenzen protokollieren, 

dann könnten wir aus den einzelnen ersten Zuständen auch eine Wahrscheinlichkeitsverteilung 

für diese schätzen. 

P( |+) 

P(¬ |+) 

P(−|+) 

P(+|+) 

+ − 

P(+|−) 

P(−|−) 

Abb. 12.2. HMM zur Modellierung des Wetters 

P( |−) 

P(¬ |−) 

Abb. 12.2 stellt das HMM dar, das die Beobachtung von Tab. 12.2 

modelliert. Hierbei ist die Wahrscheinlichkeit für einen Übergang von 

gutem zu gutem Wetter P(+|+) = 0.75, von guten zu schlechten Wetter 

P(−|+) = 0.25, von schlechtem zu gutem Wetter P(+|−) = 0.4, und dafür 

daß das Wetter schlecht bleibt P(−|−) = 0.6. Die Wahrscheinlichkeit dafür, 

bei schönem Wetter Sonnenschein zu beobachten, ist P( |+) = 2/3, bei 

schönem Wetter keine Sonne zu sehen P(¬ |+) = 1/3, bei schlechtem 

Wetter die Sonne zu sehen P( |−) = 0.2 und bei schlechtem Wetter keine 

Sonne zu sehen P(¬ |−) = 0.8. 

Das so erhaltene Markov Modell kann nun auch dazu verwendet werden, 

beispielhafte Zustandsfolgen und Beobachtungssequenzen zu generieren. Wir 

nehmen der Einfachheit halber an, daß am ersten Beobachtungstag immer 

schönes Wetter ist. Dann lassen wir einen Zufallsgenerator entsprechend


der Emissionswahrscheinlichkeitenverteilung des Zustands ” schön“ mit 

9/14 Wahrscheinlichkeit die Sonne scheinen. Dann wählen wir zufällig den 

Zustand für den zweiten Tag, der mit 75%-iger Wahrscheinlichkeit wieder 

schön sein wird, und machen von dort aus weiter.


Experiment 12.1: Markov Modell als Wetter-Zufallsgenerator 

Starten Sie das Applet WeatherHMM und klicken Sie auf Rücksetzen . Auf 

dem Bildschirm sind die Zustände ” schön“ und ” schlecht“ dargestellt mit 

ihren möglichen Übergängen und den initialen Übergangswahrscheinlichkeiten. 

Neben jedem Zustand ist eine diskrete Wahrscheinlichkeitsverteilung 

in Form eines Balkendiagramms zu sehen. Jeder Zustand ist außerdem 

mit der Wahrscheinlichkeit π, erster Zustand zu sein, versehen. Rechts 

neben der Modelldarstellung sehen Sie einen Kalenderausschnitt, in dem 

die Wetterbeobachtungen und Zustandsbestimmungen protokolliert werden. 

Der Kalender ist zunächst leer. 

Jedes Mal, wenn Sie auf Nächster Tag klicken wird für den nächsten 

freien Kalendertag ein neuer Zustand zufällig gewählt und dann zufällig die 

Beobachtung ” Sonnenschein“ oder ” kein Sonnenschein“ gemacht. 

Sie können durch Klicken auf einen Wahrscheinlichkeitswert (Übergang oder 

Emissionswahrscheinlichkeit oder Initialwahrscheinlichkeit) diesen um 0.1 

erhöhen. Dabei wird die entsprechende Komplementärwahrscheinlichkeit 

automatisch um 0.1 erniedrigt. 

Versuchen Sie, verschiedene Wahrscheinlichkeitswerte einzustellen, und 

erzeugen Sie zufällige Zustandsfolgen. 

Das obige Protokoll wäre mit seinen 9 schönen Tagen vermutlich im 

Sommer gemacht worden. In einem Wintermonat hätte das Protokoll 

wohl anders ausgesehen, und wir hätten ein anderes Markov Modell erhalten. 

Wäre neben dem Sommermodell auch ein Wintermodell definiert, 

bestünde eine interessanteste Aufgabe darin, festzustellen, welches Modell 

am wahrscheinlichsten für eine gegebene Beobachtung ist. Oder – um 

wieder in die Terminologie der Spracherkennung zu kommen – welches Wort 

am wahrscheinlichsten gesprochen wurde, wenn uns nur die Beobachtung 

gewisser Merkmale gegeben ist. Bevor wir uns diesem Problem zuwenden 

betrachten wir zunächst einige einfachere Probleme. Das einfachste wird 

allgemein als das Evaluierungsproblem bezeichnet. Dabei geht es darum, bei 

einem gegebenen Markov Modell die gemeinsame Wahrscheinlichkeit für eine 

Zustandsfolge und Beobachtungsfolge zu ermitteln. Um dies zu berechnen 

führen wir im folgenden einen Formalismus ein.


12.3 Der HMM-Formalismus 

Definition: Ein Markov Modell λ ist ein Fünftupel (S, A, B, π, V ). Dabei 

sind die Komponenten eines HMMs gegeben als: 

S Die Menge aller Zustände: S = {s1, . . .sn} 

A Die Zustandsübergangsmatrix: A = (aij), mit aij ist die Wahrscheinlichkeit, 

daß nach Zustand si der Zustand sj folgt. 

B Die Menge der Emissionswahrscheinlichkeitsverteilungen bzw. 

Dichten: B = {b1, . . . bn}, bi(x) = die Wahrscheinlichkeit, im Zustand 

si die Beobachtung x zu machen. 

π Die Anfangswahrscheinlichkeitsverteilung: π(i) = Wahrscheinlichkeit, 

daß si der erste Zustand ist 

V Der Merkmalsraum, d.h. der Definitionsbereich von bi, der diskret 

sein kann (V = {v1, v2, . . .} ⇒ bi ist Wahrscheinlichkeit) oder 

kontinuierlich sein kann (V = R d ⇒ bi ist Dichte) 

Gelegentlich findet man in der Literatur auch Definitionen für Markov 

Modelle, bei denen die Emissionen nicht an Zustände sondern 

an Zustandsübergänge gebunden sind. Dann wird nicht von einer zustandsindizierten 

Menge von Emissionswahrscheinlichkeitsverteilungen 

B = {b1, . . . bn} gesprochen, sondern von einer übergangsindizierten Menge 

B = {b1,1, . . . b1,n, . . . bn,n} wobei bi,j(x) die Wahrscheinlichkeit dafür ist, 

daß beim Übergang von Zustand si in den Zustand sj die Beobachtung x 

emittiert wird. Je nach Sichtweise kann man mit den zustandsindizierten 

Modellen bestimmte Sachverhalte kompakter ausdrücken, aber qualitativ 

unterscheiden sich die beiden Modellarten nicht. Keines ist wirklich mächtiger. 

Mit welcher Art man rechnet, hängt eher vom eigenen Geschmack oder 

von der Implementierung ab. 

Selbstverständlich müssen die Komponenten von HMMs bestimmte Eigenschaften 

erfüllen, damit das mathematische Fundament korrekt ist. Dazu 

gehören: 

• Anfangswahrscheinlichkeiten: 

Offensichtlich muß gelten n i=1 π(i) = 1. In der Praxis wird meist eine 

Vereinfachung verwendet, wonach π(i) = 1 für i = 0 und π(i) = 0 für 

alle anderen Zustände. Damit entfällt zum einen das Trainieren der 

Anfangswahrscheinlichkeiten und zum anderen vereinfacht es die Lösung

12.4 Die drei Probleme der Hidden Markov Modelle 187 

der unten vorgestellten zentralen Probleme der Hidden Markov Modelle. 

Da HMMs für Spracherkennung in der Regel immer eine Äußerung 

umfassen, die dadurch gekennzeichnet ist, daß davor und danach Stille 

ist. Daher kann man normalerweise problemlos davon ausgehen, daß bei 

jedem Sprach-HMM der jeweils erste und letzte Zustand fest vorgegeben 

sind und für den Stille-Laut stehen. 

• Übergangswahrscheinlichkeiten: 

Die Summe der Wahrscheinlichkeiten aller aus einem Zustand ausgehenden 

Übergänge muß 1 sein: n 

j=1 aij = 1. Dies gilt natürlich nicht für die 

eingehenden Übergänge. In der Spracherkennung werden – abgesehen 

von gelegentlichen Spezialproblemen – keine Hidden Markov Modelle 

verwendet, bei denen es möglich wäre von jedem Zustand in jeden anderen 

überzugehen. So gilt meist, daß die meisten Koeffizienten der Matrix A 

der Zustandsübergangswahrscheinlichkeiten 0 sind, und lediglich in der 

Nähe der Diagonalen Werte ungleich 0 auftreten. 

Der Begriff der Hidden Markov Modelle hat sich so auch im Deutschsprachigen 

Raum eingebürgert, auch wenn man gelegentlich von ” versteckten“ 

oder ” verdeckten“ Markov Modellen spricht. Sie heißen so, weil die tatsächliche 

Zustandsfolge, die ein stochastischer Prozeß durchläuft, im Verborgenen 

bleibt. Es ist für eine gegebene Beobachtung lediglich möglich, eine Aussage 

darüber zu treffen, welche Zustandsfolge welche Wahrscheinlichkeit hat, aber 

nicht welche ” in Wirklichkeit“ durchlaufen wurde. 

12.4 Die drei Probleme der Hidden Markov Modelle 

Sicherlich gibt es unzählige Probleme, die mit Hilfe von Hidden Markov 

Modellen bearbeitet werden können, ebenso zahlreich sind die Probleme, auf 

die man stößt, wenn man Hidden Markov Modelle entwickeln und mit ihnen 

arbeitet möchte. In diesem Abschnitt werden die drei als fundamental angesehenen 

Probleme, das Evaluierungsprobleme, das Dekodierungsproblem 

und das Optimierungs- bzw. Lernproblem behandelt. Alle drei Probleme 

gehen von der gleichen Ausgangssituation aus: Es ist ein bereits vorhandenes 

HMM und eine Beobachtung gegeben. Das Evaluierungsproblem betrifft 

die Berechnung der Wahrscheinlichkeit, mit der das gegebene HMM die 

gegebene Beobachtung emittiert. Das Dekodierungsproblem beschreibt, wie 

die in der Praxis weder bekannte noch meist überhaupt tatsächlich vorhandene 

Zustandsfolge berechnet werden kann, bzw. wie die wahrscheinlichste 

unter ihnen gefunden wird. Das Optimierungs- oder Lernproblem versucht


aus dem gegebenen HMM ein neues zu berechnen, das mit einer größeren 

Wahrscheinlichkeit die gegebene Beobachtung emittiert. 

12.4.1 Das Evaluierungsproblem 

Formal läßt sich das Evaluierungsproblem wie folgt beschreiben: 

gegeben: HMM λ und Beobachtung X = (x1, x2, . . . xT) 

gesucht: die Wahrscheinlichkeit P(X|λ) 

Betrachten wir zuvor ein einfacheres Problem, nämlich das Evaluierungsproblem 

mit zusätzlich gegebener Zustandsfolge: 

gegeben: HMM λ und Beobachtung X = (x1, x2, . . .xT) und Zustandsfolge 

sq1, sq2, . . . sqT 

gesucht: die Wahrscheinlichkeit P(X|λ, sq1, sq2, . . .sqT ) 

Diese Wahrscheinlichkeit läßt sich direkt aus der Definition der Hidden 

Markov Modelle ableiten. Sie beträgt: 

 

T −1 

P(X|λ, sq1, sq2, . . . sqT ) = π(sq1)bq1(x1) 

vereinfachtes Evaluierungsproblem 

k=1 

Experiment 12.2: Das vereinfachte Evaluierungsproblem 

aqk,qk+1 bk+1(xk+1) (12.1) 

Starten sie das Applet WeatherHMM und klicken Sie auf Rücksetzen . 

Geben Sie eine beliebige Folge von Beobachtungen und Zuständen ein. 

Klicken Sie auf die Schaltfläche Evaluieren . 

Je nachdem, was für ein Merkmalsraum verwendet wird, also je 

nachdem, ob die xt diskrete oder kontinuierliche Beobachtungen sind, 

berechnet man mit dem Evaluierungsproblem eine Wahrscheinlichkeit 

P(X|λ, sq1, sq2, . . .sqT ) oder eine Dichte p(X|λ, sq1, sq2, . . .sqT ). Der 

Einfachheit halber beschränken wir uns hier auf die Version mit der


Wahrscheinlichkeit. Die Gleichungen werden zunächst für beide Versionen 

identisch sein. 

Aus Gleichung 12.1 und aus 

P(X|λ) = 

P(X|λ, sq1, sq2, . . .sqT ) (12.2) 

q1,q2,...qT 

läßt sich ableiten: 

P(X|λ) = 

q1,q2,...qT 

T −1 

π(sq1) · bq1(x1) · aqk,qk+1 · bk+1(xk+1) (12.3) 

Gleichung 12.3 drückt also aus, daß sich die Wahrscheinlichkeit, X im 

Modell λ zu beobachten, aus der Summe der entsprechenden bedingten 

Wahrscheinlichkeiten über alle Zustandsfolgen berechnen läßt. (Man beachte, 

daß die Laufvariable der Summe eine Zustandsfolge als Wert hat und nicht 

einzelne Zustände.) Offensichtlich läßt sich dies – obwohl als geschlossene 

Formel gegeben – so nur für triviale Markov Modelle mit sehr wenigen 

Zuständen berechnen. Bei n verschiedenen Zuständen gibt es immerhin n! 

verschiedene Zustandsfolgen. Eine andere Art der Berechnung ist also nötig. 

Am anschaulichsten wird das Evaluierungsproblem mit Hilfe des 

Forward-Algorithmus berechnet. Der Begriff ” Forward“-Algorithmus kommt 

vom so genannten ” Forward-Backward“ Algorithmus, der zur Lösung des 

Optimierungsproblems verwendet wird. Für das Evaluierungsproblem wird 

nur ein Teil des Forward-Backward verwendet. Die zentrale Idee hinter dem 

Forward-Algorithmus ist die rekursive Berechnung von P(x1, x2, . . . xt|λ) als 

Funktion von t − 1: 

Offensichtlich gilt: 

k=1 

P(x1, x2, . . . xT |λ) 

= 

j=1..n P(x1, x2, . . . xT , qT = j |λ) 

(12.4) 

Übrigens gilt Gleichung 12.4 selbstverständlich nicht nur für qT sondern 

auch für jedes beliebige qt. 

Sei nun 

αt(j) = P(x1, x2, . . .xt, qt = j|λ) (12.5) 

Es bezeichnet also αt(j) die Wahrscheinlichkeit, daß sich das HMM λ 

zum Zeitpunkt t im Zustand sqt befindet und bis dahin die Beobachtung 

x1, x2, . . .xt gemacht bzw. emittiert wurde. Ähnlich wie beim Dynamischen 

Programmieren in Abschnitt 11.2 kann αt(j) berechnet werden aus verschiedenen 

αt−1(. . .).


αt−1(1) 

αt−1(i) 

αt−1(n) 

... 

si 

... 

aij 

a1j 

anj 

Abb. 12.3. Berechnung von αt(. . .) aus αt−1(. . .) 

αt(j) 

Die Wahrscheinlichkeit, zum Zeitpunkt t im Zustand j zu sein, läßt sich 

berechnen aus den Wahrscheinlichkeiten, zum Zeitpunkt t − 1 im Zustand 

si, (i = 1 . . .N) zu sein und dann den Übergang von si nach sj zu machen. 

Wenn wir dann noch zusätzlich die Beobachtung weiterführen erhalten wir 

(s. Abb. 12.3 und 12.4): 

αt(j) = bj(xt) · 

N 

αt−1(i) · aij 

i=1 

(12.6) 

Den Rekursionsanfang machen die α1(j), die Wahrscheinlichkeit, als 

erstes mit dem Zustand sj anzufangen und dabei x1 zu beobachten. Also ist 

α1(j) = π(j) · bj(x1). 

αt(j + 1) 

p(x1, . . . xt−1, qt−1 = j + 1|λ) 

αt(j) 

p(x1, . . . xt−1, qt−1 = j|λ) 

αt(j − 1) 

p(x1, . . . xt−1, qt−1 = j − 1|λ) 

αt(j − 2) 

p(x1, . . . xt−1, qt−1 = j − 2|λ) 

αt+1(j) 

p(x1, . . . xt, qt = j|λ) 

Abb. 12.4. Der Schritt im Forward-Algorithmus: αt(j) = bj(xt) 

i aijαt−1(i)


Der gesuchte Wert für die Wahrscheinlichkeit, bei gegebenem HMM λ die 

Beobachtung X = x1, x2, . . .xn zu machen, läßt sich direkt aus den Gl. 12.4 

und 12.5 folgern: 

P(X|λ) = 

n 

αT(j) (12.7) 

j=1 

Durch die rekursive Definition von αt(j) läßt sich nun P(X|λ) statt 

durch Gl. 12.3 in O(T · n T ) mit dem Forward-Algorithmus viel schneller in 

O(T · n) berechnen (unter der Annahme, daß die Zahl der Übergänge mit 

positiver Wahrscheinlichkeit für jeden Zustand durch eine kleine Konstante 

nach oben begrenzt ist). Der Forward-Algorithmus ist zudem auch sehr 

speichereffizient, weil zu jedem Zeitpunkt t lediglich Speicherplatz für die 

αt−1(. . .) und die αt(. . .) benötigt wird. Alle zuvor berechneten α1...t−2(. . .) 

werden nicht mehr benötigt. D.h. aus der Sicht eines DP-Algorithmus 

werden immer nur zwei Spalten der DP-Matrix im Speicher gehalten. 

Mit Hilfe des Forward-Algorithmus läßt sich auch ein Erkennungsalgorithmus 

konstruieren. Hierbei gehen wir davon aus, daß eine Sprachaufnahme in 

eine von K Klassen klassifiziert werden muß. Diese Klassen könnten beispielsweise 

einzelne Phoneme, ganze Wörter oder sogar Phrasen sein. Gesucht ist 

also zu einer Aufnahme X die Klasse Ĉ mit: 

Ĉ = argmax 

C 

P(λC|X) = argmaxP(X|λC) 

· P(C) (12.8) 

C 

wobei λC das zur Klasse C gehörende HMM ist, und P(C) die zuvor 

ermittelte a priori Wahrscheinlichkeit für die Klasse C ist. Die Klassifikation 

läuft so ab, daß für alle in Frage kommenden Klassen mit Hilfe 

des Forward-Algorithmus P(X|λC) berechnet wird und unter allen das 

Maximum entsprechend Gl. 12.8 gewählt wird. 

Experiment 12.3: Erkennung mit dem Forward-Algorithmus 

Starten sie das Applet WeatherHMM und klicken Sie auf Rücksetzen . 

Geben Sie irgend eine Folge X von Beobachtungen ohne Zustände ein. 

Wählen Sie einmal das Sommer-Modell und klicken Sie auf die Schaltfläche 

Evaluieren . Das Ergebnis ist der Wert P(X|Sommer). Berechnen sie 

entsprechend P(X|Winter). 

Unter der Annahme, daß P(Sommer) = P(Winter) kann man nun schließen, 

daß wenn P(X|Sommer) > P(X|Winter) und die Beobachtung X gemacht 

wurde, die aktuelle Jahreszeit eher der Sommer ist.


Wiederholen Sie dieses Experiment für verschiedene Beobachtungen und für 

verschiedene Einstellungen der Sommer- und Winterparameter. 

12.4.2 Das Dekodierungsproblem 

Beim Dekodierungsproblem manifestiert sich ganz besonders die Tatsache, 

daß Hidden Markov Modelle eben doch nur Modelle sind, die die Wirklichkeit 

mehr oder weniger gut modellieren. Man kann sagen, ein Modell ist dann 

gut, wenn es die Wirklichkeit zuverlässig vorhersagen kann. Im Falle der 

Hidden Markov Modelle hieße das, daß ein HMM gut ist, wenn der Wert 

P(X|λ) der tatsächlichen Wahrscheinlichkeitsverteilung sehr ähnlich ist. 

Allerdings ergeben sich hierbei zwei kaum lösbare Probleme: Zum einen 

läßt sich die ” tatsächliche“ Wahrscheinlichkeitsverteilung meist gar nicht 

bestimmen und die vom HMM berechnete Modellverteilung ist sowieso die 

beste bekannte. Zum anderen bleibt es fragwürdig, ob ein Hidden Markov 

Modell überhaupt geeignet ist. Insbesondere muß man sich die Frage gefallen 

lassen, welcher Zustand der Wirklichkeit einem Zustand des Markov Modells 

entspricht, oder sogar noch tiefgreifender: läuft die Wirklichkeit überhaupt 

in Zuständen und Zustandsübergängen statt. Aus der Sicht der Spracherkennung 

könnten Zustände der Sprachproduktion in etwa den IPA-Lauten 

entsprechen. Betrachten wir aber ein digitalisiertes Sprachsignal, so sehen 

wir in der Regel keine exakt bestimmbaren Zeitpunkte, an denen ein Laut 

endet und der folgende Laut anfängt. Ähnlich wie bei Diphthongen, die 

Übergänge von einem in einen anderen Vokal sind, gibt es auch bei fast 

allen Lautpaaren mehr oder weniger fließende Übergänge. Zwar ist es oft 

möglich, einen Bereich des Sprachsignals eindeutig einem Laut zuzuordnen, 

aber die Übergänge sind eher unscharf, so daß man nicht von einem klaren 

Zustandsübergang sprechen kann. Trotzdem muß das HMM die Wirklichkeit 

so modellieren, als würden Sprünge stattfinden. 

Das Dekodierungsproblem hat zum Ziel, herauszufinden, welche Zustandsfolge 

am ehesten durchlaufen wurde. Formal bedeutet das: 


gesucht: die wahrscheinlichste Zustandsfolge sq1, sq2, . . .sqT 

also 

argmax P(q1, q2, . . . qT |x1, x2, . . . xT , λ) (12.9) 

q1,q2,...qT 

Dies läßt sich nach Bayes schreiben als


P(q1, q2, . . . qT , x1, x2, . . .xT |λ) 

argmax 

q1,q2,...qT P(x1, x2, . . .xT |λ) 

(12.10) 

= argmax P(q1, q2, . . . qT , x1, x2, . . .xT |λ) (12.11) 

q1,q2,...qT 

Ähnlich wie beim Forward-Algorithmus können wir sowohl den 

Wert maxq1,q2,...qt P(q1, q2, . . .qt , x1, x2, . . . xt|λ) aus der Kenntnis von 

P(q1, q2, . . . qt−1 , x1, x2, . . . xt−1|λ) für alle q1, q2, . . . qt−1 berechnen, als auch 

den für jeden Zustand j zum Zeitpunkt t ” besten“ Vorgängerzustand rt(j) 

(s. Abb. 12.5 und 12.6): 

zt(j) = bj(xt)max 

i aijzt−1(i) (12.12) 

rt(j) = argmaxaijzt−1(i) 

i 

(12.13) 

zt−1(1) 

zt−1(i) 

zt−1(n) 

... 

si 

... 

aij 

a1j 

rt(j) 

anj 

Abb. 12.5. Berechnung von zt(. . .) aus zt−1(. . .) 

zt(j) 

Das Verfahren, das auf die iterative Auswertung der Gl. 12.12 und 

12.13 basiert ist dem Forward-Algorithmus insofern ähnlich, als es die 

gleichen Vorwärtsschritte verwendet, wobei statt der Addition von Wahrscheinlichkeiten 

deren Maximierung durchgeführt wird. Er ist auch dem 

DTW-Algorithmus insofern ähnlich, als zt(j) der kumulativen Distanz des 

Zustands (t, j) entspricht, wobei statt der Minimierung der Distanzsumme 

hier eine Maximierung der Wahrscheinlichkeit berechnet wird. Dieser 

Algorithmus wird Viterbi-Algorithmus [?] genannt, nach Andrew Viterbi 

[?]. Genau so wie beim DTW-Algorithmus werden auch beim Viterbi- 

Algorithmus Rückwärtszeiger gespeichert (Gl. 12.13 entspricht Gl. 11.3), 

aus denen dann ein Viterbi-Pfad q∗ 1, q∗ 2, . . .q ∗ T rekursiv berechnet wird gemäß: 

q ∗ t = 

argmaxj zT(j) für t = T 

rt(q ∗ t+1) für t < T 

(12.14)


zt(j + 1) 

max t−1 P(Q Q 

1 

t−1 

1 , qt−1 = j + 1 , X t−1 

1 |λ) 

zt(j) 


1 

t−1 

1 , qt−1 = j , X t−1 

1 |λ) 

zt(j − 1) 


1 

t−1 

1 , qt−1 = j − 1 , X t−1 

1 |λ) 

zt(j − 2) 


1 

t−1 

1 , qt−1 = j − 2 , X t−1 

1 |λ) 

zt+1(j) 

max Q t 1 P(Q t 1, qt = j , X t 1|λ) 

Abb. 12.6. Der Viterbi-Schritt: zt(j) = bj(xt) maxi aijzt−1(i) 

Ähnlich der Forderung beim DTW-Algorithmus, daß der DTW-Pfad 

im Zustand, der dem rechten oberen DP-Matrixelement entspricht, enden 

soll, verwendet man gerne HMM-Architekturen, die einen ausgezeichneten 

Finalzustand qF haben, so daß in Gl. 12.14 q∗ T = qF gesetzt wird. 

Abschließend sei noch einmal bemerkt, daß der Viterbi-Algorithmus 

nicht berechnet, durch welche Zustände ein als HMM modellierter stochastischer 

Prozeß gelaufen sein muß, um eine bestimmte Beobachtungssequenz 

zu emittieren, sondern vielmehr die wahrscheinlichste Folge unter vielen 

möglichen. 

12.4.3 Das Optimierungsproblem 

Spracherkenner werden ” trainiert“, auch solche, die sprecherunabhängig 

sind. Hidden Markov Modelle sind viel zu kompliziert, als daß es eine 

einfache Methode gäbe, für alle Parameter eines Erkenners analytisch 

mit Hilfe einer geschlossenen Formel den optimalen Wert zu berechnen. 

Daher werden solche Systeme iterativ optimiert. Im Gegensatz zu manchen 

mathematischen (stochastischen oder konnektionistischen) Modellen ist es 

bei nichttrivialen HMMs nicht einfach möglich, als Optimierungskriterium 

die Erkennungsgenauigkeit zu berechnen und diese nach jedem Parameter 

abzuleiten, um so diejenige Änderung des Parameters zu bestimmen, die den 

besten Effekt auf die Optimierungsfunktion hat. 

Iteratives Optimieren bei Hidden Markov Modellen bedeutet, daß wir 

zu verschiedenen Zeitpunkten i verschiedene Modelle λi haben, so daß gilt:


Q(λi+1) > Q(λi) für eine bestimmte Optimierungsfunktion Q. Optimal wäre 

Q = Worterkennungsrate. Sinnvolle Regeln, wie λi+1 dann aus λi berechnet 

werden könnte, wurden dafür noch nicht gefunden. Auch wenn in einigen 

Experimenten andere Optimierungskriterien mit unterschiedlichem Erfolg 

untersucht wurden, so hat sich dennoch das Verfahren durchgesetzt, das die 

Beobachtungswahrscheinlichkeit der Trainingsdaten (also das Evaluierungsproblem) 

optimiert. Wenn X die Beobachtung der gesamten Trainingsdaten 

darstellt, dann läßt sich das Optimierungsproblem formal definieren als: 


gesucht: λ ′ , wobei p(X|λ ′ ) > p(X|λ). 

Um die Parameter von λ zu optimieren, wäre es gut, die Wahrscheinlichkeit 

γt(i) := P(qt = i|x1, x2, . . . xT,λ), zu kennen. Dieser Wert könnte 

dann als ” Gewichtung“ benutzt werden, mit der die Beobachtung xt in 

das Training der Parameter des Zustands si eingehen soll. γt(i) ist die 

Wahrscheinlichkeit dafür, daß sich der durch λ modellierte Prozeß zum 

Zeitpunkt t im Zustand si befindet, wenn die Beobachtung x1, x2, . . .xT 

gegeben ist. 

Der Forward-Algorithmus berechnet den Wert P(qt = i, x1, x2, . . . xt|λ) 

(s. Gl. 12.5). Im Hinblick darauf, daß wir später mit Hilfe der Bayes-Regel die 

Bedingung und das Ereignis im Wahrscheinlichkeitsterm vertauschen können, 

können wir an dieser Stelle versuchen, den Term P(qt = i, x1, x2, . . . xT |λ) 

zu berechnen, also in Abweichung von αt(i) die Wahrscheinlichkeit zum 

Zeitpunkt t in si zu sein und die komplette Beobachtung X zu machen. 

Dann erhalten wir: 

P(qt = i, x1, . . . xT |λ) = P(qt = i, x1, . . . xt|λ) 

· P(xt+1, . . . xT |qt = i, λ) 

 

αt(i) fehlender Term 

Wenn wir den fehlenden Term mit βt(i) bezeichnen, dann ergibt sich: 

P(qt = i, x1, . . . xT |λ) = αt(i) · βt(i) (12.15) 

Der fehlende Term βt(i) gibt die Wahrscheinlichkeit dafür an, daß die 

” zweite Hälfte“ der Beobachtung, also (xt+1, xt+2, . . .xT) beobachtet wird 

unter der Bedingung, daß sich das System zum Zeitpunkt t im Zustand si 

befindet. Das Produkt der αt(i) und βt(i) ergibt zwar nicht den gewünschten 

Term γt(i), aber mit der einfachen Anwendung der Bayes-Regel erhalten 

wir:


γt(i) = P(qt = i|X, λ) = P(qt = i, X|λ) 

P(X|λ) 

= αt(i) · βt(i) 

 

j αt(j) · βt(j) 

(12.16) 

So erhalten wir mit γt(i) die Wahrscheinlichkeit dafür, daß sich das 

System λ zum Zeitpunkt t im Zustand si befindet, wenn es die Beobachtung 

X macht (bzw. emittiert). Aus der Sicht des Trainingsalgorithmus, der die 

Parameter des Zustands si neu schätzen, also optimieren, muß, genügt es, 

alle Beobachtung xt und die dazu gehörigen γt(i) zu kennen. Dann weiß der 

Algorithmus, wie stark xt ins Training eingehen soll. Wenn γt(i) sehr klein 

ist, kann xt fast ignoriert werden, bei sehr großem γt(i) hat xt einen sehr 

großen Einfluß auf die Schätzung der Parameter von si. 

Wie genau nun der Trainingsalgorithmus aussieht, hängt natürlich 

von der Wahl der Emissionswahrscheinlichkeitenschätzer ab. Bei Gauß- 

Mischverteilungen heißt das, daß der EM-Algorithmus wie in Gl. 9.14 bis Gl. 

9.16 Anwendung findet. Bei neuronalen Netzen würde der Backpropagation- 

Algorithmus oder eine Variante davon angewendet und die γt(i) auf die 

Lernrate aufmultipliziert, wenn die Beobachtung xt trainiert wird. 

Bleibt noch festzustellen, wie βt(i) sinnvollerweise berechnet wird. Auf 

den ersten Blick sehen die β den α sehr ähnlich. Auch sie können rekursiv 

berechnet werden: 

βT(i) = 1 ∀i (12.17) 

n 

βt(i) = aij · bj(xt+1) · βt+1(j) (12.18) 

j=1 

Gl. 12.17 leuchtet ein, wenn man sich klar macht, daß βT(i) die 

Wahrscheinlichkeit dafür ist, daß ” nach dem Ende der Beobachtung keine 

weitere Beobachtung“ gemacht wird. Das ist natürlich 1.0, unabhängig 

davon, welcher Zustand der letzte ist. Die Berechnung der β läuft also 

ganz analog zur Berechnung der α nur diesmal rückwärts. Daher heißt der 

Algorithmus, der mit Hilfe der Gl. 12.17 und 12.18 alle βt(i) berechnet, 

Backward-Algorithmus. Die Durchführung des Forward-Algorithmus und des 

Backward-Algorithmus, um damit die γt(i) zu bestimmen heißt Forward- 

Backward Algorithmus. 

Mit Hilfe der γ können also die Parameter der Emissionswahrscheinlichkeitsmodelle 

optimiert werden. Was jetzt noch fehlt, ist die Optimierung der 

Übergangswahrscheinlichkeiten. 

Um die Wahrscheinlichkeit aij für den Übergang von Zustand si 

zum Zustand sj neu zu schätzen benötigen wir die Wahrscheinlichkeit 

ξt(i, j) := P(qt = i, qt+1 = j|X, λ). Auch hier können wir die Bayes Regel

anwenden und erhalten: 


ξt(ij) = P(qt = i, qt+1 = j, X|λ) 

P(X|λ) 

t − 1 t t + 1 t + 2 

... 

... 

si 

aij · b(xt+1) 

sj 

αt(i) βt+1(j) 

Abb. 12.7. Berechnung der ξ aus den α und β 

... 

... 

(12.19) 

Der Zähler des Bruches von Gl. 12.19 gibt die Wahrscheinlichkeit dafür 

an, daß die Beobachtung X gemacht wird und ein Übergang von si nach sj 

stattfindet. Dies läßt sich schreiben, als das Produkt der Wahrscheinlichkeiten 

αt(i), βt+1(j) und der ” Verbindung“ dazwischen, so wie in Abb. 12.7 

dargestellt: 

ξt(ij) = αt(i)aijbj(xt+1)βt+1(j) 

 

l αt(l) · βt(l) 

(12.20) 

Wie nun mit Hilfe der α, β, γ und ξ die HMM-Parameter optimiert 

werden können, definieren die Baum-Welch-Regeln: 

Die Wahrscheinlichkeit π(i) dafür, daß si der erste Zustand eines Prozesses 

ist, wird ersetzt durch π ′ (i) mit: 

π ′ (i) = P(q1 = i|X, λ) = P(q1 = i, X|λ) 

P(X|λ) 

α1(i)β1(i) 

= γ1(i) = 

j αt(j) · βt(j) 

(12.21) 

Die Übergangswahrscheinlichkeit aij dafür, daß sj der Nachfolgezustand 

von si ist, wird ersetzt durch a ′ ij mit: 

a ′ ij = 

T t=1 P(X, qt = i, qt+1 = j|λ) 

T t=1 P(X, qt 

T t=1 = 

= i|λ) 

ξt(i, j) 

T t=1 γt(i) 

(12.22)


Für diskrete Hidden-Markov-Modelle gilt darüber hinaus, daß die Wahrscheinlichkeit 

bi(vk) dafür, im Zustand si die Beobachtung vk zu machen, 

ersetzt wird durch b ′ i (vk) mit: 

b ′ i (vk) = 

T t=1 P(X, qt = i|λ) · δ(xt, vk) 

T t=1 P(X, qt = i|λ) 

T t=1 = 

γt(i) · δ(xt, vk) 

T t=1 γt(i) 

 

0 für xt = vk 

wobei δ(xt, vk) = 

1 für xt = vk 

(12.23) 

In mancher Literatur über Hidden-Markov-Modell findet man nach 

der Definition der Baum-Welch-Regeln den Beweis für die Lösung des 

Optimierungsproblems, also dafür daß P(X|λ ′ ≥ P(X|λ). Die Idee hinter 

dem Beweis ist die Definition einer Hilfsfunktion, deren Optimierung leichter 

gezeigt werden kann, deren Optimierung aber auch eine Optimierung des 

HMMs impliziert. Da dieser Beweis nicht zum Verständnis der HMMs in der 

Spracherkennung beiträgt, sei der interessierte Leser zum Beispiel auf [?] 

verwiesen. 

12.5 Spracherkennung mit Hidden Markov Modellen 

Hidden Markov Modelle sind besonders geeignet dafür, dynamische Prozesse 

zu modellieren, Prozesse, die sich in bestimmten Zuständen befinden können, 

zwischen denen mehr oder weniger wahrscheinliche Übergänge gemacht werden. 

Im Prinzip genügt es, zum Definieren eines HMMs für die Modellierung 

von Sprache einen Merkmalsraum der beobachtbaren Ereignisse und die 

Zuordnung von HMM-Zuständen zu bestimmten sprachlichen Einheiten 

anzugeben. Wie sich herausstellen wird, liegen genau in diesen beiden Problemen 

mit die größten Herausforderungen. Der verwendete Merkmalsraum 

wird durch die verwendeten Verfahren der Signalverarbeitung bestimmt, und 

die Zuordnung von Zuständen zu Spracheinheiten bestimmt nicht nur, welche 

Spracheinheiten überhaupt verwendet werden und wie der Parameterraum 

des Erkenners aussehen wird, sondern auch in erheblichem Maße, welche 

Leistung der Erkenner haben wird.

12.5 Spracherkennung mit Hidden Markov Modellen 199 

12.5.1 Ein einfacher HMM Einzelkommandoerkenner 

Im folgenden werden die Bestandteile und die Funktionsweise eines einfachen 

auf Hidden-Markov-Modellen basierenden Einzelworterkenners beschrieben. 

Der Begriff ” Einzelwort“ ist in diesem Zusammenhang eher akustisch als 

linguistisch gemeint. ” Einzelkommandoerkenner“ wäre vielleicht der bessere 

Begriff. Als Einzelwort kann auch eine Folge von Wörtern gemeint sein. 

Allerdings ist dies aus der Sicht des Erkenners irrelevant. Jede Aufnahme 

wird als eine Einheit betrachtet, die zu einer einzigen aus einer Menge 

gegebener Klassen gehört. 

Die Erkennungsaufgabe bestehe darin, einzelne Wörter aus einem 

Vokabular L = {w1, w2, . . .w |L|} zu erkennen. Das bedeutet, der Erkenner 

verwendet |L| verschiedene HMMs λ(w1), λ(w2), . . . λ(w |L|). Zunächst muß 

jedes λ(wi) definiert werden. Ohne weiteres Wissen werden alle Modell mit 

der gleichen Architektur und den gleichen Parametern initialisiert, zum 

Beispiel mit je n Zuständen im Bakis-Schema und Gauß-Mischverteilungen 

mit je k Normalverteilungen zur Modellierung der Emissionswahrscheinlichkeiten. 

Da das Baum-Welch-Verfahren keine Anforderungen an die 

Initialwerte der HMM-Parameter stellt, kann man mit beliebigen (zufällig 

initialisierten) Werten anfangen. 

Für jedes Vokabularwort werden eines oder mehr Beispiele aufgezeichnet 

und vorverarbeitet (zum Beispiel zu Cepstren mit 13-koeffizientigen Cepstralvektoren 

alle 10ms). 

Jedes Wort-HMM wird mit seinen Trainingsbeispielen entsprechend 

dem Baum-Welch-Verfahren optimiert. Dabei wird das Verfahren (Forward- 

Backward, Baum-Welch-Regeln) für alle Trainingsbeispiele hintereinander 

durchgefürht. Gegebenenfalls werden mehrere Iteration über die gesamten 

Trainingsdaten gerechnet. 

Damit ist der Erkenner fertig trainiert und einsatzbereit. Zum Erkennen 

wird ein Wort gesprochen und die Aufnahme X genauso verarbeitet wie die 

Trainingsdaten. Auf der Aufnahme werden nun alle P(X|λ(wi)) mit Hilfe 

des Forward-Algorithmus berechnet. Gesucht ist allerdings: P(λ(wi)|X). 

Dies läßt sich mit der Kenntnis der a priori Wahrscheinlichkeiten P(wi) und 

der Bayes-Regel ausrechnen. Die P(wi) können – wenn kein Wissen und 

keine Statistik darüber bekannt ist – gleichverteilt angenommen werden. 

Das Wort ˆw gilt als erkannt, wenn 

ˆw = argmaxP(λ(wi)|X) 

(12.24) 

wi


12.5.2 Abbildung von Wörtern auf Markov Modelle 

Es leuchtet ein, daß ein HMM-Zustand einem sprachlichen Ereignis entsprechen 

sollte, das einigermaßen stationär ist, also z.B. einem einzigen Laut. 

Silben oder gar Wörter sollten sinnvollerweise mit mehreren Zuständen 

modelliert werden. Selbst einzelne Laute – oder zumindest das was von vielen 

Phonetikern als Laut bezeichnet wird – sind oft nicht wirklich stationär. Am 

deutlichsten sieht man das an den Diphthongen und Affrikaten, die ja zwei 

verschiedene fließend ineinander übergehende Laute sind. Der Diphthong 

[aÁ] (d.h. die Aussprache des Wortes: Ei“) beginnt mit einem Laut [a], 

” 

und endet mit einem Laut [Á]. Der Affrikat [] wie am Anfang des Wortes 

” zu“ beginnt ähnlich wie ein [t] und endet wie ein [s]. Diphthonge, Affrikate 

und viele andere Laute sind nicht ausreichend lange stationär, so daß man 

berechtigterweise sagen könnte, über einen Zeitraum von einigen hundertstel 

oder gar zehntel Sekunden würde das Spektrum des Sprachsignals im 

wesentlichen unverändert bleiben. 

Wie viele Zustände sollte man also für ein Wort, eine Silbe, ein Phon(em) 

oder einen Laut verwenden? In [?] wird ein Verfahren vorgestellt, mit dem 

die Zahl der Zustände und sogar deren Übergänge rein datengetrieben für 

einzelne Phoneme bestimmt werden kann. In [?] wird dieses Verfahren sogar 

auf ganze Wörter ausgeweitet und als tauglich befunden, allerdings wird 

ein automatisches Erzeugen von Wort-Markov-Modellen aus praktischen 

Gründen nicht verwendet. Um ein Modell für ein Wort zu erzeugen, muß 

dazu ausreichend akustische Evidenz vorhanden sein. Für kleine Vokabulare 

mag das noch zu machen sein. Eine Datenbasis, die aus ” normalen Sätzen“ 

besteht und von jedem Wort aus einem Vokabular von mehreren Zigtausend 

verschiedenen Wörtern, ausreichend viele Vorkommen hat, gibt es nicht. In 

ca. 50 000 Sätzen aus dem Wall Street Journal Trainingskorpus kommen nur 

etwa 15 000 verschiedene Wörter vor, ein relativ großer Teil davon nur ein 

oder zwei mal. Die Menge an Daten, die man bräuchte, um 60 000 Wörter 

jeweils mindestens 10 mal zu beobachten, wäre enorm riesig. Daher empfiehlt 

es sich, nicht für jedes Wort ein einzelnes HMM zu bauen, sondern für 

kleinere Einheiten, aus denen die Wörter ” zusammengebaut“ werden können. 

Ein Wort-HMM besteht dann aus der Konkatenation der einzelnen 

Einheiten-HMMs. Als Einheiten kommen z.B. Silben oder Phone in Frage. 

Auch mit Teilen von Phonen (Fenones) wurden Experimente durchgeführt 

[?]. Wiederum waren es praktische Gründe, die dafür sprachen Phone(me) 

zu verwenden. Denn um festzulegen, aus welchen Untereinheiten ein Wort 

besteht, benötigt man einen Experten – nicht unbedingt einen Phonetiker, 

aber zumindest jemanden, der weiß, wie die Akustik eines Wortes in 

einer eindeutigen Lautschrift dargestellt werden kann. Die Umschreibung 

von Aussprachen mittels subphonetischer Einheiten ist zum einen enorm 

schwierig und aufwendig, zum anderen ist es schwierig, eine sinnvolle


Menge subphonetischer Einheiten festzulegen. Daß die Modellierung von 

Aussprachen mittels einer vorgegebenen Menge von Silben nicht einfach 

ist, erkennt man gelegentlich an der Schwierigkeit, mit der Fremdwörter in 

die Japanische Sprache aufgenommen werden. Im Japanischen gibt es eine 

feste Silbenmenge und jede Silbe hat eine eigene im wesentlichen kontextunabhängige 

Aussprache. Wenn für bestimmte Wörter keine exakt passende 

Silbenfolge gefunden werden kann, wird leicht aus einem Wort wie ” Stuttgart“ 

etwas, das sich anhört wie ” Schututogaruto“. Also sind es die Phoneme. 

Linguisten und Phonetiker verwenden schon seit langer Zeit das international 

genormte IPA Alphabet. Viele Sprachen (z.B. die meisten slawischen 

Sprachen, auch skandinavische Sprachen) verwenden eine Orthographie, die 

sehr eng an die Aussprache angelehnt ist. Bedenkt man, daß der Ursprung 

unseres lateinischen und auch des griechischen und arabischen Alphabets 

die Umschreibung der akustischen Erscheinung ist, so verwundert es nicht, 

daß selbst Laien sehr schnell lernen können, zu einem Wort die passende 

Aussprache in Lautschrift zu finden. Die meisten Sprachen verwenden ca. 

50 verschiedene Laute. Je nach Definition eines Lautes können das auch 

nur 20 oder mehrere hundert sein. Im Chinesischen zum Beispiel gibt es 

von jedem Vokal mehrere (je nach Dialekt vier bis fünf) Ausprägungen. 

In jedem Fall sind es ” ausreichend wenige“, damit jeder Laut in einer 

Standard-Datenbasis genügend Vorkommen hat. Damit ist sichergestellt, 

daß ein Phonem-HMM bzw. seine Parameter robust trainiert werden können. 

Abb. 12.8 zeigt, wie ein typisches HMM für das Wort ” Tag“ entsteht. 

Im ersten Schritt würde ein HMM-System in einem Aussprachelexikon 

nachsehen, um festzustellen, daß das Wort aus drei Phonemen besteht: t, a 

und g. Für jedes Phonem gibt ein vorkonstruiertes Phonem-HMM basierend 

auf dem Bakis Übergangsschema. Jedes der Phonem-HMMs ist aus drei 

Zuständen aufgebaut, von denen der erste (jeweils mit ” -b“ markiert) die 

akustischen Eigenschaften des Segments zu Beginn des Phonems modelliert, 

der zweite (mit ” -m“ markiert) den Mittelteil, und der dritte (mit ” -e“ 

markiert das Ende. Würden wir streng nach dem Bakis-Schema vorgehen, 

dann müßte zu den eingezeichneten Übergängen noch ein Übergang aus dem 

letzten Zustand in den ” zweiten“ des darauffolgenden Teil-HMMs gehen. 

Erstens ist es gar nicht sicher, ob dieses dann überhaupt mehr als einen 

Zustand hat, und zweitens könnte es sogar mehrere ” zweite“ Zustände 

haben. In der Praxis haben sich derartige kleine Abweichungen von der 

Definition des Übergangsschemas als meistens irrelevant erwiesen. Das 

Ergebnis der Komposition des Wort-HMMs aus Phonem-HMMs ist in Abb. 

12.8 unten zu sehen. Ohne daß dies in der Abbildung gekennzeichnet wäre, 

ist der mit ” T-b“ markierte Zustand der Erste (also π( ” T-b“) = 1.0) und 

der mit “G-e“ markierte der Finalzustand.


Bakis-Modell für Phonem T 

Bakis-Modell für Phonem A 

Bakis-Modell für Phonem G 

T-b 

A-b 

G-b 

T-b T-m T-e A-b A-m A-e 

T-m T-e 

A-m A-e 

G-m G-e 

Hidden-Markov-Modell für das Wort ” Tag“ [T] [A] [G] 

G-b 

Abb. 12.8. Komposition eines Wort-HMMs aus Phonem-HMMs 

G-m G-e 

So ist es möglich, durch Verwenden von ca. 50 Phonem-HMMs die 

Wort-HMMs für ein unbegrenztes Vokabular bauen zu können. Ein Erkenner 

könnte also auch ein Wort erkennen, das niemals in der Entwicklungs- oder 

Trainingsphase des HMMs aufgetaucht ist, solange die Aussprache dieses 

Wortes aus Phonemen besteht, die zum vorliegenden Phonemsatz gehören. 

Hidden-Markov-Modell für das Wort ” Tat“ [T] [A] [T] 

T-b T-m T-e A-b A-m A-e T-b T-m T-e 

Abb. 12.9. Komposition eines Wort-HMMs aus sich wiederholenden Phonemen


Abb. 12.9 zeigt das Wort-HMM für das Wort ” Tat“ bestehend aus den 

drei Phonemen t, a und noch einmal t. Obwohl das Wort mit neun Zuständen 

modelliert wird, werden nur sechs verschiedene Emissionswahrscheinlichkeitsmodelle 

(Gauß-Mischverteilungen) verwendet. Die ersten drei und die letzten 

drei Zustände benutzen dieselben Parameter. 

Neben der schnell einleuchtenden gemeinsamen Nutzung von Parametern 

für die selben Laute an verschiedenen Stellen eines Wortes oder Textes gibt 

es eine Reihe weiterer Gründe, warum Parameter gekoppelt werden sollten. 

Dadurch wird nicht nur die Möglichkeit, beliebige nichttrainierte Wörter 

zu bilden, erleichtert, sondern auch die Robustheit der Modelle erhöht. So 

werden im Beispiel der Abb. 12.9 die drei linken Gauß-Mischverteilungen mir 

mehr Trainingsdaten trainiert. Ohne Diese Kopplung würde ein Erkenner 

mir mehr als ca. 50 Vokabularwörtern mehr Parameter benötigen als ein 

ungekoppelter. Und somit würden auf jeden Parameter im Schnitt weniger 

Trainingsbeispiele fallen. 

12.5.3 Numerische Probleme in der Praxis 

Wenn wir eine Berechnung von Merkmalsvektoren in Abständen von 10ms 

zugrunde legen und annehmen, daß ein Forward-Algorithmus (oder auch 

Backward- bzw. Viterbi-Algorithmus) auf einer 10s langen Aufnahme durchgerechnet 

werden soll, dann berechnet sich am Ende der Wert αT(j) als ein 

Produkt von 2000 Wahrscheinlichkeiten (bei diskreten HMMs) bzw. 1000 

Wahrscheinlichkeiten und 1000 Dichtewerten (bei kontinuierlichen HMMs). 

Man erkennt schnell, daß der Wertebereich der üblichen IEEE-32-Bit 

Fließkommazahlen nicht ausreicht, ja selbst der Bereich der IEEE-64-Bit 

Zahlen kann leicht gesprengt werden und das Produkt kann zu 0.0 werden. 

Zwei verschiedene Gegenmaßnahmen bieten sich an: Erstens die regelmäßige 

Skalierung und zweitens das Rechnen im logarithmischen Bereich. 

Bei der regelmäßigen Skalierung gehen wir davon aus, daß uns der Absolutwert 

der Wahrscheinlichkeit der Beobachtung P(x) nicht interessiert. 

Sowohl zur Berechnung der Trainingsfaktoren γt(i) als auch zum Vergleich 

von P(x|λ1) mit P(x|λ2) genügt es, statt αt(i) ein skaliertes αt(i) · kt für ein 

beliebiges (aber bezüglich i konstantes) k zu verwenden. Der Skalierungsfaktor 

k kürzt sich in allen relevanten Rechnungen heraus. 

αt(j) = kt · bj(xt) · 

N 

αt−1(i) · aij 

i1 

(12.25) 

Um zu vermeiden, daß kt im voraus (manuell) bestimmt werden muß, 

kann man einen Schwellwert θ festlegen, und so lange kt = 1 lassen, bis zum 

Zeitpunkt t1 für einen Zustand i der Wert αt1(i) < θ ist. die Multiplikation


aller αt1(i) mit kt1 = 1 sorgt dann dafür, daß für einige Zeitpunkte nach t1 

der Schwellwert nicht mehr unterschritten wird. 

Die andere Alternative, das Rechnen im logarithmischen Bereich erfordert 

kein Skalieren. Hierbei werden statt der Wahrscheinlichkeiten deren Logarithmen 

beziehungsweise negierte Logarithmen verwendet. So wird dann 

beim Viterbi-Algorithmus aus Gl. 12.12: 

log zt(j) = log bj(xt) + max(log 

aij + log zt−1(i)) (12.26) 

i 

Ein Überlaufen des Wertebereichs von Fließkommazahlen beim logarithmischen 

Rechnen kann nach menschlichem Ermessen ausgeschlossen werden. 

Ein weiterer Vorteil des Rechnens im Logarithmus besteht in der vereinfachten 

Auswertung von Gauß-Mischverteilungen. Die in jeder solchen Verteilung 

enthaltene Exponentiation kann entfallen. 

Etwas komplizierter sieht es allerdings beim Forward-Backward- 

Algorithmus aus. Da wird aus Gl. 12.6: 

 

N 

 

log αt(j) = log bj(xt) + log αt−1(i) · aij 

(12.27) 

i=1 

Hier haben wir im Argument des Logarithmus eine Summe, die sich nicht 

weiter Auflösen läßt, so daß vor der Anwendung des Logarithmus die bereits 

bekannten log αt−1(i) erst exponentiert werden müssen.

13. Das Trainieren von Spracherkennern 

Der Begriff ” Training“ ist nicht eindeutig definiert. Im allgemeinen wird 

damit der Prozeß bezeichnet, bei dem die Parameter eines Klassifikators optimiert 

werden. Der Kern des Trainings bei Hidden-Markov-Modellen sind die 

Baum-Welch Optimierungsregeln und im Fallen von Gauß-Mischverteilungen 

der Expectation Maximization Algorithmus. In der Praxis gibt es allerdings 

noch einige andere Aspekte, die berücksichtigt werden sollten. Im folgenden 

werden einige dieser Aspekte erläutert. 

13.1 Überblick über den HMM-Entwicklungsprozeß 

Man kann die HMM-Entwicklung ganz grob in drei Phasen aufteilen: Nach 

der Initialisierungsphase kommt die iterative Optimierung und schließlich 

die Evaluation und Bewertung des Systems. 

13.1.1 Initialisierung 

Verschiedene Möglichkeiten für die initiale Einstellung der Erkennerparameter 

sind sinnvoll. Dazu gehört sowohl die völlig unvoreingenommene 

zufällig oder gleichverteilte Initialisierung als auch die Verwendung von 

zuvor gesammeltem Wissen in Form von exakt beschriebenen (etikettierten) 

Sprachaufnahmen. 

Zufällige oder gar keine Initialisierung 

Grundsätzlich kann man davon ausgehen, daß aus der Theorie der Hidden- 

Markov-Modelle und insbesondere der Baum-Welch Optimierungsregeln zu 

folgern ist, daß die Trainingsdaten mit jedem Optimierungsschritt besser 

modelliert werden. Das heißt, daß es im Prinzip nicht nötig ist, die Parameter 

mit irgendwelchen besonderen Werten zu initialisieren. Lediglich die 

mathematische Korrektheit (z.B. symmetrische nicht-singuläre Kovarianzmatrizen, 

Mixturgewichteverteilungen und Übergangswahrscheinlichkeit, die

206 13. Das Trainieren von Spracherkennern 

der Wahrscheinlichkeitstheorie entsprechen, usw.) sollte erfüllt sein. Dennoch 

empfiehlt es sich, sinnvolle Startwerte für die Parameter zu verwenden. 

Zum einen garantieren die Baum-Welch Regeln nur das Approximieren 

eines lokalen Optimums nicht aber des globalen, und zum anderen kann das 

Erreichen selbst dieses lokalen Optimums vielleicht erst nach sehr langer 

Zeit erreicht werden. In Experimenten [?] wurde gezeigt, daß in der Tat mit 

zufällig bzw. schlecht initialisierten Parametern nach signifikant längerer 

Trainingsdauer beinahe ähnlich gute Erkennungsleistungen erreicht werden 

können wie mit gut initialisierten Parametern. 

Etikettierte Daten 

Der Forward-Backward-Algorithmus liefert die Werte γt(i) = P(qt = i, X|λ) 

mit Hilfe derer dann die HMM-Parameter trainiert werden können. Für 

eine einfache Initialisierung würde es genügen, wenn wenigstens irgend 

eine sinnvolle Verteilung der Trainingsdaten auf die verschiedenen Modelle 

vorgegeben wäre. Wenn an jedem Merkmalsvektor xt ein ” Etikett“ et hinge, 

auf dem angegeben ist, zu welchem Model der Vektor gehört, dann könnten 

wir zumindest so tun, als wäre 

 

0 für i = et 

γt(i) = 

. (13.1) 

1 für i = et 

Mit diesen Informationen können nun die Baum-Welch-Regeln angewandt 

werden ohne daß zuvor ein Forward-Backward gerechnet werden muß, der 

sonst mangels sinnvoller Parameter nur schlechte Schätzungen für die γt(i) 

geliefert hätte. 

Der etablierte Begriff für Etiketten ist sowohl im Englischen als auch 

im Deutschen Labels. Sie können auf verschiedene Arten gewonnen werden. 

Je weniger Trainingsdaten zur Verfügung stehen und je schwieriger die 

Bedingungen sind (hohe Spontaneität der Sprache, Dialekte, viel Rauschen 

oder Störgeräusche, neue fremde Sprache etc.) umso hilfreicher sind ” gute“ 

Labels. Am besten sind Labels, die von Menschen erstellt werden, die sich 

eine Aufnahme anhören und dann jeden Laut und jedes Geräusch exakt 

lokalisieren. Derart feine Labels werden seit Anfang der achtziger Jahre 

nicht mehr hergestellt, weil der Aufwand für die heute verwendeten sehr 

großen Sprachdatensammlungen zu hoch ist. Wenn heute Menschen Labels 

erzeugen, dann bestehen diese in der Regel nur aus der Niederschrift der 

gesprochenen Worte und der gut hörbaren Geräusche. Wenn es besonders 

auffällig ist, werden falsche Aussprachen als solche markiert. Allerdings 

werden weder die zeitlichen Positionen einzelner Laute noch einzelner 

Wörter markiert. Lediglich Anfänge und Enden der einzelnen Äußerungen 

sind bekannt – wobei diese meist sowieso vollautomatisch (vgl. Abs. 10.1.1) 

gefunden werden, oder durch die Aufnahmeapparatur vorgegeben sind. Bei

13.1 Überblick über den HMM-Entwicklungsprozeß 207 

derartig ” dünnen“ Labels spricht mach dann auch eher von ” Transkripten“ 

oder ” Transkriptionen“. Sie sind das Minimum, das an Wissen nötig ist, um 

überhaupt ein HMM zum Trainieren einer Äußerung aufzubauen, und bieten 

somit keine zusätzlichen Informationen die speziell für die Initialisierung der 

Parameter verwendet werden kann. Daher werden für die meisten Initialisierungen 

neuer Erkenner automatisch erzeugte detaillierte Labels verwendet. 

Dazu wird ein bereits existierender Erkenner genommen und ein Forward- 

Backward oder Viterbi-Algorithmus auf den Trainingsaufnahmen gerechnet. 

Dieser existierende Erkenner produziert relativ schlechte Viterbi-Pfade beziehungsweise 

relativ schlechte γt(i), weil er entweder für eine andere Sprache, 

ein anderes Vokabular, andere Aufnahmebedingungen oder sonstige andere 

Unstände gebaut wurde, oder weil er mit sehr wenig Daten trainiert wurde. 

Diese Labels haben dann eine geringere Qualität als von Menschen erzeugte, 

dafür sind sie für beliebig große Datenmengen quasi kostenlos zu erhalten. 

Das Vorhandensein initialer Labels ist die Voraussetzung zur Berechnung 

initialer Erkennerparameter. Die HMM-Parameter wie Übergangswahrscheinlichkeiten, 

und Anfangswahrscheinlichkeiten lassen sich mit den 

Baum-Welch Regeln direkt bestimmen. Problematischer ist dies für die Modellierung 

der Emissionswahrscheinlichkeiten. Werden diese mit neuronalen 

Netzen berechnet, dann können deren Gewichte in der Tat beliebig zufällig 

initialisiert werden. Bei Gauß-Mischverteilungen wäre aber eine zufällige 

Initialisierung problematisch. Auch der EM-Algorithmus garantiert nicht, 

daß das System am Ende in einem globalen Optimum landet. Tatsächlich 

kann man in der Praxis immer wieder beobachten, daß einzelne Vektoren 

von Codebücher (d.h. einzelne Gauß-Verteilungen einer Mischverteilung) 

quasi ” ungenutzt“ bleiben, weil fast keine Trainingsdaten auf diese Fallen. 

Wenn es zu viele solcher Ausreißerfälle gibt, dann wird der zur Verfügung 

stehende Parameterraum nur unzureichend genutzt und die Qualität des 

Erkenners sinkt. Daher ist es wichtig, schon vor der ersten Aktualisierung 

der Gauß-Mischverteilungsparameter für diese sinnvolle Werte zu haben. 

Die beliebteste Methode, Codebücher sinnvoll zu initialisieren ist das k 

Mitellewerte Verfahren (s. Abs. 9.1.6). Dabei werden die vorhandenen Labels 

verwendet, um zu bestimmen welcher Trainingsvektor in welches Codebuch 

gehört. Wenn alle Trainingsvektoren ihrem Codebuch zugeordnet worden 

sind, könne initiale Codebücher mit dem k-Mittelwerte beziehungsweise 

LBG-Verfahren erzeugt werden. 

Parametertransfer 

Schließlich bleibt noch eine dritte auch häufig angewandte Methode der 

Parameterinitialisierung zu erwähnen. Man verwendet dabei einfach die 

bereits vorhandenen Parameter eines existierenden Erkenners für einer 

andere möglichst ähnliche Aufgabe. Wenn die angestrebte Architektur


des neuen Parameterraumes mit der des existierenden identisch ist, lassen 

sich die Parameter alle eins zu eins übertragen. Wenn die Architekturen 

verschieden sind (zum Beispiel andere Phonemmengen), dann muß 

erst bestimmt werden, welcher ” neue“ Parameter welchem ” alten“ entspricht. 

13.1.2 Iterative Optimierung 

In der Praxis ist es eher die Regel als die Ausnahme, daß zum Trainieren 

statt des Forward-Backward-Algorithmus der Viterbi-Algorithmus verwendet 

wird. Zwar liefert dieser nicht die Trainingswahrscheinlichkeiten γt(i) = 

P(qt = i|X, λ) sondern die wahrscheinlichste Folge Q = q1, q2, . . . qT von 

Zuständen, also 

Q = argmaxP(Q|X, 

λ) (13.2) 

Q 

Es ist zwar mathematisch nicht korrekt, aber für sehr große T in etwa 

gleich gut, die Trainingswahrscheinlichkeiten genauso wie bei der Verwendung 

von Labels in Gl. 13.1 als 

 

0 für i = qt 

γt(i) = δi,qt = 

. (13.3) 

1 für i = qt 

zu definieren. 

Graustufenmatrix der γt(i) des Viterbi-Pfad 

Forward-Backward-Algorithmus 

Abb. 13.1. Training mit Viterbi statt Forward-Backward 

Die Verwendung des Viterbi-Algorithmus bietet mehrere Vorteile 

gegenüber dem Forward-Backward-Algorithmus. Ein großer Vorteil ist 

der wesentlich geringere zeitliche Aufwand. Wie bereits in Abs. 12.5.3 

angesprochen, läßt sich der Viterbi-Algorithmus relativ einfach im logarithmischen 

Zahlenbereich anwenden. Bei ihm ist es auch einfach möglich, 

die gleichen Techniken zur Suchraumbeschneidung anzuwenden wie beim 

DTW-Algorithmus (vgl. Abs. 11.3.1). Beim Forward-Backward ist es zwar

13.1 Überblick über den HMM-Entwicklungsprozeß 209 

auch denkbar auf die ” Expansion“ einzelner αt(i), die unterhalb eines 

Schwellwertes liegen, zu verzichten. Jedoch ist dies wesentlich komplizierter 

und birgt eine zusätzliche Gefahr in sich, daß nämlich beim Vorwärtsdurchgang 

völlig andere Bereiche des Suchraumes beschnitten werden als beim 

Rückwärtsdurchgang. So kann dies bei zu starker Beschneidung dazu führen, 

daß keine sinnvollen γt(i) berechnet werden können, weil in den meisten 

Fällen entweder αt(i) oder βt(i) durch Beschneiden auf 0 gesetzt wurden. 

Dies führt dazu, daß in der Praxis ein Forward-Backward um ein Vielfaches 

mehr zeitlichen Aufwand hat als ein Viterbi. 

Der Vorteil des Forward-Backward besteht darin, daß jedes einzelne 

Trainingsmuster auf mehrere Modelle mit unterschiedlicher Wahrscheinlichkeit 

verteilt werden kann. Somit erhalten die einzelnen Modelle mehr 

Trainingsmuster zum Schätzen ihrer Parameter als bei einer ” harten“ Zuordnung, 

wie sie der Viterbi-Algorithmus findet. Je mehr Trainingsdaten zur 

Verfügung stehen, umso weniger fallen die Nachteile des Viterbi-Trainings 

gegenüber dem Forward-Backward-Trainings ins Gewicht. Bei sehr großen 

Trainingsdatenmengen wirkt sich auch das bessere Laufzeitverhalten des 

Viterbi-Algorithmus aus. 

Noch schneller als das Viterbi-Training ist das Trainieren entlang vorberechneter 

Labels. Die Ähnlichkeit der Gl. 13.1 und 13.2 deutet darauf hin, 

daß Labels nicht nur zu Initialisierungszwecken verwendet werden können, 

sondern auch zum regulären Baum-Welch-Training. Natürlich gilt es hierbei 

zu berücksichtigen, daß zum einen schlechte (weil von einem unpassenden 

Erkenner erzeugte) Labels auch in schlechten Parameterschätzungen resultieren, 

und zum anderen die Konvergenz des Baum-Welch-Verfahrens 

nur dann gegeben ist, wenn sich die Zuordnungen von Trainingsmustern 

zu Modellen auch ändern können. Daher verwenden viele Forscher beim 

Trainieren ihrer Erkenner ein Gemisch von verschiedenen Verfahren. Je 

nach Entwicklungsphase wird entlang Labels trainiert, und zwischendurch 

werden mit Forward-Backward oder mit Viterbi neue (inzwischen bessere) 

Labels berechet. Das ganze wird mehrfach iteriert, bis keine Verbesserung 

des Erkenners mehr zu beobachten ist. 

Auch beliebt ist die Vorgehensweise, mehrere Erkenner mit aufsteigend 

komplexen Parameterräumen zu entwickeln, von denen jeder die Grundlage 

(in Form von Berechnen der Labels und Lieferant initialer Parameter) 

für den nächsten komplexeren Erkenner ist. Die Komplexitätssteigerungen 

gehen einher mit größeren HMM-Zustandsräumen, mehr oder größeren 

Gauß-Mischverteilungen und feineren Parameterkopplungsgraden. 

Grundsätzlich orientieren sich aber alle Trainingsmethoden am Prinzip 

des wiederholten Trainierens und Testens. Nach jeder Trainingsphase wird


eine Testphase durchgeführt, in der die mittlerweile erreichte Erkennerleistung 

gemessen wird. Trainingsphasen können einfache Wiederholungen 

des Baum-Welch-Trainings sein, ohne daß dabei der Parameterraum oder 

die Daten verändert werden. Sie können aber auch Komplexitätssprünge 

enthalten. Solange sich die Qualität verbessert, wird weiter trainiert. Das 

Training wird dann beendet, wenn keine Aussicht auf weitere Verbesserungen 

zu erwarten sind. 

Die regelmäßige Evaluation der Erkennerleistung dient aber nicht 

nur dazu, zu bestimmen, wann ein guter Zeitpunkt zum Beenden des 

Trainings erreicht wird. Sie dient auch dazu, Entscheidungen zu treffen, 

welche von mehreren Varianten der Fortsetzung des Trainingsprozesses 

die bessere ist. So kann entschieden werden, ob sich eine Steigerung der 

Parameterraumkomplexität lohnt oder ob die Anwendung eines bestimmten 

Trainingsparadigmas erfolgversprechend ist. 

13.2 Aufteilung der Sprachaufnahmen 

Bei den allermeisten Klassifikationsaufgaben empfiehlt es sich, die Klassifikationsleistung 

nicht auf den Daten zu messen, die verwendet wurden, 

um die Parameter des Klassifikators zu schätzen. Meistens interessiert nur 

die Leistung auf ” ungesehenen Daten“, das heißt die Generalisierungsfähigkeit. 

Für viele parametrische Klassifikatoren existieren Algorithmen zum 

iterativen Schätzen ihrer Parameter. Die Klassifikationsleistung auf den 

für die Schätzung der Parameter verwendeten Trainingsdaten wächst mit 

jeder Iteration. Dies gilt jedoch nicht für ungesehene Daten (s. Abb. 13.2). 

Der Parameter des Schätzers beschreiben die Trainingsdaten immer besser. 

Sie stellen ein immer genaueres Modell der Trainingsmenge dar, bis sie 

irgendwann die Trainingsdaten quasi ” auswendig lernen“. Dann paßt das 

Modell nicht mehr so gut auf die ungesehenen Daten und die Klassifikationsleistung 

auf diesen nimmt ab. Dieser Effekt wird als ” Overfitting“ bezeichnet. 

Der gleiche Effekt tritt auch ein bei Klassifikatoren mit variabler Anzahl 

Parameter auf. Je größer die Zahl der Parameter, umso genauer kann das 

Modell die Trainingsdaten modellieren. Eine einfache Manifestation dieses 

Effektes kann man bei der Schätzung eines Polynoms, das von einer gegebenen 

Menge von Meßwerten möglichst wenig abweichen soll, beobachten. 

Wenn man zur Erfassung der Punkte aus Abb. 13.3 ein Polynom 

zweiten (a) Grades verwendet wird die Abweichung noch recht groß bleiben, 

ein Polynom dritten Grades (b) paßt schon besser. Und bei Verwendung 

eines Polynoms siebten (c) Grades können die sechs Trainingsdatenpunkte

Fehlerrate 

auf 

Trainingsdaten 

Abb. 13.2. Der Overfitting-Effekt 

13.2 Aufteilung der Sprachaufnahmen 211 

optimales 

Trainingsende 

auf 

Testdaten 

Abb. 13.3. Angleichung einer Punktmenge durch Polynome 

Trainingszeit 

(a) 

(c) 

(b)


fehlerfrei modelliert werden. Die Wahrscheinlichkeit dafür, daß ein weiterer 

zufälliger Meßwert vom Polynom weit verfehlt wird, ist aber sehr groß. 

Um den Overfitting-Effekt zu vermeiden ist es notwendig, die Evaluation 

des Systems nicht auf den Trainingsdaten zu machen sondern auf Kreuzvalidierungsdaten. 

Diese Kreuzvalidierungsdaten dürfen nach Beendigung der 

Erkennerentwicklung nicht verwendet werden, um die Erkennerleistung zu 

messen und diese zu veröffentlichen. Schließlich werden Kreuzvalidierungsdaten 

dazu benutzt, Entscheidungen zu treffen, die sich auf eben diese Daten 

positiv auswirken. 

Das bedeutet, daß die wissenschaftlich korrekte Vorgehensweise bei 

der Entwicklung von Spracherkennern mindestens eine Dreiteilung der 

zur Verfügung stehenden Daten erfordert. Die drei überschneidungsfreien 

Teildatenmengen werden Trainingsdaten, Kreuzvalidierungsdaten, und 

Evaluierungsdaten genannt. Statt des Begriffs Kreuzvalidierungsdaten 

wird auch manchmal der Begriff Entwicklungsdaten (engl.: development 

data) verwendet, und statt Evaluierungsdaten auch manchmal Testdaten. 

Im Grunde dürfen Evaluierungsdaten nur ein einziges Mal eingesetzt werden 

– abgesehen von der Verwendung für verschiedene unabhängige Projekte, 

deren Leistungen dann durch Evaluierung auf denselben Daten verglichen 

werden können. Gelegentlich wird es akzeptiert Evaluierungsdaten mehrfach 

zu verwenden, um eine einfachere Vergleichbarkeit von Leistungsbewertungen 

zu ermöglichen, wenn davon auszugehen ist, daß keine Entscheidungen 

von den Systementwicklern getroffen wurden, die auf dem Wissen basierten, 

wie sie sich auf den Evaluierungsdaten auswirken. 

Experiment 13.1: HMM Training 

Starten Sie das Applet HMM Training und klicken Sie auf Start . Auf 

der Oberfläche sehen Sie die Darstellung einer Wellenform, darunter befinden 

sich 25 Felder (numeriert von 0 bis 24). Durch Klicken auf eines 

dieser Felder können sie verschiedene vorbereitete Aufnahmen einiger 

englischer Wörter auswählen. Wenn Sie eine Aufnahme auswählen wird 

ihr Signal angezeigt und Sie können sie durch Betätigen von Play abspielen. 

Sie können auch einzelne Felder mit selbstgemachten Aufnahmen überspielen. 

Lassen Sie dazu zunächst die Aufnahmen 0 bis 23 unverändert und 

wählen Aufnahme 24 aus. Jetzt können Sie mit Record selbst eine kurze 

Aufnahme machen, die dann unter Feld 24 abrufbar ist.

13.2 Aufteilung der Sprachaufnahmen 213 

Am unteren Rand des Applets befindet sich das Spektrogramm der gerade 

ausgewählten Aufnahme. Hierbei handelt es sich allerdings um nur zwei 

Filterbankkoeffizienten (sie entsprechen grob dem Anteil tiefer und hoher 

Frequenzen im Signal). Wenn Sie z.B. die Aufnahme 0 (das englische Wort 

” ache“ betrachten, sehen Sie in der vorderen zeitlichen Hälfte mehr Energie 

(wegen des Vokals) vor allem im unteren Frequenzband, und in der hinteren 

Hälfte, die dem k-Laut entspricht sind die Filterbankkoeffizienten heller, d.h. 

kleiner. 

Unterhalb der 25 Aufnahmefelder befinden sich acht Gauß-Mischverteilungen 

(markiert mit AE-b, AE-e, EY-b, EY-e, K-b, K-e, SH-b und SH-e). Diese 

bestehen aus jeweils zwei einzelnen Gauß-Verteilungen über dem zweidimensionalen 

Merkmalsraum der beiden Filterbänke. Ein dunkler Punkt auf der 

Darstellung an der Position (x, y) entspricht einer hohen Wahrscheinlichkeit 

für das Beobachten eines Merkmals, dessen unterer Filterbankkoeffizient x 

ist und dessen oberer Filterbankkoeffizient y ist. 

Zu beginn sind alle Gauß-Mischverteilungen gleich initialisiert. Die beiden 

einzelnen Gauß-Verteilungen haben leicht unterschiedliche Mittelwerte, so 

daß die initialen Graustufenbilder etwas oval aussehen. 

Unterhalb der Darstellungen der Gauß-Mischverteilungen sehen sie verschiedene 

Hidden-Markov-Modelle, je eines für die Wörter ache“, ash“, cake“, 

” ” ” 

” shack“ und shake“. Unter den einzelnen Zuständen befinden sich die 

” 

Namen der zugehörigen Gauß-Mischverteilungen. Die Zustandsübergänge 

sind mit dem Zehnfachen ihrer Wahrscheinlichkeit beschriftet (ggf. kann 

durch Rundungsfehler die Summe ungleich 1 sein). Durch Anklicken eines 

dieser Wörter können Sie das entsprechende HMM auswählen, woraufhin es 

rot eingefärbt wird und seine Zustände auf der vertikalen Beschriftungsachse 

der darunterliegenden (DP-)Matrix erscheinen. 

Der Forward-Algorithmus berechnet p(X|λ), durch Auswahl einer bestimmten 

Aufnahme wählen Sie das X aus, und durch Auswahl eines bestimmten 

Wortes das λ. Wählen Sie nun die Aufnahme 0 und das Wort ” ache“. Nach 

Klicken von Forward wird die Matrix mit mehr oder weniger gefärbten 

Rechtecken gefüllt. Die Stärke der Färbung des Rechtecks in der j-ten Zeile 

und t−ten Spalte entspricht dem Wert αt(j) aus dem Forward-Algorithmus. 

Am unteren Rand, unterhalb des Spektrogramms wird der Wert p(X|λ) 

ausgegeben - er sollte ca. 8 · 10 −9 sein. 

Nachdem Sie nun P(Aufnahme0|λ(ache)) berechnet haben, versuchen sie 

dies auch für P(Aufnahme0|λ(ash)) und für die anderen Wörter. Machen 

Sie sich klar, daß immer die gleiche Wahrscheinlichkeit herauskommt, weil 

zu beginn alle akustischen Parameter gleich initialisiert sind.


Wählen Sie nun wieder Aufnahme 0 und ” ache“ aus. Klicken Sie auf 

Forward-Backward . Auch jetzt erscheint eine Matrix mit eingefärbten 

Zellen, die diesmal den γt(j) des Forward-Backward-Algorithmus entsprechen. 

Diese werden im Programm intern abgespeichert. Wenn Sie danach 

auf Update klicken. Werden Die Parameter des HMMs entsprechend 

der Baum-Welch Regeln und dem Expectation Maximization Algorithmus 

optimiert. 

Sie können erkennen, daß jetzt die Darstellung der Gauß-Mischverteilungen 

nicht mehr überall gleich ist. Insbesondere haben sich die Verteilungen 

für die Modelle EY-b, EY-e, K-b und K-e verändert. Auch wenn diese 

Veränderungen nur minimal ausfallen, ist erkennbar, daß der Schwerpunkt 

der K-b und K-e Modelle näher zum Nullpunkt gerückt ist. Dies ist darauf 

zurückzuführen, daß diese Modelle tendenziell eher mit den Mustern trainiert 

wurden, die dem verhältnismäßig energiearmen k-Laut entsprechen. 

Wenn Sie die Verteilungen von EY-b und EY-e miteinander vergleichen 

erkennen Sie, daß der Schwerpunkt der EY-e Verteilung weiter ” oben“ liegt. 

Dies ist darauf zurückzuführen, daß der EY-Laut ein Diphthong ist, dessen 

vorderer Teil (EY-b) durch das eher etwas tiefer klingende E dominiert wird, 

während der hintere Teil (EY-e) durch das eher etwas höher klingende Y 

dominiert wird. Daher wurde die Mischverteilung des EY-e Modells tendenziell 

eher mit Mustern trainiert, deren oberes Frequenzband energiereicher ist. 

Wenn Sie nun wiederholt Forward-Backward Update klicken, können 

Sie beobachten, wie mit jeder Iteration die angezeigte Wahrscheinlichkeit 

für P(Aufnahme0|λ(ache)) steigt. Die eben festgestellten Veränderungen an 

den Gauß-Mischverteilungen der Modelle, die im Word ” ache“ vorkommen, 

werden zementiert. 

Um den Erkenner mit mehreren Aufnahmen zu trainieren müßten Sie 

die Aufnahmen einzeln zusammen mit ihren entsprechenden Wort-HMMs 

auswählen und jeweils Forward-Backward ausführen; am Ende dann 

einmalig Update , um alle akkumulierte Trainingsinformation auszuwerten. 

Die Aufnahmen sind so angeordnet daß für jedes der Vokabularwörter vier 

Aufnahmen vorhanden sind. Da es zur Beurteilung der Erkennerqualität 

nicht korrekt wäre, die Fehlerrate auch auf den Trainingsdaten zu messen, 

sollte ein Teil der Daten nicht für das Training verwendet werden. Wenn Sie 

die Aufnahmen 3, 7, 11, 15, 19 und 23 (und 24) auslassen, dann bleibt von 

jedem Wort eine Aufnahme für die spätere Evaluation übrig. Es wäre sogar 

interessant, alle Aufnahmen des Wortes ” shake“ wegzulassen, um später die 

Erkennung auf untrainierten Wörtern zu Testen.

13.3 Trainingsparadigmen 215 

Der Einfachheit halber kann im Applet dieses gesamte Training (auf 

den Aufnahmen 0,1,2,4,5,6,8,9,10,12,13,14,16,17 und 18) mit einmaligem 

Klicken auf Train All und Update durchgeführt werden. Bevor Sie dies 

tun, setzten sie zur Sicherheit alle Parameter mit Reset wieder auf ihre 

Ausgangswerte zurück. 

Wenn Sie das gesamte Training nun durchgeführt haben, sehen sie, daß 

sich alle Gauß-Mischverteilungen verändert haben. Auch wenn selbst nach 

dem umfangreichen Training die Änderungen nur gering ausfallen, ist 

jetzt erkennbar, daß die aktualisierten Verteilungen für die SH-Laute ihren 

Schwerpunkt eher weiter ” oben“ haben. Dies ist darauf zurückzuführen, daß 

diese Laute tendenziell weniger Energie im unteren Frequenzband haben 

(daher nach rechts gerückt) und mehr Energie im oberen Frequenzband habe 

(daher nach oben gerückt). 

Berechnen Sie jetzt mit dem trainierten System noch einmal 

P(Aufnahme0|λ(ache)). Der Wert sollte ca. 0.002 sein, also sogar signifikant 

höher als er nach ein- oder zweimaligem Training der Aufnahme 0 

war. Diese deutliche Verbesserung ist darauf zurückzuführen, daß jetzt die 

HMM-Parameter mit deutlich mehr Daten Trainiert wurden. 

Gehen Sie jetzt zum Testen des Erkenners über. Wählen Sie Aufnahme 15 

aus (diese war nicht im Training dabei). Wählen Sie das Modell des Wortes 

” ache“ und berechnen Sie P(Aufnahme15|λ(ache)). Dies sollte ca. 8.7 · 10 −4 

sein. Stellen Sie entsprechend fest, daß P(Aufnahme15|λ(ash)) ca. 8.3 · 10 −4 . 

Um nicht alle P(Aufnahme15|λ(. . .)) manuell berechnen zu müssen, klicken 

Sie einfach Test . Jetzt erscheint am unteren Rand auf der Höhe jedes 

Wortes die entsprechende Wahrscheinlichkeit. Den eindeutig größten Wert 

hat mit ca. 0.002 das Wort ” cache“. In diesem Fall hat also der Erkenner das 

korrekte Wort mit der höchsten Wahrscheinlichkeit versehen - also richtig 

erkannt. 

Wählen Sie nun Aufnahme 20 (die genauso wie alle anderen Aufnahmen 

des Wortes ” shake“ im Training nicht dabei war) und klicken Sie auf Test . 

Tatsächlich hat das Wort ” shake“ nun mit ca. 9 ·10 −4 die mit Abstand beste 

Wahrscheinlichkeit. 

13.3 Trainingsparadigmen 

Das Trainieren der Erkennerparameter kann auf verschiedene Arten erfolgen. 

Die in Kap. 12 vorgestellten Baum-Welch-Regeln sind nur eine – aber nicht


die einzige – Möglichkeit. Ähnliches gilt für den EM-Algorithmus in Kap. 9. 

So werden in der Spracherkennung nicht nur komplett andere Trainingsparadigmen 

verwendet, sondern immer wieder auch leichte Abwandlungen der 

mathematisch hergeleiteten Methoden, immer auch mit dem Wissen, daß 

die zugrundegelegten Modelle eben nur Modelle sind, und zur ” Annäherung 

an die Wirklichkeit“ auch Abweichungen von der Mathematik sinnvoll sein 

können. Im folgenden werde einige alternative Trainingsmethoden beleuchtet. 

13.3.1 Diskriminatives Trainieren 

Der EM-Algorithmus ist durch seine auf Maximum-Likelihood Schätzung 

basierte Optimierung aus Prinzip nichtdiskriminativ. Das heißt, jeder 

Parameter wird allein mit Hilfe der ihm zugeordneten (positiven) Trainingsmuster 

aktualisiert, unabhängig von den Parametern anderer Modelle. 

Das Ziel diskriminativen Trainings ist jedoch die Parameter so zu schätzen, 

daß nicht nur die Beobachtungswahrscheinlichkeit der positiven Beispielmuster 

maximiert wird, sondern auch die Wahrscheinlichkeit der negativen 

Beispielmuster minimiert wird. Bei Neuronalen Netzen, die mit der Error 

Backpropagation Methode trainiert werden, ist es aus mathematischer 

Sicht unproblematisch, das Vorzeichen der einzelnen Trainingsschritte 

umzudrehen. Aus der Definition der McCullogh-Pitts Neuronen folgt, daß 

jede Parameterbelegung wenn auch nicht unbedingt sinnvoll so aber auf 

jeden Fall legal ist. Bei Gauß-Mischverteilungen ist dies nicht der Fall. Die 

Mixturgewichte müssen Werte zwischen 0 und 1 annehmen. Kovarianzmatrizen 

müssen symmetrisch und nichtsingulär sein. Wenn beim Akkumulieren 

der Trainingsinformation für dem EM-Algorithmus einzelne Schritte mit 

negativem Vorzeichen versehen werden, kann dies dazu führen, daß z.B. 

Mixturgewichte negativ werden. Dennoch wurde immer wieder der Versuch 

unternommen, auch den EM-Algorithmus so zu modifizieren, daß er die 

diskriminative Fähigkeit der Modelle verbessert. Eine Möglichkeit, dies zu 

erreichen und dabei die Konsistenz der Parameter zu gewährleisten, besteht 

in der gezielten Auswahl der Trainingsmuster. 

Der Trainingsprozeß kann so modifiziert werden, daß Muster, die der 

Diskriminativität schaden, aus dem Training herausgenommen werden oder 

daß Muster, die der Diskriminativität helfen, dem Trainingsalgorithmus 

mehrfach präsentiert werden. Welche Muster der Diskriminativität zuträglich 

und welche ihr abträglich sind, hängt vom Einzelfall ab. Dabei ist es durchaus 

nicht so, daß diejenigen Muster, die in der Nähe der Klassifikationsgrenzen 

liegen und somit schwierig zuzuordnen sind, dazu beitragen, diese Grenzen 

zu verwischen und somit der Diskriminativität zu schaden. Ganz im Gegenteil: 

Diejenigen Muster, die weit weg von Klassifikationsgrenzen liegen, 

bewirken als ” Ausreißer“, daß die zu trainierenden Gewichte extreme Werte


annehmen. Sehr viele ” grenznahe“ Muster tragen eher dazu bei eine scharfe 

Trennlinie robust zu lernen. 

Diese konsistenzbewahrende Methode des diskriminativen Trainings 

arbeitet ohne Negativbeispiele. Eine explizite Wahrscheinlichkeitsreduktion 

für bestimmte Muster kann nicht direkt herbeigeführt werden, sondern 

ergibt sich - wenn überhaupt - nur durch die relative Verbesserung der 

Wahrscheinlichkeiten für die positiven Muster. Wenn man nicht fordert, 

daß die Modellparameter konsistent bleiben, ist es auch denkbar, beim 

Aufakkumulieren der Trainingsdaten des EM-Algorithmus, verschiedene 

Muster verschieden stark zu gewichten, insbesondere negative Beispiele mit 

negativen Gewichtungsfaktoren zu versehen. Die entschuldigende Annahme 

dabei ist die, daß es deutlich mehr positive Beispiele als negative geben 

sollte, so daß die wenigen negativen Beispiele an der Gesamtmasse der 

akkumulierten Information nur wie ein kleines Korrektiv wirken. Daher 

auch der in diesem Zusammenhang gern benutzte Begriff des korrektiven 

Trainings (s.u.). Dennoch kann man in der Regel nicht ausschließen, daß 

die Akkumulatoren inkonsistent werden, und muß Vorkehrungen treffen. Die 

einfachste Absicherung ist die Einführung von Minimalwerten (ǫ > 0 )für 

die Werte γ(. . .). Sollte ein γ(. . .) unter den Minimalwert fallen, wird es vor 

der Aktualisierung der Parameter auf diesen angehoben. 

Korrektives Trainieren 

Eine bereits recht früh angewandte Technik des diskriminativen Trainierens 

war das so genannte korrektive Trainieren (corrective training [?]). Die Idee 

hierbei ist, den Spracherkenner im Erkennungsmodus auf allen Trainingsaufnahmen 

laufen zu lassen und Erkennerhypothesen zu erzeugen. Nun 

kann man annehmen, daß diejenigen Aufnahmen, auf denen der Erkenner 

überhaupt keine Fehler macht ausreicheichend gut modelliert werden können 

und keinen Bedarf an Korrektur der Erkennerparameter stellen. Dort 

allerdings, wo der Erkenner Fehler macht, ist davon auszugehen, daß die 

Parameter nicht ausreichend gut trainiert sind. Nun ist es nicht sinnvoll, 

den kompletten Beitrag, den die falsch erkannte Aufnahme zum Training 

geleistet hat wieder zu entfernen oder gar negativ zu trainieren, sondern am 

besten nur diejenigen Bereiche, die fehlerhaft erkannt werden. Man kann 

dann, nachdem für jede Trainingsaufnahme sowohl eine korrekte Wortfolge 

(Transkription) und einer unter Umständen fehlerhafte Transkription (Hypothese). 

Für beide Wortfolgen kann nun ein Viterbi-Pfad berechnet werden. 

Dann werden die üblichen Baum-Welch Regeln angewandt, wobei die γt(i) 

für die Zustands-Zeit-Paare (t, i), die auf dem korrekten Viterbi-Pfad liegen, 

mit einem positiven Wert f > 0 und für diejenigen, die auf dem falschen 

Viterbi-Pfad liegen, mit einen negativen Wert g < 0 multipliziert (s. Abb.


13.4). 

korrekter Pfad 

falscher Pfad 

+ 

− 

Abb. 13.4. Korrektives Trainieren 

Für den einfachen Fall, daß der positive und negative Faktor absolut 

gleich sind (also f + g = 0), ergibt sich, daß auf allen Bereichen einer 

Aufnahme, auf denen der Erkenner keine Fehler macht, oder besser gesagt, 

auf denen die Viterbi-Pfade für Transkription und Hypothese gleich sind, gar 

keine Trainingskorrektur stattfindet. Auf den Bereichen, wo sich die Pfade 

unterscheiden, wird der korrekte Pfad ” normal“ trainiert und der falsche Pfad 

negativ. In der Praxis hat sich gezeigt, daß ein negativer aber absolut kleinerer 

Wert für g als für f am schnellsten zu den gewünschten Ergebnissen führt. 

MMIE-Training 

Man kann zeigen, daß mit einer unbegrenzten Menge an Trainingsdaten und 

einem Merkmalsraum, der die echte Quelle enthält, die globale Maximum 

Likelihood Schätzung in dem Sinne optimal ist, daß sie eine korrekte 

Mittelwerteschätzung und eine minimale Varianz liefert. Allerdings ist es 

so, daß bei der Entwicklung von HMM Spracherkennern die Trainingsdaten 

keineswegs in unbegrenztem Maße vorliegen, in der Regel haben wir weniger 

Trainingsmuster als der Merkmalsraum Ecken hat. Und wie nahe das Modell 

beziehungsweise der Parameterraum der Wirklichkeit kommen ist schwer 

abzuschätzen und mit Sicherheit nicht optimal. So kann man sehr wohl ein 

vom Maximum-Likelihood Training abweichendes Verfahren anwenden, das 

eine bessere Diskriminierungsfähigkeit hat, wie zum Beispiel das Maximum 

Mutual Information Estimation (MMIE) Verfahren. 

− 

+


Das für Hidden Markov Modelle meist angewendete Trainingsverfahren, 

das Baum-Welch Training ist auf die Maximum-Likelihood Schätzung ausgelegt 

und ist a priori nicht geeignet für diskriminatives Training. Es läßt 

sich allerdings erweitern zu einem MMIE-Verfahren [?], wie im folgenden 

beschrieben: 

Bei der Maximum-Likelihood Schätzung ist das Ziel die Maximierung des 

Terms 

T 

Lλ = lnpλ(X(t)|H(t)) (13.4) 

t 

wobei H(t) das Transkript der t-ten Trainingsäußerung, oder genauer gesagt 

das dazu gehörige Markov Modell ist, und X(t) die Beobachtung, also 

die Folge der Merkmalsvektoren der t-ten Trainingsäußerung ist. Der Baum- 

Welch Algorithmus transformiert die Parameter λ so, daß garantiert werden 

kann, daß Lλ gegen ein lokales Maximum konvergiert. Mit Verwendung von 

Lλ berechnet der Baum-Welch Algorithmus beispielsweise die Übergangswahrscheinlichkeiten 

für die Iteration t + 1 als 

a t+1 

ij = 

 

at ∂L 

ij 

t λ 

∂aij 

k at ∂L 

ik 

t λ 

∂aik 

Beim MMIE-Training wird statt Lλ der Term Iλ Optimiert: 

Iλ = 

(13.5) 

T 

lnpλ(X(t)|H(t)) − lnpλ(X(t)|R) (13.6) 

t 

wobei R nicht das HMM, das der einen t-ten Äußerung entspricht, 

sondern das HMM, das den kompletten Suchraum enthält, wie es bei der 

Erkennung verwendet wird. Iλ drückt also nicht die Wahrscheinlichkeit für 

die Beobachtung der t-ten Äußerung bei bekannter Wortfolge, sondern das 

Verhältnis dieser Wahrscheinlichkeit zur entsprechenden Wahrscheinlichkeit 

ohne bekannte Wortfolge. Darin steckt der diskriminative Charakter dieses 

Verfahrens. 

Der interessierte Leser findet die Details zur Modifikation des Standard 

Baum-Welch Algorithmus für die Verwendung des MMIE-Kriteriums zum 

Beispiel in [?]. Dort werden Ergebnisse von Experimenten auf einer Buchstabieraufgabe 

vorgestellt, die eine Reduktion der Fehlerrate um ca. 8% enthalten. 

13.3.2 Trainieren ohne Transkriptionen 

Wie bereits im Kap. 9 besprochen, können Trainingsverfahren überwacht 

oder unüberwacht sein. In der Spracherkennung bedeutet das im Extremfall


die Frage, ob es möglich ist, einen Erkenner mit Sprachaufnahmen zu 

trainieren, ohne daß dabei die Transkriptionen der Aufnahmen vorhanden 

sind. Die Erfahrung hat gezeigt, daß das Zitat von Bob Mercer: ” there’s 

no data like more data“ fast immer anwendbar ist. Daraus entsteht die 

Vorstellung, daß die sehr großen vorhandenen Audiodatenmengen genutzt 

werden können, um Spracherkenner zu trainieren, ohne vorher den sehr langwierigen 

und teuren Prozeß der Transktiption durchlaufen zu müssen. Wenn 

man bedenkt, daß die größten sauber transkribierten spontansprachlichen 

Datenbasen gerade mal etwa 250h Sprachaufnahmen beinhalten und daß in 

den Archiven verschiedener Medien und Sendeanstalten mehrere Millionen 

Stunden Sprachaufnahmen existieren, scheint die Hoffnung aus diesen riesigen 

Datenmengen einen Vorteil zu ziehen, nicht unbegründet, auch wenn die 

dann zu verwendenden Trainingsmethoden weniger gute Ergebnisse erzielen 

als überwachte Methoden es auf der gleichen Trainingsmenge könnten. 

Die Idee beim Trainieren ohne Transkriptionen ist, einen ersten schlechten 

Spracherkenner zu verwenden automatisch Transkriptionen zu erzeugen. 

Diese sind dann natürlich von schlechter Qualität und enthalten viele Fehler. 

Selbst wenn die Fehlerrate 30% beträgt, könnten so immer noch 70% von 

riesigen Datenmengen (z.B. aufgezeichnete Rundfunknachrichten) korrekt 

transkribiert zum Trainieren verwendet werden. Es muß allerdings etwas 

dagegen unternommen werden, daß die 30% falsch transkribierten Daten die 

geschätzten Modelle nicht zu stark verfälschen. Zu den Gegenmaßnahmen 

gehören im wesentlichen zwei Vorgehensweisen: die Adaption und konfidenzgewichtetes 

Training. Bei der Adaption wird versucht, durch Optimieren 

des Erkenners auf den neuen Daten (s. Kap. 21) an die Spracheigenschaften 

und Aufnahmebedingungen der großen untranskribierten Datenmengen 

anzupassen, und so die Fehlerrate etwas zu senken. Wenn der Erkenner 

bessere Transkriptionen erzeugt, dann wird auch der folgende Trainingsprozeß 

erfolgreicher verlaufen. Die Erwartung ist nun, durch wiederholtes 

Iterieren der automatischen Transkription und des Trainings einen immer 

besser werdenden Erkenner zu erhalten, der immer bessere Transkriptionen 

erzeugen kann, die wiederum zu besseren Trainingserfolgen führen. 

Das Verfahren des konfidenzgewichteten Trainings beruht auf der Feststellung, 

daß ein Erkenner zwar nicht angeben kann, welche Teile seiner 

Hypothese korrekt sind und welche falsch, aber es ist möglich bestimmte 

Konfidenzmaße zu bestimmen [?] [?], die ausdrücken, wie wahrscheinlich 

es ist, daß der Erkenner an einer bestimmten Stelle einen Fehler gemacht 

hat. Ein relativ leicht verständliches Konfidenzmaß ist zum Beispiel der 

Vergleich der (durch den Forward-Algorithmus) berechneten Beobachtungswahrscheinlichkeit 

des wahrscheinlichsten Wortes mit der des zweit- oder 

drittwahrscheinlichsten Wortes an der gleichen Stelle. Wenn diese Wahrscheinlichkeiten 

stark voneinander abweichen, also das wahrscheinlichste


viel wahrscheinlicher ist als die anderen, dann ist davon auszugehen, daß 

der Erkenner ” sich seiner Hypothese sehr sicher ist“. Wenn die Wahrscheinlichkeiten 

jedoch nahe beieinander liegen, kann man annehmen, daß bereits 

eine kleine Änderung der Aufnahme womöglich dazu geführt hätte, daß ein 

anderes Wort das wahrscheinlichste geworden wäre. In diesem Fall ist die 

Konfidenz in die Hypothese eher gering. 

Die Konfidenz kt zum Zeitpunkt t kann nun verwendet werden, um 

das Training damit zu gewichten. Wenn kt zwischen 0 und 1 liegt, kann es 

direkt auf die γt(i) aufmultipliziert werden bevor die Baum-Welch-Regeln 

angewandt werden. Es ist aber auch möglich, einen Schwellwert h zu 

definieren, und γt(i) auf 0 (für kt < h) oder 1 (für kt ≥ h) zu setzen. 

Diese würde bedeuten, daß ein Training nur auf denjenigen Bereichen einer 

Aufnahme stattfinden, auf denen der Erkenner sich einigermaßen sicher 

ist, die korrekte Hypothese erzeugt zu haben. Selbstverständlich sind auch 

die Konfidenzmaße mit der tatsächlichen Korrektheit bestenfalls korreliert 

und geben keineswegs 100%-ige Sicherheit. Allerdings helfen sie deutlich, 

den Trainingserfolg auf untranskribierten Daten zu steigern. In [?] wird 

festgestellt, daß für die gleiche Steigerung der Erkennungsleistung eines 

schlechten Erkenners mit initialer Fehlerrate von 78.5%, etwa 100 mal so viele 

untranskribierte Daten benötigt werden wie fehlerfrei transkribierte. Dies 

berechtigt auf den ersten Blick durchaus zu Optimismus. Allerdings stellt [?] 

auch fest, daß die Gewinnaussichten mit steigender Erkennerqualität sinken. 

Das heißt, es ist wesentlich mehr Aufwand und Daten nötig, um einen 

bereits guten Erkenner noch besser zu machen. So daß dieses Verfahren nur 

bedingt anwendbar ist. In [?] wird berichtet, daß durch dieses Verfahren, ein 

Erkenner mit initialer Fehlerrate von 38.8% durch Trainieren auf korrekten 

Transkriptionen auf eine Fehlerrate von 24.5% verbesser werden konnte. Die 

immer noch beachtliche Verbesserung durch Trainieren auf denselben Daten 

ohne Transkriptionen allerdings unter Verwendung eines Konfidenzmaßes 

reichte allerdings nur zu einer Fehlerrate von 28.5%. 

13.3.3 Momentum und adaptives Training 

Gelegentlich kommt es vor, daß heterogene Daten vorliegen und eine 

Erkennung auf einer Art von Sprache bzw. Aufnahmequalität durchgeführt 

werden muß, die sich deutlich von der Art der Trainingsdaten unterscheidet. 

Wenn es möglich ist, wenigstens eine kleine Menge an Aufnahmen der neuen 

Art zu erhalten, kann diese kleine Menge verwendet werden, um die Parameter 

des Erkenners neu zu schätzen. Selbst wenn dabei davon auszugehen 

ist, daß diese kleine Menge besser mit der aktuellen Erkennungsaufgabe 

übereinstimmt als die große Menge an Daten, mit denen der Erkenner 

trainiert worden war, so wäre es doch meistens nicht sinnvoll, die große


Menge an Information aus den Trainingsdaten zu verwerfen bzw. nur dazu 

zu verwenden, die neuen Daten zu etikettieren. Würde man aber die neuen 

Daten einfach nur zu den Trainingsdaten hinzufügen und so die Parameter 

neu schätzen, würde die Wirkung der neuen Daten auf die Parameter kaum 

merkbar ausfallen. 

Eine einfache Möglichkeit, dem Problem zu begegnen, ist die unterschiedliche 

Gewichtung der großen alten Datenmenge und der kleinen neuen 

Datenmenge. Dabei könnten z.B. die neuen Daten mehrfach trainiert werden. 

Alternativ kann man in Anlehnung an entsprechende Trainingsverfahren bei 

künstlichen neuronalen Netzen mit Hilfe eines Momentums arbeiten. 

Bei Verwendung eines Momentums werden die alten Trainingsdaten nicht 

mehr benutzt. Die Systemparameter werden aber nicht einfach durch die 

Schätzung mit den neuen Daten ersetzt, sondern nur leicht in deren Richtung 

verändert. Müßte nach dem EM-Algorithmus oder der Baum-Welch-Regeln 

der Parameter c ersetzt werden durch c ′ = d, dann wird statt dessen 

c ′ = ǫ · c + (1 − ǫ) · d gewählt. Der Wert von ǫ kann unterschiedlich – je 

nach Größe der neuen Trainingsdatenmenge – gewählt werden, ja sogar 

unterschiedlich für verschiedene Parameter.

14. Das akustische Modell 

In der Spracherkennung sowie in anderen Mustererkennungsproblemen werden 

oft mathematische Modelle der realen Welt entwickelt. Typischerweise 

werden bei derart komplexen Problemen selten Modelle verwendet, die das 

gesamte Problem auf einmal erfassen. Vielmehr wird das Problem in verschiedene 

Teilprobleme unterteilt, von denen man annehmen kann, daß sie 

einigermaßen orthogonal sind und getrennt modelliert werden können. Eine 

solche Aufteilung ist die in die getrennte Modellierung der Akustik und der 

Linguistik. In diesem Kapitel wird die Modellierung der Akustik detailliert 

behandelt. 

14.1 Die Fundamentalformel der Spracherkennung 

Die geeignetste mathematische Darstellung des Problems der Spracherkennung 

ist die so genannten Fundamentalformel der Spracherkennung: 

ˆW = argmaxp(W|X) 

(14.1) 

W 

= argmax 

W 

= argmax 

W 

p(X|W) · p(W) 

p(X) 

(14.2) 

p(X|W) · p(W) (14.3) 

Die Formel sagt aus, daß die gesuchte Wortfolge ˆ W diejenige ist, deren 

Wahrscheinlichkeit bei gegebener Beobachtung X maximal ist. Nach 

Umformung mit der Bayes-Regel stellt man fest, daß der Nenner in Gl. 

14.2 der Nenner p(X) , also die A-priori-Wahrscheinlichkeit dafür, daß X 

überhaupt beobachtet wird, für das Maximieren unerheblich ist. So bleiben 

nur noch zwei Faktoren, die gemeinhin als das akustische Modell p(X|W) 

und das Sprachmodell p(W) bezeichnet werden. Das Sprachmodell berechnet 

die Wahrscheinlichkeit dafür, daß eine Wortfolge W gesprochen wird, unabhängig 

davon, wie sie letztendlich artikuliert wird und wie das produzierte 

Signal aussieht. Das akustische Modell berechnet die Wahrscheinlichkeit 

dafür, daß eine Beobachtung so aussieht wie das beobachtete Signal, wenn 

eine gegebene Wortfolge gesprochen wurde.

224 14. Das akustische Modell 

14.2 Der Parameterraum des Akustischen Modells 

Während der gesamte Parameterraum des akustischen Modells eines Spracherkennungssystems 

aus vielen verschiedenen Arten von Parametern bestehen 

kann, so bilden die Parameter der parametrischen Schätzer der Emissionswahrscheinlichkeiten 

den größten und wichtigsten Teil dabei. Neben 

den Emissionswahrscheinlichkeiten rechnet man üblicherweise auch die Zustandsübergangswahrscheinlichkeiten 

zwischen den Zuständen eines Wortes 

zum akustischen Modell. 

14.2.1 Emissionswahrscheinlichkeitsmodelle 

Auch wenn verschiedene Modelle zur Berechnung der HMM-Emissionswahrscheinlichkeiten 

eingesetzt werden, so verwendet doch die weitaus größte 

Zahl der erfolgreichen Spracherkenner dafür Gauß-Mischverteilungen bzw. 

leichte Abwandlungen davon. 

Alternative Methoden sind Neuronale Netze wie mehrschichtige Perzeptronen. 

Auch kompliziertere Konstruktionen wie hierarchische Mixturen von 

Experten [?] (s. Abs. 22.2.7) oder Time-Delay Neuronale Netze [?] (s. Abs. 

22.2.5) werden eingesetzt. 

Wie in Abb. 12.8 schon gezeigt ist es üblich, daß verschiedene HMM- 

Zustände dieselben Emissionswahrscheinlichkeiten benutzen. Diese können 

wie in Abb. 12.8 Phoneme repräsentieren aber auch andere Spracheinheiten. 

Aus der Sicht eines Hidden-Markov-Modells spielt es keine unmittelbare Rolle, 

was für eine Spracheinheit U einem Zustand zugeordnet ist und welcher 

Bauart die Emissionswahrscheinlichkeitsmodelle sind. Bei der Implementierung 

eines Spracherkenners können diese wie eine abstrakte Klasse behandelt 

werden, die einige Operationen bieten muß. Zu diesen Operationen gehören: 

• Wahrscheinlichkeitsberechnung: 

gegeben: Beobachtung xt 

gesucht: P(xt|U) 

• Trainingsdatenakkumulation: 

gegeben: Beobachtung xt und Trainingsgewicht γt(U) 

Aufgabe: je nach Modell, 

bei Gauß-Mischverteilungen: E(x) und E(x 2 ) nachführen 

• Neuberechnung der Parameter: 

Aufgabe: je nach Modell, 

bei Gauß-Mischverteilungen: EM-Algorithmus ausführen

14.2 Der Parameterraum des Akustischen Modells 225 

Mit diesen Operationen sind alle Schnittstellen zum HMM definiert. 

Während der Forward-Backward oder Viterbi-Algorithmus gerechnet werden, 

wird immer wieder P(xt|U) angefordert. Für jede Trainingsaufnahme 

und jede Beobachtung xt wird dann die Operation zum Akkumulieren 

der Trainingsinformationen aufgerufen. Für Gauß-Mischverteilungen bedeutet 

dies, daß für jede Gauß-Verteilung Uk die ihr zugeordneten und 

sowohl mit dem vom Forward-Backward gelieferten Gewicht γt(i) als auch 

dem Anteilsgewicht der Verteilung an P(xt|U) multiplizierten xt und x 2 t 

jeweils aufaddiert werden. Dann können am Ende einer Trainingsiteration 

mit der Operation zur Parameterneuberechnung entsprechend dem 

EM-Algorithmus die neuen Mittelwerte µ = E(x) und Kovarianzmatrizen 

Σ = E(x 2 ) − E 2 (x) berechnet werden. Wenn statt Gauß-Mischverteilungen 

zum Beispiel neuronale Netze verwendet werden, dann muß statt des EM- 

Algorithmus zum Beispiel ein Backpropagation-Verfahren verwendet werden. 

Später (im Kap. 17) werden je nach phonetischem Kontext verschiedene 

Spracheinheiten vorgestellt und die Thematik behandelt, wie sinnvolle 

Einheiten gefunden werden. Jetzt soll der Fokus vielmehr auf die Möglichkeiten 

der Modellierung von Emissionswahrscheinlichkeiten bei vorgegebenen 

Spracheinheiten gelegt werden. 

14.2.2 Kontinuierlichkeitsgrade 

Wenn Hidden Markov Modelle für Probleme mit einem diskreten Merkmalsraum 

verwendet werden, ist das dazugehörige mathematische Grundgerüst, 

ebenso wie die Algorithmen deutlich einfacher. In den Anfängen der Spracherkennung, 

als die Verwendung von Fließkommaoperation im Vergleich zu 

Rechnungen mit Ganzzahlen wesentlich aufwendiger waren, bot es sich oft 

an, den Merkmalsraum zu diskretisieren und statt reellwertiger hochdimensionaler 

Spektralvektoren jeweils nur einen einzigen Quantisierungsindex zu 

verwenden. Statt Mischverteilungen auf Spektral- oder Cepstralvektoren zu 

berechnen, wurden nichtparametrische diskrete Verteilungen (Abb. 14.1) auf 

zuvor vektorquantisierten Werten geschätzt. 

Abb. 14.1. Rein diskretes Modell (keine Codebücher) 

...


Da bei diesen diskreten Hidden-Markov-Modellen das Berechnen der 

Emissionswahrscheinlichkeiten durch ein einfaches Nachsehen in einer 

Tabelle geschieht, sind solche Erkenner besonders schnell. Gegebenenfalls 

kann sogar auf die Verwendung teurer Fließkommaoperationen verzichtet 

werden. Diskrete HMM-Spracherkenner haben aber durchweg eine schlechtere 

Leistung (immerhin könnte jedes diskrete HMM durch ein kontinuierliches 

” simuliert“ werden). Sie bieten sich daher nur für Spezialaufgaben an, 

bei denen keine großen Erkennungsfähigkeiten verlangt werden oder für 

Systemen deren Hardware-Ressourcen beschränkt sind. 

Da die mit großem Abstand beliebteste Modellierung vom Emissionswahrscheinlichkeiten 

Gauß-Mischverteilungen sind, haben sie sich im Sprachgebrauch 

inzwischen als Bestandteil eines Hidden-Markov-Modells etabliert. So 

spricht man von Semikontinuierlichen Hidden-Markov-Modellen, meint damit 

aber vielmehr Hidden-Markov-Modelle mit kontinuierlichem Merkmalsraum 

und Gauß-Mischverteilungen mit gekoppelten Mittelwerten und Kovarianzmatrizen. 

Betrachten wir zunächst (voll) kontinuierliche Hidden-Markov-Modelle. 

Sie zeichnen sich dadurch aus, daß jede Spracheinheit ein eigenes komplettes 

Codebuch mit Gauß-Verteilungen und den dazu gehörigen Mixturgewichten 

hat. Kein Parameter dieses Codebuchs wird von anderen Spracheinheiten mit 

genutzt (s. Abb. 14.2). Der große Vorteil solcher Modelle ist die Möglichkeit 

der sehr feinen Modellierung. 

Abb. 14.2. Voll kontinuierliches Modell (keine gemeinsame Nutzung von Co- 

debüchern) 

Die Nachteile voll kontinuierlicher Modelle bestehen vor allem in der 

meist sehr großen Zahl an Parametern und in dem damit verbundenen 

großen Bedarf an Daten zur robusten Schätzung dieser Parameter. Auf den 

ersten Blick mag man den Eindruck haben, daß auch der Aufwand für die

14.2 Der Parameterraum des Akustischen Modells 227 

Durchführung eines Viterbi- oder Forward-Backward-Algorithmus deutlich 

erhöht wird. Zum einen weil vermehrt Fließkommaoperationen berechnet 

werden müssen, zum anderen weil die Auswertung der Gaußverteilungen 

eines Codebuchs nicht von mehreren Modellen gemeinsam genutzt werden 

kann. In der Praxis stellt sich jedoch oft heraus, daß die ” bessere Qualität“ 

der kontinuierlich berechneten Emissionswahrscheinlichkeiten viel bessere 

Möglichkeiten zur Beschneidung des Suchraumes (s. Kap. 18) bieten, und 

somit zwar teurere aber dafür wesentlich weniger Emissionswahrscheinlichkeiten 

berechnet werden müssen. 

Bis Ende der achtziger Jahre waren kaum Datenbasen verfügbar, die 

ausreichten, um sehr große Parameterräume für voll kontinuierliche HMM- 

Spracherkenner mit großen Vokabularen gut zu trainieren. Für solche Fälle 

bieten sich so genannte semikontinuierliche Hidden-Markov-Modelle an. Bei 

diesen hat jede Spracheinheit eine eigene Mischverteilung, aber alle Einheiten 

teilen sich dieselbe Menge Gauß-Verteilungen (s. Abb. 14.3). 

Abb. 14.3. Semikontinuierliches Modell (ein Codebuch, viele Mixturgewichtever- 

teilungen) 

Da der größte Teil der Parameter in einem voll kontinuierlichen HMM 

in den Mittelwerten und Kovarianzmatrizen der Gauß-Verteilungen steckt, 

kann durch Reduktion auf ein einziges Codebuch der Parameterraum 

drastisch verkleinert werden. Die wenigen verbleibenden Parameter können 

wesentlich robuster geschätzt werden. Selbstverständlich ist die Modellierung 

des Merkmalsraumes mit semikontinuierlichen Modellen nicht so fein wie 

mit voll kontinuierlichen. Allerdings bieten semikontinuierliche Systeme 

einen sehr sinnvollen Kompromiß zwischen guter Trainierbarkeit (da wenige 

Parameter) und feiner Modellierung (da kontinuierlicher Merkmalsraum). 

Üblicherweise verwenden semikontinuierliche Erkenner ein Codebuch mit 

wesentlich mehr Gauß-Verteilungen (zum Beispiel über 1 000 in [?]) als in 

den typischerweise zwischen 10 und 100 Verteilungen enthaltenden kleinen


Codebücher voll kontinuierlicher Systeme. Da alle Gauß-Verteilungen für 

jede Beobachtung xt nur einmal ausgewertet werden müssen, können ohne 

nennenswerten zusätzlichen Aufwand für die Berechnung der Emissionswahrscheinlichkeiten 

sehr viele verschiedene Spracheinheiten mit eigenen 

Mixturgewichten verwendet werden. 

In der Praxis hat sich allerdings herausgestellt, daß die mangelnde Modellierungsfeinheit 

semikontinuierlicher Systeme von Nachteil ist, so daß auch 

Mischformen zwischen voll kontinuierlichen Systemen und semikontinuierlichen 

mit einem Codebuch entwickelt wurden. Bei diesen Mischformen teilen 

sich nicht mehr alle Spracheinheiten ein gemeinsames Codebuch, sondern 

mehrere Einheiten einer Gruppe. Gruppen können zum Beispiel Phoneme 

sein. Dann ergeben sich phonetisch gekoppelte semikontinuierliche Hidden- 

Markov-Modelle (s. Abb. 14.4, in der Literatur gelegentlich als PTSCHMM 

bezeichnet: phonetically tied semi continuous hidden Markov models. Die verschiedene 

Teile eines Phonems, die dasselbe Codebuch verwenden können 

zum Beispiel die zeitlichen Segmente zu Beginn, in der Mitte und am Ende 

sein, die jeweils mit einem eigenen HMM-Zustand modelliert werden. Verschiedene 

Ausprägungen eines Phonems könnten zum Beispiel die verschiedenen 

Erscheinungsformen je nach Kontext (s. Kap. 17) sein. 

Verschiedene Teile bzw. Verschiedene Teile bzw. 

Ausprägungen Ausprägungen 

von Phonem 1 von Phonem 2 

Phonem 1 Phonem 2 ... 

Abb. 14.4. Phonetisch gekoppeltes semikontinuierliches Modell (ein Codebuch je 

Phonem) 

Weitere Verfeinerungen gibt es bei subphonetisch gekoppelten Modellen. 

Bei diesen teilen sich verschiedene Ausprägungen des gleichen 

Phonemsegments ein Codebuch, während jede Ausprägung eine eigene 

Mixturgewichteverteilung hat.

14.3 Mehrere Datenströme 229 

Ganz allgemein kann man bei der Verwendung von Mischverteilungen zur 

Berechnung von Emissionswahrscheinlichkeiten sagen, daß die Wahrscheinlichkeit 

dafür, daß eine Beobachtung x zu einer Spracheinheit U gehört, als 

p(x|U) = 

lU 

cUk · NUk(x) (14.4) 

k=1 

berechnet werden kann. Hierbei ist NUk die k-te von lU Gauß-Verteilungen 

des Codebuchs, das von U verwendet wird. 

Im Falle von voll kontinuierlichen Modellen gilt, daß für zwei verschiedene 

Spracheinheiten i = j sowohl cik = cjk als auch Nik = Njk (hier bedeutet 

= nicht, daß die Werte echt verschieden sind, sondern daß es sich um zwei 

verschiedene Parameter handelt, die zufällig auch mal die gleichen Werte 

haben können). 

Im Falle von rein semikontinuierlichen Modellen gilt immer noch cik = cjk 

für verschiedene Einheiten i und j, jedoch Nik = Njk ∀i, j, da es nur ein 

einziges Codebuch gibt. 

Im Falle von phonetisch gekoppelten semikontinuierlichen Modellen 

gilt Nik = Njk, wenn die Einheiten i und j verschiedene Segmente oder 

verschiedene Ausprägungen desselben Phonems sind. 

14.3 Mehrere Datenströme 

Bevor die lineare Diskriminanzanalyse das bevorzugte Mittel zur Beherrschung 

hochdimensionaler Merkmalsräume wurde verwendeten viele Erkenner 

(zum Beispiel [?] [?]) R unabhängige Teilräume, die jeder für sich Emis- 

sionswahrscheinlichkeiten b r j 

(x) für die Beobachtung X im Zustand j berech- 

neten, und die Gesamtemissionswahrscheinlichkeit berechnete sich aus dem 

Produkt aller Teilraumwahrscheinlichkeiten: 

bj(x) = 

R 

r 

b r j (x) (14.5) 

Typische Unterteilungen des Merkmalsraumes waren zum Beispiel 

ein Teilraum für die Spektral- oder Cepstralkoeffizienten und ein zweiter 

Teilraum für die Ableitung dieser (Delta-Koeffizienten). Da diese Teilraumunterteilung 

wie die Verwendung mehrerer Datenströme aussah wurde sie 

auch ” Multi-Stream“ Methode genannt.


Der große Vorteil der Multi-Stream Methode liegt nicht nur in der Unterteilung 

des Merkmalsraumes ist mehrere Teilräume, die jeder für sich leichter 

und besser trainierbar sind, sondern auch in den folgenden möglichen Anwendungen: 

• Verwendung unterschiedlicher Rechenverfahren für Emissionswahrscheinlichkeiten: 

So ist es zum Beispiel möglich, eine Emissionswahrscheinlichkeit zu 

berechnen, zu der sowohl Gauß-Mischverteilungen als auch andere Modelle 

wie künstliche neuronale Netze oder andere parametrische Schätzer beitragen. 

Dann kann die Gesamtemissionswahrscheinlichkeit als gewichtetes 

Produkt der Ergebnisse der einzelnen Berechnungsmethoden zusammengesetzt 

werden. Erfolgreich wurde dies schon bei hierarchischen Mixturen 

von Experten [?] eingesetzt (s. Abs. 22.2.7). 

• Möglichkeit, die verschiedenen Ströme je nach HMM-Zustand unterschiedlich 

zu gewichten: 

Zunächst wurden bei Multi-Stream Systemen die Gewichtungsfaktoren für 

die einzelnen Ströme empirisch bestimmt und dieselben Gewichte für alle 

akustischen Modelle verwendet, so zum Beispiel in [?] [?] [?]. Nun ist es 

durchaus sinnvoll zu erwarten, daß manche akustischen Modelle von dem 

einen oder anderen Strom stärker abhängen als von anderen. So könnte man 

vermuten, daß Diphthonge mehr von den Delta-Koeffizienten abhängen 

beziehungsweise von diesen besser modelliert werden, während Frikative 

eher weniger von den Delta-Koeffizienten abhängen. So berechnet sich die 

Emissionswahrscheinlichkeit bj(x) für die Beobachtung von x im Zustand 

j mit n Datenströmen als: 

bj(x) = 

n 

b i j(x) fi(j) 

i=1 

(14.6) 

Die Gewichtung fi(j), mit der der i-te Datenstrom in die Berechnung für 

den Zustand j eingeht, muß selbstverständlich im Exponenten geschehen, 

wenn die Einzelwahrscheinlichkeiten aufmultipliziert werden. Betrachtet 

man statt der Emissionswahrscheinlichkeiten deren Logarithmen, so ergibt 

sich eine multiplikative Gewichtung. Um sicherzustellen, daß die bj(xt) 

echte Wahrscheinlichkeiten sind, muß natürlich gelten, daß 0 ≤ fi(j) ≤ 1 

und n 

i=1 fi(j) = 1.0 ∀j. 

Eine Möglichkeit, geeignete Werte für die fi(j) zu finden, wird in [?] 

vorgestellt. Dabei wird für jede Trainingsaufnahme ein Viterbi-Pfad 

q1, q2, . . .qn und alle Emissionswahrscheinlichkeiten bj(xt) berechnet. 

Letzteres kann je nach Parameterraum sehr aufwendig werden. Wenn der

14.4 Parameterkopplung 231 

Zustand s B mit der besten (d.h. höchsten) Emissionswahrscheinlichkeit 

zum Zeitpunkt t nicht der Zustand sqt des Viterbi-Pfades ist, dann werden 

fi(B) und fi(qt) jeweils um einen kleinen Wert verändert, so daß bqt(xt) 

vergrößert und bB(xt) verkleinert wird. In [?] konnte so die Fehlerrate 

gegenüber einem System mit gleichgewichteten Strömen um 20% bis über 

40% reduziert werden. 

• Verwendung artikulatorischer Merkmale: 

Die Verwendung mehrerer unabhängiger Ströme bietet sich auch an bei 

der Abstraktion von Phonemen und der Erkennung mit Hilfe artikulatorischer 

Eigenschaften. Diese sind in Abs. 6.3.2 beschrieben und umfassen 

Eigenschaften wie Stimmhaftigkeit, Artikulationsort und so weiter. Nun 

ist es möglich, die Emissionswahrscheinlichkeit für einen Zustand als das 

– gegebenenfalls gewichtete – Produkt der Klassifikationswahrscheinlichkeiten 

der für diesen Zustand relevanten Artikulatorischen Eigenschaften 

zu definieren [?] [?]. Auf diese Art kann die Notation eines Phonems als 

Wortuntereinheit beibehalten werden, jedoch ist die Modellierung mehr 

an der akustischen als an der linguistischen Manifestation orientiert. 

Ein weiterer Vorteil der Verwendung artikulatorischer Merkmale besteht 

in ihrer relativ hohen Sprachenunabhängigkeit. So konnte gezeigt werden 

[?] [?], daß sie auch gewinnbringend für multilinguale Spracherkenner (s. 

Kap. 25) eingesetzt werden können. 

14.4 Parameterkopplung 

Parameterkopplung manifestiert sich auf verschiedene Arten: 

• mehrere reale Phänomene teilen sich ein Modell 

• mehrere Modelle teilen sich einige Parameter 

• einzelne Parameter eines Modells werden mit entsprechenden Parametern 

anderer Modelle interpoliert (geglättet) 

Die Motivation für die Parameterkopplung ist einmal die Gleichbehandlung 

gleicher oder ähnlicher Phänomene, und außerdem die Erwartung, daß 

bei weniger Parametern diese robuster trainiert werden können. Wenn man 

die Entwicklung von Spracherkennern als eine Mischung zwischen Technik 

und Kunst ansehen möchte, so hat die Wahl der Parameterkopplung den 

größten Anteil an der Kunst. Vergleicht man die Architektur verschiedener 

Systeme, die an DARPA Evaluationen teilnehmen, so stellt man fest, 

daß im wesentlichen alle Hidden-Markov-Modelle und nahezu identische


Signalverarbeitungsmethoden verwenden. Die größten Unterschiede findet 

man in der Art wie die Parameter gekoppelt werden [?]. 

Eine für die Qualität eines Spracherkenners entscheidende Frage ist also 

die Frage danach, welche Phänomene aus der ” realen Welt“ mit einem 

eigenen Modell in der Modellwelt modelliert werden. Dabei gilt es, zwei Dimensionen 

zu beachten. Die eine ist die Dimension der zeitlichen Ausbreitung 

eines Modells, die andere die der merkmalsräumlichen Ausbreitung. Unterschiedliche 

zeitliche Ausbreitungen können sich dadurch manifestieren, daß 

entweder Modell für kurze Einheiten wie z.B. Phoneme oder deren Untereinheiten 

gebildet werden, oder für längere Einheiten wie z.B. Silben oder gar 

Wörter. Bei der Frage, welche Ausbreitung im Merkmalsraum die Modelle 

haben, kann man zwischen sehr spezifischen Modellen, wie z.B. einer ganz 

bestimmten Ausprägung eines Phonems, und sehr groben Modellen, wie z.B. 

Klassen von Phonemen (vgl. Kap. 6) unterscheiden. Tab. 14.1 und Tab. 14.2 

fassen die Vor- und Nachteile unterschiedlicher Spracheinheiten zusammen. 

Zeitliche 

Ausdehnung Vorteile Nachteile 

kurz hohe Flexibilität wenig Evidenz im Sprachsignal 

Domänenunabhängigkeit ⇒ hohe Verwechselbarkeit 

lang hohe Erkennungsrate wenig Trainingsdaten pro Einheit 

Tabelle 14.1. Vor- und Nachteile verschiedener zeitlicher Ausdehnung von 

Spracheinheiten 

Zeitlich kurze Einheiten (Phoneme) haben den Vorteil, daß sich aus ihnen 

sehr einfach längere Einheiten (Silben, Wörter) durch Konkatenation zusammensetzen. 

Würden Silben verwendet, wäre es schwierig beliebige Wörter 

(insbesondere Frendwörter) aus ihnen bauen. Der Nachteil kurzer Einheiten 

manifestiert sich in der geringeren Evidenz im Signal. Dadurch werden sie 

leichter verwechselbar als lange Einheiten. Den Vorteil der besseren Erkennungsgenauigkeit 

erkaufen sich lange Einheiten durch das Problem, daß sie 

seltener in den Trainingsdaten vorkommen und somit schwer trainierbar sind. 

Einheiten mit kleiner räumlicher Ausdehnung können durch eine relativ 

exakte Positionierung im Merkmalsraum gut beschrieben werden. Überla-

Räumliche 

14.5 Mehrdimensionale Hidden-Markov-Modelle 233 

Ausdehnung Vorteile Nachteile 

klein gute diskriminative wenig Trainingsdaten pro Einheit 

Fähigkeiten 

groß robust trainierbar schlechte Diskriminativität 

Tabelle 14.2. Vor- und Nachteile verschiedener räumlicher Ausdehnung von 

Spracheinheiten 

gerungen mit anderen Einheiten sind weniger wahrscheinlich als bei breiter 

ausgedehnten, somit ist die Unterscheidbarkeit (Diskriminativität) höher. 

Allerdings gibt es umso weniger Trainingsdaten pro Einheit, je kleiner ihr 

Anteil am Merkmalsraum ist. Räumlich große Einheiten haben entsprechend 

mehr Trainingsdaten und sind so robust trainierbar, allerdings ist die Wahrscheinlichkeit 

der Überlagerung mit anderen Einheiten im Merkmalsraum 

größer, womit die Diskriminativität sinkt. 

Abb. 14.5 illustriert verschiedene Möglichkeiten der Parameterkopplung. 

Auf oberster Ebene wird die Entscheidung getroffen, welche HMM-Zustände 

durch das gleiche ” akustische Atom“ modelliert werden. Wenn Gauß- 

Mischverteilungen verwendet werden, dann ist ein akustisches Atom durch 

eine Mixturgewichteverteilung definiert. Auf der nächst tieferen Ebene wird 

festgelegt, welche Mixturgewichteverteilung über welchen Codebüchern von 

Gauß-Verteilungen definiert ist. Hier sind grundsätzlich beliebige Kopplungsgrade 

– nicht nur die in Abs. 14.2.2 vorgestellten – realisierbar und 

werden auch in der Praxis realisiert. Kap. 17 wird darauf weiter eingehen. 

Auf unterster Ebene ist es des weiteren noch möglich, daß verschiedene 

Gauß-Mischverteilungen sich einige Parameter (z.B. - wie dargestellt - 

Kovarianzmatrizen) teilen. 

14.5 Mehrdimensionale Hidden-Markov-Modelle 

Menschen haben die Fähigkeit, aus einem Stimmengewirr von zwei oder mehr 

gleichzeitig sprechenden Personen eine herauszuhören und zu verstehen. Dies 

geht sogar – wenn auch mit mehr Verständnisfehlern – wenn die Stimmen


Σ Σ Σ Σ 

Abb. 14.5. Verschiedene Ebenen der Parameterkopplung 

aus einem Lautsprecher kommen und so die getrennte Lokalisierung der 

Schallquellen durch das binaurale Hören nicht möglich ist. Nach dem heutigen 

Stand der Technik ist nicht abzusehen, daß maschinelle Spracherkenner 

ähnliche Leistungen bald auch erbringen können. Dennoch gibt es viele 

ähnliche Aufnahmesituationen, die etwas einfacher zu handhaben sind, bei 

denen zum Beispiel ein Sprecher und irgendwelche Hintergrundgeräusche 

sich überlagern. Wenn die Hintergrundgeräusche wesentlich weniger Energie 

enthalten als die zu erkennende Stimme, dann bieten oft Adaptionsmethoden 

(s. Kap. 21) gute Lösungen. Wenn die Energie der Hintergrundgeräusche 

jedoch in die Größenordnung der Energie der Sprache kommt, und wenn 

die Hintergrundgeräusche eine eigene Struktur haben, dann bietet sich eine 

Vorgehensweise an, die als Verwendung mehrdimensionaler Hidden-Markov- 

Modelle bezeichnet werden kann. 

Die bei solchen Modellen basiert auf der Annahme, daß alle (beide) 

Schallquellen Signale erzeugen, die durch ein Hidden-Markov-Modell modelliert 

werden können. Im einfachen Fall, würde ein HMM die Sprache 

und eines die Geräusche (Musik, Auto, Büro etc.) modellieren. Jedes HMM 

hat seine eigene Zustandsmenge. Die Forward-Backward- und Viterbi- 

Algorithmen können aber nicht unabhängig voneinander durchgeführt 

werden, weil die einzelnen Signale nicht isoliert vorliegen. Daher wird für 

sie ein Zustandsraum aufgebaut, der das kartesische Produkt der einzelnen 

Zustandsräume S (1) × S (2) ist. Wenn der Zustand s (1) 

i der i-te Zustand

14.5 Mehrdimensionale Hidden-Markov-Modelle 235 

des ersten HMMs ist und s (2) 

j der j-te Zustand des zweiten HMMs, dann 

verwendet das mehrdimensionale HMM den Zustand sij, der Ausdrückt, 

daß sich der erste stochastische Prozeß im Zustand s (1) 

i und der zweite im 

Zustand s (2) 

j befindet. Die Wahrscheinlichkeit für einen Übergang von sij 

in den Zustand skl berechnet sich dann aus dem Produkt der einzelnen 

Übergangswahrscheinlichkeiten a (1) 

ik · a (2) 

jl . Diese einfache Multiplikation 

kann aufgrund der Unabhängigkeitsannahme für die beiden stochastischen 

Prozesse gemacht werden. Etwas komplizierter ist die Berechnung der 

Emissionswahrscheinlichkeiten. Hier wäre es falsch bij(x) = b (1) 

i (x) · b (2) 

j (x) 

zu setzen, denn die Beobachtung x ist eigentlich die Summe zweier Beobachtungen 

x (1) + x (2) . Wenn das einfachere der Modelle (dasjenige, das die 

Störgeräusche modelliert) nur weniger Zustände hat, dann ist es denkbar, 

für jedes Zustandspaar aus S (1) × S (2) eine eigene Gauß-Mischverteilung 

zu trainieren – vorausgesetzt es gibt ausreichend viele Daten. Wenn aber 

die Daten nicht reichen, oder wenn der resultierende Zustandsraum zu groß 

ist (zum Beispiel wenn beide Quellen Sprache enthalten), dann muß aus 

für jedes HMM getrennt trainierten Mischverteilungen ein gemeinsamer 

Emissionswahrscheinlichkeitswert kombiniert werden. Diese Kombination 

hängt natürlich von den Details der einzelnen Modelle ab. 

B 

A 

Pfad = A, A, A, B, B, D, F 

C 

D 

E 

F 

1 2 3 4 5 6 7 

t 

Pfad = (A,X), (A,X), (A,Y), (B,Y), (D,Z), (F,Z) 

Z 

Y 

X 

1 2 3 4 5 6 7 

Abb. 14.6. Eindimensionales und zweidimensionales HMM 

Das Ergebnis des Viterbi-Algorithmus ist dann nicht mehr ein Pfad durch 

eine Zustandsmatrix, sondern durch einen höherdimensionalen Zustandsraum 

(s. Abb. 14.6). 

t 

A 

B 

C 

D 

E 

F


14.6 Aussprachemodellierung 

Wenn wir das akustische Modell aus der Fundamentalformel der Spracherkennung 

berechnen, läßt sich p(x|W) auf viele verschiedene Arten zerlegen. 

Die bei weitem am meisten verwendete Zerlegung ist die von W in eine Folge 

von akustischen Einheiten, typischerweise Allophone bzw. deren Untersegmente. 

In letzter Zeit häufen sich Ansätze, die eine Zerlegung von W weniger 

nach phonetischen Einheiten sondern eher nach Sequenzen artikulatorischer 

Eigenschaften [?] gestalten. Der große Vorteil einer Zerlegung in Phoneme 

besteht darin, daß ein in die Lautschrift Eingeweihter – nicht unbedingt 

ein Phonetiker – relativ einfach die phonetische Umschrift für ein Wort 

bestimmen kann. 

Es gibt einige Ansätze, Spracherkennung mit null phonetischem Wissen 

zu machen [?] [?] [?], allerdings bisher für die meisten Sprachen mit deutlich 

schlechterer Erkennungsrate. Für Sprachen mit phonetischer Orthographie 

ist es einfach möglich, aus der Orthographie die korrekte Aussprache direkt 

abzuleiten. Für die meisten Sprachen, insbesondere für das Englische ist dies 

nicht mehr möglich. So verwenden die allermeisten Spracherkenner im voraus 

erstellte Lexika, in denen für jedes erkennbare Wort zur Orthographie dieses 

Wortes auch die entsprechende phonetische Umschrift eingetragen ist. Nur 

mit dieser Information können gute HMMs für die Wörter aufgebaut werden. 

14.6.1 Aussprachelexika und Text-To-Speech Systeme 

Dieser Abschnitt beschäftigt sich nicht mit der akustischen Qualität 

von Sprachsynthesesystemen. Wenn wir hier von Mensch-Maschine- 

Kommunikation reden, ist der die Kommunikation vom Menschen zur 

Maschine gemeint. Inwiefern können Text-To-Speech Systeme für das 

Verstehen menschlicher Sprache dennoch gewinnbringend eingesetzt werden? 

Der Begriff ” Text-To-Speech Systeme“ wird für zweierlei Dinge verwendet, 

einmal für die Generierung der Phonemfolge aus einem gegebenen 

Text, und darüber hinaus auch für komplette Sprachsynthesesysteme mit 

zusätzlicher Erzeugung eines Sprachsignals. 

Zweifellos ist es nötig, für eine große Akzeptanz von natürlichsprachlichen 

Mensch-Maschine Dialogsystemen eine sehr gute Sprachsynthese zu 

verwenden. Dazu gehören im wesentlichen drei nicht unbedingt unabhängige 

Teile: Die akustische Qualität, die korrekte Prosodie (s. 23) und die korrekte 

Auswahl der Lautefolge. 

Die meisten Sprachsynthesesysteme verwenden einen mehrstufigen 

Prozeß zum Generieren eines Sprachsignals. In der ersten Phase wird dem

14.6 Aussprachemodellierung 237 

auszusprechende Text eine Folge von Lauten aus einem Lauteinventar 

zugewiesen. Parallel dazu werden außerdem für diese Laute Eigenschaften 

wie Betonung und Länge berechnet. In einer zweiten Phase werden die 

zu den Lautfolgen passenden Signalstückchen zu einem Gesamtsignal 

” zusammengeklebt“. Dabei werden noch diverse Glättungsmethoden und 

vor allem die prosodischen Eigenschaften (Sprechrhythmus und -melodie) 

berücksichtigt. Damit sich eine Frage auch als Frage anhört und der Ton 

am Ende des Satzes wie bei Fragen üblich nach oben geht, müssen bei 

guten Systemen auch die Interpunktionszeichen ausgewertet werden oder 

sogar eine eingebundene Verstehenskomponente verwendet werden, die die 

benötigten Informationen über die Satzstruktur liefert. 

Aber nicht nur für die Qualität der Sprachausgabe sind gute Aussprachelexika 

von Bedeutung. Selbstverständlich wird durch die Lexika 

auch das akustische Modell von Spracherkennern bestimmt. Weichen die 

Einträge im Lexikon stark von den tatsächlich gesprochenen ab, so hat 

dies zur Folge, daß beim Erkennen die berechneten Wahrscheinlichkeiten 

für verschiedene Wörter ” irreführend“ sind, und beim Trainieren Modelle 

mit einer großen Varianz entstehen, bzw. sehr ähnliche Daten aus 

den in Wirklichkeit gleichen Lauten auf verschiedene Modelle verteilt werden. 

So hat sich in der Praxis herausgestellt, daß die besten Erkennungsergebnisse 

unter Verwendung von Aussprachelexika erzielt wurden, die von 

Experten auf den Gebieten der Phonetik und der Spracherkennung manuell 

entwickelt wurden. Unerläßlich für ein gutes Funktionieren ist dabei auch 

die Auswahl mehrerer Aussprachevarianten für ein Wort. 

14.6.2 Neue Wörter einbinden 

In vielen Aufgaben, in denen Spracherkenner eingesetzt werden, ist das 

Vokabular nicht im voraus bekannt. Insbesondere Eigennamen von Personen, 

geographischen Entitäten, Firmen oder Ereignissen können nicht immer 

vorher bekannt sein. In diesen Fällen ist es interessant, automatisch – 

also ohne Hinzuziehen von menschlichen Experten – neue Wörter in das 

Aussprachelexikon aufzunehmen. 

Das Einbinden neuer Wörter ist eine eigene Teildisziplin der Spracherkennung 

für sich [?]. Da geht es einmal um die Detektion neuer Wörter, die 

Generierung einer Aussprache, das Hinzunehmen ins Sprachmodell und die 

Bestimmung geeigneter akustischer Modelle. Aus der Sicht des Akustischen 

Modells steht man zwei Herausforderungen gegenüber: der Bestimmung 

eines Eintrags im Aussprachelexikon und schließlich der Bestimmung der 

akustischen Atome für die HMM-Zustände. Bei völlig kontextunabhängigen


akustischen Atomen kann aus der Aussprache die dazu gehörige HMM- 

Zustandsfolge direkt ohne Umwege abgeleitet werden. Wenn wir aber davon 

ausgehen, daß wir spezifischere Modelle verwenden, kann es vorkommen, daß 

in dem neuen Wort Phoneme in bestimmten Kontexten oder Ausprägungen 

vorkommen, die bis dahin in den Trainingsdaten nicht beobachtet worden 

waren. In solchen Fällen gilt es, aus dem vorhandenen Repertoire an 

akustischen Einheiten die passenden auszuwählen (Details dazu in Kap. 17). 

Mitte der achtziger Jahre machte ein Experiment von T. Sejnowski 

Furore und trug mit dazu bei, daß die durch den Artikel von Minski 

und Papert quasi betäubte Forschung an künstlichen neuronalen Netzen 

wiederbelebt wurde [?]. Bei diesem Experiment wurde ein verhältnismäßig 

einfaches dreischichtiges Perzeptron (vgl. Kap. 22) mit ca. 200 Neuronen 

trainiert, bei Eingabe eines Buchstaben und seiner Nachbarbuchstaben in 

einem Text das dazu passende Phonem zu generieren. Natürlich hatte das 

Netz Schwierigkeiten beim Erzeugen von Phonemfolgen für Eigennamen, 

Fremdwörter oder Buchstabenfolgen bei denen die Zuordnung Buchstabezu-Phonem 

stark von einer Eins-zu-eins-Zuordnung abwich. Auch wenn die 

Qualität der so produzierten Aussprache von der heutiger Systeme noch 

weit weg war, so kann man es allein schon wegen seiner Einfachheit als 

einen sehr gelungenes Experiment bezeichnen. Deutlich besser als so ein 

einfaches Perzeptron funktionieren Regelbasierte Text-To-Speech Systeme. 

Diese enthalten Regeln, wie bestimmte Buchstabenfolgen der Orthographie 

ausgesprochen werden, und für einige Wörter und Eigennamen auch komplette 

Phonemfolgen. 

Die typischen Aussprachelexika werden heute in einem zweistufigen 

Prozeß erzeugt. Zuerst wird mit einem Regelbasierten System für jedes 

Vokabularwort eine Aussprache erzeugt. Dabei wird gegebenenfalls geprüft, 

ob Teile des zu phonetisierenden Wortes selbst schon bekannte Wörter oder 

Teile bekannter Wörter sind. Dann können diese bereits bekannten Aussprachen 

verwendet werden. Im zweiten Durchgang überprüft ein Mensch die 

automatisch erzeugten Umschriften, was schneller geht, als wenn der Mensch 

von Anfang an die Umschriften erzeugt. Schlechte Umschriften lassen sich 

teilweise dadurch aufdecken, daß auf einer Testdatenmenge die phonetisch 

falsch beschriebenen Wörter überdurchschnittlich viele Fehler verursachen. 

Solche müssen dann bei Bedarf manuell korrigiert werden. Ein als ganzes 

sorgfältig manuell erzeugtes, auf die Belange der Spracherkennung hin 

optimiertes Aussprachelexikon [?] kann gegenüber einem halbautomatisch 

erzeugten Lexikon [?] die Fehlerrate eines Erkenners um über 10% (von 

10.7% auf 9.3%) senken [?].

14.6.3 Aussprachevarianten 


Das gleiche Wort kann auf unterschiedliche Weise ausgesprochen werden. Das 

kann an verschiedenen Gründen liegen. Zu den häufigsten zählen: 

• Verschiedene Kontexte 

In der Deutschen Sprache ist dies seltener zu beobachten als in vielen 

anderen Sprachen. Relativ gut bekannt ist dieses Phänomen im Französischen. 

Ob ein Konsonant am Ende eines Wortes artikuliert wird oder 

nicht hängt dort davon ab, mit welchem Laut das nachfolgende Wort 

beginnt. Daher läßt sich nicht immer eine eindeutige Aussprache für ein 

bestimmtes Wort angeben. Gegebenenfalls müssen mehrere Varianten 

angegeben werden. 

• Dialekte und regionale Unterschiede 

Bei vielen Menschen läßt sich ihre Herkunft bzw. ihr bevorzugter Dialekt 

auch dann noch aus ihrer Aussprache erkennen, wenn sie sich Mühe geben, 

die Hochsprache zu sprechen. So werden z.B. in manchen Regionen gerollte 

R-Laute bevorzugt. Gerade in spontaner Sprache machen sich viele Sprecher 

aber nicht die Mühe, ihren Dialekt komplett zu unterdrücken, so daß 

ein guter Spracherkenner verschiedene mögliche Aussprachen kennen sollte. 

• Verschiedene korrekte Aussprachen 

Dasselbe Wort kann oft auf verschiedene Arten korrekt, d.h. auch ohne 

regionale Einfärbung ausgesprochen werden. So ist es im Deutschen oft 

üblich das G am Ende einer Silbe wie ein CH zu sprechen (König vs. 

Könich, oder ” Jachtfluchzeuch“). Manche Wörter besitzen per se schon 

verschiedene Varianten wie das Wort Chemie (Aussprache: Schemie oder 

Kemie). 

• Häufigste Aussprache nicht korrekt 

Ein Erkenner, der zwar die korrekten Aussprachen der Wörter kennt, aber 

nicht die am häufigsten verwendeten, wird viele Fehler machen. Im Deutschen 

kann dies zum Beispiel besonders bei Fremdwörtern vorkommen. So 

werden zum Beispiel Wörter wie ” Sex“ oder ” Super“ oft fälschlicherweise 

mit stimmhaftem S am Anfang gesprochen. Andere Beispiele für die 

nicht-kanonische Aussprache sind Wörter wie ” und“ und ” Hand“ die am 

Ende sehr selten mit einem D- und viel öfter mit einem T-Laut gesprochen 

werden. 

Aussprachelexika mit Varianten 

Daher verwenden heute alle erfolgreichen Spracherkenner Aussprachelexika


mit Varianten. Die beliebteste Vorgehensweise ist die, daß für jedes Wort, das 

mehrere Aussprachen hat, auch mehrere Einträge ins Lexikon eingetragen 

werden. Manche Lexika verwenden ganze Phonemgraphen, die als eine Art 

regulärer Ausdruck dargestellt werden. Z.B. kann der Eintrag für HABEN 

aussehen wie H A {B [E] N | M} und damit die Aussprachen HABEN 

HABN und HAM beinhalten. In einem Experiment auf dem Amerikanischen 

Wall Street Journal Benchmark konnte die Fehlerrate des Erkenners durch 

Verwenden von Aussprachevarianten von 15% auf 12.2% gesenkt werden 

Eine in diesem Zusammenhang sehr wichtige Frage ist die nach der 

Herkunft und Menge der verwendeten Aussprachevarianten. In einschlägigen 

gedruckten Lexika findet man oft nur eine kanonische Aussprache und nur 

sehr selten Varianten. Dialekte, regionale Einfärbungen und häufige Abweichungen 

findet man sehr selten. Typische Möglichkeiten für die Gewinnung 

von Varianten sind: 

• Linguisten / Phonetiker 

Experten auf diesen Gebieten kennen sich sehr gut aus. Die Praxis zeigt 

aber immer wieder, daß die tatsächlichen Laute aus akustischer Sicht oft 

nicht den linguistischen Erwartungen entsprechen. 

• Akustiker / Spracherkennungsforscher 

Diese Experten bringen die besten Aussprachelexika zustande. Oft ist es 

erst die Erfahrung mit der Akustik oder mit der Spracherkennung, die zu 

solchen Erkenntnissen führt, aufgrund derer eine Aussprachevariante U N 

T für das Wort ” und“ eingeführt wird. 

• Regelwerk 

Ähnlich wie die Beobachtung, daß silbenabschließende G-Laute oft 

wie CH-Laute gesprochen werden, kann man auch zahlreiche andere 

Regelmäßigkeiten beobachten, die sich in ein Regelwerk zusammenfassen 

lassen, mit dessen Hilfe aus einem kanonischen Lexikon eines mit vielen 

Varianten vollautomatisch erzeugt werden kann. Typische Regeln für das 

Deutsche sind z.B. die so genannte Schwa-Ellision, bei der Schwa-Laute 

wie der zweite Vokal im Wort ” haben“ komplett weggelassen werden kann, 

oder Änderungen der Vokalqualität wie z.B. beim Wort ” Bäcker“ das eher 

wie ” Becker“ ausgesprochen wird. 

• Phonemerkenner 

Bei diesem Ansatz wird ein Spracherkenner verwendet, der Phoneme statt 

Wörter erkennt. Bei ausreichend vielen Beispielen kann selbst auf den 

relativ stark fehlerbehafteten Phonemhypothesen eine Statistik erstellt


werden, die die häufigsten Aussprachen bestimmter Wörter zu Tage treten 

läßt. 

Auswahl der Varianten 

Leider ist es nicht so, daß ein willkürliches Volladen des Aussprachelexikons 

mit vielen Varianten zum Erfolg führt. Das dabei entstehende Problem ist 

im folgenden illustriert: 

Sprecher meinte: 

” Nimm mal einen Hammer.“ 

Sprecher sagte: 

” Nimm mal ’n’ Hammer.“ 

Erkenner ohne Varianten: 

” Nimm mal Hammer.“ 

In diesem Beispiel wurde das Wort einen“ – wie so oft – so schwach ar- 

” 

tikuliert, daß der Erkenner nichts Sinnvolles an dieser Stelle Erkennen konnte. 

Die erste Idee zur Beseitigung des Problems ist nun, das Aussprachelexikon 

so anzureichern, daß auch die Variante ’n’ als Aussprache für ” einen“ 

darin vorkommt. Bei der Gelegenheit könnten dann auch gleich einige 

weitere Varianten hinzugefügt werden, so daß das Lexikon die folgenden 

zusätzlichen Einträge erhält: 

Wort Aussprache 

einen AI N E N 

einen AI N 

einen N 

haben-wir H A B N W IE R 

haben-wir H A M ER 

einmal AI N M A L 

einmal M A L 

Mit diesem angereicherten Lexikon sollte der Erkenner nun in der Lage 

sein, auch die Kurzversion des Wortes ” einen“ zu erkennen. Allerdings kann 

es auch vorkommen, daß sich die Situation jetzt so darstellt: 

Sprecher meinte: 

Sprecher sagte: 

Erkenner mit Varianten: 

” Nimm mal einen Hammer.“ 

” Nimm mal ’n’ Hammer.“ 

” einen im einmal einen haben wir.“ 

Die Verwendung von zu vielen Varianten kann also auch kontraproduktiv 

sein und zu mehr Erkennungsfehlern führen. Insbesondere Varianten mit 

wenigen Phonemen können leicht als ” Lückenfüller“ bei der Erkennung 

von qualitativ schlechten Aufnahmen dienen. Wenn keines der langen 

Vokabularwörter auf ein Segment der Aufnahme mit ausreichender Wahr-


scheinlichkeit paßt, dann kommt es oft vor, daß eine Folge von kurzen 

Varianten eine höhere Beobachtungswahrscheinlichkeit liefert. 

Gerade im Deutschen kann eine übermäßige Verwendung von Varianten 

– insbesondere, wenn sie automatisch durch Regeln erzeugt werden – zu 

einem zusätzlichen Problem führen. Man stelle sich einfach nur das Wort 

” siebenundzwanzig“ vor. Wenn das Wort sieben“ drei bis vier Varianten 

” 

hat (Z IE B E N, Z IE B N, Z IE M, usw.), das Wort und“ mehrere 

” 

Varianten hat (z.B. U N D, U N T, U N, N, usw.), und auch noch zwanzig“ 

” 

auf viele Arten gesprochen werden kann, dann entstehen somit automatisch 

für das aus diesen Wörtern zusammengesetzte siebenundzwanzig“ leicht 

” 

mehrere Dutzend verschiedener Aussprachen. Da die deutsche Sprache für 

ihre Fähigkeit, lange Komposita bilden zu können, bekannt ist, kann man 

sich leicht ausmalen wie ein deutsches Aussprachelexikon stark aufgeblasen 

werden kann. 

Da während des Trainings von Hidden Markov Modellen die gesprochene 

Wortfolge bekannt ist, ist es an dieser Stellen unproblematisch, sehr viele 

Varianten zu verwenden, eine Verwechslung mit einem anderen Wort kann ja 

beim Aufbau des Satz-HMMs ausgeschlossen werden. Daher verwenden die 

meisten Spracherkenner verschiedene Trainings- und Erkennungslexika. Im 

Trainingslexikon kommen sehr viele Varianten vor, ins Erkennungslexikon 

werden vor allem die sehr kurzen und sehr seltenen Varianten nicht mit 

aufgenommen. 

Varianten in der Suche 

Eine weitere Problematik im Zusammenhang mit Aussprachevarianten sollte 

an dieser Stellen noch angesprochen werden. Da sowohl beim Training als 

auch beim Erkennen der Suchprozeß für einigermaßen komplexe Erkenner 

Techniken zur Beschneidung des Suchraums benötigen, können Wörter mit 

vielen Varianten gegenüber Wörtern mit wenigen Varianten benachteiligt 

werden. In Abb. 14.7 konkurrieren die Wörter wi und wj miteinander. Sollte 

an der Stelle t ein Entscheidung zur Beschneidung des Suchraums getroffen 

werden müssen, so kann es sein, daß, obwohl das Wort wi in allen seinen 

Varianten eine Wahrscheinlichkeitssumme akkumuliert hat, die größer ist als 

der entsprechende Wert für wi. 

Außerdem stellt sich natürlich die Frage, welche Werte die Übergangswahrscheinlichkeiten 

in ein Wort mit n Varianten erhalten soll. Wenn 

man jeder Variante die selbe Wahrscheinlichkeit P gibt, die das Wort 

unabhängig von seiner Aussprache hat, dann verletzen wir die Bedingung 

aus der Definition der Hidden Markov Modelle, nach der die Summe 

aller Ausgangswahrscheinlichkeiten eines Zustands 1.0 sein muß. Geben


wir jeder Varianten wi die selbe Wahrscheinlichkeit P/n oder auch eine 

andere aus ihrer tatsächlichen Vorkommenshäufigkeit geschätzten Wert 

Pi mit Pi = 1 geben, dann benachteiligen wir Wörter mit vielen Varianten. 

wi1 

wi2 

wi3 

wi4 

wj1 

wj2 

Abb. 14.7. Suchraumbeschneidung bei vielen Varianten 

t 

Daher muß entweder der Suchalgorithmus (vgl. Kap. 18) erheblich 

verkompliziert werden, indem bei der Beschneidungsentscheidung auch die 

auf anderen Pfaden für andere Varianten akkumulierten Wahrscheinlichkeiten 

berücksichtigt werden, oder man verzichtet auf die mathematische 

Korrektheit und spart Rechenzeit durch Nichtbeachten der Problematik. 

In der Praxis wird die mathematisch fragwürdigere aber einfachere und 

schnellere Variante in der Regel bevorzugt. 

Gelegentlich werden Aussprachevarianten für Zwecke verwendet, für die 

sie ursprünglich nicht vorgesehen waren. Bei machen Applikationen hat es 

wenig Sinn, im Sprachmodell jede mögliche Ausprägung einer Wortklasse 

zu berücksichtigen. Beim Entwurf eines Spracherkenners für ein Sprache 

verstehendes Navigationssystem kann man sich im Sprachmodell auf die 

Modellierung eines Wortes ” x-Straße“ beschränken. Die verschiedenen 

tatsächlichen in Frage kommenden Straßennamen können dann als Aussprachevarianten 

des Wortes ” x-Straße“ im Lexikon aufgenommen werden. 

Der Vorteil dieser Vorgehensweise besteht darin, daß beim Wechseln der 

Einsatzumgebung des Erkenners (z.B. andere Stadt beim Navigationssystem, 

oder anderer Fernsehsender beim verstehenden Videorecorder) 

das Sprachmodell komplett unverändert gelassen werden kann. Lediglich 

die Auswahl der verfügbaren Aussprachevarianten muß neu getroffen werden.


Verwendung von Wortclustern 

Für die meisten Sprachen gibt es bestimmte, häufig verwendete Phrasen, deren 

Aussprache sich mit der Zeit von der Konkatenation der Aussprache der 

einzelnen Phrasenbestandteile weg entwickelt hat. Beispiel für solche Phänomene 

sind im Deutschen zum Beispiel die Wortfolge haben wir“ die gerne 

” 

wie hammer“ oder hamwer“ ausgesprochen wird, oder das im Englischen 

” ” 

typische going to“, das eher wie gonna“ ausgesprochen wird. Manche Kon- 

” ” 

traktionen finden sich sogar in der Bildung neuer Wörter wieder, wie zum 

Beispiel die Wörter fürs“ und aufs“ als Zusammenfassung der Wortfolgen 

” ” 

” für das“ bzw. auf das“. Daher verwenden viele Aussprachelexika gesonderte 

” 

Einträge für einige wenige aber häufig auftretende kurze Wortfolgen. 

14.6.4 Flexible Transkriptionen 

Die Trainingsdaten für einen Spracherkenner bestehen in der Regel aus einer 

Sammlung von Aufnahmen und einer Datei, in der beschrieben ist, was auf 

den Aufnahmen zu hören ist, die sogenannten Transkriptionen. Es gehört 

nicht viel Weisheit dazu, zu schließen, daß die Qualität der Trainingsdaten 

auch die Qualität des aus ihnen berechneten Modells bestimmt. Dabei kommt 

es vor allem darauf an, daß in den Sprachsignalen auch das gesprochen 

wird, was in den zugehörigen Transkriptionen steht. In den Anfängen der 

Spracherkennung verwendete man daher sicherheitshalber nur sehr saubere 

Aufnahmen, also solche, in denen keine störenden Geräusche und auch 

keine störenden menschlichen Laute wie Atem- oder Lippengeräusche zu 

hören waren. Selbst Pausen zwischen den Wörtern eines kontinuierlich 

gesprochenen Satzes waren unerwünscht. Die Trainingsdaten wurden meist 

eigens für das Trainieren von Spracherkennern gesammelt. Inzwischen ist 

es üblich Aufnahmen zu verwenden, die nicht für die Spracherkennung 

vorgesehen waren – Aufnahmen, in denen Menschen natürlich z.B. mit 

anderen Menschen reden. In solcher ” ungeplanter“ Sprache kommen sehr 

wohl Störgeräusche und Pausen vor. 

Der erste Schritt in Richtung der Verwendung ungeplanter Sprache geht 

dahin, in den Transkriptionen auch die Geräusche festzuhalten. Darüber 

hinaus gibt es noch eine Reihe weiterer Phänomene, die ebenfalls in die 

Transkriptionen mit aufgenommen werden können, wie z.B. die Tatsache, 

daß ein Wort falsch oder auch im Dialekt ausgesprochen wurde, oder daß 

nur Wortfragmente ausgesprochen bzw. gestottert wurden. 

Selbst erfahrenen Transkribieren unterlaufen dabei oft Fehler, weil kurze 

Stotterer, dialektische Einfärbungen oder für den Menschen das Verständnis 

nicht störende Geräusche einfach ” psychologisch“ überhört werden. Daher 

gibt es das Bestreben, sehr gut ausgebildete Transkribierer in mehreren


Durchläufen über dieselben Daten in einem sehr zeitaufwendigen Prozeß 

hochqualitative Transkriptionen zu erzeugen. Der zeitliche Aufwand für das 

Abhören der Aufnahmen und schreiben der Transkriptionen kann dabei 

sogar vom Zehnfachen bis zum Hundertfachen der Länge der Aufnahme 

betragen. Dabei werden nicht einmal die zeitlichen Zuordnungen ( ” Labels“) 

angegeben, sondern lediglich der gesprochene mit diversen Effekten angereicherte 

Text. 

Aus den Transkriptionen werden die im Training verwendeten Satz- 

HMMs erzeugt. Wären die Transkriptionen perfekt, dann würde stets ein 

Satz-HMM mit einer einzigen völlig linearen Anordnung der Zustände 

genügen. Gestehen wir aber den Transkribierern zu, daß sie nicht nur die 

Länge von Pausen sondern sogar deren Existenz zwischen zwei Wörtern 

überhören dürfen, dann müssen wir zumindest zwischen dem letzten Zustand 

eines Wortes und dem ersten Zustand des darauffolgenden Wortes 

einen optionalen Stillezustand einbauen, der das Stillephonem modelliert. 

Gestatten wir den Transkribierern, einige zwar im Signal recht gut wiederzuerkennenden 

Laute wie Atmen, Lippen- oder Zungengeräusche, Reiben 

oder Klopfen am Mikrophon etc. zu überhören, dann bietet es sich an, 

zwischen den Wörtern nicht nur optionale Stillelaute sondern auch noch 

optionale Geräusche zu erlauben. Ganz besonders offensichtlich wird dies bei 

Mischgebilden zwischen Geräuschen und Wörtern, wie z.B. bei emphatischen 

Pausen, die im Deutschen typischerweise mit ” Äh“-Lauten und Varianten 

davon gefüllt werden. Selbst solche ” Ah“ Laute entgehen Transkribierern 

hin und wieder. Ganz besonders kompliziert kann es werden, wenn Wortfragmente 

oder Stotterer abgebildet werden sollen. Es ist oft gar nicht 

möglich eine sinnvolle Beschreibung zu liefern, weil z.B. das gesprochene 

Fragment keine korrekte textuelle Umschreibung hat. Man stelle sich vor, 

jemand stottert beim Sprechen des Wortes ” Manager“ und spricht die erste 

Silbe zweimal: ” Man- Manager“. Würde man dies so in die Transkription 

schreiben, hätte das System wohl große Schwierigkeiten, zu dem ” Man-“ eine 

passende Phonemfolge zu finden, der nächstbeste Lexikoneintrag für ” man“ 

wäre jedenfalls ungeeignet. Schlimmer noch sind in der Praxis tatsächlich 

nicht selten beobachtete Lautartikulationen, die gar nicht im phonetischen 

Inventar einer Sprache enthalten sind. Erlauben wir den Transkribierern, 

solche Dinge nicht immer perfekt zu umschreiben und erlauben wir darüber 

hinaus zusätzlich, das Überhören dialektgeprägter Einfärbungen der Sprache 

nicht explizit festzuhalten, so kommen wir schnell an einem Punkt an, an 

dem die Qualität der Transkriptionen deutlich abnimmt. An diesem Punkt 

gibt es dann nur noch zwei Alternativen, entweder man investiert noch 

viel mehr Aufwand zum Verbessern dieser Qualität, oder man unternimmt 

Maßnahmen zum Umgang mit nicht vollständig korrekt transkribierten 

Aufnahmen. Gerade bei sehr großen Trainingsdatenbasen wird sich die


letztere Variante anbieten. 

Die Methode der Wahl ist die der sogenannten flexiblen Transkription. 

Dabei werden dann nicht nur optionale Stille und Geräusche automatisch in 

das Satz-HMM aufgenommen, sondern auch noch typische Dinge, die Transkriptoren 

nicht festgehalten haben. Dazu gehören dann z.B. verschiedene, 

durch den aktuell gesprochenen Dialekt auszuwählende Aussprachevarianten, 

typische Wortverschmelzungen ( ” hammer“ statt ” haben wir“) und 

ähnliches. Diese Anreicherungen des Satz-HMMs im Vergleich zur Transkription 

geschieht regelbasiert [?]. Ein Katalog mit Regeln gibt an, wie aus 

einer einfachen Transkription ein wesentlich komplizierteres Netzwerk wird, 

das mit großer Wahrscheinlichkeit das tatsächlich Gesprochene widerspiegelt.

15. Erkennung kontinuierlicher Sprache 

Kontinuierliche Sprache bietet gegenüber isolierten Wörtern zusätzliche 

Herausforderungen in mehreren Bereichen. Wenn man fließend spricht, 

spricht man meist unvorsichtiger und ungenauer. Außerdem ist fließende 

Sprache meist deutlich schneller, und es treten Koartikulationseffekte auf, 

die einzelne Wörter im Kontext anders klingen lassen, als wenn diese Wörter 

isoliert ausgesprochen würden. Diese Probleme könnten im Prinzip ignoriert 

werden, wenn wir wüßten, wo in einer Aufnahme ein Wort beginnt und wo 

es aufhört. Dann wäre die Erkennung wegen der größeren Variablität und 

schlechteren Qualität der Signale zwar schwieriger, aber wir könnten die 

bisher betrachteten Algorithmen weiter verwenden. Jetzt ist es aber so, daß 

das Erkennungssystem keine explizite Information darüber hat, wo sich in 

einer Aufnahme Wortgrenzen befinden, es muß diese selbst finden. 

Da beim automatischen Finden der Wortgrenzen Fehler gemacht werden, 

ist zu erwarten, daß der Erkenner bei Eingaben wie ” geh heim“ Hypothesen 

wie ” geheim“ liefert, oder statt ” Nordirlandbeauftragter“ das falsche ” nord 

Ihr Land beauftragt er“ erkennt. Wie auch immer diese Wortgrenzen zustande 

kommen, man kann schon jetzt sagen, daß ein Vorgehen, bei dem ein 

Sprachsignal zunächst in unabhängige Segmente zerstückelt wird, um dann 

auf den Segmenten eine Isoliertworterkennung durchzuführen, zum Scheitern 

verurteilt ist. Ein ausreichend exaktes Finden von Wortgrenzen nur mit Hilfe 

des akustischen Signals ist nahezu ausgeschlossen. Manche Sprachen wie 

z.B. die chinesische sind so geartet, daß die geübten Nachrichtensprecher im 

Rundfunk die Silben mit einer relativ gleichbleibenden ” Taktrate“ vorlesen 

und daß sich diese Silbenfrequenz in der energetischen Analyse des Signals 

wiederfinden läßt, so daß eine automatische Segmentierung in Silben manchmal 

machbar ist. Aber die allermeisten Chinesen sprechen weniger getaktet 

und in den meisten anderen Sprachen ist eine Taktung viel schwieriger im 

Signal zu erkennen. In Sprachen wie im Englischen und Deutschen, in denen 

nicht einmal eindeutig definiert ist, was eine Silbe ist (wieviele Silben hat das 

Wort Uhr?), ist eine automatische Wortsegmentierung vor der eigentlichen 

Erkennung nicht möglich. Daher werden wir auf andere Algorithmen zum 

Trainieren von Erkennern und zum Erkennen von Aufnahmen angewiesen 

sein. Im folgenden werden Probleme, die mit kontinuierlicher Sprache

248 15. Erkennung kontinuierlicher Sprache 

zusätzlich entstehen, und einige Lösungen für diese vorgestellt. 

15.1 Bewertung von Erkennungshypothesen 

Die Bewertung der Leistung eines Einzelworterkenners ist recht einfach. 

Wenn die Testmenge aus n Wörtern besteht und der Erkenner c Wörter 

korrekt erkennt, kann man seine Worterkennungsrate WCR (word correct 

rate) angeben als 

WCR = c 

· 100% (15.1) 

n 

Beim Erkennen von kontinuierlicher Sprache ist dies nicht mehr so selbstverständlich. 

Wie würde man die Worterkennungsrate angeben, wenn der 

Sprecher ” Erkenner“ spricht und der Erkenner ” der Kenner“ erkennt, und 

wie wenn ” der Erkenner“ erkannt wird. Zweifellos wäre es nicht angebracht, 

bei der Fehlerkennung ” der Erkenner“ zu sagen, daß 100% der gesprochenen 

Wörter richtig erkannt wurden und somit die Worterkennungsrate 100% 

beträgt. Außerdem wäre es wünschenswert, daß ein Qualitätsmaß die 

Hypothese ” wer erkennt er“ schlechter bewertet als die Hypothese ” erkennt“ 

obwohl in beiden Fällen kein einziges Wort richtig erkannt wurde. 

In der kontinuierlichen Spracherkennung wurden verschiedene Qualitätsmaße 

eingesetzt, wirklich etabliert hat sich aber nur eins, das drei 

Fehlerarten kennt, nämlich 

• Vertauschungen: z.B. 

• Einfügungen: z.B. 

• Auslassungen: z.B. 

→ 

→ 

→ 

” Guten Tag Herr Müller.“ 

” Guten Tag wer Müller.“ 


” Guten Tag der Herr Müller.“ 


” Guten Tag Müller.“ 

Diese Art der Fehler erinnert stark an die Arten der Editierschritte, wie 

sie im Abschnitt 11.1 definiert wurden, und ebenso wie es zwischen zwei 

Texten eine minimale Editierdistanz gibt, gibt es bei zwei Wortfolgen eine 

minimale Fehlerzahl bestehend aus den o.a. Fehlern. Wenn der Satz ” Guten 

Tag Herr Müller.“ mißverstanden wird als ” Ja guten Tal Müller“, dann kann

15.1 Bewertung von Erkennungshypothesen 249 

man sagen, daß die Hypothese drei Fehler enthält. Erstens wurde ein ” Ja“ 

fälschlicherweise eingefügt, zweitens wurde ” Tag“ durch ” Tal“ ersetzt, und 

drittens wurde das ” Herr“ ausgelassen. Basierend auf dieser Art der Fehlermessung 

kann die Wortfehlerrate WER (word error rate) definiert werden als 

WER = 

s + d + i 

n 

· 100%, (15.2) 

wobei s die Zahl der Vertauschungen (substitutions), d die Zahl der 

Auslassungen (deletions), i die Zahl der Einfügungen (insertions) und n die 

Zahl der gesprochenen Wörter ist. Man sieht leicht, daß die Wortfehlerrate 

auch über 100% liegen kann, wenn z.B. statt ” Guten Tag Herr Müller“ 

fälschlicherweise ” Ja Guter Tal der Meier“ erkannt wird. Dann werden bei 

vier gesprochenen Wörtern insgesamt fünf Fehler gemacht, also beträgt die 

Wortfehlerrate 125%. 

Die Messung der Wortfehlerrate erfolgt genau auf die gleiche Art mit 

einem Algorithmus des dynamischen Programmierens wie bei der Bestimmung 

der minimalen Editierdistanz. Ebenso wie bei der Editierdistanz ist 

auch bei der Wortfehlerrate das Minimum nicht eindeutig. So kann stets 

die Folge Auslassung/Vertauschung/Einfügung auch interpretiert werden als 

Einfügung/Vertauschung/Auslassung mit der gleichen Fehlerzahl. 

Neben der Wortfehlerrate wird auch oft die Worterkennungsrate WRR 

(word recognition rate oder word accuracy) verwendet. Hier gilt einfach: 

WRR = 100% − WER = 

n − s − d − i 

n 

· 100% (15.3) 

Die Worterkennungsrate kann durchaus negativ werden, wenn mehr 

Fehler gemacht werden, als Wörter gesprochen wurden. 

Selten findet man auch Referenzen auf die Wortkorrektrate WCR (word 

correct rate)für kontinuierliche Sprache: 

WCR = 

n − s − d 

n 

· 100%, (15.4) 

die niemals negativ werden kann. In wenigen Fällen ist die Angabe der 

WCR sinnvoll. Dieses Maße kann man leicht ad absurdum führen, indem 

ein Erkenner, der das gesamte Erkennervokabular vielfach hintereinander 

ausgibt, 100% WCR erreichen könnte obwohl er ein Vielfaches der gesprochenen 

Wörter an Fehlern gemacht hat.


Man kann sich darüber streiten, wie sinnvoll das Maß der Wortfehlerrate 

zur Bestimmung der Qualität eines Spracherkenners ist. In der Forschergemeinde 

werden auch immer wieder andere Möglichkeiten diskutiert. So 

spielen zum Beispiel bei den meisten so genannten HUB-5 Evaluationen 

[?] der DARPA (Erkennung spontaner Telefondialoge zwischen Menschen) 

zusätzlich die korrekten Zeitangaben eine Rolle. Da wird jedes Wort der 

Erkennerhypothese mit einem Anfangs- und einem Endzeitstempel versehen, 

und es wird nur dann als korrekt erkannt angesehen, wenn die Zeitstempel 

und die tatsächliche Zeit sich überlappen. Andere Fehlermaße berücksichtigen 

die Wichtigkeit bestimmter Wörter für das Verstehen einer Äußerung. 

Hierbei geht man davon aus, daß ein falsch erkannter Artikel weniger schlimm 

ist als ein falsch erkanntes Substantiv. So definiert man für jedes Wort eine 

” Wichtigkeit“ und zählt dann nicht 1,0 für jede Vertauschung, Einfügung 

und Auslassung, sondern einen Wert, der sich aus der Wichtigkeit der in 

den Fehler involvierten Wörter berechnet. Bei dem Anfang der neunziger 

Jahre eingeführten so genannten Wall-Street-Journal-Test (HUB-1) [?] sind 

bei den meisten Erkennern an einem guten Drittel aller Fehler die englischen 

Artikel the und a beteiligt. 

Die Motivation für die Einbeziehung der Wichtigkeit falsch erkannter 

Wörter ist deswegen von Bedeutung, weil gerade bei der Evaluation von 

Erkennern und der Veröffentlichung von Erkennungsergebnissen sonst nur 

Aufmerksamkeit auf eine einzige Zahl gelegt wird, und die Forschung sich 

durch die Konzentration auf das Beseitigen von unwichtigen Fehlern von der 

Arbeit an der Beseitigung wichtigerer Fehler abhalten läßt. 

Allerdings haben auch die alternativen Fehlermaße ihre Probleme: Wer 

soll definieren, wie schwerwiegend welcher Fehler ist. Hier kommt eine 

gewisse Subjektivität ins Spiel. Je komplizierter ein Fehlermaß ist, umso 

mehr Möglichkeiten der unfairen Bewertung bietet es. Ein derart einfaches 

Maß, wie die oben definierte Wortfehlerrate ist per se wesentlich objektiver. 

Bei einigen bestimmten Erkennungsproblemen gibt man aber in der Regel 

auch andere Maße zusätzlich zur Wortfehlerrate an. So ist dies zum Beispiel 

vor allem bei Sprachen sinnvoll, bei denen die Definition eines Wortes 

problematisch ist. Dies ist bei vielen asiatischen, auf Silben basierenden 

Sprachen wie Chinesisch und Japanisch der Fall. Im Japanischen gibt es 

nur 48 grundlegende Silben aus denen die komplette Sprache aufgebaut 

wird. Texte sind Aneinanderreihungen dieser Silben, wobei kein Unterschied 

gemacht wird zwischen Silbenübergängen innerhalb eines Wortes und 

Wort-zu-Wort-Übergängen. Bestimmte Sachverhalte (anderer Tempus bei 

Verben, Singular/Plural bei Substantiven, etc.) werden durch Verwenden 

besonderer dafür vorgesehener Silben ausgedrückt. Ob diese Silben Teil 

eines Wortes oder ein eigenständiges Wort sind, darüber kann man sich

15.2 One Stage Dynamic Programming 251 

streiten. Darüber hinaus gibt es das Problem, daß eine Folge von Silben 

oft auf verschiedene Arten zu Wortfolgen zusammengefaßt werden kann. 

So wird für silbenbasierte Sprachen neben der Wortfehlerrate oft auch die 

Silbenfehlerrate mit angegeben. 

Ähnliche Probleme gibt es im Deutschen. Es ist dafür bekannt, daß es 

die Zusammensetzung von sehr langen komplexen Wörtern erlaubt. Aus rein 

akustischer Sicht ist es meist überhaupt nicht möglich und aus der Sicht 

der stochastischen Wortfolgemodellierung in vielen Fällen kaum möglich zu 

entscheiden, ob zwei aufeinanderfolgende Wörter ein oder zwei Wörter sind. 

Wie schwer ist der Fehler eines Spracherkenners, der Norddeutschland mit 

Nord Deutschland verwechselt? Ein derartiger Fehler kann im Englischen 

kaum vorkommen. 

Bei offiziellen Evaluationen deutschsprachiger Erkenner (gelegentlich 

auch für andere Sprachen) werden gerne vor dem Messen der Fehlerrate 

Normierungen durchgeführt. Selbst bei genauem Hinhören können oft nicht 

einmal Menschen Wie geht’s? von Wie geht es? unterscheiden. Würde ein 

Spracherkenner diese Verwechslung machen, so würde das gleich zu einer 

Wortfehlerrate von 67% bzw. 100% führen, je nachdem welche Version 

die Referenz und welche die Hypothese ist. Daher normiert man vorher 

Apostroph-S-Anhängsel sowohl in der Referenz als auch in der Hypothese 

zu einem eigenständigen Wort es. Ähnlich geht man vor bei Wortpaaren wie 

gerne und gern, oder habe und hab’ vor [?]. 

Bei Systemen, die über die reine Erkennung hinaus gehen, zum Beispiel 

Sprach-zu-Sprach-Übersetzungssysteme oder Dialog- und Auskunftssysteme, 

bietet es sich an, ein so genanntes End-to-End-Fehlermaß anzuwenden. Dabei 

wird nicht die Wortfehlerrate als wichtigstes Qualitätsmerkmal sondern der 

Anteil der korrekt übersetzten Äußerungen oder der Anteil der korrekten 

Dialogreaktionen gemessen. Dieses Maß abstrahiert dann automatisch von 

weniger wichtigen Fehlern, die durch die nachgeschaltete Übersetzung oder 

die Dialogsteuerung wieder problemlos ausgebügelt werden können. 

15.2 One Stage Dynamic Programming 

Es ist nicht weiter schwierig, den DTW-Algorithmus, wie wir ihn für die Einzelworterkennung 

kennengelernt haben, so zu erweitern, daß kontinuierliche 

Sprache erkannt werden kann (vgl. Abb. 15.1). Während bei der Verarbeitung 

isolierter Wörter für jedes Wort völlig unabhängig von den anderen 

ein DTW-Pfad und die dazugehörige Distanz berechet wird, kann man für 

kontinuierliche Sprache die ” vielen Referenzachsen“ zu einer Referenzachse


konkatenieren und eine einzige große DTW-Matrix bilden. Jetzt muß nur 

noch das Übergangsmuster dahingehend erweitert werden, daß aus jedem 

Endzustand jedes Wortes ein Übergang in die Anfangszustände aller Wörter 

erlaubt wird (s. Abb. 15.1). Mit dieser Erweiterung wird der Algorithmus 

” One Stage Dynamic Programming“ genannt [?]. 

Wort 1 

Wort 2 

Wort 3 

Einzelworterkennung 

Wortübergang 

Erkennung 

kontinuierlicher Sprache 

Endzustand Wort 1 

Anfangszustand Wort 1 





Abb. 15.1. Erweiterung des DTW-Algorithmus für kontinuierliche Sprache 

Die Algorithmen, wie sie in Kap. 11 eingeführt wurden, können nahezu 

unverändert übernommen werden. Der One-Stage-Algorithmus liefert auch 

eine Folge von Rückwärtszeigern. Allerdings ist es hier zusätzlich nötig, 

den letzten Zustand zu bestimmen. Was bei der DTW-Matrix für einzelne 

Wörter der Zustand ” rechts oben“ war hat nun keine Bedeutung, außer 

daß es der letzte Zustand irgend eines Wortes ist. In welcher Reihenfolge 

die Wörter auf der Referenzachse angeordnet werden, spielt schließlich 

keine Rolle. Daher muß entweder als letzter Zustand derjenige aus der 

rechtesten Spalte gewählt werden, der die kleinste kumulative Distanz 

hat, oder es wird verlangt, daß als Letzte Wort immer das Stille-Wort 

erkannt werden muß – was durchaus sinnvoll ist, wenn davon auszugehen ist, 

daß die Aufnahme nicht unmittelbar mit dem letzten Laut beendet wurde, 

sondern noch ein wenige Stille jeweils am Anfang und am Ende vorhanden ist. 

Das Ergebnis des One-Stage-Algorithmus ist auch ein Pfad, der dann 

nicht unbedingt von links unten nach rechts oben führt sondern vom 

Anfangszustand des ersten Wortes zum Endzustand des Letzen Wortes. 

Abb. 15.2 zeigt ein Beispiel, in dem das Vokabular aus den Wörtern A, B, C

D 

C 

B 

A 


A D D A B 

Abb. 15.2. Ein DTW-Pfad über mehrere Wörter 

und D besteht. Der dargestellte Pfad entspricht der Wortfolge A D D A B. 

D 

C 

B 

A 

Abb. 15.3. Grauwertdarstellung der Emissionswahrscheinlichkeiten 

Abb. 15.3 zeigt die Darstellung einer DTW-Matrix, in der die lokalen 

Distanzen, beziehungsweise die Emissionswahrscheinlichkeiten durch Graustufen 

(dunkel = kleine Distanz = hohe Wahrscheinlichkeit, hell = große 

Distanz = niedrige Wahrscheinlichkeit). Die in der Abbildung erkennbaren 

kurzen Teilpfade sind in der Praxis meist nicht so deutlich sichtbar. Sie sind 

hier nur des einfacheren Verständnisses wegen deutlich erkennbar. Allerdings 

ist auf den ersten Blick nicht selbstverständlich, welcher One-Stage-Pfad der 

wahrscheinlichste ist. Die Aufgabe des One-Stage-Algorithmus kann dadurch 

t


veranschaulicht werden, daß er einen Pfad über möglichst viele dunkle 

Bereiche finden muß. Eine Möglichkeit ist in Abb. 15.4 für die Wortfolge B 

D A A C dargestellt. 

D 

C 

B 

A 

Abb. 15.4. Möglicher Pfad für die Wortfolge B D A A C 

Eine andere Möglichkeit zeigt Abb. 15.5 mit der Wortfolge D A C B D A. 

Der Leser mache sich klar, daß es keine Ausgezeichneten Zeitpunkte gibt, 

zu denen Wortübergänge stattfinden dürfen. Das heißt, daß zu jedem einzelnen 

Zeitpunkt jeder (aktive) Zustand expandiert wird, unabhängig davon, 

ob es ein Zustand in der Mitte des Wortes oder ein Wortendzustand ist (vgl. 

Abb. 15.6). 

Prinzipiell wäre es schon an dieser Stelle möglich, auf der Modellachse 

statt ganzer Wörter kleinere Einheiten zu verwenden (Silben, Phoneme) und 

dann statt der Erkennung einer Wortfolge eine Silben- oder Phonemfolge 

zu erkennen. Dies wäre dann schon der erste Schritt in Richtung der 

Hidden-Markov-Modelle, die insbesondere für kontinuierliche Sprache große 

Vorteile gegenüber Mustervergleichern nach den DTW-Schema haben. 

t

D 

C 

B 

A 


Abb. 15.5. Möglicher Pfad für die Wortfolge D A C B D A 

D D 

C 

B 

A 

Abb. 15.6. Übergänge innerhalb der Wörter, dann Übergänge zwischen den 

Wörtern 

C 

B 

A 

t


15.3 Hidden Markov Modelle für kontinuierliche 

Sprache 

Während bei der Einzelworterkennung sowohl für das Training als auch für 

die Erkennung die gleichen Hidden-Markov-Modelle verwendet werden, auf 

denen dann im Training der Forward-Backward- und bei der Erkennung 

der Forward-Algorithmus eingesetzt werden, so gilt dies für kontinuierliche 

Sprache nicht mehr. Die aus der Einzelworterkennung bekannten Wort- 

HMMs könnten für das Training übernommen werden, wenn bekannt wäre, 

wo in einer Aufnahme jedes Wort anfängt und wo es aufhört. Da eine solche 

Segmentierung in der Regel nicht gegeben ist, muß hier ein anderer Weg 

beschritten werden. 

Meistens haben wir es beim Trainieren eines HMM-Erkenners für 

kontinuierliche Sprache mit Aufnahmen zu tun, in denen ganze Sätze stehen. 

Manchmal sind es auch mehrere Sätze, manchmal nur Satzfragmente. 

Eine Trainingsdatenmenge besteht aus vielen solcher Aufnahmen und den 

dazugehörigen Transkripten. Gelegentliche kleine Fehler in den Transkripten 

können meist toleriert werden, dennoch ist es vorteilhaft, wenn sie so 

exakt wie möglich sind, und sogar Atemgeräusche, Schmatzlaute, Stotterer, 

Telefonklingeln und andere Geräusche als solche beschrieben werden. 

Guten Tag 

G U T N T A G 

Wortgraph 

Phonemgraph 

G1 G2 U1 U2 T1 T2 N1 N2 T1 T2 

Abb. 15.7. Aufbau eines HMMs für einen ganzen Satz 

Zustandsgraph 

A1 A2 G1 G2 

Um auf einer kompletten Aufnahme mit mehreren Worten einen Forward- 

Backward Algorithmus zu rechnen, benötigen wir ein HMM, das alle Worte 

(und Geräusche) der Aufnahme modelliert. Im einfachsten Fall genügt es, 

die einzelnen Wort-HMMs zu einem einzigen HMM zu konkatenieren, wie in 

Abb. 15.7 dargestellt. 

Typischerweise besteht die Erzeugung des finalen HMMs (Zustandsgraph) 

aus drei Schritten. Im ersten Schritt wird ein Pseudo-HMM (Wortgraph) 

erzeugt, dessen Zustände ganzen Wörtern entsprechen. Im zweiten Schritt 

wird jeder Wortzustand durch ein HMM ersetzt, bei dem jeder Zustand

15.3 Hidden Markov Modelle für kontinuierliche Sprache 257 

einem Phonem entspricht (Phonemgraph), und schließlich wird jeder Phonemzustand 

im dritten Schritt durch das HMM ersetzt, das einem Phonem 

entspricht (meist ca. drei linear angeordnete Zustände). 

Das Ersetzen eines Wortzustandes durch eine Phonemfolge (oder einen 

kleinen Phonemgraphen) geschieht durch Nachschauen in einem Aussprachelexikon. 

Viele Aussprachelexika geben für einige Wörter mehrere mögliche 

Aussprachen an. Für solche Fälle verwendet man dann keine lineare Folge 

von Phonemzuständen, sondern entweder je möglicher Aussprache eine 

eigene Phonemfolge, die alternativ (vgl. Abb. 12.1 rechts unten) durchlaufen 

werden können, oder einen Phonemgraphen, der alle Aussprachen berücksichtigt 

(s. Abb. 15.8). 

Guten Tag 

T G 

G U N T A 

CH 

G1 G2 U1 U2 

T1 T2 

Wortgraph 

N1 N2 T1 T2 

Abb. 15.8. Satz-HMM mit verschiedenen Aussprachen 

Phonemgraph 

A1 A2 

Zustandsgraph 

G1 G2 

CH1 

CH2 

Auch wenn es wünschenswert ist, sehr ausführliche und korrekte Transkripte 

zu verwenden, so muß man davon ausgehen, daß solche in vielen 

Fällen nicht zur Verfügung stehen. Kurze Pausen werden üblicherweise gar 

nicht schriftlich festgehalten. Will man potentielle Pausen zwischen zwei aufeinanderfolgenden 

Wörtern korrekt modellieren, muß dafür in das HMM ein 

Zustand oder eine Zustandsfolge eingebaut werden. Für den Wortgraphen 

bedeutet das, daß jeder Wortübergang optional über ein Stillewort umgeleitet 

wird. Und wenn wir schon davon ausgehen, daß nicht alle Pausen in den 

Transkripten enthalten sind, dann könnten wir gleich berücksichtigen, daß 

andere Geräusche wie z.B. die Geräusche, die beim Öffnen der Lippen entstehen 

oder Atemgeräusche oder Stotterlaute vor Beginn eines Wortes auch 

nicht immer in den Transkripten stehen. Das heißt, daß wir in den Wortgraphen 

neben den optionalen Stillen auch optionales Gemurmel erlauben 

(s. Abb. 15.9). Will man weitere Eventualitäten berücksichtigen, könnten sogar 

Übergänge zwischen den Stille- und den Murmelzuständen (engl. mumble 

words) eingefügt werden. Damit ist schon ein Teil des Weges, den das Flexible 

Transcription Alignment (s. Abs. 14.6.4) geht genommen.


Stille Stille Stille 

Guten Tag 

Murmeln Murmeln Murmeln 

– T – G – 

G U N T A 

* 

* CH * 

Abb. 15.9. Satz-HMM mit optionalen Füllwörtern 

Wortgraph 

Phonemgraph 

Ein HMM für einen ganzen Satz – oder besser gesagt für eine Äußerung – 

muß nur für das Training aufgebaut werden. Nur dort ist überhaupt bekannt, 

welche Worte gesprochen wurden. Im Gegensatz zur Einzelworterkennung 

ist es bei kontinuierlicher Sprache nicht möglich, für jede erlaubte Äußerung 

ein Referenz-HMM zu erzeugen. Daher wird ein ähnlicher Weg bestritten 

wie beim One-Stage Dynamic Programming. Von jedem Endzustand eines 

Wortes werden Zustandsübergänge in die Anfangszustände aller Wörter 

eingefügt. Das Resultat ist ein einziges HMM, das alle n Einzelwort-HMMs 

enthält und zusätzlich n 2 Wort-zu-Wort-Übergänge (s. Abb. 15.10). 

Wort 1 

Wort 2 

Wort n 

. . . 

Abb. 15.10. Ein einziges HMM aus vielen einzelnen Wort-HMMs 

Auch wenn das HMM in Abb. 15.10 nicht so aussieht, daß es einfach als 

” eine“ Referenzachse verwendet werden kann wie in Kap. 12 angenommen. 

Grundsätzlich aber ist es, wie Abb. 15.11 auch linear darstellbar. 

15.4 Einbindung eines einfachen Sprachmodells 

Wenn wir bei Abb. 15.10 Wahrscheinlichkeiten für die Wortübergänge festlegen 

wollen, so könnten wir im einfachsten Fall einfach für jeden Übergang 

die Wahrscheinlichkeit 1/n verwenden. Besser ist allerdings die Verwendung 

n 2

C 

B 

A 

15.4 Einbindung eines einfachen Sprachmodells 259 

Abb. 15.11. HMM für kontinuierliche Sprache linear dargestellt. 

von ” hilfreicheren“ Werten. 

Wenn nicht von jedem Wortende zu jedem Wortanfang ein Übergang 

besteht, und wenn alle Übergänge aus einem Wortende gleich wahrscheinlich 

sind, dann sprechen wir von einer so genannten Wortpaar Grammatik. Der 

Erkenner würde ganz ohne Grammatik laufen, wenn nicht nur einige sondern 

alle Wortpaare erlaubt wären. Am erfolgversprechendsten ist allerdings der 

Einsatz von ” echten“ Wahrscheinlichkeiten, die auch berücksichtigen, welche 

Wörter einander mit welcher Wahrscheinlichkeit folgen können. So würden 

wir sicher den Übergang von ” Guten“ zu ” Tag“ als wahrscheinlicher festlegen 

als den Übergang von ” Guten“ zu ” sein“. Im Kapitel 16 werden wir uns noch 

ausführlich mit der Findung sinnvoller Wortübergangswahrscheinlichkeiten 

befassen.

16. Verwendung von Sprachmodellen 

Im Deutschen wird der Begriff ” Sprache“ für verschiedene Dinge gebraucht, 

die im Englischen durch ” speech“ und ” language“ unterschieden werden. 

Während ” speech“ sich auf die akustischen, phonetischen und biologischen 

Aspekte des Sprechens bezieht, ist mit ” language“ der linguistische Aspekt 

gemeint, wie er sich vor allem in geschriebener Sprache manifestiert. Der 

Teil eines Spracherkenners, der sich mit der Behandlung der linguistischen 

Eigenschaften der Sprache beschäftigt wird das Sprachmodell genannt. 

16.1 Wozu Sprachmodelle 

Die Verwendung von Wissen, das über das in den Parametern von Hidden 

Markov Modellen mit ihren unterschiedlichen Emissionswahrscheinlichkeitsmodellen 

vorhandenen hinausgeht, kann auf verschiedene Arten motiviert 

werden. 

Zum einen ist es selbstverständlich, daß zusätzliches Wissen, korrekt 

angewendet, keinesfalls dazu führen kann, die Leistung von Spracherkennern 

zu senken. Viele Wörter, die akustisch leicht verwechselbar sind, könnten 

unter Zuhilfenahme von Sprachmodellen besser unterschieden werden. Im 

Extremfall ist das Sprachmodell die einzige Instanz, die in der Lage ist 

zwischen ” Sie“ (Anrede) und ” sie“ (dritte Person Plural) zu unterscheiden. 

Solche Wörter, die sich in ihrer Aussprache nicht unterscheiden, werden 

Homophone genannt. Sie sind für viele Spracherkenner eine nicht zu 

vernachlässigende Fehlerquelle. Vor allem in Sprachen wie dem Englischen 

oder Französischen existieren viele Homophone. Im Französischen ist oft 

die Unterscheidung zwischen Singular- oder Pluralform bzw. zwischen 

weiblicher und männlicher Form eines Wortes rein aufgrund der Akustik 

nicht möglich. Um festzustellen, ob der englische Satz ” I owe you, too.“ 

wahrscheinlicher gesprochen wurde als ” Eye O U two.“ bedarf es einer 

Wissensquelle, welche die Wahrscheinlichkeit von Wortfolgen berechnet. 

So eine Instanz, das Sprachmodell, würde dann feststellen, daß ” Eye O 

U two.“ viel unwahrscheinlicher ist als ” I owe you, too.“ und somit allein

262 16. Verwendung von Sprachmodellen 

die Entscheidung zwischen zwei Erkennerhypothesen treffen, die akustisch 

identisch sind. 

Sprachmodelle können auch dazu dienen, den Suchraum einen HMM- 

Erkenners für kontinuierliche Sprache einzuschränken. Wenn man bedenkt, 

wie stark die kombinatorische Explosion der Zahl der möglichen Wortfolgen 

ist (man denke an Sätze mit zwanzig bis dreißig Wörtern aus einem Vokabular 

von 50000), bietet sich der Einsatz eines Sprachmodells zur Auswahl 

von in Frage kommenden Wortfolgen und somit zur Steuerung der Suche des 

Erkenners an. In der Tat kann man so viele Suchpfade, die zwar akustisch 

wahrscheinlich sind aber syntaktisch oder semantisch absurden Wortfolgen 

entsprechen würden, frühzeitig beschneiden und viel Suchaufwand einsparen. 

16.2 Wahrscheinlichkeiten von Wortfolgen 

Erinnern wir uns noch einmal an die Fundamentalformel der Spracherkennung 

(14.2): 

ˆW = argmaxP(X|W) 

· P(W) 

W 

Die Aufgabe des Sprachmodells ist die Berechnung von P(W). Geht 

man davon aus, das W = (w1, w2, . . . wn), also eine Folge von n Wörtern ist, 

dann läßt sich P(W) schreiben als 

P(W) = P(w1) · P(w2|w1) · P(w3|w1, w2) · · · P(wn|w1, w2, . . .wn−1), (16.1) 

wobei P(w1) die Wahrscheinlichkeit dafür ist, daß eine Wortfolge mit 

dem Wort w1 anfängt, und P(wi|w1, w2, . . . wi−1) die Wahrscheinlichkeit 

dafür ist, daß das Wort wi gesprochen wird unter der Voraussetzung, daß 

die ganze Worthistorie w1 bis wn−1 davor gegeben ist. 

Prinzipiell wäre es auch möglich gewesen, die Definition ” rückwärts“ zu 

machen und zu definieren: 

P(W) = P(wn) · P(wn−1|wn) · P(wn−2|wn−1, wn) · · ·P(w1|w2, w3, . . . wn)

16.2 Wahrscheinlichkeiten von Wortfolgen 263 

wobei dann P(wn) die Wahrscheinlichkeit dafür wäre, daß wn das letzte 

Wort ist, und P(wi|wi+1, wi+2, . . .wn) die Wahrscheinlichkeit dafür, daß das 

Wort wi gesprochen wird unter der Voraussetzung, daß der ganze noch zu 

sprechende Rest der Wortfolge bekannt ist. 

Für Spracherkenner, die erst dann mit der Erkennung anfangen, wenn 

eine zu erkennende Äußerung abgeschlossen ist, stellt die zweite, rückwärts 

gerichtete, Variante kein Problem dar. Es spricht auch nichts prinzipiell 

dagegen, den Forward- oder Viterbi-Algorithmus auf der Zeitachse rückwärts 

laufen zu lassen. Der einzige Grund, warum man doch besser die vorwärts 

gerichtete Variante verwenden würde ist bei der so genannten schritthaltenden 

(Run-On-) Erkennung gegeben, bei der der Erkenner schon anfängt 

Teilhypothesen für den bereits gesprochenen Teil einer Äußerung zu liefern, 

während der Sprecher noch dabei ist, den Rest der Äußerung zu sprechen. 

Bei den obigen Definitionen haben wir vorausgesetzt, daß die Länge einer 

Wortfolge bekannt und fest vorgegeben ist. In der Praxis ist dies natürlich 

nicht der Regelfall. Das heißt, die Definition für die Wahrscheinlichkeit einer 

Wortfolge ohne bekannte Länge wäre: 

n−1 

P(W) = P(n) · P(w1) · P(w2|w1, . . .wi) (16.2) 

i=1 

Hier ist P(n) die Wahrscheinlichkeit dafür, daß eine Wortfolge die 

Länge n hat. Dies nimmt dem Term etwas seiner Uniformität. Es wird sich 

herausstellen, daß in der Praxis an vielen Stellen von den Forderungen der 

Mathematik abgewichen wird, damit die gebauten Systeme funktionieren. 

Das liegt teilweise daran, daß wir oft versuchen aus den zur Verfügung 

stehenden Datenmengen das größtmögliche herauszuholen, und so Parameter 

von stochastischen Modellen mit so wenig Daten schätzen, daß für diese das 

aus der Stochastik bekannte Gesetz der großen Zahl nicht greift. Teilweise 

liegt es aber auch daran, daß die Modelle, die wir uns von der Wirklichkeit 

machen, von dieser Wirklichkeit weit weg sind. Um das mathematische 

Gewissen zu erleichtern können wir uns auch vorstellen, daß wir bei der 

Berechnung der Wahrscheinlichkeit einer Wortfolge davon ausgehen, daß alle 

Wortfolgen immer unendlich lang sind, sie haben aber eine Stelle, ab der 

nur noch ein Satz-Ende-Wort Ve kommt. Dann können wir von der Länge 

abstrahieren und sagen:


⎧ 

#(Hwn) 

falls wn = Ve und Ve ∈ H 

⎪⎨ 

#(H) 

P(H) falls wn = Ve und Ve ∈ H 

P(wn|H) = 

0.0 falls wn = Ve und Ve ∈ H 

⎪⎩ 

1.0 falls wn = Ve und Ve ∈ H 

(16.3) 

wobei #(H) die Häufigkeit der Beobachtung der Wortfolge H ist, #(Hw) 

die Häufigkeit der Beobachtung der Wortfolge H gefolgt vom Wort w ist. 

Bei einem Vokabular von 100 000 Wörtern könnten 10 50 verschiedene 

Zehnwortfolgen erzeugt werden. Das bedeutet, daß es ausgeschlossen ist, 

daß wir eine Tabelle anlegen, die für jedes Wort w und jede Worthistorie 

H einen gut geschätzten Eintrag P(w|H) enthält. Bleiben also nur drei 

Möglichkeiten. Erstens wir setzen sehr viele Einträge in der Tabelle auf null. 

Zweitens, wir berechnen P(w|H) erst dann wenn wir es wirklich benötigen, 

und nicht alles im voraus. Oder drittens, wir fassen verschiedene Historien 

in Klassen zusammen und approximieren: 

P(w|H) ≈ P(w|C(H)), (16.4) 

wobei C(H) die Klasse von Historien ist, in die auch H fällt. Nur in 

wenigen Fällen ist es sinnvoll, die Sprachmodellwahrscheinlichkeit ” im Fluge“ 

zu berechnen. Der Aufwand, der getrieben werden muß, um die Suche eines 

Spracherkenners in akzeptabler Zeit durchzuführen, ist schon so groß, daß 

eine sehr oft durchgeführte Anfrage nach Sprachmodellwahrscheinlichkeiten, 

die erst noch berechnet werden müßten, den Gesamtablauf so sehr verlangsamen 

würde, daß kein sinnvoller Einsatz des Erkenners mehr denkbar wäre. 

Aus ebenso praktischen Gründen bietet es sich meist nicht an, die gesamte 

Historie einer Aufnahme mitzuführen und ständig für die Berechnung 

von Sprachmodellwahrscheinlichkeiten bereitzustellen. Abgesehen davon, 

daß durch beliebig lange Historien die Komplexität des Suchalgorithmus 

sehr hoch wird, können wir davon ausgehen, daß der Einfluß eines Wortes 

auf die Beobachtungswahrscheinlichkeit eines anderen Wortes, daß erst sehr 

viel später im Satz oder gar erst in einem viel späteren Satz auftritt mit 

zunehmendem Abstand gegen null geht. 

Somit bietet sich an dieser Stelle eine Art der Klassenbildung der 

Historien an, nämlich die Beschränkung auf eine Maximallänge: 

C(H = w1, w2, . . . wn) = {v1, v2, . . .vk|vi = wn−k+i}, (16.5)

16.3 N-Gramme 265 

also alle Historien, bei denen die letzten k Wörter gleich sind, kommen 

in dieselbe Klasse. Sicherlich sind auch andere Arten der Historienklassifizierung 

sinnvoll und werden in der Praxis auch eingesetzt. So können 

einzelne Wörter oder auch Wortfolgen je nach ihrer semantischen oder auch 

syntaktischen Bedeutung in gemeinsame Klassen eingeordnet werden. 

16.3 N-Gramme 

Die bei weitem am häufigsten verwendete Historienklassifizierung ist die der 

Einschränkung auf maximal ein bis zwei Vorgängerwörter. Drückt man die 

Wahrscheinlichkeit eines Wortes in Abhängigkeit der n − 1 Vorgänger aus, 

so spricht man von n-Grammen: 

n-Gramm P(wm|w1, . . . wm−1) ≈ 

n = 1 (Unigramm) P(wm) 

n = 2 (Bigramm) P(wm|wm−1) 

n = 3 (Trigramm) P(wm|wm−2, wm−1) 

n = k P(wm|w m−(k−1), . . . wm−1) 

Eine spezielle Form der Bigramme sind Wortpaargrammatiken. Sie 

definieren lediglich welche Wörter einem Wort folgen dürfen. Diese erhalten 

dann alle die gleiche positive Bigramm-Wahrscheinlichkeit, während alle 

anderen (nicht erlaubten Folgewörter) die Wahrscheinlichkeit 0 erhalten. 

Die naheliegende Maximum-Likelihood Schätzung für ein n- 

Gramm ist das Verhältnis der Vorkommen der gesamten“ Wort- 

” 

folge wm−(k−1), . . .wm−1, wm zu den Vorkommen der 

” Geschichte“ 

wm−(k−1), . . . wm−1, also: 

P(wm|w m−(k−1), . . .wm−1) = #(w m−(k−1), . . . wm−1, wm) 

#(w m−(k−1), . . .wm−1) 

(16.6) 

Ein Blick auf eine typische Textdatenbasis wie die des Wall-Street- 

Journals läßt schnell erkennen, daß das Gesetz der großen Zahl für die 

Modellierung von Wortfolgen so enorm große Zahlen meint, daß wir kaum 

eine Chance haben, diese jemals zu erreichen. Im Standard-Benchmark 

der Wall-Street-Journal Datenbasis kommen Texte vor, die sich ca. 300 

Millionen Wörter aufsummieren. Auf den ersten Blick eine sehr große Zahl. 

Betrachten wir jetzt alle 300 Millionen Worttripel, dann stellen wir fest, daß 

ca. 65 Millionen, also gut ein fünftel, in der gesamten Textdatenbank nur ein


einziges Mal vorkommt, so selten also, daß sinnvolle statistische Aussagen 

kaum zu machen sind. 

Bevor wir uns überlegen, ob wir nicht besser nach erfolgversprechenderen 

Sprachmodellen suchen sollten, betrachten wir zwei Experimente, die uns 

bei der Einschätzung der Wirkung von n-Grammen helfen könnten. 

Im ersten Experiment wurde aus der Wall Street Journal Datenbasis 

derjenige Teil herausgenommen, der nur Wörter aus der Menge der 1000 

häufigsten Wörter enthält (das war eine Textmenge von ca. 400 000 

Wörtern). 300 000 (Trainingsdaten) davon wurden zum Schätzen von 

Trigrammen entsprechend Gl. 16.6 verwendet, und auf den restlichen 

100 000 (Testdaten) wurde das Trigramm-Modell gestestet. Wir werden uns 

später in diesem Kapitel mit der Qualität von Sprachmodellen beschäftigen 

und an dieser Stelle lediglich die Zahl der Worttripel betrachten, die in 

den Trainingsdaten und in den Testdaten vorkommen. Diese Zahlen bilden 

die Basis für die Schätzung von Trigrammen. Bei der Betrachtung der 

Worttripel der Testdaten wurde festgestellt, daß 23% von ihnen in den 

Trainingsdaten überhaupt nicht vorkamen. Das würde bedeuten, daß fast 

jedes vierte bei der Erkennung der Testdaten zu verwendende Trigramm 

eine Wahrscheinlichkeit von null hätte. Sicher könnte man statt 0.0 einen 

kleinen Wert ǫ nahe 0.0 wählen, damit diese Worttripel überhaupt eine 

Chance haben, erkannt zu werden. Dennoch sollte man erwarten, daß ein 

Sprachmodell, das in einem Viertel aller Fälle willkürlich festgelegte Werte 

nahe null verwendet nur wenig hilfreich ist. Das erste Experiment ist also für 

den Einsatz von n-Grammen eher entmutigend. Für Werte von n > 3 ist der 

Anteil der in den Trainingsdaten nicht vorkommenden n-Tupel noch größer. 

In einem anderen Experiment, dem sogenannten ” Bag of Words“, wurden 

aus der Datenmenge, die aus dem ersten Experiment bekannt ist, Sätze mit 

maximal 10 Wörtern genommen. Aus jedem Satz wurde statt einer Wortfolge 

eine Wortmenge gebildet, in der die ursprüngliche Reihenfolge der Wörter 

nicht mehr bekannt war. Ein Algorithmus suchte dann zu jeder Wortmenge 

diejenige Wortfolge, deren Trigramm-Wahrscheinlichkeit am größten ist. 

Bei 63% aller Sätze wurde der ursprüngliche Satz exakt rekonstruiert, und 

79% aller Sätze wurden immerhin so rekonstruiert, daß wenigstens der Sinn 

erhalten blieb. 

16.4 Perplexität 

Die Messung der Qualität eines Sprachmodells kann so erfolgen, daß ein 

Erkenner das Sprachmodell verwendet und die Worterkennungsrate dann als

16.4 Perplexität 267 

Qualität des Modells verwendet wird. Das Sprachmodell, das weniger Fehler 

produziert, würde dann als das bessere angesehen werden. Allerdings hat 

man hier drei Probleme: Erstens ist das Durchführen einer Erkennung auf 

einer aussagekräftigen Testmenge aufwendig, zweitens hängt die Wortfehlerrate 

sehr wesentlich davon ab, wie gut das Sprachmodell zur Testdatenmenge 

paßt, und drittens hängt das Ergebnis auch von der Zusammenarbeit des 

Sprachmodells und des akustischen Modells ab. 

Wenn wir den einen Zweck von Sprachmodellen, nämlich die Vereinfachung 

der Erkennungsaufgabe, betrachten, dann ist ein Modell, dessen 

Übergangswahrscheinlichkeiten nahezu gleichverteilt sind (s. Abb. 16.1 

rechts), deutlich weniger ” nützlich“ als eines, das eine weniger glatte 

Verteilung hat (s. Abb. 16.1 links) – vorausgesetzt natürlich, die Wahrscheinlichkeitswerte 

sind sinnvoll geschätzt. 

wi 

0.19 

0.22 

0.18 

0.19 

0.22 

wi+1,1 

wi+1,5 

wi+1,2 

wi+1,4 

wi+1,3 

wi 

0.55 

0.10 

0.01 

0.05 

0.29 

wi+1,1 

wi+1,5 

wi+1,2 

wi+1,4 

wi+1,3 

Abb. 16.1. Sprachmodelle mit wenig (links) und viel (rechts) Informationsgehalt 

Ein Sprachmodell mit absolut gleichverteilten Übergangswahrscheinlichkeiten 

ist völlig wertlos, es liefert keine Information und könnte auch gleich 

ganz weggelassen werden. Ein Maß, das die ” Glattheit“ einer Verteilung 

mißt, also die mangelnde Information, ist die Entropie: 

H = − 

n 

pi · log2 pi 

i=1 

(16.7) 

Betrachten wir das Sprachmodell als eine Informationsquelle und jedes 

Wort als ein Symbol, das die Quelle zufällig entsprechend der Sprachmodellwahrscheinlichkeiten 

emittiert, dann ist die Entropie der Quelle definiert als: 

HQ = lim 

n→∞ − 

n 

pi · log2 pi, (16.8) 

i=1


wobei pi die vom Sprachmodell vorgegebene Wahrscheinlichkeit für das 

i-te Wort wi bei gegebener Historie w1, w2, . . . wi−1 ist. 

Ergodische Quellen sind solche, deren Verhalten durch eine unendlich 

lange Symbolfolge komplett beschrieben werden kann. Es ist vernünftig 

anzunehmen, daß es sich bei einem Sprachproduktionssystem um eine solche 

Quelle handelt. Für ergodische Quellen gilt: 

1 

HE = − lim 

n→∞ n log2 P(w1, w2, . . .wn) (16.9) 

Da aber niemals eine unendliche Wortfolge zur Verfügung steht, sondern 

eine sehr große aber endliche Folge w1, w2, . . . wn, wird die Entropie der 

Quelle, die diese Folge produziert approximiert durch: 

HE ≈ − 1 

n log 2 P(w1, w2, . . .wn) (16.10) 

Dieser Wert HE ist ein Maß für die Schwierigkeit einer Spracherkennungsaufgabe 

aus linguistischer Sicht (d.h. ohne Berücksichtigung der 

akustischen Gegebenheiten). Ein großer Wert bedeutet viel Entropie = 

wenig Information = schwierige Aufgabe, ein kleiner Wert bedeutet wenig 

Entropie = viel Information = leichte Aufgabe. Der Wert 

PP = 2 HE 1 − 

= P(w1, w2, . . . wn) n (16.11) 

Wäre in einem Sprachmodell über dem Vokabular V jede Wortfolge gleich 

wahrscheinlich, so wäre P(w1, w2, . . .wn) = (1/|V |) n und die Perplexität 

wäre ((1/|V |) n 1 − ) n = |V |. Das heißt, eine Quelle mit der Entropie PP 

enthält den gleichen Informationsgehalt wie eine Quelle, die aus einem 

Vokabular der Größe |V | = PP gleichverteilt Wörter emittiert. Eine andere 

Veranschaulichung des Perplexitätswertes ist die des geometrischen Mittels 

der Zahl der zu jedem Zeitpunkt zu erwartender Wörter: 

PP = 

1 

 

P(w1, w2, . . . wn) = 

n 

1 

n n 

i=1 pi 

(16.12) 

Aus der Sicht des Spracherkenners bedeutet dies, daß die Aufgabe, 

Sprache mit beliebigem Vokabular und einer Perplexität von PP so schwer 

zu erkennen ist, wie Sprache mit einem Vokabular der Größe PP und dem 

Verzicht auf den Einsatz eines Sprachmodells. Im übrigen gilt: jede von der

16.4 Perplexität 269 

Gleichverteilung abweichende Verteilung hat eine Perplexität zur Folge, die 

kleiner ist als |V |. 

Die Perplexität ist eine intrinsische Eigenschaft einer Symbolquelle oder 

eines Sprachmodells. Wird sie allerdings gemäß Gl. 16.11 geschätzt, dann 

spricht man von der ” Test-Set-Perplexität“, ein Wert, der selbstverständlich 

von der endlichen Wortfolge (dem Test-Set) w1, w2, . . .wn abhängt. 

Das bedeutet, daß dasselbe Sprachmodelle je nach Test-Set, verschiedene 

Test-Set-Perplexitäten hat. Spricht man nur von der Perplexität eines 

Sprachmodells, dann meint man damit die Test-Set-Perplexität auf der 

Wortfolge, mit der das Modell geschätzt wurde, oder eine Kreuzvalidierungsteilmenge 

davon. 

Tab. 16.1 gibt die typischen Perplexitäten einiger Erkennungsaufgaben 

an. Am Beispiel der Wall Street Journal Daten ist zu erkennen, daß die 

Perplexität eines Trigramm-Modells erwartungsgemäß niedriger ist als 

die eines Bigramm-Modells. Ein Bigramm-Modell enthält wiederum mehr 

Information als ein noch einfacheres Wortpaarmodell (PP=20 ggü. PP=60 

für die Resource Management Daten). Ein ganz starker Effekt für die 

Test-Set-Perplexität läßt sich an den deutschsprachigen Daten aus der 

Süddeutschen Zeitung sehen. Verwendet man als Test-Set ebenso wie für 

das Schätzen des Modells Texte aus der gleichen Zeitschrift, so beträgt 

die Perplexität ca. 400. Dies ist an sich schon wesentlich höher als für 

typische englischsprachige Aufgaben, was im wesentlichen auf die vielen 

Flexionsformen im Deutschen, die es im Englischen sehr viel weniger gibt, 

zurückzuführen. Einen gewaltigen Sprung in die Höhe macht die Perplexität 

allerdings noch, wenn als Test-Set Märchen (in diesem Experiment [?] 

” Schneewittchen“) verwendet werden. Die Tatsache, daß Märchentexte von 

Nachrichtentexten sehr verschieden sind, führt dazu daß die n-Gramm- 

Wahrscheinlichkeiten sehr klein geraten und somit die Perplexität sehr groß 

wird. Hier bedeutet dies, daß die Erkennung eines gesprochenen Märchens 

mit Hilfe eines Trigramm-Sprachmodells aus der Süddeutschen Zeitung in 

etwa so schwierig ist wie die Erkennung mit einem Vokabular der Größe 

1000 Wörter ganz ohne Sprachmodell. 

Die Perplexität ist geeignet, die Schwierigkeit einer Erkennungsaufgabe 

einigermaßen zu beschreiben. In vielen Fällen ist es jedoch so, daß eine 

Aufgabe trotz niedrigerer Perplexität schwieriger ist, weil bei der reinen 

Perplexität die Verwechslungswahrscheinlichkeit nicht berücksichtigt wird. 

In Abb. 16.2 ist die lokale Wahrscheinlichkeitsverteilung der Nachfolger des 

Wortes wi auf der linken Seiten wesentlich schärfer (d.h. hat niedrigere 

Perplexität) als auf der rechten Seite. Dennoch ist die Erkennungsaufgabe 

der rechten Seite einfacher. Zwar hilft hier das nahezu gleichverteilte Sprachmodell 

nicht, aber die in Frage kommenden Wörter sind aus akustischer Sicht


Daten |V | Sprachmodell PP 

Conference Registration [?] 400 Bigramme 7 

Resource Management [?] 1000 Bigramme 20 

Resource Management 1000 Wortpaare 60 

Wall Street Journal [?] 60000 Bigramme 160 

Wall Street Journal 60000 Trigramme 120 

Süddeutsche Zeitung (SZ) 60000 Trigramme 400 

SZ mit Märchen als Test-Set 60000 Trigramme 1000 

Tabelle 16.1. Perplexitäten verschiedener Erkennungsaufgaben 

nahezu unverwechselbar. An solchen Stellen benötigt ein Spracherkenner 

die Information aus dem Sprachmodell überhaupt nicht. Um auch solche 

Phänomene zu erfassen, wurde der Begriff der akustischen Perplexität (im 

Englischen oft aperplexity genannt) eingeführt: 

APP = 2 HA mit HA = − 1 

n 

n 

log P(w1, w2, . . . wn−1, A(wn)) (16.13) 

i=1 

wobei A(w) die Menge der akustisch mit w verwechselbaren Wörter 

ist. Die Definition ist also ganz analog zur reinen Perplexität, nur daß die 

Wahrscheinlichkeit für das letzte Wort durch die Wahrscheinlichkeit für eine 

Klasse von Wörtern ersetzt wird. In der Praxis wird die akustische Perplexität 

allerdings recht selten angegeben. Der Vorteil, den die Perplexität hat, 

nämlich bei der Beschreibung Schwierigkeit einer Erkennungsaufgabe, vom 

verwendeten Erkenner ganz unabhängig zu sein, geht bei der akustischen 

Perplexität verloren, denn die Definition der akustisch verwechselbaren 

Wörter hängt sehr wohl auch vom verwendeten Erkenner ab. Zumindest ist 

es nicht in jedem Fall selbstverständlich ob zwei Wörter verwechselbar sind 

oder nicht.

wi 

0.8 

0.03 

0.17 

” ein“ 

” und“ 

” an“ 

Abb. 16.2. Perplexität und Verwechselbarkeit 

16.5 Glättung und Interpolation 

16.5 Glättung und Interpolation 271 

wi 

0.33 

0.33 

0.34 

” ich“ 

” Banane“ 

” mikroskopisch“ 

Berücksichtigt man die Tatsache, daß von den ca. 300 000 000 Worttripeln 

aus den Wall Street Journal Trainingsdaten ca. 65 000 000, also über 

20%, nur ein einziges Mal vorkommen, stellt man fest, daß eine naive 

Maximum-Likelihood Schätzung wie in Gl. 16.6 nur sehr schlechte Ergebnisse 

produzieren kann. Ob ein Worttrippel ein mal, zwei mal oder drei mal 

vorkommt ist oft ein Sache des reinen Zufalls und berechtigt in der Regel 

nicht zur Annahme, daß eine Wortfolge, die drei mal vorkommt, auch drei 

mal so wahrscheinlich ist, wie eine, die nur ein mal vorkommt. Ganz extrem 

ist dies der Fall, bei Wortfolgen, die in den Trainingsdaten überhaupt nicht 

vorkommen. Deren Wahrscheinlichkeit auf 0 zu setzen würde sie vom Erkennungsprozeß 

komplett ausschließen. Wegen solcher Probleme verwenden 

gute Sprachmodell verschiedene Glättungstechniken um Wortfolgen, deren 

Wahrscheinlichkeiten nur sehr schlecht geschätzt werden können, dennoch 

gut zu modellieren. Im folgenden werden einige Methoden dazu vorgestellt. 

16.5.1 Cutoffs 

Mit dem englischen Begriff cutoff bezeichnet man das ” Abschneiden“ 

beziehungsweise das Ignorieren eines Teils der Trainingsdaten. Das typische 

Vorgehen dabei besteht darin, alle Wortfolgen, die weniger als m mal vorkommen 

komplett zu ignorieren. Wenn sichergestellt ist, daß jede Wortfolge, 

die zur Schätzung der Sprachmodellparameter verwendet wird, mindestens 

m mal im Trainingstext vorkommt, dann kann man davon ausgehen, daß die 

Schätzung umso robuster ausfällt, je größer m ist. Selbstverständlich darf 

m nicht zu groß gewählt werden, da sonst irgendwann der Effekt eintritt, 

daß zu viele Trainingsdaten ignoriert werden und so die Schätzung wieder 

verschlechtert wird. Die am häufigsten verwendeten Werte für m sind 1, 2 

oder 3, je nachdem wie viele Daten zur Verfügung stehen.


16.5.2 Discounting 

Beim Discounting handelt es sich prinzipiell auch um eine Art von Glättung. 

Dabei wird jede absolute Häufigkeit #(w) ersetzt durch # ′ (w), z.B. wie in: 

# ′ (w) = #(w) − d absolutes Discounting (16.14) 

# ′ (w) = #(w) + 1 Jeffrey Smoothing (16.15) 

# ′ (w) = #(w) + 1/2 uniforme Bayes Glättung (16.16) 

Durch das Discounting ändern sich die Unterschiede der absoluten Häufigkeiten 

bestimmter Wörter untereinander nicht, die relativen Häufigkeiten 

werden aber einander ein wenig angenähert (geglättet). Beim absoluten 

Discounting muß selbstverständlich eine Regelung getroffen werden, wie mit 

negativen Häufigkeiten umzugehen ist. Bei großen Textdatenmengen gehen 

wir meist davon aus, daß neben der Anwendung eines absoluten Discountings 

um den Wert d auch ein Cutoff-Wert c > d gesetzt wurde, so daß negative 

Häufigkeiten nicht auftreten können. d muß nicht unbedingt eine natürliche 

Zahl sein, auch kleine Discounting-Werte von 0.1 können durchaus Sinn 

haben. Das Discounting wird bei der Konstruktion von Sprachmodellen in 

der Spracherkennung allerdings weniger zum Zwecke der Glättung verwendet, 

sondern vielmehr zur Reduktion der ” Wahrscheinlichkeitsmasse“. Die 

sinnvollste Art, die entfernte Wahrscheinlichkeitsmasse einzusetzen, ist das 

im folgenden vorgestellte Backoff-Verfahren. 

16.5.3 Backoff-Verfahren 

Die Maximum-Likelihood Lösung zur Schätzung von n-Grammen liefert für 

Wortfolgen, die in den Trainingsdaten überhaupt nicht vorkommen eine 

Wahrscheinlichkeit von null. Solche Wortfolgen können vom Spracherkenner 

nicht erkannt werden. Um auch solche Wortfolgen erkennen zu können, 

wird die Backoff-Technik verwendet. Wenn die Wahrscheinlichkeit für das 

n-Gramm P(wk|wk−1, wk−2, . . .w k−(n−1) nicht geschätzt werden konnte, 

weil die Wortfolge w k−(n−1), . . . wk−2, wk−1, wk im Trainingstext nicht beobachtet 

wurde, dann bietet es sich an, statt dessen als Rückfallmethode (engl. 

backoff ) das n − 1-Gramm P(wk|wk−1, wk−2, . . .w k−(n−2) zu verwenden. 

Für ein korrektes Sprachmodell muß allerdings gelten: 

 

wq 1 ,wq 2 ,...wqn 

P(wqn|wqn−1, . . . wq1) = 1 (16.17)

16.5 Glättung und Interpolation 273 

Die Summe der Wahrscheinlichkeiten aller n-Gramme muß für jedes n 

exakt 1 ergeben. Dies ist bei einer Maximum-Likelihood Schätzung schon für 

die ” gesehenen“ n-Gramme der Fall. Ordnen wir den ” nicht gesehenen“ auch 

Wahrscheinlichkeiten > 0 zu, so ist die geforderte Bedingung von Gl. 16.17 

nicht erfüllt. Um auch für die Rückfallwahrscheinlichkeiten etwas Wahrscheinlichkeitsmasse 

übrig zu haben, muß diese zuvor aus den n-Grammen 

mittels Discounting herausgenommen werden. Am häufigsten wird dafür ein 

absolutes Discounting gemäß Gl. 16.14 mit d ≈ 0.5 verwendet. 

Dann berechnet sich die Wahrscheinlichkeit für die gesehene Wortfolge 

w k−(n−1), . . . wk−2, wk−1, wk zu 

p+(wk|wk−1, wk−2, . . . w k−(n−1)) = #(w k−(n−1), w k−(n−2), . . . wk) − d 

#(w k−(n−1), w k−(n−2), . . . wk−1) (16.18) 

Für den Fall, daß w k−(n−1), . . .wk−2, wk−1, wk nicht gesehen wurde: 

p−(wk|wk−1, wk−2, . . . w k−(n−1)) 

= p+(wk|wk−1, wk−2, . . . w k−(n−2)) · b(w1, w2, . . . wk−1) (16.19) 

wobei das ” Korrektiv“ b(w1, w2), der Backoff-Faktor, berechnet wird als: 

b(w1, w2, . . . wk−1) = 

 

w∈Vokabular 

d · δ(w1, w2, . . .wk−1, w) 

#(w1, w2, . . . wk−1) 

(16.20) 

wobei δ(w1, w2, . . .wk−1, w) entweder 1 ist (wenn w1, w2, . . .wk−1, w 

gesehen wurde) oder 0 ist (wenn es nicht gesehen wurde). Hat die 

Wortfolge w1, w2, . . . wk−1) in den Trainingsdaten sehr viele verschiedene 

Nachfolgewörter ist die Wahrscheinlichkeit für einen ” nicht gesehenen“ 

Wortübergang größer als wenn sie nur wenige verschiedene Nachfolger hat. 

Das Rückfallen auf eine niedrigere n-Gramm-Stufe kann durchaus auch 

kaskadiert nötig sein. Wenn in Gl. 16.19 p+(wk|wk−1, wk−2, . . . w k−(n−2)) 

nicht bekannt ist, weil auch die kürzere Wortfolge w k−(n−2), . . .wk nicht 

gesehen wurde, so muß auch hier mit Hilfe der Backoff-Methode auf 

p−(wk|wk−1, wk−2, . . . w k−(n−2)) zurückgefallen werden, so daß im allgemeinen 

eine Berechnung des n-Gramms wie folgt aussieht:


p−(wk|wk−1, wk−2, . . . w k−(n−1)) (16.21) 

T −1 

= p+(wk|wk−1, wk−2, . . . wk−(n−T)) · b(w1, w2, . . . wk−t) 

t=1 

16.6 Verschiedene weitere Sprachmodelle 

Die mit großem abstand beliebtesten Sprachmodelle in der Spracherkennung 

sind n-Gramme. Dennoch gibt es auch andere Ansätze, die erfolgreich 

eingesetzt werden. Meist handelt es sich dann um besondere Erkennungsaufgaben, 

für die n-Gramm weniger geeignet sind, weil zum Beispiel zu wenige 

oder gar keine Trainingsdaten vorhanden sind, oder weil die verwendete 

Sprache bestimmte Eigenschaften hat – zum Beispiel Kommandosprache, 

Buchstabieren, und so weiter. In anderen Fällen, in denen die alternativen 

Sprachmodell zum Einsatz kommen, sind oft solche, in denen sie mit 

vorhandenen n-Grammen interpoliert oder parallel dazu verwendet werden. 

Im folgenden werden einige besondere Methoden der Sprachmodellierung 

vorgestellt. 

16.6.1 Trigger 

Die Wahrscheinlichkeit für die Beobachtung bestimmter Wörter hängt oft 

davon ab, ob andere Wörter zuvor beobachtet worden sind. Sicher ist es 

wahrscheinlicher, das Wort ” Geld“ zu beobachten, wenn im Laufe eines 

Dokuments oder eines Dialogs zuvor das Wort ” Bank“ verwendet wird, als 

wenn ” Bank“ nicht vorkommt. Solche Wortpaare nennt man Trigger-Paare. 

Oft ist es so, daß beide Wörter eines Trigger-Paars ihre Wahrscheinlichkeiten 

gegenseitig beeinflussen. Beim Einsatz von Trigger-Paaren verwendet man 

meist für jedes beobachtbare Wort w aus einem Katalog von wichtigen 

Wörtern, eine Liste von Trigger-Partnern zusammen mit den dazu gehörigen 

erhöhten Beobachtungswahrscheinlichkeiten. Trigger-Modelle verändern also 

die Wortwahrscheinlichkeiten zur Laufzeit des Erkenners. Die Hypothese 

einer erkannten Äußerung beeinflußt die Erkennung der nachfolgenden 

Äußerungen. 

16.6.2 Cache 

Die Idee, die hinter Cache-Sprachmodellen steckt basiert auf der Annahme, 

daß ähnlich wie bei Trigger-Modellen die Wahrscheinlichkeiten für einzelne 

Wörter aber auch für Wortfolgen vom Thema abhängt, über das gerade

16.6 Verschiedene weitere Sprachmodelle 275 

gesprochen wird. Da ein Sprachmodell, das nur mit Hilfe von Texten eines 

bestimmten Themas geschätzt wurde, wegen des geringeren Volumens der 

Trainingsdaten schlecht geschätzt ist und schlecht generalisiert, bietet es 

sich an, es mit einem auf sehr vielen Daten sehr gut geschätzten besser 

generalisierenden aber im Spezialfall weniger gut passenden Model zu 

interpolieren. Lediglich die Interpolationsfaktoren müßten von Zeit zu Zeit 

optimiert werden. 

Da es beliebig viele Themen gibt und da es nicht möglich ist, für jedes 

denkbare Thema ein eigenes Sprachmodell zu erzeugen und bei Bedarf mit 

mehr oder weniger Interpolationsgewicht zum statischen Basissprachmodell 

statisches Basissprachmodell dynamisches Basissprachmodell hinzuzunehmen, 

kann statt dessen ein temporäres oder dynamisches Sprachmodell auf 

den bisher erkannten Hypothesen des Spracherkenners trainiert werden. Dabei 

wird die Annahme zugrundegelegt, daß das Thema, über das ein Sprecher 

spricht, verhältnismäßig langsam wechselt, zumindest so langsam, daß eine 

ausreichende Menge an Text vorhanden ist, mit dem man n-Gramme oder 

andere Sprachmodelle schätzen kann. Berechnet man diese n-Gramme auf 

einem ” Fenster“ der letzten Hypothesen, so daß sehr alte Hypothesen wieder 

aus der Schätzung des dynamischen Modells herausgenommen werden, 

dann ergibt sich als resultierendes Sprachmodell λ eine Mischung aus dem 

statischen Basismodell λ S und dem dynamischen Modell λ D : 

λ = α · λ S + (1 − α) · λ D 

das heißt für die einzelnen Wahrscheinlichkeiten: 

(16.22) 

Pλ(w|H) = α · Pλ S (w|H) + (1 − α) · Pλ D (w|H) (16.23) 

Der Interpolationsfaktor α in Gl. 16.22 sollte zweckmäßigerweise vor 

allem von der Menge der Daten, mit denen λ D geschätzt wurde, abhängig 

gemacht werden. Bei einem sehr kleinen Fenster sollte ein sehr großes α 

knapp unter 1.0 gewählt werden, und bei sehr großen Fenstern kann das α 

langsam kleiner werden. In der Regel wird es aber dennoch nahe bei 1.0 

bleiben. 

16.6.3 Klassenbasierte Sprachmodelle 

Eine wichtige Form von Sprachmodellen bilden klassenbasierte Modelle. 

Viele Wörter sind in einem bestimmten Kontext oft beliebig austauschbar, 

ohne daß sich die Wahrscheinlichkeit der gesamten Wortfolge merklich 

ändert. Das können zum Beispiel Zahlen, Wochentage, Personennamen


und ähnliches sein. Ersetzt man in einem Trainingstext alle Personennamen 

durch das Wort ” “ so kommen Wortfolgen wie ” Guten 

Tag, Herr relativ häufig vor, die Wahrscheinlichkeit für 

P(< Personenname > |Guten, Tag, Herr) läßt sich sehr gut schätzen, jedenfalls 

viel besser als die Wahrscheinlichkeit für P(Rogina|Guten, Tag, Herr), 

ein Viergramm, das in den Trainingsdaten womöglich so selten vorkommt, daß 

es im Rahmen des Cutoff-Verfahrens entfernt wurde. Wenn also die Wahrscheinlichkeit, 

für eine Wortklasse C bei gegebener Historie w1, w2, wn−1 als 

n-Gramm-Wahrscheinlichkeit P(C|w1, w2, wn−1) bekannt ist, dann berechnet 

sich die Wahrscheinlichkeit für ein Bestimmtes Wort wn aus dieser Klasse 

einfach als: 

P(wn|w1, w2, wn−1) = P(C|w1, w2, wn−1) · P(wn|C) (16.24) 

Das heißt, neben den Klassen-n-Grammen werden noch die Wahrscheinlichkeiten 

der Wörter innerhalb der Klassen benötigt. Wenn die Klassen 

ausreichend groß sind, lassen sich die klassenbedingten Wahrscheinlichkeiten 

durch einfaches Zählen (Unigramme) bestimmen. In anderen Fällen kann die 

klassenbedingte Wahrscheinlichkeitsmasse mehr oder weniger proportional 

auf die Elemente der Klasse verteilt werden. 

Ein besonderer Vorteil klassenbedingter Wahrscheinlichkeiten ist nicht 

nur die Möglichkeit der robusten n-Gramm-Schätzung, sondern vor allem 

auch die Möglichkeit, auf einfachste Weise neue Wörter ins Sprachmodell 

einzufügen, ohne dieses erneut berechnen zu müssen. So kann 

ein Nachrichtensprachmodell über Jahre hinweg unverändert bleiben, 

wenn nur die Klassen , , , 

und so weiter regelmäßig mit den neuesten Klassenelementen 

aktualisiert werden. 

16.6.4 Spezielle Sprachmodelle 

Im folgenden werden einige besondere Arten der Sprachmodellierung vorgestellt. 

Sie bilden nur einen kleinen Ausschnitt aus einer sehr großen Menge 

von Möglichkeiten zur Berechnung von Wortfolgewahrscheinlichkeiten. 

HMM-basierte Modellwahl 

Schon beim Diktieren eines Briefes, aber vielmehr noch bei Mensch- 

Maschine- und erst recht bei Mensch-Mensch-Dialogen gibt es deutlich 

erkennbare Kommunikationsstrukturen, die sich über die Zeit ändern. So 

bestehen Briefe typischerweise aus Adreßangaben, Anrede, Text und Gruß. 

Ein Dialog zwischen Menschen könnte aus Begrüßung, Smalltalk, Abschied


bestehen. Abb. 16.3 zeigt ein Beispielmodell für ein Terminvereinbarungsgespräch. 

Je nach Zweck der Kommunikation kann die Struktur beliebig 

gestaltet und verfeinert werden. Der Gedanke, diese Struktur in Form eines 

Markov-Modells darzustellen liegt nahe. Ein Zustand des Modells entspricht 

dann einem Zustand der Kommunikation. Nicht alle Zustandsfolgen sind 

gleich wahrscheinlich, so daß die Übergänge zwischen den Markov-Zuständen 

mit den dazugehörigen Wahrscheinlichkeiten den Wechseln der Kommunikationszustände 

entsprechen. 

Ähnlich wie in der Akustik, so läßt sich bei der Modellierung eines 

Kommunikationsprozesses nicht jede Äußerung eindeutig einem bestimmten 

Zustand zuordnen. So wie bei einem akustischen HMM ein Zustand 

eine akustische Beobachtung emittiert, so kann man sagen, daß ein 

Kommunikationsstruktur-HMM eine Äußerung emittiert. Als Emissionswahrscheinlichkeiten 

dienen die Wortfolgewahrscheinlichkeiten der jetzt 

zustandsabhängigen Sprachmodelle. Jeder Kommunikationszustand hat 

ein eigenes Sprachmodell, das auf die Art der Kommunikation in diesem 

Zustand spezialisiert ist und diese somit besser modelliert als ein allgemeines 

Sprachmodell. In Abb. 16.3 berechnet das Modell B für die Wortfolge W die 

Wahrscheinlichkeit P B (W), die bei korrektem Modell höher ist als P S (W), 

wenn W eine Begrüßungsfloskel ist. 

P B (W) 

Begrüßung 

P T (W) 

Terminverhandlung 

Smalltalk 

P S (W) 

Abb. 16.3. Sprachmodellauswahl mit einem HMM 

Verabschiedung 

P V (W) 

Ein derartiges Kommunikations-HMM kann benutzt werden, um 

komplette Dialoge oder komplexe Kommunikationen zu erkennen. Die Wahrscheinlichkeit 

einer Wortfolge wird dann dynamisch berechnet und hängt 

vom aktuellen Zustand ab. Das Durchlaufen der Kommunikationszustände 

geschieht mit Hilfe der gleichen Algorithmen wie bisher für die Spracher-


kennung kennengelernt. In einem Experiment [?] konnte die Leistung des 

Erkenners unter Verwendung eines Kommunikationsstruktur-HMMs etwas 

verbessert werden. 

Verzahnte Sprachmodelle 

Betrachten wir den Satz: ” Der Leiter dieser Abteilung sagte, sie würden 

expandieren.“ Die Wörter in diesem Satz haben unterschiedliche Wichtigkeit 

für die Bedeutung. In der Linguistik unterscheidet man oft zwischen 

bedeutungstragenden (content words) und nicht-bedeutungstragenden 

(non-content words) Wörtern. Die nicht-bedeutungstragenden werden oft 

auch Funktionswörter (function words) genannt. In diesem Beispiel wären 

die bedeutungstragenden Wörter ” Leiter, Abteilung, sagte, expandieren“. 

Man kann leicht nur anhand dieser Wörter den kompletten Sinn des Satzes 

rekonstruieren. Aus den Funktionswörtern ” Der, dieser, sie, würden“ kann 

kein Sinn extrahiert werden. Ganz grob kann man sagen, daß die bedeutungstragenden 

Wörter Teile der semantischen und pragmatischen Information 

des Satzes enthalten und die Funktionswörter eher Teile der Semantik und 

die Syntax beinhalten. Wörter wie Leiter, Abteilung und expandieren sind 

typisch für wirtschaftliche Texte. Die Erwartung des Wortes ” expandieren“ 

ist viel mehr von den Wörtern ” Leiter“ und ” Abteilung“ getragen als von 

den unmittelbar davor stehenden wenig sagenden ” sie würden“. 

Auf dieser Erkenntnis baut die Idee der verzahnten Sprachmodelle von 

[?] auf. Sie verwenden getrennte Modelle für bedeutungstragende und Funktionswörter. 

So wird die Wahrscheinlichkeit für ein bedeutungstragendes 

Wort von den Identitäten der zuvor gesprochenen bedeutungstragenden 

Wörter gemacht. Der Vorteil dieses Vorgehens hängt von der verwendeten 

Sprache ab. In der deutschen Sprache sind starke Bindungen zwischen 

Funktionswörtern und bedeutungstragenden allein schon durch die oft 

gemeinsame Flexionsform gegeben. Ein ignorieren dieser führt zu Nachteilen. 

Solche Nachteile gibt es im Englischen mangels Flexion weniger. Im 

Japanischen wird überhaupt nicht flektiert, statt dessen werden Relationen, 

Zeiten, Mengen etc. durch spezielle Partikelwörter ausgedrückt. Gerade dort 

funktionieren verzahnte Modelle besonders gut. 

Reguläre und Kontextfreie Grammatiken 

Ein einfaches Bigramm Sprachmodell läßt sich leicht mit Hilfe eines 

Zustandsandsautomaten wie in Abb. 15.10 darstellen. Aus der Sicht des


Sprachmodells kann von der HMM-Struktur innerhalb der Wörter abstrahiert 

werden, so daß ein Automat mit n Zuständen (einer für jedes 

Wort) entsteht. Es gibt keine Ausgezeichneten Start- und Finalzustände, 

jeder Zustand kann diese Rolle übernehmen. Ein Trigramm Sprachmodell 

würde einen erheblich komplizierteren Automaten ergeben, der statt n 

Zuständen n 2 hätte. Bedenkt man aber, daß nicht alle Wortfolgen explizit 

modelliert werden müssen, dann wäre es grundsätzlich möglich auch wesentlich 

kompliziertere Grammatiken als Bigramme und Trigramme in einem 

Zustandsautomaten zu kodieren. 

Einige Forscher [?] gehen dazu über, das Sprachmodell und die Wort- 

HMMs zusammen in einen einzigen großen Automaten zu stecken, der 

dann sowohl große oder komplizierte Wortkontexte als auch die akustische 

Modellierung der Wörter inklusive varianter Aussprachen berücksichtigt. 

Nach einer Umwandlung in einen deterministischen Automaten und einer 

anschließenden Minimierung desselben entsteht ein Automat (Transduktor 

mit gewichteten Übergängen, engl. weighted finte state transducer WFST), 

der mit einer Viterbi-Suche durchlaufen werden kann. 

Endliche Automaten entsprechen an sich regulären Grammatiken, können 

also nicht beliebige kontextfreie akzeptieren. Die menschliche Sprach selbst 

läßt sich nicht einmal mit kontextsensitiven Grammatiken beschreiben, und 

schon gar nicht mit kontextfreien. Demnach stellen endliche Automaten einen 

sehr schlechten Mechanismus zur Modellierung der natürlichen Sprache dar. 

In der Praxis läßt sich aber oft relativ viel mit Hilfe einfacher Automaten 

ausdrücken. Insbesondere für kommandoorientierte Benutzerschnittstellen 

bieten sich Netzwerke wie in Abb. 16.4 an. 

Achtung 

Abb. 16.4. Automat 

ǫ 

ǫ 

Roboter 

bring 

hole 

besorge 

ǫ 

ǫ 

ǫ 

mir 

drei 

zwei 

kleine 

kleine 

große 

große 

ǫ 

ǫ 

Tassen 

Solche Netzwerke lassen sich sehr einfach in HMM-artige Automaten 

wandeln, mit denen dann die Hypothesensuche durchgeführt wird. Sie sind


außerdem relativ einfach für den Betrachter verständlich. Etwas mächtiger 

sind kontextfreie Grammatiken (CFGs). Mit ihnen ließe sich der Automat 

aus Abb. 16.4 beschreiben als: 

::= | 

::= 

::= Achtung | ǫ 

::= Roboter | ǫ 

::= mir 

::= hole | bring | besorge 

::= Tassen 

::= zwei | drei 

::= große | kleine 

Auch solche kontextfreien Grammatiken (insbesondere in Backus-Naur 

Form, BNF) sind für den Spracherkennungslaien gut lesbar. Verwendet 

man nur einfache Regeln, so lassen sich derartige Grammatiken automatisch 

in HMM-Suchnetzwerke umwandeln. Der große Vorteil gegenüber 

der Verwendung von n-Grammen besteht in dem Verzicht auf Trainingsdaten. 

Heutige Spracherkenner sind noch weit weg von der Idealvorstellung, auf 

jeder Erkennungsaufgabe, unabhängig von der Kommunikationsart und den 

Kommunikationszielen gleich gut zu funktionieren. Die zu verwendenden 

Vokabulare und Sprachmodelle sind einfach zu verschieden. Wenn ein 

Spracherkennungssystem für eine neue Aufgabe entwickelt werden soll, 

z.B. zum Steuern eines Rasenmäherroboters, dann liegen meist keine oder 

zumindest keine ausreichenden Textdatenmengen vor, mit denen man für 

die Aufgabe spezifische n-Gramme schätzen könnte. Eine Person, die die 

Kommunikationsschnittstelle zwischen dem Menschen und dem Sprache 

erkennenden System beschreiben kann, hat in der Regel keine Probleme, 

diese Schnittstelle, das heißt insbesondere die erlaubten beziehungsweise 

erwarteten Wortfolgen in Form einer CFG in BNF darzustellen. Mit einem 

Text-To-Speech System können dann noch gegebenenfalls zu neuen Wörter 

in dieser Darstellung Aussprachen generiert werden, und der Erkenner ist 

damit sehr schnell einsatzbereit. 

Außer dem ” rapid prototyping“ haben endliche Automaten weitere 

Vorteile. Sie sind leicht modularisierbar. Es ist möglich, für Teilaufgaben 

Teilgrammatiken zu generieren und das Gesamtsystem aus den Teilen 

zusammenzusetzen. Grundsätzlich lassen sich die Regeln einer Grammatik 

beziehungsweise die Gewichte der Zustandsübergänge der Automaten auch 

mit Wahrscheinlichkeiten versehen und sogar mit denen von allgemeinen 

n-Grammen interpolieren. Ein Nachteil von Automaten ist die relativ feste


Struktur, die sich während des Erkennungsprozesses nur sehr schwer ändern 

läßt. Dynamisch berechnete Übergänge und deren Wahrscheinlichkeiten 

(wie zum Beispiel bei Trigger-Modellen) sind hier nur sehr schwer zu 

implementieren. 

16.6.5 Gewichtung von Akustik und Linguistik 

Beim Betrachten der Fundamentalformel der Spracherkennung (14.2) fällt 

auf, daß in dieser das akustische Modell mit p(X|W) als Faktor einen Dichtewert 

und das Sprachmodell mit P(W) eine echte Wahrscheinlichkeit als Faktor 

beiträgt. Rein mathematisch ist dies nicht weiter problematisch, allerdings 

kann es je nachdem, auf welche Art die Emissionswahrscheinlichkeiten berechnet 

werden, dazu führen, daß für zwei verschiedene Hypothesen W1 und 

W2 der Unterschied der beiden akustischen Beiträge |p(X|W1) − p(X|W2)| 

um viele Größenordnungen größer sein kann als der Unterschied der beiden 

Sprachmodellbeiträge |P(W1)−P(W2)|. Dies kann dazu führen, daß der Einfluß 

des Sprachmodells auf den Erkennungsvorgang zu gering ausfällt. Daher 

wird in der Praxis das Produkt von akustischem Modell und Sprachmodell 

mit Hilfe eines Exponenten z über dem Sprachmodell gewichtet. Außerdem 

wird der Nichtberücksichtigung der A-priori-Wahrscheinlichkeit für die Länge 

einer Hypothese P(|W| = n) ein zuzsätzlicher Faktor q n in die Formel aufgenommen: 

ˆW = argmaxP(X|W) 

· P(W) 

W 

z · q |W| 

(16.25) 

Wenn - wie bei fast allen Spracherkennern üblich - die Wahrscheinlickeiten 

und Dichten im logarithmischen Raum betrachtet werden ergibt sich somit: 

ˆW = argmax(log 

P(X|W) + log P(W) · z + q · |W|) (16.26) 

W 

In dieser Darstellung ist leicht zu sehen, wie ein größerer Wert für z 

den Einfluß des Sprachmodells erhöht. Mit einer passenden Wahl von q läßt 

sich der Erkenner dahingehend beinflussen, mehr oder weniger Wörter in 

den Hypothesen unterzubringen. Die optimale Einstellung von z und q wird 

in der Regel anhand einer Kreuzvalidierungsmenge bestimmt, indem die 

Fehlerrate des Erkenners auf dieser Menge für verschiedene Kombinationen 

der z und q gemessen wird und schließlich die Kombination mit den besten 

Resultaten weiterverwendet wird. 

In [?] wid ein Verfahren vorgestellt, wie mit Hilfe eines Multi-Layer- 

Perzeptrons bei Kenntnis verschiedener Eigenschaften des Signals und einer 

tentativen Hypothese die für jede Aufnahme individuell optimierten Einstellung 

von z und q berechnet werden können. Mit einer derartigen individuellen 

Einstellung kann in vielen Fällen die durchschnittliche Fehlerrate etwas


gesenkt werden, auf jeden Fall jedoch kann auf den Aufwand des ” Ausprobierens“ 

und Auswertens verschiedener Kombinationen auf der Kreuzvalidierungsmenge 

verzichtet werden. 

16.7 Adaption von Sprachmodellen 

Im Prinzip kann man Cache Sprachmodelle als sich ständig adaptierende 

Sprachmodelle bezeichnen. Auch Trigger-Modelle enthalten eine Art 

Adaptionskomponente. Grundsätzlich läßt sich ein Sprachmodell aber 

auch mit Daten adaptieren, die nicht direkt aus den Erkennerhypothesen 

kommen. Im folgenden wollen wir zwei Vorgehensweisen dazu vorstellen, 

die hypothesenbasierte Auswahl zuvor berechneter Modelle bzw. deren 

Interpolationsfaktoren, und die HDLA Methode (hypothesis driven lexicon 

adaptation) [?]. 

16.7.1 Auswahl vorberechneter Modelle 

Wie gut ein Text zu einer Menge von Hypothesen paßt, läßt sich auf verschiedene 

Arten bestimmen. Zu den geeignetsten gehören wohl das Messen 

der Perplexität, die die Hypothesen als Testset auf einem auf dem Text 

geschätzten Sprachmodell haben, und das Berechnen einer tfidf-basierten 

Dokumentendistanz, bei der der Text und die Hypothesen als zwei verschiedene 

Dokumente betrachtet werden. 

Die Aufgabe der Themenbasierten Adaption eines Sprachmodells durch 

Auswahl vorbereiteter Sprachmodelle kann wie folgt definiert werden. 

gegeben: n Dokumente D1, D2, . . . Dn, ein Vokabular V = {w1, w2, . . .wk} 

und eine erkannte Wortfolge H = h1, h2, . . . hm 

gesucht: j so, daß das auf Dj trainierte (oder damit interpolierte) 

Sprachmodelle die Wortfolge H am besten modelliert 

Unter der Voraussetzung, daß die Dokumente sehr groß sind und so 

sinnvolle Sprachmodelle darauf trainiert werden können, bietet es sich in 

der Tat an, die Testset-Perplexität dieser Sprachmodelle auf der Testmenge 

H zu messen. Die meist stabilere Alternative ist die Bestimmung einer 

tfidf-Distanz. Das tfidf-Maß bestimmt die Wichtigkeit eines Wortes w für 

ein Dokument Di. Sie ist das Produkt der Faktoren tf (term frequency) und 

idf (inverse document frequency):

tf(w, Di) = 

#w in Di 

|Di| 

16.7 Adaption von Sprachmodellen 283 

(16.27) 

Der Wert tf(w, Di) ist also die Anzahl der Vorkommen von w im 

Dokument Di dividiert durch die Größe von Di. 

n 

idf(w) = log( 

) (16.28) 

#Dj mit Dj enthält w 

Ist w ein Artikel, der in nahezu jedem Dokument sehr oft vorkommt, 

dann ist zwar tf(w, Di) relativ groß – zumindest größer als für die meisten 

anderen Wörter – aber idf(w) ist nahezu null, da #Dj mit Dj enthält ≈ n. 

Somit ist tfidf(w, Di) = tf(w, Di) · idf(w) ≈ 0. Wörter, die in sehr wenigen 

Dokumenten vorkommen haben einen relativ hohen idf-Wert. 

Bei einem vorgegebenen Vokabular V läßt sich ein Dokument H thematisch 

durch einen k-dimensionale Vektor T(H) beschreiben: 

T(H) = (tfidf(w1, H), tfidf(w2, H), . . . tfidf(wk, H)) (16.29) 

Die tfidf-Distanz zweier Dokumente H1 und H2 läßt sich nun durch 

Vergleich von T(H1) und T(H2). Hier kann im einfachsten Fall (für 

kleine Vokabulare und große Dokumentemengen) eine Euklidische Distanz 

verwendet werden, und für stabilere Resultate einen Korrelationsabstand wie 

j=1 

k 

(tfidf(wj, H1) · tfidf(wj, H2)) 

j=1 

δ(H1, H2) = 1 − 

⎛ 

k 

⎝ 

tfidf 2 ⎞ ⎛ 

k 

(wj, H1) ⎠ ⎝ tfidf 2 ⎞ (16.30) 

(wj, H2) ⎠ 

In Gl. 16.30 ist δ(H1, H2) = 0 wenn H1 = H2, und δ(H1, H2) = 1, wenn 

die Menge der Wörter in H1 und die Menger der Wörter in H2 disjunkt 

sind. Aus mathematischer Sicht gilt auch: 1 − δ(H1, H2) ist der Cosinus 

des Winkels zwischen den Vektoren T(H1) und T(H2) im R k . Aus dem 

Bereich des Information-Retrieval und Data-Mining sind zahlreiche weitere 

vergleichbare Distanz- und Ähnlichkeitsmaße bekannt. 

Die Adaption eines Standard Sprachmodells λ S auf das aktuelle Thema 

kann nun wie folgt durchgeführt werden. Die beste verfügbare Beschreibung 

j=1


des aktuellen Themas ist die Erkennerhypothese (beziehungsweise die Konkatenation 

der letzen Hypothesen) H. Diese kann als Dokument betrachtet 

werden, und zu jedem Dokument Di mit vorberechnetem Sprachmodell 

kann δ(H, Di) berechnet werden. Im einfachsten Fall wird ein konkretes 

Dokument Dj = argmin Dl δ(H, Dl) ausgewählt, und als adaptiertes Model 

λ A = λ(Dl) beziehungsweise eine Interpolation von λ S mit λ(Dl) verwendet. 

Eine feinere Adaption läßt sich durchführen, indem λ S mit allen vorberechneten 

Sprachmodellen interpoliert wird: 

λ A = α · λ S + β · 

n 

(1 − δ(H, Di)) · λ(Di) (16.31) 

i=1 

Die Faktoren α und β müssen experimentell bestimmt werden und 

addieren sich normalerweise nicht zu 1. Welche Werte sinnvoll sind, hängt 

von der Anzahl und Größe der Dokumente Di ab. 

Grundsätzlich ist es auch möglich, die Dokumente mit ihren themenspezifischen 

Sprachmodellen nicht im voraus bereitzuhalten. Statt dessen 

können zu Laufzeit des Erkenners Dokumente aus dem World-Wide-Web 

besorgt und ausgewertet werden. Mit Hilfe von Internet-Suchmaschinen 

lassen sich so zu den Erkennerhypothesen passende Dokumente finden, 

darauf Sprachmodelle berechnen und der Erkenner so adaptieren. 

In Experimenten [?] konnte durch Adaption des Sprachmodells an 

das aktuelle Thema die Perplexität des Sprachmodells um ca. 15% und 

Fehlerrate des Erkenners ein wenig gesenkt werden. 

16.7.2 Hypothesis driven lexicon adaptation 

Oft wird mit dem Begriff ” Sprachmodell“ nur der Teil eines Spracherkenners 

bezeichnet, der die Wahrscheinlichkeit von Wortfolgen berechnet. Prinzipiell 

gehört aber auch die Definition des Vokabulars dazu. Die größten Probleme 

mit dem Vokabular haben Erkenner für stark flektierende Sprachen. Dazu 

gehört auch die Deutsche Sprache. Selbst wenn wir alle ca. 1,6 Millionen 

verschiedene Vokabularwörter, die im Laufe eines Jahres in der Süddeutschen 

Zeitung stehen, betrachten, so werden darunter für die meisten Wörter 

nicht alle Flexionsformen sein. Womöglich kommt das Wort ” lichten“ vor, 

vielleicht sogar ” gelichtet“ aber dann fehlt vielleicht ” gelichteter“. Neue 

Formen können aber auch durch andere Vorsilben entstehen: ” ungelichteter“. 

Wird jede Buchstabenfolge zwischen zwei Leer- oder Satzzeichen als Wort 

betrachtet, dann ist im Deutschen aussichtslos, so viele Wörter ins Vokabular


aufzunehmen, daß das Fehlen bestimmter Wortformen vernachlässigt werden 

könnte. 

Eine in verschiedenen Varianten von vielen Spracherkennungssystemen 

benutztes Verfahren ist die so genannte hypothesis driven lexicon adaptation, 

HDLA [?]. Die Idee dabei ist, ähnlich wie bei der Sprachmodelladaption 

an ein Thema, die Erkennerhypothese zu verwenden, um zusätzliche Informationen 

zu besorgen. Das Ziel der HDLA ist es, immer ein Vokabular zu 

verwenden, das möglichst wenige der zu erkennenden Wörter nicht enthält, 

das heißt, der Anteil der Nichtvokabularwörter (engl. out of vocabulary words, 

OOV-words) im Gesprochenen möglichst gering zu halten. Die zusätzlichen 

Informationen können zum Beispiel aus einem Hintergrundlexikon entnommen 

werden, das so groß ist, daß der Spracherkenner es nicht als ganzes 

komplett verwenden kann. Sie kann aber auch zur Laufzeit aus dem Internet 

besorgt werden. Der HDLA-Algorithmus kann grob wie folgt skizziert werden: 

1. erkenne mit nicht adaptiertem Lexikon und erhalte Hypothese 

(oder Hypothesenliste) H 

2. verwende alle Wörter in H, 

um ähnliche Wörter W aus Hintergrundwissen zu besorgen 

3. entferne einige der seltensten Wörter aus dem Lexikon 

und ersetze sie durch die Wörter in W 

4. wiederhole die Erkennung mit dem adaptierten Lexikon 

und erhalte Hypothese H ′ 

Die Erwartung, daß H ′ weniger Fehler enthält als H stützt sich auf die 

Annahme, daß die aus dem Lexikon entfernten Wörter bei der Erkennung 

keine Rolle spielen (Wörter aus H werden selbstverständlich nicht entfernt), 

und daß die hinzugenommenen Wörter möglicherweise bestimmte Wortformen 

von Wörtern aus H enthalten, die zunächst falsch erkannt wurden. 

Beispielsweise könnte das Wort ” Spracherkenner“ an der Stelle, an der der 

Sprecher ” Spracherkenners“ gesagt hatte, erkannt worden sein, weil es von 

allen Wörtern im Vokabular dem Gesagten am nächsten kommt. Durch die 

Adaption, wäre ” Spracherkenners“ ins Vokabular aufgenommen worden und 

könnte dann korrekt erkannt werden. 

In [?] werden verschiedene Ähnlichkeitsmaße zwischen Wörtern getestet 

um im Schritt 2 zu entscheiden, welche Wörter in Vokabular aufgenommen 

werden sollten. Als ähnlich werden nicht nur Wörter betrachtet, die verschiedene 

Formen desselben Wortstammes sind, sondern auch solche, die einfach


eine ähnliche Orthographie oder phonetische Umschrift haben. Darüber 

hinaus werden thematisch ähnlich Wörter auch betrachtet. [?] konnte durch 

den Einsatz von HDLA die Fehlerraten von Spracherkennern um 25% bis 

29% verbessern. 

16.7.3 Kompositabildung 

Im Deutschen sowie in einigen anderen Sprachen gibt es wesentlich mehr als 

im Englischen Probleme mit der Bildung von Komposita. Zwar können auch 

Komposita-Verben (zurückhalten, nachdenken) und Komposita-Adjektive 

(blaugrün, kleinkariert) gebildet werden, der weitaus größte Teil sind aber 

Komposita-Substantive. Betrachtet man die ca. 1.6 Millionen verschiedene 

Wörter, die im Laufe eines Jahres in einer deutschen Tageszeitung vorkommen 

und untersucht diejenigen, die nicht zu den häufigsten ca. 100 000 

gehören, so fallen darunter drei Gruppen auf: seltene Flexionsformen, 

Eigennamen und Komposita. Es ist relativ einfach möglich, einen Großteil 

der Komposita in ihre Komponenten zu zerlegen. Dazu genügt es, zu 

untersuchen, ob sie sich aus kürzeren Wörtern zusammensetzen lassen. Auf 

diese Art ist es möglich, einfach alle Texte zu zerlegen, so daß nur noch 

sehr wenige Komposita vorkommen. Die Menge der verschiedenen Wörter 

in einem zerlegten Text kann so dramatisch verkleinert werden, was dem 

Vokabular und der Qualität des dann berechneten Sprachmodells zugute 

kommt. 

Bei der Zerlegung ist es wichtig, einige Heuristiken anzuwenden. Die 

wichtigste ist, daß keine zu kleinen Komponenten betrachtet werden. 

Wörter mit nur drei oder weniger Buchstaben erzeugen Probleme, weil 

viele ” normale“ Wörter, die eigentliche keine Komposita sind sich aus ihnen 

zusammensetzen lassen (zum Beispiel: Bei-Spiel, ab-er, An-Ton, Stand-Art 

usw.). So erweist sich die Auftrennung in Wörter von mindestens vier 

Buchstaben als guter Kompromiß. Es entstehen dann immer noch einige 

falsche Zerlegungen (zum Beispiel Verein-Barte). Von diesen können aber 

häufigsten manuell korrigiert werden, und die seltenen fallen kaum ins 

Gewicht. 

Ein Erkenner, der nur einzelne Wörter erkennt, produziert dann Hypothesen 

der Art ” Der Staats Sekretär sagte ...“. Für einen deutschen 

Muttersprachler ist diese Getrenntschreibung (selbst nach der in dieser 

Beziehung sehr toleranten neuen Rechtschreibung) sofort als unkorrekt zu 

erkennen. Es ist daher wünschenswert, daß eine Instanz des Erkenners solche 

Wörter zusammenfügt, so daß ” Der Staatssekretär sagte ...“ als Hypothese 

heraus kommt. An der verbreiteten Diskussion zur neuen deutschen Rechtschreibung 

ist zu erkennen, daß in vielen Fällen selbst Muttersprachler


Schwierigkeiten damit haben, zu entscheiden, ob zwei aufeinanderfolgende 

Wörter zusammen oder getrennt oder gar mit Bindestrich geschrieben 

werden sollten. Spracherkenner machen dabei relativ viele Fehler. In [?] wird 

festgestellt, daß unter den Fehlern, die ein Diktiererkenner auf deutschen 

Nachrichtentexten Produziert, ca. 16% aller Fehler falsche Komposita sind. 

Genauer gesagt, der Erkenner hat es versäumt zwei getrennt erkannte 

Komponenten zu einem Kompositum zusammenzufügen. 

Die erste Idee, das Problem anzugehen wird in [?] vorgestellt. Dabei 

werden alle Zerlegungen, die beim Aufbereiten der Texte durchgeführt 

wurden abgespeichert. Für jedes Wortpaar wird geprüft, ob es sich aus 

zwei Komponenten zusammensetzen läßt, von denen die erste einmal das 

Vorderteil und die zweite einmal das Hinterteil eines Kompositums war. 

Wenn ja, wird aus dem Wortpaar ein einzelnes Wort gemacht. Würde 

dabei verlangt werden, daß auch das entstehende Kompositum schon einmal 

als ganzes im Trainingstext aufgetaucht war, würde man ja gerade den 

Vorteil der Zerlegung entgegenwirken. Häufig vorkommende Komposita wie 

” Bundeskanzler“ werden in der Regel gar nicht erst zerlegt, weil sie ohnehin 

unter den häufigsten 100 000 Wörtern vorkommen. Eine Komposition von 

Wörtern in der Erkennerhypothese ist damit im wesentlichen nur für die 

seltenen Wörter wichtig, deren Auftrittswahrscheinlichkeit in irgendwelchen 

Textdaten nahe null ist. In [?] wird berichtet, daß die Anwendung 

der einfachen Regel ” wi war mal Vorne-Komponente und wi+1 war mal 

Hinten-Komponente, dann füge wi und wi+1 zusammen“ nicht hilfreich 

ist, im Gegenteil, die Wortfehlerrate steigt sogar an, weil nicht nur viele 

Zusammenfügungen unterlassen werden sondern vor allem weil zu viele 

falsche Zusammenfügungen gemacht werden. 

Ein verfeinertes Kompositabildungsverfahren wird in [?] vorgestellt. Dabei 

werden vor einer Prüfung ob wi eine Vorne-Komponente und wi+1 eine 

Hinten-Komponente ist, noch einige Heuristiken angewendet. Der Algorithmus 

ist eher dadurch motiviert, festzustellen, welche Substantiv-Paare nicht 

kombiniert werden sollten. Abb. 16.5 skizziert den Entscheidungsalgorithmus. 

Dabei wird zunächst geprüft, ob eines der Wörter ein Eigenname ist 

(vergleich mit den häufigsten Eigennamen aus einem Telefonbuch). In den 

seltensten Fällen ist eine Komponente eines Kompositums ein häufiger Eigenname. 

Wenn kein Eigenname dabei ist, wird geprüft, ob zwei aufeinanderfolgende 

Substantive zu einer Aufzählung gehören ( ” Substantiv1 Substantiv2 

und/oder Substantiv3“). Zwar würden mit dieser Regel Hypothesen wie ” Die 

Staats Sekretäre und Minister sagten ...“ fälschlicherweise als Aufzählung erkannt 

werden, aber in der Praxis überwiegen die Fälle, in denen Substantive 

nicht zusammengesetzt werden sollten, wenn sie in Aufzählungen auftauchen. 

Sind die Substantive mit Adjektiven oder Artikel davor versehen greift die 

Regel nicht oder sie müßte erheblich komplizierter implementiert werden.


Wortpaar ” A B“ 

Name? 

Aufzählung? 

zu lang? 

nein 

nein 

ja 

ja 

ja 

nein 

Abkürzung? 

ja 

v-Komponente? 

nein 

+ v-Komponente 

h-Komponente ? 

ja 

nein 

zusammen schreiben: ” AB“ 

ja 

getrennt lassen: ” A B“ 

nein 

mit Bindestrich: ” A-B“ 

Abb. 16.5. Entscheidungsalgorithmus zur Kompositabildung 

Aber auch hierfür stellt sich heraus, daß solche Fälle in der Praxis nur eine 

unwesentliche Rolle spielen. Im nächsten Schritt des Entscheidungsverfahrens 

werden Komponenten, die selbst schon sehr lang sind und erst recht 

Komposita, die sehr lange wären als getrennt zu schreiben erkannt. Man 

kann leicht empirisch feststellen, daß in Zeitungstexten ab einer bestimmten 

Anzahl von Buchstaben kaum noch Komposita gebildet werden. Danach 

wird geprüft, ob das erste Wort des Wortpaares eine Abkürzung ist. In den 

meisten Fällen werden die Wörter dann mit Bindestrich geschrieben (zum 

Beispiel UNO-Mitglied, DAX-Gewinne, usw.). Erst wenn diese Heuristiken 

abgearbeitet worden sind, wird nachgesehen, ob wi als Vorne-Komponente 

und wi+1 als Hinten-Komponente möglich sind. Nur dann werden sie Zusammengelegt. 

Durch diesen Algorithmus zur Nachbearbeitung von Hypothesen 

konnten die durch Falsches Zusammenfügen zusätzlich entstehenden 

Fehlern minimiert werden und etwa die Hälfte aller Komposita-Fehler des 

Spracherkenners korrigiert werden. Mißt man die Wortfehlerrate auf den in 

Komponenten zerlegten Zeitungstexten im Vergleich mit den Originaltexten, 

so erhält man eine Fehlerrate von ca. 5%. Wird der Algorithmus von [?] auf 

die zerlegten Texte angewandt, haben diese danach nur noch eine Fehlerrate 

von ca. 1.4%, also eine Reduktion von über 70%.

17. Kontextabhängige akustische Modelle 

kontextabhängige akustische Modelle In der Geschichte der Spracherkennung 

gab es relativ wenige Meilensteine, von denen man sagen kann, sie haben 

die Erkennungsleistung dramatisch verbessert. Einer davon ist der Einsatz 

kontextabhängiger akustischer Modelle. Da unser Artikulationsapparat 

mechanischen Gesetzen genügen muß, kann er keine Sprünge zwischen 

zwei Idealzuständen für zwei aufeinanderfolgende Laute machen. Was bei 

Diphthongen offensichtlich ist, gilt im Prinzip für jedes Lautepaar. Das heißt 

vor allem, daß die zeitlichen Randgebiete eines Lautes mit den angrenzenden 

Lauten verschwimmen, aber auch daß die Ausprägung des gesamten Lautes 

von den ihm umgebenden Lauten abhängt. Den ersten großen Durchbruch 

auf dem Gebiet erreichte Kai-Fu Lee in seiner Dissertation [?]. Seine 

Erfahrungen werden inzwischen in nahezu allen aktuellen Spracherkennern 

eingebracht und führen zu etwa einem Drittel weniger Fehlern als bei den 

Erkennern, die nur kontextunabhängige Modelle benutzen. 

17.1 Suche nach der optimalen Spracheinheit 

Bereits im Kap. 14 wurde die Problematik der verschiedenen Einheiten der 

Sprache, die ein eigenes Modell erhalten sollen, einführend behandelt. Hier 

werden verschiedene in der Praxis verwendete Einheiten gegenübergestellt 

und insbesondere darauf eingegangen, wie diese Einheiten gefunden werden. 

Tab. 17.1 zeigt, wie das Wort ” Hallo“ mit verschiedenen Spracheinheiten 

modelliert werden kann. Diese unterscheiden sich in ihrer zeitlichen und 

räumlichen Ausdehnung. Mit der zeitlichen Ausdehnung ist die Dauer 

der Einheit in der Sprachaufnahme gemeint, und mit der räumlichen 

Ausdehnung der Anteil am Merkmalsraum, der durch die Einheit abgedeckt 

wird. Die längste zeitliche Ausdehnung hat eindeutig die Modellierung 

mit der Einheit ” Wort“. Damit würde das Wort ” Hallo“ wie in der ersten 

Zeile der Tabelle dargestellt mit einer einzigen Einheit modelliert (die im 

Beispiel sinnigerweise den Namen Hallo erhalten hat). Welchen Teil des 

Merkmalsraum so eine Worteinheit abdeckt hängt natürlich davon ab, wie

290 17. Kontextabhängige akustische Modelle 

Einheit Beispiel für Modellfolge 

Wort Hallo 

Silbe Ha, Lo 

(Mono-)Phone H, A, L, O 

Links-Diphone H(-), A(H), L(A), O(L) 

Rechts-Diphone H(A), A(L), L(O), O(-) 

Triphone H(-|A), A(H|L), L(A|0), O(L|-) 

Quintphone H(-|A,L), A(-,H|L,O), L(H,A|0,-), O(A,L|-) 

Polyphone H(-|A,L,O,-), A(-,H|L,O,-), L(-,H,A|0,-), ... 

generalisierte Polyphone H37, A11, L32, O8 

Sub-Monophone H-b, H-e, A-b, A-e, L-b, L-e, O-b, O-e 

Sub-Triphone H(-|A)-b, H(-|A)-e, A(H|L)-b, A(H|L)-e, ... 

Sub-(generalisierte Polyphone) H13-b, H13-e, A45-b, A45-e, L3-b, L3-e, ... 

generalisierte Subpolyphone H-b29, H-e3, A-b51, A-e12, L-b14, L-e24, ... 

Tabelle 17.1. Modellierung des Wortes ” Hallo“ mit verschiedenen Spracheinheiten 

viele Modelle es insgesamt gibt. 

Eine geringere Zeitliche Ausdehnung hat die Einheit der Silbe. Damit 

sind schon zwei Einheiten nötig, um das Wort Hallo zu modellieren. Der 

Vorteil von Silben gegenüber Wörtern ist ganz offensichtlich die Möglichkeit 

mit Ihnen Wörter zu formen. Für den deutschen Standard Wortschatz (ohne 

Eigennamen und Fremdwörter) genügen gut 10000 Silben. Mit ihnen ließen 

sich Millionen von Wörtern zusammenbauen. 

Noch flexibler ist man mit einzelnen Phonen – oft auch Monophone 

genannt. Mit einem Standard Phonemsatz von typischerweise ca. 50 

Phonemen lassen sich im Prinzip alle Wörter einer Sprache modellieren. 

Einige Sprachen haben einen etwas größeren Phonemschatz, und machen 

kommen auch schon mit nur 30 Phonemen aus. Allerdings halten sich die 

meisten Spracherkenner bei der Definition ihres Phonemsatzes nicht an die 

phonetisch-linguistische Definition, sondern orientieren sich vielmehr an der 

Akustik der Laute. Die zeitliche Ausdehnung der Phoneme ist noch kleiner

als die der Silben. 

17.1 Suche nach der optimalen Spracheinheit 291 

Die gleiche zeitliche Ausdehnung wie Monophone haben auch Diphone 

(oft auch fälschlicherweise Biphone genannt). Allerdings nehmen diese 

einen kleineren Bereich des Merkmalsraums ein. Man kann Diphone als 

phon-indizierte Monophone betrachten. Sie gehören zu den einfachsten 

Kontextabhängigen Modellen. Je nachdem, ob ein Monophon von seinem 

linken oder rechten Nachbarn abhängt spricht man von Links- oder Rechts- 

Diphonen. Links-Diphone Das Wort ” Hallo“ kann beispielsweise mit 4 

Rechts-Diphonen modelliert werden. Das erste davon wäre der H-Laut, aber 

nicht der allgemeine, sondern derjenige H-Laut, der von einem A gefolgt 

wird. Danach kommt derjenige A-Laut, der von einem L-Laut gefolgt wird, 

und so weiter. Alle Diphone X(. . .) eines Monophons X nehmen denselben 

Teil des Merkmalsraumes ein wie das Monophon X. 

Triphone sind kontextabhängige Phone, die sowohl vom linken als auch 

vom rechten Nachbarn abhängen. Auch sie haben die gleiche Zeitliche 

Ausdehnung wie Monophone und Diphone, unterteilen den Merkmalsraum 

aber in noch kleinere Teile. Lange Zeit gehörten Triphone zu den beliebtesten 

Kontextbreiten. Erst Mitte, Ende der neunziger Jahre wurde vermehrt noch 

breitere Kontexte Verwendet. 

Der Begriff Quintphon sollte eher Pentaphon heißen, allerdings hat sich 

im Amerikanischen die lateinisch-griechische Mischform eingebürgert und 

wurde meistens auch so im Deutschen verwendet. Je breiter der Kontext 

wird, umso eher kommt es vor, daß er bis über das Ende des Wortes hinausreicht. 

Modelliert man das Wort ” Hallo“ wie in Tab. 17.1 kommt in jedem 

Quintphon ein Kontext, der jenseits des Wortes liegt, vor. Solche Kontexte 

bedürfen meist einer besonderen Behandlung. Es wäre nicht korrekt an 

diesen Stellen anzunehmen, daß dort der Stille-Laut steht. Korrekterweise 

müßte man den an dieser Stelle stehenden Laut des Nachbarwortes oder 

gar des übernächsten Wortes betrachten. In der Praxis ist die vollständig 

korrekte Implementierung so breiter Kontexte viel zu aufwendig um damit 

noch in akzeptabler Zeit HMM-Spracherkennung machen zu können. Daher 

werden meistens Einschränkungen in kauf genommen, wie zum Beispiel 

die Beschränkung der Nachbarwortabhängigkeit auf das erste oder letzte 

Phonem eines Wortes. Und dieses wird dann meist auch nur von dem unmittelbaren 

Nachbarn im angrenzenden Wort abhängig gemacht. Natürlich sieht 

das Erkennungs-HMM bei Berücksichtigung von Wortübergangskontexten 

wesentlich komplizierter. 

Mit Polyphonen bezeichnet man Phone mit unbegrenztem Kontext. 

Praktisch heißt dies bis an die Wortgrenzen. In diesem Fall entspricht die 

Aufteilung des Merkmalsraumes demjenigen, den wir auch haben, wenn


wir komplette Wortmodelle verwenden, da auch hier jedes Modell komplett 

vom Wort abhängt. Die zeitliche Ausdehnung bleibt aber die gleiche wie bei 

Monophonen. 

Tab. 17.2 gibt an, welcher Anteil an allen Wall Street Journal Vokabularwörtern 

durch die Kontextbreite komplett abgedeckt wird, also mit anderen 

Worten, welcher Anteil des Vokabulars so gut wie mit Ganzwortmodellen 

modelliert wird. Man sieht, daß eine allzu große Kontextbreite keine nennenswerten 

Vorteile mehr erwarten läßt. 

Kontextbreite: Mono- Di- Tri- Quint- Septphone 

Ganzwortabdeckung: 3% 27% 49% 80% 90% 

Tabelle 17.2. Abdeckung des Vokabulars durch Quasi-Ganzwortmodelle 

Wenn der Phonemsatz aus 50 Monophonen besteht, dann kann es theoretisch 

bis zu 2500 Diphone geben. Das wäre noch handhabbar. Allerdings 

ist es illusorisch alle möglichen Polyphone einer Sprache zu modellieren, so 

daß in der Praxis ein Zusammenfassung zu generalisierten Polyphonen zu 

Polyphonklassen nötig wird. Auch diese habe die zeitliche Ausdehnung von 

Monophonen. Aus der Kenntnis der Polyphonklasse läßt sich dann aber 

nicht mehr der Kontext selbst ableiten. 

Auch wenn Phoneme eine relativ kurze Zeitspanne von 10ms bis 100ms 

abdecken, so beobachtet man dennoch oft innerhalb dieser Zeit eine Variation. 

Gerade bei Diphthongen und Affrikaten ist es offensichtlich, daß der 

Anfang des Lautes nicht auf die gleiche Art wie sein Ende modelliert weden 

sollte. Daher verwenden alle erfolgreichen Spracherkenner zeitlich kürzere 

Einheiten, wie zum Beispiel die kontextunabhängigen Submonophone. Meist 

wird ein Phonem in drei Teile, ein Beginn-, ein Mittel- und ein Endsegment. 

Seltener in zwei Teile wie in Tab. 17.1. Dort besteht nun das Wort ” Hallo“ 

aus acht Einheiten. 

Subtriphone sind die Unterteilung von Triphonen in zeitlich kürzere 

Einheiten. Subtriphone haben die gleiche zeitliche Ausdehnung wie Submonophone 

(bei gleicher Anzahl von Segmenten). Sie bilden aber schon eine 

so feine Unterteilung des Merkmalsraumes, daß in der Regel nicht genug 

Trainingsdaten zur Verfügung stehen, um jedes Modell zu trainieren.


Zeitliche Untereinheiten lassen sich natürlich auch von generalisierten 

Polyphonen bilden. Im Beispiel in Tab. 17.1 wird das Wort ” Hallo“ am 

Anfang mit dem in die Klasse 13 generalisierte Version des H-Lautes, H13, 

modelliert. H13 selbst wird in mehrere Segmente, hier ein Beginn- (b) und 

ein Endsegment (e). Der Unterschied zu generalisierten Subpolyphonen ist 

der, daß bei den letzteren zuerst die Unterteilung der Polyphone in Segmente 

gemacht wird und dann die Zusammenfassung in Klassen stattfindet. 

A(H|U) A(B|P) A(L|N) A(M|M) 

b m e 

b m e b m e b m e 

A(37) A(38) 

b m e b m e 

Abb. 17.1. Beispiel für generalisierte Triphone 

Der Unterschied zwischen der Unterteilung von generalisierten Subtriphonen, 

wie sie von Lee [?] eingeführt und verwendet wurden, und generalisierter 

Subtriphone, so genannter Senones, wie sie von Hwang [?] entwickelt wurden, 

wird in den Abb. 17.1 und 17.2 dargestellt. Die Einheiten, die bei generalisierten 

Triphonen zusammengefaßt werden, haben die zeitliche Ausdehnung eines 

Monophons. Damit ist sowohl die Menge der zusammenfaßbaren Modelle als 

auch die Freiheit des Ballungsalgorithmus kleiner als bei den Senones. 

A(H|U) A(B|P) A(L|N) A(M|M) 

b m e 

b m e b m e b m e 

A-b(17) A-m(13) A-e(22) A-b(3) A-m(11) A-e(4) 

Abb. 17.2. Beispiel für Senones


Die Problematik mit Modellen unterschiedlicher zeitlicher und räumlicher 

Ausdehnung ist eine in der Mustererkennung immer wiederkehrende. Die bei 

der Gestaltung des Parameterraumes eines Erkenners zu berücksichtigenden 

Kriterien, die Vor- und Nachteile unterschiedlich ausgedehnter Modelle sind 

in Tab. 17.3 17.4 zusammengefaßt. 

Vorteile Nachteile 

kurz hohe Flexibilität wenig Evidenz im Sprachsignal 

⇒ vokabularunabhängig ⇒ hohe Verwechselbarkeit 

lang geringe Verwechselbarkeit wenig Trainingsdaten pro Einheit 

Tabelle 17.3. Vor- und Nachteile unterschiedlicher zeitlicher Modellausdehnung 

Vorteile Nachteile 

spezifisch gute diskriminative wenig Trainingsdaten 

Fähigkeiten pro Einheit 

generell robust trainierbar schlechte diskriminative 

Fähigkeiten 

Tabelle 17.4. Vor- und Nachteile unterschiedlicher räumlicher Modellausdehnung 

Die meisten Spracherkenner verwenden neben der Information über die 

benachbarten Phoneme auch die Information über die Position eines Phonems 

innerhalb eines Wortes. Die Hypothese dabei ist, daß sich ein Phonem 

anders anhört, wenn es am Anfang eines Wortes steht, als wenn es mitten 

im Wort steht, auch wenn der phonetische Kontext der gleiche ist. Diese Annahme 

ist in der Tat begründet, weil wir bei Sprechen sehr wohl das Wort 

als Einheit sehen, und dies sich im Sprechrhythmus und den Betonungsregeln 

widerspiegelt. Tab. 17.5 zeigt ein Beispiel, in dem die D- und L-Laute unterschiedlich 

behandelt werden, obwohl ihr Triphon (und sogar Quintphon) 

Kontext identisch sind. Tatsächlich hört sich die Aussprache von ” handlich“ 

merkbar anders and als diejenige von ” Hand Licht“ (natürlich auch abgesehen 

vom T-Laut in ” Licht“). 

Abb. 17.3 zeigt wie viele verschiedene Polyphone es gibt, wenn unterschiedlich 

breite Kontexte betrachtet werden. Das Schaubild enthält zwei 

Kurven, die durchgezogene für die auf der Wall Street Journal (WSJ) Datenbank 

gemessenen Werte und die gepunktete für die entsprechenden Werte auf 

der Switchboard (SWB) Datenbank. Als Unterschiedlich wurden Polyphone 

betrachtet, wenn sie sich entweder in einem Phon unterschieden oder an ver-

100000 

Wortfolge Modelle 


handlich ... N(A|D) D(N|L) L(D|I) ... 

Hand Licht ... N(A|D) Dwe(N|L) L wb (D|I) ... 

Tabelle 17.5. Wortpositionsabhängige Modellierung 

10000 

1000 

100 

+ ⋄ 

+ 

⋄ 

+ 

⋄ 

+ 

+ + 

⋄ ⋄ ⋄ 

WSJ 

SWB 

0 ±1 ±2 ±3 ±4 ±5 

Abb. 17.3. Anzahl Polyphone für verschiedene Kontextbreiten 

schiedenen Stellen Wortübergänge hatten). Folgende Auffälligkeiten sind zu 

bemerken: 

• Der größte Anstieg ist beim Übergang von Kontextbreite 0, das heißt ca. 

50 Monophone, auf Kontextbreite ±1, das heißt mehrere Zehntausend 

Triphone. Selbst beim Übergang von Kontextbreite ±4 auf ±5 ist noch 

ein merklicher Anstieg der Polyphonzahl zu beobachten. 

• Bei der Switchboard Datenbank kommen mehr verschiedene Polyphone 

bei gleicher Kontextbreite vor. Dies ist auf die größere Spontaneität der 

darin verwendeten Sprache zurückzuführen. Die sprachlich wesentlich 

” sauberere“ Wall Street Journal Daten sind viel uniformer. 

⋄ 

+


Auf den ersten Blick hat man den Eindruck, daß es von Vorteil sein 

müßte relativ große Kontextbreiten zu berücksichtigen, weil auch für diese 

immer noch neue Polyphone dazukommen. Andererseits sollte man auch 

berücksichtigen, wieviele Trainingsdaten man für diese zur Verfügung hat. 

Abb. 17.4 trägt auf der Ordinaten auf, wie viele Polyphone es gibt, die 

in den WSJ-Trainingsdaten x mal beobachtet werden. Auf den ersten 

Blick fällt auf, daß die häufigste Beobachtungszahl die 1 ist. Je größer die 

Beobachtungszahl ist umso weniger Polyphone gibt es, die so oft vorkommen. 

Diese Eigenschaft verschärft sich umso mehr, je breiter der Kontext gewählt 

wird. Bei einer Kontextbreite von ±1 gibt es ca. 7400 Polyphone, die nur 

ein einziges Mal in den Trainingsdaten vorkommen, bei einer Kontextbreite 

von ±5 sind es schon ca. 50000. Bei sehr breiten Kontexten gibt es also sehr 

viele Polyphone die zu selten vorkommen, um ausreichend robust modelliert 

werden zu können. 

Anzahl Polyphone mit gegebener Beobachtungshäufigkeit 

100000 

△⋆ 

△⋆ 

× × 

△⋆ 

× 

△⋆ 

× △⋆ 

× 

⋆ 

× ⋆ 

△△△△△△ 

⋆ 

10000 

+ + + + + 

1000 

⋆⋆⋆⋆⋆⋆⋆⋆ 

⋆⋆⋆ 

⋆ ××××××× 

100 

△ ××× 

Kontextbreite ±1 + ⋆⋆⋆ 

△△ 

Kontextbreite ±2 × 

⋆ △ 

△△ × ++++++ 

Kontextbreite ±3 △ ⋆ 

10 

⋆ 

△× 

Kontextbreite ±5 ⋆ 

△ 

× 

⋆⋆ 

1 

+ 

× 

+ 

⋆ × 

⋆ △ × + 

1 10 100 1000 10000 100000 

Anzahl der Beobachtungen in den Trainingsdaten 

Abb. 17.4. Wieviele Polyphone gibt es, die x mal vorkommen? 

Die große Zahl der verschiedenen kontextabhängigen Modelle schon bei 

relativ kleinen Kontextbreiten erzwingt eine Zusammenfassung (Ballung) 

derselben in eine wesentlich kleinere und somit handhabbare Zahl an 

Modellklassen. 

+++

17.2 Ballung von Kontexten 

17.2 Ballung von Kontexten 297 

Bevor man einen Algorithmus zum Ballen von akustischen Modellen verwendet, 

sollte klar sein, was die Ziele der Ballung sind. Es ist selbstverständlich, 

daß die in Tab. 17.3 und 17.4 aufgeführten Vorteile optimal ausgeschöpft werden 

sollen. Es gilt also einen geeigneten Kompromiß zwischen spezifischen, 

räumlich wenig ausgedehnten und generellen, räumlich weit ausgedehnten 

Modellen zu finden. Aus den Abb. 17.3 und 17.4 ist zu entnehmen, daß 

der beste Kompromiß wohl weit weg von der expliziten Modellierung jedes 

einzelnen Phänomens liegen muß. Um nahezu eine Million verschiedener Modelle 

sinnvoll zu trainieren, reichen die heute üblichen Trainingsdatenmenge 

nicht aus. Es kommt beim Erzeugen von HMMs auf den Trainingsdaten wie 

in Abs. 15.3 beschrieben (s. Abb. 15.8) sogar oft vor, daß einige Phänomene 

im den Trainingsdaten überhaupt nicht vorkommen, zum Beispiel weil 

nicht alle im Lexikon vorgesehenen Varianten auch tatsächlich irgendwann 

gesprochen werden, oder weil nicht alle im HMM möglichen verschiedenen 

Wortübergangskontexte auch genommen werden. Da es aber nicht 

vorhersagbar ist, ob solche Phänomene in den Testdaten dann doch vorkommen 

könnten und da das Testvokabular ja sogar vom Trainingsvokabular 

abweichen könnte, gehört zu den Zielen eines Ballungsalgorithmus, auch 

vorzusehen, für nicht-trainierte Phänomene eine sinnvolle Lösung anzubieten. 

17.2.1 Optimierungskriterien 

Jeder Ballungsalgorithmus trifft ständig Entscheidungen, welche Modelle 

zusammen in eine Klasse gehören und welche nicht. Es ist völlig unrealistisch, 

jede dieser Entscheidungen so zu treffen, daß der Effekt auf die 

Wortfehlerrate des resultierenden Erkenners minimiert wird. Man wird 

daher auf zu optimierende Kriterien zurückgreifen müssen, die sich sehr 

schnell während des Ballungsprozesses berechnen lassen. Die am häufigsten 

verwendeten Kriterien sind die Maximierung der Beobachtungswahrscheinlichkeit 

der Trainingsdaten und die Maximierung des Informationsgehaltes 

(negative Entropie) des Parameterraumes. Je nach Art der Berechnung 

der Emissionswahrscheinlichkeiten, können diese beiden Kriterien sogar 

identisch sein [?]. 

Die Entropie einer Klasse von Modellen ist definiert durch die Wahrscheinlichkeitsverteilung 

f dieser Klasse über dem Merkmalsraum. Wenn 

man Gauß-Mischverteilungen zur Berechnung der Emissionswahrscheinlichkeiten 

verwendet, so ist die Berechnung der Entropie ein sehr aufwendiges 

numerisches Verfahren, das die Integration der Gauß-Verteilungen beinhaltet. 

In der Spracherkennung kommen derart komplexe Entropieberechnungen 

nicht vor, da entweder als Wahrscheinlichkeitsmodelle entweder nur einzelne


Gauß-Verteilungen verwendet werden oder wie bei semikontinuierlichen 

HMMs nur die diskreten Mixturgewichteverteilungen. Letztere zu den 

häufigen Vorgehensweisen, da vor der Ballung von Modellen in der Regel so 

viele verschiedene trainiert werden, daß es gar nicht sinnvoll wäre, für jedes 

eine eigene Gauß-Mischverteilung mit eigenem Codebuch zu trainieren. Ein 

weiterer Vorteil der Verwendung von semikontinuierlichen Modellen liegt 

in der einfachen Vereinigung und Disjunktion von Modellklassen. Während 

komplette Gauß-Mischverteilungen für die Vereinigung der Klassen C1 

und C2 zu C1 ∪ C2 bei bekannten Einzelmodellen nur mit erheblichem 

Aufwand neu berechnet werden können, bedeutet die Vereinigung von 

diskreten Verteilungen eine einfache gewichtete Addition: Sei fC1 die 

diskrete Mixturgewichteverteilung der Klasse C1 und fC2 die diskrete 

Mixturgeweichteverteilung der Klasse C2, beide über demselben Codebuch 

definiert. Die Klasse C1 habe in den Trainingsdaten n1 Beispiele (nicht zu 

verwechseln mit der Zahl ihrer Elemente) und C2 habe n2 Trainingsbeispiele. 

Dann berechnet sich die Mixturgewichteverteilung der vereinigten Klasse 

C1 ∪ C2 als: 

fC1∪C2(i) = 1/(n1 + n2)(n1 · fC1(i) + n2 · fC2(i)) (17.1) 

Wenn sich die Modelle also nur in ihren Mixturgewichten unterscheiden, 

genügt es auch, nur diese im Ballungsprozeß zu betrachten. Die Entropie der 

diskreten Verteilung (Mixturgewichteverteilung) f ist definiert als: 

H(f) = 

k 

f(i)log 2 f(i) (17.2) 

i=1 

Haben zwei Modellklassen die Verteilungen fC1 und fC2, dann ist die 

einfache Entropiedistanz definiert als: 

d(C1, C2) = H(fC1∪C2) − H(fC1) − H(fC2) (17.3) 

Die gewichtete Entropiedistanz ist: 

d(C1, C2) = (n1 + n2) · H(fC1∪C2) − n1 · H(fC1) − n2H(fC2) (17.4) 

Jede Vereinigung zweier Klassen in eine hat einen Informationsverlust 

zur Folge. Der Ballungsalgorithmus mit Entropiedistanz sieht also zwei 

Verteilungen als ähnlich (also ” vereinigungswürdig“) an, wenn ihre Vereinigung 

wenig Informationsverlust bedeuten würde. Ein Ballungsalgorithmus


mit Likelihood-Distanz verfolgt das gleiche Ziel, wie das Baum-Welch Trainingsverfahren 

für HMMs, nämlich die Maximum-Likelihood Optimierung 

der Beobachtungswahrscheinlichkeit aller Trainingsdaten. Die Likelihood- 

Distanz zweier Klassen C1 und C2 ist definiert als: 

PC1(B1) · PC2(B2) 

PC1∪C2(B1 ∪ B2) 

(17.5) 

wobei PQ(R) die Beobachtungswahrscheinlichkeit der Trainingsdaten R 

gemessen mit dem Modell Q ist. Jede Vereinigung zweier Klassen hat eine 

Verkleinerung der Beobachtungswahrscheinlichkeit zur Folge. Der Ballungsalgorithmus 

mit Likelihood-Distanz sieht also zwei Verteilungen als ähnlich 

and, wenn ihre Vereinigung zu einem kleinen Wahrscheinlichkeitsrückgang 

führen würde. 

17.2.2 Ballungsalgorithmen 

Ballungsalgorithmen lassen sich in zwei verschiedene Gruppen einteilen: 

agglomerative und divisive. Agglomerative Verfahren beginnen mit vielen 

Klassen mir jeweils einzelnen Elementen und vereinigen in jedem Schritt 

zwei Klassen zu einer größeren Klasse (s. Abb. 17.5). Divisive Verfahren 

beginnen mit einer einzigen Klasse mit allen Elementen und teilen in jedem 

Schritt eine Klasse in zwei Unterklassen auf (s. Abb. 17.6). 

Abb. 17.5. Agglomerative Ballung


Abb. 17.6. Divisive Ballung 

Würde man einen Ballungsalgorithmus so lange weiter laufen lassen, bis 

keine Schritte mehr möglich sind, dann würde ein agglomerativer so lange 

rechnen, bis nur noch eine Klasse vorhanden ist, und ein divisiver so lange bis 

jede Klasse nur noch ein Element enthält. Das Ziel ist allerdings ein Zustand 

zwischen der minimalen und maximalen Zusammenlegung. So entsteht bei 

beiden Arten der Ballung ein Querschnitt durch einen Ballungsbaum (s. 

Abb. 17.7). 

Abb. 17.7. Blallung ergibt Querschnitt durch Ballungsbaum) 

17.2.3 Agglomerative Verfahren 

Verfahren der agglomerativen Kontextballung wurden in der kontinuierlichen 

Spracherkennung zum ersten Mal erfolgreich von Kai-Fu Lee eingesetzt [?]. 

Dabei wurden mehrere komplette Triphone in eine Gruppe zusammengelegt.


Lee verwendete einen rein semikontinuierlichen HMM-Spracherkenner mit 

drei Datenströmen (Cepstren, Delta-Cepstren und Energie). Da jedes Triphon 

mit drei HMM-Zuständen modelliert wurde, bestanden die Parameter 

einer zu ballenden Einheit s aus neun diskreten Wahrscheinlichkeitsverteilungen 

γs,1 . . .γs,9. Als Distanzmaß verwendete Lee die Summe des 

Entropieanstiegs, der sich durch das Zusammenlegen zweier Ballungsknoten 

q und r zu s ergibt: 

D(q, r) = 

9 

nq · H(γq,d) + nr · H(γr,d) − ns · H(γs,d) 

d=1 

(17.6) 

wobei ni die Anzahl der Trainingsdaten des Knotens i ist, und H(γ) die 

Entropie der Verteilung γ darstellt. 

Lees Ballungsalgorithmus sah wie folgt aus: 1 

1. initialisiere jeden Ballungsknoten mit einem Triphon 

2. berechne paarweise Distanzen zwischen allen Knoten 

3. vereinige die beiden Knoten mit der kleinsten Distanz 

4. a) berechne für jedes Triphon den Informationsgewinn, der durch 

Versetzen desselben in einen anderen Knoten entsteht 

b) falls durch Versetzen Gewinn erzielt werden kann, führe die 

Versetzung aus und gehe zu 4a 

5. solange Endekriterium nicht erfüllt, gehe zu 2 

Der Schritt 4 ist nötig, um optimale Leistung zu erzielen. Wird er weggelassen, 

fällt die Erkennungsrate des resultierenden Erkenners signifikant ab. 

Es ist allerdings genau dieser Schritt, der den Algorithmus sehr aufwendig 

macht. Der Schritt 2 ist nur zu Beginn des Algorithmus aufwendig. Später 

müssen immer nur die noch nicht berechneten Distanzen berechnet werden, 

das heißt die Distanzen zwischen dem gerade neu erzeugten Ballungsknoten 

und den anderen Knoten. Im Schritt 4a muß für jedes einzelne Triphon, 

das nicht zum neu erzeugten Ballungsknoten gehört, getestet werden, ob es 

1 Er unterscheidet sich von dem Standardalgorithmus in [?] im wesentlichen nur 

im zusätzlich eingeführten Schritt 4.


vorteilhaft wäre, es dorthin zu versetzen. Und für jedes Triphon des neuen 

Ballungsknotens muß geprüft werden, ob es vorteilhaft wäre, es in einen 

anderen Knoten zu versetzen. Die Anzahl der zu berechnenden Distanzen 

wächst also durch den Schritt 4 um ein Vielfaches an. 

Der obige Algorithmus kann auch zur Ballung anderer Einheiten als 

Triphone verwendet werden. In [?] wird berichtet, daß die Wortfehlerrate 

durch die Verwendung von Senones (vgl. Abb. 17.2) statt gesamter Triphone 

um ca. 20% reduziert werden konnte. 

17.2.4 Divisive Verfahren 

Sowohl divisive als auch agglomerative Verfahren haben ihre Nachteile. 

Das Problem bei den divisiven Verfahren ist die Frage, auf welche Art die 

Modelle eines Knotens in zwei Unterknoten aufgeteilt werden können. Das 

könnten schließlich bei einem Knoten mit n Elementen immerhin 2 n mögliche 

Aufteilungen sein. Der Nachteil der agglomerativen Verfahren wiegt aber 

viel schwerer: nämlich die Vokabularabhängigkeit. Gehen wir beispielsweise 

davon aus, daß in den Trainingsdaten die Phonemtripel p1 p0 p2, p3 p0 p4, 

p5 p0 p6 und p7 p0 p8 vorkommen und dies alle Kontexte sind, in denen p0 

gesehen wird. Durch den Ballungsalgorithmus werden die Tripel p1 p0 p2 und 

p3 p0 p4 zu dem verallgemeinerten Modell m1 und die Tripel p5 p0 p6 und 

p7 p0 p8 zu dem Modell m2 zusammengelegt (Abb. 17.8). 

p1 p0 p2 p3 p0 p4 p5 p0 p6 p7 p0 p8 

m1 

Abb. 17.8. Agglomerative Ballung kann zu Vokabularabhängigkeit führen 

Das heißt, es gibt zwei verschiedenen Modelle, mit denen das Phonem 

p0 modelliert werden kann. Je nach Kontext entweder mit m1 oder m2. 

In den Testdaten könnten nun Wörter vorkommen, die es im Training 

nicht gab, und in einem Wort könnte das Phonem p0 im Kontext p2 p0 p5 

auftauchen. Die Fragen, welches der beiden vorhandenen Modelle für diesen 

Kontext besser geeignet ist, läßt sich auf Anhieb nicht beantworten. Zur 

m2


korrekten Beantwortung müßte der gesamte Ballungsvorgang, wiederholt 

werden, diesmal aber unter Einschließung von p2 p0 p5. Während des 

Trainings war es ja mangels Vorkommens dieses Kontextes und mangels 

akustischer Evidenz nicht möglich. Während der Erkennung ist zwar 

akustische Evidenz vorhanden, allerdings ist es weder praktikabel, zur 

Laufzeit, den Ballungsalgorithmus zu wiederholen noch wäre es berechtigt, 

zu erwarten, daß die wenige Evidenz in den Testdaten ausreicht, um ein gutes 

Ballungsergebnis zu liefern. Die einzig sinnvolle Vorgehensweise in einem 

solchen Fall wäre, für jedes Phonem auch ein kontextunabhängiges Modell 

bereitzuhalten und gegebenenfalls dieses zu verwenden. Auf jeden Fall wäre 

sowohl die Verwendung eines kontextunabhängigen Modells als auch die 

eines ” falschen“ kontextabhängigen keine optimale Lösung. Besser wäre es, 

herauszufinden, welches der vorhandenen kontextabhängigen am besten paßt. 

Dies kann durch den Einsatz eines divisiven Ballungsalgorithmus erreicht 

werden. Statt alle möglichen 2 n Divisionen einer Klasse von n Modellen 

zu antizipieren können nur einige wenige berücksichtigt werden. Da also 

bei der Ballung in jedem Knoten des Ballungsbaumes eine Entscheidung 

getroffen wird, wie der Knoten aufzutrennen ist, spricht man auch von 

Kontextentscheidungsbäumen. Sie fallen in den Komplex der allgemeinen 

Entscheidungsbäume (classification and regression trees CART). Dabei wird 

ein Fragenkatalog verwendet. Jede Frage ist eine ja/nein Frage und für jeden 

Kontext in einem aufzutrennenden Knoten wird mit Hilfe einer dem Knoten 

eigenen Frage entschieden, in welchen der entstehenden Unterknoten der 

Kontext kommen soll. 

Typische Fragen bei Kontextentscheidungsbäumen sind Fragen wie: 

” Ist das Vorgängerphonem ein Vokal“, oder “Ist das Nachfolgerphonem 

ein Frikativ“, aber auch Ist das Phonem selbst stimmhaft“ oder – wie 

” 

in Tab. 17.5 erwähnt – “Ist das Phonem am Anfang eines Wortes“. Das 

Ergebnis einer divisiven Ballung ist in Abb. 17.9 dargestellt. Ganz oben 

ist der Startknoten, in dem alle 17 in den Trainingsdaten vorkommenden 

Phoneme im Kontext enthalten sind. Diese sind entsprechend der 

in verschiedenen Spracherkennungssystemen üblichen Schreibweise als 

Phonem(linkerKontext|rechterKontext) angegeben. Die Frage, die in 

diesem Beispiel durch den Ballungsalgorithmus dem Startknoten zugeordnet 

wurde ist mit −1 = Vokal“ markiert und entspricht der umgangssprach- 

” 

lichen Formulierung: Ist das Vorgängerphonem ein Vokal“. Diese Frage 

” 

wird für 13 Kontexte mit ja und für vier Kontexte mit nein beantwortet. 

Der Ja-Nachfolgeknoten stellt dann die Frage, ob das Nachfolgephonem 

ein Stopplaut ist: +1 =Stopp“. Der Beispielbaum hat schließlich sieben 

” 

Blätter mit jeweils einem bis vier Kontexten. Wäre das das Ende des 

Ballungsprozesses, so würde das akustische Modell des Erkenners sieben 

akustische Einheiten haben, deren zeitliche Ausdehnung der eines


Phonems entsprechen und deren räumliche Ausdehnung zwischen dem 

Raum eines einzelnen Kontextes (O(F|B)) und dem von vier Kontexten 

(F(O|M),F(A|M),A(O|M),B(A|M)) liegt – wobei natürlich der tatsächlich 

abgedeckte Teil des Merkmalsraums von einem Kontext auch größer sein 

könnte als der von vielen Kontexten. 

N(O|F) M(A|B) F(A|M) 

F(A|B) K(A|B) 

B(A|M) O(K|S) F(A|P) 

O(A|F) O(F|F) A(O|M) O(F|B) E(K|S) 

M(I|B) F(O|M) F(E|N) F(A|N) 

-1=Vokal 

ja 

nein 

M(A|B) F(O|M) F(A|B) F(E|N) K(A|B) 

B(A|M) O(A|F) F(A|M) 

A(O|M) F(A|P) F(A|N) M(I|B) N(O|F) 

+1=Stopp 

ja 

nein 

M(A|B) M(I|B) F(O|M) O(A|F) F(E|N) 

F(A|P) B(A|M) F(A|N) N(O|F) 

F(A|B) K(A|B) A(O|M) F(A|M) 

ja 

0=stimmlos 

ja 

+1=labial 

nein 

F(A|B) 

K(A|B) 

F(A|P) 

M(A|B) 

M(I|B) 

F(O|M) 

F(A|M) 

A(O|M) 

B(A|M) 

Abb. 17.9. Kontextentscheidungsbaum 

ja 

ja 

O(A|F) 

F(E|N) 

O(A|F) 

F(A|N) 

E(K|S) O(F|F) 

O(K|S) O(F|B) 

+1=Frikativ 

O(F|F) 

O(K|S) 

E(K|S) 

nein 

N(O|F) 

F(A|N) 

-1=A 

O(F|B) 

nein 

F(E|N) 

N(O|F) 

Durch die Angabe eines Fragenkatalogs mit k Fragen (typischerweise 

werden zwei bis drei Dutzend verschiedener Phonemklassen verwendet 

[?] [?]) sind also nicht mehr 2 n sondern nur noch k Aufteilungen eines 

Knotens möglich. Der Nachteil, daß dann die womöglich beste Aufteilung 

nicht gemacht werden kann, weil für diese keine entsprechende Frage im 

Katalog existiert, wird überwogen vom Vorteil, daß kaum noch ” unsinnige“ 

Auftrennungen erlaubt werden, die eventuell nur wegen eines schlecht 

trainierten Modells (Ausreißer) stattfinden würden. 

nein


Ein divisiver Ballungsalgorithmus kann also im allgemeinen wie folgt 

skizziert werden: 

1. initialisiere einen Ballungsknoten mit allen zu ballenden Modellen 

2. berechne für jeden Blattknoten und jede Frage aus dem Fragenkatalog 

den Gewinn einer Auftennung 

3. führe von allen Auftrennung die gewinnbringendste aus 

4. solange Abbruchkriterium nicht erfüllt, gehe zu 2 

Der Gewinn einer Auftrennung in Schritt 2 kann als Gewinn der Beobachtungswahrscheinlichkeit 

(Likelihood-Distanz) oder als Informatinsgewinn 

(Entropie-Distanz) berechnet werden. Auf jeden Fall ist es wichtig, hier die 

gewichtete Distanz (also Gl. 17.4 statt Gl. 17.3) zu verwenden. Bei einer 

ungewichteten Distanz kann sich herausstellen, daß eine Auftrennung von n 

Modellen in (n − 1) : 1 (sofern es Fragen im Katalog gibt, die dies erlauben) 

am gewinnbringendsten ist, nur weil eines der Modelle eine Art Ausreißer 

ist. Die Folge wären entartete Kontextentscheidungsbäume mit geringer 

Breite und großer Tiefe. Grundsätzlich ist zu beobachten, daß die Gewinne 

mit wachsender Tiefe des Baumes abnehmen. 

Im Beispiel von Abb. 17.9 werden Kontexte verschiedener Phoneme in 

einem Modell zusammengelegt. Dies macht das Beispiel insofern unrealistisch, 

als eine gemeinsame Modellierung des Frikativs F und des Vokals O 

nicht sinnvoll ist. Sie sind offensichtlich viel mehr verschieden als gleiche 

Phoneme in verschiedenen Kontexten. Daher werden in der Spracherkennung 

normalerweise mehrere Kontextentscheidungsbäume erzeugt, zum Beispiel 

je ein Baum für jedes Phonem (Monophon) oder je ein Baum für jedes 

Subphonem. Die Wurzelknoten werden dann nur mit den verschiedenen 

Allophonen eines Phonems gefüllt, oder bei noch feinerer Aufteilung nur mit 

den gleichen Segmenten (Beginn, Mitte, Ende) der Allophone eines Phonems. 

Auf diese Art wird Wissen in den Ballungsalgorithmus gesteckt, das diesem 

zum einen die Arbeit erleichetrt, weil dann kleinere Bäume entstehen und 

weniger Entscheidungen getroffen werden müssen, zum anderen aber auch 

einige Freiheiten nimmt, akustische Phänomene gemeinsam zu modellieren. 

Es mag zwar einige Fälle geben, in denen Teile verschiedener Phoneme 

sogar sinnvollerweise zusammengelegt werden könnten, zum Beispiel das 

Ende des Affrikatsñ(erstes Phonem im Wort ” Zaun“) mit einem Segment 

des Frikativs s. Allerdings hat die Praxis gezeigt, daß die seltenen 

Fälle, in denen so etwas sinnvoll wäre den zusätzlichen Aufwand nicht lohnen.


Es ist grundsätzlich möglich, auch andere Phänomene als (Sub-)Triphone 

zu ballen. Im allgemeinen Fall werden Entscheidungsbäume über Mengen 

von Subpolyphonen mit beliebieger Kontextbreite berechnet. Bei solchen 

Aufgaben kann es vermehrt dazu kommen, daß eine Kontextfrage über 

einen vom Zentralphonem weit entfernen Kontext weder mit ja noch mit 

nein beantwortet werden kann. Die Frage ” −5 = Vokal“, also ” ist das fünfte 

Phonem nach links ein Vokal“, kann für den Kontext A(B,D|N) gar nicht 

beantwortet werden, weil dieser Kontext nicht bekannt ist. Theoretisch 

müßten als statt binärer Entscheidungsbäume ternäre verwendet werden, 

die neben den Antworten ja und nein auch noch die Antwort ” unbekannt“ 

erlauben. Allerdings gilt auch hier [?], daß der zusätzliche Aufwand und 

die zusätzlichen Komplikationen den Gewinn nicht lohnen, und man am 

einfachsten solche nicht beantwortbaren Fragen mit nein beantwortet. 

In [?] und [?] werden Experimente mit verschiedenen Kontextbreiten 

vorgestellt. Die Erkenntnis dabei entspricht im wesentlichen den Erwartungen, 

daß der Vorteil einer kontextabhängigen Modellierung mit wachsender 

Kontextbreite immer geringer wird. Beim Vergleich der deutschen mit der 

englischen Sprache stellt sich sogar heraus, daß im Deutschen noch weniger 

Kontext benötigt wird. Während im Englischen Kontexte der Breite ±3 

gelegentlich noch leichte Gewinne gegenüber ±2 bringen, ist im Deutschen 

schon bei ±2 (Quintphonen) kaum noch ein nennenswerter Unterschied 

zu ±1 (Triphonen) festzustellen. Das hängt vor allem von der viel stärker 

koartikulierten englischen Sprache ab. 

Abb. 17.10 zeigt, wie viele Fragen zu welcher Kontextbreite in einem 

Ballungsvorgang [?] mit divisiver Ballung und Entropiedistanz auf dem Wall 

Street Journal Korpus gestellt wurden. Zwei Erkenntnisse sind dabei zu 

entnehmen: Erstens, Kontexte geringerer Breite sind von größerer Bedeutung, 

und werde öfter befragt, und zweitens kommen Fragen zu entfernten 

Kontexten erst in sehr tiefen Regionen des Entscheidungsbaumes vor, also 

erst dann, wenn die Auftrennungsgewinne schon relativ klein geworden sind. 

Die gemeinsame Modellierung verschiedener akustischer Phänomene 

kann auf verschiedene Art erfolgen. Wie in Kap. 14 im Zusammenhang 

mit verschiedenen Kontinuierlichkeitsgraden schon besprochen, so kann die 

Vereinigung der Modelle auf der Ebene der Mixturgewichte oder auf der 

Ebene kompletter Mischverteilungen geschehen. In [?] wird die allgemeine 

Variante einer mehrstufigen Ballung mit dem JANUS Spracherkenner 

[?] vorgestellt. Dort wird in der ersten Stufe eine Zusammenlegung der 

Modelle auf der Ebene kompletter Mischverteilungen (Codebücher als 

Graustufenmatrizen und Mixturgewichte als Histogramme dargestellt) 

durchgeführt, und in der zweiten Stufe eine Zusammenlegung auf der Ebene 

der Mixturgewichte. Das Ergebnis des JANUS-Ballungsverfahren ist ein

Anzahl der 

Fragen ✻ 

2000 


Baumtiefe 

✯ 

Kontext 

links ② 

-5 -4 -3 -2 -1 0 1/4 

+1 +2 +3 +4 ③ 

+5 Kontext rechts 

1/2 

3/4 1/1 

0 

Abb. 17.10. Auswahl der Kontextfragen in Abhängigkeit von der Baumtiefe 

Kontextentscheidungsbaum wie in Abb. 17.11 dargestellt. Das Ergebnis 

der ersten Phase ist dunkelgrau unterlegt. Die Blätter des Baumes nach 

dieser Phase werden alle durch eigene komplette Gauß-Mischverteilungen 

modelliert. In der zweiten Phase wird der divisive Ballungsalgorithmus 

fortgeführt. Die Codebücher mit den Gauß-Verteilungen bleiben unverändert 

erhalten. Am Ende der zweiten Phase werden dann verschiedene 

Mixturgewichteverteilungen über den Codebüchern der ersten Phase erzeugt. 

Der mehrstufige Ballungsprozeß kann somit wie folgt skizziert werden:


B−m(31)(1) 

0=B 

B−m(30) B−m(31) 

B−m(30)(1) 

nein 

nein 

nein 

nein 

+2=Frikativ 

nein 

+1=Vokal 

Wurzelknoten 

(Mittelsegmente) 

ja 

ja 

−3=Stopp 

nein 

0=A 

−1=Vokal 

ja 

+2=Stille 

B−m(31)(3) B−m(31)(4) 

ja 

ja 

B−m(17) 

nein 

B−m(17)(1) 

ja 

B−m(31)(2) 

+1=Wortende 

B−m(17)(2) 

Abb. 17.11. Ausschnitt aus mehrstufigem Kontextentscheidungsbaum 

1. Phase 

ja 

2. Phase


1. Initialisiere einen Ballungsknoten mit allen n zu ballenden Modellen. 

Alle Modelle haben eine eigene Mixturgewichteverteilung über 

einem gemeinsamen Codebuch (semikontinuierliche HMMs). 

2. Führe divisive Ballung durch bis m Klassen entstanden sind 

(Abbruchkriterium). 

3. Für jede der m Klassen: trainiere ein eigenes Codebuch (Gauß- 

Mischverteilung) und eine eigene Mixturgewichteverteilung. 

4. Führe divisive Ballung erneut durch (ausgehend von bisher erzeugtem 

Baum und trainierten Mixturgewichten). 

Als Abbruchkriterium wird in den meisten Fällen ein auf Erfahrung 

basierender Wert für die Zahl der resultierenden Modelle (typischerweise in 

der Größenordnung von mehreren tausend bis mehreren zehntausend) verwendet. 

Dieser Wert hängt davon ab, wieviel Trainingsdaten zur Verfügung 

stehen. Andere mögliche Kriterien beziehen sich auf die Entwicklung der 

Entropie- beziehungsweise Likelihood-Distanzen. Der Ballungsprozeß kann 

abgebrochen werden, wenn die besten Distanzen unter einen Schwellwert 

fallen oder sich nicht mehr nennenswert ändern. Auf jeden Fall wird durch 

jede Auftrennung eines Knotens ein echt positiver Gewinn erzielt (abgesehen 

von der unrealistischen Auftrennung in zwei völlig gleiche Unterknoten). 

Darüber hinaus kann mit Hilfe einer Kreuzvalidierungsmenge ein automatischen 

Abbruch der Ballung erreicht, ohne daß zuvor vom Entwickler ein 

Endekriterium definiert werden muß. 

17.2.5 Laufzeitbetrachtungen 

Bei der Verwendung kontextabhängiger Modelle fällt ein Teil des Potentials 

für die Einsparung von Laufzeit weg, da im kontextunabhängigen Fall zum 

Beispiel für das Wort ” lila“ zu jedem Zeitpunkt nur eine Emissionswahrscheinlichkeit 

für beide L-Laute berechnet werden muß. Wenn die L-Laute 

kontextabhängig behandelt werden, haben sie – sofern sie nicht in eine Klasse 

zusammengefaßt werden – verschiedene Modelle. Ganz deutlich wird dieses 

Phänomen, wenn wir einen Erkenner für sehr große Vokabulare betrachten. 

Ist er kontextunabhängig und verwendet 50 Monophone zur Modellierung der 

Akustik, dann müssen – wenn die Phoneme nicht in Untersegmente aufgeteilt 

sind – zu jedem Zeitpunkt nur maximal 50 Emissionswahrscheinlichkeiten berechnet 

werden. Wenn der Erkenner aber Triphone verwendet, dann könnten


das mehrere Zehntausend verschiedene sein, von denen je nach Einstellung 

des Suchalgorithmus fast alle berechnet werden müssen. Dies scheint auf 

den ersten Blick ein unter Umständen dramatischer Anstieg des Rechenaufwandes. 

Allerdings darf man diese Betrachtung nicht ohne Berücksichtigung 

der Möglichkeiten zur Beschneidung des Suchraumes machen. Abb. 17.12 

illustriert die Auswirkung der Verwendung von kontextabhängigen Modellen 

auf die Verteilung der Emissionswahrscheinlichkeiten. Die Abbildung stellt 

Emissionswahrscheinlichkeiten als Graustufen (weiß = niedrig, schwarz = 

hoch) dar. Da kontextabhängige Modelle einen kleineren Teil des Merkmalsraumes 

einnehmen haben sie eine deutlich größere diskriminative Fähigkeit 

und die Verteilung der verschiedenen Wahrscheinlichkeitswerte ist wesentlich 

” schärfer“ als für kontextunabhängige Modelle. Die Folge ist, daß es dann 

möglich ist, die Parameter des Suchalgorithmus, die die Beschneidung des 

Suchraumes festlegen viel aggressiver einzustellen und größere Bereiche des 

Suchraumes auszublenden. 

kontextabhängig kontextunabhängig 

Abb. 17.12. unterschiedlich ” scharfe“ Emissionswahrscheinlichkeitenmatrizen 

In der Praxis stellt sich so heraus, daß je nach Qualität der Sprachsignale 

und je nach Größe und Komplexität des Erkennervokabulars, mal mehr mal 

weniger aber doch in den meisten Fällen die kontextabhängigen Modelle 

letztendlich einen geringeren Aufwand haben beziehungsweise bei gleicher 

Laufzeit die besseren Erkennungsergebnisse erzielen.

17.2.6 Einbindung von Modalitätenfragen 


Die Ausprägung eines Lauts hängt natürlich nicht nur vom phonetischen 

Kontext ab, sondern auch von zahlreichen anderen Umständen. Am offensichtlichsten 

wird dies, wenn wir dasselbe Wort von Personen sprechen 

lassen, deren Aussprache von unterschiedlichen Dialekten oder zumindest 

Akzenten geprägt wird. Damit ist jetzt nicht eine komplett andere Aussprachevariante 

gemeint, die einen eigenen Eintrag im Aussprachelexikon 

verdient hätte, sondern die ” gleiche“ Phonemfolge, die sich jedoch anders 

anhört, je nachdem aus welcher Gegend der Sprecher kommt. Außer dem 

phonetischen Kontext und dem aktuellen Dialekt bzw. Akzent gibt es weitere 

so genannte Modalitäten, die die Aussprache beeinflussen. Das Geschlecht 

der Sprecherin oder des Sprechers hat erheblichen Einfluß vor allem auf 

die Tonlage. Bestimmte Laute verändern sich, wenn besonders schnell oder 

besonders langsam gesprochen wird. Selbst Hintergrundrauschen kann sich 

auf verschiedene Laute unterschiedlich auswirken, hochenergetische Laute 

wie Vokale werden durch Rauschen weniger gestört als niedrigenergetische 

wie Konsonanten. Ähnliches kann man auch bei Telefonsprache beobachten. 

Der typische Bandpaß eines Telefonkanals stört Laute, die große Anteile an 

hohen Frequenzen haben wie Frikative mehr, was man auch daran erkennt, 

daß die Laute F und S am Telefon schwer zu unterscheiden sind. 

0=stimmlos 

K1 K2 

+1=Stop 

0=Wortende 

K3 K4 

K5 K6 

-1=Vokal 

Geschwindigkeit = hoch 

+1=B 

-1=Frikativ 

K9 K10 

SNR < 30dB Geschlecht = F 

Abb. 17.13. Ballungsbaum mit Modalitätenfragen 

K7 K8 

Manche dieser Modalitäten sind vollkommen statisch wie zum Beispiel 

das Geschlecht oder der Dialekt und lassen sich womöglich vor dem eigentlichen 

Erkennungslauf bestimmen. Danach kann das passende akustische 

Modell ausgewählt und beibehalten werden. Andere Modalitäten wie Hintergrundrauschen 

oder auch die Sprechgeschwindigkeit können wesentlich 

dynamischer sein, und sich sogar innerhalb eines Satzes verändern.


Verwendet man einen Entscheidungsbaum zum Auswählen der akustischen 

Atome in Abhängigkeit vom Kontext, so kann man den Entscheidungsbaum 

mit Fragen zu Modalitäten anreichern (s. Abb. 17.13. Gegebenenfalls 

muß man dann beim Bestimmen der Atome bis zur Berechnung der Emissionswahrscheinlichkeiten 

warten, weil erst dann feststeht, welche Modalitäten 

vorliegen, und kann dies nicht schon im voraus beim Aufbau des Suchbaumes 

festlegen. 

In [?] werden Experimente vorgestellt, in denen gezeigt wird, daß die 

Modalitäten Signal-Rausch-Abstand, Dialekt, Geschlecht des Sprechers 

und die Sprechgeschwindigkeit alle gewinnbringend in den Kontextentscheidungsbaum 

eingebunden werden können. Es gibt verschiedene 

Experimente, die zeigen, daß modalitätenspezifische Erkenner (zum Beispiel 

geschlechtsspezifische Erkenner in [?]) bessere Erkennungsleistung haben 

als ” gemischtmodale“. Dennoch kann man erwarten, daß ein Erkenner mit 

Modalitätenfragen gegenüber mehreren speziellen Erkennern Vorteile hat. 

Ein spezialisierter Erkenner wird nur mit einem Teil der Trainingsdaten 

trainiert und muß somit weniger Parameter haben oder er läuft Gefahr, 

diese schlecht zu trainieren. Ein Erkenner mit Modalitätenfragen trennt die 

Trainingsdaten nur für diejenigen Phoneme oder Allophone auf, für die dies 

hilfreich ist. Auf diese Art können modalitätenspezifische Modelle trainiert 

werden, aber dort wo dies keine Vorteile bringt, werden die Parameter mit 

allen Trainingsdaten statt nur mit einem Teil trainiert. 

Abb. 17.14 zeigt die Einteilung deutscher Dialektregionen in vier Klassen, 

wie sie mit Hilfe einer automatischen Ballung [?] gefunden wurden. 

Ausgangslage waren 21 deutsche Sprachregionen. Die durch die Ballung 

resultierenden vier Dialektklassen wurden als Modalitätenfragen in einem 

Experiment auf einer Terminvereinbarungsdatenbank [?] verwendet. Die 

Sprecher wurden explizit dazu angehalten Hochdeutsch zu sprechen, dennoch 

war die Sprache bei den meisten dialektisch gefärbt. Der Erkenner, der die 

Modalitätenfragen zur Herkunft des Sprechers beantworten konnte erzielte 

eine Verbesserung der Fehlerrate von 14.5% auf 13.5%. 

17.3 Wortübergangskontexte 

In einigen Sprachen wie im Englischen und ganz besonders im Französischen 

hängt die Aussprache eines Lautes stark von den angrenzenden Wörtern ab. 

Dies gilt vor allem für die Laute am Anfang und am Ende eines Wortes, 

aber durchaus auch für weiter im Inneren liegende Laute. Bei Aufbau eines 

HMM für ein Wort kann dies nicht einfach berücksichtigt werden. Wenn 

während der Trainingsphase ein Satz-HMM aufgebaut wird, dann steht die

0000000 

1111111 

01 

0000000 

1111111 A0 

1 000000 

111111 

01 

000000 

111111 

0000000 

1111111 01 

000000 

111111 

000 111 000000 

111111 D 

0000000 

1111111 

B C000000 

111111 

000 111 000000 

111111 

000 111 000000 

111111 

0000000 

1111111 000000 

111111 

000000 

111111 01 

0000000 

1111111 000000 

111111 L 01 

E 

0000000 

1111111 

00000 11111000000 

111111 

F 00000 11111 

G 00000 

11111 000000 

111111 N 

00000 

11111 O 

00000 11111 H 00000 

11111 000000 

111111 

M 

K00000 

11111 

00000 11111 00000 

11111 

I 000000 

111111 

00000 

11111 

00000 11111000000 

111111 

P 

00000 11111 J 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000 

1111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

Q R 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

S T U 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

0000000000 

1111111111 

17.3 Wortübergangskontexte 313 

000 111 

000 111 

000 111 

000 111 

000 111 

000 111 

Abb. 17.14. Ballung deutscher Dialektregionen in vier Klassen 

A Nordfriesland, B Ostfriesland, C Nordniedersachsen, D Mecklenburg, E 

Ostfalen, F Westfalen, G Niederrhein, H Mittelfranken, I Moselfranken, J Pfalz, K 

Hessen, L Brandenburg, M Thüringen, N Obersachsen, O Sorbien, P Ostfranken, 

Q Südfranken, R Nordbayern, S Niederalemanien, T Schwaben, U Mittelbayern 

benötigte Information unmittelbar zur Verfügung. Für die Erkennungsphase 

bedeutet aber die Verwendung von Wortübergangskontexten einen erheblichen 

Mehraufwand. Wollte man die Akustischen Modelle zur Modellierung 

eines Wortes sowohl vom vorausgehenden als auch vom nachfolgenden Wort 

abhängig machen müßte man theoretisch statt n Wörter n 3 Worttripel 

im Vokabular verwenden. In der Praxis reduziert man den Aufwand aber 

dadurch, daß man nur das erste und das letzte Phonem eines Wortes von 

den angrenzenden Wörtern abhängig macht, und dies auch noch nur von 

dem unmittelbar angrenzenden Phonem, selbst wenn innerhalb der Wörter 

breitere Kontexte verwendet werden. Mit diesen Einschränkungen ergibt 

sich für den Erkennungsprozeß lediglich ein etwas erhöhter Speicher- und 

Rechenaufwand beim Berechnen der Wortübergänge.

18. Effiziente Decodierverfahren 

Der größte Unterschied zwischen der Trainings- und der Erkennungsphase 

bei Hidden Markov Modellen ist die Art der verwendeten Suche. Für beide 

Probleme wird in der Regel der Viterbi-Algorithmus eingesetzt. Während 

beim Training die Transkription der Äußerung bekannt ist und so das HMM 

selbst mit optionalen Füllwörtern immer noch relativ einfach gestaltet ist, 

so enthält das entsprechende HMM für die Erkennung alle Vokabularwörter. 

Auch wenn das Erkennungs-HMM nie komplett aufgebaut wird, so bildet 

es doch einen riesigen Suchraum, durch den ein Viterbi-Pfad gefunden werden 

muß. Beim Entwurf des Viterbi-Algorithmus, ja sogar schon beim einfacheren 

DTW-Algorithmus, haben wir Optimierungen zur Zeitersparnis eingeführt. 

Möglich wäre es aber trotzdem, mit etwas mehr Zeitaufwand den 

Viterbi-Algorithmus ohne Beschneidungen des Suchraums für ein einzelnes 

Satz-HMM komplett abzuarbeiten. Bei der Erkennung kontinuierlicher Sprache 

mit sehr großen Vokabularen ist das nicht mehr möglich. Dafür ist es mit 

heutigen und auf absehbare Zeit verfügbaren Rechnern undenkbar, das komplette 

Erkennungs-HMM im Speicher zu halten, und schon gar nicht, dieses 

komplett zu durchsuchen. Daher bildet diese Suche in der Spracherkennungsforschung 

eine eigene Teildisziplin. Der Teil eines Spracherkenners, in dem 

die Suche implementiert ist, wird Decoder genannt. 

18.1 Decoderarten 

Um am Ende des Erkennungsvorganges eine Wortfolge ausgeben zu können, 

muß wie beim DTW die wahrscheinlichste Folge von Zuständen oder etwas 

einfacher die wahrscheinlichste Folge von Wörtern ausgegeben werden. 

Wenn die exakte Folge der Zustände nicht interessiert, kann der Viterbi- 

Algorithmus dahingehend modifiziert werden, daß auf die Berechnung und 

Speicherung der Rückwärtszeiger (Gl. 12.13) für Zustände, die nicht letzter 

Zustand eines Wortes sind, verzichtet wird. 

Wie Abb. 18.1 zeigt, daß es genügt, für jeden Wortendezustand abzuspeichern, 

welches Wort das beste Vorgängerwort war. Bei der Expansion eines 

Zustands in ein neues Wort kann diese Information erzeugt werden, und bei

316 18. Effiziente Decodierverfahren 

Wort i Wort i + 1 

Abb. 18.1. Zustandsbezogene und Wortbezogene Rückwärtszeiger 

Wort i + 1 

Wort i 

jeder weiteren Expansion eines In-Wort-Zustandes kann sie durchpropagiert 

werden, bis sie schließlich im Wortendezustand gespeichert werden. 

D 

C 

B 

A 

Abb. 18.2. Rückwärtszeigertabelle für die Wortfolge A C B D

18.1 Decoderarten 317 

Eine partielle Hypothese besteht so aus einer Folge von Wortendezuständen 

oder Wörtern zusammen mit den Zeitpunkten ihre Anfänge und 

Enden (s. Abb. 18.2). Am Ende des Erkennungsprozesses wird unter allen 

partiellen Hypothesen die Wahrscheinlichste als die endgültige ausgewählt. 

Man kann die Decoder für Spracherkennung in zwei Gruppen unterteilen: 

synchrone und asynchrone. Asynchrone Decoder verarbeiten mehrere partielle 

Hypothesen, die zu einem Zeitpunkt unterschiedlich lang sein können. 

Bei synchronen Decodern sind alle partiellen Hypothesen gleich lang (s. 

Abb. 18.3). 

synchron asynchron 

Abb. 18.3. Synchrone und asynchrone Suche 

Sowohl synchrone als auch asynchrone Decoder verwenden die gleiche 

Vorgehensweise der Zustandsexpansion und der Definition der kumulativen 

Distanz beziehungsweise Wahrscheinlichkeit, wie sie für den Viterbi- 

Algorithmus definiert ist. Die Unterschiede liegen in der Bestimmung, welche 

Zustände wann expandiert werden und welche Informationen über partielle 

Hypothesen gespeichert werden. Beide Suchparadigmen haben ihre Vor- und 

Nachteile. Der Typische asynchrone Decoder ist ein sogenannter Stack Decoder 

[?]. Er unterhält einen [?] Stapel (engl. stack) oder mehrere [?] Stapel, 

auf denen verschiedene Hypothesen abgelegt sind. Das oberste Stapelelement 

enthält die wahrscheinlichste partielle Hypothese (die mit der kleinsten 

kumulativen Distanz beziehungsweise größten kumulativen Wahrscheinlichkeit). 

Die anderen Stapelelemente sind nach absteigender Wahrscheinlichkeit 

sortiert. Wenn der Suchalgorithmus immer die wahrscheinlichste Hypothese 

vom Stapel nimmt, diese (das heißt ihren letzten Zustand) dann expandiert, 

und die resultierenden längeren Hypothesen in den Stapel einfügt so daß die 

Sortierung erhalten bleibt, dann ist sichergestellt, daß die erste Hypothese, 

die die komplette Aufnahme abdeckt, automatisch die beste ist. 

Zu den Vorteilen solcher Stack Decoder gehört der leichte Zugriff auf 

komplette Hypothesen. In jedem Stapelelement können Informationen abgespeichert 

werden, die sehr weit in die Vergangenheit zurückreichen. Bei einer


reinen Viterbi-Algorithmus kann in einem Zustand der DTW-Matrix derartige 

Information nur schwer abgelegt werden, weil ein Zustand gleichzeitig 

in vielen verschiedenen Hypothesen enthalten sein kann. Die weitreichende 

Information kann dann bei Stack Decodern dafür verwendet werden sehr 

hilfreiche Entscheidungen zur Beschneidung des Suchraums zu treffen. Ein 

anderer Vorteil ist die leichte Extraktion von n-besten Listen. Wenn mehr 

als nur die Wahrscheinlichste Hypothese benötigt wird, dann stehen diese im 

Stapel direkt zum Auslesen bereit. Beschneidung des Suchraumes bedeutet 

bei Stack Decodern, daß einige Hypothesen aus den Stapel unten heraus 

fallen. Die Größe des Stapels ist beschränkt, und so wird dieser schon bei 

einem kleinen durchschnittlichen Verzweigungsgrand beim Expandieren von 

Hypothesen schnell gefüllt. 

In der Praxis werden synchrone Decoder häufiger verwendet als asynchrone. 

Dies liegt zum einen an traditionellen Gründen und zum anderen 

daran, daß für synchrone Decoder viele effiziente Algorithmen existieren. 

18.2 Beschneidung des Suchraumes 

Alle Suchalgorithmen in der Spracherkennung für große Vokabulare haben 

gemeinsam, daß der Suchraum auf die eine oder andere Art eingeschränkt 

werden muß. Dies läuft im Endeffekt immer darauf hinaus, zu entscheiden, 

ob die Expansion eines Zustands durchgeführt werden sollte oder nicht. 

Beim Verzicht auf eine Expansion kann die Suche Fehler machen. Als 

Suchfehler wird der Fall bezeichnet, bei dem die wahrscheinlichste Hypothese 

eine geringere Wortfehlerrate hat als die von Algorithmus gefundene. 

Auch wenn eine Expansion eine noch so geringe Wahrscheinlichkeit im 

Folgezustand hätte, kann in der Regel nicht ausgeschlossen werden, daß 

aus dieser partiellen Hypothese am Ende doch die Beste wird. Um solche 

Fälle zu minimieren ist es wichtig, richtige Entscheidungen zu treffen. Diese 

Entscheidungen müssen nicht nur auf der kumulativen Wahrscheinlichkeit 

eines Zustands basieren. Es ist auch sinnvoll ein wenig Vorauszuschauen. 

Die sogenannte Lookahead-Technik berechnet sehr schnell eine Vorhersage 

über die Entwicklung der kumulativen Wahrscheinlichkeit einer partiellen 

Hypothese, indem es zum Beispiel Expansionen mit Hilfe einfacher und somit 

schnell zu berechnender Emissionswahrscheinlichkeiten bewertet. Andere 

Möglichkeiten der Vorausschau ist die Berechnung von Sprachmodellwahrscheinlichkeiten 

der Wörter in die Expandiert werden soll. Natürlich kosten 

diese Vorausschauen Zeit, wenn sie aber eine deutlich bessere Beschneidung 

des Suchraums ermöglichen, so kann die dadurch gesparte Zeit überwiegen.

18.2 Beschneidung des Suchraumes 319 

Man kann die Auswahl der Expansionen nach verschiedenen Kriterien 

treffen. Bei synchronen Decodern kann entweder festgelegt werden, wie 

viele Zustände maximal zu jedem Zeitpunkt expandiert werden dürfen, 

oder welche Mindestwahrscheinlichkeit die Zielzustände haben sollen. Das 

Verlangen einer minimalen Wahrscheinlichkeit des Zielzustandes entspricht 

genau der Strahlsuche, wie sie in Abs. 11.3.2 definiert wurde. Auch die 

Beschränkung der Anzahl der Zustände ist eine Strahlsuche. 

Bei der Festlegung der Minimalwahrscheinlichkeit wird in der Regel 

die Wahrscheinlichkeit P0 der besten Hypothese als Ausgangspunkt genommen, 

und nur solche Zustände Expandiert, deren Wahrscheinlichkeit 

mindestens b · P0 beträgt. Die Breite des Suchstrahls wird durch den Faktor 

b ∈ [0, 1] bestimmt. Ist er 0, findet keine Suche statt, ist er 1, so findet 

keine Suchraumbeschneidung statt. Je kleiner er ist, umso stärker wird der 

Suchraum eingeschränkt. Der Vorteil dieser Vorgehensweise ist, daß sich 

die Strahlbreite automatisch reguliert. Wenn zu einem Zeitpunkt sehr viele 

Zustände eine Wahrscheinlichkeit nahe der besten haben, dann werden 

sehr viele Zustände expandiert. Dies ist insbesondere dann der Fall, wenn 

das Modell des Spracherkenners keine scharfe Unterscheidung unter den 

besten Hypothesen machen kann, wenn es also eine geringe Konfidenz hat. 

In solchen Fällen ist es sinnvoll, viele Expansionen durchzuführen, um 

die wahrscheinlichste Endhypothese nicht zu verlieren. Wenn der Abstand 

der Wahrscheinlichkeit der besten Hypothese zu den nächstbesten groß 

ist, also wenn der Erkenner eine hohe Konfidenz hat, dann fallen auch 

weniger Zustandswahrscheinlichkeiten in den Bereich [b · P0, P0] und es 

werden weniger Zustände expandiert. Problematisch kann dies allerdings 

werden, wenn zum Beispiel wegen einer schlechten Signalqualität über einen 

Zeitraum hinweg sehr viele Hypothesen nahezu gleich wahrscheinlich sind. 

Dann kann es vorkommen, daß so viele Zustände expandiert werden, daß 

der Erkennungsprozeß zu langsam wird. 

Die Verwendung einer Maximalzahl von ” aktiven“ Zuständen zu jedem 

Zeitpunkt hat den Vorteil, daß die Strahlbreite im voraus festgelegt ist. Es 

kann nicht passieren, daß die Suche in schlechten Regionen zu langsam wird. 

Dafür gibt es hier den Nachteil, daß die wahrscheinlichste Endhypothese 

verworfen wird, wenn zeitweise sehr viele partielle Hypothesen eine ähnlich 

hohe Wahrscheinlichkeit wie die beste haben. 

Daher werden in der Praxis oft beide Beschneidungsmethoden gleichzeitig 

angewendet. Die eigentliche Beschneidung findet mit Hilfe einer dynamischen 

Strahlbreite b · P0 statt. Eine Begrenzung der Zahl der aktiven Zustände 

verhindert aber, daß der Strahl zu breit wird.


Die meisten Spracherkenner verwenden verschiedene Strahlfaktoren b, je 

nachdem in welchem Stadium sich der Erkennungsprozeß befindet. So ist es 

zum Beispiel sinnvoll für Expansionen an Wortübergängen andere Maßstäbe 

zu verwenden, da dort nicht nur die akustischen Wahrscheinlichkeiten sondern 

auch die Sprachmodellwahrscheinlichkeiten einfließen. mehrere Abhängige 

beams 

18.3 Baumdarstellung des Such-HMMs 

Die Rechenoperationen, die beim One-Stage-DP Algorithmus durchzuführen 

sind, um die Übergänge von Zeitrahmen t zu Zeitrahmen t + 1 zu berechnen, 

sind die gleichen für viele Zellen der DP-Matrix. So werden zum 

Beispiel für alle Wörter mit gleicher Anfangsphonemfolge innerhalb dieser 

übereinstimmenden Präfixe die gleichen Operationen durchgeführt. Es 

ist nun naheliegend, diese Operationen nur einmal durchzuführen, was 

im Prinzip bedeutet, daß die Menge aller Zustände des Such-HMMs als 

Präfix-Baum angeordnet werden. In Abb. 18.4 ist eine Synchrone Suche zu 

einem Zeitpunkt dargestellt. Die eingezeichneten Pfade sind drei partielle 

Hypothesen. Man kann erkennen, daß vom Anfang der Äußerung bis zum 

Zeitpunkt t1 alle Wörter des Vokabulars (HUT, HUF und HOF) völlig 

identisch behandelt werden. Zwischen t1 und t2 werden immer noch HUT 

und HUF gleich behandelt. Alle Pfade sind bis t1 ” parallel“. Grundsätzlich 

werden für die gleich schraffierten Bereichen auch die gleichen Berechnungen 

gemacht. 

Die einfachste Art, Wörter mit gleichen Anfängen gleich zu behandeln, 

ist sie in einem Phonem-Präfix-Baum anzuordnen. Statt einer linearen 

Anordnung (Abb. 18.5 links) kann das Such-HMM baumartig angeordnet 

werden (Abb. 18.5 rechts). Aus den ursprünglich neun Zuständen für das 

Vokabular HUT, HUF und HOF werden dann nur noch sechs zustände. Für 

sehr große Vokabular ergibt sich in der Praxis eine ungefähre Einsparung 

von zwischen 50% und 70% weniger Zuständen. 

Man beachte, daß die beiden Zustände für die F-Laute von HOF und 

HUF wegen der verschiedenen Vorgänger nicht gemeinsam modelliert werden 

können. Die besten Anfangszustände der F-Laute können zu verschiedenen 

Zeitpunkten beginnen und so zu völlig verschiedenen Teilpfaden führen. 

Da auch die Baumanordnung des Vokabulars als HMM betrachtet werden 

kann, können hier die gleichen auf dem Viterbi basierende Suchalgorithmen 

durchgeführt werden. Die Modellachse sieht nach der Transformation auch 

anders aus (s. Abb. 18.6).

HUT 

HUF 

HOF 

T 

18.3 Baumdarstellung des Such-HMMs 321 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

U01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

H 

01 

01 

01 

01 

01 

01 

01 

F 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

U01 

01 

01 

01 

01 

01 

01 

H 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

F 

O01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

01 

H 

01 

01 

01 

01 

01 

01 

01 

H 

t1 

HU 

HU 

Abb. 18.4. Identische Bereiche des Suchraums 

H U T 

H 

H 

U F 

O F 

Abb. 18.5. Lineare und baumartige Anordnung des Suchraumes 

T 

U 

H 

F 

U 

H 

F 

O 

H 

Abb. 18.6. Umgestaltung der Modellachse der Suchmatrix 

t2 

F 

T 

F 

U 

O 

H 

H 

U 

O 

T 

F 

F


Die tatsächliche Zeitersparnis für den Suchalgorithmus ist in der Praxis 

etwas geringer als der Anteil der eingesparten Zustände. Zwar müssen 

weniger Zustandsexpansionen berechnet werden, aber bei der Berechnung 

der Emissionswahrscheinlichkeiten kann auch schon im linearen Fall mit 

Hilfe eines Caches die Mehrfachberechnung derselben Wahrscheinlichkeiten 

umgangen werden. 

18.3.1 Verzögerte Bigramme 

Wenn die Modellachse als Baum dargestellt ist, dann ist es nicht mehr 

möglich, beim Übergang aus dem letzten Zustand eines Wortes in das 

nächste Wort eine Bigramm-Wahrscheinlichkeit zu verwenden. In Abb. 18.7 

ist zu sehen, wie der Übergang aus dem letzten Zustand des Wortes HUT 

in den ersten Zustand des Wortes HOF bei linearer Anordnung mit einer 

Bigramm Wahrscheinlichkeit versehen werden kann, bei einer baumartigen 

Anordnung aber nicht. 

P(HOF|HUT) P(?|HUT) 

H U T 

H 

H 

U F 

O F 

Abb. 18.7. Bigrammwahrscheinlichkeit nicht bei Übergang anwendbar 

Bei der Baumstruktur steht beim Betreten des Zustands H noch nicht 

fest, zu welchem Wort der Zustand einmal gehören wird. Dies ist erst dann sicher, 

wenn der letzte Zustand eines Wortes betreten wird. Da aber – wie oben 

beschrieben – die Information über das beste Vorgängerwort beim Berechnen 

des Viterbi-Algorithmus durchpropagiert wird ist dies auch beim Betreten 

des letzten Zustands eines Wortes bekannt. Die Bigrammwahrscheinlichkeit 

kann nun an dieser Stelle zur kumulativen Hypothesenwahrscheinlichkeit 

dazumultipliziert werden. Dies geschieht zwar spät (daher ” verzögerte 

Bigramme“, engl: delayed bigrams) [?], aber immer noch rechtzeigtig, um am 

Ende eine völlig korrekte Gesamthypothesenwahrscheinlichkeit zu erhalten. 

Dennoch gibt es bei der Verwendung von verzögerten Bigrammen 

Probleme. Diese manifestieren sich insbesondere bei der Suchraumbeschneidung. 

Wenn Beschneidungsentscheidungen in einem Zustand, der kein 

H 

U 

O 

T 

F 

F

18.4 Sprachmodelle höherer Ordnung 323 

Wortendezustand ist, getroffen werden, dann steht weniger Information zur 

Verfügung. Möglicherweise wird eine Hypothese verworfen, die, wenn die 

Bigrammwahrscheinlichkeit in das aktuelle Wort bekannt wäre, wesentlich 

besser bewertet und somit erhalten worden wäre. Umgekehrt kann es 

vorkommen, daß die Suche unnötigerweise Zustände expandiert, die bei 

Kenntnis der niedrigen Bigrammwahrscheinlichkeit gar nicht erst betreten 

worden wären. Der geringer Zeitverlust ist dabei unproblematisch. Wie 

schwerwiegender ist die erhöhte Wahrscheinlichkeit für Suchfehler. 

18.4 Sprachmodelle höherer Ordnung 

An Abb. 15.10 ist zu erkennen, daß ein derartiges Such-HMM bestenfalls 

Bigramme als Wortübergangswahrscheinlichkeiten verwenden kann. Wenn 

trigramme verwendet werden sollen müßte das HMM wesentlich größer sein 

(s. Abb. 18.8). 

Das Trigramm-HMM enthält also n Kopien des Bigramm-HMMs aus 

Abb. 15.10. Auf die gleiche Art lassen sich auch Kopien von als Baumstruktur 

angeordneten HMMs zu einem Trigramm-Modell verbinden. Selbstverständlich 

kann für die Erkennung großer Vokabulare ein derartig großes HMM 

nicht komplett im Speicher gehalten werden. Daher werden nur die Teile 

dynamisch angelegt, die benötigt werden. Wenn ein Zustand expandiert 

wird, werden die ihm folgenden Zustände alloziert. Wenn Baumkopien 

erzeugt werden, entsteht auch hier wieder die gleiche Problematik wie bei 

den verzögerten Bigrammen. 

Eine Alternative selbst bei Bigramm-HMMs trotzdem Trigramm- 

Informationen zu verwenden sind sogenannte ” poor man’s trigrams“. Dabei 

wird für jeden Zeitpunkt t das Wort ˆw(t) gemerkt, das den wahrscheinlichsten 

Endzustand hat. Wenn dann ein Wortübergang von w1 nach w2 

stattfindet, und der Viterbi-Rückwärtszeiger von Wort w1 auf den Zeitpunkt 

t zeigt, so wird unabhängig davon, welches das beste Vorgängerwort von w1 

ist, als Übergangswahrscheinlichkeit P3(w2| ˆw(t), w1) verwendet. 

Statt umständliche Baumkopien zu machen, ist es auch möglich in den 

einzelnen Baumknoten mehrere Historien (Linguistische Kontexte) zu speichern, 

die dann bei der Expansion gegebenenfalls in den Nachfolgezustand 

” mitgenommen“ werden [?].


Wort 1 

Wort 2 

Wort n 

Wort 1 

Wort 2 

Wort n 

Wort 1 

Wort 2 

Wort n 

. . . 

. . . 

. . . 

Abb. 18.8. Such-HMM für Trigramm-Sprachmodelle 

18.5 Suche ohne Sprachmodell 

. 

. 

. 

Wenn man die Erkenntnisse aus der Verwendung von Trigrammen und 

Bigrammen extrapoliert, so mußte man zum Schluß kommen, daß der 

komplette Verzicht auf ein Sprachmodell die Information zum Beschneiden 

des Suchraums derart minimiert, daß die Suche wesentlich länger dauern 

muß als mit irgend ein Sprachmodell. Genau das Gegenteil ist der Fall. In 

Abb. 18.9 ist der Übergang vom Zeitpunkt t zum Zeitpunkt t + 1 links ohne 

und rechts mit Sprachmodell dargestellt. Wenn kein Sprachmodell verwendet 

wird ist der beste Vorgängerzustand für alle Wortanfangszustände zum 

Zeitpunkt t+1 derselbe. In der Abbildung hat der Endzustand des Wortes D 

die kleinste kumulative Distanz. Das heißt aber, daß zum Zeitpunkt t auf die 

Expansion aller anderen Wortenden verzichtet werden kann. Es müssen also 

(abgesehen von eventuellen Suchraumbeschneidungen) zu jedem Zeitpunkt 

nur n (= Vokabulargröße) Wortübergänge hypothetisiert werden. Wird 

n 2 

n 2 

. . . 

n 2 

. . . 

. . .

18.6 Längenmodellierung 325 

ein Sprachmodell verwendet, müssen n 2 Übergänge genommen werden, da 

zum Zeitpunkt t noch nicht bekannt ist, welche Wortendezustände später 

inklusive der Sprachmodellwahrscheinlichkeiten als beste Vorgänger der 

Wortanfangszustände zum Zeitpunkt t + 1 sein werden. 

1715 

D D 

C 

B 

A 

991 

722 

1715 

991 

722 

1234 1234 

t − 1 t t + 1 t − 1 t t + 1 

Abb. 18.9. Expansionder Wortendezustände ohne/mit Sprachmodellk 

18.6 Längenmodellierung 

Betrachten wir den Viterbi-Pfad, wie er in Abb. 18.10 dargestellt ist. Hier 

wurde das Wort ” Apfel“ erkannt. Die Hypothese geht davon aus, daß die 

ersten drei Zeiteinheiten der A-Laut gesprochen wurde, dann elf Zeiteinheiten 

lang ein P-Laut, um schließlich die verbleibenden drei Laute in je einem 

Zustand abzuarbeiten. Ein derartiger Pfad ist aus phonetischer Sicht äußerst 

unwahrscheinlich. Das P ist ein Plosivlaut, der in der Regel sehr kurz ist, auf 

jeden Fall ist er meist wesentlich kürzer als typische Vokale. Das Problem, 

das den abgebildeten Pfad verursachen kann ist zum Beispiel ein gestörtes 

Sprachsignal. Da P-Laute sehr wenig Energie haben, unterscheiden sie sich 

kaum von Stillelauten. Vielleicht war das Signal im Bereich der zweiten Hälfte 

des Wortes gestört, oder es wurde sehr langsam gesprochen. Woran könnte 

ein Spracherkenner feststellen, daß ein derartiger Pfad sehr unwahrscheinlich 

ist? 

C 

B 

A


L 

E 

F 

P 

A 

Abb. 18.10. Ein aus phonetischer Sicht sehr unwahrscheinlicher Pfad 

Die Faktoren, die die ” Aufenthaltsdauer“ einer Hypothese in einer 

Spracheinheit (zum Beispiel einem HMM-Zustand) beeinflussen, sind die 

Übergangswahrscheinlichkeiten und in noch größerem Maße die Emissionswahrscheinlichkeiten. 

Ignoriert man den Einfluß der Emissionswahrscheinlichkeiten 

und ist p die Wahrscheinlichkeit für einen Übergang aus einem 

HMM-Zustand zu sich selbst, dann verhält sich die Wahrscheinlichkeit für eine 

Aufenthaltsdauer von t Zeittakten exponentialverteilt gemäß (1 − p)p t−1 . 

Zweifellos reflektiert dies nicht in den meisten Fällen nicht die tatsächliche 

Verteilung. Eine explizite Längenmodellierung kann allerdings realisiert werden, 

indem für jede zu modellierende Spracheinheit (Zustand, Phonem, Wort) 

ein Längenhistogramm auf den Trainingsdaten geschätzt wird. Beim Expandieren 

eines Endzustandes einer Spracheinheit wird dann ein Strafterm zur 

kumulativen Wahrscheinlichkeit hinzugerechnet, der sich aus der Verweildauer 

und dem entsprechenden Histogrammwert ergibt [?]. 

18.7 Mehrpaßsuchen 

Ähnlich wie es beim Forward-Backward-Algorithmus einen Vorwärtsund 

einen Rückwärtsdurchgang gibt, kann diese Idee auch auf die Suche 

übertragen werden. Auch wenn wir bei der Suche andere Motive haben, 

so gibt es durchaus auch hier gute Gründe mehrere Durchläufe durch die 

Aufnahme zu machen. Mitte der neunziger Jahre war es eine Art ” Running 

Gag“ bei den alljährlichen SLT-Workshops zu sagen, daß der Erkenner 

des Forschungslabors der US-Firma BB&N bei jeder DARPA-Evaluationen 

einen Durchgang (engl. pass) mehr als im Jahr davor hatte. Teilweise wurden 

Erkenner mit bis zu sechs Durchläufen vorgestellt. 

Grundsätzlich gibt es keinen Grund anzunehmen, daß in einem zweiten 

Durchgang Informationen gewonnen werden, die nicht auch schon im ersten 

Durchgang hätten gewonnen werden können. Die Frage ist nur, wieviel 

Aufwand dies macht. Und so kann es sich sehr wohl lohnen, in einem ersten 

besonders schnellen Durchlauf Informationen zu sammeln, die zwar nicht 

unmittelbar zu einer besseren Hypothese führen, aber mit deren Hilfe es

18.7 Mehrpaßsuchen 327 

möglich ist, den Suchraum des zweiten oder der darauffolgenden Durchgänge 

so zu beschneiden, daß ein sehr großer Laufzeitgewinn bei fast keinen 

Suchfehlern erzielt werden kann. Dies funktioniert natürlich nur, wenn der 

zweite Durchlauf aufgrund seines aufwendigen Verfahrens bessere Ergebnisse 

liefert als der erste. 

Die gleichzeitige Verwendung von als Baumstruktur organisierten Modellachsen 

und weitreichender Sprachmodelle ist höchst kompliziert. Schon bei 

so einfachen Sprachmodellen wie Bigrammen (s. Abs. 18.3.1) ergeben sich 

Schwierigkeiten. Sollen sogar Trigramme oder noch breitere Sprachmodelle 

verwendet werden, hat dies zur Folge, daß für Teile der Modellachse Kopien 

angefertigt werden müssen (Details dazu gibt es in [?]), was sowohl speicherals 

auch zeitaufwendig ist. Insbesondere die Entscheidungen, welche Teile 

des Suchraums beschnitten werden sollten, können oft nur mit unzureichender 

Information getroffen werden, oder können bei Fehlentscheidungen zu 

großen Verlusten in der Erkennungsgenauigkeit führen. Daher bietet es sich 

an, eine dramatische Beschneidung des Suchraumes im Voraus auszuführen, 

dabei ein einfacheres Suchmodell zu verwenden (z.B. nur Bigramme und kontextunabhängige 

akustische Modelle) und dann im zweiten Durchgang das 

komplexe Suchmodell (z.B. mit Trigrammen und vielen kontextabhängigen 

akustischen Modellen) auf dem beschnittenen Suchraum wesentlich schneller 

auszuführen. Man kann also sagen, daß der erste schnelle Durchgang die sehr 

Hilfreiche Information zur Beschneidung des Suchraums des zweiten Durchgangs 

liefert. Diese Information kann (wie z.B. in [?] in Form einer Matrix 

vorliegen, die angibt, welche Wörter zu welchen Zeiten überhaupt in Frage 

kommen (s. Abb. 18.11). Das Infragekommen eines Wortes kann darauf basieren, 

daß ein Minimum der dem Wort zugehörigen HMM-Zuständen aktiv 

sind, d.h. im ersten Durchgang vom Suchalgorithmus besucht werden. 

wn 

. 

w4 

w3 

w2 

w1 

Abb. 18.11. Wortaktivitätsmatrix zur Beschneidung des Suchraumes 

t

19. Parameterraumoptimierung 

Bei der Entwicklung eines HMM-basierten Spracherkenners müssen mehrere 

Entwurfsvariablen gefunden und optimiert werden. Entwurfsvariablen, die 

den Parameterraum der akustischen Modellierung betreffen, sind zum Beispiel 

die Anzahl der akustischen Modelle, die Anzahl der Mixturgewichteverteilungen 

und der Codebücher, der Kopplungsgrad der Kovarianzmatrizen, 

die Breite der modellierten Kontexte, die Anzahl der Zustände eines HMMs 

für die verwendeten Spracheinheiten, sowie deren Topologien. Weitere einzustellende 

Variablen sind die Größe der Codebücher, das heißt die Anzahl der 

Referenzvektoren je Codebuch und die Dimensionalität des Merkmalsraumes. 

Auch auf dem Gebiet der temporalen Modellierung der HMMs gilt es, 

Entwurfsentscheidungen zu treffen und Variablen einzustellen, wie zum 

Beispiel die Feinheit und den Kopplungsgrad der Übergangswahrscheinlichkeiten 

und eventuell vorhandene Parameter für explizite Längenmodellierung. 

Oft ist es sehr aufwendig und ressourcenintensiv, verschiedene mögliche 

sinnvolle Werte für die Entwurfsvariablen durch Experimente auszuwerten 

und auf diese Art zu optimieren. Teilweise wird in manchen Bereichen 

der Spracherkennungsforschung sogar von einer Art schwarzen Magie 

gesprochen, wenn Forscher sogenannte ” educated guesses“ (auf Erfahrung 

basierte Schätzungen) vornehmen. Nicht selten kann man beobachten, daß 

eine nur sehr wenig vom Optimum abweichende Einstellung bestimmter 

Architekturvariablen die Fehlerrate des Erkenners enorm erhöht. 

Auf Erfahrung basierende Schätzungen sind auch bei den zahlreichen 

sogenannten ” fudge factors“ 1 üblich. Dabei handelt es sich um der Theorie 

eigentlich widersprechende Parameter, wie z.B. die Werte z und q in Gleichung 

16.25. Solche Parameter werden aus verschiedenen Gründen für eine 

zufriedenstellende Funktion der Spracherkenner benötigt. Zum einen ist die 

getroffene Modellannahme (HMM erster Ordnung, Gauß-Mischverteilungen) 

nicht in völliger Übereinstimmung mit der Natur des Sprachproblems, zum 

anderen liegen in der Regel nicht so viele Trainingsdaten vor, daß das in der 

Statistik oft zitierte Gesetz der großen Zahl wirkt. Im Gegenteil, meistens 

1 engl. fudge: schmierige Schokoladencreme

330 19. Parameterraumoptimierung 

wird der Parameterraum der Spracherkenner so weit aufgeblasen wie nur 

irgendwie trainierbar. Man tendiert eher dazu, ein paar schlecht geschätzte 

Parameter zuviel zu verwenden, und notfalls Glättungsmethoden einzusetzen, 

als zu wenige Parameter zu verwenden, die dann aber gut geschätzt 

werden, denn fehlende Information kann nicht ersetzt werden, während 

zuviel Information bei geeigneter Handhabung nicht schädlich sein muß. 

Schließlich ist ein weiterer Grund für die Verwendung von ” fudge factors“ 

die oft inkorrekte Implementierung der mathematischen Grundlagen, bei 

der, um Rechenzeit zu sparen, Approximationen vorgenommen werden. 

Das Ziel der Spracherkennungsforschung ist es, nicht nur fertige, funktionierende 

Produkte zu entwickeln, sondern auch Laien zu ermöglichen, 

einen für ihre speziellen Zwecke optimierten Spracherkenner selbst zu 

bauen, ohne dabei von ihnen zu verlangen, sich mit den verschiedenen 

Entwurfsvariablen auszukennen. Solange nicht abzusehen ist, daß fertige 

Spracherkennungsprodukte in jeder Umgebung, mit beliebigen Vokabularen, 

mit verschiedenen Sprachen und Dialekten sowie für viele verschiedene 

Anwendungsszenarien einwandfrei funktionieren, solange wird es interessant 

bleiben, daß Entwicklungsumgebungen existieren, mit denen auch Personen, 

die nicht auf dem Gebiet der Spracherkennung arbeiten, funktionierende 

Spracherkenner bauen können. 

Für die Umsetzung eines Forschungsprototypen in ein fertiges Produkt 

ist es deshalb sinnvoll, Methoden zu finden, die es ermöglichen, Entwurfsvariablen 

automatisch zu optimieren. 

19.1 Parameterarten 

Im folgenden gehen wir auf die Rolle verschiedener Parameter von typischen 

HMM-basierten Spracherkennern ein. Es ist nicht möglich, hier alle denkbaren 

Parameter zu behandeln, so daß vor allem die wichtigsten aufführen, 

das heißt diejenigen, die für Erkennungsleistung die größte Bedeutung haben. 

19.1.1 Mittelwertsvektoren 

Die Mittelwertsvektoren sind die wichtigsten Parameter der akustischen 

Modellierung mit Normalverteilungen, in dem Sinne, daß die Erkennungsleistung 

von einer optimalen Schätzung der Referenzvektoren erfahrungsgemäß 

stärker abhängt als von den Kovarianzmatrizen und den Mixturgewichten. Je 

größer die Dimensionalität des Merkmalsraumes ist, desto stärker fällt auch


der Einfluß der Referenzvektoren aus, da der durchschnittliche euklidische 

Abstand zweier Punkte im Einheitswürfel mit der Wurzel der Dimension 

wächst. Der durchschnittliche Wert eines Mixturgewichtes ist aber stets 

1/ns, unabhängig von der Dimension. 

19.1.2 Kovarianzmatrizen 

Lange Zeit wurde der JANUS-Spracherkenner ganz ohne trainierte Kovarianzmatrizen 

betrieben, das heißt, als Kovarianzmatrizen wurde stets die 

Einheitsmatrix angenommen. Wenn die restlichen Parameter unter dieser 

Annahme trainiert werden, so steigt die Fehlerrate des Erkenners um ca. 

10% bis 20% gegenüber einem Erkenner, der diagonale Kovarianzmatrizen 

verwendet. Auf die Verwendung von vollen Kovarianzmatrizen wurde im 

JANUS-Erkenner stets verzichtet, da der Zuwachs des Parameterraumes 

und der zusätzliche wesentliche erhöhte Rechenaufwand bei der Berechnung 

der Emissionswahrscheinlichkeiten in unerträgliche, nicht mehr handhabbare 

Größenordnungen steigt. 

Erstmals wurden im JANUS-Erkenner radiale Kovarianzmatrizen erfolgreich 

eingesetzt (siehe Abschnitt 19.4.1). Diese reduzieren die benötigten 

Kovarianz-Parameter um den Faktor der Dimensionalität des Merkmalsraumes, 

ohne daß dabei die Erkennungsrate zu sehr leiden muß. 

19.1.3 Mixturgewichte 

Typische Werte einzelner Normalverteilungen, wie sie in dieser Arbeit 

verwendet wurden, liegen im Bereich zwischen 10 −30 und 10 −10 mit einer 

entsprechend großen Varianz. Gleichzeitig schwanken die Mixturgewichte nur 

typischerweise zwischen 10 −5 und 10 0 . Im Hinblick auf diese Werte verwundert 

es nicht, daß die gemessenen Fehlerraten nur um wenige Prozentpunkte 

steigen, wenn alle Mixturgewichteverteilungen durch Gleichverteilungen 

ersetzt werden. Eine zufällige Initialisierung der Referenzvektoren dagegen 

würde den Erkenner total funktionsunfähig machen. 

19.2 Parameterkopplung 

Neben den Kopplungsmethoden, die durch den Kontinuierlichkeitsgrad des 

verwendeten HMMs vorgegeben sind, sind auch andere Parameterkopplungen 

von Interesse:


19.2.1 Kopplung von 

Zustandsübergangswahrscheinlichkeiten 

Eine korrekte Schätzung der Zustandsübergangswahrscheinlichkeiten hat 

sich in den letzten Jahren als eher weniger bedeutend herausgestellt. Der 

Hauptzweck dieser Parameter ist – neben der Definition der erlaubten 

Zustandsfolgen – die Modellierung der Aufenthaltsdauern in den einzelnen 

Zuständen. Im folgenden seien die drei wesentlichen Gründe für die geringe 

Bedeutung dieser Parameter aufgeführt: 

Inkompatibilität zwischen Dichtewerten und Wahrscheinlichkeiten 

Während die Zustandsübergangswahrscheinlichkeiten echte Wahrscheinlichkeiten 

sind, müssen sie während der Berechnung eines Viterbi- oder 

Forward-Backward-Pfades mit den Dichtewerten der Emissionswahrscheinlichkeiten 

multipliziert werden. Da erfahrungsgemäß die Varianz der 

Dichtewerte einer hochdimensionalen Normalverteilung viel größer ist als 

die Varianz der echten Wahrscheinlichkeiten, werden alle Entscheidungen 

während des Viterbi- oder Forward-Backward-Algorithmus von den 

Emissionswahrscheinlichkeiten dominiert. Der Einfluß der Zustandsübergangswahrscheinlichkeiten 

kann vernachlässigt werden. 

Längenmodellierung durch die Emissionswahrscheinlichkeiten 

Da fast alle Spitzenspracherkenner sehr einfache HMM-Topologien verwenden, 

bei denen drei bis sechs linear angeordnete Zustände verwendet werden, 

wird die Aufenthaltsdauer in einem HMM-Zustand im wesentlichen von der 

Paßgenauigkeit der akustischen Modelle gesteuert. Ob ein Zustand verlassen 

und der Nachfolgezustand betreten werden sollte, kann ausreichend sicher 

nur mit Hilfe des akustischen Modells entschieden werden. 

Explizite Längenmodellierung 

Durch die Verwendung von Zustandsübergangswahrscheinlichkeiten können 

nur sehr eingeschränkte Wahrscheinlichkeitsverteilungen über die Aufenthaltsdauern 

in einzelnen Zuständen realisiert werden. Wenn die 

Wahrscheinlichkeit dafür, daß ein Zustand sein eigener Nachfolgezustand ist, 

p beträgt, dann berechnet sich die Wahrscheinlichkeit für einen Aufenthalt 

eines Viterbi-Pfades von t Zeiteinheiten als p t−1 · (1 − p). Es handelt sich 

also um eine einfache Exponentialverteilung. Durch geschicktes Anordnen 

mehrerer Zustände, die dasselbe akustische Modell verwenden, läßt sich zwar 

auch jede beliebige kompliziertere Verteilung approximieren, jedoch lohnt 

sich dieser Aufwand nicht. Stattdessen bietet sich eher an, eine explizite


Längenmodellierung einzusetzen. Dabei wird für jeden HMM-Zustand, bzw. 

für jede Äquivalenzklasse von Zuständen oder Zustandsfolgen, eine diskrete 

Wahrscheinlichkeitsverteilung von Aufenthaltslängen geschätzt. Nach Verlassen 

eines Zustandes oder einer Zustandsfolge wird dann die bis dahin 

akkumulierte Pfadwahrscheinlichkeit mit der Längenwahrscheinlichkeit 

verrechnet. 

Einschränkungen der Parameterkopplung 

In der Regel wird man nicht erlauben, daß jeder Parameter mit jedem 

anderen seiner Sorte gekoppelt werden kann. Das ist zum einen der Fall, weil 

die Parameter trotz Gleichartigkeit völlig verschiedene Bereiche des Parameterraumes 

belegen. So wird man eher davon absehen, die Kovarianzmatrizen 

aus einem Codebuch des Phonems G mit den Kovarianzmatrizen des 

Phonems S zu koppeln. Man wird also unter Einsatz von Wissen bestimmte 

Arten der Kopplung ausschließen. Ein weiterer Grund für die Einschränkung 

der möglichen Kopplungen ist die Vermeidung einer kombinatorischen 

Explosion. Es ist zum Beispiel mit der Leistung der heutigen Workstations 

ausgeschlossen, alle möglichen Kopplungen von 700 000 Subpolyphonen – 

ein nicht untypischer Wert – zu erlauben. Schon zu Beginn müßten ca. 245 

Milliarden Distanzen berechnet werden. 

Typische Einschränkungen für die Parameterkopplung werden so vorgenommen, 

daß keine Kopplungen über Phoneme hinweg erlaubt sind. Das 

heißt, es können keine Parameter eines Phonems mit denen eines anderen 

Phonems gekoppelt werden. Bei der Verwendung von subphonetischen 

Spracheinheiten, vermeidet man meist sogar die Kopplung von Parametern 

desselben Phonems, wenn sie zu verschiedenen Untereinheiten gehören. 

19.2.2 Arten der Parameterkopplung 

Kopplung durch A-priori-Wissen 

Verschiedene gleichartige Parameter können auf verschiedene Arten gekoppelt 

werden. Ebenso wie Einschränkungen der möglichen Kopplungen 

durch A-priori-Wissen vorgenommen werden, werden auch einfach wissensbasiert 

bestimmte Parameter gekoppelt, ohne daß eine mathematische 

Untersuchung der Sinnhaftigkeit durchgeführt wird. So verwendet man 

keine kontextabhängigen akustischen Modelle für Stille oder für bestimmte


Geräusche. Man nimmt einfach a priori an, daß die akustische Erscheinung 

der Stille nicht von den davor oder danach gesprochenen Worten abhängt. 

Als weiteres Beispiel des Einsatzes von A-priori-Wissen kann man die 

Zustandsübergangswahrscheinlichkeiten ansehen. Im JANUS-Erkenner 

werden diese für alle artikulatorischen akustischen Modelle einfach einmalig 

festgesetzt und dann nicht mehr verändert. 

Kopplung über den Kontext 

In die Entscheidung, ob zwei akustische Modelle gekoppelt werden sollen, 

kann auch Kontextinformation einfließen. Zwei Modelle können sich ihre 

gesamten akustischen Parameter teilen, wenn sie das gleiche Phonem 

oder Subphonem in verschiedenen aber bezüglich eines Maßes ähnlichen 

Kontexten modellieren. So bietet es sich an, Phoneme, deren zwei oder drei 

rechte und linke Nachbarn gleich sind, aber der weiter entfernte Kontext sich 

unterscheidet, gemeinsam zu modellieren, in der Erwartung, daß durch die 

verschieden weiten Kontexte der Unterschied der Akustik unbedeutend ist. 

Datengetriebene Kopplung 

Der statistisch korrekteste Weg ist die datengetriebene Kopplung. Dabei 

wird ein Distanzmaß zwischen verschiedenen Parametern oder Parametermengen 

definiert. Diejenigen Parametermengen, die eine sehr kleine Distanz 

haben, werden gemeinsam modelliert. Wenn die Parametermengen einzelnen 

akustischen Modellen entsprechen, spricht man von einer Ballung dieser 

Modelle. Modellballung wird in fast allen leistungsfähigen Spracherkennern 

eingesetzt. In der Regel handelt es sich dabei um eine hierarchische Ballung, 

meist unter Verwendung von Entscheidungsbäumen. 

19.3 Architekturentwurf 

Während für die Suche der besten Parameter eines gegebenen parametrischen 

Modells etablierte und gut verstandene Algorithmen (z.B. Maximum 

Likelihood) existieren, gibt es keine Möglichkeit, uniform zu berechnen, welches 

parametrische Modell das beste ist. Man beschränkt sich daher darauf, 

zwischen zwei (oder mehr) verschiedenen Modellen dasjenige auszuwählen, 

das gemäß eines festgelegten Kriteriums das bessere ist. Für die Einstellung 

der Architekturvariablen bedeutet das, daß zum Beispiel an einem gegebenen 

System unter verschiedenen möglichen Modifikationen diejenige tatsächlich 

vorzunehmen ist, der die größte Gewinnerwartung zugeordnet wird.

19.3 Architekturentwurf 335 

Als Kriterien zur Bewertung einer Architekturmodifikation dienen 

in der Regel Maße, die basierend auf der Gesamtwahrscheinlichkeit der 

Trainingsdaten diejenige Architektur bevorzugen, für die die Gesamtwahrscheinlichkeit 

aller Trainingsdaten größer ist. Im folgenden werden solche 

Verfahren als ” likelihood-basierte“ Architekturoptimierungen bezeichnet. 

Andere Bewertungskriterien sind zum Beispiel solche, die andere prinzipiell 

wünschenswerte Eigenschaften berücksichtigen, wie den Informationsgewinn 

(das heißt den Entropieverlust), der durch eine Architekturmodifikation 

entsteht. 

Bei allen likelihood-basierten Optimierungsverfahren besteht die Gefahr 

der Überanpassung, wenn versucht wird, die Gesamtwahrscheinlichkeit aller 

Trainingsdaten zu optimieren, weil dabei nicht berücksichtigt wird, wie sich 

die Architekturmodifikation auf andere, nicht zur Trainingsmenge gehörende 

Daten auswirkt. 

Das Problem der Überanpassung ist auch bekannt aus der Theorie der 

künstlichen neuronalen Netze. Dort beobachtet man den Effekt, wenn ein 

neuronales Netz zu viele Epochen auf den Trainingsdaten trainiert wird. 

Wenn die Zahl der Parameter des Netzes ausreicht, so fängt es irgendwann 

an, die Trainingsdaten ” auswendig“ zu lernen, statt zu lernen, was deren 

Struktur ist. Für ungesehene Testdaten wird das im Netz gespeicherte 

Weltmodell ab diesem Zeitpunkt immer schlechter. Das Netz verliert an 

Generalisierungsfähigkeit. Das Problem wird dadurch gelöst, daß mit Hilfe 

einer Kreuzvalidierungsmenge der Zeitpunkt bestimmt wird, ab dem ein 

Leistungsabfall auf den Kreuzvalidierungsdaten eintritt. Diese Menge ist 

in der Regel eine Teilmenge der zur Verfügung stehenden Trainingsdaten, 

die, nachdem sie bestimmt ist, nicht mehr zum Trainieren verwendet wird. 

Sobald der Effekt der Überanpassung einsetzt, wird der Trainingsprozeß 

abgebrochen. 

Die Idee der Verwendung von Kreuzvalidierungsmengen läßt sich auch 

auf likelihood-basierte Optimierungsverfahren anwenden, sowohl um zu 

entscheiden, ob ein iterativer Optimierungsprozeß fortgeführt werden soll, 

als auch um zu bewerten, wie gut eine Architektur- bzw. Parametermodifikation 

ist. Die Bewertung einer Modifikation wird so vorgenommen, 

daß die Gesamtwahrscheinlichkeit der Kreuzvalidierungsmenge unter der 

Bedingung des modifizierten Systems berechnet wird. Wenn nun mehrere 

mögliche Systemmodifikationen antizipiert werden, dann sollte diejenige 

ausgeführt werden, die den größten Wahrscheinlichkeitsgewinn verspricht. 

Bei einem iterativen Optimierungsverfahren sollte das Verfahren so lange 

fortgesetzt werden, bis auf der Kreuzvalidierungsmenge kein Gewinn mehr 

festzustellen ist. Man sieht leicht ein, daß ohne eine Kreuzvalidierungsmenge 

ein Optimierungsverfahren, das die Zahl der Parameter mit jedem Schritt


erhöht, auch die Gesamtwahrscheinlichkeit der Trainingsdaten beliebig weit 

erhöhen kann, im Extremfall so weit, daß jedes einzelne Trainingsdatum 

seinen eigenen Parameter im Parameterraum hat. 

Typische Vorgehensweisen beim Architekturentwurf werden selten 

veröffentlicht. Bei den obligatorischen Systembeschreibungen der Spracherkenner, 

die an den offiziellen internationalen (D)ARPA Evaluationen 

teilnehmen, werden die Parameterräume zwar beschrieben, aber man findet 

kaum Informationen darüber, warum diese Architektur ausgewählt wurde. 

In der Praxis sieht zum Beispiel die Optimierung der Zahl der akustischen 

Modelle so aus, daß für eine Reihe verschiedener Werte ein Erkenner trainiert 

und danach evaluiert wird. Der am besten arbeitende Erkenner wird 

schließlich zum System der Wahl. Oft läßt sich dieses Vorgehen allerdings 

automatisieren, so daß die Hauptlast vor allem durch den Rechenzeitbedarf 

bestimmt wird. 

19.4 Kompaktifizierung 

Ein kompakter Parameter hat mehrere Vorteile. Dazu gehören nicht nur 

die leichtere Trainierbarkeit sondern auch Aufwandsaspekte. Weniger 

Parameter können sowohl den zeitlichen als auch räumlichen Aufwand von 

Spracherkenner deutlich senken. Insbesondere im Hinblick darauf, daß in 

naher Zukunft die Spracherkennungstechnologie immer mehr in alltägliche 

kleine Geräte Einzug finden wird, ist es wichtig, auch mit kleinen Ressourcen 

gute Ergebnisse zu erzielen. 

19.4.1 Typen von Kovarianzmatrizen 

Es gibt verschiedene Gründe anzunehmen, daß die Verwendung von normalen 

Kovarianzmatrizen für die Berechnung der HMM Emissionswahrscheinlichkeiten 

mit Mixturen von Normalverteilungen nicht die beste denkbare 

Lösung ist. Die Gründe dafür sind zum einen praktischer Natur. Die Anzahl 

der Parameter einer vollen Kovarianzmatrix für einen d-dimensionalen 

Merkmalsraum beträgt d(d + 1)/2, während die Mittelwertevektoren 

lediglich jeweils d Parameter haben. Dadurch ergibt sich nicht nur ein 

enormer Speicherbedarf, sondern auch das Problem der Trainierbarkeit. 

Viele Parameter benötigen auch viele Trainingsdaten, um ausreichend gut 

geschätzt werden zu können. 

Ein anderer Nachteil voller Kovarianzmatrizen ist der erhöhte Rechenaufwand. 

Die Berechnung einer Normalverteilung mit einer Kovarianzmatrix,

19.4 Kompaktifizierung 337 

bei der nur die Diagonalelemente ungleich Null sind, kann wesentlich 

schneller durchgeführt werden, als wenn alle Matrixelement in die Rechnung 

mit einbezogen werden müssen. 

Ein weiterer Grund, der für die Verwendung diagonaler Kovarianzmatrizen 

spricht, ist die Tatsache, daß viele Dimensionen des Merkmalsraumes in 

der Regel gar nicht nennenswert miteinander korreliert sind, insbesondere 

dann, wenn Vorverarbeitungsmethoden angewendet werden, die als Seiteneffekt 

die Dekorrelation des Merkmalsraumes haben, wie zum Beispiel die 

lineare Diskriminanzanalyse (LDA). 

Schließlich bleibt noch zu erwähnen, daß zu wenige Trainingsdaten 

für volle Kovarianzmatrizen leicht dazu führen können, daß Beinahe- 

Singularitäten entstehen, das heißt, daß die Form der Gaußglocke einer 

Normalverteilung in einer bestimmten Richtung so spitz ist, daß die berechnete 

Wahrscheinlichkeit für Merkmalsvektoren, die in die Mitte der 

Gaußglocke fallen, extrem hoch ausfällt, während weiter entfernt liegenden 

Vektoren eine extrem niedrige Wahrscheinlichkeit zugewiesen wird. Wenn so 

eine beinahe-singuläre Kovarianzmatrix in dem Codebuch eines bestimmten 

Modells vorkommt, und ein Merkmalsvektor eines anderen Modells 

befindet sich ” zufällig“ innerhalb dieser Beinahe-Singularität, so wird ihm 

eine vermutlich wesentlich überhöhte Wahrscheinlichkeit zugewiesen, im 

ungünstigen Fall sogar eine wesentlich höhere als diejenige, die ihm vom 

Codebuch seines eigenen Modells zugewiesen würde. 

Wenn man Viterbi-Pfade analysiert und sich diejenigen genauer ansieht, 

die eine verhältnismäßig kleine Gesamtwahrscheinlichkeit haben, dann 

findet man oft eine Pfadform, wie sie in Abbildung 19.1 dargestellt ist. Der 

durch ausgefüllte Punkte dargestellte Pfad sei der ” korrekte“, bestimmt 

zum Beispiel durch einen besseren Erkenner. Der von einem schlechteren 

Erkenner gefundene Pfad ist durch die nicht ausgefüllten Markierungen 

dargestellt. Der Grund für die Abweichung des schlechten Pfades liegt an 

dem mit dem Quadrat markierten Punkt. Man sieht, daß der Pfad davor 

sehr steil nach oben steigt, das heißt, er überspringt viele HMM Zustände in 

kurzer Zeit, um an dem markierten Punkt anzukommen. Danach bleibt er 

lange Zeit im erreichten Zustand, um schließlich wieder mit dem korrekten 

Pfad zu verschmelzen. In diesem Fall war die lokale Wahrscheinlichkeit des 

quadratisch markierten Punktes so groß, daß dieser unter allen Umständen 

in den Pfad mit aufgenommen werden mußte. Wie Überprüfungen in 

solchen Fällen ergeben haben, ist oft eine Beinahe-Singularität in einer 

Kovarianzmatrix des zugehörigen Modells dafür verantwortlich. 

Bei der Verwendung von diagonalen Kovarianzmatrizen sinkt die Wahrscheinlichkeit 

des Auftretens von Beinahe-Singularitäten für Modelle mit


Abb. 19.1. Ein typischer schlechter Viterbi-Pfad 

wenigen Trainingsdaten, weil alle kleinen Eigenwerte, deren Eigenvektoren 

nicht nahezu parallel zu einer Raumachse liegen, auf alle Achsen verteilt“ 

” 

werden. So ist z.B. die volle Kovarianzmatrix der Menge { 0 1 

0 , 1 } singulär, 

die diagonale aber nicht. 

Aber selbst diagonale Kovarianzmatrizen können mehr Parameter als 

nötig enthalten. Oft ist es möglich, ohne signifikante Leistungseinbußen 

statt voller oder diagonaler Kovarianzmatrizen einfach die Einheitsmatrix 

zu verwenden. Einen Kompromiß zwischen diagonalen Matrizen und der 

Einheitsmatrix stellen radiale Matrizen dar, deren Diagonalelemente alle 

denselben Wert r haben, wobei die Nichtdiagonalelemente alle Null sind. 

Es liegt nun nahe, für verschiedene Codebuchvektoren auch verschiedene 

Kovarianzmatrixtypen zu verwenden. Da eine volle Matrix mehr Parameter 

hat, ist anzunehmen, daß sie – vorausgesetzt, sie kann hinreichend gut 

geschätzt werden – die Daten besser modelliert als eine diagonale. Wenn 

also für einen Codebuchvektor sehr viele Trainingsdaten zur Verfügung 

stehen, dann kann es vorteilhaft sein, für diesen Vektor eine volle Matrix zu 

verwenden. Umgekehrt kann es sinnvoll sein, für einen Vektor, der nur sehr 

wenige Trainingsdaten hat, eine Matrix mit wenigen Parametern, z.B. eine 

radiale Matrix zu verwenden.

19.4.2 Vereinfachung von Kovarianztypen 


Die Verwendung von diagonalen statt vollen bzw. radialen statt diagonalen 

Kovarianzmatrizen führt nicht nur zu einer Verkleinerung des Parameterraumes, 

sondern auch zu einer Beschleunigung der Berechnung der 

Emissionswahrscheinlichkeiten. Die Mahalanobis-Distanz zwischen x und µ 

mit einer vollen Kovarianzmatrix Σ −1 = (1/σi,j) berechnet sich: 

M = (x − µ) T Σ −1 (x − µ) 

d d 

= yi · (yj · 1/σi,j) wobei yi = xi − µi 

i=1 

j=1 

Dabei müssen – vorausgesetzt, die Invertierung von Σ wurde bereits 

berechnet – O(d2 ) Multiplikationen und O(d) Additionen und Subtraktionen 

durchgeführt werden. 

⎛ ⎞ 

Für eine diagonale Kovarianzmatrix Σ−1 = ⎝ 1/σ1 

... 

M = (x − µ) T Σ −1 (x − µ) 

d 

= y 2 i · 1/σi 

i=1 

1/σd 

⎠ ergibt sich: 

Hier müssen nur 2d Multiplikationen und O(d) Additionen und Subtraktionen 

gerechnet werden. 

Bei einer radialen Kovarianzmatrix Σ−1 

1/σ... 

= ergibt sich: 

1/σ 

M = (x − µ) T Σ −1 (x − µ) 

d 

= 1/σ · 

i=1 

y 2 i 

also neben O(d) Additionen und Subtraktionen, nur noch d + 1 Multiplikationen.


Beim Umwandeln von Kovarianzmatrizen eines Typs in einen anderen 

sollte stets darauf geachtet werden, daß die resultierende Determinante 

gleich der ursprünglichen Determinanten ist. 

σ1 

...σd 

Wenn eine diagonale Kovarianzmatrix MD = in eine radiale 

 

σ...σ 

 

MR = umgewandelt wird, dann wird σ definiert als d 

i σi. 

Dann gilt |MD| = |MR|. Veranschaulicht bedeutet das, daß der Ellipsoid, 

der die einfache Kovarianz um den Mittelwert darstellt, umgewandelt wird 

in eine Kugel mit gleichem Volumen. 

19.4.3 Selektive Radialisierung 

Motivation 

Der Begriff Radialisierung bezeichne die Umwandlung von diagonalen Kovarianzmatrizen 

in radiale, entsprechend der obigen Definition. Ausgehend 

davon, daß Fließkommamultiplikationen den größten Teil des Aufwands zur 

Berechnung einer multivariaten Normalverteilung darstellen, lohnt es sich, 

deren Anzahl zu minimieren. Die Multiplikation mit den Diagonalwerten der 

inversen Kovarianzmatrizen stellen auch ca. ein Drittel aller Fließkommaoperationen. 

Das heißt, daß durch Radialisierung im günstigsten Fall eine 

Zeitersparnis von etwa 30% erwartet werden kann. In der Praxis fällt diese 

Zeitersparnis kleiner aus, da die heutigen Rechnerarchitekturen komplizierte 

Fließkommaprozessoren besitzen, die mehrere Operationen gleichzeitig bzw. 

im sogenannten ” Pipeline-Modus“ durchführen können, was bedeutet, daß 

durch Vermeidung von Rechenschritten vor allem eine geringere Auslastung 

der Fließkommaprozessoren, aber nur eine kleine Zeitersparnis erreicht wird. 

Es lohnt sich aber auch aus anderen Gründen, so viele Kovarianzmatrizen 

wie möglich zu radialisieren. Ein Spracherkenner mit 5 000 Codebüchern 

zu je 32 48-dimensionalen Normalverteilungen benötigt für seine insgesamt 

160 000 Mittelwertsvektoren 7.68 Millionen Parameter. Die gleiche Menge 

wird noch einmal für die zugehörigen diagonalen Kovarianzmatrizen 

benötigt. Wenn nun jede Matrix mit einem einzigen statt 48 Parametern 

darstellbar ist, dann reduziert sich der Gesamtparameterraum von 15.36 

Millionen Parametern um 49% auf nur noch 7.84 Millionen. 

Durch die Verwendung von radialen Kovarianzmatrizen geht natürlich 

Information verloren. Dafür kann aber angenommen werden, daß zumindest 

durch die Radialisierung der weniger gut geschätzten Kovarianzmatrizen


die Generalisierungsfähigkeit des Erkenners steigt. Während der Informationsgehalt 

mit der Anzahl der radialisierten Matrizen sinkt, steigt 

die Generalisierungsfähigkeit. Diese beiden auf die Erkennungsleistung 

entgegengesetzt wirkenden Einflüsse könnten bei einer bestimmten Zahl von 

radialisierten Matrizen eine optimale Erkennungsleistung liefern, die sogar 

über der Leistung des unveränderten, nur diagonale Matrizen verwendenden 

Erkenners liegt. 

Auswirkungen der Radialsierung 

Ausgehend von einem Erkenner, dessen Fehlerrate bei 8.8% lag, wurden 

in einem Experiment [?] unterschiedliche Mengen an Kovarianzmatrizen 

radialisiert. Die Abbildung 19.2 zeigt die Fehlerraten für verschiedene 

Kompaktifizierungsgrade. Dabei wurden alle Kovarianzmatrizen der Codebücher 

mit den wenigsten Trainingsdaten radialisiert. Man sieht, daß der 

Fehler durch geeignete Wahl der zu radialisierenden Matrizen von 8.8% 

auf 8.1% reduziert werden kann. Das ist eine relative Fehlerreduktion von 

8%. Eine Radialisierung aller Kovarianzmatrizen führt zu einer moderaten 

Erhöhung der Fehlerrate um etwa 1%, bei gleichzeitiger Nahezu-Halbierung 

des Parameterraumes und einer Einsparung von fast einem Drittel aller 

Fließkommaoperationen zur Berechnung der Emissionswahrscheinlichkeiten. 

Fehlerrate 

9 

8.8 

8.6 

8.4 

8.2 

8 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 

Menge Radialisierter Matrizen 

Abb. 19.2. Fehlerrate nach Radialisierung


19.4.4 Kopplung von Kovarianzparametern 

Neben der Verwendung von Kovarianzmatrizen mit wenigen Parametern 

bietet sich eine weitere Möglichkeit an, Parameter einzusparen, nämlich die 

Kopplung von Kovarianzmatrizen verschiedener Vektoren eines Codebuchs. 

Auf den ersten Blick stellt sich natürlich die Frage, weshalb ein Zusammenhang 

zwischen den Kovarianzen verschiedener Vektoren bestehen soll. In der 

Praxis stellt sich aber heraus, daß es oft gar nicht nötig ist, wirklich für jeden 

Vektor eine eigene Matrix zu verwenden. Dadurch, daß mehrere Vektoren 

sich eine Matrix teilen, wird diese zwar nicht mehr so spezifisch ausfallen, 

ihre Determinante wird wachsen, aber dafür kann sie dann auch zuverlässiger 

geschätzt werden und kann eine bessere Generalisierungsfähigkeit besitzen. 

Im folgenden werden Experimente [?] vorgestellt, bei denen verschiedene 

Grade der Kopplung bis hin zur Nahezuhalbierung aller akustischen Parameter 

ausgewertet wurden. 

Distanzmaß 

Um zu entscheiden, ob eine gemeinsame Modellierung zweier Kovarianzmatrizen 

erfolgversprechend ist, wird ein Distanzmaß benötigt, so daß 

Matrizen, die sehr verschieden sind, seltener und einander sehr ähnliche 

Matrizen öfter zusammengeballt werden. Die hier beschriebenen Ballungsexperimente 

wurden alle mit rein diagonalen Kovarianzmatrizen durchgeführt. 

Als Distanzmaße wurde die einfache euklidische Distanz verwendet. Sie ist 

einfach die euklidische Distanz der als Vektor betrachteten Diagonalelemente. 

Ballung der Kovarianzmatrizen 

Zur Ballung der Kovarianzmatrizen wurde der folgende einfache agglomerative 

Algorithmus verwendet: 

1. bestimme für jedes Codebuch s alle Distanzen D(s, i, j) zwischen den 

Kovarianzmatrizen Σs(i) und Σs(j) 

2. für die n kleinsten Distanzen: 

kopple die zugehörigen Kovarianzmatrizen 

Dabei wurde die Wirkung des Wertes n auf die Erkennungsleistung 

ausgewertet. Da bei der akustischen Modellierung mit Mixturen von multivariaten 

Normalverteilungen der Parameterraum im wesentlichen aus den 

Mittelwertsvektoren und den Kovarianzmatrizen besteht, nehmen diagonale 

Kovarianzmatrizen also etwa die Hälfte der gesamten Parameter ein. Damit 

wird die maximal erreichbare Einsparung an Parametern festgelegt.

Tabelle 19.1. Fehlerraten bei Kovarianzballung 

19.5 Lose gekoppelte Kovarianzen 343 

weniger Matrizen 0 0.625% 1.25% 2.5% 5% 10% 20% 

Fehlerrate 8.8% 8.9% 8.9% 8.9% 9.7% 11.2% 20.2% 

Man sieht aus Tabelle 19.1, daß durch Ballung von Kovarianzmatrizen 

mit euklidischer Distanz keine sinnvolle Kompaktifizierung des Parameterraumes 

möglich ist. Schon ab einer Beseitigung von nur 5% der Matrizen 

stellt sich eine nicht mehr tolerable Steigerung der Fehlerrate ein. An dieser 

Stelle bleibt die Frage offen, ob durch ein anderes Distanzmaß, oder ein 

spezielles Nachtrainieren des reduzierten Systems ein besseres Ergebnis 

erreichbar ist. 

In diesem Kapitel wurde gezeigt, daß es möglich ist, einen bereits 

trainierten Erkenner mit großem Parameterraum so zu verkleinern, daß ca. 

die Hälfte aller Parameter eingespart werden, ohne daß dies zu Lasten der 

Erkennungsleistung geht. 

Weniger erfolgreich verliefen Experimente, die zum Ziel hatten, die 

Anzahl der Referenzvektoren zu reduzieren. Keines der drei untersuchten 

Auswahlkriterien für zu entfernende Vektoren führte zu einer signifikanten 

Verkleinerung des Parameterraumes ohne eine gleichzeitige deutliche 

Erhöhung der Fehlerrate. 

Erfolgreicher war Idee der Radialisierung der Kovarianzmatrizen. Durch 

die Radialisierung bleibt die Determinante und somit das Volumen des durch 

die Kovarianzmatrix beschriebenen Ellipsoiden unverändert. Allerdings 

genügt ein einziger Parameter je Kovarianzmatrix, und die Zeit zur Berechnung 

der HMM-Emissionswahrscheinlichkeiten kann zusätzlich reduziert 

werden. 

19.5 Lose gekoppelte Kovarianzen 

Wie bei allen parametrischen Klassifikatoren, so auch bei Gauß- 

Mischverteilungen, hängt die Qualität der Parameter von der Menge 

der Trainingsdaten ab, mit deren Hilfe sie geschätzt werden. Da für das


Schätzen voller Kovarianzmatrizen in der Regel nicht ausreichend viele 

Trainingsmuster zur Verfügung stehen bietet sich ein Vorgehen an, das in 

der Literatur als semitied covariances bezeichnet wird [?]. Hierbei werden 

für die Gauß-Mischverteilungen diagonale Kovarianzmatrizen Dj verwendet, 

allerdings teilen sich mehrere Gauß-Verteilungen zusätzlich eine gemeinsame 

volle Matrix A, so daß die effektive Kovarianzmatrix ADjA ⊤ ist und 

der Wahrscheinlichkeitswert für die Beobachtung x im Modell j wie folgt 

berechnet wird: 

1 

 

2πd |ADjA⊤ | e−12 

(x − µj) ⊤ (ADjA ⊤ ) −1 (x − µj) 

(19.1) 

Hierbei ist die Kovarianzmatrix σj = ADj, das Produkt einer modellunabhängigen 

vollen Matrix A und einer modellabhängigen Diagonalmatrix 

Dj. Die Berechnung von Gl. 19.1 kann vereinfacht werden: 

1 1 

 

|A| 2 2πd |Dj| e−12 

(x′ − µ ′ j )⊤D −1 

j (x′ − µ ′ j ) 

mit 

(19.2) 

x ′ = A −1 x und µ ′ = A −1 µ (da A = A ⊤ ) (19.3) 

In Gl. 19.2 ist zu erkennen, daß für die Verwendung von semitied covariances 

kein besonderer zusätzlicher Rechenaufwand während der Erkennung 

nötig ist. Die resultierende Gauß-Verteilung ist verwendet weiterhin eine 

diagonale Kovarianzmatrix. Lediglich die Mittelwerte sowie die Vorfaktoren 

der Verteilungen müssen angepaßt werden. Die Multiplikation der Beobachtung 

x kann unter Umständen mit anderen Linearen Operationen in 

der Signalverarbeitung (zum Beispiel LDA, Vokaltraktlängennormierung 

oder ähnliche) kombiniert werden. Es ist nicht möglich, diejenige Matrix 

A, die die Beobachtungswarhscheinlichkeit aller Trainingsdaten optimiert, 

analytisch zu bestimmen. Daher ist wird ein iteratives Verfahren ähnlich 

dem Expectation Maximization Algorithmus verwendet.

20. Erkennung von Spezialvokabular 

Standard Spracherkenner versagen oft, wenn es darauf ankommt Dinge zu 

Erkennen, die in gewöhnlicher vorgelesener Sprache selten vorkommen. Dazu 

gehören zum Beispiel Buchstabierungen, bestimmte Eigennamen oder auch 

besondere Aussprachen. Diese Probleme lassen sich erleichtern, indem spezielle 

Spracherkenner oder Standard Spracherkenner mit speziellen Algorithmen 

verwendet werden, die genau auf dieses außergewöhnliche Vokabular 

spezialisiert sind. Im folgenden wird eine Auswahl von spezialisierten Erkennungsmethoden 

vorgestellt. 

20.1 Buchstabiererkennung 

Auch wenn in der natürlichen Sprache Buchstabierungen eher selten vorkommen 

und ein schlechtes Abschneiden eines Erkenners auf diesen Passagen sich 

auf die Gesamtperformanz eher wenig auswirkt, so gehören diese Fehler zu 

den unangenehmsten, weil der Mensch Buchstabierungen benutzt um entweder 

Eigennamen (Abkürzungen) von Firmen, Ereignissen zu referenzieren, 

oder um die Orthographie eines Wortes exakt zu definieren. Gerade in diesen 

Fällen, in denen es um die korrekte Orthographie geht, ist jeder Fehler ein 

Kardinalfehler. Bei einigen Erkennungsaufgaben sind Buchstabierungen fast 

immer die geeignetste Art der Informationsübermittlung, zum Beispiel beim 

Angeben seiner Adresse oder seines Namens. In Auto-Navigationssystemen 

ist Sprache ohnehin die schon aus Sicherheitsgründen vorzuziehende Bedienungsmethode, 

allerdings ist es relativ schwierig, Straßennamen aus einem 

Katalog von Hunderttausenden zu erkennen. Die Perplexität und die Verwechselbarkeit 

sind so hoch, daß ein Ausweichen auf die Buchstabierung die 

beste Methode darstellt. Gegebenenfalls kann ein Straßenname sogar als Wort 

ausgesprochen werden und zusätzlich buchstabiert werden. Durch dieses Redundanz 

wird die Aufgabe für den Erkenner wesentlich erleichtert. In solchen 

Fällen kann dann ein regulärer Erkenner für kontinuierliche Sprache verschiedene 

Hypothesen für den kontinuierlich gesprochenen Namen produzieren, 

unter denen der korrekte Name oft nicht die höchste Wahrscheinlichkeit hat. 

Ein zweiter Erkenner, der auf Buchstabiersequenzen spezialisiert ist, kann 

die Buchstabierung erkennen und ebenfalls mehrere Hypothesen erzeugen.

346 20. Erkennung von Spezialvokabular 

Eine Kombination der beiden Hypothesenlisten sieht im einfachsten Falle so 

aus, daß durch einfache Multiplikation der Wahrscheinlichkeiten ” gleicher“ 

Namenshypothesen eine gemeinsame Hypothesenliste gebildet wird, in der 

dann mit höherer Wahrscheinlichkeit die korrekte Hypothese die beste ist (s. 

Abb. 20.1). 

Kontinuierlicher 

Erkenner 

Göthestraße 

Gothaer Straße 

Mörikestraße 

Gatterstraße 

Geraer Straße 

Göttersberg 

Krötengraben 

. 

0.19 

0.11 

0.09 

0.07 

0.04 

0.02 

0.01 

Buchstabier- 

Erkenner 

GERAERST... 

GEBERTS... 

GATTERS... 

GOTHAER... 

GOTTLIEB... 

GÖTHEST... 

GABLERS... 

. 

0.22 

0.10 

0.09 

0.08 

0.07 

0.05 

Abb. 20.1. Kombination von n-besten Hypothesen 

Gemeinsame 

n-besten Liste 

Gothaer Straße 0.0099 

Göthestraße 

. 

0.0095 

Geraer Straße 0.0088 

Gatterstraße 0.0063 

Gottliebstraße 0.0006 

Gartenstraße 0.0003 

0.04 Gablerstraße 0.0001 

Schon bei der Erkennung einzelner Buchstaben (z.B. der B-D-G-Task) 

wurde festgestellt, daß einfache Mustervergleicher mittels dynamischen 

Programmierens unter anderem deshalb Probleme haben, weil ein großer 

zeitlicher Teil der akustischen Evidenz eines Buchstaben nicht für die 

Unterscheidung von den anderen hilfreich ist. So sind die zur Unterscheidung 

der Buchstaben B, D und G wichtigen Verschlußlaute, die Phoneme b, d und 

g, nur sehr kurz, während die zur Unterscheidung unwichtigen Endungen, 

das Phonem esehr viel Raum einnimmt und so viel mehr zum Distanzmaß 

beiträgt. 

Wenn solche Eigenschaften des zu erkennenden Vokabulars vorher 

bekannt sind, kann der Erkenner auch daraufhin optimiert werden. Spezielle 

Trainingsmethoden oder Parameterräume können die Erkennungsraten 

deutlich verbessern. 

Eine wichtige Eigenschaft, die für die Erkennung von Buchstabiersequenzen 

erfolgversprechend ist, ist ein diskriminatives Training, wobei sich 

die Verwendung der Systemparameter vermehrt auf die Unterscheidung der 

Buchstaben konzentriert statt auf die möglichst exakte Modellierung jedes 

einzelnen Buchstaben unabhängig von den anderen. Immer wenn es um 

diskriminatives Training geht drängt sich die Idee der künstlichen neuronalen

20.1 Buchstabiererkennung 347 

Netze auf. In den letzten Jahren wurden immer wieder Methoden entwickelt, 

um Standard Modelle, die klassenabhängige Wahrscheinlichkeiten schätzen, 

auf diskriminative Art zu trainieren (Korrectives Training Abs. 13.3.1, 

Maximum Mutual Information Estimation - MMIE Abs. 13.3.1 und andere). 

Bei einem Buchstabiererkenner gibt es im Grunde zwei Vokabulare. Das 

eine besteht aus den ca. 30 Buchstabenbezeichnungen (A bis Z, Umlaute, 

Strich, Scharf-S, etc.), das andere aus den Wörtern, die Buchstabiert werden 

können. Im Prinzip läßt sich ein Erkenner bauen, dessen Vokabular aus nur 

den Buchstaben besteht, der aber ein n-Gramm Sprachmodell verwendet, 

wobei ” Gramm“ in diesem Fall nicht für ” Wort“ sondern für “Buchstabe“ 

steht. Ein solcher Erkenner kann dann beliebige Buchstabensequenzen 

erkennen, bevorzugt aber diejenigen, die wahrscheinlicher sind. Ganz ohne 

Verwendung eines Buchstabensprachmodells wären alle (gleich langen) 

Buchstabenfolgen gleich wahrscheinlich. Der negative Effekt auf die Erkennungsrate 

wäre vergleichbar mit dem Effekt auf einen kontinuierlichen 

Spracherkenner, der kein Sprachmodell verwendet. Beim Buchstabieren stellt 

sich jedoch heraus, daß das zu verwendende Sprachmodell mit wachsendem 

Namensverzeichnis eine sehr große Kontextbreite (n-Gramme mit n >> 2) 

benötigt. Würden nur Bigramme oder Trigramme verwendet, so wäre 

deren Einfluß relativ gering. Eine wesentlich stärkere Einschränkung des 

Suchraums durch das Sprachmodell läßt sich durch Bauen eines minimalen 

Automaten erreichen [?] (s. Abb. 20.2). 

M 

01 

A I 

01 

Start 

I 

Y E 

L L 

N 

S K 

R 

Y 

Ende 

Abb. 20.2. Endlicher Mealy-Automat zum Buchstabieren von Maier, Mayer, Miller 

und Minsky 

Würde man alle zu erkennenden Buchstabiersequenzen als einzelne 

Wörter betrachten, könnte ein Isoliertworterkenner gebaut werden. Bei 

einem sehr großen Vokabular sollte der Zustandsraum kompaktifiziert 

werden, zum Beispiel in Form eines phonetischen Präfix-Baumes oder gleich


als minimierter Automat. 

Wenn die Benutzerschnittstelle so gestaltet ist, daß das System weiß, 

wann der Sprecher Buchstabierfolgen eingibt, kann ein isoliertes System 

mit einem Automaten wie in Abb. 20.2 direkt auf der Aufnahme eingesetzt 

werden. Dies wurde zum Beispiel in [?] für eine vollautomatische Telefonauskunft 

bzw. Telefonvermittlung mir sehr guter Erkennungsleistung gemacht. 

In vielen Anwendungen muß aber damit gerechnet werden, daß neben 

den Buchstabiersequenzen auch fließend gesprochene Wörter oder Phrasen 

auftreten, zum Beispiel: Mein Name ist Maier, M, A, I, E, R, ich wohne in 

” 

...“. Für solche Aufgaben genügt ein reiner Buchstabiererkenner nicht. Dann 

ist die beste Vorgehensweise eine Hintereinanderausführung von Erkennung 

mit einem kontinuierlichen Spracherkenner und einem spezialisierten Buchstabiererkenner 

[?]. Der Standard Spracherkenner erkennt dann im obigen 

Beispiel womöglich Mein Name ist Maier M ah Ihr R ich wohne in ...“. Mit 

” 

Hilfe von Konfidenzmaßen und eines Sprachmodells kann die Wortsequenz 

” M ah Ihr R“ als wahrscheinliche Buchstabierfolge identifiziert und der 

entsprechende Teil aus dem Sprachsignal herausgeschnitten werden, so daß 

der spezialisierte Buchstabiererkenner darauf die korrekte Buchstabenfolge 

erkennen kann. Ein Vergleich des Buchstabierhypothese mit der Hypothese 

des Standarderkenners kann am Ende noch zusätzliche Informationen liefern, 

die zur Entscheidung oder Revidierung, daß es sich um Buchstabieren 

handelt, verwendet werden können. 

20.2 Erkennung beliebiger Namen 

Lange Zeit wurde die Forschung auf dem Gebiet der Erkennung unbekannter 

Wörter vernachlässigt. Dies geschah vor allem deshalb, weil ein Großteil 

der Forschung auf englischer bzw. amerikanisch-englischer Sprache stattfand 

und immer noch stattfindet. Aufgrund der sehr wenigen Flexionen und 

sehr eingeschränkten Möglichkeiten der Komposition von Wörtern im 

Englischen genügen in der Regel wenige hunderttausend Wörter in einem 

Erkennervokabular um weit über 99% des Wörter der allermeisten Dokumente 

abzudecken. Von den nicht abgedeckten Wörtern sind die meisten 

Eigennamen, Abkürzungen oder seltene Symbolfolgen (z.B. Zahlen). 

Weil seit den achtziger Jahren fast ausschließlich die Wortfehlerrate als 

Maß für die Qualität eines Spracherkenners verwendet wurde, und weil dabei 

keine Unterscheidung gemacht wurde, welche Fehler schwerwiegender sind 

oder welche Fehler schwerwiegendere Konsequenzen für die nachgeschalteten 

Systeme wie Verstehen und Übersetzen haben, wurde auch wenig Energie in 

die Erkennung dieser OOV-Wörter investiert. In der Praxis stellt sich aber

20.2 Erkennung beliebiger Namen 349 

heraus, daß gerade das Falscherkennen oder Nichterkennen von Eigennamen 

zwar selten aber dafür umso ärgerlicher ist. Wenn gelegentlich der Kasus 

eines Artikels nicht richtig erkannt wird (dem statt den), so hat das meistens 

keine negativen Konsequenzen, der Satz kann immer noch richtig verstanden 

und übersetzt werden, die Reaktion des Gesamtsystems fällt immer noch zur 

Zufriedenheit des Benutzers aus. Wenn aber ein Eigenname (Person, Ort, 

Firma, Ereignis, etc.) falsch erkannt wird, ist ein korrektes Verstehen meist 

gar nicht möglich. 

Bei der Behandlung von unbekannten Wörtern gibt es zwei wesentliche 

Probleme zu lösen: Zum einen muß der Erkenner detektieren, daß an 

einer bestimmten Stelle ein unbekanntes Wort wahrscheinlich ist, und zum 

anderen muß er dann an dieser Stelle ein Wort hypothetisieren, das nicht in 

seinem Vokabular vorhanden ist. 

Die Detektion des Vorhandenseins eines Wortes außerhalb des Erkennervokabulars 

(OOV-Wort) kann auf unterschiedliche Art geschehen. In der 

Regel wird ein Detektor nicht nur eine binäre Entscheidung treffen, sondern 

eine bestimmte Wahrscheinlichkeit dafür schätzen, daß an einer Stelle der 

Hypothese ein OOV-Wort steht. 

Die naheliegendste Methode für solche Schätzungen ist die direkte Verwendung 

einer OOV-Sprachmodellklasse. Meist werden beim Berechnen von 

Sprachmodellen mit Hilfe großer Textkorpora selten beobachtete Wortfolgen 

als sogenanntes Discounting nicht explizit geschätzt. In vielen Fällen werden 

nicht nur ganze Wortfolgen, sondern sogar selten vorkommende Wörter – 

egal in welchem Kontext – überhaupt nicht modelliert. Wenn diese Wörter 

im Trainingstext für das Sprachmodell durch ein spezielles Wort, z.B. 

” OOV“, ersetzt werden, und nicht in das Vokabular des Erkenners aufgenommen 

werden, dann berechnet das Sprachmodell die Wahrscheinlichkeit, 

daß OOV“ an einer bestimmten Stelle auftritt. Diese Wahrscheinlichkeit 

” 

ist im Grunde schon relativ gut geschätzt, und weitere Informationsquellen 

scheinen nicht nötig zu sein, insbesondere wenn man bedenkt, daß bei vielen 

Erkennungsaufgaben die Wahrscheinlichkeit, ein OOV-Wort zu beobachten, 

sowieso ziemlich klein ist. Weitere Informationsquellen können aus dem akustischen 

Modell kommen. Typischerweise würde man erwarten, daß an einer 

Stelle der Hypothese, an der die Wahrscheinlichkeiten, die das akustische 

Modell für ein Wort liefert, wesentlich höher ist als die Wahrscheinlichkeiten 

für alle anderen Wörter, der Erkenner viel sicherer, d.h. konfidenter, ist als 

an einer Stelle, an der viele verschiedene Wörter eine Wahrscheinlichkeit 

ähnlich der besten Wahrscheinlichkeit haben. An solchen Stellen niedriger 

Konfidenz ist eher anzunehmen, daß ein OOV-Wort vorliegt, als an Stellen 

hoher Konfidenz.


Verschiedene Vorgehensweisen wurden untersucht, um nicht nur neue 

Wörter zu detektieren, sondern auch um eine sinnvolle Hypothese an ihrer 

Stelle auszugeben. In [?] wurde ein generisches Modell Verwendet, das durch 

ein großes HMM modelliert wurde, das alle Phoneme und eine gewisse 

Phonotaktik in Form bestimmter erlaubter Zustandsübergänge enthielt. 

Dieses Neue-Wörter-HMM wurde in der Suche genauso wie alle anderen 

Wörter verwendet und konkurrierte mit diesen. In vielen Fällen wurde 

das Neue-Wörter-HMM in die Hypothese eingebunden, wenn keines der 

Vokabularwörter eine ausreichend hohe Wahrscheinlichkeit hatte. Durch die 

relativ Große Freiheit in der Bildung von Phonemfolgen konnte in solchen 

Fällen die Wahrscheinlichkeit für irgend eine erlaubte Phonemfolge des 

Neue-Wörter-HMMs größer sein als die für jedes Vokabularwort (inklusive 

der entsprechenden Sprachmodellwahrscheinlichkeiten). Als Hypothese kann 

dann die Folge der Zustände durch das HMM angegeben werden, die dann 

zumindest die phonetische Repräsentation des Wortes Enthält, welche von 

einem geeigneten Algorithmus (zum Beispiel mittels HMMs [?]) in eine 

Textuelle Form gebracht werden kann. 

Für Diktiererkenner ist eine Vorgehensweise sinnvoll, wie sie zum Beispiel 

in der HDLA-Techik (s. Abs. 16.7.2) verwendet wird. Dort wird das Lexikon 

nach der ersten Erkennung verändert. Aus einem riesigen Hintergrundlexikon, 

das der Spracherkenner nicht verarbeiten könnte, das aber sehr viele 

Wörter und Eigennamen enthält, werden die erfolgversprechendsten Kandidaten 

anhand der zunächst fehlerhaften Hypothese ausgewählt und in das 

Erkennnervokabular aufgenommen. Ein erneuter zweiter Erkennungsvorgang 

hat dann eine größere Wahrscheinlichkeit, die korrekte Ausgabe zu liefern. 

Bei spontaner Sprache entsteht ein zusätzliches Problem, das bei 

Diktiererkenner weniger wichtig ist, nämlich das häufige Vorkommen von 

Wortfragmenten. Man kann nicht wirklich erwarten, daß ein Hintergrundlexikon 

nicht nur fast alle sinnvollen Wörter enthält und zusätzlich noch 

aller möglicherweise sprechbaren Wortfragmente. Daher wird in [?] ein 

Algorithmus vorgestellt, der einen endlichen Automaten aus einer Liste 

aller im Deutschen regulären Silben (ca. 11 000 Stück) baut, und dieses als 

Neue-Wörter-Modell verwendet. 

In [?] wird vor allem die Problematik der unbekannten Eigennamen 

behandelt, die sich oft nicht an die übliche Phonotaktik halten. Die dort 

verfolgte Idee besteht darin, keine ganzen Wörter durch HMMs mit hohen 

Freiheiten bei der Phonemfolgenwahl zu modellieren, sondern nur Teile 

davon. Die Anfänge der neuen Wörter müssen statt dessen mit einer 

Phonemsequenz aus einer aus den Trainingsdaten gewonnenen Menge 

beginnen. Dadurch werden dem Erkenner weniger Freiheiten gegeben und 

die Wahrscheinlichkeit für das Auftreten so genannter false alarms für

20.2 Erkennung beliebiger Namen 351 

OOV-Wörter an Stellen, an denen gar keine sind, minimiert. 

Je nach Erkennungsaufgabe (Diktieren oder spontaner Dialog), je nach 

Domäne (viele oder wenige Eigennamen) und je nach Vokabulargröße ist 

eine andere Vorgehensweise die sinnvollste. Ganz grob läßt sich sagen: je 

mehr Freiheiten der Sprecher beim Sprechen hat umso mehr sollte auch der 

Erkenner beim Konstruieren der neuen Wörter haben.

21. Robustheit und Adaption 

Lange Zeit waren Spracherkenner nur unter ganz bestimmten eng umrissenen 

Umständen verwendbar. Noch Ende der achtziger Jahre waren 

die Forderungen nach Sprecherabhängigkeit, hochqualitativen Nahbesprechungsmikrophonen, 

und relativ kleinen Vokabularen kaum zu umgehen. 

Die verwendeten Domänen mußten sich mit relativ einfachen Grammatiken 

beschreiben lassen und eine niedrige Perplexität haben. Der verwendete 

Sprachstil mußte dem beim Diktieren sehr nahe kommen. Spontane 

Sprache war nur sehr eingeschränkt einsetzbar. Die Umgebung durfte keine 

Störgeräusche produzieren und mußte möglichst ständig unverändert bleiben. 

Das Abweichen von einer dieser Forderungen führte stets zu einer 

deutlichen Erhöhung der Fehlerrate. So galten die Daumenregeln, daß 

sprecherunabhängige Erkenner doppelt so viele Fehler machen wie sprecherabhängige. 

Erkenner für spontane Sprache machten zwei bis drei mal 

so viele Fehler wie Diktiererkenner. Ähnlich Faktoren waren auch bei den 

anderen Problemen zu beobachten. Auch wenn die einzelnen Problemdimensionen 

nicht ganz orthogonal sind, so gilt dennoch oft, daß die Faktoren 

bei Erkennern, die mehere Probleme gleichzeitig angehen sich tendenziell 

multuplikativ verhalten. 

In diesem Zusammenhangen bezeichnet der Begriff Robustheit, die 

Fähigkeit eines Spracherkenners, nicht nur unter kanonischen Bedingungen 

sondern auch unter veränderten Umständen gut erkennen zu können. Also 

zum Beispiel auch dann, wenn der Sprecher sich ändert, der Sprechstil sich 

wechselt, der Erkenner in einer andere Umgebung wie etwa im fahrenden 

Auto oder auf der Straße eingesetzt wird, oder auch die Domäne und somit 

das Vokabular und die typischen Wortfolgen sich ändern. 

Die Geschichte der Spracherkennung läßt einen deutlichen roten Faden 

erkennen, der das Bestreben nach immer höherer Robustheit beschreibt. 

Tendenziell ist es sogar so, daß wenn ein Problemtyp wie zum Beispiel das 

Diktieren einigermaßen als gelöst erscheint, die Forschergemeinde das nächst 

schwierigere Problem angeht. Obwohl man zugeben muß, daß Diktiersysteme 

noch nicht die Qualität haben, die sie bräuchten, um eine weite Verbreitung

354 21. Robustheit und Adaption 

zu finden, fokussiert sich ein Großteil der Forschung auf wesentlich schwierigere 

Probleme wie das Erkennen spontaner Telefondialoge. Dies illustriert 

die Bedeutung, die der Problematik der Robustheit zugemessen wird. 

Zu den Verfahren, die am meisten zur Verbesserung der Robustheit 

beitragen, gehören verschiedene Methoden der Adaption. Hierbei gibt es 

zahlreiche Verfahren, die auf allen Ebenen eines Spracherkenners, von der 

Signalverarbeitung bis hin zur Nachbearbeitung der Hypothesen, eingesetzt 

werden. Im diesem Kapitel werden einige der wichtigeren vorgestellt. 

21.1 Sprecherabhängigkeit 

Die Fehlerraten für verschiedene Sprecher können mit dem selben Erkenner 

extrem stark variieren. Abb. 21.1 zeigt die Fehlerraten für die Sprecher 4t1 

bis 4tk der DARPA Wall Street Journal Evaluation vom Dezember 1994. Für 

jeden Sprecher sind die Fehlerraten mit allen Erkennern als Kreuze markiert. 

Abgesehen von der Schwankung der Fehlerraten für jeden einzelnen Sprecher 

ist erkennbar, daß die Fehler beim besten Sprecher, 4t3, zwischen ca. 2% und 

8% liegen, während die Fehler für den schwierigsten Sprecher, 4td, zwischen 

ca. 25% und 50% also etwa zehn mal so hoch liegen. 

Es gibt nun verschiedene Möglichkeiten, Erkenner auf einen bestimmten 

Sprecher zu adaptieren. Einige Eigenschaften, die einzelne Sprecher von 

anderen unterscheiden sind relativ leicht zu beschreiben, dazu gehören 

zum Beispiel die typische Sprechgeschwindigkeit, der gesprochene Dialekt 

oder Akzent, das Geschlecht und die damit verbundene Anatomie des 

Artikulationsapparates. Andere Eigenschaften sind wesentlich schwieriger 

zu beschreiben und sind fast nur in den Parametern der Spracherkenner 

wiederzufinden. 

Bereits erfolgreich eingesetzt wurden Verfahren, bei denen verschiedene 

Erkenner für verschiedene Gruppen von Sprechern trainiert wurden. Bei 

der Konstruktion von Multilingualen Erkennern sieh man es als selbstverständlich 

an, daß die erste naheliegende Vorgehensweise das Training 

von Sprachenabhängigen Erkennern ist, und das Training eines sprachenunabhängigen 

Erkenners erst danach folgt. Im grunde könnte man die gleiche 

Argumentation auch für Gruppen von Sprechern gelten lassen. Solange 

ausreichend viele Trainingsdaten für jede Gruppe zur Verfügung stehen, 

kann es sehr wohl von Vorteil sein, mehrere in sich homogene Gruppen 

zu definieren, die jeweils eine kleine Streuung für die HMM-Parameter zur 

Folge haben und so sehr gute ” scharfe“ Modell haben.

50 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

21.1 Sprecherabhängigkeit 355 

+ + + + + 

+ 

+ + + + + 

+ 

+ 

+ + 

+ 

+ + 

+ 

+ 

+ + + + + + + + + 

+ + + + + + 

+ 

+ 

+ 

+ 

+ 

+ + + + + + + 

+ 

+ 

+ 

+ + 

+ 

+ + + + 

+ + 

+ 

+ + + + + + 

+ + + + + 

+ + + 

+ 

+ + 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ + 

+ + + + 

+ 

+ 

+ + 

+ + 

+ 

+ + + + + + + + + + 

+ 

+ 

+ + 

+ 

+ + 

+ 

+ 

+ + 

+ + + + 

+ + 

+ + 

+ 

+ 

+ + 

+ + 

+ + + + 

+ + + + 

+ + + + + 

+ 

+ 

+ + 

+ + 

+ 

+ + + + + 

+ 

+ 

+ + + + 

+ + 

+ + 

+ 

+ 

+ + 

+ 

+ 

+ 

+ 

+ 

+ 

+ + 

+ + + 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ + + + 

+ 

+ + + + 

+ 

+ 

+ + 

+ + 

+ + + 

+ + 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ + 

+ 

+ 

+ 

+ + 

+ 

+ 

+ 

+ 

+ + + + + + 

+ + 

+ 

+ + + + 

+ 

+ 

+ 

+ 

+ + 

+ 

+ + + + 

+ + 

+ 

+ 

+ + + + 

+ 

+ 

+ + 

+ 

+ 

+ + 

+ + + + + + + + 

+ 

+ 

+ 

+ + 

+ 

+ 

+ + 

+ 

+ + 

4t34t94ta4th4tc 4t74t1 4te 4t54tk4t2 4ti 4t44t8 4tj 4tb4tg4t04t64td 

Abb. 21.1. Fehlerraten für verschiedene Sprecher und Erkenner 

Die erste naheliegende Auftrennung der Sprecher in Gruppen ist die 

Auftrennung in Geschlechter. So sind oft zwei getrennte Erkenner, einer für 

Frauen und einer für Männer, die jeweils mit der Hälfte der Trainingsdaten 

trainiert wurden, besser als ein geschlechtsunabhängiger Erkenner, der 

mit allen Daten trainiert wurde; natürlich vorausgesetzt, daß vor dem 

eigentlichen Erkennungsvorgang das Geschlecht des Sprechers bestimmt 

werden kann. 

Die Bestimmung des Geschlechts kann zumindest in den meisten Sprachen 

nicht mit Hilfe linguistischer oder phonetischer Mittel, wie sie zum Beispiel 

für die Bestimmung der Sprache oder des Dialekts verwendet werden, 

durchgeführt werden. In vielen Sprachen gibt es zwar geschlechtsabhängige 

Partizipien oder es wäre möglich, bei selbstbezüglichen Adjektiven deren 

Genus zu bestimmen, allerdings kann man sich kaum darauf verlassen, daß 

solche Selbstbezüglichkeiten, in denen die Sprecherin oder der Sprecher über 

sich selbst reden, auch tatsächlich in der Sprache vorkommen. Im Japanischen 

unterscheidet sich auch das typische Vokabular und die typischen 

verwendeten Wortfolgen zwischen der Sprache von Männern und der von 

Frauen. Allerdings hilft auch dies nur bei sehr langen spontan gesprochenen 

Passagen. Viel schneller und einfacher kann man das Geschlecht in allen 

Sprachen mit recht hoher Genauigkeit bestimmen, indem man zwei Merkma- 

+


le betrachtet: Ohne weiteres Wissen, gibt allein die Grundfrequenz F0 der 

Stimme einen wertvollen Hinweis. Männer sprechen in der Regel mit tieferer 

Stimme als Frauen. Das andere Kriterium kann man aus den Gesamtbeobachtungswahrscheinlichkeiten 

der beiden geschlechtsspezifischen Erkennern 

gewinnen. Unter der Voraussetzung, daß beide Erkenner die gleiche Struktur 

des Parameterraumes haben, so daß sich deren HMM-Emissions- und Übergangswahrscheinlichkeiten 

vergleichen lassen, und unter der Voraussetzung, 

daß beide das gleiche Sprachmodell verwenden, kann man P(X|λ männlich 

mit P(X|λ weiblich vergleichen und sich für das Geschlecht mit größerer 

Wahrscheinlichkeit entscheiden. Gegebenenfalls kann man noch, falls bekannt, 

die a priori Wahrscheinlichkeiten für die Geschlechter mit einbeziehen 

und mit Hilfe der Bayes-Regel sogar die a posteriori Wahrscheinlichkeiten 

P(Geschlecht|X) bestimmen. Es mag zwar sein, daß diese Methode nicht 

immer zum richtigen Ergebnis führt. In der Praxis stellt sich aber heraus, 

daß selbst dann, wenn die Geschlechtsklassifikation einen Fehler macht, 

der dann ” falsche“ Erkenner trotzdem die besseren Erkennungsergebnisse 

produziert, weil die Ursache für die Fehlklassifikation daher kommt, daß sich 

die Stimme der Sprecherin wie die eines eher typischen Mannes oder die 

Stimme des Sprechers wie die einer Frau anhören. 

21.2 Spontane Effekte 

Oft werden als die vier wichtigsten Qualitätseigenschaften von Spracherkennern 

beziehungsweise Spracherkennungsaufgaben genannt: die 

Sprecher(un)abhängigkeit, die Komplexität des Vokabulars, die Qualität 

des Signals und die Spontaneität der Sprache. Sie spannen sozusagen einen 

vierdimensionalen Raum auf, in dem sprecherabhängige Erkennung eines 

kleinen diktierten, also sorgfältig gesprochenen Vokabulars über einen 

ungestörten Kanal in der “leichtesten“ Ecke liegt, und sprecherunabhängige 

Erkennung spontaner Mensch-Mensch-Dialoge mit sehr großen Vokabularen 

und störungsbehafteten Übertragungskanälen in der ” schwersten“ Ecke liegt. 

Die Dimension der Sprecher(un)abhängigkeit verliert in der Forschung immer 

mehr an Bedeutung. Es wird kaum noch an sprecherabhängigen Systemen 

geforscht. Sprecherunabhängigkeit und Adaption sind hier die Mittel der 

Wahl. Kleine Vokabulare findet man nur noch für Spezialaufgaben, und 

die Größen typischer Vokabulare stellen weniger den Spracherkenner selbst 

von Schwierigkeiten, sondern vielmehr die Entwickler von Sprachmodellen. 

Die Problematik der Signalqualität wird in der Regel durch besondere 

Signal- und Modelladaptionsverfahren angegangen, und für viele bekannte 

Störungen (zum Beispiel Automobilgeräusche [?]) existieren auch relativ 

gute Lösungen. Die Dimension, die somit als die vermutlich schwierigste 

bezeichnet werden kann, ist die Spontaneität. Teilweise ist es sogar so, daß

21.3 Geräuschmodellierung 357 

ein Erkenner, der auf Spontaner Telefonsprache trainiert wurde, bessere 

Ergebnisse auf spontaner Sprache liefert, die über ein hochqualitatives 

Nahbesprechungsmikrophon aufgenommen wurde, als ein sehr guter Diktiererkenner 

für Nahbesprechungsmikrophone. Mit anderen Worten, die 

Änderung des Übertragungskanals wirkt sich weniger schädlich aus als die 

Änderung des Spontaneitätsgrades. Im folgenden werde einige Aspekte der 

Handhabung spontaner Sprache erläutert. 

Diktierte Sprache zeichnet sich nicht nur dadurch aus, daß die Artikulation 

der Worte sauberer ist, sondern auch dadurch, daß die Äußerung 

zuvor geplant werden kann. Je nach Anwendung ist es auch möglich, diese 

bei Auftreten irgendwelcher Probleme, zu wiederholen, so daß der Erkenner 

in der Regel eine saubere, fehlerfreie und Störgeräuschfreie Aufnahme bekommt. 

Bei spontaner Sprache entfällt diese Planung. Bei einigen Aufgaben 

sind sich die Sprecher nicht einmal bewußt, daß die Sprache aufgezeichnet 

wird und für die Erkennung verwendet wird. Solche Sprache enthält sehr oft 

Störgeräusche, so daß diese zu den spontanen Effekten zu rechnen sind. 

Andere spontane Effekte sind die Varianz der Sprechgeschwindigkeit, das 

ungrammatikalische Sprechen und die unsaubere Artikulation, die bis zum 

Falschaussprechen und Weglassen ganzer Lautfolgen geht. 

21.3 Geräuschmodellierung 

Sogar diktierte Sprache, aber vor allem spontane Sprache, insbesondere 

Dialoge zwischen Menschen enthalten viele Abschnitte, die in der Regel in 

keinem Wörterbuch zu finden sind. Dazu gehören emphatische Pausen wie 

” äh“, ” ähm“, hm“ und so weiter, nichtsprachliche Laute wie Husten, La- 

” 

chen, Räuspern, unbeabsichtigte Geräusche mit der Zunge oder den Lippen, 

und vor allem Atemgeräusche. Gerade wenn es sich beim verwendeten Mikrophon 

um ein Nahbesprechungsmikrophon handelt, kann es leicht passieren, 

daß der Zug der Atemluft deutliche Artefakte ins Sprachsignal einbringt. 

Neben diesen durch den Artikulationsapparat erzeugten Geräuschen treten 

auch nichtartikulatorische Geräusche auf. Oft wird sogar das eigentliche 

Sprachsignal durch solche Geräusche überlagert. Dazu gehören Geräusche, 

die durch Bewegungen von Personen oder Gegenständen entstehen, die sich 

im Raum, in dem die Sprachaufnahme stattfindet, befinden. 

Artikulatorische Geräusche sind meist viel stärker mit der sie umgebenden 

Sprache korreliert als nichtartikulatorische. Emphatische Pausen 

werden an verschiedenen Stellen mit unterschiedlicher Wahrscheinlichkeit 

gemacht. Einige Wortsequenzen werden oft wie ein einzelnes Wort betrach-


tet, und werden kaum von Pausen unterbrochen, während an Stellen in einer 

Äußerung, an denen ein Gedankensprung stattfindet, die Wahrscheinlichkeit 

von Pausen jeder Art deutlich größer ist. Nichtartikulatorische Geräusche 

sind viel schwieriger zu handhaben, nicht nur weil sie mit der eigentlichen 

Sprache kaum korreliert sind, sondern auch weil sie eine viel größere Varianz 

haben. So ist es z.B. nicht leicht, ein Telefonklingeln als solches zu erkennen, 

weil heutzutage viele verschiedene Klingelgeräusche verwendet werden. Das 

Zuschlagen von Türen, das Klappern von Tastaturen oder das Quietschen 

von Bürostühlen, die selbst Menschen oft nicht klassifizieren können, 

verschärfen das Problem noch. 

Akustische Geräuschmodellierung 

Vor einer expliziten Modellierung von Geräuschen ist es sinnvoll, zu analysieren 

welche Arten von Geräuschen vorkommen. In [?] werden die Geräusche 

auf einer spontansprachlichen Datenbank [?] mit transkribierten Geräuschen 

untersucht. Die artikulatorischen Geräusche verteilen sich wie in Tab. 21.1. 

Geräusch Anteil Durchschnittlich Anzahl 

pro Äußerung 

Füllwörter (ah, eh, oh, mh, etc.) 30% 1.5 

Atemgeräusche 47% 2.4 

Lachen 1% 0.6 

Lippen- und Schmatzgeräusche 20% 1.0 

Sonstige 2% 0.7 

Tabelle 21.1. Vorkommen von Geräuschen in spontaner Sprache 

Man sieht, daß im Schnitt über fünf artikulatorische Geräusch pro 

Äußerung vorkommen. Hinzu kommen noch die schwerer in Kategorien 

zusammenfaßbaren nicht-artikulatorischen Geräusche, von denen die häufigsten 

Tastaturgeklapper, Papier-Rascheln und Mikrophongeräusche (Reiben, 

Bewegen, Anstoßen) sind. Die nichtartikulatorischen Geräusche machen ca. 

1/5 aller Geräusche aus. 

In [?] werden ca. 40 verschiedene Geräuscharten untersucht und gezeigt, 

daß die beste Art der Geräuschmodellierung die Zusammenlegung aller

21.4 Adaptionsziele 359 

Geräusche in fünf oder sechs Klassen ist. Die Klassen können mit Hilfe eines 

agglomerativen Ballungsverfahrens gefunden werden. In [?] konnten auf 

ähnliche Weise mit 14 Geräuschklassen dramatische Verbesserungen der Fehlerrate 

erreicht werden, ca. 50% weniger Fehler insgesamt, und immer noch 

über ca. 10% weniger Fehler selbst auf sauberen Aufnahmen ohne Geräusche. 

Einbindung von Geräuschen ins Sprachmodell 

Es gibt zwei Paradigmen, die beim Modellieren von geräuschbehafteten 

Wortfolgen beachtet werden sollten. Einmal die Behandlung von Geräuschen 

wie gewöhnliche Wörter. Unter der Annahme, daß manche Geräusch 

bevorzugt an bestimmten Stellen in der Sprache auftreten, sollten sie 

bei der Berechnung der n-Gramme wie alle andere Wörter behandelt 

werden. Dies gilt insbesondere für Atemgeräusche, Lippenschmatzen und die 

meisten Füllwörter. Andere Geräusche, insbesondere nichtartikulatorische, 

können schwer vorhergesagt werden. Für diese sollte das Paradigma der 

Transparenz aus der Sicht des Sprachmodells verfolgt werden. Das heißt, 

sie sollten nicht wir gewöhnliche Wörter bei der Berechnung der n-Gramme 

verwendet, sondern an dieser Stelle zunächst ignoriert werden. Später, 

während der Erkennung sollten sie allerdings vom Sprachmodell nicht für 

” unmöglich“ gehalten werden, sondern “durchgereicht“ werden, so daß 

P(wn|w1, w2, . . . wi, wGeräusch , wi+1 . . . wn−1) genauso berechnet wird wie 

P(wn|w1, w2, . . . wi, wi+1 . . . wn−1). 

21.4 Adaptionsziele 

Die Adaption eines Spracherkenners an aktuelle Gegebenheiten kann verschiedene 

Ziele verfolgen. Entweder werden die Parameter des Erkenners and 

die Gegebenheiten oder das aufgezeichnete Signal wird an die Parameter des 

Erkenners angepaßt. Der erste Fall wird Modelladaption genannt, der zweite 

Signaladaption (s. Abb. 21.2. 

In beiden Fällen wird davon ausgegangen, daß die Trainingsdaten eine 

Art kanonischer Daten sind, die entweder durch Normierung oder durch 

Mittelung der Trainingsdaten den Durchschnitt aller Gegebenheiten (Sprecher, 

Kanal, Hintergrund) darstellen. Mit diesen Daten wird das kanonische 

Modell geschätzt, das direkt für die nichtadaptierte Erkennung verwendet 

wird. 

Wenn festgestellt wird, daß die Testdaten nicht dem Mittel der Trainingsdaten 

entsprechen, kann im Falle der Signaladaption eine Transformation


Trainings- 

daten 

Training 

Test Modelladaption 

Signaladaption 

Test- 

daten 

Signaltransformation 

Parameterschätzung 

Modell 

Erkennung 

transformiertes 

Signal 

Parametertransformation 

transformiertes 

Modell 

Hypothese 

Abb. 21.2. Verschiedene Ziele für die Adaption: Signal oder Modelle) 

berechnet und auf den Testdaten angewendet werden, so daß das Transformierte 

Signal besser auf das Modell paßt. Der Begriff ” passen“ kann in 

diesem Zusammenhang verschiedenes bedeuten. In den meisten Fällen ist 

damit gemeint, daß die Beobachtungswahrscheinlichkeit der Testdaten bei 

gegebenem Modell möglichst groß ist (Maximum Likelihood). 

Im Falle der Modelladaption, werden die Parameter des Erkenners so 

transformiert, daß sie auf das aktuelle Signal möglichst gut passen. Im 

Prinzip ist es auch möglich und oft sogar sinnvoll, beide Adaptionsziele 

gleichzeitig zu verfolgen. Wenn mit Hilfe der Signaladaption auch schon 

während des Trainings eine Normierung der Daten erzielt wird, dann kann 

auf diese Art die Streuung der Parameter oder auch deren Anzahl verkleinert 

werden und das ganze Modell robuster geschätzt werden. 

Die Transformation kann – und tut es in vielen Fällen auch – aus 

mehreren einzelnen Transformationen bestehen, die jeweils für einen Teil 

des Merkmalsraums oder einen Teil der Modelle gilt. Im Extremfall könnte 

jeder Parameter eine eigene Transformation haben. Wenn dafür ausreichend 

Adaptionsdaten zur Verfügung stünden, könnten allerdings die Parameter 

selbst damit trainiert werden. 

Gl. 21.1 zeigt, wie sich eine mögliche Signaladaption fS j (x) auf die 

Berechnung der Emissionswahrscheinlichkeiten mit Gauß-Mischverteilungen

auswirkt. In Gl. 21.2 wird eine Transformation fM j 

vektoren der Gauß-Verteilungen angewandt. 

K 

k=1 

K 

k=1 

cik · 

cik · 

21.5 Adaptionsmethoden 361 

(µ) auf die Mittelwerts- 

1 

· e−12 

2πd |Σik| (fS j (x) − µik) ⊤ Σ −1 

ik (fS j (x) − µik) 

1 

· e−12 

2πd |Σik| (x − fM j (µik)) ⊤ Σ −1 

ik (x − fM j (µik)) 

(21.1) 

(21.2) 

Der Index jdeutet darauf hin, daß verschiedene Transformationen zur 

Verfügung stehen, so daß vor der Anwendung, j in Abhängigkeit vom Signal 

x, dem Modell i oder beiden bestimmt werden muß. 

21.5 Adaptionsmethoden 

Die Frage, die bei der Definition der Adaptionsziele offen gelassen wurde, ist 

die Frage nach der Bedeutung von ” Signal und Modell passen zusammen“. 

Die Frage, wie gut modelliert ein Modell das vorliegende Signal, wird in 

der Regel mit der Beobachtungswahrscheinlichkeit des Signals beantwortet. 

Auch wenn wir am liebsten als Optimierungskriterium die Wortfehlerrate 

verwenden würden, so gibt es keine analytischen Methoden, die Transformationen 

nach Gl. 21.1 oder 21.2 so berechnen, daß die resultierende 

Wortfehlerrate minimal wird. Wesentlich einfacher ist es mit Hilfe von 

Maximum-Likelihood Methoden die Beobachtungswahrscheinlichkeit zu 

optimieren. Für Gauß-Mischverteilungen bedeutet so eine Optimierung 

meisten das Lösen eines zwar hochdimensionalen aber ansonsten nicht weiter 

problematischen Gleichungssystems. 

Während die Maximum-Likelihood Methode (ML) die Signalwahrscheinlichkeit 

p(x|λ) zu optimieren versucht, ist das Ziel der Maximum-A-Posteriori 

Methode (MAP) die Optimierung der Parameterwahrscheinlichkeit p(λ|x), 

also die Frage welches sind denn die wahrscheinlichsten Parameter bei gegebenem 

Signal. Zusammengefaßt: 

ˆλ ML = argmaxp(X|λ) 

(21.3) 

λ 

ˆλ MAP = argmaxp(λ|X) 

(21.4) 

λ


Einen großen Unterschied macht die Existenz von transkribierten gegenüber 

nicht transkribierten Adaptionsdaten aus. Wenn bekannt ist, was 

der Sprecher des Signals, das zur Adaption verwendet wird, gesprochen 

hat, handelt es sich um eine überwachte Adaption. Im anderen Fall um 

eine unüberwachte. Beide Varianten haben ihre Existenzberechtigung. 

Der typische Einsatz überwachter Adaption sie so aus, daß der Sprecher 

aufgefordert wird einige wenige Sätze zu sprechen (vorzulesen), die dem 

System bekannt sind. Auf diesen Sätzen kann nun mit Hilfe eines Viterbioder 

Forward-Backward-Algorithmus eine relativ genaue Zuordnung von 

Einzelbeobachtungen zu Einzelmodellen gemacht werden. Das ist die Grundlage 

für eine gute Schätzung der Adaptionstransformationen. Unüberwachte 

Adaption ist immer dort interessant, wo es dem Sprecher nicht zugemutet 

werden kann, vor der eigentlichen Problemlösung durch Spracheingabe 

erst einige Adaptionssätze zu sprechen, zum Beispiel bei Bedienen eines 

Fahrkartenautomaten am Bahnhof, oder bei der Fahrplanauskunft über 

Telefon. In diesen Fällen dient in der Regel die Hypothese des Erkenners als 

(suboptimaler) Ersatz für die nicht vorhandene Transkription. Vorausgesetzt 

der Erkenner macht wesentlich mehr richtig als falsch kann ähnlich wie 

beim Trainieren ohne Transkriptionen (vgl. Abs. 13.3.2) mit Hilfe eines 

Konfidenzmaßes entschieden werden, welche Teile des Signals mit welchem 

Gewicht ins Training eingehen sollen. 

Im folgenden werden einige typische Transformationen und ihre Anwendung 

zur Adaption vorgestellt. 

21.5.1 MLLR 

Die Maximum-Likelihood lineare Regression ist eine Adaptionsmethode [?], 

die sich sowohl für den überwachten als auch unüberwachten Fall einsetzen 

läßt. Hierbei bedeutet ” unüberwacht“ nicht, daß die Zuordnung von Mustern 

zu Modellen vom MLLR-Algorithmus automatisch durchgeführt wird. Diese 

Zuordnung wird dem Algorithmus selbst in jedem Fall von außen vorgegeben, 

allerdings meist nicht in Form von Transkriptionen ( ” überwacht“) sondern 

in Form von (fehlerhaften) Erkennerhypothesen ( ” unüberwacht“). Eine 

vollständig adaptierte Gauß-Mischverteilung ist in Gl. 21.5 gegeben: 

pj(x|i) = 

K 

k=1 

cik · 

1 

· e−1 2 

2πd |Σik| (x−Ajµik−bj) ⊤ (SjΣik) −1 (x−Ajµik−bj) 

(21.5) 

Hierbei wird der k-te Mittelwert µik der i-ten Mischverteilung ersetzt 

durch den transformierten Wert Ajµik − bj. Der Index j ist im Grunde


eine Funktion von i und k. Im einfachsten Fall gibt es nur eine einzige 

Transformation für alle Mittelwerte, im komplexesten Fall hat jede Gauß- 

Verteilung eine eigene Transformation (welche aber entweder bei wenig 

Adaptionsdaten nicht ausreichend gut geschätzt werden können, oder sehr 

vielen Adaptionsdaten, die schlechtere Variante im Vergleich mit einem 

EM-Training wären). Der Maximum-Likelihood Aspekt kommt von der Art, 

wie die Transformation gefunden wird: 

(Âj, ˆSj, ˆbj) = argmax pj(x|i) (21.6) 

(Aj,Sj,bj) 

Zwar könnte Aj eine beliebige Matrix sein, allerdings laßt sich die 

Maximum-Likelihood Optimierung am besten für Rotationsmatrizen 

durchführen. Im übrigen kann es sinnvoll sein, bei besonders wenigen 

Trainingsdaten, für Aj und Sj einfach Einheitsmatrizen zu verwenden, und 

die resultierende Transformation als eine einfache Translation der Mittelwertsvektoren 

zu implementieren. Tatsächlich stellt sich heraus, daß eine 

Transformation der Sj der Kovarianzmatrizen einen wesentlich geringeren 

positiven Effekt auf die Adaption hat als die Transformation der Mittelwerte 

[?]. 

21.5.2 Label-Boosting 

Der zentrale Algorithmus beim Trainieren von Hidden Markov Modellen ist 

die Berechnung der γt(i) = P(qt = i|X, λ), also der Wahrscheinlichkeit dafür, 

daß der stochastische Sprachprozeß sich zum Zeitpunkt t bei gegebener 

Beobachtung X und HMM λ im Zustand si befindet (Gl. 12.16). Die Werte 

γt(i) werden nach der reinen Theorie mit Hilfe des Forward-Backward 

Algorithmus berechnet. Wie in Abs. 13.1.2 gezeigt, wird in der Praxis aber 

meist statt dessen der Viterbi-Algorithmus verwendet, beziehungsweise im 

voraus berechnete und abgespeicherte Viterbi-Pfade. Selbstverständlich ist 

die Qualität der Viterbi-Pfade von größter Bedeutung. Unexakt positionierte 

Zustandsübergänge führen dazu, daß die Modelle (Gauß-Mischverteilungen) 

mit ” falschen“ Trainingsdaten trainiert werden. 

Von Viterbi-Pfaden, die mit einem Sprecherunabhängigen Erkenner 

berechnet werden, kann man erwarten, daß sie nicht so gut sind wie Pfade, 

die mit einem auf den Sprecher spezialisierten Erkenner erzeugt wurden. 

Daher bietet sich ein Vorgehen an, das unter dem Namen ” Label-Boosting“ 

bekannt ist (s. Abb. 21.3. Dabei werden iterativ neue HMM-Parameter St 

berechnet, wobei allerdings die Berechnung der γt(i) nicht mit sprecherunabhängigen 

HMM-Parametern sondern mit durch MLLR adaptierten


Parameter durchgeführt wird. 

sprecherunabhängiger 

Erkenner 

Sprecher 1 

Viterbi- 

Pfad 

Sprecher 2 

Viterbi- 

Pfad 

St . 

Sprecher n 

Viterbi- 

Pfad 

Abb. 21.3. Label-Boosting Verfahren 

MLLR1 

MLLR2 

MLLRn 

Viterbi- 

Pfad 

Viterbi- 

Pfad 

Viterbi- 

Pfad 

sprecherunabhängiger 

Erkenner 

St+1 

In jeder Iteration werden zunächst für jeden Sprecher j Pfade (Labels) 

dieses Sprechers aus der letzten Iteration verwendet um mit ihrer Hilfe 

die MLLRj Transformation auf den Sprecher j zu berechnen. Mit den so 

transformierten HMM-Parametern werden dann neue bessere Viterbi-Pfade 

berechnet. Erst die neuen Pfade beziehungsweise die daraus resultierenden 

γt(i) werden dann von Baum-Welch Trainingsalgorithmus zur Schätzung der 

neuen Parameter St+1 verwendet. 

21.5.3 SAT 

Während beim Label-Boosting für jeden Sprecher zwar eine eigene MLLR- 

Transformation berechnet wird, so findet dennoch keine Normierung in 

dem Sinne statt, daß versucht würde die Variationen zwischen den Sprechern 

auszugleichen. Dies ist Ziel des so genannten sprecheradaptiven 

Trainings (SAT). Dabei werden alle HMM-Parameter mit einer für alle 

Sprecher oder Sprechergruppen gemeinsamen Transformation adaptiert. 

Ähnlich wie beim Label-Boosting werden auch beim SAT sprecherabhängige 

MLLR-Transformationen basierend auf sprecherabhängigem EM-Training 

und mit vom Sprecher j abhängigen HMM-Parametern λ (j) 

i berechnet. 

In einem Synchronisierungsschritt wird aber aus allen sprecherabhängigen 

MLLR-Transformationen eine globale Transformation berechnet, die dann


auf die HMM-Parameter angewandt wird und in den sprecherunabhängigen 

Werten λi resultiert. Sowohl die neuen λi als auch die sprecherabhängigen 

Gewichte G (j) 

i werden in die nächste Iteration propagiert und dort als neue 

Ausgangsbasis verwendet. 

G (1) 

i−1 

λi−1 

G (n) 

i−1 

Adaption 

. 

. 

Adaption 

λ (1) 

i−1 

λ (n) 

i−1 

EM 

Training 

. 

. 

EM 

Training 

λ (1) 

i 

λ (n) 

i 

Abb. 21.4. Sprecheradaptives Training (SAT) 

21.5.4 MAP 

Berechne 

MLLR 

Berechne 

MLLR 

G (1) 

i 

G (n) 

i 

sync. 

Sei λ das Modell (Parametervektor), das durch die Beobachtung X adaptiert 

werden soll, mit der Beobachtungswahrscheinlichkeit p(X|λ). Wenden wir die 

Bayes-Regel auf Gl. 21.4 an, so erhalten wir: 

ˆλ = argmaxp(X|λ) 

· p(λ) (21.7) 

λ 

p(X|λ) läßt sich leicht berechnen. Es fehlen allerdings die p(λ). Diese 

müssen vor der Adaption auf dem Parameterraum geschätzt werden. Man 

sieht, daß sich die MAP-Adaption von der Maximum-Likelihood Adaption 

nur in diesem einen Faktor. Er sorgt dafür, daß eine kleine Menge an 

Adaptionsdaten nicht das gesamte Modell verändert. Die MAP-Adaption 

ändert somit nur diejenigen Parameter signifikant, für die es ausreichen 

Adaptionsdaten gibt. 

λi


21.5.5 VTLN 

Abb. 21.5 zeigt die idealisierte Vorstellung der Auswirkung unterschiedlich 

langer Vokaltrakte auf das durchschnittliche Spektrum eines Sprechers. 

Die fett gezeichnete Kurve in der Mitte stellt das Langzeitspektrum eines 

Sprechers mit durchschnittlich langem Vokaltrakt. Bei der linken Kurve, 

die in etwa die gleich Form hat wie die durchschnittliche, kommen eher 

niedrigere Frequenzen vor, so als sei die durchschnittliche Kurve nach links 

verschoben. Dies ist bei Sprechern mit langem Vokaltrakt zu erwarten, da 

lange Vokaltrakte längere Wellenlängen also niedrigere Frequenzen weniger 

dämpfen. Bei Personen mit relativ kurzem Vokaltrakt ist zu erwarten, daß 

vermehrt hohe Frequenzen vorkommen, daß also tendenziell das durchschnittliche 

Spektrum nach rechts verschoben ist. 

langer 

Vokal- 

trakt 

durchschnittliches 

Spektrum 

Abb. 21.5. Spektren für verschiedene Vokaltraktlängen 

kurzer 

Vokaltrakt 

Frequenz 

In der Praxis sehen die Durchschnittsspektren natürlich nicht so idealisiert 

aus wie in Abb. 21.5. Schließlich bestimmt nicht nur die Vokaltraktlänge 

sondern auch die von den Stimmbändern erzeugte Grundfrequenz die Anteile 

der verschiedenen Frequenzen am Spektrum. 

Eine Möglichkeit der Vokaltraktlängenadaption besteht darin, das 

Sprachsignal so zu transformieren, daß es dem eines Sprechers mit durchschnittlichem 

Vokaltrakt möglichst nahe kommt. Es handelt sich dabei 

also um eine Normierung und um eine Signaladaption (vgl. Gl. 21.1). 

Diese Normierung wird oft auch als Vokaltraktlängennormierung (VTLN) 

bezeichnet. Die beliebteste Art der VTLN ist die Neudefinition der Zusammenfassung 

der Fourierkoeffizienten zu Filterbänken. Sei B0(f) der 

Index des Filterbankkoeffizienten, der unter anderen den Energieanteil der 

Frequenz f aufnimmt. Betrachten wir einen Laut, bei dem der Durchschnitt 

der Frequenzen mit höchster Energie über alle Sprecher bei f0 liegt. 

Spricht nun ein Sprecher diesen Laut so, daß der größte Energieanteil bei 

der Frequenz f1 vorkommt, dann ist die Idee jetzt, eine Filterbankfunk-


tion B1(f) zu verwenden, bei der die Frequenz f1 auf B0(f0) abgebildet wird. 

Nun lassen sich Filterbankfunktionen prinzipiell beliebig kompliziert 

gestaltet. In der Praxis genügt es aber für die VTLN eine einfache Transformation 

v zu definieren, die aus zwei linearen Abbildungen zusammengesetzt, 

so daß B0(v(f1)) ≈ B0(f0): 

 

f · a für f ≤ q 

v(f) = 1 − p p − q 

f · 

1 − q 

+ 

1 − q 

für f ≥ q 

(21.8) 

Abb. 21.6 zeigt, wie die Funktion v(f) und der dazugehörende Effekt 

auf die Filterbankberechnung aussieht. Wenn der Vokaltrakt des Sprechers 

überdurchschnittlich lang ist (l > 1) dann wird für p ein Wert größer q 

gewählt, so daß v lang , die obere der dargestellten Kurven, verwendet wird. 

Für die Filterbänke bedeutet das, daß den oberen Frequenzen stärker zusammengestaucht 

werden und somit mehr Spektralkoeffizienten auf denselben 

Filterbankkoeffizienten abgebildet werden. Und die unteren Frequenzen 

werden gedehnt, so daß weniger Information aus diesen Bereichen, in denen 

der Sprecher bevorzugt spricht, in den Filterbankkoeffizienten erhalten 

bleiben. Für unterdurchschnittlich kurze Vokaltrakte (l < 1) ergibt sich das 

entsprechende gegenteilige Bild. 

1.0 

v(f) 

v lang 

l > 1 

l = 1 

vkurz l < 1 

q 1.0 

Abb. 21.6. Einfache VTLN-Filterbanktransformation 

p 

f 

l > 1 l < 1 

p 

Filterbänke Filterbänke 

für l > 1 für l < 1 

Bleibt noch die Frage zu klären, wie geeignete Werte für q und p gefunden 

werden. In der Praxis hat sich gezeigt, daß durch einer Verkomplizierung 

der Funktion v kaum Gewinne für die Erkennungsgenauigkeit erzielt werden 

können. So spielt es auch nur eine kleine Rolle, welcher Wert für q gewählt


wird. Aus empirischen Experimenten hat sich ergeben, daß mit q = 0.8 eine 

ausreichend gute Ausgangslage besteht, und dafür ein ” passender“ Wert für 

p gesucht wird. Möglich wäre es, p so zu bestimmen, daß die Abweichung 

des durchschnittlichen Sprecherspektrums vom Durchschnittsspektrum aller 

Sprecher minimal wird. Bessere Ergebnisse liefert allerdings die Bestimmung 

von p mit einer Maximum Likelihood Methode. Dabei wird für verschiedene 

Werte von p (typischerweise 0.9q, 0.92q, . . .1.08q, 1.10q) mit dem Forwardoder 

dem Viterbi-Algorithmus die Beobachtungswahrscheinlichkeit der zum 

Adaptieren verfügbaren Äußerungen gemessen, und schließlich derjenige 

Wert genommen, für die die Wahrscheinlichkeit am größten ist. Abb. 21.7 

zeigt die Verteilung verschiedener Werte für p eingestellt für mehrere hundert 

Sprecherinnen und Sprechern. Sehr gut zu erkennen ist die Bimodalität 

der Verteilung. Links die Werte p < 1, die vor allem bei Frauen gemessen 

wurden, und rechts die p > 1, die vor allem bei Männern gemessen wurden. 

180 

160 

140 

120 

100 

80 

60 

40 

20 

0.95 1.05 1.15 1.25 

0.90 1.00 1.10 1.20 

Abb. 21.7. Verteilung der Spektren für verschiedene Vokaltraktlängen 

Die VTLN-Adaption kann zu verschiedenen Zeiten durchgeführt werden. 

Die erste naheliegende Idee ist, einen HMM-Erkenner ganz ohne Veränderung 

des Signals zu trainieren. Dadurch entstehen automatisch Modelle, die 

den Durchschnitt aller Trainingssprecher widerspiegeln. Vor der Erkennung 

einer Äußerung wird diese dann aber VTLN-adaptiert, so daß eventuelle 

Abweichungen vom Durchschnitt korrigiert werden. Schon dieses Vorgehen


trägt zur Reduktion der Fehlerraten bei (s. Tab. 21.2). Noch besser funktioniert 

das Verfahren allerdings, wenn es auch beim Trainieren verwendet 

wird. Denn der Effekt dabei ist eine zusätzliche Varianzverkleinerung der 

Modelle, da die Signale vor dem Training normiert werden. Experimente 

auf den Switchboard und Call-Home Benchmark Datenbasen ergaben 

Fehlerreduktionen von ca. 10% durch den Einsatz von VTLN-Adaption. 

VTLN im VTLN im 

Training Test Switchboard Call Home 

33.9% 46.7% 

× 33.0% 43.4% 

× × 31.3% 40.1% 

Tabelle 21.2. Wortfehlerraten mit und ohne VTLN

22. Künstliche Neuronale Netze 

Künstliche neuronale Netze haben mehrere Phasen ihrer Hochkonjunktur 

erlebt. Mit der Definition des McCulloch-Pitts-Neurons 1943 [?] wurde 

der Versuch unternommen, das Verhalten von neuronalen Systemen wie 

z.B. Gehirne mathematisch erfaßbar und beschreibbar zu machen. Als 

1962 Frank Rosenblatt ein Trainingsverfahren für eine bestimmte Art 

künstlicher neuronaler Netze (sogenannte Perzeptronen) vorstellte, wurden 

Hoffnungen geweckt, daß schon bald komplizierteste Probleme allein dadurch 

gelöst werden könnten, daß man einem künstlichen neuronalen Netz Trainingsmuster 

zusammen mit ihren erwarteten Ausgabemustern präsentiert 

und das Netz von ganz allein lernt, wie die ihm gestellte Aufgabe zu lösen ist. 

In einem abwertenden Artikel von Minsky und Papert [?] wurde das 

Perzeptron für untauglich erklärt, da es noch nicht einmal in der Lage war, 

das einfache XOR-Problem zu lösen. Obwohl schon damals klar war, daß 

das einfache Perzeptron sowieso nicht für die Lösung komplizierter Probleme 

herangezogen werden könnte, hatte der Artikel von Minsky und Papert eine 

dämpfende Wirkung auf die Weiterentwicklung der künstlichen neuronalen 

Netze. Mangelnde Erfolge in der Forschung auf dem Gebiet taten ihr weiteres 

um das hochgehandelte Thema für ein gutes Jahrzehnt abzukühlen. 

Erst Anfang bis Mitte der achtziger Jahre sorgten einige Arbeiten mit 

neuronalen Netzen für Aufsehen. Relativ schwierig empfundene Klassifikationsaufgaben 

wurden mit Hilfe künstlicher neuronaler Netze überraschend 

gut gelöst. Besonders spektakulär war zum Beispiel das System von Terrence 

Sejnowski [?], ein einfaches mehrschichtiges Perzeptron, das lernte, bei 

gegebenen sieben aufeinanderfolgenden Buchstaben, die dazu passende 

Aussprache im amerikanischen Englisch auszugeben. Wurde die Ausgabe des 

Netzes in damals schon vorhandene Sprachsynthesegeräte geleitet, konnte 

der Zuhörer den Lernvorgang mitverfolgen und beeindruckt miterleben, 

wie die Qualität der Aussprache sich mit jeder Trainingsiteration verbesserte. 

Ab Mitte der Achtziger wurden vermehrt künstliche neuronale Netze 

zum Zwecke der Spracherkennung eingesetzt. Anfangs wurden vor allem 

Phonemklassifikatoren gebaut, die mit sauber artikulierten und detailgenau

372 22. Künstliche Neuronale Netze 

ausgeschnittenen Aufnahmen einzelner Phoneme oder Diphone trainiert 

wurden. 

Der Einfachheit halber werden wir ab jetzt das Adjektiv ” künstlich“ im 

Zusammenhang mit neuronalen Netzen weglassen, weil wir uns nicht für die 

Funktionalität biologischer neuronaler Netze interessieren und auch nicht 

auf solche Netze eingehen werden. In diesem Kapitel wird die Einführung in 

die Arbeitsweise und das Training von neuronalen Netzen nicht ausführlich 

behandelt. Der interessierte Leser möge sich aus einem Fachbuch zu diesem 

Thema informieren. Wir wollen uns hier auf die Anwendung neuronaler 

Netze in der Spracherkennung konzentrieren, und nur soweit in die Theorie 

eindringen, wie dies für die hier beschriebenen Netze und Aufgaben sinnvoll 

ist. 

22.1 Probleme reiner HMM-Erkenner 

Die Standardmethode für das Trainieren von Hidden Markov Erkennern 

besteht aus den Baum-Welch Optimierungsregeln und dem Expectation Maximization 

Algorithmus zur iterativen Optimierung von Mischverteilungen. 

Beide Prinzipien basieren auf dem Auswerten von ” positiven Beispielen“. 

Dabei wird nur die Zugehörigkeit eines Musters zu einer Klasse aber nicht 

die Nichtzugehörigkeit zu anderen Klassen explizit berücksichtigt. Zwar gibt 

es auch für das Optimieren von HMM Erkennern diskriminative Verfahren 

(z.B. das Korrektive Training, Abs. 13.3.1), aber für neuronale Netze sind 

diskriminative Verfahren meist die geeignetste Trainingsmethode. 

Die Praxis hat außerdem gezeigt, daß viele Klassifikationsaufgaben mit 

Hilfe von neuronalen Netzen mit deutlich weniger Parametern bewältigt 

werden können als mit maximum-likelihood-basierten Klassifikatoren. Ein 

Maximum-Likelihood Klassifikator muß für jede Klasse C die klassenbedingte 

Wahrscheinlichkeit(-sdichte) P(x|C) über dem Merkmalsraum lernen. 

Dies geschieht für jede Klasse unabhängig von den anderen Klassen und 

unabhängig von der A-Priori-Wahrscheinlichkeit der Klasse. Zu dem Zeitpunkt, 

an dem der Maximum-Likelihood Klassifikator seine klassenbedingten 

Wahrscheinlichkeitsfunktionen schätzen muß, kann er noch nicht absehen, 

welche Details dieser Funktion wichtig sind und welche weniger wichtig sind. 

Abbildung 22.1 veranschaulicht den Mehrbedarf an Parametern für einen 

Maximum-Likelihood Klassifikator gegenüber einem Maximum-A-Posteriori 

Klassifikator. Der letztere berechnet P(C|x) und berücksichtigt dabei den 

Zusammenhang aller Klassen. Ein neuronales Netz, das diese a-posteriori 

Wahrscheinlichkeiten schätzen soll, muß nur eine einfache Näherung an das

p(x|A) 

22.2 Architekturen 373 

p(x|B) 1 p(A|x) p(B|x) 

Abb. 22.1. Maximum Likelihood und Maximum A-Posteriori Klassifikatoren 

tatsächliche P(C|x) berechnen, wofür weniger Parameter benötigt werden als 

für das Schätzen der wesentlich komplizierteren Kontur der klassenbedingten 

Wahrscheinlichkeitsfunktionen. 

Es wurden auch Versuche unternommen, neuronalen Netzen das Simulieren 

von Maximum-Likelihood Schätzern beizubringen (z.B. [?] [?]), die dabei 

verwendeten Trainingsalgorithmen erinnern aber an Standard stochastische 

Schätzer. 

22.2 Architekturen 

Je nach der Aufgabe, für die die neuronalen Netze eingesetzt werden 

sind verschiedene Architekturen sinnvoll. Werden sie als Berechner von 

Emissionswahrscheinlichkeiten verwendet, so sind mehrschichtige Perzeptronen 

ohne besondere Berücksichtigung der Dynamik eine gute Wahl. Die 

Aufgabe solcher Netze ist schließlich keine Klassifikationsaufgabe sondern 

die Approximation einer Dichtefunktion. 

Netze, die Entscheidungen treffen, arbeiten besser, wenn sie diese in 

Abhängigkeit von zuvor gemachten Entscheidungen treffen können, wenn sie 

also einen größeren zeitlichen Kontext verwenden. Solche Netze, die zuvor 

gewonnene Informationen für spätere Entscheidungen verwenden heißen 

rekurrente Netze. 

22.2.1 Netze zur Klassifikation 

In den Anfängen der Spracherkennung bestanden viele Forschungsaufgaben 

aus der Klassifikation von Lauten – meist einzelne Phoneme oder der so 

genannen BDG- bzw. BDGPTK-Task, bei der es um die Klassifikation der


Plosivlaute b, d, g, p, t, k mit jeweils nachfolgendem englischen ” ee“-Laut 

ging. Da die Aufnahmen für solche Spracheinheiten relativ kurz waren, war 

es üblich, diese als ganzes auf die Eingabeneuronen eines mehrschichtigen 

Perzeptrons (engl. multi-layer perceptron MLP) zu legen. So gelang es unter 

günstigen Bedinungen (ein Sprecher, geräuschfreie Umgebung, saubere 

und exakt geschnittene Aufnahmen) relativ gute Klassifikationsraten zu erzielen 

(z.B. [?] [?]). Es stellte sich allerdings recht schnell heraus, daß einfache 

MLPs nicht geeignet waren um damit Laute unter ungünstigen Bedingungen 

oder gar kontinuierlich gesprochene Sprache zu erkennen. Im Laufe 

der Zeit wurden vermehrt komplexere Achitekturen als MLPs verwendet um 

die speziellen Eigenheiten gesprochener Sprache zu berücksichtigen. Einfache 

MLP-Klassifikatoren werden aber bis heute noch verwendet, um damit Teilaufgaben 

der Spracherkennung zu lösen, wie z.B. die Erkennung bestimmter 

Umstände (Sprechermerkmale, akustische Umgebung o.ä.) welche dann zu 

Steuerung des Erkennungsprozesses weiterverwendet werden. 

22.2.2 Elman-Netze und Jordan-Netze 

Ein häufiger Kritikpunkt an der Verwendung von neuronalen Netzen zur 

Erkennung von Sprache ist die Tatsache, daß ein ” reguläres“ MLP eine in 

dem Sinne statische Ausgabe produziert, daß diese nur von einem statischen 

Eingabefenster abhängt und nicht vom Zeitlichen Verlauf der Eingabemuster. 

Während Hidden Markov Modelle in der Lage sind, die Dynamik der 

Sprache durch ihre Zustandsfolgen zu modellieren, fehlt diese Fähigkeit 

bei gewöhnlichen MLPs. Ein Ansatz, der sich bis heute bei den erfolgreich 

verwendeten konnektionistischen Spracherkennern gehalten hat, besteht 

darin, daß die ” Entscheidung“, die das Netz trifft, davon abhängig gemacht 

wird, welche Entscheidung es einen oder einige Zeittakte zuvor getroffen 

hat. Dadurch wird eine Kontextabhängigkeit in den Entscheidungsprozeß 

eingebaut, die dafür sorgt, daß nicht zu jedem Muster ein ganz bestimmtes 

Klassifikationsergebnis nur durch die Netzgewichte definiert ist, sondern daß 

auch das vorherige Klassifikationsergebnis eine Rolle spielt. 

Die beiden naheliegenden Netzwerkarchitekturen werden als Elman-Netze 

und Jordan-Netze (s. Abb. 22.2). Bei Jordan-Netzen werden Ausgänge des 

Netzes wieder als Teil der Eingabe verwendet. Das heißt der Kontext wird 

durch die vorherige Klassifikation definiert. Bei Elman-Netzen werden die 

Ausgaben einiger Neuronen der versteckten Schichten wieder als Eingabe 

verwendet.

Jordan Elman 


Eingabemuster Kontext Eingabemuster Kontext 

Abb. 22.2. Rekurrentes Neuronales Netz nach Jordan und Elman 

22.2.3 LVQ – Learning Vector Quantization 

Auf den ersten Blick erscheint die Einordnung des Learning Vector Quantisation 

Verfahrens in den Bereich der Neuronalen Netze als irgendwie 

unmotiviert. Tatsächlich ist der im folgenden vorgestellte LVQ-Algorithmus 

mit denen, die für das Trainieren und die Funktion von Perzeptronen 

verwendet werden, durchaus in vielen Bereichen vergleichbar. 

Die Idee hinter dem LVQ liegt darin, daß Referenzvektoren, die bestimmte 

Klassen repräsentieren, iterativ im Merkmalsraum verschoben werden. 

Das Ziel, das dabei verfolgt wird, ist den durchschnittlichen (euklidischen 

oder anderen) Abstand der Trainingsmuster zu ihrem entsprechenden 

Referenzvektoren zu minimieren. Der einfache LVQ-Algorithmus sieht wie 

folgt aus: 

1. gegeben: die Anhahl k der Klassen, 

und die Menge der Trainingsmuster v1, v2, . . . vT 

2. initialisiere beliebige k Referenzvektoren µ1, µ2, . . . µk, 

z.B. durch µi = vi 

3. ordne jedem Trainingsmuster vi den Repräsentanten 

µ f(i) seiner Klasse zu 

4. bewege µ f(i) ein wenig in Richtung vi, 

also µ ′ f(i) = µ f(i) + t · (vi − µ f(i)) 

5. wenn Optimierungskriterium noch nicht ausreichend erfüllt, 

gehe zu Schritt 3


Eine Variation des LVQ-Algorithmus ist die Erweiterung zu einem diskriminativen 

Lernverfahren. Dabei wird der Schritt 3 des obigen Algorithmus 

dahingehend erweitert, daß neben der Bestimmung der Klassenzugehörigkeit 

f(i) auch eine Klasse g(i) bestimmt wird, zu der das Trainingsmuster vi 

nicht gehört (aber zu der es klassifiziert würde, wenn das LVQ-Verfahren 

beendet wäre). Dann wird nicht nur µ f(i) in Richtung von vi bewegt, sondern 

auch µ g(i) von vi weg bewegt: 

µ ′ f(i) = µ f(i) + t · (vi − µ f(i)) (22.1) 

µ ′ g(i) = µ g(i) − t · (vi − µ f(i)) (22.2) 

Der um diese Funktionalität erweiterte LVQ-Algorithmus wird auch 

LVQ-2-Algorithmus genannt. 

In der Praxis kann man sowohl beim einfachen LVQ-Algorithmus als 

auch beim LVQ-2 das Problem beobachten, daß einige Ausreißer unter den 

Trainingsdaten dazu führen, daß die Verschiebungen bestimmter Referenzvektoren 

sehr groß ausfallen und so das ganze Gefüge der Referenzvektoren 

(das Codebuch) durcheinander gewürfelt werden kann. Um dies zu vermeiden, 

bietet es sich an, den Schritt 3 nur dann auszuführen, wenn das 

Trainingsmuster nicht allzu weit weg vom Referenzvektor liegt, also wenn 

|µ f(i) − vi| < w. Für den Fall des LVQ-2 bietet es sich sogar an, nur dann 

diskriminativ zu trainieren, wenn das Trainingsmuster in einem Fenster um 

die Trenngerade zwischen µ f(i) und µ g(i) zu liegen kommt. 

Abb. 22.3 illustriert, wie das LVQ-Verfahren als Neuronales Netz 

betrachtet werden kann. Das dargestellte Netz hat k Ausgabeneuronen, 

die den k Klassen entsprechen. Wenn an die Eingänge das d-dimensionale 

Muster vt = (vt1, vt2, . . . vtd) angelegt wird, dann ist die Ausgabe des j-ten 

Ausgabeneurons oj = 

i vtiwij. Dieser Wert ist genau die Korrelation 

zwischen dem angelegten Muster und dem Eingangsgewichtevektor des 

j-ten Neurons (w1j, w2j, . . . wdj). D.h. diejenige Klasse wird klassifiziert, 

deren Gewichtevektor die größte Korrelation hat. Es ist nun sowohl möglich, 

das abgebildete Perzeptron mit Hilfe des Backpropagation Verfahrens zu 

trainieren, als auch mit Hilfe des LVQ Verfahrens, wenn man lediglich die 

Eingabegewichte des j-ten Ausgangsneurons mit dem j-ten Referenzvektor 

des obigen LVQ-Algorithmus gleich setzt. Die Klassifikation selbst verwendet 

dann nicht den euklidischen sondern den Korrelationsabstand. 

Einige erfolgreiche Einsätze von LVQ in der Spracherkennung wurden 

z.B. in [?] [?] vorgestellt. Dabei wurden auf Hidden Markov Modellen

o1 . . . oj . . . 

vt1 . . . vti . . . vtd 

Abb. 22.3. LVQ-Algorithmus als Neuronales Netz 

ok 


basierende Erkenner verwendet, bei denen die Emissionswahrscheinlichkeiten 

mit Hilfe eines LVQ-Netzes für jedes von drei Segmenten eines Phonems 

berechnet wurden. Die sprecherabhängigen Erkennungsraten lagen auf 

dem damaligen ” Conference Registration“ Benchmark in vergleichbaren 

Regionen wie die von auf Gauß-Mischverteilungen basierenden Erkennern. 

Bei sprecherunabhängiger Erkennung waren die Ergebnisse deutlich besser 

als mit vergleichbaren auf LPNNs basierenden Erkennern, jedoch konnten sie 

nicht an die von kontextabhängigen Gauß-Mischverteilungen heranreichen. 

22.2.4 Kohonens selbstorganisierende Karten 

Betrachtet man Sprachsignale aber auch andere Mustererkennungsaufgaben, 

so stellt man sich bald die Frage, wie man am geeignetsten den oft sehr 

hochdimensionalen Merkmalsraum umgestalten kann, ja sogar die Frage, wie 

hochdimensional der Merkmalsraum ” in Wirklichkeit“ ist, bzw. auf einen 

wie kleindimensionalen Raum man ihn schrumpfen lassen könnte. Nun sind 

rohe diskrete Sprachsignale per se eindimensional, allerdings werden einzelne 

Abtastwerte daraus nie für die Erkennung direkt verwendet. Kohonens selbst 

organisierende Karten (engl. Kohonen maps oder Kononen’s self organizing 

maps) sind neuronale Netze, die zum Ziel haben, einen hochdimensionalen 

Merkmalsraum so auf einen niedrigdimensionalen abzubilden, daß durch 

die Abbildung sowohl eine Klassifikation durchgeführt wird, als auch daß 

eine Ähnlichkeits- bzw. Nachbarschaftsbeziehung im Ursprungsraum auf 

eine Nachbarschaftsbeziehung im Zielraum abgebildet wird. Das heißt, daß 

tendenziell für drei Punkte X1, X2, X3 mit |X1 − X2| < |X1 − X3| nach der 

Abbildung f auf den Zielraum gilt |f(X1) − f(X2)| < |f(X1) − f(X3)|. Dies 

kann per definitionem nicht grundsätzlich in jedem Fall erreicht werden. 

Wenn man aber davon ausgeht, daß der Ursprungsraum nicht gleichförmig 

gefüllt ist, sondern die Daten darin eine gewisse Struktur haben, und daß die 

Dimensionalität des Zielraumes nicht zu niedrig ist, so kann ein relativ großer 

Anteil der Nachbarschaftsbeziehung durch die Abbildung aufrechterhalten 

wij


werden. 

Der Algorithmus zum Erzeugen eines Kohonen-Netzwerkes sieht wie 

folgt aus: 

1. erzeuge eine Menge (eine ” Schicht“) von Neuronen Ei mit 

Nachbarschaftsbeziehung. z.B. eine zweidimensionales Gitter 

mit City-Block-Nachbarschaft, oder ein Wabenmuster etc. 

bezeichne N(m, n) die ” Nähe“ zweier Neuronen Em und En (z.B. 

1.0 für m = n und 0.0 für zwei Neuronen an entgegengesetzten 

Ecken der ” Schicht“) 

2. erzeuge für jede Dimension j = 1 . . .d des Ursprungsmerkmalsraums 

ein Eingabeneuron Ej, verbinde jedes Eingabeneuron mit 

jedem Schicht-Neuron i über das zufällig initialisierte Gewicht 

wji 

3. für die Eingabe X = (x1, x2, . . .xd) ist die Ausgabe des Neurons 

o(Ei) = |(w1i, . . . wdi) − (x1, . . . xd)| 

4. Trainingsphase 

a) wähle zur Eingabe X 

gezeichneten Knoten 

= 

i 

(x1, x2, . . .xd) den aus- 

∗ , dessen Gewichtevektor 

Wi∗ = (w1i∗, w2i∗, . . . wdi∗) am nächsten zu X liegt, also: 

|Wi∗ − X| ≤ |Wi − X|∀i 

b) verändere jedes Gewicht wji um einen Werte δji 

mit δji = α · N(i, i ∗ ) · (xj − wji) 

Die Klassifikation mit so einem Netzwerk geschieht genau so wie bei der 

Auswahl des i ∗ im Schritt 4a des obigen Trainingsalgorithmus. Man beachte, 

daß hier i ∗ eine zunächst einmal abstrakte Klasse ist, der man ohne weitere 

Analyse keinen konkreten ” Namen“ geben kann. Es ist allerdings so, daß 

durch den Faktor N(i, i ∗ ) bei der Anpassung der Gewichte benachbarte 

Neuronen ähnlich behandelt werden. Dies führt zwangsläufig dazu, daß 

benachbarte Neuronen auch ein ähnliches Reaktionsmuster an den Tag legen. 

Verwenden wir ein Kohonen-Netz zur Klassifikation von Sprachlauten, 

und protokollieren wir für einige bekannte Trainingslaute, welches Neuron 

jeweils das i ∗ ist, beziehungsweise bestimmen wir für jedes Neuron, bei


welchem Laut/Phon es die größte Ausgabe produziert, dann ergibt sich ein 

” Karte“ der Laute, die zum Beispiel so aussehen kann wie in Abb. 22.4. 

a a 

o 

l 

. 

o 

o 

l 

o 

o 

. 

a 

o 

u 

a 

a 

u 

u 

a h 

a 

v 

h 

h 

v 

v 

h 

r 

r 

r 

œ 

r 

v vn 

tk 

p 

k 

œ 

m 

d 

œ 

r 

n 

p 

. . v k pt t p t p h # # 

Abb. 22.4. Kohonens selbstorganisierende Karte 

ah 

a 

Das Netz versucht also so gut wie möglich ähnliche Laute in ähnliche 

Gebiete der Netzschicht zu positionieren. Beim hier abgebildeten Netz 

wurde eine zweidimensionale Wabenstruktur als Nachbarschaftsbeziehung 

verwendet. Das Gebiet am oberen linken Rand der Schicht spricht vor 

allem bei A- und O-ähnlichen Lauten an, rechts unten finden sich vor allem 

verschiedene Konsonanten. 

Neben der Klassifikation eines einzelnen Lautes kann man mit Hilfe von 

Kohonen-Netzen auch kontinuierliche Sprache erkennen. Verwendet man zum 

Beispiel als Merkmale Kurzzeitspektren X1, . . . Xt für die Zeitpunkte 1 . . .t, 

und bestimmt zu jedem Zeitpunkt das Neuron mit maximaler Ausgabe. 

Diese Neuronen ergeben schließlich einen Pfad durch den Zielraum, anhand 

dessen ein Wort erkannt werden kann. Ein Beispiel dafür ist in Abb. 22.5 zu 

sehen, bei dem Teuvo Kohonen persönlich das finnische Wort ” humppila“ 

gesprochen hatte. 

22.2.5 MS-TDNNs 

Eine in der Spracherkennung beliebte Architektur zur Berücksichtigung 

dynamischer Eigenschaften der Sprache ist das so genannten Time Delay 

Neural Net (TDNN). Die Dynamik geht auf zwei Arten in die Klassifikation 

ein, einmal in Form eines Fensters, das einen größeren Zeitlichen Kontext 

des Signals überdeckt und somit mehr als nur ein Kurzzeitspektrum als 

l 

n 

d 

f 

g 

n 

p 

f 

n 

t 

f 

g 

h 

p 

y 

n 

r 

e 

y 

hj 

r 

y 

j 

h 

e 

j 

j 

k 

j 

i 

hi 

e 

i 

j 

# 

i 

i 

j


u 

a 

l 

h 

Abb. 22.5. Typische Folge aktivster Neuronen für das finnische Wort ” humppila“ 

Eingabe in das Netz liefert, und darüber hinaus über die Definition der 

Netzwerkgewichte. 

Das erstmals in [?] [?] für die Spracherkennung verwendete TDNN 

ist in Abb. 22.6 dargestellt. Das Netz wurde verwendet um die isoliert 

gesprochenen Phoneme b, d, und g zu erkennen. Das Sprachsignal wurde 

zu 15 Vektoren (ein Vektor alle 10ms) zu je 16 Mel-Spektralkoeffizienten 

verarbeitet. Als Eingabeschicht wird ein Feld von 3 × 16 Neuronen als 30ms 

breites Fenster über die Aufnahme ” geschoben“. Über der Eingabeschicht 

ist die Verdeckte Schicht mit 8 Neuronen. Zwischen der Eingabe- und der 

verdeckten Schicht befinden sich drei verschiedene 16x8 große Gewichtematrizen. 

Jede enthält die Gewichte für eine andere Zeittaktverschiebung 

(Time Delay). Die Eingabe in ein Neuron der verdeckten Schicht in Abb. 

22.7 abgebildet. Für jedes Eingabeneuron ui gibt es n Zeitverzögerungen 

mit eigener Gewichtung. Diese Gewichtungen sind so angeordnet, daß die 

Gewichte für verschiedene Neuronen der verdeckten Schicht mit gleicher 

Zeitverzögerung miteinander gekoppelt sind. 

Die TDNNs haben eine zufriedenstellende Leistung bei der Erkennung 

isoliert gesprochener Phoneme. Für kontinuierliche Sprache sind sie jedoch 

nicht geeignet. Dafür wurden sie in [?] zu so genannten Multi-State Time 

Delay Neural Nets (MS-TDNNs) weiterentwickelt. Die MS-TDNNs sind eine 

Mischung zwischen Konnektionistischen Ansätzen und Hidden Markov Modellen. 

Dabei wird von den HMMs die Idee der Zustände, Zustandsübergänge 

und des Dekodierungsproblems übernommen, von den neuronalen Netzen 

werde die diskriminative Art des Trainings und die ” feed-forward“-basierte 

Art der Berechnung der Emissionswahrscheinlichkeiten übernommen. 

Bis zur Ebene der Phonemschicht sind TDNNs und MS-TDNNs gleich. 

Beide implementieren eine Phonemschicht, bei der jedem zu erkennenden 

p 

m 

i

g 

d 

b 

b d g 

Integration über die Zeit 

Phonemschicht 

3 Neuronen 


versteckte Schicht 

8 Neuronen 

Eingabeschicht16 Mel-Koeffizienten 

15 Zeittakte 

Abb. 22.6. Time Delay Neural Network (TDNN) zur Erkennung von b, d, und g 

Phonem eine Reihe von Aktivierungswerten eines Neurons zugeordnet wird. 

Während bei TDNNs diese Aktivierungswerte über die Zeit aufsummiert werden 

sie bei MS-TDNNs als Ersatz für Emissionswahrscheinlichkeiten bzw. 

für lokale Distanzen in einem DTW-Algorithmus verwendet. Als reines neuronales 

Netz betrachtet, besitzt das MSTDNN einen (oder mehrere) Wortschichten 

über der Phonemschicht. Jedes Wort ist eine Konkatenation von 

Phonemen, durch die wie beim Viterbi- beziehungsweise DTW-Algorithmus 

die wahrscheinlichste Folge beziehungsweise diejenige mit der geringsten kumulativen 

Distanz gesucht (s. Abb. 22.8).


wi 

wi+1 

d1 . . . 

ui 

dn 

wi+n 

Abb. 22.7. Ein Time Delay Neuron 

22.2.6 LPNNs 

 

. . . . . . 

wj 

wj+1 

d1 . . . 

uj 

dn 

wj+n 

Linked Predictive Neural Nets (LPNNs) wurden vor allem Anfang der 

Neunziger eingesetzt [?] [?]. Die Idee hinter diesen Netzen ist das Berechnen 

der Emissionswahrscheinlichkeiten durch Vorhersagenetzwerke. Dabei wird 

für jedes Modell ein Vorhersagenetzwerk (in der Regel ein einfaches mehrschichtiges 

Perzeptron) trainiert, das bei der Eingabe eines oder mehrerer 

Merkmalsvektoren einen anderen ” vorhersagen“ muß. Hierbei bedeutet Vorhersage 

nicht unbedingt Blick in die Zukunft. Eine ” Vorhersage“ des Vektors 

Xt zum Zeitpunkt t aus den Merkmalen Xt−1 und Xt+1 ist genauso denkbar 

und wurde auch in(engl. multi-layer perceptron MLP) der Tat verwendet. 

Das erwartete Verhalten dieser Vorhersagenetzwerke wird damit begründet, 

daß jedes Netzwerk seine Vorhersagefunktion nur auf Daten der ihm 

entsprechenden Modelle trainiert. Nun kann man davon ausgehen, daß die 

Qualität der Vorhersage, also die Nähe zum tatsächlichen Merkmalsvektor, 

für ein Netz, das mit A-Lauten trainiert wurde, besser ist, wenn es auf 

A-Lauten getestet wird, als wenn es auf B-Lauten getestet wird. 

Der kontinuierliche Spracherkenner selbst kann nur auf Basis der Baum- 

Welch Trainingsalgorithmen für Hidden Markov Modelle gebaut werden, 

lediglich die Emissionswahrscheinlichkeiten werden nicht wie zumeist mit 

Gauß-Mischverteilungen, sondern mit der Vorhersagequalität der Vorhersagenetze 

berechnet. In Abb. 22.9 ist der Zustand dargestellt, in dem sich 

der Erkenner zum Zeitpunkt t befindet. Die Größe der schwarzen Kreise in 

der DP-Matrix entspricht den Werten der Emissionswahrscheinlichkeiten 

beziehungsweise der Qualität der Vorhersage von Xt aus Xt−2 und Xt−1 für

Wn 

. 

. 

. 

W2 

W1 

Wn 

W2 

W1 

Abb. 22.8. Multi-State TDNN für die Wörter W1, . . . Wn 


jedes der vier Vorhersagenetzwerke. Am besten paßt hier die Vorhersage des 

a2-Netzes. Die Wahrscheinlichkeit dafür, daß das Wort ” BAB“ gesprochen 

wurde, läßt sich dann aus der Summe der Emissionswahrscheinlichkeiten 

auf dem DTW-Pfad schätzen. Für andere Wörter würde die y-Achse der 

DP-Matrix eine andere Folge der Vorhersagenetze zusammengestellt werden. 

Die Ergebnisse beim Einsatz so gebauter Spracherkenner waren für 

sprecherabhängige Erkennung durchaus beachtlich. Die Fehlerraten für einen 

einzelnen Sprechern auf dem ” Conference Registration“ Benchmark lagen 

im einstelligen Prozentbereich. 

Pn 

P4 

P3 

P2 

P1


BAB 

b1 

b2 a1 

a2 

b b b b a a a a a b b b b b 

Abb. 22.9. Linked Predictive Neural Networks für kontinuierliche Spracherken- 

nung 

22.2.7 Hierarchische Mixturen von Experten 

Die Feststellung, daß automatische Spracherkennung nicht nur aus Sicht des 

Sprachmodells, sondern auch aus Sicht des akustischen Modells abhängig 

von der Einsatzdomäne ist, und daß die Portierbarkeit und Skalierbarkeit 

über verschiedene Erkennungsaufgaben hinweg unzureichend ist, diente als 

Motivation zur Entwicklung von Hierarchischen Mixturen von Experten 

(HME) für das akustische Modell von Spracherkennern. Diese bilden die 

ideale Voraussetzung für eine leichte Skalierung der Parameterraumgröße 

durch entsprechende Wahl der Zahl der Hierarchieebenen [?]. Je mehr 

Hierarchieebenen verwendet werden, umso feiner gestaltet sich das akustische 

Modell. Bei Bedarf (Portierung auf andere Aufgaben oder andere 

Erkennungsumgebungen) kann die Zahl der Ebenen auch reduziert werden 

und so eine Version des Parameterraums verwendet werden, die weniger 

spezifisch und dafür mehr generalisierungsfähig ist. Mehr noch: in ein und 

derselben Hierarchie können verschiedene Parameterräume für verschiedene 

Zwecke integriert sein, und bei Bedarf mehr der eine oder mehr der andere 

Parameterraum verwendet werden. 

Die Idee hinter hierarchischen Mixturen von Experten ist die Modularisierung. 

Alle Parameter werden in einer Baumstruktur angelegt. Jeder 

Baumknoten beschreibt einen Teil des Merkmalsraums (zum Beispiel ein 

Phonem). Wenn dieser Teil der Raumes ausreichend genau beschrieben 

ist, oder sowieso nur wenige Trainingsbeispiele hat, ist es sinnvoll diesen 

Knoten als Blattknoten zu verwenden. Wenn aber der Raum groß ist, viele 

Trainingsdaten hat und diese auch noch eine große Varianz haben, dann 

t


lohnt es sich, den Knoten ähnlich wie bei der divisiven Ballung (vgl. Abs. 

17.2.4) in zwei Unterknoten aufzutrennen. Die Auftrennung kann dann zum 

Beispiel zwei verschiedene Kontexte oder Kontextklassen erzeugen, sie kann 

aber auch dasselbe Modell auf zwei verschiedene Arten modellieren (zum 

Beispiel einmal mit Gauß-Mischverteilungen und einmal mit mehrschichtigen 

Perzeptronen). Die Auswahl des passenden Teilmodells oder der besseren 

Modellierungsart geschieht dann durch ein so genanntes Gate. Diese muß die 

Auswahl nicht digital treffen, viel besser ist eine von der aktuellen Situation 

und vom aktuell vorliegenden Signal abhängige Gewichtung der beiden 

Unterknoten. Das Resultat einer hierarchischen Mixtur von Experten ist in 

Abb. 22.10 skizziert. 

Gatingnetzwerk 

1 

x 

g11 

Expertennetzwerk 

1.1 

µ1 

Knoten 0 

µ 

 

g2 

g1 

µ2 

Knoten 1 Knoten 2 

g12 

g21 


0 

g22 


2 

µ11 µ12 µ21 

µ22 

Experten- Experten- Expertennetzwerk 

1.2 netzwerk 2.1 netzwerk 2.2 

x x 

x x 

Abb. 22.10. Hierarchische Mixtur von Experten 

Die dargestellt Mixtur berechnet die Emissionswahrscheinlichkeit 

oder einen entsprechend umrechenbaren Bewertungsterm µ für einen 

HMM-Zustand. Dafür werden insgesamt vier spezialisierte Modelle (Expertennetzwerke) 

eingesetzt. Jeder dieser Experten ist auf einen bestimmten 

Aspekt des Modells (bestimmter Teil des Merkmalsraums, bestimmte 

Ausprägung des Modells, bestimmte äußere Bedingungen der Aufnahme) 

spezialisiert. Die Ausgaben von je zwei Experten werden mit Hilfe eines 

Gates gewichtet gemittelt. Sowohl die Experten als auch die Gates können 

auf verschiedenste Arten implementiert werden. In Abb. 22.10 sind beide 

als Neuronale Netzwerke dargestellt. Die Gating-Netze erhalten als Eingabe 

das aktuelle Sprachsignal und berechnen auf dieser Grundlage die 

Gating-Gewichte, so daß die Gesamtausgabe der Hierarchie schließlich 

x 

x


µ = g1µ1 + g2µ2 = g1(g11µ11 + g12µ12) + g2(g21µ21 + g22µ22) ist. 

Der besondere Vorteil von Expertenhierarchien gegenüber größeren 

Netzwerken, die das Gesamtbild sehen können, besteht in der einfacheren 

Trainierbarkeit und Optimierbarkeit der einzelnen Experten. Insbesondere 

das diskriminative Trainieren derselben ist umso genauer, je sorgfältiger der 

Ausschnitt aus dem Merkmalsraum ausgewählt wird. 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

Knoten mit #Muster ≥ c1 (⇒ Adaption) 

00 11 

Knoten mit #Muster < c0 (⇒ beschneiden) 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

00 11 

Neue Knoten mit Adaptierten Netzen 

00 11 

Neue Blattknoten mt gekoppelten Modellen 

Abb. 22.11. Domänenadaption mit Hierarchischen Mixturen von Experten


Die Adaption eines HME-Systems an eine neue Domäne geschieht 

ausgehend von einem großen detaillierten System das auf einer großen 

Menge von Trainingsdaten viele Modelle trainiert wurde (Abb. 22.11 oben). 

Zwei in der Regel empirisch zu bestimmende Schwellwerte c0 und c1 legen 

fest, mit den einzelnen Knoten bei der Adaption verfahren wird. Wenn 

die Zahl der Muster in den Testdaten (den Daten der neuen Domäne) 

mindestens c1 ist, so kann man davon ausgehen, daß ausreichend viele Daten 

vorhanden sind, um das dem Knoten entsprechende Modell mit Hilfe von 

Adaptionsmethoden (s. Kap. 21) auf die neue Domäne einzustellen. Die 

Knoten, für die es zwischen c0 und c1 Muster gibt, bleiben unverändert. Für 

die Knoten, auf die weniger als c0 Muster entfallen, wird angenommen, daß 

sie Sprachliche Einheiten modellieren, die nicht typisch für die neue Domäne 

sind. Wenn ein Knoten zu dieser Menge gehört, dann offensichtlich auch alle 

seine Nachfolgerknoten. Diese können dann aus dem Baum herausgenommen 

werden. Letztes bedeutet aber nicht, daß diese Phänomene gar nicht mehr 

modelliert werden. Es bedeutet nur, daß alle feiner Aufteilung aufgegeben 

wird, und alle seine Blätter zu einem neuen Blatt zusammengefaßt werden 

(s. Abb. 22.11 unten).

23. Verstehen von Sprache 

In den Anfängen der Spracherkennung waren die erkennbaren Vokabulare 

und auch die daraus konstruierbaren Sätze so einfach, daß die Bedeutung 

des Gesprochenen durch einfaches Nachsehen in einer zuvor angelegten 

Tabelle machbar war. Die ersten ernsthaften und weit verbreiteten Spracherkennungssysteme 

mit sehr großen Vokabularen waren Diktiersysteme. 

Bei solchen Systemen spielt die Bedeutung des Gesagten aus der Sicht 

des Erkenners nur eine untergeordnete bzw. gar keine Rolle. Auch wenn 

es möglich ist, die Erkennungsgenauigkeit durch Verstehen zu verbessern, 

beschränken sich Diktiersysteme auch heute noch größtenteils lediglich auf 

die Ausgabe von Wortfolgen, ohne dabei zu beachten, welchen Sinn diese 

haben. Bei Diktieraufgaben ist ein Verstehen auch nicht nötig. Die vom 

Benutzer gestellte Aufgabe ist dann erfüllt, wenn die gesprochene Wortfolge 

auf dem Bildschirm erscheint. 

Bei zahlreichen Kommunikationsaufgaben ist es nötig, die Bedeutung des 

Gesprochenen zu erkennen, und das geht ab einer gewissen Komplexität der 

Sprache nicht mehr durch Nachsehen in einfachen Tabellen. Spezielle Algorithmen 

sind nötig, um mit Hilfe eines Kommandos ” Robbie, ich habe Durst.“ 

den Haushaltsroboter dazu zu bewegen, ein Getränk zu holen oder zumindest 

die Frage zu stellen, was der Benutzer denn gerne trinken möchte. 

23.1 Verstehen gesprochener Sprache 

Geschriebene (elektronisch vorliegende) Texte sind aus mancherlei Gründen 

einfacher maschinell zu verstehen, als gesprochene Sprache. In der Regel kann 

man davon ausgehen, daß Personen, die Texte schreiben, dabei wesentlich 

mehr Zeit zum Überlegen und Formulieren von Sätzen haben als wenn sie 

spontan sprechen müssen. So sind grammatikalische Fehler in Texten viel 

seltener zu finden. Spontane Sprache enthält außerdem zahlreiche Effekte, 

die die eigentliche Wortfolge mit viel Ballast (emphatische Pausen, Stotterer, 

Wortabbrüche, Geräusche etc.) anreichern. Zusätzlich macht dann noch der 

Spracherkenner Fehler, so daß die Wortfolge, deren Sinngehalt verstanden 

werden soll, weit mehr von dem abweicht, was der Sprecher sagen wollte, als

390 23. Verstehen von Sprache 

wenn er es getippt hätte. 

Eine akustische Aufnahme einer Äußerung enthält außerdem keine 

Interpunktionszeichen und keine Unterscheidung zwischen Groß- und Kleinschreibung. 

Selbst wir Menschen haben mit Texten ohne Interpunktion 

Probleme beim Verstehen. All diese Unterschiede zwischen gesprochener und 

geschriebener Sprache lassen vermuten, daß das Verstehen von Gesprochenem 

wesentlich schwieriger ist. 

Dies trifft in der Regel auch zu, insbesondere auch deshalb, weil die 

textuelle Darstellung von einem Spracherkenner erzeugt wird, der schon 

bei diktierter Sprache und bei spontaner Sprache noch mehr Fehler macht. 

Selbst wenn der Erkenner überhaupt keine Fehler machen würde, wäre die 

erkannte Sprache so voller störender Artefakte wie abgebrochener Wörter, 

lauter Pausen, und die Grammatik genügt fast nie den Regeln der Syntax, 

so daß die Analysemethoden für das Verstehen von Texten hier nicht 

ausreichend gut funktionieren. 

Allerdings hat gesprochene Sprache auch Merkmale, die normalerweise 

nur ihr eigen sind, und sich in Texten nicht widerspiegeln. Dazu gehört zum 

Beispiel die Prosodie (s.u.), aber auch andere Kommunikationsmöglichkeiten 

wie Gestik, Mimik und Ausdruck von Emotionen. Zumindest die Prosodie 

und die emotionale Situation des Sprechers lassen sich im reinen Audiosignal 

wiederfinden. Abb. 23.1 zeigt ganz grob, wie ein System, das natürliche 

Sprache verstehen soll, aufgebaut ist. 

23.2 Prosodie 

Prof. Raj Reddy von der Carnegie Mellon University, Pittsburgh, sagte 

einmal, daß die Prosodie in der gesprochenen Sprache vergleichbare Bedeutung 

habe wie die Zwischenräume in der Schrift. Mit Prosodie wird im 

wesentlichen die Melodie und der Rhythmus einer Äußerung bezeichnet. 

Die meisten Spracherkenner verwenden zum Erkennen von Wortfolgen keine 

zuvor extrahierten prosodischen Informationen. Die in der Aussprache der 

selben Wortfolge ohnehin mögliche Variation überwiegt meist die durch die 

Melodie aufgesetzte zusätzliche Variation, so daß Spracherkenner in der 

Regel keine nennenswerten zusätzlichen Probleme daraus erwachsen, daß 

eine Wortfolge einmal als Aussage und einmal als Frage betont werden kann. 

In einigen wenigen tonalen Sprachen wie in einigen chinesischen Sprachen 

spielt die Melodie innerhalb eines einzelnen Lautes eine Rolle zur Unterscheidung 

von Silben und Wörtern. Solche Lautmelodien werden aber nicht 

vom Begriff Prosodie subsumiert, sondern lediglich die makroskopischen

Spracherkenner 

Wortfolge 

(Hypothesengraph) 

Analyse 

Sinn 

prosodische 

Merkmale 

weitere Detekoren 

Emotionserkenner 

Prosodie-Detektor 

Abb. 23.1. Verstehen gesprochener Sprache 

Emotionen 

23.2 Prosodie 391 

sonstige 

Merkmale 

satz- beziehungsweise phrasenübergreifende Melodien und Rhythmen. 

Zu den wichtigsten, die Prosodie bestimmenden Merkmalen gehören die 

folgenden: 

• Intonation 

Die Intonation (engl. Pitch) ist die Tonhöhe der Grundfrequenz mit der 

stimmhafte Laute artikuliert werden. Diese Grundfrequenz wird oft auch 

als F0 (wie die nullte Formante) bezeichnet. Sie kann auf verschiedene 

Arten bestimmt werden. Eine Möglichkeit ist die Analyse des Cepstrums 

(vgl. Abs. 8.3), die Grundfrequenz manifestiert sich dort in einem außergewöhnlich 

hohen Ausschlag bei der Quefrenz die der Grundfrequenz 

entspricht. Eine andere Möglichkeit besteht darin, die Autokorrelation 

auf dem Signal für verschiedene Verschiebungen zu messen. Wenn wir 

annehmen, daß die Grundfrequenz F0 Hz ist und daß das diskrete 

Sprachsignal s[n] mit einer Abtastrate von r Hz abgetastet wurde, dann 

ist davon auszugehen, daß die Autokorrelation 

i s[i] · s[i − r/F0] für eine 

Verschiebung um r/F0 am größten ausfällt. Auch für Vielfache k · r/F0 

dieser Verschiebung sind erhöhte Werte der Autokorrelation zu messen. In 

der Praxis ergeben sich für die Messung von F0 einige Probleme, die darin 

begründet sind, daß Sprache auch viele nicht stimmhafte Phasen enthält, 

daß Rauschen und Störgeräusche verschiedenster Art die Korrelationsmessungen 

und Cepstenbestimmung beeinträchtigen, und daß F0 selbst 

nicht konstant ist, sondern sich über die Zeit hinweg ändert – wodurch ja


der Beitrag zur Prosodie erst entsteht. Gute F0-Verfolger (Pitch-Tracker) 

erreichen korrekte Erkennungsraten in der Größenordnung von ca. 90% [?]. 

• Pausen 

Aus der Dialogforschung weiß man, auch Nichtsprechen kann ein bedeutungstragender 

Sprechakt sein. Die Position und Länge von Pausen in 

einer Äußerung bestimmen die Prosodie dieser Äußerung mit. Bei nicht 

allzu verrauschten Aufnahmen bedarf es in der Regel keiner besonderen 

Pause-Detektoren. Alle ausreichend mächtigen Spracherkenner verwenden 

ein besonderes Pause- oder Stille-Wort, das von den meisten Instanzen 

eines Erkenners wie ein reguläres Wort behandelt wird und als solches 

auch in der Erkennerhypothese ausgegeben werden kann. 

• Betonung / Lautstärke 

Teilweise geht die Betonung eines Teils einer Äußerung einher mit einer 

Anhebung der Stimme (Erhöhung von F0). Der andere Weg zur Betonung 

ist die Erhöhung der Lautstärke. Auch wenn die empfundene Lautstärke 

etwas anderes ist als die Signalenergie, sowohl wegen der unterschiedlichen 

Phon und dBA Skalen als auch wegen der Tatsache, daß verschiedene 

Laute an sich schon in der unbetonten Version verschiedene typische 

Energien haben, so genügt in der Regel die Messung der Signalenergie zur 

Bestimmung der Lautstärke. 

• Rhythmus 

Der Rhythmus einer Äußerung wird durch den Lautstärkeverlauf und 

durch die Abfolge von Pausen und Sprache bestimmt. Er beschreibt 

mehr als nur eine lokale Betonung oder Hervorhebung sondern umfaßt 

weiterreichende die gesamte Äußerung umfassende Eigenschaften. 

Die prosodische Analyse einer sprachlichen Äußerung wird in zwei Phasen 

durchgeführt. In der ersten Phase werden die oben beschriebenen Merkmale 

bestimmt. In der zweiten Phase werden diese Merkmale beziehungsweise die 

zeitliche Abfolge dieser Merkmale analysiert und bestimmte Eigenschaften 

der Äußerung klassifiziert. Zum Beispiel, ob es sich um eine Frage handelt. 

Zu den durch die Prosodie klassifizierbaren Eigenschaften gehören: 

• Intention der Äußerung

War die Äußerung eine Aussage, eine Frage 

oder ein Befehl? Am einfachsten ist die Frage 

von einer gewöhnlichen Aussage zu Unterscheiden, 

weil bei Fragen üblicherweise am Ende 

die Grundfrequenz F0 angehoben wird. Die 

gleiche Wortfolge kann so einmal eine Aussage 

sein und einmal eine Frage (siehe nebenstehen- 

de Abb.). 

F0 

23.2 Prosodie 393 

” Es regnet.“ 

F0 

” Es regnet?“ 

Über die Eigenschaften Aussage/Frage hinaus gibt es noch die Unterscheidung 

nach Dialogakten, so kann eine Aussage initiativ sein. Ein völlig 

unbetontes ” Dieses Auto ist rot.“ dient lediglich der Informationsübermittlung. 

Wenn in dem Satz die Betonung auf das Wort ” ist“ gelegt wird, 

dann handelt es sich eher um eine Entgegnung beziehungsweise um die 

Kundgebung des Nichteinverstandenseins mit einer vorherigen Äußerung 

des Dialogpartners. 

• Aufmerksamkeitssteuerung 

Mit Hilfe der Prosodie kann durch Betonung bestimmter Wörter oder 

Phrasen die Aufmerksamkeit der Zuhörer auf diese gelenkt werden. 

Dadurch ändert sich zwar nicht die Bedeutung der Äußerung an sich, 

aber sehr wohl die Bedeutung der Äußerung oder der betonten Phrase im 

Zusammenhang mit den vorhergehenden und nachfolgenden Äußerungen. 

Zum Beispiel ist die Betonung des Wortes ” dieses“ im Satz ” Dieses Auto 

ist rot.“ als Kontrast zu Aussagen über Farben anderer Autos in früheren 

Äußerungen zu sehen, und ergibt erst zusammen mit den vorhergehenden 

Äußerungen seinen gesamten Sinn. 

• Auflösung von Ambiguitäten 

Oft ist die Kontrolle des Rhythmus oder die Positionierung von Pausen 

notwendig, um mehrdeutige Aussagen eindeutig zu machen. Da wir 

keine Satzzeichen sprechen, kann man aus einer prosodielosen monotonen 

Äußerung der Wortfolge ” Montag paßt mir nicht aber Dienstag“ die 

Bedeutung nicht zweifelsfrei extrahieren. Diese Worte können nämlich 

einmal wie ” Montag paßt mir, nicht aber Dienstag“ und ein anderes Mal 

wie ” Montag paßt mir nicht, aber Dienstag“ interpretiert werden. Wenn 

wir diesen Satz verständlich artikulieren wollen, müssen wir an der Stelle, 

an der in der Schriftform ein Komma steht, eine Pause machen. 

• Ausdruck der Emotionslage 

In der Prosodie spiegelt sich oft auch die emotionale Lage des Sprecher 

wider. Übermäßige Lautstärke, schneller Rhythmus und übertriebene 

Betonung sind oft Zeichen für Ärger. Eine betonungsarme leise Sprache


ist eher ein Hinweis auf eine traurige Gemütslage. Das Wissen um den 

emotionalen Zustand ist gerade für Dialogsysteme wichtig, die sich auf 

den Dialogpartner und seine aktuelle Lage einstellen sollten. 

23.3 Parsing 

Aus der Programmierung in sogenannten höheren Programmiersprachen ist 

der Begriff des Parsers bekannt. Ein Parser (im Deutschen oft auch Zerteiler 

genannt) hat die Aufgabe aus einer für Menschen einfach lesbaren Darstellung 

eines Programms eine Darstellung zu erzeugen, die für die Maschine leichter 

zu verarbeiten ist. Der gleiche Begriff wird bei der linguistischen Analyse 

sprachlicher Wortfolgen verwendet. In diesem Abschnitt soll keine komplette 

Einführung in das Parsing gegeben werden. Dem Leser soll vor allem ein Eindruck 

davon vermittelt werden, welche Techniken beim Verstehen natürlicher 

Sprache Verwendung finden. 

23.3.1 Grammatische Zerteiler 

Die allermeisten Zerteilen für natürliche Sprache basieren auf einer im 

vergleich zu Programmiersprachen sehr viel größeren Menge an Regeln 

(sogenannte Produktionen). Solche Regelwerke lassen sich in eine der Kategorien 

” syntaktische Parser“ oder ” semantische Parser“ einordnen. Komplexe 

Parser enhtalten aber oft Anteile beider Kategorien. Snytaktische Parser 

orientieren sich mehr an den Regeln, wie Wörter zusammengesetzt werden 

können, um sinnvolle Sätze zu Bilden. Dabei spielen vor allem grammatische 

Konstrukte eine Rolle (s. linke Seite von Abb. 23.2), bei semantischen Parsern 

spielt die Anordnung der Wörter bzw. ihre grammatischen Bedeutungen 

eine untergeordnete Rolle (s. rechte Seite von Abb. 23.2). Hier kommen vielmehr 

semantische Eigenschaften, d.h. die Bedeutung der Wörter zum Tragen. 

In der Praxis erweist sich als besonderer Unterschied zwischen syntaktischen 

und semantischen Parsern ihre Domänen(un)abhängigkeit. 

Syntaktische Parser sind daher eher domänenunabhängig, da sie keine das 

Thema der zu analysisrenden Wörter betreffenden Informationen benötigen 

oder verarbeiten. Semantische Parser hingegen, können nach dem heutigen 

Stand der Technik nur domänenabhängig sein. Wenn, wie in Abb. 23.2 

dargestellt, Begriffe wie ” Essenswunsch“ modelliert werden, so is dies ein 

so konkretes ereignis, daß dieses in der allgemeinen Sprache nur sehr selten 

vorkommt. Eine entsprechende Regel würde z.B. nur sinnvoll als Teil eines 

Restaurant-Dialog-Parsers verwendet werden. Ein semantischer Parser für 

allgemeine themenunabhängige Sprache würde viel mehr Regeln benötigen

Syntaktischer Parser Semantischer Parser 

Nominalphrase Verbalphrase 

Nomen Hilfsverb 

PETER WILL 

Satz 

Nominalphrase 

Nomen 

PUDDING 

Verbalphrase 

Verbalphrase 

Verb 

ESSEN 

Essenswunsch 

Esser Essen 

Abb. 23.2. Verschiedene Arten von Zerteilern (Parsern) 

PETER PUDDING 

23.3 Parsing 395 

WILL ESSEN 

als in akzeptabler Zeit von Menschen zusammengetragen werden könnten, 

er ist also domänenabhängig. 

Eines haben alle grammatischen Parser gemeinsam. Sie verarbeiten Terme 

und ersetzen Teile dieser Terme durch andere Terme (Termersetzungssystem). 

Die Terme befinden sich stets zwsichen zwei extremen, dem Extrem 

der ursrpünglichen Darstellung (d.h. der zu parsenden Wortfolge) und der 

Darstellung als Interpretation der Wortfolge. Es ist üblich, die Wörter (oder 

Symbole) der Wortfolge als ” Terminale“ und die Symbole der Interpretation 

als ” Nichtterminale“ zu bezeichnen. Ziel des Parsers ist es stets, eine Folge 

von Regelanwendungen zu finden, die eine Darstellung aus dem einen in das 

andere Extrem überführen. Man spricht von 

23.3.2 Suchstrategien 

Ab einer gewissen Komplexität des grammatikalischen Regelwerkes und 

der zu verstehenden Wortfolge ist es nicht mehr möglich, alle erlaubten 

Folgen von Regelanwendungen auszutesten. Die kombinatorische Explosion 

ist einfach zu groß. Es ist also nötig, den Suchraum geeignet zu beschneiden. 

Genauso wie bei der Suche nach wahrscheinlichen Zustandsfolgen im Viterbi- 

Algorithmus oder nach wahrscheinlichen Wortfolgen im One-Stage Dynamic 

Time Warping so kann man auch beim Zerteilen von Wortfolgen einzelnen 

Regeln und auch ganzen Folgen von Regeln Wahrscheinlichkeiten zuordnen, 

so daß für jede partielle Zerteilung (Parsebaum) eine Wahrscheinlichkeit 

(oder zumindest eine entsprechende Bewertung) berechnet werden kann, 

die dann als Basis für die Beschneidung des Suchraums dienen kann. Eine


Strahlsuche kann dann entscheiden, welche Parsebäume expandiert werden 

sollen und welche verworfen werden. 

Ganz abgesehen davon, daß in vielen Fällen Zerteilungen nicht eindeutig 

richtig oder falsch sind, kann durch eine Beschneidung des Suchraumes eine 

partielle Zerteilung verworfen werden, die wenn sie expandiert worden wäre, 

schließlich doch zur besten bzw. wahrscheinlichsten Zerteilung geführt hätte. 

Neben der Entscheidung, welche Zustände expandiert werden sollen, 

bleibt noch die Entscheidung, in welche Richtung die Suche durchgeführt 

wird. In jedem Fall wird eine Folge bzw. Baum von Regelanwendungen 

gesucht, an dessen Wurzel das Startsymbol der Grammatik steht, und an 

dessen Blättern die Wörter der zu verstehenden Wortfolge als Terminalsymbole 

stehen. 

Ebenso wie bei der Ballung akustischer Modelle (Abs. 17.2) lassen sich 

auch Parsebäume nach der bottom-up oder nach der top-down Methode 

konstruieren. Entsprechend unterscheidet man zwischen Bottom-Up-Parsern 

und Top-Down-Parsern. Bei Bottom-Up-Parsern besteht die Ausgangslage 

aus den Blättern, die nun wie bei der agglomerativen Ballung auf verschiedene 

Arten zu syntaktischen oder semantischen Einheiten zusammengefaßt 

werden, solange bis schließlich bei der letzten Zusammenfassung nur noch 

das Startsymbol entsteht. Erst dann wird aus dem Parse-Wald ein richtiger 

Parsebaum, denn erst dann gibt es nur noch eine Wurzel, wobei bis dahin 

viele einzelne Teilbäume auf verschiedenen Teilen der Wortfolge berechnet 

worden sind. 

Beim Top-Down-Parsen besteht jeder Zustand des Suchraumes aus 

einem richtigen Parsebaum, bei dem allerdings nicht alle Blätter Terminale 

sind. Die Suche ist erst dann zu Ende, wenn jedem Blatt des Baumes ein 

Terminalwort zugeordnet wurde. 

Beide Verfahren, top-down und bottom-up, haben Vor- und Nachteile. 

Der Vorteil des Top-Down-Parsens besteht darin, daß jeder Zustand des 

Suchraums einem ” grammatikalisch“ korrekten Parsebaum entspricht. So 

kann es nicht vorkommen, daß nach der Grammatik unzulässige Interpretationen 

untersucht werden. 

Der Nachteil des Top-Down-Verfahrens liegt in der Schwierigkeit, den 

Suchraum zu beschneiden. Schon bei kleinen Grammatiken mit kleinem Regelwerk 

können nach wenigen Regelanwendungen eine astronomische Zahl an 

möglichen partiellen Parsebäumen entstehen, die noch kein einziges Terminalsymbol 

enthalten. Ein reines Top-Down-Parsen hat also dann keinen Sinn, 

wenn so Beschneidungen des Suchraums vorgenommen werden müssen, be-

... 

SEIN RASEN GRÜNT 

Verb Verb Verb 


... 

... 

Nomen Verb Verb 


... 

Nominalphrase 

Pronomen 

... 

Pronomen 

Verbalphrase 


Nominalphrase 

Pronomen 

Nomen 


Satz 

Nomen 

Verb 

Nomen 

Verb 

Nominalphrase Verbalphrase 

Pronomen 

Verbalphrase 

Verb 


Nomen 

SEIN RASEN 

Abb. 23.3. Der Suchraum beim Bottom-Up-Parsing 

... 

... 


Verb 

GRÜNT 

vor auch nur ein Wort aus der zu analysierenden Wortfolge betrachtet wurde. 

Der Vorteil des Bottom-Up-Parsens besteht darin, daß alle Suchzustände 

aus Parsewäldern bestehen, die zu der Wortfolge passen. Allerdings kann 

es dazu kommen, daß die vielen (unabhängig voneinander konstruierten) 

Bäume des Parsewaldes nicht mehr zusammengefaßt werden können und das 

Startsymbol nicht mehr erreichbar ist.


Nominalphrase 

Nominalphrase 

Artikel Nomen 

... 

... 

Satz 

Satz 

Satz 

Verbalphrase 

... 

Satz 

Verbalphrase 

Verb Nominalphrase 

Artikel Nomen 

Nominalphrase 

Possesivpronomen 

Verbalphrase 

Nomen 

... 

... 

Verbalphrase 

Verb 


Abb. 23.4. Der Suchraum beim Top-Down-Parsing 

23.3.3 Repräsentation von Bedeutung 

Satz 

Verbalphrase 


Satz 

Verbalphrase 


... 

Satz 

Verbalphrase 

Nomen 

Richtig sinnvoll wird das Verstehen von Sprache erst dann, wenn mit der 

Bedeutung ” gerechnet“ werden kann, d.h. wenn z.B. Fragen beantwortet 

werden können, Daten gesammelt und zu neuen Sachverhalten zusammengelegt 

werden können. Dazu ist es nötig, ein Kalkül zu verwenden, das es 

erlaubt, aus vorhandenem Wissen neues abzuleiten, den Wahrheitsgehalt 

von Aussagen nachzuprüfen und neue Aussagen zu treffen. Ein besonders 

geeigneter Formalismus dafür ist die bekannte Prädikatenlogik. Zweifellos ist 

es so, daß die allgemeine Prädikatenlogik - schon die Prädikatenlogik erster 

Ordnung (PL1) - uns ein viel mächtigeres Werkzeug in die Hand gibt, als für 

die Darstellung der meisten einfachen Sachverhalte, wie sie in alltäglicher 

Sprache beschrieben werden, nötig ist. Andererseits ist es aber auch so, daß 

die natürliche Sprache wegen ihrer Ambiguität Möglichkeiten hat, die sich


weder durch exakte Logik noch durch eine Fuzzy Logic sinnvoll nachbilden 

lassen. Man denke nur an solche Dinge wie Humor, Ironie, Sarkasmus und 

andere Phänomene, die nicht einmal von Menschen eindeutig und objektiv als 

solche erkannt werden können. Und wenn wir noch die Ergebnisse von Gödel 

und die sprachliche Möglichkeit, Paradoxien zu formulieren, betrachten, 

dann müssen wir der natürlichen Sprache eine Mächtigkeit zugestehen, die 

weder mit der PL1 noch mit Logiken höherer Stufen oder modalen Logiken 

erreichbar ist. In der Praxis sind solche Überlegungen bis heute nur selten 

von Bedeutung. Die heutigen, Sprache verstehenden Systeme sind noch 

sehr weit weg von der Leistungsfähigkeit, die ein nennenswert kompliziertes 

Kalkül benötigen würde. Daher werden oft auch für die Repräsentation von 

Wissen Ansätze verwendet, die eher in die Richtung von Entity-Relationship 

Modellen, KL-ONE, relationaler oder auch objektorientierter Datenbanken 

gehen. Solche Systeme sind ausreichend erforscht und ausreichend mächtig, 

um die Informationen zu modellieren, die in gewöhnlichen sprachlichen 

Dialogen ausgetauscht werden, und auf diesen Informationen einfache, aus 

der Logik abgeleitete Operationen durchzuführen. Dennoch haben alle diese 

Systeme als Grundlage die Prädikatenlogik, lediglich die Darstellung und die 

implementierten Kalküle unterscheiden sich. Daher werden wir im folgenden 

auch bevorzugt sprachlich geäußerte Sachverhalte als prädikatenlogische 

Formeln darstellen. 

Eine mögliche Darstellung des Satzes ” Peter ißt.“ könnte sein: 

Essen(Peter). Hierbei wird Peter als eine Konstante betrachtet und 

Essen als ein einwertiges Prädikat, das angibt, ob das Argument gerade ißt 

oder nicht. Ein Prädikat kann also für ein Ereignis verwendet werden. Die 

Argumente des Prädikats sind dann die Eigenschaften des Ereignisses. Das 

Prädikat ist genau dann wahr, falls das Ereignis stattfindet. Nun könnte 

der Satz aber auch komplizierter sein, zum Beispiel ” Peter ißt Pudding.“ 

Um diesen Sachverhalt darzustellen, können wir nicht dasselbe Prädikat 

verwenden, weil es nicht in der Lage ist die zusätzliche Information über 

das Gegessene darzustellen. Wir brauchen daher ein anderes Prädikat, zum 

Beispiel EssenWas(Peter,Pudding). Dieses Prädikat ist zweiwertig und 

beinhaltet schon in seinem Namen, daß es nicht nur die essende Person, 

sondern auch das, was gegessen wird, ausdrückt. Es ist wahr, genau dann 

wenn Peter Pudding ißt, aber nicht, wenn er einen Apfel ißt. Wir können 

uns nun leicht vorstellen, welche Komplikationen nötig wären um auch Ereignisse 

wie ” Peter ißt abends gerne zum Nachtisch einen Pudding in seinem 

Lieblingslokal.“ Es erscheint nicht besonders sinnvoll, eine Wissensbank zu 

entwerfen, die auch das Prädikat EssenWerWasWoWannWieWozu mit fünf oder 

mehr Argumenten verwendet. An dieser Stelle bietet es sich an, das Ereignis 

selbst als Variable zu sehen und die Eigenschaften des Ereignisses jeweils 

mit eigenen Prädikaten zu modellieren:


∃w : Essen(w) ∧ Wer(w,Peter) ∧ Was(w,Pudding) ∧ 

Wo(w,Lieblingslokal) ∧ Wie(w,gerne) ∧ 

Wann(w,abends) ∧ Wozu(w,Nachtisch) 

also eine Konjunktion mehrerer Prädikate. So ist es leicht möglich, Ereignisse 

mit beliebig vielen Eigenschaften zu modellieren. Braucht man eine 

zusätzliche, während des Entwurfsprozesses noch nicht benutzte Eigenschaft 

A eines Ereignisses e, dann führt man ein neues Prädikat N(e, A) ein. 

Ereignisse, wie wir sie oben eingeführt haben, müssen nicht unbedingt 

” temporale“ Entitäten sein. Sie können auch konzeptuelle“ Entitäten sein. 

” 

Man spricht dann von Kategorien oder Konzepten. So drückt zum Beispiel 

der Satz Peter mag Pudding.“ kein konkretes Ereignis aus. Dennoch kann 

” 

man es mit Hilfe eines PrädikatsMögen(Peter,Pudding), das die Argumente 

WerMagEtwas und WasWirdGemocht hat, gut modellieren. 

Eine beliebte Repräsentation von Konzepten, Kategorien oder Ereignissen 

ist die Darstellung als so genannte Fallschablonen (engl.: case frames). 

Eine Fall-Schablone ist ein Behälter, der einen Namen hat, wodurch das 

modellierte Konzept beschrieben wird, und verschiedene Attribute. Dies ist 

ganz analog zur Darstellung von Klassen und Objekten in objektorientierten 

Modellen (z.B. UML). Eine Besonderheit der Fallschablonen ist, daß die 

Attribute keine Werte besitzen müssen. Eine Schablone kann also auch unvollständig 

ausgefüllt sein. In diesem Fall sind dann nicht alle Eigenschaften 

bekannt: 

” Peter ißt Pudding.“ 

Essen 

Wer Peter 

Wo 

Was Pudding 

Wann 

Wie 

Wozu 

23.3.4 Fallschablonenzerteiler 

” Peter ißt gerne abends Pudding.“ 

Essen 

Wer Peter 

Wo 

Was Pudding 

Wann abends 

Wie gerne 

Wozu

24. Dialogsteuerung 

Ein Dialog hat gegenüber einer einseitigen Mensch-Maschine Kommunikation 

einige wesentliche Vorteile. Damit ist nicht nur die Selbstverständlichkeit 

gemeint, daß ein Dialog ” natürlicher“ ist als ein Monolog, und daß sich 

der Benutzer wohler fühlt. Aus der Sicht des Entwicklers sprachgesteuerter 

Systeme kann ein Dialog zwar einem System zusätzliche Komplexität 

verleihen, aber dafür erleichtert er auch in vielen anderen Bereichen die 

Probleme. So kann zum Beispiel mit Hilfe eines Dialoges dem Benutzer 

mitgeteilt werden, in welcher Phase der ” gemeinsamen“ Problemlösung man 

sich befindet. Oft ist es so, daß unvorbereitete oder ungeübte Benutzer von 

sprachgesteuerten Systemen nicht wissen, was von ihnen erwartet wird. Die 

Folge ist nicht nur, daß der Benutzer leicht Sätze formuliert, die nicht im 

vorgesehenen Szenario liegen, sondern auch daß die Sprache selbst unsicher 

wird und die akustischen Eigenschaften vom Normalfall erheblich abweichen. 

Eingespannt in einen Dialog hat der Benutzer die meiste Zeit über eine 

Rückkopplung und eine genauer umrissene Erwartungshaltung des Systems. 

Viele existierende Dialogsystemen – wenn man sie überhaupt so bezeichnen 

möchte – stellen die Benutzer vor das Problem, nicht genau zu wissen, 

was das System kann, und wie man sich als Benutzer verhalten sollte. So 

manche automatischen Telefonschnittstellen, bei denen ein ” Dialog“ mit 

Hilfe der Telefontastatur geführt werden soll, sind äußerst unfreundlich. Der 

Benutzer muß manchmal sehr lange warten um sich Optionen anzuhören, 

die er nicht benötigt oder nicht versteht, nur um schließlich doch die Taste 

zu betätigen, die ihn mit einem menschlichen Gesprächspartner verbindet. 

In einem natürlichsprachlichen oder sogar multimodalen Dialogsystem ist es 

viel leichter Möglich, den Benutzer aufzuklären, was er tun oder sagen kann 

und ihm bei bestimmten Problemen unter die Arme zu greifen. Nicht nur 

die Möglichkeit, den Benutzer zu informieren, sondern auch die Möglichkeit, 

ihn zu steuern, ist ein weiterer wichtiger Aspekt von Dialogsystemen. Im 

Extremfall kann das Dialogsystem von Benutzer verlangen, daß dieser nur 

eines aus einer kleinen Liste von erlaubten Kommandos äußert, so daß 

auf diese Art das Erkennervokabular klein gehalten werden kann und die 

Erkennungsrate hoch bleibt. Gerade die korrekte Reaktion in Fällen von 

Kommunikationsproblemen wie Erkennungsfehlern oder Fehlbedienungen ist

402 24. Dialogsteuerung 

ein Dialog sehr hilfreich. 

Grundsätzlich ist es auch möglich, die restriktive Wirkung des Dialogs 

an die aktuelle Situation anzupassen. Wenn aus irgendwelchen Gründen 

die Kommunikation schwierig wird, zum Beispiel durch schlechte akustische 

Verhältnisse, dann kann der Dialog die Freiheit des Benutzers einengen, und 

in Phasen leichter Verständlichkeit wieder mehr Freiheit gewähren (s. Abb. 

24.1). Schließlich sind Dialogsysteme das Mittel der Wahl zur Lösung komplexer 

Aufgaben, die sich in einem Monolog nur schwer formulieren lassen. In 

einem Dialog kann das System den Benutzer nach fehlenden Informationen 

fragen, ihn auf Fehler in seinen Kommandos aufmerksam machen und auch 

selbst Vorschläge zum weiteren Vorgehen machen. Es kann Inkonsistenzen 

erkennen und ein Klärungsgespräch führen, ehe es zum normalen Verlauf des 

Dialogs zurückkehrt. 

beginne mit 

maximaler Freiheit 

Benutzereingabe 

Eingabe klar 

verständlich? 

Systemantwort 

erhöhe Freiheit 

verringere Freiheit 

Abb. 24.1. Dialogs mit anpaßbarer Freiheit für Benutzereingaben 

Das Schema eines typisches Dialogsystem ist in Abb. 24.2 dargestellt. 

Die zentrale Komponente ist der Dialogmanager (oft auch Dialog Controller 

genannt, obwohl manche Autoren diese Begriffe semantisch trennen). Er 

enthält verbale Eingaben, entweder durch Eintippen oder – wie in der 

Abbildung dargestellt – als Hypothesen eines Spracherkenners, und er 

produziert Ausgaben die vom Ausgabemanager in Form von Grafiken, Textausgaben 

oder – wie abgebildet – als synthetisierte Sprache dem Benutzer 

präsentiert werden. Der Dialogmanager benutzt einen Algorithmus zum

24.1 Einheiten der sprachlichen Kommunikation 403 

Entscheiden welche Ausgabe er macht. Dieser Algorithmus benutzt nicht 

nur die letzte Eingabe, sondern er greift auch auf ein statisches Weltwissen 

in einer Wissensdatenbank und auf ein dynamisch von ihm selbst angelegtes 

Kontextwissen zu. Die statische Wissensdatenbank enthält Informationen 

über die Domäne (Objekte, Personen, Ereignisse, deren Namen und Eigenschaften, 

etc.). Die Kontextdatenbank enthält Informationen, die aus den 

Benutzereingaben extrahiert wurden (was wünscht der Benutzer, was weiß 

er, welche Daten hat er eingegeben, etc.). 

Wissens- 

datenbank 


Hypothese 

Dialog- 

manager 

Kontext- 

wissen 

Sprach- 

synthese 

Ausgabemanager 

Abb. 24.2. Dialogsystem mit Sprachein- und Sprachausgabe 

24.1 Einheiten der sprachlichen Kommunikation 

Im Zusammenhang mit Dialogsystemen werden verschiedene Verarbeitungseinheiten 

verwendet. Die aus der Linguistik bekannte und wohl 

als naheliegendste sinntragende Einheit ist ein Satz. Allerdings ist die 

Definition eines Satzes nicht selbstverständlich. Je nachdem, worauf es 

gerade ankommt, kann man zwei durch Komma getrennte Hauptsätze als 

einen Satz oder als zwei Sätze bezeichnen. Einige Wortfolgen bilden an sich 

keinen ” korrekten“ bzw. vollständigen Satz, weil ihnen ein oder mehrere 

wichtige Bestandteile wie Subjekt und Prädikat fehlen. Imperativsätze 

können durchaus auch ohne explizit angegebenes Subjekt vollständig sein 

(zum Beispiel. ” Geh schlafen!“). Ein einfaches ” Ja.“ enthält weder Subjekt


noch Prädikat, und dennoch gehört es zu dem am häufigsten gehörten 

Äußerungen in den meisten Dialogen. Daher genügt der linguistische Begriff 

eines Satzes nicht, um alle Phänomene zu beschreiben, mit denen wir uns 

hier als Verarbeitungseinheiten in einem Dialogsystem beschäftigen. 

Eine aus Sicht der Spracherkennung geeignetere Einheit ist die Äußerung 

(utterance). Sie beinhaltet alles, was ein Sprecher zwischen zwei 

(nicht all zu kurzen) Pausen sagt. Dies kann ein vollständiger Satz sein, 

kann aber genauso auch nur ein Satzfragment, eine Phrase, ein einzelnes 

Wort oder gar nur ein Laut sein, andererseits aber auch aus mehreren 

aufeinanderfolgenden Sätzen bestehen. Viele Dialogsysteme, die von ihrem 

Benutzer nicht verlangen, den Beginn und das Ende einer Aufnahme durch 

Betätigen einer Taste zu markieren, verwenden Sprachdetektoren, die den an 

sich unbegrenzten Audiostrom segmentieren. Ein Segment ist üblicherweise 

von zwei Stillephase umgeben und entspricht einer Äußerung. 

In Dialogen (oder – wenn es den Begriff gäbe – in Polylogen) kann ein 

Sprecher mehrere Äußerungen tätigen, bevor ein anderer einen Dialogbeitrag 

leistet. Im Englischen wird die Menge der Äußerungen eines Sprechers, die 

er ununterbrochen macht, als Turn bezeichnet. Im Deutschen wurde diesem 

Begriff bisher kein anderes Wort als Übersetzung gegeben, so daß auch im 

Deutschen das Wort Turn verwendet wird. In vielen Sprachdatenbanken, die 

auch heute noch sehr oft mit expliziter Markierung von Aufnahmeanfängen 

und -enden gemacht werden, fällt der Begriff Turn meist mit dem Begriff 

Äußerung zusammen. 

Ein Dialog ist demnach eine folge von Turns, die abwechselnd von 

dem einen und dem anderen Dialogpartner kommen. Die Problematik des 

Gleichzeitigsprechens mehrerer Sprecher ist in der Spracherkennung noch 

nicht ausreichend behandelt. Vor allem bei Mensch-Mensch-Dialogen ist 

sogenannter crosstalk zu beobachtet. Bei Mensch-Maschine-Dialogen ist 

es unproblematisch, die Sprachsynthese abzubrechen, wenn die Maschine 

feststellt, daß der menschliche Dialogpartner spricht. Aus diesen Gründen ist 

eine gesonderte Untersuchung des Gleichzeitigsprechens bei der Entwicklung 

von automatischen Dialogsystemen eher uninteressant, und wir gehen davon 

aus, daß die Sprecher bzw. der Sprecher und die Maschine sich abwechseln. 

Eine bestimmte Art des Gleichzeitigsprechens tritt jedoch so häufig auf, 

daß sie an dieser Stelle erwähnt werden muß. Dabei handelt es sich um die 

sogenannten Back-Channels. Sie sind keine Turns im eigentlichen Sinne. Es 

handelt sich vielmehr um sehr kurze Äußerungen, die man macht, während 

der Dialogpartner spricht, ohne diesen dabei zu unterbrechen. Das sind meist 

Äußerungen der Art ” hm“, ” ja“, ” aha“, ” oh“, ” okay“, die im wesentlichen 

nur das Vorhandensein der Aufmerksamkeit vermitteln sollen, bestenfalls

24.2 Sprechakte 405 

enthalten sie Information über Zustimmung, Erstaunen, Ablehnung und 

Ähnliches. 

Wenn der Turn des Dialogpartners unterbrochen oder abgebrochen wird, 

weil man selbst anfängt zu sprechen und der Dialogpartner daraufhin aufhört, 

wird im Englischen als Barge-In bezeichnet. Dieses Nicht-Ausredenlassen 

oder Hineinreden führt zum Wechsel des Turns. 

Selbst ganze Dialoge können selbst wiederum Bestandteile bzw. Untereinheiten 

anderer Dialoge sein. So redet man von Subdialogen, wenn der 

” eigentliche“ Dialog für kurze Zeit beiseite gelegt (geparkt) wird, während 

man sich einem speziellen Teilthema widmet. Nachdem dann der Subdialog 

beendet wird, wird der Hauptdialog fortgesetzt. Dies ist vergleichbar mit der 

Verwendung von Nebensätzen. Entsprechend kann es vorkommen, daß der 

” eigentliche“ Dialog verlassen wird um über den Dialog selbst zu reden. In 

diesem Fall reden wir von Metadialogen. 

24.2 Sprechakte 

Einige der oben aufgeführten Kommunikationseinheiten (meistens Äußerungen 

oder Turns) enthalten nicht nur einen semantischen Inhalt, wie er von 

einem Parser ermittelt würde, sondern auch eine Intention. Diese Intention, 

die ein Sprecher mit dem Sprechen verfolgt nennen wir Sprechakt. Der Einfachheit 

halber unterscheiden wir nicht zwischen verschiedenen Sprechakten 

in Abhängigkeit von der Kommunikationseinheit. Ein Sprechakt kann aus 

mehreren Kommunikationseinheiten bestehen, und eine Kommunikationseinheit, 

selbst ein kurzer Satz, kann mehrere Sprechakte beinhalten. 

Sprechakte können zum Beispiel als Aussage, Frage oder Antwort 

beschrieben werden. Um was für einen Sprechakt es sich bei einer Äußerung 

handelt, ist nicht immer eindeutig. Man denke zum Beispiel an rhetorische 

Fragen. Ebenso uneindeutig ist die Art der Unterteilung von Sprechakten in 

Klassen. Eine häufig verwendete Unterteilung ist die in sogenannte lokutive, 

illokutive und perlokutive Sprechakte. Gelegentlich liest man auch die 

Bezeichnungen lokutionär, illokutionär und perlokutionär (im Englischen: 

locutionary, illocutionary, perlocutionary). Diese Unterteilung wird als 

Klassifizierung in verschiedene Ebenen bezeichnet. 

Bei lokutiven Sprechakten handelt es sich um das direkte Ausdrücken 

eine Sachverhaltes. Man kann sagen, ein Satz hat seine Semantik als 

Bedeutung. Lokutive Sprechakte dienen meist dazu, eine Information zu 

übermitteln. Wenn ein Sprecher sagt: ” Draußen ist schönes Wetter.“, und


der Zweck dieser Aussage ist lediglich eine Feststellung, dann ist dies ein 

lokutiver Sprechakt. 

Illokutive Sprechakte sind eher eine indirekte Ausdrucksweise. Ein 

Elternteil, das gerade mit einer wichtigen Arbeit beschäftigt ist und vom 

Kind dabei gestört wird, könnten den selben Satz ” Draußen ist schönes 

Wetter.“ äußern, damit aber weniger die Information des Kindes im Sinne 

haben, sondern vielmehr der Wunsch, das Kind möge draußen spielen. 

Perlokutive Sprechakte haben den – oft direkt geäußerten, aber 

manchmal auch unbeabsichtigten – Zweck, beim Zuhörer einen Effekt zu 

bewirken, wie zum Beispiel ihn etwas glauben oder fühlen machen, oder 

sogar ihn dazu zu bewegen, bestimmte Handlungen durchzuführen. 

24.3 Diskursmodellierung 

Die Diskursmodellierung ist bestrebt vor allem zwei Fragen zu beantworten: 

” Welche Information enthält eine Folge von Sätzen über die Summe der 

Informationen der einzelnen isolierten Sätze hinaus?“ und “Wie beeinflußt 

der Kontext, in dem eine Äußerung gemacht wird, den Sinngehalt derselben?“ 

Diese Fragen wurden ursprünglich auf Texten untersucht. Obwohl es 

Gemeinsamkeiten zwischen Texten und gesprochenen Dialogen gibt, sind die 

Herausforderungen doch sehr verschieden. Wir wollen uns hier nur auf die 

gesprochenen Dialoge konzentrieren. 

Die Begriffe Dialog, Diskurs, Kontext, werden leider in der Literatur sehr 

unterschiedlich benutzt. Es hat wenig Sinn, zu versuchen, eine verbindliche 

Definition dieser Begriffe zu geben. Als Dialog werden derartig einfache Dinge 

wie Schaltflächen auf grafischen Benutzeroberflächen bezeichnet, aber auch 

derart komplexe Dinge wie die gesamte Steuerung umfangreicher Mensch- 

Maschine Kommunikationssysteme. In mancher Literatur ist mit Dialog nur 

der verbale Dialog gemeint, und andere Kommunikationsmodalitäten werden 

nicht dazu gerechnet. Diskurs und Kontext werden teilweise miteinander 

vertauscht. Die meisten Verwendungen dieser Begriffe überlappen sich in den 

Bedeutungen dahingehend, daß mit Dialog eine Komponente eines Systems 

gemeint ist, zu deren Aufgaben folgendes gehört: 

• Führen einer Folge von Interaktion zwischen mindestens zwei Dialogpartnern 

• Analyse der Benutzereingabe und Extraktion der Intention derselben 

• Erkennung eines oder mehrerer Ziele, die der Benutzer verfolgt 

• Aufbau und Pflege eines Kontextmodells

24.4 Entwicklung von Dialogsystemen 407 

• Planung der Schritte zum Erreichen der Ziele 

• Generierung von an den Benutzer gerichteten Kommunikationseinheiten 

24.4 Entwicklung von Dialogsystemen 

In der Forschung an der Dialogsystementwicklung werden vor allem zwei 

Ziele verfolgt: Die Gestaltung eines kooperativen auf Problemlösung ausgerichteten 

Dialogs und die Maximierung der Portabilität. Mit letzterem ist 

gemeint, daß Dialogsysteme mehr domänenunabhängig funktionieren sollen. 

Sie sollen bestimmte Interaktions- und Zielverfolgungsmuster realisieren, 

und des einem Nicht-Dialogexperten ermöglichen, sie an verschiedene 

Einsatzgebiete anzupassen. So sollte es beispielsweise dem Betreiber eines 

telefonischen Bestellservice möglich sein, festzulegen, welche Ziele bei einem 

Bestellungsgespräch erreicht werden sollen, welche Informationen dafür 

benötigt werden und wie die interne Objektdatenbank aufgebaut ist. Den 

Rest sollte das System automatisch erledigen können. 

24.4.1 Vorgehensweisen 

In der Forschung werden verschiedene Ansätze untersucht. Zu den wichtigsten 

gehören: 

• planbasierte Verfahren 

Hierbei wird ein Zustandsraum angenommen, in dem sich das System 

und somit der Dialog befinden kann. Verschiedene Sprechakte des Benutzers 

und verschiedene Reaktionen des Systems können verschiedene 

Zustandsübergänge hervorrufen. Ziel des Dialogsystems ist es, diejenigen 

Kommunikationsschritte zu unternehmen, die am wahrscheinlichsten 

und/oder am schnellsten zu dem gewünschten Dialogziel führen. Wenn 

zum Beispiel der Benutzer die Frage stellt: ” Entschuldigung, wissen Sie 

wie spät es ist?“ wäre eine Antwort wie ” Ich verzeihe Ihnen.“ oder ” Ja“ 

semantisch und logisch korrekt, führt aber nicht so schnell zum Ziel wie 

die Antwort ” Nein.“ oder ” Kurz vor sieben.“ 

• Dialoggrammatiken 

Ähnlich wie bei Grammatiken, die definieren, wie legal beziehungsweise 

wie wahrscheinlich eine Wortfolge ist, gibt es Grammatiken, die Folgen 

von Kommunikationsakten und deren Wahrscheinlichkeiten modellieren. 

Daß dies sinnvoll ist, erkennt man an typischen Paaren von zusammengehörigen 

Dialogakten (engl. adjacency pairs) wie Frage/Antwort,


Vorschlag/Zustimmung oder Vorschlag/Ablehnung und so weiter. Solche 

Grammatiken werden Phasenstrukturgrammatiken genannt. Sie können 

zum Beispiel in der beliebten Form von kontextfreien Grammatiken dargestellt 

werden. Die Terminale dieser Grammatiken sind Akte wie: Frage, 

Forderung, Angebot, Antwort, Entgegnung, Vorschlag, Zustimmung, 

Ablehnung, etc. Mit Hilfe der Phasenstrukturgrammatik kann der gesamte 

Dialog geparst werden. Verschiedene Dialogabläufe und Dialogziele können 

so erkannt beziehungsweise verfolgt werden. 

• Fallschablonenbasierte Systeme 

Ähnlich wie bei Fallschablonenparsern zum Verstehen einzelner Äußerung, 

können solche meist relativ flachen Parser dazu verwendet werden 

Fallschablonen aus den im Dialog gewonnenen Informationen zu füllen. 

Die zwei Herausragenden Aufgaben des Dialogsystems bestehen aus dem 

Erkennen, für was für eine Art Fallschablone die eingegebenen Informationen 

von Bedeutung sind, und Kommunikationsakte durchzuführen – meist 

Rückfragen stellen (engl. grounding) – die dazu führen, daß der Benutzer 

die für das Füllen einer Schablone nötige Informationen liefert. Wenn eine 

Schablone “voll“ ist, dann hat das System alles benötigte Wissen um die 

mit der Schablone in Verbindung stehende Aktion auszulösen. 

• Statistische Systeme 

Solche Systeme verwenden auch Zustände und Übergänge oder Grammatiken 

mit Regelwerken oder Fallschablonen, die Wahrscheinlichkeiten und 

Vorbedingungen für bestimmte Aktionen des Systems werden allerdings 

anhand von vielen Beispielen automatisch gelernt. Dem System müssen 

Beispieldialoge mit der Information, ob sie erfolgreich verlaufen sind oder 

nicht, präsentiert werden, worauf das System seine internen Parameter so 

einstellt, daß es möglichst erfolgreiche Dialoge führt. 

• Endliche Automaten 

Dialogsysteme auf Basis endlicher Automaten sind eine Art Spezialfall 

von Planbasierten System, die auch einen Zustandsraum haben, und auf 

Dialoggrammatiken basierenden Systemen. Allerdings sind die Grammatiken 

für Automaten in der Chomsky-Hierarchie. niedriger (CH-3 statt 

CH-2), und somit weniger mächtig als kontextfreie. Trotz der Einfachheit 

solcher Systeme sind sie beliebt, weil es selbst für Laien einfach ist einen 

Dialog zu definieren. Noch einfacher als bei kontextfreien Grammatiken 

kann man die Dialogstruktur auch grafisch darstellen und so schnell 

überblicken. Typische Probleme bei solchen Systemen sind zu beobachten,


wenn einzelne Dialogakte über mehrere Turns verteilt sind. Dann ist es 

schwer auf nur einem Turn die Intention zu erkennen und den Akt korrekt 

zu interpretieren. Umgekehrt kann es auch vorkommen, daß ein Turn 

multifunktional ist und eigentlich mehrere Dialogakte gleichzeitig enthält. 

Ein weiteres Problem grammatikbasierter Dialogsysteme besteht in der 

durch sie vorgegeben Strukturiertheit des Dialogs. Dadurch ist es zwar 

relativ einfach Das Verhalten des Systems zu definieren, allerdings mangelt 

es beim Einsatz an Flexibilität. Kleine Änderungen an der vorgesehen 

grammatikalischen Struktur können leicht zum Versagen des gesamten 

Systems führen. 

• regelbasierte Systeme (rational agency) 

Solche Systeme basieren auf einer Sammlung von Regeln und einem 

Inferenzsystem. Für besonders portable Systeme besteht das Regelwerk 

aus einen Teil domänenunabhängiger Regeln. Die Idee hinter rational 

agency ist die formale Beschreibung und Simulation von rationalem 

Verhalten. Typische Regeln sind zum Beispiel: 

System weiß: Benutzer kennt X 

⇒ System informiert Benutzer nicht über X 

oder 

System weiß: Benutzer kennt X nicht 

System weiß: Benutzer will Ziel Z erreichen 

System weiß: um Z zu erreichen, muß Benutzer X kennen 

⇒ System informiert Benutzer über X 

Um zu entscheiden, welche Aktionen das System als nächsten tun soll 

wendet es Methoden und Algorithmen aus dem Bereich des Automatischen 

Beweisens an. 

24.4.2 Gesprochene Sprache 

Gegenüber Dialogen auf grafischen Benutzeroberflächen oder textbasierten 

Dialogen mit Tastatureingabe treten bei gesprochenen Dialogen zusätzliche 

Probleme dadurch auf, daß die verwendeten Kognitiven Algorithmen zur 

Spracherkennung und Erfassung der Benutzeraktivitäten Fehler machen.


Selbst bei völlig fehlerfrei eingetippten Texten kommen sehr oft Mißverständnisse 

zustande, weil die Dialoggrammatiken nicht vollständig sind 

und nicht alle möglichen Benutzereingaben vorhergesehen haben, und weil 

viele Dialogakte ambig zu verstehen sind. Diese Probleme verstärken sich 

noch, wenn ein Vorgeschalteter Spracherkenner die für spontane Dialoge 

übliche 10% bis 20% Wortfehlerrate produziert. 

Zusätzlich entstehen Probleme durch spontane Effekte in der Sprache. 

Das geht über die akustischen Störungen hinaus. Durch solche Effekte wird 

nicht nur die Aufgabe für den Spracherkenner erschwert. Wenn Satzfragmente 

gesprochen werden, kann dies selbst bei perfekter Erkennung zu 

Problemen bei der Interpretation ihrer Intention führen. 

Wenn Dialogsysteme dazu verwendet werden multilaterale Dialoge mit 

der Beteiligung mehrerer Menschen zu unterstützen, dann sind vermehrt 

soziale Interaktionen zu beobachten. Wenn Menschen mit anderen Menschen 

reden gehen sie (in der Regel berechtigterweise) davon aus, daß 

die Dialogpartner ein bestimmten Weltwissen haben, das weit über das 

eines Computersystems hinaus reicht. So können bestimmte Sachverhalte 

manchmal durch Fallenlassen eines einzelnen Wortes oder einer kurzen 

Phrase angesprochen werden. Die Maschine hat dann ohne das Weltwissen 

keine Chance den Dialog zu verstehen. 

Darüber hinaus verwenden viele Menschen beim Führen eines natürlichsprachlichen 

Dialogs auch nichtverbale Kommunikationsakte durch. Oft wird 

ein beachtlicher Teil der Information durch Gesichtszüge, Bewegungen und 

Gesten übermittelt. Diese Art zu kommunizieren ist in vielen Menschen so 

verwurzelt, daß sie selbst beim Telefonieren gestikulieren und eine aktive 

Mimik an den Tag legen. Für andere Menschen ist es in der Regel sehr einfach 

diese Information zu Interpretieren. Manche Dialogakte wie Zustimmung 

oder Ablehnung können mit einer einfachen kurzen Bewegung verständlich 

gemacht werden. Für maschinelle Systeme, die nur auf der Hypothese eines 

Spracherkenners beruhen ist dies nicht möglich. Die Forschung an multimodalen 

Dialogen, in denen auch videobasierte Kognition der Benutzeraktivitäten 

verwendet wird, befindet erst in den Anfängen, ebenso wie die Forschung 

an der Berücksichtigung und Einbindung Emotionalen Verhaltens in Dialoge. 

24.4.3 Wizard-of-Oz Experimente 

Ein Problem, das bei der Entwicklung dialogbasierter Mensch-Maschine 

Kommunikationssysteme ist der Wunsch, diese möglichst realistisch zu 

gestalten. Realistisch bedeutet dabei zum einen, daß das System sich so 

verhalten soll wie es menschliche Benutzer erwarten, und zum anderen,


daß die Daten, die zur Entwicklung und zum Test des Systems verwendet 

werden, denen, wie sie beim fertigen System im Einsatz auftauchen sollen, 

möglichst nahe kommen. Gerade letzteres ist sehr schwierig zu erhalten. 

Die Erwartungen der Benutzer lassen sich aus Fragebögen oder aus vergleichbaren 

Mensch-Mensch-Dialogen extrahieren. Solange aber nicht zu 

erwarten ist, daß Maschinen genauso gute Dialogpartner wie Menschen sind, 

und solange die meisten Menschen mit einem maschinellen Dialogpartner 

ohnehin anders reden möchten als mit einem menschlichen, sind aufgezeichnete 

Mensch-Mensch-Dialog kein realistisches Vorbild für ein künstliches 

Dialogsystem. 

Bei der Datensammlung für die Spracherkennung kann meistens die 

Situation, in der später der Erkenner arbeiten soll simuliert werden, so daß 

die Sprachdaten relativ realistisch ausfallen. Eine Simulation des künstlichen 

Dialogsystems ist ohne seine Existenz sehr schwierig. Immerhin müßte ein 

guter Simulator ja schon die meisten Fähigkeiten des zu bauenden Systems 

haben. Die Problematik der besonderen Sprech- und Denkweise beim 

Kommunizieren mit Maschinen kann beim Sammeln der Beispieldialoge 

dadurch simuliert werden, daß der Testperson nur vorgegaukelt wird, sie 

würde mit einer Maschine sprechen. In Wirklichkeit ist für sie unsichtbar 

(und in manchen Datensammlungen sogar ohne sie zuvor davon in Kenntnis 

zu setzen) ein anderer Mensch (Experte oder Entwickler), der versucht die 

Reaktion des Systems manuell möglichst so zu generieren, daß der Benutzer 

(Datenspender) nicht merkt, daß ein Mensch dahintersteckt. 

Solche Situationen werden ” Wizard-of-Oz-Experimentierumgebungen“ 

genannt (s. Abb. 24.3). Wenn Teile des Systems schon entwickelt sind, kann 

die versteckte Person (der Wizard of Oz) wo möglich das System reagieren 

lassen und bei Bedarf sich selbst einschalten. 

Benutzer 

00 11 

11 00 

00 11 

11 00 

Benutzer- 

schnittstelle 

00 11 

11 00 

00 11 

11 00 

Abb. 24.3. Wizard-of-Oz-Experimentierumgebung 

11 00 

Maschine 

eingeweihter 

Mensch

25. Erkennung verschiedener Sprachen 

Auf der Welt gibt es mehrere tausend verschiedene Sprachen (die Schätzungen 

gehen von ca. 4000 bis nahezu 10000). Selbst Linguisten sind sich nicht 

immer einig darüber, ob es sich bei einem Paar um zwei eigenständige 

Sprachen oder um zwei Dialekte derselben Sprache handelt. Teilweise spielen 

historische Aspekte, teilweise auch politische Aspekte eine Rolle. So werden 

zum Beispiel das Kroatische und das Serbische von vielen Muttersprachlern 

aus politischen Gründen vehement als eigenständige Sprache verteidigt, 

obwohl die Unterschiede zwischen ihnen kleiner sind als zum Beispiel 

zwischen bairischem und Kölner Dialekt. Allerdings ist es auch so, daß nur 

ca. 100 bis 200 Sprachen von einer signifikanten Menge Personen gesprochen 

werden. Für den allergrößten Teil der Sprachen der Welt gibt es nur sehr 

wenige, manchmal nur einige Dutzend Sprecher. Teilweise existieren nicht 

einmal Schriftformen. 

Unter multilingualer Spracherkennung verstehen wir Systeme, die 

Komponenten haben, die prinzipiell unabhängig von einer bestimmten 

Sprache sind. Zwei wesentliche Gründe motivieren die Forschung, solche 

Systeme zu realisieren: Erstens sind wir noch weit davon entfernt, für alle 

wichtigen Sprachen gut funktionierende Erkenner zur Verfügung zu haben 

– geschweige denn für alle ca. 4000 Sprachen, und zweitens besteht die 

durchaus berechtigte Hoffnung, daß Erfahrungen, die mit einer Sprache 

gemacht werden, sich auch auf andere Sprachen anwenden lassen und so 

ein Synergieeffekt eintreten könnte, der einen multilingualen Erkenner im 

Schnitt zu besseren Erfolgen führt, als viele einzelne Erkenner. 

25.1 Eigenschaften verschiedener Sprachen 

Beim Beschäftigen mit verschiedenen Sprachen treten aus der Sicht des 

Spracherkennungsforschers Probleme auf, die aus linguistischer Sicht weniger 

bedeutsam sind oder bisher zumindest nicht besonders prominent waren. 

Allein schon die Frage nach der Definition eines Wortes scheint erstaunliche

414 25. Erkennung verschiedener Sprachen 

Probleme bereiten zu können. 

25.1.1 Definition eines Wortes 

In der Welt der Sprachen, die die lateinische oder kyrillische oder ähnliche 

Schriften verwenden, ist die Definition eines Wortes relativ einfach. Ein Wort 

ist das, was zwischen zwei Leerzeichen steht. Diese Definition hätte schon 

vor über 2000 Jahren standgehalten, einer Zeit in der noch keine Rede von 

Computerautomation und ASCII- oder UNI-Codes war. 

Aber schon beim Betrachten des Deutschen ist man sich nicht immer 

sicher, was aus linguistischer Sicht als einzelnes Wort betrachtet werden 

sollte. Wie wäre es mit ” Rad fahren“ gegenüber ” radfahren“ oder ” Europameisterschaft“ 

gegenüber ” Europa Meisterschaft“. Die neulich eingeführte 

Rechtschreibreform hilft, die Konfusion diesbezüglich noch zu erhöhen. Aber 

auch in anderen einfachen Sprachen ist die Wortdefinition nicht immer klar. 

Im relativ einfachen Englischen kann man ” videotape“ neben ” video tape“ 

verwenden. Noch schwieriger wird es in fernöstlichen Sprachen wie dem Chinesischen 

und dem Japanischen. Selbst wenn dort klar wäre, ob ein Partikel 

Teil des dazugehörigen Wortes ist oder ein eigenständiges Wort ist. Japaner 

und Chinesen unterscheiden in der Regel nicht die Zwischenräume zwischen 

Silben und Wörtern. Bei einer gegebenen Folge von Chinesischen Silben ist 

die korrekte Zusammenfassung in Wörter oft nur mit pragmatischem Wissen 

und mit dem Wissen über den Kontext, in dem sich die Silbenfolge befindet, 

möglich. 

25.1.2 Flektierende Sprachen 

Deutsch zählt zu den stark flektierenden Sprachen. Englisch und viele asiatische 

Sprachen, vor allem Chinesisch und Japanisch, sind nicht flektierende 

Sprachen. Bei flektierenden Sprachen werden semantische Modifikationen 

eines Wortes (Genus, Tempus, Kasus, Numerus, etc.) meist durch Anhängen 

oder Verändern bestimmter Morpheme, manchmal auch durch Ändern 

des Wortstammes gekennzeichnet. Bei nicht flektierenden Sprachen ergibt 

sich die Semantische Disambiguierung aus dem Kontext, manchmal durch 

Voranstellen oder Folgen eines zusätzlichen Wortes. Zwar gibt es auch 

im Englischen einige wenige Flexionen, sie beschränken sich aber auf die 

Partizipbildung, das Plural-S, das Possesiv-S und die Verbformen für die 

dritten Personen.

25.1.3 Komposition von Wörtern 

25.2 Identifikation von Sprachen (LID) 415 

Wer erinnert sich nicht mehr an die Wörter ” Donaudampfschiffahrtsgesellschaft“ 

oder ” Radelrutschrunkelrübenscheibenräder“, die auch heute noch 

Schülern die für das Deutsche typische Kompositionsfähigkeit von Wörtern 

durch Konkatenation einzelner teilweise flektierter Wörter veranschaulicht. 

25.2 Identifikation von Sprachen (LID) 

Für das automatische Erkennen der Identität einer Sprache (engl.: Language 

IDentification, LID) gibt es verschiedene Anwendungen. Multilinguale 

Systemen haben den Zweck, in verschiedenen Sprachen benutzt werden zu 

können. Sie müssen irgendwie festgestellten, in welcher Sprache der Sprecher 

gerade spricht. Dies kann im nicht ergonomischen Fall so geschehen, daß der 

Sprecher bevor er anfängt zu sprechen mit Hilfe eines Auswahlschalters die 

entsprechende Sprache wählt und dann der passende Erkenner die Hypothesen 

liefert. Im ergonomischen Fall geschieht dies vollautomatisch. Sinnvoll 

ist das zum Beispiel bei Informationskiosken für Touristen, Messeständen 

und telefonischen Informationsdiensten. 

Angewandt wurde LID in der Praxis sogar bei einigen kalifornischen 

Notrufzentralen. Eine berühmte Einrichtung ist zum Beispiel der Language 

Line Interpreter der amerikanischen Telefongesellschaft AT&T im 

Zusammenhang mit der Notrufnummer 911 [?] . Anrufer, die in Not oder 

Panik geraten sind, sprechen häufig in ihrer Muttersprache einfach darauf 

los, auch wenn sie die englische Sprache ausrechend beherrschen, um ihr 

Problem zu beschreiben. LID kann hier helfen, Leben zu retten, wenn 

die Sprache eines hilfesuchenden Anrufers erkannt wird und dadurch, daß 

möglichst schnell ein verstehender Gesprächspartner zugeschaltet wird, 

schneller Hilfe geleistet werden kann. Im deutschen Forschungprojekt 

VERBMOBIL wurde zwischen verschiedenen Sprachen (Deutsch, Englisch, 

Japanisch) hin und her übersetzt. Dabei durften die Benutzer ohne vorher 

zu deklarieren, in welcher Sprache sie sprechen wollten, in das Gerät 

hineinsprechen und das Gesprochene übersetzten lassen. Andere denkbare 

Anwendungen liegen im Bereich der Überwachung und Sicherheitstechnik, 

zum Beispiel um alle Telefonate zwischen zwei Ländern herauszufiltern, 

die in einer bestimmten Sprache durchgeführt wurden. Im Hinblick darauf, 

daß die Welt immer ” kleiner“ wird, und auf internationaler Ebene immer 

mehr Kommunikation stattfindet, wird die Aufgabe der LID immer wichtiger. 

Für die LID wurden zahlreichen verschiedene Verfahren untersucht 

und ausgewertet. Die Aufgabe der Identifikation von Sprachen ist mit der 

reinen Spracherkennung und der Identifizierung von Sprechern verwandt.


Erkenntnisgewinne und Leistungsverbesserungen in einem dieser Gebiete 

haben sich oft auch auf die anderen ausgewirkt. Dennoch hat die Identifizierung 

von Sprachen einige Eigenheiten: Während bei der Spracherkennung 

eine möglichst korrekte Wortfolge gefunden werden muß, ist dies für die 

Identifizierung einer Sprache eher weniger wichtig. Im Grunde kann ein 

System – ebenso wie Menschen auch – eine Sprache identifizieren, ohne auch 

nur ein einziges Wort zu verstehen. Die Schwierigkeiten der LID resultieren 

zum einen aus der großen Variationsbreite der Sprechweise verschiedener 

Sprecher (Aussprache, Intonation, Sprechgeschwindigkeit, usw.), zum anderen 

aus der Veränderlichkeit der Themen und Inhalte des Gesprochenen. Im 

übrigen spielen nichtsprachliche Phänomene wie die Kanaleigenschaften, das 

Hintergrundrauschen oder Störgeräusche eine besonders schädliche Rolle, 

wenn die Klassifikatoren mangels linguistischen Wissens von diesen schlecht 

abstrahieren können. 

Menschen haben die faszinierende Fähigkeit, innerhalb weniger Sekunden, 

teilweise anhand von nur zwei, drei Silben, nicht nur entscheiden zu 

können, ob ihnen eine gesprochene Sprache bekannt ist, sondern meist 

sogar um welche Sprache es sich handelt. Falls nicht, kann der Mensch 

zumindest typische Charakteristika der Sprache angeben. Bevor wir uns 

darum bemühen, Maschinen diese Fähigkeit zur Sprachenidentifizierung 

beizubringen, sollte untersucht werden, welche Spracheigenschaften beziehungsweise 

welche Wissensquellen Menschen zur Identifizierung heranziehen. 

Daraus können dann verschiedene Strategien und Informationsquellen, die 

für ein automatisches System sinnvoll sein können, abgeleitet werden. In [?] 

wird zu diesem Zweck eine Untersuchung an je zwei Personen aus zehn verschiedensprachlichen 

Ländern gemacht. Testpersonen wurden Sprachauszüge 

von 1, 2, 4 und 6 Sekunden Länge vorgespielt und die Tespersunen wurden 

anschließend gefragt, welche der zehn möglichen Sprachen gesprochen wurde. 

Danach wurden den Testpersonen mitgeteilt, welche Antwort richtig gewesen 

wären so daß sie daraus während der Versuchsreihe lernen konnten. Die 

Erkennungsrate lag im Schnitt bei 69,4% (zwischen 39,2% und 100%). 

Wichtige Faktoren, die die Erkennungsrate beeinflußten waren die Dauer der 

vorgelegten Sprachauszüge, die Vertrautheit der Testperson mit der Sprache 

und die Anzahl der Sprachen, die die Testpersonen schon vorher kannten. 

Am Ende der menschlichen LID-Experimente wurden die Testpersonen 

nach ihren Strategien zur Identifizierung der Sprachen befragt. Demnach 

benutzten viele eine Kombination mehrerer Methoden wie dem Heraushören 

bestimmter sprachentypischer Phoneme oder Wörter sowie der phonetischen 

und prosodischen Merkmale einer Sprache. 

Das Verstehen menschlicher Strategien ist ein wichtiges Hilfsmittel zur 

Lösung des Problems der automatischen Identifizierung von Sprachen. 

Grundsätzlich können sehr viele verschiedene Informationsquellen zur LID

25.2 Identifikation von Sprachen (LID) 417 

herangezogen werden. Sie können im wesentlichen in unterteilt werden in 

akustisch-phonetische Merkmale der Sprache, phonologische und 

phonotaktische Merkmale der Sprache, prosodische Merkmale der 

Sprache, Regeln über die Bildung von Wörtern einer Sprache aus 

Wortteilen, Regeln über die grammatikalische Struktur der Sprache: 

• Akustisch-phonetische Merkmale 

In verschiedenen Sprachen treten bestimmte Phoneme unterschiedlich 

häufig auf. Jede Sprache hat einen ureigenen Satz von Phonemen, der 

gelegentlich durch den Einfluß einiger Fremdwörter angereichert wird. 

Anzahl und Art der Phoneme können von Sprache zu Sprache stark 

variieren. So gibt es in der französischen Sprache vergleichsweise viele 

Nasallaute, die im Hochdeutschen so gut wie nie (außer in aus dem 

Französischen kommenden Fremdwörtern wie Restaurant“) vorkommen. 

” 

Das Deutsche hat den typischen velaren Reibelaut ç (wie im Wort 

” ich“), der vielen Nichtdeutschen beim Lernen der Sprache besondere 

Schwierigkeiten macht. Englisch ist berühmtberüchtigt für dasÌwie in 

” thin“ oder daswie in the“. 

” 

• Phonologische und phonotaktische Merkmale 

Verschiedene Sprache haben verschiedene Regeln, die definieren, wie 

phonetischen Einheiten zu Silben und Wörtern konkateniert werden 

können, oder zumindest, wie wahrscheinlich diese Konkatenationen sind. 

Die Hawaiianische Sprache ist dafür bekannt, daß sie sehr vokalreich ist 

und zwischen den Vokalen oft glottale Stopplaut vorkommen. Im den 

slawischen Sprachen können Laute wie r undsilbenbildend sein, etwa bei 

prst (Finger), was im Deutschen nicht erlaubt ist. 

• Prosodische Merkmale 

Prosodische Eigenschaften wie Betonung, Intonation, Rhythmus, Tempo 

und Pausen sind auch hilfreich, um Sprachen zu klassifizieren. Tonale 

Sprachen wie Vietnamesisch oder die chinesischen Sprachen haben eine 

ganz andere Intonationscharakteristik als die deutsche Sprache. 

• Regeln über erlaubte Wortbildungen 

Ähnlich wie Sprachen einen eigenen typischen Phonemsatz haben, so gilt 

dies erst recht für den Wortschatz. Wenn von einem LID-System erwartet 

wird, daß es eine Sprache identifizieren kann, auch wenn sie von einem 

Nichtmuttersprachler akzentuiert ausgesprochen wird, dann besteht bei 

Untersuchung der phonetischen Merkmale die Gefahr, daß der Sprecher 

bevorzugt die Phoneme seiner eigenen Sprache verwendet (zum Beispiel 

verwenden viele Deutsche beim Englischsprechen das ” deutsche“ r, ein v


statt eines w, d oder s stattoderÌ. Dieses Problem ist nur in den Griff 

zu bekommen, wenn das System über den Wortschatz bescheid weiß. 

• Grammatikalische Struktur 

So wie die Phonotaktik definiert, wie aus Phonemen Wörter entstehen 

können, so gibt die Grammatik an, wie aus Wörtern Sätze entstehen. 

Beide sind von der Sprache abhängig. Daher kann eine Analyse der Grammatikalischen 

Struktur eines Satzes Identifizierung der Sprache hilfreich 

sein. Dafür muß natürlich ein Spracherkennungssystem vorhanden sein, 

um überhaupt Wortfolgen aus dem Gesprochenen heraus erkennen. Es ist 

dann zu erwarten, daß ein Erkenner, für eine Sprache A auf Sätzen in der 

Sprache A mit höherer Wahrscheinlichkeit Wortfolgen produziert, die den 

Grammatikregeln von A entsprechen, als wenn er einen Satz der Sprache 

B erkennt. 

Ein sprachidentifizierendes System sollte zur Unterscheidung von Sprachen 

möglichst viele dieser Informationsquellen einbeziehen. 

Die Architekturen für LID-Systeme können in zwei Gruppen unterteilt 

werden. In der ersten wird für jede zu identifizierende Sprache ein 

eigenständiges Modell trainiert. Bei der Identifizierung laufen alle eigenständigen 

Modelle parallel und produzieren unabhängig voneinander 

Erkennerhypothesen (Phonemfolgen oder Wortfolgen) mit dazugehörigen 

Beobachtungswahrscheinlichkeiten oder Konfidenzwerten. Diejenige Sprache, 

deren Modell die beste Bewertung für die Testäußerung liefert, wird als die 

gesprochene Sprache identifiziert. Architekturen dieser Gruppe werden von 

einem Großteil der Forscher verwendet (z.B. [?], [?], [?]). 

Die andere Gruppe zeichnet sich durch ein einziges Modell für alle Sprachen 

aus. Beim Erkennen der Testäußerung konkurrieren einzelne Teilmodelle 

(zum Beispiel Phoneme oder Wörter) miteinander. Die Teilmodelle haben in 

verschiedenen Sprachen verschiedene Auftretenswahrscheinlichkeiten. Diejenige 

Sprache, deren typische Teilmodelle am häufigsten in der Hypothese 

vorkommen wird schließlich identifiziert ([?], [?]). 

Ein Nachteil der Verfahren aus der ersten Gruppe ist, daß mit wachsender 

Zahl der zu identifizierenden Sprachen der insgesamt zu leistende Rechenund 

Speicherbedarf anwächst. Bei der zweiten Gruppe manifestiert sich ein 

ähnlich Nachteil in der steigenden Zahl verschiedener Teilmodelle. Diese 

wachsen allerdings sublinear mit der Zahl der Sprachen, da viele Sprachen 

auch viele gemeinsame Eigenschaften haben.

26. Zusätzliche Modalitäten 

Zweifellos ist die natürliche Sprache in den meisten Fällen die schnellste 

Methode, Information aus unserem Bewußtsein in einen Rechner einzugeben. 

Es gibt allerdings recht viele Situationen, in denen Sprache entweder 

überhaupt nicht verwendet werden kann (unter Wasser, im Theater, Konzert 

oder allgemein bei Veranstaltungen, bei denen Stille von den Anwesenden 

erwartet wird), und es gibt Situationen, in denen die Kommunikation 

per Sprache durch andere Informationsübertragungskanäle unterstützt 

werden kann. Wir bezeichnen die unterschiedlichen Informationsübertragungskanäle 

üblicherweise als Modalitäten, nicht zu verwechseln mit 

dem gleichen Begriff im Zusammenhang mit der modalitätenabhängigen 

Modellierung Akustischer Modelle. Kommunikationssysteme, die verschiedene 

Kommunikationskanäle unterstützen, werden als multimodale Systeme 

bezeichnet. In diesem Kapitel werden einige der wichtigsten Modalitäten und 

ihre Kombination mit Spracherkennung zu multimodalen Systemen erläutert. 

26.1 Lippenlesen auf Videoaufnahmen 

Taube Menschen können oft mit erstaunlicher Genauigkeit Sprache von 

den Lippen sprechender Menschen ablesen. Natürlich geht das nicht immer 

gut. Es gibt zahlreiche Wortpaare, die nicht anhand der Lippenbewegungen 

voneinander unterscheidbar sind. Zum Beispiel ” hart“ und ” Art“. Außerdem 

kann man noch relativ verständlich sprechen, ohne dabei die Lippen 

nennenswert zu bewegen, wie es viele Bauchredner in Varietes vorführen. 

Zum Leidwesen vieler Tauber sprechen viele Nicht-Bauchredner auch so, daß 

das Ablesen von den Lippen kaum möglich ist. Aber selbst bei perfekter, 

sehr deutlicher Aussprache ist eine Kommunikation nur mit Lippenlesen 

sehr schwierig und sehr fehlerbehaftet. Dennoch ist es so, daß das Bild der 

Lippen die Erkennung eines dazugehörigen akustischen Signals unterstützen 

kann. Dazu gibt es das kognitive Experiment, bei den Menschen eine Video 

vorgespielt wird, auf dem das Gesicht einer Person zu sehen ist, die ein 

Wort wie zum Beispiel ” Bach“ spricht. Die Tonspur des Videos ist allerdings 

ausgetauscht durch eine Aufnahme auf der die Person ” Fach“ spricht. Die zu

420 26. Zusätzliche Modalitäten 

den beiden Wörtern gehörenden Lippenbewegungen sind klar voneinander 

zu unterscheiden. Der Anteil der Versuchspersonen, die bei so einem Video 

auf die Frage ” Was haben Sie gehört?“ mit ” Bach“, also dem Wort, das 

nur visuell aber nicht akustisch zu erkennen war, antworten, ist signifikant 

höher als bei einem Experiment, bei dem auch in der Videosequenz ” Fach“ 

gesprochen wird. Dieses Experiment zeigt, daß Menschen beim Erkennen 

von Sprache auch die visuelle Information die vom Sprecher kommt, 

nutzen. Dieser Effekt wird nach seinem Entdecker McGurk Effekt genannt [?]. 

Ein weiteres Beispiel dafür ist die in diesem Zusammenhang gerne 

verwendete Cocktail-Party. Wenn viele Menschen in einem Raum gleichzeitig 

reden, muß zum Verständnis des Gesprächspartners mehr als nur die Schallwelle 

des Sprechers analysiert werden. Weil wir zwei Ohren haben, können 

wir eine Art ” Beam-Forming“ machen und uns auf den Schall, der aus einer 

bestimmten Richtung kommt, konzentrieren. Der Leser kann sich leicht 

davon überzeugen, wie wichtig in so einer Situation zwei Ohren sind, indem 

er sich ein Ohr mit der Hand zuhält und dann kaum noch die Position der 

einzelnen Sprecher nur mit einem Ohr bestimmen kann. Zusätzlich zu dem 

Konzentrieren auf eine bestimmte Richtung der Signalherkunft, kann unser 

Gehirn sich auch noch auf bestimmte Frequenzbereiche konzentrieren und 

so die Sprache des Gegenüber mehr ” verstärken“ als die anderen Geräusche 

im Raum. Und schließlich hilft es auch noch, auf die Mundpartie zu schauen 

und die Lippenbewegungen zu verfolgen. So können insbesondere solche 

Wörter, die akustisch leicht verwechselbar sind, z.B. ” man“ und ” wann“ 

besser unterschieden werden. 

Viseme sind die optischen Gegenstücke zu den akustischen Phonemen. 

Ähnlich wie ein Wort aus mehreren Phonemen zusammengebaut werden 

kann, so erscheint es im Videobild als Folge verschiedener Viseme. Die Abbildung 

zwischen Phonemen und Visemen ist allerdings nicht bijektiv. So sind 

zum Beispiel die Wörter ” Haus“ und ” aus“ zwar akustisch unterscheidbar, 

aber nicht auf der Videoaufnahme. Der Fall, daß es verschiedene Viseme für 

denselben Laut gibt, ist in natürlicher Sprache praktisch ausgeschlossen und 

für das Lippenlesen nicht von Bedeutung. 

In den Anfängen des Lippenlesens waren die Anforderungen an die Bildqualität 

noch sehr hoch. In [?] wird eine sehr gute Beleuchtung von mehreren 

Seiten erwartet. Aus den Aufnahmen wurden bestimmte Eigenschaften der 

Lippen gemessen (Höhe, Breite, Umfang, Fläche, usw.). Diese Meßwerte 

bildeten einen Merkmalsvektor, der dann mit wortweise abgespeicherten 

Mustern mittels DTW verglichen wurde, um so für verschiedene Wörter 

Wahrscheinlichkeiten zu berechnen. Der Lippenleser wurde verwendet, um 

die akustische Erkennung von isoliert gesprochenen Ziffern und Buchstaben 

zu verbessern. Dabei wurden mit Hilfe eines akustischen Erkenners die n

26.1 Lippenlesen auf Videoaufnahmen 421 

besten Hypothesen extrahiert, und unter diesen dann die am besten mit 

dem visuellen Erkenner übereinstimmende gewählt. Die Fehlerrate des Akustischen 

Erkenners für Buchstaben konnte von 36% auf 34% gesenkt werden. 

Die berichtete Fehlerreduktion von 5% auf 0% bei der Ziffernerkennung 

berechtigt allerdings zu Zweifeln an der Signifikanz der Testdaten. 

Später folgten andere Ansätze, bei denen zum Beispiel der optische 

Fluß berechnet und zu Klassifikation benutzt wurde [?]. Erste neuronale 

Ansätze wurden von [?] verfolgt. Dabei wurden zunächst nur statische 

Grauwertbilder der Lippen verwendet. Erwähnenswert für diese Arbeit 

war die Tatsache, daß bei der auch hier vorgenommenen gemeinsamen 

Erkennung mit einen zusätzlichen akustischen Erkenner die Gewichtung 

der visuellen und akustischen Klassifikatoren auf Basis der Messung des 

Signal-Rausch-Abstandes vorgenommen wurde. Das führte dazu, daß bei 

stark verrauschten Aufnahmen mehr Wert auf das Videosignal und bei sehr 

sauberen Aufnahmen mehr Wert auf das Audiosignal gelegt wurde. 

In [?] werden TDNNs [?] verwendet. Allerdings wurden die Lippenbewegungen 

nicht mit Hilfe eine Videokamera aufgezeichnet sondern mit Hilfe 

von im Gesicht der Sprecher befestigten Sensoren. Die Klassifikation erfolgte 

durch Multiplikation der Wahrscheinlichkeiten des akustischen Erkenners 

und des TDNNs. 

Spätere Arbeiten gehen dazu über kontinuierliche Sprache zu verarbeiten 

und dynamische Ansätze zu verfolgen. Die Verwendung neuronaler Netze 

hat sich aber zumindest für die Analyse und Vorklassifikation der Videoaufnahmen 

gehalten. [?] verwendet MS-TDNNs [?] [?] für die Erkennung 

kontinuierlich gesprochener Buchstabiersequenzen. Das Besondere an der 

Arbeit ist, daß die gleiche konnektionistische MS-TDNN Architektur sowohl 

für die visuelle als auch für die akustische Erkennung verwendet wurde. 

Dies erlaubt zahlreiche Freiheiten bei der Entscheidung der Fusion der 

Informationsströme. Prinzipiell war es möglich, bei exakt synchronisierten 

Daten die Fusion der akustischen und optischen Merkmale schon auf 

Signalebene durchzuführen. Allerdings führten die großen Unterschiede in 

der Dimensionalität und Informationsgehalt des Videostroms gegenüber dem 

Audiostrom zu Schwierigkeiten (das Netz konzentrierte sich fast ausschließlich 

auf den Videostrom). Eine Fusion auf höherer Ebene (verdeckte Schicht 

des neuronalen Netzes) funktionierte wesentlich besser [?]. Die Fehlerraten 

konnten im sprecherabhängigen Fall gegenüber einem rein akustischen 

Erkenner auf sauberen Daten um bis zu 40% und bei verrauschten Daten 

um über 50% gesenkt werden.


26.2 Sprecherlokalisierung 

In Szenarien, in denen Maschinen für die Perzeption menschlicher Kommunikation 

eingesetzt werden – unabhängig davon, ob für Mensch-Mensch- oder 

Mensch-Maschine-Kommunikation – kommt es oft vor, daß die räumliche 

Position eines Sprechers von Bedeutung ist. So ist es zum Beispiel für das 

Erzeugen einer Zusammenfassung einer Besprechung wichtig festzuhalten, 

von welchem Sprecher was gesagt wurde. Auch wenn dem System die Sprecher 

nicht bekannt sind, so kann es dennoch jedem Besprechungsteilnehmer 

einen virtuellen Namen zuordnen. Wenn keine zusätzlichen perzeptiven 

Möglichkeiten über im Raum installierte Kameras existieren, dann besteht 

eine Person für das System aus einer Stimme und einer Position. Personen 

könnte man sicher auch über den Inhalt dessen, was sie sagen, identifizieren. 

Sicherer aber geht es indem man entweder die Stimme analysiert, was in 

der Komplexität vergleichbar aufwendig ist, wie die Erkennung der Sprache 

selbst, oder man stellt den Ort des Schallquelle fest, von der aus das gerade 

Gesagte kommt. 

26.2.1 Akustisch 

Wenn zur Aufnahme eines Sprachsignals mehr als ein Mikrophon verwendet 

wird, kann man auf die Position der Quelle des Signals Rückschlüsse ziehen. 

Betrachten wir die stereophone Aufnahme eines Signals. Jedes der beiden 

Mikrophone ist mit einem eigenen Eingang eines Mehrkanal-Analog-Digital- 

Wandlers verbunden. Die Verwendung eines solchen Wandlers ist nötig, um 

eine exakte zeitliche Zuordnung der einzelnen Abtastwerte aus verschiedenen 

Kanälen zu ermöglichen. Nehmen wir der Einfachheit halber an, die 

Aufnahmevorrichtung, das heißt die beiden Mikrophone und die Schallquelle, 

befinden sich in der selben Ebene. Das erste Mikrophon liefert die Abtastwerte 

X1 = (x1[1], x1[2], . . .x1[n]) und das zweite Mikrophon die Werte 

X2 = (x2[1], x2[2], . . . x2[n]). Nehmen wir außerdem an, daß die Schallwellen, 

die bei den beiden Mikrophonen ankommen, sich nur unwesentlich voneinander 

unterscheiden, und daß der Hauptunterschied der zeitliche Versatz ist, 

also das der Schallquelle nähere Mikrophon die Welle zuerst mißt bevor diese 

auf das entferntere Mikrophon trifft. Wenn die beiden gemessenen Signale 

ausreichend ähnlich 

 

sind, kann man mit Hilfe der Korrelation den Zeitversatz 

d = argmaxd x1[i]·x2[i−d] messen. Bei einer Abtastrate von r Hz bedeutet 

ein Zeitversatz von m Abtastwerten einen Laufzeitunterschied von r · m Sekunden. 

Bei einer Aufnahme mit für die Spracherkennung typischen 16 kHz 

kann also der Laufzeitunterschied mit einer Genauigkeit von ca. 1/16000 Sekunde 

gemessen werden. Wenn nun noch die Schallgeschwindigkeit c bekannt 

ist, dann läßt sich daraus der Distanzunterschied der Schallquelle zu den 

beiden Mikrophonen berechnen:

∆d = 

m · r 

c 

26.2 Sprecherlokalisierung 423 

(26.1) 

Aus der Mathematik ist bekannt, daß die Menge der Punkte, die den 

gleichen Abstandsunterschied zu zwei gegebenen Punkten a und b haben, 

eine Hyperbel mit den beiden Brennpunkten a und b ist (s. Abb. 26.1). 

Betrachtet man noch das Vorzeichen des Abstandsunterschieds, dann bleibt 

für die mögliche Position der Schallquelle nur noch eine Hälfte einer Hyperbel. 

a 

∆a 

b 

∆b 

Abb. 26.1. Schallquellenortung mit 2 Mikrophonen 

Wenn die beiden Mikrophone so im Raum angeordnet sind, daß die 

Schallquelle eigentlich nur auf einer Seite der Verbindungsgeraden sein kann 

(z.B. wenn die Mikrophone an einer Vorrichtung angebracht sind, die an einer 

Wand befestigt ist), dann bleibt nur noch ein Arm einer Hyperbelhälfte. So 

kann zumindest der ungefähre Winkel der Schallquelle zu den Mikrophonen 

geschätzt werden. Für einige Anwendungen kann diese Schätzung schon 

genügen, zum Beispiel um ein Richtmikrophon auf die Quelle auszurichten 

oder um einen Roboter zu rufen, der sich dann zum Rufenden bewegt bzw. 

seine Kamera entsprechend positioniert. 

a b 

00000 

11111 

00000 

11111 

00000 

11111 

00000 

11111 

00000 

11111 

Abb. 26.2. Geschätzter Winkel zur Schallquelle


Eine wichtige Rolle spielt der Abstand der beiden Mikrophone. Wenn 

dieser zu gering ist, dann wird durch die Ungenauigkeit bei der Bestimmung 

der maximalen Korrelation ein Fehler gemacht. Zwar ist es möglich, nicht 

nur diskrete natürlichzahlige Werte d für die Korrelation zu verwenden 

(z.B. indem man stückweise Polynome durch die Abtastwerte schätzt und 

gegeneinander verschiebt), aber eine perfekte Messung des Laufzeitunterschiedes 

ist nicht möglich, insbesondere bei stark verrauschten Aufnahmen. 

Der Meßfehler fällt umso stärker aus, je geringer der Abstand zwischen den 

Mikrophonen ist. Im Extremfall, wenn der Abstand der Mikrophone kleiner 

ist als die Strecke, die der Schall in der Zeit zwischen zwei Abtastungen 

zurücklegt, kann die Korrelation nur für d ∈ {−1, 0, 1} maximal werden. 

Wird also nur ein diskretes d bestimmt, dann wird der Raum der möglichen 

Schallquellen nur in drei Unterräume getrennt. Es ist also sinnvoll, die 

beiden Mikrophone möglichst weit voneinander zu positionieren. 

Es ist nun nicht weiter schwierig, mit Hilfe eines dritten Mikrophons 

zwei weitere Hyperbeln zu berechnen, so daß sich alle drei in einem Punkt 

schneiden, in dem die Schallquelle liegen muß. Wir lassen die dazu gehörige 

Mathematik weg, da sie im wesentlichen nur aus dem Lösen eines unansehnlichen 

Gleichungssystems besteht und vom interessierten Leser leicht 

durchgeführt werden kann. 

Bei na Mikrophonen können also n/2 · (n − 1) Hyperbeln berechnet und 

alle miteinander geschnitten werden. Ist n hinreichend groß, dann können 

so viele Hyperbelschnitte berechnet werden, daß trotz verschiedener Ungenauigkeiten 

bei den Bestimmungen der Hyperbeln, der Durchschnitt aller 

Schnittpunkte eine sehr gute Schätzung für den Ort der Schallquelle darstellt. 

Beim menschlichen Hören mit zwei Ohren (dem binauralen Hören), 

spielen neben dem Laufzeitunterschied auch weitere Effekte eine Rolle. So 

” hören“ wir zum Beispiel den Schallschatten, den unser Kopf wirft. Wenn 

ein Signal von rechts kommt, dann kommt es am linken Ohr nicht nur später 

an als am Rechten, sondern auch noch durch den Kopf etwas gedämpfter. 

Diese Dämpfung hilft uns zusätzlich bei der Lokalisierung der Schallquelle. 

Ähnlich wie es für einäugige Menschen möglich ist, dadurch dreidimensional 

zu sehen, daß der Kopf bewegt wird und so ein Auge die Aufgabe von 

zwei Augen quasi im Zeitmultiplexverfahren übernimmt, genauso können 

wir auch bei Hören, die Lokalisierungsgenauigkeit durch Bewegen des Kopfes 

verbessern. Insbesondere bei recht hochfrequenten Geräuschen, bei denen 

die Bestimmung der Laufzeitunterschiede besonders schwierig ist, kann man 

diese oft nur noch mit Zuhilfenahme von Kopfbewegungen orten.

26.2 Sprecherlokalisierung 425 

Eine andere Möglichkeit, die räumliche Auflösung des Gehörs zu verbessern, 

ist die Verwendung von Basisverbreiterern, wie sie in der Seefahrt 

zur Lokalisierung von Nebelhörnern heute noch eingesetzt werden. Dabei 

werden in jedes Ohr das Ende eines tubus-, muschel- oder kegelförmigen 

Schalleiters gesteckt, während die anderen Enden für die Schallaufnahme 

dienen und einen wesentlich größeren Abstand voneinander haben als die 

Ohren des Menschen. Auf diese Art ist eine viel exaktere Bestimmung 

der Korrelation der beiden gehörten Signale und somit eine Messung von 

Laufzeitunterschieden möglich. 

Beamforming 

Beim Beamforming nutzt man die gleichen Techniken wie bei der Sprecherlokalisierung 

mittels Mikrophonarrays. Während bei der Sprecherlokalisierung 

der Laufzeitunterschied des Schalls von der Schallquelle zu verschiedenen 

Mikrophonen gemessen wird, wird beim Beamforming den eintreffenden 

Signalen je nach Mikrophon eine berechnete Verzögerung zugefügt, so daß 

die Summe der unterschiedlich verzögerten Signal alle Schallwellen, die von 

einer bestimmten Quelle kommen verstärkt und die Signale, die aus anderen 

Richtungen kommen unterdrückt. 

Wenn xi(t) das Signal bezeichnet, das am Mikrophon Mi ankommt, und 

∆i die Schallaufzeit vom gewünschten Ort Q bis zu Mi ist, dann berechnet 

sich das endgültige Signal x(t) wie: 

x(t) = 

xi(t − ∆i) (26.2) 

i 

Die Folge ist, daß in x(t) die Schallwellen von allen Orten außer Q nicht 

in Phase sind und nur die Wellen von Q in Phase sind. Eigentlich ist die 

Bezeichnung ” Beamforming“ zu schwach, denn in Wirklichkeit kann man das 

Verfahren bei Verwendung von drei oder mehr Mikrophonen ” Spotforming“ 

nennen, denn es werden nicht nur Wellen aus einer bestimmten Richtung 

sondern von einem bestimmten Punkt selektiert. 

26.2.2 Mit Videoaufnahmen 

Eine weitere Möglichkeit, eine Sprecherlokalisierung durchzuführen ist die 

Verwendung einer Videokamera. Mit Hilfe eines Gesichterdetektionsverfahrens 

[?] und Gesichterverfolgungsverfahrens können Gesichter im Raum 

erkannt werden, die Analyse der Lippenregion sollte selbst bei entfernten


Kameras, deren Aufnahmen nicht zum Lippenlesen geeignet sind, erkennbar 

sein, ob die Lippen sich bewegen. Die Korrelation der Information, wo sich 

im Raum bewegende Lippen befinden, mit der Information der akustischen 

Schallquellenlokalisierung gibt dann eine Robuste Schätzung der Position 

des Sprechers wieder. 

26.3 Handschrifterkennung, Gestikerkennung 

In der Handschrifterkennung unterscheidet man grundsätzlich zwischen zwei 

verschiedenen Ansätzen, der ” Offline“- und der ” Online“-Erkennung. Bei der 

Offline-Erkennung liegt dem Erkenner nur das Bild des handgeschriebenen 

Textes vor, bei der Online-Erkennung kann der Erkenner zusätzlich die 

gemessene Dynamik der Schrift zur Erkennung verwenden. In der Regel 

führt diese zusätzliche Information zu besseren Erkennungsraten, so daß 

sogar Systeme entwickelt werden, die versuchen, aus dem statischen Bild die 

verlorene Dynamikinformation zu rekonstruieren. 

Außer zur Erkennung von handgeschriebenen Texten bietet sich die 

Modalität der stiftbasierten Eingabe auch für die Erkennung von Formeln, 

Skizzen, Bildern und bestimmten Schreibgesten an. Während es einigermaßen 

einfach ist, in Skizzen zu erkennen, ob ein Objekt ein Rechteck 

oder ein Kreis ist, so gehört zur genauen Interpretation von komplexeren 

Objekten und insbesondere von deren Relationen zueinander wesentlich 

mehr ” Intelligenz“. 

Als zusätzliche Modalität zur Spracherkennung hat sich die Handschrifterkennung 

im Zusammenhang mit der Korrektur von Erkennungsfehlern von 

Diktiererkennern hilfreich gezeigt (s. folgenden Abschnitt). 

26.4 Fehlerbehandlungsmethoden 

Die Erfahrung hat gezeigt, daß die allermeisten stochastischen Klassifikatoren, 

sei es für die Erkennung von Sprache, Handschrift, Gesten oder 

Bilder, Fehler machen. Je nachdem, um was für eine Anwendung es sich 

handelt, sind Fehler mehr oder weniger tolerierbar. Bei einem Dialogsystem, 

bei dem der Benutzer per Sprache ein Kommando gibt ist es nicht weiter 

problematisch, wenn zwar das eine oder andere Wort des Kommandos 

mißverstanden wird, aber die gewünschte Aktion dennoch richtig verstanden 

und ausgeführt wird. So ist es zum Beispiel egal, ob der Erkenner in einem 

Videorecorder beim Kommando ” nimm die Tagesschau auf“ fälschlicherweise 

” nimm den Tagesschau auf“ verstanden wird. Hauptsache, das Gerät

26.4 Fehlerbehandlungsmethoden 427 

zeichnet die Tagesschau auf. Wenn man aber diesen Satz in ein Diktiersystem 

eingibt, so ist jeder einzelner Fehler ärgerlich und muß korrigiert werden. 

Bei den frühen käuflichen Diktiersystemen konnte man ein Codewort 

verwenden, das den Erkenner darüber informierte, daß das letzte Wort 

falsch erkannt wurde. So konnte man zum Beispiel ” oops“ sagen und das 

mißverstandene Wort wiederholen. Ein doppeltes Oops würde zum Ersetzen 

des vorletzten Wortes verwendet werden können. Entsprechend viele Oops 

hintereinander würden den Cursor um genauso viele Wörter zurück setzen. 

Selbst wenn man davon ausgeht, daß Fehlerkennungen sehr selten sind, 

so ist das Problem meistens nicht durch einfaches Wiederholen des falsch 

erkannten Wortes gelöst. Entweder spricht man das Wort bei der Wiederholung 

genauso aus wie beim ersten Mal, was dazu führt, daß der Erkenner 

genau den gleichen Fehler noch einmal macht, oder man tendiert zur 

Hyperartikulation und versucht das Wort überdeutlich auszusprechen, was 

dazu führt, daß es sich für den Erkenner ganz anders ” anhört“ als reguläre 

nicht hyperartikulierte Beispiele und so erst recht zu Erkennungsfehlern führt. 

Wenn wir uns zum Ziel setzen, einen Text möglichst schnell in einen 

Computer einzugeben, dann stellt sich die Frage, ob eine reine Eingabe per 

Sprache inklusive der nötigen Korrekturen tatsächlich die schnellste Methode 

ist. Zweifelsfrei wäre eine fließen gesprochene Spracheingabe wesentlich 

schneller als eine Eingabe per Handschrift, Tastatur oder Buchstabieren. 

Eine Eingabe per Tastatur ist sicher die am wenigsten fehleranfällige, dafür 

aber auch viel langsamere als die Sprache – zumindest für den durchschnittlichen 

Computerbenutzer. 

In [?] werden verschiedene Methoden der Fehlerkorrektur miteinander 

verglichen und anhand von Benutzerstudien gezeigt, daß bei einer geeigneten 

Auswahl von Korrekturmechanismen ein Text signifikant schneller eingegeben 

werden kann als nur mit Sprache allein (s. Abb. 26.3). 

Zum Korrigieren eignen sich neben der Wiederholung von Abschnitten 

einer Äußerung auch die Neueingabe per Tastatur oder Handschrift. Auch 

das sprachliche Buchstabieren eines Wortes ist möglich und insbesondere 

dann sinnvoll, wenn es sich um ein Wort handelt, das sich nicht im Erkennervokabular 

befindet. Schließlich ist es oft am einfachsten, ein Wort aus 

einer Liste auszuwählen. Dabei wird, wenn das fehlerhaft erkannte Wort 

identifiziert ist, auf dem Bildschirm eine Liste von Alternativen angeboten. 

Dann kann mit Hilfe des Mauszeigers – oder des Fingers im Falle eines 

Touchscreens – das in der Liste hoffentlich vorhandene korrekte Wort 

ausgewählt werden.


0000000000000000 

111111111111111100 

11 

0000000000000000 

111111111111111100 

11 

0000000000000000 

111111111111111100 

11 

Erstes Tippen eines Textes Tippkorrekturen 

0000000000000000000 

11111111111111111110000000000 

1111111111 

0000000000 

1111111111 

0000000000000000000 

11111111111111111110000000000 

1111111111 

Erstes Diktieren eines Textes Gesprochene Korrekturen 

0000000000000000000 

1111111111111111111 

0000000000000000000 

1111111111111111111 

00000 

11111 

00000 

11111 

00000 

11111 

Erstes Diktieren eines Textes Multimodale 

Korrekturen 

Abb. 26.3. Zeiten zum Eingeben und Korrigieren eines Textes 

26.5 Multimodale Zeitzuordnung 

Immer, wenn mehrere Kommunikationsmodalitäten parallel verwendet 

werden, begegnet man der Problematik der Zuordnung von Ereignissen 

bzw. Beobachtungen in der einen Modalität mit den Ereignissen und 

Beobachtungen in anderen Modalitäten. Wenn z.B. in einem multimodalen 

Terminkalender ein Termin verschoben werden soll, indem sein Zeitpunkt 

mit dem Stift durch Umkreisen markiert wird, der stattdessen gewünschte 

Zeitpunkt danach auch mit einer Schreibgeste markiert wird und während 

des Schreibens die Worte ” Verschiebe diesen Termin nach da.“ gesprochen 

werden, so bereitet es dem Menschen überhaupt kein Problem, das Ereignis 

des Markierens des ursprünglichen Zeitpunkts dem Satzabschnitt ” diesen 

Termin“ und das Ereignis des Markierens des neuen Zeitpunktes dem 

Zeitabschnitt ” nach da“ zuzuordnen. Dies ist selbst dann noch der Fall, 

wenn der zeitliche Versatz der beiden Modalitäten so groß ist, daß zwei nicht 

einander zuzuordnende Ereignisse tatsächlich gleichzeitig stattfinden. 

Prinzipiell gibt es zwei verschiedene Methoden, dieses Problem zu 

lösen. Entweder die beiden Modalitäten werden komplett unabhängig 

voneinander erkannt und danach werden die Zustände der erkannten 

Zustandsfolgen mit Hilfe von übergeordnetem Wissen einander zugeordnet. 

Oder es wird ein Verfahren angewandt, bei dem schon während der 

Erkennung beide Modalitäten gleichzeitig in einem Durchlauf abgearbeitet 

werden. Die zweite Idee entspricht einem ” mehrdimensionalen“ DTW- 

Algorithmus. Wenn zwei Modalitäten mit zwei Hidden-Markov-Modellen 

λ1 und λ2 mit den Zuständen S1 = {s11, s1n} und S2 = {s21, s2m} modelliert 

werden, dann ist es möglich, einen gemeinsamen Zustandsraum 

t

26.5 Multimodale Zeitzuordnung 429 

S ′ = S1 × S2 = {s11,21, s11,22, . . .s11,2m, . . . s12,21 . . . s1n,2m} als Kreuzprodukt 

der beiden Zustandsmengen zu definieren. Die Wahrscheinlichkeit 

a ′ 1i,2j,1k,2l für den Übergang von Zustand s1i,2j in den Zustand s1k,2l läßt 

sich dann berechnen als das Produkt der Übergangswahrscheinlichkeiten 

a1i,1k und a2j,2l berechnen. Abb. 26.4 illustriert die Ausführung eines 

zweidimensionalen DTW-Algorithmus. 

Distanzfrage 

Ziel 

Distanzfrage 

Start 

Ende der 

Zeigegeste 

Beginn der 

Zeigegeste 

Wie weit ist es von hier nach da? 

Abb. 26.4. mehrdimensionaler DTW Algorithmus 

Die Modalität auf der X-Achse kommt von einem Spracherkenner, die Modalität 

der Y-Achse kommt von einem Zeigegestenerkenner. Die gemeinsame 

Modalität ist auf der Z-Achse aufgetragen. Im angegebenen Beispiel wird ein 

DTW-Pfad für das (gemeinsame) Modell einer Distanzabfrage dargestellt. 

Eine Distanzabfrage besteht demnach aus den beiden Zuständen Distanzab- 

” 

frage Start“ und Distansabfrage Ziel“. Während der Spracherkenner durch 

” 

seine Zustände wie“, weit“, ist“, es“, von“, hier“, nach“ und da“ 

” ” ” ” ” ” ” ” 

geht, durchläuft der Gestikerkenner die Zustände Beginn einer Zeigegeste“ 

” 

und Ende einer Zeigegeste“. Der resultierende DTW-Pfad liefert so auto- 

” 

matisch die wahrscheinlichkeitstheoretisch optimale Folge von gemeinsamen 

” Doppelzuständen“ aus der sich direkt die Zuordnung der Spracherkennerbeobachtungen 

zu den Gestikerkennerbeobachtungen extrahieren läßt.

27. Entwicklung von Anwendungen 

In diesem Kapitel wird die Entwicklung einiger Beispielanwendungen für 

automatische Spracherkenner vorgestellt. Dabei werden vor allem Aspekte, 

die über das reine Trainieren eines Erkenners hinausgehen beleuchtet. In der 

Praxis stellt sich nicht selten heraus, daß der eigentliche Trainingsprozeß 

wie er in Kap. 12 und Kap. 13 behandelt wurde, nur einen kleinen Teil des 

gesamten Entwicklungsaufwandes darstellt. 

27.1 Ein Erkenner für eine neue Aufgabe 

Obwohl es heute bestimmt Tausende Implementierungen von Spracherkennern 

für die meisten gängigen Sprachen gibt, stehen Spracherkennungsforscher 

dennoch immer wieder vor dem Problem, einen Erkenner zu 

entwickeln, der einer neuen Aufgabe besser gewachsen ist als die vorhandenen 

Erkenner. Die Gründe dafür, daß kein existierender Erkenner ausreichend 

gut funktioniert sind mannigfaltig. Über die gleichen Gründe hinaus, die 

die Spracherkennung schwierig machen (s. Kap. 2) und die eine Adaption 

sinnvoll machen (s. Kap. 21), spielen immer wieder neue Algorithmen 

und Verfahren eine Rolle, und führen dazu, daß kein Erkenner universal 

und optimal ist. Zur Zeit ist nicht abzusehen, daß dies in naher Zukunft 

anders sein sollte. Spannt man einen hochdimensionalen Raum auf, in dem 

jede Dimension einer Eigenschaft der Sprache wie in Kap. 2 beschrieben 

entspricht, dann verwundert es nicht, daß immer wieder ” neue Aufgaben“ 

auftauchen, die noch nicht gut genug gelöst sind. 

Als ” neue Aufgaben“ treten häufig neue Domänen oder neue Sprachen 

auf. Im folgenden wird die Entstehung eines Erkenners für eine neue Sprache 

beschrieben. Die groben Schritte lassen sich zusammenfassen als: 

• Vorbereitung (Analyse des Problems / der neuen Sprache) 

• Datensammlung (Audioaufnahmen und Texte) 

• Datenaufbereitung

432 27. Entwicklung von Anwendungen 

• Erzeugen der Erkennerumgebung (Lexikon, Phonemklassen) 

• Training und Evaluation 

• Einbau in die Anwendung 

• Qualitätsanforderungen überprüfen und erfüllen 

27.1.1 Vorbereitung 

Zur Vorbereitung gehören Aufgaben wie das Sammeln von Informationen 

über die neue Sprache. Viele Sprachen haben Eigenheiten, die es im Englischen 

und Deutschen nicht in der Art gibt. Einige Sprachen verwenden in 

der Schriftform meist keine Vokale (hebräisch, arabisch), andere Sprachen 

benötigen die Tonalität zur Bedeutungsunterscheidung (chinesisch), wieder 

andere haben eine enorme Flexionsfreiheit (koreanisch), und einige Sprachen 

verwenden Laute, die es in kaum einer anderen Sprache gibt. Solche 

Eigenheiten müssen im voraus bekannt sein, und es muß eine Lösung der 

mit ihnen verbundenen Probleme geplant werden. 

Zur Vorbereitung gehört auch die Planung der anstehenden Datensammlung. 

Viele Informationen lassen sich aus dem Internet besorgen. Wichtig ist 

zu wissen, ob die Sprache eine an die Aussprache angelehnte Orthographie 

hat, was in der Sprache ein ” Wort“ ist, welcher anderen Sprache, in der es 

bereits Erfahrungen gibt, sie ähnlich ist und so weiter. 

27.1.2 Datensammlung 

Eine typische Datensammlung beginnt mit der Spezifikation der benötigten 

Daten. Für kontinuierliche Erkennung großer Vokabulare sind mindestens 

ca. 10 Stunden reiner Sprache nötig. Die Zahl der Sprecher sollte möglichst 

groß sein (mehrere Dutzend). Die Verteilung der Geschlechter und der 

Altersstufen sollte einigermaßen repräsentativ sein. Der Sprechstil sollte 

möglichst dem Stil, für den der Erkenner gebaut wird entsprechen (vorgelesenen 

Sprache für Diktiererkenner, spontane Sprache für Dialogerkenner). 

Meistens werden Sprachdaten von freiwilligen ” Sprachspendern“ gesammelt. 

Wenn es um eine neue Sprache geht, ist es nicht immer leicht, eine 

ausreichende Menge Muttersprachler in der Nähe des Forschungslabors zu 

finden. Im GlobalPhone Projekt der Universität Karlsruhe [?] reisten daher 

Studierende verschiedener Nationalitäten mit Aufnahmegeräten in ihre 

Heimatländer und sammelten dort von Muttersprachlern Sprachaufnahmen. 

Für spontansprachliche Aufnahmen wird eine Art Beispieldrehbuch 

benötigt, in dem festgehalten ist, wie die Aufnahmen grob aussehen sollen,

27.1 Ein Erkenner für eine neue Aufgabe 433 

und anhand dessen sich die Sprachspender orientieren können. Aufnahmen 

spontaner Sprache ziehen einen enormen Aufbereitungsaufwand (s.u.) nach 

sich. Viel leichter ist die Aufbereitung von diktierten Daten. Dazu empfiehlt 

es sich, vor den Aufnahmen Texte zu sammeln, die dann vorgelesen werden 

können. Ein einfaches Programm kann den Spendern einen Satz auf dem 

Bildschirm eines tragbaren Computers anzeigen. Den Spendern kann man 

zumuten, nach jedem korrekt vorgelesenen Satz eine Taste zu drücken, so 

daß das Aufnahmeprogramm den nächsten Satz anzeigt. Falls der Spender 

einen Fehler macht drückt er eine andere Taste und wiederholt den Satz. Auf 

diese Art läßt sich sehr schnell eine große Menge transkribierter Aufnahmen 

sammeln. Die Auswahl der Texte ist wichtig. Wenn der Erkenner für eine 

bestimmte Domäne gedacht ist, ist es hilfreich, auch Texte aus dieser 

Domäne zu verwenden. Auf diese Art kann sichergestellt werden, daß die 

akustische Übereinstimmung (typische Spracheinheiten und phonetische 

Kontexte) zwischen dem Modell des Erkenners und der zu erkennenden 

Sprache möglichst groß ist. 

Die Aufnahmeeinrichtung sollte die gleiche Art Mikrophone verwenden, 

wie sie später bei der Erkennung zum Einsatz kommen. Wenn kein tragbarer 

Computer zur Verfügung steht, kann ein digitales Tonbandgerät verwendet 

werden. Statt der ” weiter“- und “Fehler“-Tasten auf dem Computer kann 

hier ein akustischer Signalgeber verwendet werden, der unterschiedliche 

Piepstöne erzeugt, die sich hinterher leicht automatisch detektieren lassen. 

27.1.3 Datenaufbereitung 

Zur Datenaufbereitung gehört das Organisieren der gesammelten Aufnahmen 

in einer Datenbank. Ein Eintrag in der Datenbank sollte mindestens eine 

Referenz auf die Audio-Datei, die Transkription des darin Gesprochenen 

und die Information über die Zugehörigkeit zur Trainings-, Entwicklungsoder 

Testdatenmenge. Weitere Informationen über den Sprecher können je 

nach später durchgeführten Verfahren auch hilfreich sein. 

Bei diktierten und vorsegmentierten Aufnahmen ist diese Aufgabe relativ 

einfach zu erledigen. In der Regel genügt es, alle Aufnahmen zur Kontrolle 

anzuhören und mit der Transkription zu vergleichen, so daß eventuelle 

Fehler erkannt und beseitigt werden können. Bei spontaner Sprache ist 

der Prozeß der Datenaufbereitung viel aufwendiger. Die nicht vorhandenen 

Transkiptionen müssen in mühevoller Handarbeit erstellt werden. Wenn 

gewünscht, werden im ersten Schritt die Aufnahmen in einzelne Äußerungen 

segmentiert. Die Transkribieren müssen die Aufnahmen anhören und den 

Text (am besten inklusive aller Geräusche und falsch ausgesprochener


Wörter oder Wortfragmente) eintippen. 

Zu den wichtigsten Daten die vom Erkenner benötigt werden gehört das 

Sprachmodell. Diese sollte aus einer sehr großen Menge Text erzeugt werden. 

Für Diktiererkenner, die vorgelesene Sprache erkennen sollen, ist dies oft 

relativ einfach. Meistens werden Nachrichtentexte verwendet, die es im 

Internet oder von Zeitungsverlagen auf CDs gibt. Als erstes müssen solche 

Texte ” normalisiert“ werden. Dazu gehört die Entfernung der Interpunktion, 

die Verschriftung von Zahlen, die Uniformisierung von Abkürzungen und die 

Entfernung von Formatierungsinformationen. Dies ist nötig, damit später 

die Berechnung von Sprachmodellen problemlos durchgeführt werden kann. 

Für die Erkenner von Spontansprache ist es wesentlich schwieriger, eine 

vergleichbar große Menge Textdaten zu sammeln. Die Standard Trainingsdaten 

für das Sprachmodell der Wall Street Journal Diktieraufgabe [?] 

umfassen über 300 Millionen Wörter. Für die spontanen Verbmobil Dialoge, 

mit denen ein großer Teil der Spracherkennungsforschung in deutscher Sprache 

durchgeführt wurde, standen hingegen gerade einmal 1/4 Million Wörter 

zur Verfügung. Daher empfiehlt es sich beim Erzeugen des Sprachmodells 

für spontane Sprache besonders vorsichtig umzugehen, und die wenigen 

vorhandenen spontanen Daten gegebenenfalls mit größeren nichtspontanen 

Daten zu interpolieren. 

Es gibt auch Bestrebungen, spontane Texte künstlich zu erzeugen. 

Die Idee hierbei ist es, große Mengen Schriftsprache so zu transformieren, 

daß die ähnlich wie spontane Sprache aussieht. Dazu gehören mehrere 

Einzeltransformationen wie das Umstellen von Wörtern, das Aufteilen 

langer Sätze in kürzere, das Ersetzen typisch schriftsprachiger Wörter durch 

umgangssprachliche und so weiter. Solche Verfahren werden Corpus Mapping 

genannt. Künstlich erzeugte Textkorpora sind aber erwartungsgemäß 

deutlich weniger wertvoll und für die Entwicklung von Spracherkennern 

weniger hilfreich als ” echte“. 

27.1.4 Erzeugen der Erkennerumgebung 

Bevor das Training beginnen kann müssen einige Entwurfskriterien festgelegt 

und einige Dateien erzeugt werden. Zu den Entwurfskriterien gehören zum 

Beispiel die Art der Berechnung der Emissionswahrscheinlichkeiten, dazu die 

Frage nach der Gestaltung des Parameterraums und der Signalverarbeitungsmethoden. 

Ohne weiteres Wissen wird man hier die gleichen Entscheidungen 

treffen, die bei einen vorhandenen Erkenner bekanntermaßen erfolgreich 

funktioniert haben.


Aus den Textkorpora müssen n-Gramme berechnet werden. Typische 

Größen dieser n-Gramm Sprachmodelle liegen in der Größenordnung von 

mehreren Millionen bis mehreren Zig Millionen Bigrammen und Trigrammen 

sowie den dazugehörigen Back-Off Parametern. 

Ein weiterer Wichtiger Bestandteil der Erkennerumgebung ist das Aussprachelexikon. 

Für die verbreitetsten Sprachen existieren schon zahlreiche 

Lexika. Für seltenere Sprachen oft keine in elektronischer Form. In manchen 

Sprachen (zum Beispiel Serbisch und Kroatisch) kann die Orthographie 

direkt auch als phonetische Umschrift verwendet werden. In anderen Sprachen 

ist dies nicht möglich. In der Tat gibt es sogar sehr viele Sprachen die 

ganz ohne Schriftform existieren – zugegebenermaßen sind solche Sprachen 

nicht besonders weit verbreitet. Das Aussprachelexikon muß das gesamte 

Trainingsvokabular abdecken. Wörter, die nicht im Lexikon enthalten sind, 

können nicht mit den üblichen HMM-Erkennungsmethoden von Kap. 12 

erkannt werden. An dieser Stelle entstehen oft sehr zeitraubende Arbeiten. 

Selbst in etablierten Sprachen wie die deutsche tauchen immer wieder Wörter 

auf, die in den bis dahin benutzten Lexika nicht vorkommen. So kann man bei 

einer deutschen Datensammlung von mehreren Stunden Sprache erwarten, 

Hunderte von Wörtern zu erfassen, für die noch keine phonetische Umschrift 

vorhanden ist. Einige davon lassen sich automatisch erzeugen – zum Beispiel 

weil sie Komposita von bekannten Wörtern sind. für andere müssen Text-To- 

Speech-Systeme verwendet werden. Da weder die Kompositaerkennung noch 

die Text-To-Speech-Systeme perfekt funktionieren bedarf ein derart automatisch 

erzeugtes Lexikon einer nachträgliche Durchsicht durch einen Experten. 

Das Aussprachelexikon definiert somit auch den Phonemsatz der neuen 

Sprache. Dieser bildet die Grundlage für die initialen akustischen Modelle. 

Für die Erzeugung von Kontextentscheidungsbäumen wird ein Fragenkatalog 

benötigt, der an den Phonemsatz der neuen Sprache angepaßt ist. In 

der Regel ist es möglich, mit Hilfe der IPA-Lautedefinitionen jedem Phonem 

artikulatorische Eigenschaften zuzuordnen und in etwa die gleichen Mengen 

dieser Eigenschaften über verschiedene Sprachen hinweg zu verwenden. 

27.1.5 Training und Evaluation 

Vor dem eigentlichen Training steht die Initialisierung des Parameterraumes. 

Wenn es sich um einen Erkenner für eine neue Sprache handelt, dann liegen 

in der Regel keine Labels vor und es existiert auch kein ausreichend guter 

Erkenner, der gute Labels erzeugen könnte. Wenn ein Erkenner in einer 

ähnlichen Sprache existiert könnte dieser dazu herangezogen werden, initiale 

(schlechte) Labels zu erzeugen. Problematisch wird dies allerdings dann, 

wenn die Phonemsätze der alten und der neuen Sprache nicht übereinstimmen. 

Phoneme aus der neuen Sprache kann der alte Erkenner gar nicht


etikettieren. Eine mögliche Vorgehensweise ist das Kopieren vorhandener 

Phonemmodelle in die neuen Modelle. Dann sind diese zwar aus der Sicht des 

Erkenners akustisch identisch, aber sie lassen sich immerhin mehr schlecht 

als recht erkennen. So wäre es möglich, im einen neuen Erkenner für die 

deutsche Sprache das im Amerikanischen übliche oÍ(wie in go oder show) 

als Ersatz für das deutsche o zu verwenden. 

In einem so frühen Stadium der Erkennerentwicklung ist es nicht 

ratsam gleich kontextabhängige akustische Modelle zu verwenden. Da diese 

jeweils einen kleinen Teil des Merkmals- und Parameterraumes einnehmen 

benötigen sie auch eine umso exaktere Zuordnung von Beobachtungen zu 

Modellen. Solange aber kein guter Erkenner existiert, genügt die Qualität 

dieser Zuordnungen nicht für ” scharfe“ kontextabhängige Modelle. 

Der neue Erkenner muß sich mit den unpassenden Parametern akustischer 

Modellen einer anderen Sprache oder mit schlechten Labels quasi 

am eigenen Schopf aus dem Sumpf ziehen. Diese geschieht in der Regel in 

einem iterativen Prozeß. In jeder Iteration wird ein etwas besserer Erkenner 

trainiert, der etwas bessere Viterbi-Pfade (Labels) berechnet, die dann für 

die nächste Iteration bessere Modelle erzeugen. Die Qualität des Erkenners 

wird nach jeder Iteration auf einer Kreuzvalidierungsmenge gemessen. Wenn 

festgestellt wird, daß keine weiteren Verbesserungen zu erwarten sind, wird 

der Schritt in die nächst höhere Komplexitätsstufe gemacht. Dann können 

feinere, kontextabhängige Modelle trainiert werden, die wiederum in der 

Lage sind, bessere Labels zu erzeugen. Ein Ballungsalgorithmus zum Zusammenfassen 

verschiedener Kontexte optimiert schließlich den Merkmalsraum. 

Es ist nicht ungewöhnlich, daß dieser iterative Trainingsvorgang mehrfach 

wiederholt wird. Insbesondere im Hinblick darauf, daß einige Algorithmen 

sich gegenseitig beeinflussen. So könnte zum Beispiel in einem relativ frühen 

Stadium eine LDA-Transformation berechnet werden, die auf einer mangelhaften 

Etikettierung der Daten beruht. Mehrere Erkenner mit verschieden 

vielen Trainingsiterationen und Komplexitätsgraden ihrer Parameterräume 

bauen auf dieser Merkmalsraumtransformation auf. Es ist nun nicht sinnvoll, 

einfach eine Neue LDA-Transformation mit den Labels eines besseren 

Erkenners zu berechnen. Der so transformierte Raum würde nicht mehr auf 

die Modelle des Erkenners passen. Daher muß nach der Erzeugung einer 

neuen LDA-Matrix das akustische Modell des Erkenners auch von Anfang 

an neu Trainiert werden.


27.1.6 Qualitätsanforderungen überprüfen und erfüllen 

Wenn der Erkenner fertig trainiert ist, kann es schon zu spät sein, bestimmte 

Änderungen vorzunehmen. Daher müssen gegebenenfalls einige Anforderungen 

schon während des Trainingsprozesses berücksichtigt werden. Andere 

werden oft erst hinterher erfüllt. Typische Anforderungen an Spracherkenner 

sind zum Beispiel die Erwartung, daß er in Echtzeit läuft. Zwar gilt auch 

bei der Entwicklung von Spracherkennern immer wieder der Wahlspruch 

der Softwaretechnik ” Make it work first, before you make it work fast“, 

allerdings kann eine ungeeignete Architektur des Parameterraumes dazu 

führen, daß eine Erkennung in Echtzeit hoffnungslos ist. Die Geschwindigkeit 

der Erkennung kann in der Regel mit einigen Parametern (Breite des 

Suchstrahls) eingestellt werden, wobei eine Reduzierung der Erkennungszeit 

so gut wie immer mit einer Erhöhung der Fehlerrate verbunden ist. Unter 

Umständen kann es nötig sein, einen kleineren Parameterraum oder ein 

kleineres Sprachmodell verwenden zu müssen, um Echtzeitanforderungen 

erfüllen zu können. 

Manche Aufgaben benötigen eine schritthaltende Erkennung. Das heißt 

der Erkenner muß bevor eine Äußerung beendet ist, den Anfang schon erkannt 

haben. Er arbeitet dann nicht auf einer fertigen Audio-Datei sondern 

auf einem Audio-Strom oder auf einer wachsenden Audio-Datei. Wenn der 

Benutzer eines intelligenten Vortragsunterstützungssystem zum Beispiel sagt 

” Auf der nächsten Folie sehen Sie wir die Ergebnisse dieser Experimente auf 

den Daten ausgefallen sind, die wir letztes Jahr im Rahmen des Projektes 

FAME gesammelt ...“. Wenn der Redner keine Sprechpause macht, wird ein 

Sprachdetektor auch kein Ende der Äußerung detektieren, und das System 

würde nicht erwartungsgemäß funktionieren, wenn es nicht schon am Anfang 

dieser Äußerung auf die nächste Präsentationsfolie schalten würde. 

Wenn schritthaltende Erkennung benötigt wird, muß dies gegebenenfalls 

in den Signalverarbeitungsroutinen des Erkenners berücksichtigt werden. 

Normierungsverfahren, die auf Äußerungsebene arbeiten (zum Beispiel 

verschiedene Mittelwertsubtraktionsverfahren), müssen darauf ausgerichtet 

werden, mit einem Audiodatenstrom zu arbeiten, dessen Ende nicht abzusehen 

ist. Für Mittelwertssubtraktionen bedeutet dies meistens, daß die 

Mittelwert auf einem Zeitfenster in der Vergangenheit berechnet werden 

müssen. Bei komplizierten Suchalgorithmen bedeutet schritthaltende Erkennung, 

daß es nicht sinnvoll ist, mehrere Vorwärts- und Rückwärtsdurchläufe 

über die Aufnahme zu machen, wenn nicht klar ist, wann der Rückwärtsdurchgang 

gestartet werden soll. 

Andere Qualitätsanforderungen beziehen sich zum Beispiel auf die 

Adaptierbarkeit des Erkenners. Die am meisten verbreiteten Adaptionsmethoden 

sind Vokaltraktlängennormierungen und Maximum-Likelihood


lineare Regression (s. Kap. 21). 

27.2 Beispiel: Videorecorder 

Auch wenn der technische Fortschritt die Bedienung von Videorecordern 

durch Techniken wie Videotextauswahl und Showview-Codes vereinfacht 

hat, scheuen immer noch viele Menschen vor der Programmierung der 

Geräte zurück und benutzten sie zumeist nur zum Abspielen ausgeliehener 

Videofilme. 

Die Schnittstellenproblematik der Videorecorder hat nichts damit zu tun, 

daß die Aufnahmetechnik veraltet ist. Egal, ob die Geräte VHS-Kassetten, 

DVD oder Festplatten verwenden, das Problem liegt vielmehr in der Kommunikation 

des Gerätes mit dem Benutzer. 

Ende der neunziger Jahre wurde an der Universität Karlsruhe ein Gerät 

entwickelt, das es dem Benutzer ermöglicht, einen Videorecorder nicht nur zu 

programmieren, sondern ihn auch als elektronische Programmzeitschrift zu 

benutzen. Das Gerät versteht Fragen wie Wann kommen heute abend die 

” 

Nachrichten?“ oder “Gibt es heute einen Krimi?“, einfache Bandfunktionen 

” Wirf die Kassette aus!“, aber auch Programmieranweisungen “Nimm den 

Film mit John Wayne auf!“. 

Für die Spracherkennung wurde ein mit spontaner deutscher Sprache 

trainierter Erkenner verwendet. Das Vokabular war mit ca. 600 Wörtern 

sehr klein. Allerdings lag die Perplexität der Aufgabe bei teilweise über 

2 000. Dies lag daran, daß das Aussprachelexikon für einige Wörter Hunderte 

verschiedener Aussprachen hatte. Da keine ausreichenden Mengen an Textdaten 

mit Mensch-Videorecorder Gesprächen zur Verfügung standen, konnte 

auch kein sinnvolles n-Gramm Modell dafür trainiert werden. Würde man 

von den vielen Schauspieler-, Sportler- und Politikernamen sowie Titeln und 

Untertiteln von Sendungen und deren Themen abstrahieren dann ist es aber 

mögliche eine einfache Grammatik zu definieren, die die meisten üblichen 

Gespräche, die ein Mensch mit einem Videorecorder führen würde abdeckt. 

Auf den Messen, auf denen das Vorführgerät ausgestellt wurde stellte sich 

heraus, daß mehr als die Hälfte der Äußerungen von der Sorte waren: 

” Programmiere “, ” Wann kommt “, ” Ich 

möchte einen sehen“ oder ” aufnehmen“. So wurde 

mangels Sprachmodell ein Ähnliches Vorgehen, wie bei klassenbasierten 

Sprachmodellen gewählt, nämlich ein klassenbasiertes Aussprachelexikon. 

Neben den ca. 600 alltäglichen Wörtern, die in einem einfachen Mensch- 

Maschine-Dialog verwendet werden, gab es Wörter wie

27.3 Beispiel: Adressenerkennung 439 

oder . Diese hatten jeweils Hunderte verschiedener möglicher 

Aussprachevarianten. Aus dem Index der Varianten, die der Erkenner 

auswählte, konnte dann der entsprechende Sendungstitel oder Schauspielername 

generiert werden. 

Neben dem Spracherkenner wurde noch ein so genannter flacher 

Parser benutzt, der entsprechend der einfachen grammatischen Struktur 

der Äußerungen mit Hilfe von regulären Ausdrücken nach bestimmten 

Phrasen suchte und so die Äußerungen klassifizierte und deren Inhalte 

in Fallschablonen ablegte. Fallschablonen waren zum Beispiel: Programmieranweisung, 

Senderabfrage, Zeitabfrage, Bandlaufwerkkommando, 

Uhrzeitabfrage und andere. Darüber hinaus gab es Datenstrukturen für 

partielle Sendungsspezifikationen. Zu einer vollständigen Programmieranweisung 

gehörten auch die vollständige Sendungsspezifikation. Um dies 

zu erreichen genügte es in manchen Fällen nur einen Schauspielernamen 

zu nennen (wenn dieser im gesamten überschaubaren Fernsehprogramm 

nur einmal auftaucht), in anderen Fällen konnte eine Sendung auch durch 

Angeben des Senders und einer Uhrzeit, oder durch Angeben einer Sparte 

und etwas über den Inhalt der Sendung exakt identifiziert werden. Wenn 

der Parser eine Programmieranweisung oder eine Inforationsanfrage zu 

einer nicht vollständig spezifizierten Sendung erkannt hatte, wurde der 

Benutzer darüber informiert, daß mehrere Sendungen in Frage kommen 

und er wurde aufgefordert im Dialog die Sendung vollständig zu spezifizieren. 

Für den praktischen Einsatz des Gerätes war vorgesehen, daß es sich 

die Informationen über das Fernsehprogramm aus dem Internet oder aus 

dem bei vielen Sendern vorhandenen Videotext-Dienst besorgt. Das System 

erreichte eine korrekte Transaktionsrate von ca. 90% auf den kooperativen 

Eingaben der Messebesucher [?] [?]. 

27.3 Beispiel: Adressenerkennung 

Abgesehen von den zahlreichen bereits im Einsatz befindlichen Diktiersystemen 

gehören zu den Anwendungen, die einigermaßen gut realisierbar sind 

und für die auch reichlich Bedarf besteht, gehören Adressenerkennungssysteme. 

Dabei geht es darum, daß viele Telefondienste während des Anrufs voll 

automatisch ablaufen, und es lediglich hinterher nötig ist, die Adressen der 

Anrufer abzuhören und einzutippen. Solche Vorgehensweisen sind bei vielen 

TV-Gewinnspielen, Kunden-Hotlines verschiedener Firmen, Werbeaktionen 

etc. üblich.


Auf den ersten Blick erscheint eine Automatische Erkennung solcher 

Daten als hoffnungslos. Das Problem ist ähnlich schwierig wie die Bedienung 

von Navigationssystemen oder von Web-Browsern. Die riesige Menge an 

möglichen Namen – und Adressen bestehen nahezu nur aus Namen und 

einigen Zahlen – macht eine Erkennung extrem schwierig. Dennoch ist 

es so, daß der Arbeitsaufwand, der normalerweise für die Transkribierer 

entsteht wesentlich gesenkt werden kann, wenn ein beachtlicher Anteil der 

Adressen mit ausreichender Sicherheit automatisch erkannt werden könnte. 

Bei mehreren Millionen Personennamen in Deutschland ist dies allerdings 

ohne zusätzliche Maßnahmen mit einem Standard Erkenner nicht möglich. 

Nicht nur, daß ein noch so großes Aussprachelexikon viele Namen gar nicht 

enthalten würde, auch ein naives Sprachmodell wäre wenig hilfreich. Eine 

Erkennungsaufgabe mit einer Perplexität von mehreren Millionen wäre mit 

den heutigen Techniken aussichtslos. 

Es ist nun aber möglich, auf zweierlei Art das Problem dramatisch 

zu erleichtern. Zum einen werden nur diejenigen Aufnahmen automatisch 

transkribiert, bei denen eine ausreichend hohe Konfidenz festgestellt wird. 

Alle anderen werden verworfen, und an einen menschlichen Transkribierer 

verwiesen. Natürlich sollte der Anteil solcher Aufnahmen möglichst gering 

sein. Bei der Mehrzahl der Adressen könnte man allerdings zur Senkung der 

Perplexität ein Telefonbuch benutzen. Ein allgemeines Sprachmodell, daß 

Klassen für Ortsnamen, Postleitzahlen, Straßennamen, Hausnummern, Vorund 

Nachnamen verwendet und ansonsten einige Wörter berücksichtigt, 

die bei der Formulierung von Adressen verwendet werden können, hat eine 

relativ niedrige Perplexität, weit unterhalb der Perplexität von Diktiersystemen, 

ja sogar unterhalb der Perplexität von einfachen Dialogsystemen wie 

Zugfahrplan- oder Kinoprogramm-Auskunftssystemen. Nur die Perplexität 

innerhalb dieser Klassen ist sehr groß. Ohne Verwendung weiteren Wissens, 

wäre die Perplexität innerhalb der Nachnamen-Klasse bei mehreren hunderttausend. 

Wenn man aber den Ort und sogar die Straße kennt, dann 

ist die Auswahl der möglichen Namen schon viel kleiner und bei bekannter 

Hausnummer in vielen Fällen sogar eindeutig. Umgekehrt kann aber auch ein 

erkannter Name für die Verringerung der Perplexität bei der Erkennung der 

Adresse hilfreich sein. Im Grunde hängen alle Komponenten einer Adresse 

voneinander ab. 

Erste Vorgehensweise: 

Jede Komponente wird unabhängig von den anderen Komponenten 

erkannt. Die Wahrscheinlichkeit, daß die beste Hypothese des Erkenners 

auch gleich die richtige ist, ist äußerst klein. Wenn der Erkenner für jede 

Komponente eine n-besten Hypothesenliste liefert, dann ist zu erwarten, 

daß die richtige Hypothese im Schnitt einen besseren Rang hat als der

27.3 Beispiel: Adressenerkennung 441 

Bekannte Komponenten Anzahl möglicher restlicher Adressen 

keine 38114 164 

Postleitzahl 11006 

Postleitzahl + Hausnummer 3930 

Nachnahme 14097 

Tabelle 27.1. Perplexitätsreduktion durch vorgegebene Adressenkomponenten 

Durchschnitt, also in der besseren Hälfte der n-besten Liste zu finden ist. 

Wenn pi(j) die Wahrscheinlichkeit dafür ist, daß das Vokabularwort wj 

die Hypothese für die i-te Adreßkompontente ist, dann erhalten wir für die 

aus k Komponenten bestehende Gesamthypothese 

argmax 

j1,j2,...,jk i=1 

k 

pi(ji) (27.1) 

Da es sich bei den pi(j) meistens um Dichten handelt bietet es sich an, 

alternativ statt der Dichtewerte den Rang ri(j) für das Wort wj innerhalb 

der n-besten Liste der i-ten Komponente zu verwenden und dann 

argmin 

j1,j2,...,jk i=1 

oder 

argmin 

j1,j2,...,jk 

k 

ri(ji) (27.2) 

k 

ri(ji) (27.3) 

i=1 

oder eine ähnliche Formulierung für die Gesamthypothese zu verwenden. 

Zweite Vorgehensweise: 

Eine zweite Vorgehensweise ist möglich, insbesondere dann, wenn die 

Menge der in Frage kommenden Adressen vor der Erkennung deutlich eingeschränkt 

werden kann. Dann ist es möglich, eine kontextfreie Grammatik zu 

definieren, die alle erwarteten Adressen abdeckt. Für alle ca. 40 Millionen 

Adressen aus allen deutschen Telefonbüchern würde diese Grammatik riesige 

Ausmaße annehmen. Wenn es aber möglich ist, weitere Hilfsmittel zu Rate 

zu ziehen, wie zum Beispiel die automatisch ermittelbare Rufnummer des 

Anrufers, oder zumindest die Vorwahl, oder wenn durch die Natur des angebotenen 

Telefondienstes nicht alle möglichen Adressen in Frage kommen, so 

daß die zu erzeugende kontextfreie Grammatik ausreichend kompakt ausfällt, 

dann kann man einen reinen HMM-Erkenner auf dem durch die Grammatik


definierten Zustandsraum laufen lassen. Je größer dieser Zustandsraum 

ist, umso mehr wird es nötig sein, diesen zu beschneiden. Ein geeigneter 

Kompromiß zwischen dem Anteil der zuverlässig erkannten Adressen und 

dem dafür benötigten Zeitaufwand muß dann je nach Anwendung gefunden 

werden. 

Dritte Vorgehensweise: 

Es ist möglich verschiedene Spezialerkenner neben einem gewöhnlichen 

allgemeinen HMM-Erkenner für kontinuierliche Sprache einzusetzen. So 

bietet es sich gerade für Adressenerkennung an, besondere Systeme für das 

Verstehen von Buchstabiersequenzen [?] und Zahlen zu verwenden. In einem 

ersten Schritt müssen in der Aufnahme die Passagen detektiert werden, in 

denen buchstabiert wird oder Zahlen gesprochen werden. Dies kann zum 

Beispiel durch Vergleich der Konfidenzmaße des Allgemeinerkenners mit 

den entsprechenden Maßen der Spezialerkenner geschehen. Wir erwarten 

dann auf den Passagen, in denen Zahlen gesprochen werden ein besonders 

gutes Verhältnis der Konfidenz des Zahlenerkenners zur Konfidenz des 

Allgemeinerkenners. Ähnlich ist es auch bei Buchtabiersequenzen. Die 

Erkennungsleistung spezialisierter Erkenner auf den für sie vorgesehenen 

Daten ist meist deutlich besser als die eines allgemeinen Erkenners. Wenn 

erst einmal auf diese Art die Postleitzahl einer Adresse erkannt ist, kann 

dann der Suchraum für die restlichen Komponenten einer Adresse drastisch 

reduziert werden. Dabei können auch erkannte Buchstabensequenzen zu 

Hilfe genommen werden. 

Diese schrittweise Reduzierung des Suchraums kann auf unterschiedlichen 

Wegen geschehen. So kann, wenn statt der Postleitzahl der Nachname oder 

eine andere Komponente konfident erkannt wurde diese zur Verkleinerung 

des Suchraums verwendet werden und die weniger konfidenten Komponenten 

dann später bei kleinerem Suchraum mit weniger Verwechslungsgefahr 

erkannt werden. 

Schließlich bietet es sich an, mehrere der oben aufgeführten Vorgehensweisen 

parallel zu verwenden und so eine weitere Quelle zur Konfidenzsteigerung 

zu haben. Nur solche Aufnahmen, die nicht durch mindestens zwei Vorgehensweisen 

zu identischen Adressen erkannt werden, werden zur manuellen 

Transkription weitergereicht.

28. Der moderne Vortragsraum 

Kommunikation kann in verschiedene Bereiche unterteilt werden. Die 

Begriffe Mensch-Maschine-Kommunikation (MMK) und Mensch-Maschine- 

Interaktion umfassen eine große Zahl verschiedener Konzepte. Der wohl 

häufigste Kontext, in dem von MMK gesprochen wird, sind graphische 

und mechanische Benutzerschnittstellen. Benutzerschnittstellen können 

mehr oder weniger natürlich sein. Je natürlicher sie sein sollen, umso 

mehr perzeptive Fähigkeiten müssen sie haben. Der uns in diesem Kapitel 

interessierende Bereich ist derjenige, in dem es um die maschinenunterstützte 

Mensch-Mensch-Kommunikation geht. Dazu gehören zum Beispiel 

Sprachübersetzungssysteme [?] oder Verhandlungen unterstützende Systeme 

[?]. Zwei weitere wichtige Szenarien sind einmal Besprechungen und Diskussionen, 

zum anderen Vorträge und Vorlesungen. 

Kommunikation 

Mensch-Mensch Mensch-Maschine 

interaktiv nicht interaktiv interaktiv nicht interaktiv 

Verhandlungen, 

Besprechungen, 

Vorträge etc. 

klassisch, ohne 

Maschinen 

Fernsehen, 

Radio etc. 

komplexe 

Geräte, 

GUIs etc. 

mit maschineller Unterstützung 

moderner Vortragsraum 

Transkription, 

Diktieren etc. 

Abb. 28.1. Verschiedene Bereiche der (maschineninvolvierten) Kommunikation

444 28. Der moderne Vortragsraum 

Warum bieten sich gerade Vorträge und Vorlesungen als Einsatzgebiet 

der sprachlichen Mensch-Maschine-Kommunikation an? Die zwei wichtigsten 

Motivationsgründe sind die Unterhaltung einer durchsuchbaren Datenbank 

und die ” Multimedialisierung“ von Vortragsräumen. 

” Es ist klar, was in der Informationsgesellschaft die knappste Ressource 

ist. Die menschliche Aufmerksamkeit.“ sagte einmal Herbert Simon, zu 

Lebzeiten Nobelpreisträger und Professor für Wirtschaftswissenschaften, 

Psychologie und Informatik an der Carnegie Mellon University in Pittsburgh, 

USA. Das Zitat faßt mehrere Forderungen an die Kommunikationstechnologie 

zusammen, Computer sollen ubiquitär sein, damit sie den Menschen 

jederzeit und überall helfen können. Sie sollen pervasiv sein, also alle 

wichtigen Lebensbereiche durchdringen, und – ganz wichtig – sie sollen 

unsichtbar sein, also keine Aufmerksamkeit der Benutzer auf sich ziehen, 

sondern den Menschen ermöglichen ihre gesamte Aufmerksamkeit den 

kommunizierten Inhalten sowie den anderen Menschen, mit denen sie 

kommunizieren, zu widmen. 

Vorträge und Vorlesungen sind typische Ereignisse die als primäres Ziel 

die Kommunikation zwischen Menschen haben. Ein moderner Vortragsraum 

sollte dafür sorgen, daß diese Kommunikation möglichst effizient und 

problemlos durchgeführt werden kann. 

28.1 Die Rolle der Spracherkennung 

Ein moderner Vortragsraum sollte ein multimodales System sein, das alle 

natürlichen Kommunikationsarten unterstützt. Die Sprache darf dabei 

nicht isoliert behandelt werden, sondern sie muß zusammen mit anderen 

Modalitäten interpretiert werden. Da Sprache aber zweifellos die einfachste 

und schnellste Kommunikationsart für komplizierte Sachverhalte ist, übernimmt 

sie in einem intelligenten interaktiven Raum die wichtigste Rolle 

unter den Modalitäten. In einem interaktiven Vortragsraum gibt es im 

wesentlichen drei verschiedene Arten von Sprache. Die erste ist solche, die 

direkt an den Raum gerichtet ist und Kommandos oder Anfragen an den 

Raum enthält oder Teil eines Dialogs mit dem Raum ist. Diese Sprache 

muß zwar nicht perfekt erkannt werden, aber dennoch nahezu perfekt 

verstanden werden. Erkennungsfehler sind weniger wichtig, wenn das System 

das gesagte dennoch versteht. Die zweite Art ist die Vortragssprache, also 

das, was der Redner über sein Thema erzählt. Diese Sprache muß weder 

perfekt erkannt noch verstanden werden. Es genügt, wenn die wichtigsten 

Inhalte erkannt werden, damit der Raum in der Lage ist, dem Vortrag zu 

folgen und abschätzen zu können, in welchem Stadium sich der Vortrag

28.1 Die Rolle der Spracherkennung 445 

befindet, und damit er nach dem Vortrag eine kurze Zusammenfassung für 

die Vortragsdatenbank generieren kann. Die dritte Art der Sprache ist die, 

die der Raum möglichst überhören sollte, also solche, bei der sich Benutzer 

des Raumes miteinander unterhalten. 

28.1.1 Automatische Bedienung der Medien 

Der Begriff ” Vorlesung“ stammt noch aus einer Zeit, in der Studenten und 

ein Dozent zusammenkamen. Die verwendeten Medien – sofern überhaupt 

welche verwendet wurden und nicht völlig freihändig vorgetragen wurde – 

bestanden aus einem handgeschriebenen Buch, das sehr schwer erhältlich 

war und nur mit sehr viel Aufwand reproduziert werden konnten. Und weil 

gleichzeitiges Lesen von vielen Personen in einem Buch sehr umständlich 

ist, wurde eben von einer Person vorgelesen, daher auch die Bezeichnung 

Vorlesung. 

Inzwischen sind die bei Vorlesungen verwendeten Medien viel leichter 

kopierbar. Oft sind sie sogar nahezu kostenlos aus dem Internet erhältlich. 

Sie sind nicht mehr handschriftlich sondern meist farbig und oft auch 

animiert. Trotz der einfachen Verfügbarkeit gibt es immer noch Vorlesungen. 

Ein wichtiger Grund, warum das Publikum immer noch zu Vorlesungen 

kommt ist die Unmittelbarkeit des Kontaktes zum Vortragenden und auch 

die Möglichkeit Zwischenfragen zu stellen. Zweifelsohne erfüllen Vorlesungen 

und Vorträge nicht nur den Zweck der Informationsvermittlung sondern vor 

allem auch einen sozialen Zweck, der im wesentlichen aus der Interaktion 

sowohl zwischen den Zuhörern und den Vortragenden als auch zwischen den 

Zuhörern untereinander besteht. 

Wenn wir die Entwicklung von Vorträgen und Vorlesungen über die Zeit 

extrapolieren, dann können wir erwarten, daß die Medien in Zukunft noch 

multimedialer werden. Sie werden immer mehr Video- und Audio-Dokumente 

und sogar interaktive Komponenten enthalten. Dieses wird insbesondere für 

die Vortragenden zweierlei Probleme mit sich bringen. Zum einen wird die 

Durchführung des Vortrags selbst komplizierter, zum anderen werden dafür of 

technische Geräte verwendet werden müssen, mit denen der Redner oft nicht 

vertraut ist. Daher sollte zu den zukünftigen Aufgaben eines Vortragsraumes 

neben dem Angebot technischer Geräte wie Projektoren, Lautsprecher, Videoabspielgeräte, 

Beleuchtung und Verdunkelung und Internet-Browser auch 

die Unterstützung der Anwesenden bei der Benutzung dieser Geräte gehören. 

Die ersten Schritte in Richtung eines intelligenten interaktiven Vortragsraumes 

bestehen darin einen einfachen Dialog zur Bedienung der 

wichtigsten Geräte anzubieten sowie das Weiterschalten der Vortragsfolien


zu übernehmen. Dazu gehören Benutzerkommandos wie ” Spiel dieses Video 

ab!“, “Könnten wir es etwas dunkler haben?“, oder “Wo ist der VGA-Stecker 

für den Projektor“. Solche Kommandos können teilweise sofort ausgeführt 

werden (Licht geht aus) oder einfach beantwortet werden (“Der Stecker liegt 

rechts auf dem Rednerpult.“), oder es wird etwas Unklares im Dialog geklärt 

( ” Welches Video meinen Sie?“). 

28.1.2 Verfolgen von Vorträgen 

Für die Archivierung von Vorträgen ist es weniger wichtig, daß das System 

das Gesprochene den einzelnen Folien oder sonstigen Präsentationsdokumenten 

exakt zuordnen kann. Es kann ja einfach mitprotokollieren zu 

welchem Zeitpunkt welche Folie aufgelegt war. So ist es dann nicht mehr 

schwierig eine Datenbasis (s. Abb. 28.2) anzulegen. Während des Vortrags 

ist es allerdings nötig, daß der Vortragsraum weiß, worüber der Redner 

gerade spricht, zum einen um so abhängig vom aktuellen Kontext passende 

Dienste anbieten zu können bzw. angeforderte Dienste richtig zu verstehen, 

und zum anderen um bei Bedarf automatisch Folien umzuschalten, Videos 

abzuspielen, Dokumente aus dem Internet zu besorgen und anzuzeigen. 

MY NAME IS *(IVI- 

CA) *(ROGINA) 

AND I WOULD LIKE 

TO INTRODUCE 

YOU TO THE 

*(INTERACTIVE) ... 

SPEAKING 

MAKING 

*(GESTURES) 

*(HAND- 

WRITING) 

EXPRESSING 

*(EMOTIONS) 

GIVING... 

HORSE 

BEACH 

*(RECO- 

GNITION) 

*(TOOLKIT) 

*(JANUS) 

+BREATH+ 

HAS BEEN 

*(BENCH- 

MARKED) 

AT ... 

Abb. 28.2. Synchronisierung von Folien mit Erkennerhypothesen 

Das automatische Weiterschalten der Folien ist für einfache ” linear 

strukturierte“ Vorträge zunächst nur ein kleine Erleichterung für den 

Vortragenden. Wenn allerdings die Vorträge komplizierter und weniger linear

28.1 Die Rolle der Spracherkennung 447 

werden, wenn Folien nicht mehr linear durchgearbeitet werden oder wenn sie 

mit Bezug auf den Inhalt referenziert werden (zum Beispiel kann der Benutzer 

sagen “Zeige noch einmal die Folie mit der Tabelle mit den Ergebnissen der 

Experimente!“), dann kann dieser Dienst des Vortragsraumes noch hilfreicher 

sein. Die Entscheidung, ob eine neue Folie angezeigt werden soll, kann auf 

zwei Informationen basieren: Einmal die aktuelle Phase des Vortrags (welche 

Teile wurden schon bearbeitet, welche stehen bevor, worüber redet der Vortragende 

gerade) und zum anderen durch spezielle Auslöser, also bestimmte 

Wörter oder Phrasen, die eine bestimmte Folie mit großer Wahrscheinlichkeit 

identifizieren. Das können Wörter oder Wortfolgen aus der Folienüberschrift 

sein, oder Wörter, die nur auf einer einzigen Folie auftauchen beziehungsweise 

einen sehr hohen tfidf-Wert bezüglich einer Folie als Dokument haben. 

Unter der Voraussetzung, daß die vorgesehene Reihenfolge der Folien 

bekannt ist, kann eine Zuordnung der aktuellen Äußerung des Vortragenden 

zu einer Folie mit Hilfe eines DP-Algorithmus bestimmt werden. Dabei 

werden die vom Spracherkenner hypothetisierten Wörter mit denen auf 

den Folien verglichen (der Vergleich kann durchaus ” fuzzy“ stattfinden, 

so daß Wörter dennoch als ähnlich angesehen werden, auch wenn sie 

sich in ihre Flexionsform oder Zusammensetzung unterscheiden. Andere 

Ähnlichkeitskriterien wie bei der HDLA (s. Abs. 16.7.2) sind auch sinnvoll. 

Unter Berücksichtigung alles bis zu einem Zeitpunkt Gesagten kann ein 

Viterbi-Pfad berechnet werden, aus dem hervorgeht, welche Folie die zu 

diesem Zeitpunkt wahrscheinlichste ist. Der Anteil der Zeit, während der 

sich das System irrt und eine falsche Folie annimmt wird als Tracking-Fehler 

bezeichnet (engl. to track = verfolgen). In Abb. 28.3 zeigt der obere Balken 

der tatsächlichen zeitlichen Verlauf der benutzten Folien eines Vortrags, 

darunter die angenommenen Folien des Systems (nur aus den Hypothesen 

des Erkenners gefolgert). Die hellgrauen Bereiche sind diejenigen, in denen 

das System richtig liegt, die dunkelgrauen Bereiche sind die Tracking Fehler. 

Abb. 28.3. Tracking-Fehler


In [?] wird ein Tracking-Fehler einer einfachen Viterbi-Pfad-Berechnung 

um ca. 30% angegeben. Wird die Information des Viterbi-Pfades mit der 

Heuristik der Auslösewörter kombiniert kann diese auf ca. 5% gesenkt werden. 

28.1.3 Verwalten einer Vortragsdatenbank 

Im Hinblick darauf, daß Lerninhalte aus Vorlesungen und Informationen 

aus Vorträgen immer mehr über Datennetze verbreitet und gesucht werden, 

sollte eine sehr wichtige Aufgabe eines modernen Vortragsraums das Angebot 

eines Dienstes zur Archivierung von Vorträgen und Präsentationen und vor 

allem zum Suchen und Wiederfinden archivierter Vorträge sein. In [?] werden 

Arbeiten zum Archivieren und wiederfinden von Besprechungen vorgestellt. 

Die gleiche Vorgehensweise kann auch für Vorträge angewandt werden. 

28.2 Verfolgen eines Laserpointers 

Seit es die so genannten Laserpointer günstig zu kaufen gibt und diese 

kaum noch gefährlich sind, werden sie gerne an Stelle eines Zeigestockes 

während Präsentationen verwendet. Die Detektion eines Laserpointers auf 

der projizierten Präsentation kann für verschiedene Zwecke genutzt werden: 

Dies sind Unterstüzung des Vortragsverfolgers, Steuerung einer intelligenten 

Kamera, Verwendung lebendiger interaktiver ” Präsentationsfolien“, Interaktion 

mit dem Publikum. Diese werden im folgenden etwas näher beleuchtet: 

Wo möglich, läßt sich der Vortragsraum gleich mit einer kalibrierten 

Kamera ausstatten. Oft ist es aber so, daß ein Redner seinen ” eigenen kleinen 

Vortragsraum“ mit sich in seinem Notebook-Computer zu den Ereignissen 

trägt, bei denen er eine Präsentation geben möchte. Für solche Fälle muß 

das System zumindest ein wenig auf die wechselnde Umgebung adaptiert 

werden. Dies gilt sowohl für die akustischen Gegebenheiten aber auch für die 

Einstellungen der Video-Kamera. Die in allen Fällen bequemste Methode 

besteht darin, eine einfache Webcam auf die Projektionsfläche zu richten 

und die Kalibrierung vollautomatisch durchführen zu lassen. 

Zu dieser Kalibrierung gehören zum einen die Anpassung an die 

Lichtverhältnisse, zum anderen das Erkennen der Projektionsfläche auf dem 

Videobild. Ist die Projektionsfläche erst einmal erkannt, dann gilt es noch aus 

der Position des detektierten Laserpointers auf dem Videobild die entsprechende 

Position auf der Folie zu berechnen. Hierbei kann man im allgemeinen 

kaum hilfreiche Annahmen über die Projektion und deren Videoaufnahme 

machen. Manche Projektionen sind schon auf der Wand eher ein Trapez als

28.2 Verfolgen eines Laserpointers 449 

ein Rechteck. Zusätzlich ist oft die Projektionsfläche nicht vollständig senkrecht, 

und die Kamera kann auch nicht immer zentral im optimalen Abstand 

vor ihr positioniert werden. So kann man bestenfalls annehmen, daß das Bild 

der Projektionsfläche im Video zumindest ein Viereck darstellt (s. Abb. 28.4). 

Abb. 28.4. Beispielaufnahmen von Projektionsflächen 

In Abb. 28.5 ist eine Beispielaufnahme skizziert. Das Kamerabild ist die 

grau unterlegte Fläche. Die Präsentation ist durch die Punkte A, B, C und 

D begrenzt. Wird an der Stelle Q ein Laserpointer detektiert, dann sind 

die eigentlichen Koordinaten auf der Präsentation durch die Werte α und β 

geben, die wie folgt berechnet werden: 

A + α · (D − A) = Q + γ1 · (E − Q) 

D + α · (C − D) = Q + γ2 · (F − Q) (28.1) 

Genauer wird die Positionsbestimmung, wenn zusätzlich mögliche 

Krümmungen der Aufnahme der Projektion durch die Optik des Projektors 

oder der Kamera oder auch durch die Krümmung der Projektionswand 

berücksichtigt wird. In der Regel reicht die Auflösung einer einfachen


E 

Abb. 28.5. Berechnen der Position des Laserpointers auf der Folie 

Webcam nicht aus, um beliebig komplizierte Krümmungen zu schätzen. 

Allerdings ist der einfachste Schritt schon hilfreich, bei dem angenommen 

wird, daß die Ränder der Projektion als Kreisbögen darstellbar sind (vgl. 

Abb. 28.6, bei der das graue Rechteck das Kamerabild darstellt und die 

weiße gekrümmte Fläche die Folienprojektion). Dann kann man ähnlich wie 

bei Gl. 28.1 statt den Winkel zwischen den horizontalen Kanten, den Anteil 

des horizontalen “Halbmondes“ E − Q − F (unterbrochene Linien durch den 

Laserpunkt) am gesamten Halbmond, der durch die beiden Kreise K oben 

und K unten definiert wird, die relative vertikale Position des Laserpunktes 

berechnen. 

Eine sehr sinnvolle Anwendung für die Verfolgung eines Laserpointers 

ist die Positionierung eines Markierers. Laserpointer werden meist nur dazu 

verwendet, die Aufmerksamkeit des Publikums auf eine bestimmte Stelle 

der Projektion zu lenken. Leider ist es oft so, daß ein Zuhörer eine gewisse 

Reaktionszeit hat, um festzustellen, daß überhaupt ein Laserpointer auf die 

A 

D 

α 

β 

F 

Q 

C 

B

E 

K oben 

Q 

K rechts 

K unten 

H horiz 

H vert 


F 

G 

H 

K links 

Abb. 28.6. Positionsbestimmung bei zusätzlicher optischer Krümmung 

Projektion gerichtet wird. Dessen Position ist dann meist so unstabil, daß er 

bevor der Zuhörer erkannt hat, was hervorgehoben werden soll, schon wieder 

ausgeschaltet ist. Um ihn sinnvoll als Zeigestockersatz einzusetzen, müßte 

seine Erscheinung deutlich größter sein, als eine Art Piktogramm erscheinen 

und wesentlich stabiler positioniert werden. Alle diese Forderungen lassen 

sich durch ein Laserverfolgungssystem realisieren. Auf die Stelle, an der 

der Laser erkannt wurde, kann ein Zeigepiktogramm in Form eines Fingers 

projiziert werden. Die Bewegung des Punktes, verursacht durch zittrige 

Hände, kann durch die Software ausgeglichen werden. Der Zeiger kann 

dann auf der gewünschten Position verbleiben, auch nachdem der Laser 

abgeschaltet wurde – so lange bis er explizit wieder aus der Projektionsfläche 

herausbewegt wird. 

Ähnlich wie die meisten Präsentationsprogramme die Möglichkeit bieten, 

in bestimmten kleinen Bereichen wie der linken unteren Ecke mit Hilfe einer 

Schaltfläche oder mit Hilfe von Funktionstasten die Erscheinung und Funk-


tion des (Maus-)Zeigers einzustellen, so kann auch mit den Laserpointer eine 

Funktion ausgewählt werden, die zum Beispiel zwischen Fingerpiktogramm, 

Zeichenstift, Pfeil, Vergrößerungsglas und ähnliches wechselt. 

28.2.1 Unterstützung des Vortragsverfolgers 

Wird der Laserpointer zum Markieren einer Textpassage auf der aktuellen 

Folie verwendet, so kann diese Information dafür nützlich sein, die erkannten 

Hypothesen des Spracherkenners genauer den einzelnen Teilen der Präsentation 

zuzuordnen. 

Steuerung einer intelligenten Kamera 

Zur Archivierung von Vorlesungen und Vorträgen ist es sinnvoll, nicht nur die 

Folien abzuspeichern, sondern auch noch die Audio- und Video-Aufnahmen. 

Optimal wären Videoaufnahmen, die so aussehen, wie sie ein menschlicher 

Kameramann aufnehmen würde. Das heißt insbesondere, daß die Zoom- 

Funktion auf Weitwinkel gestellt wird, wenn im Vortrag nichts Besonderes 

passiert, in den anderen Fällen sollte die meiste Zeit die Projektion gefilmt 

werden und gelegentlich auch auf den Sprecher geschwenkt werden. Wenn der 

Sprecher über einen bestimmten Teil der Projektion spricht, ist es sinnvoll, 

diesen Teil zu vergrößern. Ein solches Verhalten läßt sich zum größten 

Teil automatisieren. Wenn eine neue Folien aufgelegt wird, wird diese eine 

Zeitlang festgehalten. Wenn sie ausreichend lange zu sehen war, kann die 

Kamera hin und wieder für eine kurze Zeit auf das Gesicht oder den Körper 

des Vortragenden schwenken. Immer wenn anhand der Erkennerhypothese 

ein Bereich der Projektion angesprochen wird, und insbesondere dann, 

wenn mit dem Laserpointer auf die Projektion gezeigt wird, wird dieser 

Teil vergrößert angezeigt. Eine derartige Aufnahme ist viel angenehmer zu 

verfolgen als die Aufnahme einer statischen Kamera, die immer das gleiche 

Bild zeigt. 

Außer der Archivierung hat ein ” intelligentes Kameramodul“ als ganz 

besonders wichtiges Einsatzgebiet räumlich verteilte Vorträge, bei denen 

das ganze Publikum oder ein oder mehrere Teile des Publikums sich in 

anderen Räumen als im Vortragsraum befinden. So wurden in den Jahren 

der hohen Informatik-Studierendenzahlen (2000 und 2001) vom Autor an 

der Universität Karlsruhe Vorlesungen in Informatik für zeitweise über 700 

Studierende in mehreren Hörsälen gleichzeitig gehalten. An den Interactive 

Systems Labs, die sowohl an der Universität Karlsruhe als auch an der 

Carnegie Mellon University in Pittsburgh, USA, angesiedelt sind, werden 

regelmäßig transatlantische Seminare durchgeführt. Für solche akademische, 

aber auch für ähnliche Veranstaltungen bei kommerziellen Videokonferenzen


ist die Übermittlung der Position eines Laserpointers sehr hilfreich, nicht 

zuletzt deshalb weil außer dem Redner selbst auch jeder aus dem Publikum 

so kommunizieren kann. 

Interaktive Präsentationsfolien 

Ein Laserpointer kann auch als eine Art Ersatz-Mauszeiger verwendet 

werden. Dies ermöglicht es, interaktive Schaltflächen auf den Folien unterzubringen. 

Wird eine Schaltfläche mit dem Laserpointer ausgewählt und wird 

eine Zeitlang darauf gezeigt, so kann dies detektiert und eine entsprechende 

Aktion ausgelöst werden. Optimal ist diese Funktionalität, wenn sie mit der 

Verarbeitung der Spracherkennerhypothese kombiniert wird. So kann dann 

der Redner mit der Sprache die Aktion bestimmen und mit dem Laserpointer 

das dazugehörige Objekt auswählen. Zum Beispiel könnten auf einer Folie 

mehrere Videos aufgeführt sein. Der Sprecher kann dann sagen ” Spiel dieses 

Video ab.“ und dabei mit dem Pointer eines der Videos auswählen. 

Es ist sogar möglich, während der Präsentation in diese hineinzuzeichnen. 

Dazu ist nur nötig, das Präsentationsprogramm so zu modifizieren, daß es 

an den Stellen auf die der Pointer zeigt eine Spur hinterläßt. Sicher sind 

die allermeisten Redner nicht in der Lage, einen Laserpointer so exakt zu 

bewegen, daß damit etwas so Feines wie Handschrift gezeichnet werden kann. 

Aber für grobe Objekte wie Striche, Ovale oder einfache Symbole reicht die 

Zeigegenauigkeit normalerweise aus. 

Interaktion mit dem Publikum 

Während die meisten Projektoren heutzutage Infrarot-Fernbedienungen 

haben, die gleichzeitig als Funk-Mauszeiger für einen angeschlossenen 

Computer fungieren können. Allerdings funktioniert dies normalerweise nur 

durch Betätigen von Tasten oder eines Rollballes auf der Fernbedienung und 

nicht durch Zeigegesten. Ein Vorteil von Laserpointern ist die Tatsache, daß 

seine Benutzung viel eher einem verlängerten Arm oder einem Zeigestock 

ähnelt und somit viel natürlicher ist. Ein weiterer Vorteil besteht in der 

Universalität. Sie sind unabhängig von der restlichen Hardware des Vortragsraumes. 

Und als dritten Vorteil muß man schließlich noch die Möglichkeit 

nennen, daß sich auch Personen aus dem Publikum mit einem eigenen 

Laserpointer an der Interaktion mit der Präsentation beteiligen können. 

28.2.2 Algorithmen zur Detektion von Laserpointern 

Im allgemeinen kann man nicht davon ausgehen, daß die Hardware von 

Projektoren und Kameras in einem Vortragsraum so aufeinander abge-


stimmt sind und so miteinander verbunden sind, daß die Kamera die 

Besonderheiten der Projektion berücksichtigen kann. Solche Besonderheiten 

sind zum Beispiel die Bildwiederholfrequenz. Wer kennt nicht die rückwärts 

rollenden Wagenräder der Postkutschen aus alten Wildwestfilmen oder die 

dunklen Balken, die über einen abgefilmten Bildschirm wandern. Diese 

Effekte kommen von unterschiedlichen Bildraten in der Bilddarstellung und 

der Aufnahme. Die gleichen Probleme kann man auch beim Abfilmen von 

projizierten Präsentationen beobachten. Darüber hinaus gibt es eine Vielzahl 

verschiedener Projektoren. Einige haben für jede der drei Grundfarben eine 

eigene Linse und einen eigenen Teilprojektor, andere projizieren für jedes 

Bild drei aufeinanderfolgende Teilbilder, für jede Grundfarbe eines. So kann 

es durchaus vorkommen, daß auf der Videoaufnahme immer nur der Rot-, 

Grün- oder Blauanteil eines Bildes zu sehen ist, aber nie ein Bild mit allen 

drei Farben gleichzeitig. Bei anderen Projektoren kommt es vor, daß nur 

ein Teil des Bildes auf der Aufnahme zu sehen ist und nie das komplette Bild. 

Die zwei naheliegenden Lösungen für die genannten Probleme sind das 

zeitliche Glätten entweder durch einen Algorithmus der aus mehreren aufeinanderfolgenden 

Bildern ein geglättetes berechnet oder durch Verwenden 

einer relativ langen Belichtungszeit. Beide Varianten bringen allerdings 

weitere Probleme mit sich. Die meisten handelsüblichen Kameras haben 

nicht die Fähigkeit, die das menschliche Auge hat, für verschiedene Teile des 

Sichtfeldes unterschiedliche Lichtempfindlichkeiten einzustellen. Wählt man 

eine relativ kleine Lichtausbeute wird die Aufnahmequalität schlecht, läßt 

man die Lichtausbeute unverändert, wählt aber eine lange Belichtungszeit, 

so wird die Belichtungsfläche extrem stark ausgeleuchtet und die Unterschiede 

zwischen dem hellen Laserpunkt und der Projektion werden immer kleiner. 

Besonders hilfreich ist die Betrachtung von ” Delta-Bildern“. Die meiste 

Zeit eines Vortrags bleibt die Projektionsfläche unverändert. Unter der 

Annahme, das die Kameraeinstellung so vorgenommen wurden, daß Asynchronizitäten 

keinen Effekt auf die Aufnahme haben, gibt es vier verschiedene 

Arten der Bildänderung. Erstens den Wechsel der Lichtverhältnisse (Sonne, 

Raumbeleuchtung), zweitens Verdeckungen der Projektionsfläche durch Personen 

oder Gegenstände, drittens das Wechseln der Folien und viertens das 

Erscheinen, Bewegen oder Verschwinden eines Laserpointers. Folienwechsel 

kann das System direkt ohne den Umweg über die Kamera detektieren. 

Änderungen der Lichtverhältnisse sind grundsätzlich bei allen videobasierten 

kognitiven Systemen problematisch. Man begegnet ihnen meist mit Helligkeitsnormierungsverfahren. 

Beim Verfolgen von Laserpointern spielen solche 

Änderungen eine untergeordnete Rolle, ebenso wie temporäre Verdeckungen, 

da diese in den wenigsten Fällen auch nur annähernd punktförmig sind und 

sich meistens auch auf mehrere Farben und nicht nur auf die Farbe des

Lasers auswirken. 

28.3 Erkennung spontaner Vortragssprache 455 

Die meisten heutigen Laser haben ein rotes licht. Einige sind grün. 

Für solche Laser ist eine Detektion am einfachsten, indem die Differenz 

der Ableitung des Grünanteils und der Ableitung des Rotanteils betrachtet 

wird. Wenn ein Bildfolge gegeben ist als folge von RGB Werten 

{R1(x, y), G1(x, y), B1(x, y), . . . Rn(x, y), Gn(x, y), Bn(x, y)}, dann kann die 

Position eines erscheinenden oder gerade bewegten Lasers zum Zeitpunkt t 

bestimmt werden als: 

(ˆx, ˆy) = argmax 

(x,y) 

(Rt(x, y) − Rt−1(x, y)) 

− (Gt(x, y) − Gt−1(x, y)) 

− (Bt(x, y) − Bt−1(x, y)) 

(28.2) 

Gl. 28.2 basiert auf der Annahme, daß ein Laserpunkt so hell und so rot 

ist, daß die anderen Farben im Verhältnis zum Rot extrem schwach vertreten 

sind. Mit den bekanten ” Pixel-Koordinaten“ (ˆx, ˆy) kann dann nach Gl. 28.1 

die Position auf der Präsentation berechnet werden. 

28.3 Erkennung spontaner Vortragssprache 

Vortragssprache ist nicht ganz so spontan wie die Sprache in Besprechungen 

oder Telefonaten zwischen einander bekannten Personen. Bei Vorträgen redet 

meistens nur eine Person, ein gleichzeitiges Sprechen mehrerer ist kaum zu 

erwarten. Der Vortragende hat den Vortrag meistens ein wenig vorbereitet, 

oft auch die Präsentationsfolien selbst erstellt, so daß die Vortragssprache 

einigermaßen geplant ist. Dennoch ist sie wesentlich spontaner als diktierte 

Sprache. Die Verwendung eines völlig unadaptierten Diktiersystems zur 

Transkription von Vorträgen führt zu sehr schlechten Erkennungsraten, die 

drei bis fünf mal höher liegen als für diktierte Sprache [?]. Und dies gilt 

für die Benutzung von Nahbesprechungsmikrophonen. Bei Verwendung von 

Kragenmikrophonen steigt die Fehlerrate noch zusätzlich. Bis heute sind 

dem Autor keine Studien bekannt, die untersuchen, wie sich die mögliche 

Anspannung des Redners vor einem großen Publikum auf die Aussprache 

und insbesondere auf die Qualität der Spracherkennung auswirken. Man 

kann aber sicherlich davon ausgehen, daß die Situation in der sich ein 

Vortragender befindet der Sicherheit und Sauberkeit der Aussprache nicht 

gerade dienlich ist. 

Ein weiteres Problem von Vorträgen ist, daß sie sich meist auf ein ganz 

speziellen Thema beziehen und dieses auch tiefgreifend behandeln. Die


meisten guten Spracherkenner sind im wesentlichen mit Nachrichtentexten 

und vorgelesenen Nachrichten trainiert, so daß die Inhalte von zum Beispiel 

wissenschaftlichen Vortragen sehr schlecht darauf passen. 

Problematisch ist sehr wohl auch die Tatsache, daß oft keine Nahbesprechungsmikrophone 

verwendet werden. Ohne Adaption kann die Fehlerraten 

von Diktiererkennern auf Konferenzvorträgen bei über 90% liegen. Zu dieser 

großen Menge Fehler führt auch die größtenteils schlechte englische Aussprache 

von Nicht-Muttersprachlern. Eine deutliche Reduktion der Fehler auf ca. 

40% ist durch den Einsatz von MLLR-Adaption und Sprachmodelladaption 

möglich. Diese immer noch recht hohen Fehlerraten illustrieren deutlich wie 

problematisch Vortragssprache sein kann. 

28.3.1 Adaption des Sprachmodells 

Wenn Spracherkenner gute Erkennungsleistungen erbringen sollen, sind sie 

in der Regel auf irgend eine Art auf die Erkennungsaufgabe eingestellt. Auch 

wenn heute die Entwicklung immer mehr in Richtung sprecherunabhängiger 

Erkennung ganz ohne Einlernphase geht, so machen sprecherabhängige Erkenner 

immer noch wesentlich weniger Fehler. Aber nicht nur die Adaption 

an die akustischen Gegebenheiten ist hilfreich, sondern auch die Adaption 

des Sprachmodells. Gerade für die Schätzung von Sprachmodellparametern 

ist es sehr wichtig, daß eine große Menge an Textdaten existiert. Vorträge 

und Vorlesungen befassen sich oft mit wissenschaftlichen Themen, die man in 

den typischen Texten von Zeitungen nur sehr selten findet. Es ist viel leichter, 

riesige Mengen an politischen Nachrichtentexten zu sammeln als Texte über 

Spracherkennung. Selbst wenn man wissenschaftliche Abhandlungen als 

Quelle verwendet, so sind diese zwar sehr hilfreich bei der Erweiterung des 

Erkennervokabulars, aber der darin verwendete Sprachstil weicht sehr stark 

von der typischerweise recht spontanen Sprache eines Vortrags ab. 

Die häufigste Ausgangslage für einen intelligenten Vortragsraum ist die, 

daß das Thema des Vortrags und die Medien, die der Vortragende verwenden 

möchte, im voraus bekannt sind. Unter Umständen ” erfährt“ der Raum erst 

unmittelbar vor dem Vortrag, in dem Moment in dem der Redner seinen 

Notebook Computer anschließt, etwas über den Inhalt des Vortrags. Es ist 

nun wünschenswert, das ein Verfahren einsetzt, das mit Hilfe der wenigen 

Informationen, die es aus den Präsentationsfolien extrahieren kann, das 

Sprachmodell des Spracherkenners adaptiert. Da auf den Folien viel zu 

wenig Text steht, um damit robuste n-Gramme zu schätzen, benötigen wir 

also eine Ausgangslage, die auch mit sehr wenig Daten leicht und schnell 

adaptierbar ist.


Die Untersuchung der Präsentationsfolien und Dokumente verfolgt zwei 

Ziele. Das eine ist die Extraktion der wichtigen sinntragenden Wörter, das 

andere die Erzeugung einer textuellen Repräsentation (einfaches ASCII) der 

Dokumente, die dann dazu verwendet werden kann, eine Korrelation mit 

der Ausgabe des Spracherkenners zu berechnen. So weiß das System immer, 

über welchen Teil der Präsentation der Sprecher gerade spricht. 

Die extrahierten Wörter werden mit dem großen Hintergrundlexikon des 

Spracherkenners verglichen. Für jedes sinntragende Wort wird ein tfidf-Wert 

berechnet. Schließlich werden alle OOV-Wörter sowie die Wörter, deren 

tfidf-Wert über dem Durchschnitt liegt, als ” wichtige“ Wörter angesehen. 

Danach wird jedes wichtige Wort aus den Präsentationsdokumenten für 

eine Anfrage bei einer Internet-Suchmaschine verwendet. Die höchstrangigen 

m WWW-Seiten werden heruntergeladen und analysiert. Alle Fünfgramme 

deren mittleres Wort ein wichtiges Wort ist, werden extrahiert und abgespeichert. 

Zusätzlich können Anfragen gemacht werden, in denen mehrere 

(eventuell alle) wichtigen Wörter vorkommen. Bei solchen Anfragen kann 

erwartet werden, daß die gefundenen WWW-Seiten eine größere Ähnlichkeit 

mit dem Thema des Vortrags haben. 

Das primäre Ziel des Entwurfs des Sprachmodells ist es, zu ermöglichen 

daß neue Wörter möglichst einfach integriert werden können. Dafür eignet 

sich ein klassenbasiertes Trigramm-Sprachmodell. In [?] wird das Basis- 

Sprachmodell nur auf einem Vokabular besteht aus den häufigsten 2/3 der 

Wörter des Trainingskorpus trainiert. Die selteneren 1/3 der Trainingswörter 

werden mit Hilfe eines Ballungsverfahrens [?] zu einer Menge von Wortklassen 

zusammengeballt. Aus der Sicht des Basis-Sprachmodells handelt es sich 

bei den Klassen also um Klassen von OOV-Wörtern. 

Von den Klassen werden nur die Z größten verwendet. Alle kleineren 

Klassen werden in der Annahme, sie könnten eventuell durch zu wenige 

Trainingsdaten schlecht geschätzt sein, verworfen. Daraufhin wird ein 

klassenbasiertes Sprachmodell, bestehend aus dem Basis-Sprachmodell und 

den Klassen, erzeugt. 

Die entstehenden Klassen enthalten typischerweise Wörter gleicher Wortart, 

oder gleicher Flexionsform, aber auch Namen von Personen oder auch 

thematisch zusammenhängende Wörter, wie zum Beispiel in Abb. 28.7. 

Ein solches Sprachmodell ist nun dazu vorbereitet, neue Wörter aufzunehmen, 

indem sie als zusätzliches Element in eine passende Klasse eingefügt 

werden. Das Finden einer passenden Klasse geschieht wie folgt:


KLASSE-30 = { ASTHMA TUBERCULOSIS DIABETES POLIO PNEUMONIA 

DIARRHEA CHOLERA RAPHAEL ALCOHOLISM HEPATITIS MALARIA OBESITY 

MEASLES DEHYDRATION SCHIZOPHRENIA INGENUITY NAUSEA ADVIL 

MALNUTRITION ALLERGIES VALIUM UNTREATED MELANOMA HERPES 

ACETAMINOPHEN DYSENTERY ULCER SYPHILIS OSTEOPOROSIS COLDS 

LONGEVITY VOMITING PEROXIDE FLASHBACKS LIGGETT MENINGITIS ALS 

DIZZINESS TREMORS INFLUENZA SOYBEANS INDIGESTION DIPHTHERIA 

INSOMNIA NUMBNESS BULIMIA DEMENTIA LUPUS SIRHAN MENOPAUSAL 

AFFECTIONS PIMPLES MAIM MARKIE CHLAMYDIA POLYGAMY } 

Abb. 28.7. Beispiel für eine Wortklasse im Sprachmodell von [RS01] 

Sei v ein Wort das in das Sprachmodell eingefügt werden soll, und sei 

Φ(w) der Index der Klasse in die das Nicht-OOV-Wort w gehört. Für jede 

Klasse c ∈ Z wird Φv c (w) definiert als: 

Φ v ⎧ 

⎨Φ(w) 

w ∈ V 

c(w) = c w = v 

⎩ 

Φ(UNK) sonst 

(28.3) 

p(w|Φ v ⎧ 

⎪⎨ 

p(OOVc|c) · p(v|OOVc) w = v 

c (w)) = 

⎪⎩ #(w) 

#(Instanzen in c) 

w ∈ V 

(28.4) 

wobei 

p(OOVc|c) = 

und 

p(v|OOVc) = 

#(OOV-Instanzen in c) 

#(alle Instanzen in c) 

1 

#(verschiedene OOV Wörter in c) 

(28.5) 

(28.6) 

ist annähernd die Wahrscheinlichkeit dafür das Wort v unter den OOV- 

Wörtern in c ist, unter der Annahme daß alle Wörter darin gleichverteilt 

sind. 

Ĉv = argmax c∈Z 

wobei H = Φ v c(w1), . . . Φ v c(wj−1) 

 

j p(wj|Φ v c (wj)) · p(Φ v c (wj)|H) 

(28.7) 

Hier steht wj für das j-te Wort eines Textes der aus der Konkatenation 

aus dem Internet heruntergeladener Dokumente, die v enthalten, besteht 

Während in Gl. 28.7, H im allgemeinen die gesamte Historie des Wortes wj


meint, ist es sinnvoll, die Historie auf Trigramme zu beschränken, um so eine 

Übereinstimmung mit dem Sprachmodell des Erkenners zu gewährleisten. 

Eine Erweiterung des Verfahrens besteht darin, in Gl. 28.7 nicht nur 

die beste Klasse zu berechnen, sondern die besten n Klassen. Das optimale 

Ergebnis kann meist dadurch erzielt werden, daß die wichtigen Wörter in 

die besten drei bis fünf Klassen eingefügt werden. Durch das Einfügen aller 

wichtigen Wörter, auch der Nicht-OOV-Wörter kommen letztere mehrfach 

im Sprachmodell vor, einmal als einzelnen Individuum und einmal als 

Element einer oder mehrerer Klassen. Dies ist durchaus sinnvoll, denn mache 

Fachwörter haben in Vorträgen eine besondere Semantik, die möglicherweise 

besser durch die OOV-Klasse erfaßt wird als durch die durchschnittliche 

Verwendung des Wortes in den Trainingsdaten des Basis-Modells. 

Die in [?] vorgestellen Experimente belegen, daß die Wortfehlerrate des 

Spracherkenners auf drei verschiedenen Vorträgen allein durch Hinzufügen 

der aus den Vortragsfolien extrahierten OOV-Wörtern (ca. 5% der Vortragssprache) 

deutlich gesenkt werden konnte. Das Hinzufügen der ohnehin schon 

im Vokabular vorhandenen wichtigen sinntragenden Wörter in ausgewählte 

Sprachmodellklassen konnte die Fehlerrate darüber hinaus noch weiter reduzieren 

(s. Tab. 28.1). 

Vortrag A B C 

Ausgangssystem 33.5% 43.7% 31.0% 

nur OOV-Wörter hinzugefügt 28.1% 39.7% 29.8% 

alle ” wichtigen Wörter“ hinzugefügt 26.8% 37.8% 27.6% 

Tabelle 28.1. Fehlerrate des Vortragsverfolgers ohne/mit Sprachmodelladaption 

Im gleichen Experiment konnte gezeigt werden, daß auch die Tracking- 

Fehlerrate des nicht adaptierten Systems von zwischen 31.8% und 34.7% auf 

27.8% bis 31.0% beim adaptierten System verbessert werden konnte. 

Für die Leistung eines Vortragsverfolgers ist es selbstverständlich von 

größter Bedeutung, wie umfangreich die Informationen auf den Vortragsfolien 

sind. Wenn sich dort im wesentlichen nur Bilder und kaum Text befinden, 

dann ist die Aufgabe wesentlich schwieriger. Je mehr Text auf den Folien 

ist, und je näher der gesprochene Vortrag an den Folien liegt, umso sicherer 

arbeitet das System.


28.4 Das FAME Projekt 

Das EU-Projekt FAME beschäftigt sich unter anderem auch mit intelligenten 

Vortragsräumen. Es ist ein sehr gutes Beispiel dafür, welche Probleme 

auftauchen und welche Lösungen benötigt werden, wenn mehrere Menschen 

gemeinsam an einer Aufgabe in einem intelligenten Raum arbeiten. FAME 

steht für Facilitating Agent for Multicultural Exchange. Am Projekt sind 

sieben akademische und industrielle Partner aus vier europäischen Ländern 

beteiligt [?]. 

28.4.1 Ziele des Projektes 

Auch wenn das Projekt über die Problemstellung eines Vortragsraumes 

weit hinausgeht, so bildet dieser doch einen integralen Bestandteil des 

Gesamtsystems. Man kann Vorträge als Spezialfall einer allgemeinen Besprechung, 

wie sie in FAME auch betrachtet wird, sehen. Die Unterschiede 

zwischen wissenschaftlichen Vorträgen und wissenschaftlichen Besprechungen 

beziehungsweise Arbeitssitzungen lassen sich im wesentlichen wie folgt 

zusammenfassen: 

• Organisation 

Vorträge sind wesentlich strukturierter als Besprechungen. Es gibt eine 

(selten mehr) herausragende Person, den Redner. Dessen Position im 

Raum ist in etwas vorherzusehen, so daß ein automatischer Kameramann 

ihn relativ einfach finden kann. Der Ablauf eines Vortrags folgt gewissen 

Regeln (Begrüßung Präsentation, Fragen und Antworten, Verabschiedung). 

• Mikrophone 

Bei Vorträgen kann eher vom Sprecher erwartet werden, daß er ein am 

Kopf befestigtes Nachbesprechungsbügelmikrophon verwendet. Dieses 

liefert eine deutliche höhere Signalqualität als entfernt positionierte 

Mikrophone, wie sie im Falle einer Besprechung oder Arbeitssitzung 

verwendet werden müßten. 

• Sprechstil 

Vortragssprache ist mehr geplant als Diskussionssprache. Nicht nur weil 

der Redner sich schon vor dem Vortrag Gedanken gemacht hat, sondern 

auch weil er beim Vortragen etwas langsamer spricht und jeder einzelne 

Satz ein wenig in Gedanken vorformuliert wird. Daher kann man davon

ausgehen, daß die Erkennung etwas einfacher ist. 

• gleichzeitiges Sprechen 

28.4 Das FAME Projekt 461 

Schon in einfachen Dialogen, aber erst recht bei hitzigen Diskussionen 

tauchen vermehr spontane Effekte auf, Sätze werden mitten im Wort 

abgebrochen, teilweise später wieder fortgesetzt. Teilnehmer unterbrechen 

andere beim Sprechen, oder mehrere Leute sprechen gleichzeitig. All diese 

Phänomene sind bei einem Vortrag nicht oder nur sehr selten zu erwarten. 

• Vokabular und Sprachmodell 

Selbst bei wissenschaftlichen Besprechungen orientiert sich das verwendete 

Vokabular mehr an der Alltagssprache als an der Schriftsprache. Dies 

ist bei Vorträgen etwas anders. Hier werden Fachbegriffe öfter in unabgekürzter 

und nicht umgangssprachlicher Form verwendet. Bestimmte 

in der Schrift typische Phrasen fließen in die Vortragssprache ein. Die 

Wahrscheinlichkeit der Wortfolgen läßt sich eher anhand wissenschaftlicher 

Abhandlungen und sogar anhand von Zeitungstexten modellieren als mit 

spontanen Dialogen. 

• Dokumente 

Ein wichtiger besonders hilfreicher Vorteil ist das Vorhandensein von 

Dokumenten, die im Vorfeld analysiert werden können und zu Adaption 

des Erkenners und des gesamten Systems verwendet werden können. Diese 

fehlen in der Regel bei Besprechungen. 

28.4.2 Die FAME Blackboard Architektur 

Abb. 28.8 zeigt einen Ausschnitt aus der Beschreibung der Funktionalität des 

intelligenten Vortragsraumes, wie er im FAME Projekt implementiert wurde. 

Der Kasten in der Mitte stellt ein schwarzes Brett (blackboard) dar, über 

das die darum herum angebrachten Agenten miteinander kommunizieren. 

Zu den zentralen Agenten gehört der Aufmerksamkeitsdetektor, dessen 

wichtigste Aufgabe darin besteht, festzustellen, welche Informationsströme 

für welche Agenten von Interesse sind. Wie weiter oben erläutern gibt 

es vier verschiedene Arten der Sprache. Es ist vor allem Aufgabe des 

Aufmerksamkeitsverfolgers zu entscheiden, um was für eine Art Sprache es 

sich handelt.


Vortragsverfolgung 

X10 Raumsteuerung 

allgemeiner 


Vortragssprache 

Vortragszustand 

X10- 

Kommando 

spezialisierter 


Audiosegmente 

allgemeine 

Hypothese 

spezielle 

Hypothese 

Objektverfolgung 

Personenverfolgung 

Objekte 

Raumsteuersprache 

Raumzustand 

InformationsbedarfS 

Informationretrieval 

Abb. 28.8. Die FAME Blackboard Architektur 

Dokumente 

Videostrom 

Personen 

Systemantwort 

Ausgabemanager 

intelligente 

Kamera 

Sprachsegmentierer 

Aufmerksamkeitsverfolgung 

Dialogsteuerung 

Die Unterscheidung zwischen einem Dialog mit dem Raum und einem 

Dialog mit dem Publikum beziehungsweise der Vortragssprache geschieht 

vor allem auf zwei Arten. Einmal die Analyse der Erkennerhypothese eines 

allgemeinen ” Mehrzweckerkenners“, die auf das Vorkommen bestimmter 

Phrasen untersucht wird, die aussehen wir Raumkommandos. Und als 

zweite Methode der Vergleich der Hypothese des ” Mehrzweckerkenners“ mit 

der Hypothese eines spezialisierten Erkenners, der mit einer kontextfreien 

Grammatik als Sprachmodell auf Raumkommandos spezialisiert ist. Es liegt 

in der Bauart des spezialisierten Erkenners, daß dieser immer ein Raumkommando 

erkennt, auch wenn der Redner gerade seinen Vortrag hält, weil das 

Sprachmodell nur Raumkommandos zuläßt. Wie Experimente gezeigt haben 

[?] kann aber die Korrelation zwischen der speziellen Hypothese und der 

Mehrzweckhypothese herangezogen werden, um zu entscheiden, ob es sich 

wirklich um ein Raumkommando handelt. Im positiven Fall ist zu erwarten, 

daß die Korrelation hoch ist, im negativen eher niedrig. Diese Zweiteilung 

der Erkenner geschieht vor allem, weil ein spezialisierter Erkenner wesentlich 

weniger Fehler auf den Äußerungen macht, die für ihn vorgesehen sind. 

Der Wunsch des Redners, das Licht zu dimmen, läuft im FAME Blackboard 

Modell so ab. Der Redner spricht die Äußerung ” Licht dimmen, bitte“

28.4 Das FAME Projekt 463 

in sein Nahbesprechungsmikrophon. Über die Soundkarte des Raum-PCs 

gelangt das Sprachsignal zum Segmentierer. Dieser ist ein Agent mit der 

Aufgabe, Audiosegmente, die Sprache enthalten, auf das schwarze Brett 

zu legen. Diese Segmente werden dann von allen Erkennern (gegebenenfalls 

können sogar Erkenner für verschiedene Sprachen vorhanden sein) 

gelesen, und jeder Erkenner legt seine Hypothese auf das schwarze Brett 

zurück. Diese Hypothesen werden dann zusammen mit Informationen über 

Personen und Objekte (zum Beispiel deren Identitäten und Positionen) 

dazu verwendet, zu entscheiden, ob eine Nachricht an den Vortragsverfolger 

( ” Vortragssprache“) oder an die Dialogsteuerung ( ” Raumsteuersprache“) 

geschickt wird. Im Falle der Vortragssprache übernimmt der Vortragsverfolger 

die weitere Verarbeitung wie oben beschrieben. Im Falle eine 

Dialogs mit dem Raum kann nun die Dialogsteuerung verschiedene Aktionen 

durchführen. Sie kann eine Systemantwort erzeugen, die dann zum Beispiel 

als synthetisierte Sprache über Lautsprecher ausgegeben wird, oder sie 

kann direkt Steuerbefehle (zum Beispiel mit Hilfe des standardisierten X10 

Protokolls) an die Raumsteuerhardware schicken, oder auch eine Nachricht 

an einen Information-Retrieval Agenten schicken mit der Anforderung nach 

bestimmten Dokumenten. Im angeführten Beispiel, würde die Dialogsteuerung 

vom Aufmerksamkeitsdetektor darüber informiert werden, daß ” Licht 

dimmen, bitte“ ein Raumsteuerbefehl war. Wenn klar ist, welches Licht 

gemeint ist, kann ein entsprechendes Kommando an den Dimmer geschickt 

werden. Andernfalls kann die Systemantwort ” Welches Licht?“ als Teil eines 

Klärungsdialogs ausgegeben werden.

Literaturverzeichnis 

[Abt98] Abt. Intelligentes Bedienterminal. Ausschreibung Diplomarbeit, 

http://www.ee.ethz.ch/abt/all-div.html, ETH Zürich, (EEK 16), 1998. 

[ADNS94] X. Aubert, C. Dugast, H. Ney und V. Steinbiss. Large Vocabulary 

Continuous Speech Recognition of Wall Street Journal Corpus. In Proc. 

IEEE International Conference on Acoustics, Speech, and Signal Processing, 

Band 2, S. 129–132. IEEE, April 1994, Adelaide, Australia. 

[AS67] B. Atal und M. Schroeder. Predictive Coding of Speech Signals. In 

Proceedings of the IEEE Conference on Communication and Processing, S. 360– 

361. IEEE, 1967. 

[BAB94] K. Berkling, T. Arai und E. Barnard. Analysis of Phoneme-based 

Features for Language Identification. In Proc. IEEE International Conference 

on Acoustics, Speech, and Signal Processing, S. 289–292, Adelaide, April 1994. 

IEEE. 

[Ber] K. Bernardin. Automatische Generierung Akustischer Spracheinheiten. 

Studienarbeit, Universität Karlsruhe (TH). 

[BFRB96] A. Berton, P. Fetter und P. Regel-Brietzmann. Compound Words 

in Large Vocabulary German Speech Recognition. In Proc. IEEE International 

Conference on Acoustics, Speech, and Signal Processing, 1996. 

[BGY + 00] M. Bett, H. Gross, X. Yu, Y. Zhu, Y. Pan, J. Yang und A. Waibel. 

Multimodal meeting tracker. In Proceedings of the RIAO, April 2000, Paris. 

[BH95] M. Betz und H. Hild. Language Models for a Spelled Letter Recognizer. 

In Proc. IEEE International Conference on Acoustics, Speech, and Signal 

Processing, S. 856–859. IEEE, Mai 1995, Detroit, USA.

466 Literaturverzeichnis 

[BMHW93a] C. Bregler, S. Manke, H. Hild und A. Waibel. Bimodal Sensor 

Integration on the Example of “Speech-Reading”. In Proc. International 

Conference on Neural Networks, S. 667–670. IEEE, März 1993, San Francisco. 

[BMHW93b] C. Bregler, S. Manke, H. Hild und A. Waibel. Improving 

Connected Letter Recognition by Lipreading. In Proc. IEEE International Conference 

on Acoustics, Speech, and Signal Processing, S. I–557–561. IEEE, April 

1993, Minneapolis. 

[BMSZ97] J. Billa, K. Ma, G. Siu und G. Zavaliagkos. Acoustic Modelling 

Work at BBN. In Proceedings of the Hub-5 Conversational Speech Recognition 

Workshop, Linthicum Heights, Maryland, November 1997. NIST. 

[BPBB88] D. Bodoff, B. Petajan, B. Bischoff und N. Brooke. An Improved 

Automatic Lip Reading System to Enhance Speech Recognition. ACM SIGCHI, 

1988. 

[CT65] J. W. Cooley und J. W. Tukey. An Algorithm for the Machine Calculation 

of Complex Fourier Series. Mathematics of Computation, 19:297–301, 

1965. 

[CT91] T. M. Cover und J. A. Thomas. Elements of Information Theory. 

John Wiley & Sons, Inc., New York, 1991. 

[Dau88] I. Daubechies. Orthonormal of Compactly Supported Wavelets. Comm. 

Pure Appl. Mathematics, 41:906–966, 1988. 

[DBB52] K. Davis, R. Biddulph und S. Balashek. Automatic Recognition of 

Spoken Digits. Journal of the Acoustic Society of America (JASA), 24:637–642, 

1952. 

[DDC99] K. Demuynck, J. Duchateau und D. V. Compernolle. Optimal 

Feature Sub-space Selection based on Discriminant Analysis. In EURO- 

SPEECH99, Band II, S. 1311–1314, September 1999, Budapest, Ungarn. 

[DGDP96] N. Deshmukh, R. Ganapathiraju, R. J. Duncan und J. Picone. 

Human Speech Recognition Performance on the 1995 HUB-3 Corpus. In 

DARPA Speech Recognition Workshop, S. 129–134. Morgan Kaufmann, Februar 

1996, Arden House, New York.

Literaturverzeichnis 467 

[DH73] R. O. Duda und P. E. Hart. Pattern Classification and Scene Analysis. 

John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Signapore, 1973. 

[DP96] S. Das und M. Picheny. Automatic Speech and Speaker Recognition: Advanced 

Topics, chapter 19: Issues in Practical Large Vocabulary Isolated Word 

Recognition: The IBM Tangora System. Kluwer Academic Publishers, 1996. 

[Dud] H. Dudley. The Vocoder. Bell Labs, Record 18, S. 122-126, 1937; später 

in R.W. Schafer und J.D. Markel: Speech Analysis, IEEE Press, 1997. 

[Dud39] H. Dudley. Remaking Speech. Journal of the Acoustic Society of America 

(JASA), 11:169–177, 1939. 

[EP95] W. J. Ebel und J. Picone. Human Speech Recognition Performance on 

the 1994 CSR Spoke 10 Corpus. In DARPA Speech Recognition Workshop, S. 

53–59. Morgan Kaufmann, Januar 1995, Austin, Texas. 

[FAM] FAME. Projekt der EU im Rahmen des 5. Rahmenprograms, IST. Im 

Internet: http://www.fame-project.org. 

[FF59] J. Forgie und C. Forgie. Results Obtained from a Vowel Recognition 

Computer Program. Journal of the Acoustic Society of America (JASA), 

31(11):1480–1489, 1959. 

[FG66] J. Flanagan und R. Golden. Phase Vocoder. Bell Systems Technology 

Journal, 45 S. 1493ff, 1066. 

[FGH + 97] M. Finke, P. Geutner, H. Hild, T. Kemp, K. Ries und M. Westphal. 

The Karlsruhe-Verbmobil Speech Recognition Engine. In Proc. IEEE 

International Conference on Acoustics, Speech, and Signal Processing, Band 1, 

S. 83–86. IEEE, April 1997, München. 

[For73] G. D. Forney, Jr. The Viterbi Algorithm. Proceedings of the IEEE, 

61(3):268–278, März 1973. 

[FR96] J. Fritsch und I. Rogina. The Bucket Box Intersection Algorithm for 

Fast Approximative Evaluation of Diagonal Mixture Gaussians. In Proc. IEEE 

International Conference on Acoustics, Speech, and Signal Processing. IEEE, 

Mai 1996, Atlanta, USA.


[FR97] M. Finke und I. Rogina. Wide Context Acoustic Modeling in Read 

vs. Spontaneous Speech. In Proc. IEEE International Conference on Acoustics, 

Speech, and Signal Processing, Band 3, S. 1743–1746. IEEE, April 1997, 

München. 

[FR00] C. Fuegen und I. Rogina. Integrating Dynamic Speech Modalities into 

Context Descition Trees. In Proc. IEEE International Conference on Acoustics, 

Speech, and Signal Processing. IEEE, 2000, Istanbul. 

[Fri95] J. Fritsch. Schnelle Vektorquantisierung durch Bucket Voronoi Intersection 

Suche. Studienarbeit, Universität Karlsruhe (TH), März 1995. 

[Fri99] J. Fritsch. Hierarchical Connectionist Acoustic Modelling for Domain- 

Adaptive Large Vocabulary Speech Recognition. Dissertation, Universität Karlsruhe, 

1999. 

[FRSW95] J. Fritsch, I. Rogina, T. Sloboda und A. Waibel. Speeding Up 

the Score Computation of HMM Speech Recognizers with the Bucket Voronoi 

Itersection Algorithm. In EUROSPEECH95, S. 1091–1094, Madrid, September 

1995. 

[Fry59] D. Fry. Theoretical Aspects of Mechanical Speech Recognition. Journal 

of the Britisch Institute for Radio Engineering, 19:211–219, 1959. 

[Fue98] C. Fuegen. Optimierung der Sprachmodellgewichtung mit Hilfe neuronaler 

Netze. Diplomarbeit, Universität Karlsruhe, 1998. 

[Fue99] C. Fuegen. Integration von situationsabhängigen Modalitäten in Kontextentscheungsbäume. 

Diplomarbeit, Universität Karlsruhe, November 1999. 

[FW97] M. Finke und A. Waibel. Flexible Transcription Alignment. In IEEE 

Workshop on Speech Recognition and Understanding, Dezember 1997, Santa 

Barbara, California. 

[FWS + 01] C. Fügen, M. Westphal, M. Schneider, T. Schultz und A. Waibel. 

LingWear: A Mobile Tourist Information System. In Proceedings of the of 

the First International Conference on Human Language Technology Conference 

(HLT), März 2001, San Diego. 

[Gal97] M. Gales. Semi-Tied Full-Covariance Matrices for Hidden Markov Modells. 

Technical Report CUED/F-INFENG/TR 287, Cambridge University,


Engineering Department, Trumpington Street, Cambridge CB2 1PC, England, 

April 1997. 

[GFW98] P. Geutner, M. Finke und A. Waibel. Phonetic-Distance-Based 

Hypothesis Driven Lexical Adaptation for Transcribing Multilingual Broadcast 

News. In ICSLP, 1998. 

[GFWW98] P. Geutner, P. Finke, M. Scheytt, A. Waibel und H. Wactlar. 

Transcribing Multilingual Broadcast New Using Hypothesis Driven Lexical 

Adaptation. In DARPA Broadcast News Transcription and Understanding 

Workshop, 1998, Lansdowne, Virginia. 

[Gro97] S. Gross. Entwicklung eines Spracherkenners fr die Kroatische Sprache 

im Rahmen des GlobalPhone Projekts. Studienarbeit, Universität Karlsruhe 

(TH), März 1997. 

[GYS89] M. Goldstein, B. Yuhas und T. Sejnowski. Integration of Acoustic 

and Visual Speech Signals Using Neural Networks. IEEE Communications, 

November 1989. 

[HAH + 92] X. Huang, F. Alleva, S. Hayamizu, H. Hon, M. Hwang und 

K. Lee. The SPHINX-II Speech Recognition System. Technical Report CMU- 

CS-92-112, Carnegie Mellon University, Pittsburgh, 1992. 

[HAJ90] X. Huang, Y. Ariki und M. D. Jack. Hidden Markov Models for 

Speech Recognition. Edinburgh University Press, 1990. 

[HFS93] M. M. Hochberg, J. T. Foote und H. F. Silverman. A Comparison 

of State-Duration Distributions for HMM-Based, Connected Speech Recognition. 

IEEE Transactions on Speech and Audio Processing, 1993. 

[HFW91] P. Haffner, M. Franzini und A. Waibel. Integrating Time Alignment 

and Neural Networks for High Performance Continuous Speech Recognition. In 

Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing. 

IEEE, Mai 1991. 

[HGD90] C. Hemphill, J. Godfrey und G. R. Doddington. The ATIS Spoken 

Language System Pilot Corpus. NIST-Disc CD5-1.1, 1990. 

[HH91] M.-Y. Hwang und X. Huang. Shared-Distribution Hidden Markov 

Models for Speech Recognition. Technical Report CMU-CS-91-124, School of 

Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, USA, 

April 1991.


[Hil03] A. Hildebrand. Rekombination von Komposita in der Spracherkennung. 

Studienarbeit, Universität Karlsruhe (TH), August 2003. 

[HL88] W. Huang und R. Lippmann. Neural Net and Traditional Classifiers. In 

D. Anderson, Herausgeber, Neural Information Processing Systems, S. 387–396. 

American Institute of Physics, New York, 1988. 

[HMR + ] A. Hauptmann, J. Mostow, S. Roth, M. Kane und A. Swift. A 

Prototype Reading Coach that Listens: Summary of Project LISTEN. 

[HNB + 02] A. Hauptmann, T. Ng, R. Baron, W. Lin, M. Chen, M. Derthick, 

M. Christel und R. Jin. Video Classification and Retrieval with 

the Informedia Digital Video Library System. In Text Retrieval Conference 

(TREC02), November 2002, Gaithersburg. 

[HRRK94] M. M. Hochberg, S. Renals, A. Robinson und D. Kerschaw. 

Large Vocabulary Continuous Speech Recognition Using a Hybrid 

Connectionist-HMM System. In Proceedings of the International Conference 

on Speech and Language Processing, S. 1499–1502, September 1994, Yokohama. 

[HW92] P. Haffner und A. Waibel. Multi-State Time Delay Neural Networks 

for Continuous Speech Recognition. In Advances in Neural Network Information 

Processing Systems (NIPS-4-). Morgan Kaufman, 1992. 

[HW95] H. Hild und A. Waibel. Integrating Spelling Into Spoken Dialogue 

Recognition. In EUROSPEECH’95 (4th European Conference on Speech Communication 

and Technology), S. 1977–1980. IEEE, September 1995, Madrid, 

Spain. 

[HW96] H. Hild und A. Waibel. Recognition of Spelled Names over the Telephone. 

In Proceedings Fourth International Conference on Speech and Language 

Processing, S. 346–349, Oktober 1996, Philadephia, USA. 

[HZ93] T. Hazen und V. Zue. Language Identification using a Segment-based 

Approach. S. 1303–1306, Berlin, 1993. 

[IM94] R. Isotani und S. Matsunaga. A Stochastic Language Model for Speech 

Recognition Integrating Local and Global Constraints. In Proc. IEEE International 

Conference on Acoustics, Speech, and Signal Processing, Mai 1994, 

Adelaide, Australia.


[Ita75] F. Itakura. Minimum Prediction Residual Principle Applied to Speech 

Recognition. In IEEE Transactions on Acoustic, Speech, Signal Processing, 

Band 23, S. 67–72, 1975. 

[JBM75] F. Jelinek, L. R. Bahl und R. L. Mercer. Design of a Linguistic Statistical 

Decoder for the Recognition of Continuous Speech. IEEE Transactions 

on Information Theory, 21(3):250–256, 1975. 

[Jed98] M. Jedamzik. Ein ergonomisches Dialogsystem zur Steuerung von technischen 

Systemen in Wohnbereichen. Ausschreibung Diplomarbeit, Universität 

Dortmund, (Projektgruppe 277), 1998. 

[KA98] N. Kumar und A. Andreou. Heteroscedastic Discriminant Analysis 

and Reduced Rank HMMs for Improved Speech Recognition. Speech Communication, 

26:86–96, 1998. 

[Kat03] M. Katzenmaier. Verfolgen der Sprecheraufmerksamkeit mit Hilfe der 

Ausgabe des Spracherkenners. Studienarbeit, Universität Karlsruhe (TH), Februar 

2003. 

[Kau99] S. Kaufmann. Ein sprachgesteuerter Videorecorder. rfe, Verlag Technik, 

Dezember 1999. 

[Kem95] T. Kemp. Data-Driven Codebook Adaptation in Phonetically Tied 

SCHMMs. In Proc. IEEE International Conference on Acoustics, Speech, and 

Signal Processing, Band 1, S. 377–479. IEEE, Mai 1995, Detroit, USA. 

[Kem99] T. Kemp. Ein Automatisches Indexierungssystem für Fernsehnachrichtensendungen. 

Dissertation, Universität Karlsruhe, Dezember 1999. 

[KGS + 98] T. Kemp, P. Geutner, M. Schmidt, B. Tomaz, M. Weber, 

M. Westphal und A. Waibel. The Interactive Systems Labs View4You 

Video Indexing System. In ICSLP, Dezember 1998, Sydney. 

[KJ96] T. Kemp und A. Jusek. Modelling Unknown Words in Spontaneous 

Speech. In Proc. IEEE International Conference on Acoustics, Speech, and 

Signal Processing. IEEE, 1996. 

[Kla77] D. Klatt. Review of the ARPA Speech Understanding Project. Journal 

of the Acoustic Society of America (JASA), 62:1345–1366, 1977. (Siehe auch 

[?], S. 554-575).


[Kle00] M. Klein. Ein auf Flexionsformen basierendes Sprachmodell. Studienarbeit, 

Universität Karlsruhe (TH), Mai 2000. 

[KN93] R. Kneser und H. Ney. Improved Clustering Techniques For Class- 

Based Statistical Language Modelling. In EUROSPEECH’93 (3rd European 

Conference on Speech Communication and Technology), S. 973–977, September 

1993, Berlin, Germany. 

[KN02] S. Kanthak und H. Ney. Context-Dependent Acoustic Modeling Using 

Graphemes for Large Vocabulary Speech Recognition. In ICASSP 2002. IEEE, 

2002, Orlando, Florida. 

[Koh77] K. Kohler. Einführung in die Phonetik des Deutschen. Erich Schmidt 

Verlag, Berlin, 1977. 

[KS73] D. Klatt und K. Stevens. On the Automatic Recognition of Continuous 

Speech: Implications from a Spectrogram Reading Experiment. IEEE 

Transactions on Audio Electroacoustics, 21:210–217, 1973. 

[KSS03] M. Killer, S. Stüker und T. Schultz. Grapheme Based Speech Recognition. 

In Eurospeech 2003, 2003, Genf. 

[Kuh99] U. Kuhlmann. Achtung Aufnahme: Der sprachgesteuerte Videorecorder. 

ct, Heise Verlag, 23, 1999. 

[KVY93] S. Kapadia, V. Valtchev und S. Young. MMI Training For Continuous 

Phoneme Recognition on the TIMIT Database. In Proc. IEEE International 

Conference on Acoustics, Speech, and Signal Processing. IEEE, April 

1993, Minneapolis. 

[KWW00] T. Kemp, M. Weber und A. Waibel. End-to-End Evaluation of the 

View4You Broadcast News Transcription System. In RIAO 2000, April 2000, 

Paris. 

[LA96] L. Lamel und G. Adda. On Designing Pronunciation Lexicons for Large 

Vocabulary, Continuous Speech Recognition. In Proceedings Fourth International 

Conference on Speech and Language Processing, Oktober 1996, Philadephia, 

USA. 

[LCVC93] P. Le Cerf und D. Van Compernolle. Speaker Independent Small 

Vocabulary Speech Recognition using MLPs for Phonetic Labelling. In EURO-


SPEECH’93 (3rd European Conference on Speech Communication and Technology), 

S. 143–146, September 1993, Berlin, Germany. 

[Lee88] K.-F. Lee. Large-Vocabulary Speaker-Independent Continuous Speech Recognition: 

The SPHINX System. CMU-CS-88-148, Carnegie Mellon University, 

Pittsburgh, PA, April 1988. 

[Lee89] K.-F. Lee. Automatic Speech Recognition: the Development of the 

SPHINX System. Kluwer Academic Publishers, Boston, 1989. 

[LG93] L. Lamel und J. Gauvain. Identifying Non-linguistic Speech Features. 

S. 23–30, Berlin, 1993. 

[Lic50] J. Licklider. The intelligibility of amplitude-dichotomized, time-quantized 

speech waves. J. Acoustic Am., 22:820–823, 1950. 

[Lip89] R. Lippmann. Review of Research on Neural Nets for Speech Recognition. 

Neural Computation, 1(1):1–38, März 1989. (Auch in [?], S. 374–392). 

[LM89] K.-F. Lee und S. Mahajan. Corrective and Reinforcement Learning for 

Speaker-Independent Continuous Speech Recognition. Technical Report CMU- 

CS-89-100, Carnegie Mellon University, Pittsburgh, PA 15213, Januar 1989. 

[LW94] C. Leggetter und P. Woodland. Speaker Adaptation of Continuous 

Density HMMs Using Linear Regression. In Proceedings of the International 

Conference on Speech and Language Processing, Band 2, S. 451–454, 1994, Yokohama. 

[LW95] C. Leggetter und P. Woodland. Maximum Likelihood Linear Regression 

for Speaker Adaptation of Continuous Density Hidden Markov Models. 

Computer Speech and Language, 9:171–185, 1995. 

[LWL + 97] A. Lavie, A. Waibel, L. Levin, M. Finke, D. Gates, M. Gavalda, 

T. Zeppenfeld und Z. Puming. JANUS-III: Speech-to-Speech Translation 

in Multiple Languages. In Proc. IEEE International Conference on Acoustics, 

Speech, and Signal Processing, Band 1, S. 99–102. IEEE, April 1997, München. 

[MA01] J. Mostow und G. Aist. Smart Machines in Education, chapter Evaluating 

tutors that listen: An overview of Project LISTEN, S. 169–234. MIT/AAAI 

Press, 2001.


[Mai94] M. Maier. Dimensionalitätsreduktion von Sprachsignalen mit statistischen 

und neuronalen Methoden. Diplomarbeit, Universität Karlsruhe, 1994. 

[Mak75] J. Makhoul. Linear Prediction: A Tutorial Review. Proceedings of the 

IEEE, 63(4):561–580, 1975. 

[MBA + 93] Y. Muthusamy, K. Berklinig, T. Arai, R. Cole und E. Barnard. 

Comparison of Approaches to Automatic Language Identification using 

Telephone Speech. S. 1307–1310, Berlin, 1993. 

[Mey93] Y. Meyer. Wavelets: Algorithms and Applications. Society for Industrial 

and Applied Mathematics, Philadelphia, S. 13–31,101–105, 1993. 

[MK00] F. Metze und T. Kemp. Das View4You-System: End-to-End Evaluation. 

In Proceedings of KONVENS 2000, Oktober 2000, Illmenau. 

[MM76] H. McGurk und J. MacDonald. Hearing Lips and Seeing Voices. 

Nature, 264, 1976. 

[Moh97] M. Mohri. Finite-State Transducers in Language and Speech Processing. 

Computational Linguistics, 23(2), 1997. 

[MP43] W. S. McCulloch und W. Pitts. A Logical Calculus of the Ideas 

Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5:115– 

133, 1943. 

[MP69] M. Minsky und S. Papert. Perceptrons: An Introduction to Computational 

Geometry. MIT Press, Cambridge, Mass., 1969. 

[MP89] K. Mase und A. Pentland. Lip Reading: Automatic Visual Recognition 

of Spoken Words. Image Understanding and Machine Vision, Optical Society 

of America, Juni 1989. 

[MVC90] W. Ma und D. Van Compernolle. TDNN Labeling for a HMM 

Recognizer. In Proc. IEEE International Conference on Acoustics, Speech, and 

Signal Processing, April 1990. 

[MW02] F. Metze und A. Waibel. A Flexible Stream Architecture for ASR 

Using Articulatory Features. In ICSLP, 2002, Denver.


[Nag85] H.-H. Nagel. Einführung in die Mustererkennung. Skriptum zur gleichnamigen 

Vorlesung an der TH Karlsruhe, 1985. 

[NBF + 73] A. Newell, J. Barnett, J. Forgie, C. Green, D. Klatt, J. Licklider, 

J. Munson, D. Reddy und W. Woods. Speech Understanding Systems: 

Final Report of a Study Group. North Holland / American Elsevier, 1973. 

[Nes] Nespole! Projekt der EU im Rahmen des 5. Rahmenprograms, IST. Im 

Internet: http://www.itc-irst.it/nespole/. 

[Ney84] H. Ney. The Use of a One-Stage Dynamic Programming Algorithm for 

Connected Word Recognition. In IEEE Transactions on Acoustics, Speech, and 

Signal Processing, S. 263–271. IEEE, April 1984. (Auch in [?], S. 188–196). 

[Ney91] H. Ney. Speech Recognition in a Neural Network Framework: Discriminative 

Training of Gaussians Models and Mixture Desnities as Radial Basis 

Functions. In Proc. IEEE International Conference on Acoustics, Speech, and 

Signal Processing. IEEE, 1991. 

[NF90] M. Niranjan und F. Fallside. Neural Networks and Radial Basis Functions 

in Classifying Static Speech Patterns. Computer Speech and Language, 

4:275–289, 1990. 

[OB56] H. Olson und H. Belar. Phonetic Typewriter. Journal of the Acoustic 

Society of America (JASA), 28(6):1072–1081, 1956. 

[Ode92] J. J. Odell. The Use of Decision Trees with Context Sensitive Phoneme 

Modelling. Diplomarbeit, Department of Engineering, Cambridge University, 

Cambridge, UK, August 1992. 

[Pal89] D. S. Pallett. Benchmark Tests for DARPA Resource Management Database 

Performance Evaluations. In Proceedings of the ICASSP 89, S. 536–593, 

Glasgow, 1989. IEEE. 

[Pal97] D. Pallet. Proceedings of the Hub-5 Conversational Speech Recognition 

Workshop. Linthicum Heights, Maryland, November 1997. NIST. 

[Pau92] D. B. Paul. An Efficient A* Stack Decoder Algorithm for Continuous 

Speech Recognition with a Stochastic Language Model. In Proc. IEEE International 

Conference on Acoustics, Speech, and Signal Processing, S. 25–28, San 

Francisco, März 1992. IEEE.


[PGF + 95] D. S. Pallett, F. J. G., W. M. Fisher, J. S. Garofolo, B. A. 

Lund, A. Marin und M. A. Przybocki. 1994 Benchmark Tests for the 

ARPA Spoken Language Programm. In ARPA Workshop on Spoken Language 

Systems Technology, S. 5–36. Morgan Kaufmann, Januar 1995, Austin, Texas. 

[Reg88] P. Regel. Akustisch-Phonetische Transkription für die automatische Spracherkennung. 

In Informatik/Kommunikationstechnik, Band 10. VDI Verlag, 

Düsseldorf, 1988. 

[RK91] P. Rentzepopoulos und G. Kokkinakis. Phoneme to Grapheme Conversion 

Using HMM. In EUROSPEECH91, Genua, September 1991. 

[RLRW79] L. Rabiner, S. Levinson, A. Rosenberg und J. Wilpon. Speaker- 

Independent Recognition of Isolated Words Using Clustering Techniques. In 

IEEE Transactions on Acoustic, Speech, Signal Processing, Band 27, S. 336– 

349, 1979. 

[Rog97a] I. Rogina. Automatic Architecture Desing by Likelihood-Based Context 

Clustering with Crossvalidation. In Eurospeech, September 1997, Rhodos. 

[Rog97b] I. Rogina. Parameterraumoptimierung für Diktiersysteme mit unbeschränktem 

Vokabular. Dissertation, Universität Karlsruhe, Juni 1997. 

[RP92] V. Ramasubramanian und K. Paliwal. Fast K-dimensional Tree Algorithms 

for the Nearest Neighbor Search with Application to Vector Quantization 

Encoding. IEEE Transactions on Signal Processing, 40(3), 1992. 

[RS01] I. Rogina und T. Schaaf. Lecture and Presentation Tracking in an Intelligent 

Meeting Room. IEEE International Conference on Multimodal Interfaces, 

2001, Pittsburgh. 

[Rus89] G. Ruske. Gehörbezogene automatische Spracherkennung. Informationstechnik, 

31(5):316–323, 1989. 

[RW94] I. Rogina und W. Waibel. Learning State-Dependent Stream Weights 

for Multi-Codebook HMM Speech Recognition Systems. In Proc. IEEE International 

Conference on Acoustics, Speech, and Signal Processing, Band 2, S. 

217–220. IEEE, April 1994, Adelaide, Australia.


[RW95] I. Rogina und A. Waibel. The JANUS Speech Recognizer. In AR- 

PA Workshop on Spoken Language Systems Technology, S. 166–169. Morgan 

Kaufmann, Januar 1995, Austin, Texas. 

[Sch94] K. Schuber. Grundfrequenzverfolgung und deren Anwendung in der Spracherkennung. 

Diplomarbeit, Universität Karlsruhe, 1994. 

[Sch96] T. Schaaf. Vertrauensmaße für die maschinelle Spracherkennung. Diplomarbeit, 

Universität Karlsruhe, Oktober 1996. 

[Sch00] T. Schultz. Multilinguale Spracherkennung - Kombination akustischer 

Modelle zur Portierung auf neue Sprachen. Dissertation, Universität Karlsruhe, 

Jul 2000. 

[Sch01] T. Schaaf. Detection of OOV Words Using Generalized Word Models and 

a Semantic Class Language Model. In EUROSPEECH01, Aalborg, September 

2001. 

[Shi86] K. Shikano. Evaluation of LPC Spectral Matchin Measures for Phonetic 

Unit Recognition. Technical Report Technical Report, Carnegie Mellon University, 

Pittsburgh, 1986. 

[SMFW02] H. Soltau, F. Metze, C. Fügen und A. Waibel. A One-Pass 

Decoder Based on Polymorphic Linguistic Context Assignment. In ASRU, 2002. 

[SMW96] B. Suhm, B. Myers und A. Waibel. Interactive Recovery from 

Speech Recognition Errors in Speech User Interfaces. In ICSLP, S. 861–864, 

1996, Philadelphia. 

[SR86] T. Sejnowski und C. Rosenberg. NETtalk: A Parallel Network that 

Learns to Read Aloud. Technical Report JHU/EECS-86/01, John Hopkins 

University, Juni 1986. 

[SR87] T. J. Sejnowski und C. R. Rosenberg. Parallel Networks that Learn 

to Pronounce English Text. Complex Systems, 1:145–168, 1987. 

[SR95] T. Schultz und I. Rogina. Acoustic and Language Modeling of Human 

and Nonhuman Noises for Human-To-Human Spontaneous Speech Recognition. 

In Proc. IEEE International Conference on Acoustics, Speech, and Signal 

Processing, Band 1, S. 293–296. IEEE, Mai 1995, Detroit, USA.


[SR97] K. Seymore und R. Rosenfeld. Large-scale Topic Detection and Language 

Model Adaptation. In tech. report CMU-CS-97-152, Computer Science 

Department, Carnegie Mellon University, Juni 1997. 

[SSMW03] S. Stüker, T. Schultz, F. Metze und A. Waibel. Multilingual 

Articulatory Features. In ICASSP, 2003. 

[ST91] O. Schmidbauer und J. Tebelskis. An LVQ based Reference Model for 

Speaker-Adaptive Speech Recognition. CMU-Internal Report, 1991. 

[ST92] O. Schmidbauer und J. Tebelskis. An LVQ Based Reference Model for 

Speaker-Adaptive Speech Recognition. In Proc. IEEE International Conference 

on Acoustics, Speech, and Signal Processing, San Francisco, März 1992. IEEE. 

[ST95] E. Schukat-Talamazzini. Automatische Spracherkennung. Vieweg, 

Braunschweig, Germany, 1995. 

[Stü03] S. Stüker. Multilingual Articulatory Features. Diplomarbeit, Universität 

Karlsruhe, Mai 2003. 

[SWW93] B. Suhm, M. Woszczyna und A. Waibel. Detection and Transcription 

of New Words. In EUROSPEECH93, Berlin, September 1993. 

[TS91] J.-I. Takami und S. Sagayama. A successive State Splitting Algorithm 

for Efficient Allophone Modelling. ATR-Internal Report, ATR Interpreting Telephony 

Research Laboratories, Kyoto, Japan, 1991. 

[TW90] J. Tebelskis und A. Waibel. Large Vocabulary Recognition Using 

Linked Predictive Neural Networks. In Proc. IEEE International Conference 

on Acoustics, Speech, and Signal Processing. IEEE, April 1990. 

[TWPS91] J. Tebelskis, A. Waibel, B. Petek und O. Schmidbauer. Continuous 

Speech Recognition by Linked Predictive Neural Networks. In R. Lippmann, 

J. Moody und D. Touretzky, Herausgeber, Advances in Neural Information 

Processing Systems, San Mateo, CA, 1991. Morgan Kaufmann. 

[van99] D. van Compernolle. Speech Recognition by Goats, Wolves, Sheeps, 

and Non-Natives. In ESCA-NATO Tutorial and Research Workshop on Multilingual 

Interoperability in Speech Technology, S. 3–9, September 1999, Leusden, 

Niederlande.


[Ver98] Verein für Konsumenteninformation. Videorecorder Test. Konsument, 

Februar 1998. 

[Vit67] A. J. Viterbi. Error Bounds for Convolutional Codes and an Asymptotically 

Optimal Decoding Algorithm. IEEE Transactions on Information Theory, 

13(2):260–269, April 1967. 

[VW96] M. T. Vo und C. Wood. Building an Application Framework for Speech 

and Pen Input Integration in Multimodal Learning Interfaces. In ICASSP. 

IEEE, 1996, Atlanta. 

[Wai88] A. Waibel. Consonant Recognition by Modular Construction of Large 

Phonemic Time-Delay Neural Networks. In Advances in Neural Information 

Processing Systems. Morgan Kaufmann, November 1988. 

[War89] W. Ward. Modelling Non-verbal Sounds for Speech Recognition. In 

DARPA Workshop on Speech and Natural Language Processing, Oktober 1989. 

[WE92] W. Wahlster und J. Egelkamp. Wissenschaftliche Ziele und Netzpläne 

für das VERBMOBIL Projekt. DFKI Saarbrücken, April 1992. 

[Wei95] B. Weide. The Carnegie Mellon Pronunciation Dictionary, CMUDICT 

V0.4. Freie Software der Carnegie Mellon University, http://www.cs.cmu.edu, 

1995. 

[Wes00] M. Westphal. Robuste Kontinuierliche Spracherkennung für mobile informationssysteme. 

Dissertation, Universität Karlsruhe, Juni 2000. 

[WHH + 87] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano und K. Lang. 

Phoneme Recognition Using Time-Delay Neural Networks. Technical Report 

TR-1-0006, ATR Interpreting Telephony Research Laboratories, Oktober 1987. 

[Woo91] C. A. Wood. ATR Interpreting Telephony - Carnegie Mellon University 

Conference Registration Task. Tech Report ??, März 1991. 

[Woo95] P. Woodland. Persönliches Gespräch auf dem ARPA Workshop Spoken 

Language Technology, SLT, in Austin, Texas, im Januar 1995, 1995. 

[Wos98] M. Woszczyna. Fast Speaker Independent Large Vocabulary Continuous 

Speech Recognition. Dissertation, Universität Karlsruhe, Februar 1998.


[WOVY94] P. Woodland, J. Odell, V. Valtchev und S. Young. The HTK 

Large Vocabulary Recognition System: An Overview. In ARPA Spoken Language 

Technology Workshop, (keine Seitennumerierung ), März 1994, Princeton, 

New Jersey. 

[WSL92] G. Wolff, D. Stork und E. Levine. Nural Network Lipreading System 

for Improved Speech Recognition. In IJCNN, Juni 1992. 

[WSVJ97] A. Waibel, B. Suhm, M. T. Vo und Y. Jie. Multimodal Interfaces 

for Multimedia Information Agents. In ICASSP. IEEE, 1997, München. 

[WW94] M. Woszczyna und A. Waibel. Inferring Linguistic Structure in Spoken 

Languge. In Proceedings of the International Conference on Speech and 

Language Processing, 1994. 

[WW01] M. Westphal und A. Waibel. Model-Combination-Based Acoustic 

Mapping. In ICASSP, Mai 2001, Salt Lake City. 

[WWH98] H. Wactlar, M. Witbrock und A. Hauptmann. Informedia News- 

On-Demand: Using Speech Recognition to Create a Digital Video Library. 

Technical Report CMU-CS-98-109, Carnegie Mellon University, Pittsburgh, PA 

15213, USA, 1998. 

[Yan02] M. Yang. Detecting Faces in Images: A Survey. IEEE Transactions on 

Pattern Analysis and Machine Intelligence, 24, 2002. 

[YBC94] M. Y.K., E. Barnard und R. Cole. Reviewing Automatic Language 

Identification. IEEE Signal Processing, 11(4):33–41, Oct 1994. 

[YJC94] M. Y.K., N. Jain und R. Cole. Perceptual Benchmarks for Automatic 

Language Identification. In Proc. IEEE International Conference on Acoustics, 

Speech, and Signal Processing, S. 333–336, Adelaide, April 1994. IEEE. 

[YYDW99] J. Yang, W. Yang, M. Denecke und A. Waibel. Smart Sight: A 

Tourist Assistant System. In The Third International Symposium on Wearable 

Computers (ISWC), Oktober 1999, San Francisco. 

[Zis93] M. Zissmann. Automatic Language Identification using Gaussian Mixtures 

and Hidden Markov Models. In Proc. IEEE International Conference on 

Acoustics, Speech, and Signal Processing, S. 309–402, Minneapolis, 1993. IEEE.


[Zwi60] E. Zwicker. Zur Unterteilung des hörbaren Frequenzbereiches in Frequenzgruppen. 

Acustica, 10:185, 1960.

Sachverzeichnis 

F0, 391 

N-Gramme, 265 

αt(j), 189 

µ-law, 102 

k-Mittelwerte Verfahren, 134 

k-Nächste-Nachbarn, 132 

a-law, 102 

A/D Wandler, 77 

absolutes Discounting, 272 

Abtastfrequenz, 79 

Abtastfunktion, 80 

Abtasttheorem, 80, 98 

Abtastung, 77 

Adaption, 354 

Adaptionsmethoden, 361 

Adaptionsziele, 359 

adjacency pairs, 407 

Adressenerkennung, 439 

Affrikate, 72 

agglomerative Kontextballung, 300 

Air Travel Information System, 38 

Akustisch-phonetische Merkmale, 417 

akustisches Modell, 224 

Ali Baba, 33 

Aliasing-Effekt, 98 

Allophonen, 64 

Amplitude, 55, 106 

Amplitudenspektrum, 91 

Analog/Digital Wandler, 77 

Anatomie, 42 

Anfangswahrscheinlichkeiten, 186 

Anfangswahrscheinlichkeitsverteilung, 

186 

Anrufbeantworter, 29 

Anti-Aliasing Filter, 79 

aperplexity, 270 

Architekturentwurf, 336 

ARPA, 35 

Artikulationsapparat, 42 

Artikulationsort, 73 

artikulatorische Geräusche, 22, 357 

aspiriert, 74 

ATIS, 38 

Atlantikkabel, 34 

Auflösung von Ambiguitäten, 393 

Aufmerksamkeitssteuerung, 393 

Aufnahmeknop, 152 

Auslassungen, 248 

Aussprachelexika, 236 

Aussprachemodellierung, 236 

Aussprachevarianten, 240 

Aussteuerung, 79 

Authentifikation, 9 

Automatisches Folienweiterschalten, 

445 

B-D-G-Task, 346 

Back-Channels, 404 

Backoff-Verfahren, 272 

Backpropagation, 376 

Backward Algorithmus, 196 

Bag of Words, 266 

Bakis, 172 

Bakis-HMM, 201 

Bakis-Modell, 173 

Ballung von Kontexten, 297 

Ballungsbaum, 300 

bandbegrenzt, 90 

Barge-In, 405

484 Sachverzeichnis 

Bark-Skala, 117 

Basic Isodata Algorithmus, 134 

Basilarmembran, 53 

Baum-Welch-Regeln, 197 

Bayes Klassifikator, 140 

Beam Search, 174 

Beamforming, 425 

behinderte Menschen, 8 

Beobachtungswahrscheinlichkeit, 195 

Beschneidung des Suchraumes, 318 

Bestimmung des Geschlechts, 355 

betonte Pausen, 21 

Betonung, 392 

Bigramm, 265 

bilabial, 73 

binaurales Hören, 424 

Biologie der Sprachkommunikation, 41 

Biphone, 291 

blinde Menschen, 7 

BN (Broadcast News) Task, 38 

Bottom-Up-Parser, 396 

Buchstabenalphabet, 46 

Buchstabiererkennung, 345 

Bucket Voronoi Intersection, 137 

BVI, 137 

Cache-Sprachmodelle, 274 

Call Home Task, 38 

Car-PC, 12 

Carnegie Mellon University, 37 

CART, 303 

case frames, 400 

Cepstrum, 119 

CFG, 279 

Cochlea, 53 

Cocktail-Party, 420 

Cocktail-Party-Effekt, 28 

Codebuch, 134 

Computerspiele, 10 

Corpus Mapping, 434 

CTI, 14 

Cutoffs, 271 

DARPA, 35 

Data-Mining, 283 

Datenaufbereitung, 433 

Datensammlung, 432 

Datenströme, 229 

dBA, 58 

Decoder, 315 

Decoderarten, 315 

Dekodierungsproblem, 192 

delayed bigrams, 322 

Delta-Koeffizienten, 230 

dental, 73 

deterministische Klassifikatoren, 127 

Dezibel, 58 

diagonalen Kovarianzmatrizen, 337 

Dialekte, 413 

Dialog, 401 

Dialoggrammatiken, 407 

Dialogsystementwicklung, 407 

digitales Signal, 77 

Diktiersystem, 1, 4 

Dimensionalitätsreduktion, 148 

Diphone, 291 

Diphthonge, 69 

Dirac Distribution, 81 

Discounting, 272, 349 

diskrete Fouriertransformation, 99 

diskrete HMMs, 225 

Diskriminanzanalyse, 145 

Diskriminanzoptimierung, 145 

diskriminiatives Trainieren, 217 

divisive Kontextballung, 302 

Dorsum, 46 

Dozent, 445 

Druckwellen, 55 

DTW, 168 

DTW-Algorithmus, 169, 251 

DTW-Pfad, 168 

Dudley, 33 

dynamic time warping, 168 

dynamische Modalitäten, 311 

dynamisches Basissprachmodell, 275 

dynamisches Programmieren, 162 

Editierdistanz, 248 

Editierschritte, 161 

Eigennamen, 348

Eingabegeschwindigkeit, 2 

Einzelkommandoerkennung, 18 

Einzelspektrum, 98 

Einzelwort Spracherkenner, 169 

Elision, 21 

Elman-Netze, 374 

EM-Algorithmus, 145, 216 

Emissionswahrscheinlichkeit, 186 

emotionale Lage, 393 

emphatische Pausen, 21 

endliche Automaten, 408 

Endpunktdetektion, 151 

Energiespektrum, 91 

Engramme, 20 

Entropie einer Quelle, 267 

Entropiedistanz, 298 

Epiglottis, 43 

Ergodische Quellen, 268 

Erkennerentwicklung, 431 

Erkennungsszenario, 24 

erste Formante, 49 

Etikett, 206 

Evaluierungsproblem, 188 

Expectation Maximization, 144 

Expertenhierarchien, 386 

Faber, Joseph, 48 

Fahrzeug, 11 

Fallschablonen, 400 

Faltung, 83 

Faltungseigenschaft, 92 

FAME, 460 

Fehlerbehandlungsmethoden, 426 

Fensterbreite, 111 

Fernbesprechungsmikrophone, 57 

FFT, 102 

Filter, 51 

Filterbänke, 115 

flektierende Sprachen, 414 

Flexible Transkriptionen, 244 

Formanten, 49 

Fortes, 74 

Forward-Algorithmus, 189 

Forward-Backward Algorithmus, 196 

Fourieranalyse, 85 

Sachverzeichnis 485 

Fourierkoeffizienten, 87 

Fourierreihenzerlegung, 87 

Fouriertransformation, 89 

Framerate, 110 

Frequenzbereich, 34, 89, 108 

Frikative, 72 

Friktion, 72 

FTA, 244 

fudge factors, 329 

Fundamentalformel, 223 

Gate, 385 

Gaumen, 43 

Gaumensegel, 43 

Gaumensegels, 72 

generalisierte Poloyphone, 292 

Genus, 414 

Gerätesteuerung, 5 

Geräuschmodellierung, 357 

Geschichte, 33 

Gestikerkennung, 426 

Glottale, 74 

Glottis, 43 

Glättung von Sprachmodellen, 271 

Grammatikalität, 19 

Grammatische Zerteiler, 394 

Grenzfrequenz, 80 

grounding, 408 

Grundfrequenz, 45 

Haarzellen, 53 

Hammer, 53 

Handschrifterkennung, 426 

HARPY, 37 

HAT, 145 

Hauptachsentransformation, 145 

HDLA, 284 

Heim-Multimedia-Terminal, 14 

Helmholtz-Resonatoren, 49 

Hidden Markov Modelle, 35 

Hidden-Markov-Modelle, 177 

Hierarchische Mixturen von Experten, 

384 

hierarchischen Mixturen von Experten, 

230


Hintergrundgeräusche, 27 

Hintergrundrauschen, 124 

Historie, 264 

HMEs, 384 

HMM-Einzelkommandoerkenner, 199 

HMM-Entwicklung, 205 

HMMs, 181 

Homophone, 261 

Hyperartikulation, 27, 427 

Hypothesis driven lexicon adaptation, 

284 

Hörfläche, 59 

ID of Command, 9 

Identifikation von Sprachen, 415 

illokutive Sprechakte, 406 

Impuls, 81 

Impulsantwort, 51, 84 

Indexierung, 8 

Information-Retrieval, 283 

Informationsgehalt des Parameterraumes, 

297 

Informationsgehalt von Sprachmodellen, 

267 

Informationsquelle, 267 

Informedia, 8 

Intelligenter Raum, 14 

Interaktive Präsentationsfolien, 453 

Intonation, 391 

inverse Fouriertransformation, 90 

IPA, 65 

IPA-Alphabet, 47, 65 

JANUS-Ballungsverfahren, 306 

Jeffrey Smoothing, 272 

Jordan-Netze, 374 

Kammfunktion, 97 

Kanalfunktion, 84 

Karhunen-Loeve-Transformation, 145 

Kasus, 414 

Katzenohr, 53 

Kausalität, 80 

Kehlkopf, 43 

Klassenbasierte Sprachmodelle, 275 

Klassenstreumatrix, 147 

KLT, 145 

Koartikulationseffekte, 21, 179, 247 

Kohonen Maps, 377 

Kommunikationsart, 28 

Kommunikationseinheiten, 403 

Kompaktifizierung, 336 

Kompositabildung, 286 

konfidenzgewichtetes Training, 220 

Kontextbreite, 292, 295 

kontinuierliche Fouriertransformierte, 

89 

kontinuierliche HMMs, 226 

kontinuierliche Sprache, 247 

Kontinuierlichkeit, 18 

Kontinuierlichkeitsgrade, 225 

Korrektives Trainieren, 217 

Kovarianzmatrix, 143 

Kovarianzmatrizen, 331, 336 

Kratzenstein, 48 

Kreisfrequenzvariable, 92 

kritische Bandbreite, 117 

kumulative Distanz, 168 

Kurzzeitspektrum, 110, 159 

Label-Boosting, 363 

Labels, 206 

labiodental, 73 

Lagrange, 85 

Language Line Interpreter, 415 

Langzeitspektrum, 109 

Laplace-Mischverteilungen, 143 

Laserpointer, 448 

laterale, 73 

LBG-Algorithmus, 134 

LDA, 145 

LDA-Transformation, 436 

Learning Vector Quantization, 375 

Lecture Tracker, 446 

Leistungsspektrum, 91 

Lenes, 74 

Lernen von Klassifikatoren, 128 

Lernrate, 196 

Licklider, 106 

LID, 10, 415

Liftering, 120 

Likelihood Distanz, 299 

Linde-Buzo-Gray, 134 

Linear Predictive Coding, 121 

lineare Diskriminanzanalyse, 145 

Lineare Vorhersage, 121 

lineare zeitinvariante Systeme, 80 

Linearität, 80 

Linked Predictive Neural Nets, 382 

Links-Diphone, 291 

Lippen, 43 

Lippenlesen, 419 

Lippenrundung, 75 

LISTEN, 11 

lokale Distanz, 168 

Lokalisierung der Schallquelle, 424 

lokutive Sprechakte, 405 

Longitudinalwelle, 55 

Lookahead, 318 

LPC-Koeffizienten, 121 

LPNNs, 382 

LTI Systeme, 81 

Luft, 55 

Luftdruck, 55 

Luftimpulse, 45 

Lunge, 45 

LVQ, 375 

Längenmodellierung, 325 

maximum mutual information 

estimation, 218 

Maximum-Likelihood lineare Regression, 

362 

McGurk Effekt, 420 

Mehrpaßsuchen, 326 

Mel-Skala, 117 

Mensch-Maschine-Kommunikation, 1 

Merkmalsraum, 186 

Mikrophonarray, 425 

Minimale Editierdistanz, 160 

minimales Paar, 64 

Mittelohr, 53 

Mittelwertssubtraktion, 124 

Mittelwertsvektoren, 330 

Mixturgewichte, 331 


MLLR, 362 

MLP, 374, 382 

MMIE, 218 

Mobile Informationssysteme, 14 

Mobiltelefonie, 14 

moderner Vortragsraum, 444 

Momentum, 222 

Monophone, 290 

moving targets, 147 

MP3, 103 

MS-TDNNs, 379 

Multi-Streams, 229 

multilinguale Spracherkennung, 413 

multimodale Systeme, 419 

mumble words, 257 

Nachrichtensendung, 8 

Nahbesprechungsmikrophone, 25, 57 

Nasallaute, 71 

Natur des Sprechens, 41 

Navigationssysteme, 345 

neue Wörter, 237 

Neural Gas, 135 

neuronale Netze, 371 

nichtsprachliche Laute, 357 

Nichtterminale, 395 

Normierung, 123 

Nulldurchgangsrate, 106 

Numerus, 414 

Nur-Pole-Funktion, 121 

Nyquist-Theorem, 98 

Oberschwingungen, 120 

Offsetnachführung, 123 

Ohr, 52 

One Stage Dynamic Programming, 251 

Optimierungsproblem, 194 

optionale Füllwörter, 257 

ovales Fenster, 53 

Overfitting, 210 

palatoalveolar, 73 

Palatum, 43 

Parameterarten, 330 

Parameterkopplung, 203, 231, 331


Parameterraum, 224, 329 

Parsing, 394 

Pascal, 55 

Pausen, 21 

PCA, 145 

PCM, 102 

PDA, 13 

Pentaphon, 291 

perlokutive Sprechakte, 406 

Perplexität, 24, 266 

Perzeptionsapparat, 52 

Perzeptronen, 371 

Phasenspektrum, 91 

Phasenstrukturgrammatiken, 408 

Phasenverschiebung, 90 

Phasenverschiebungen, 108 

Phon, 61 

Phone, 64, 290 

Phonem-HMM, 201 

Phoneme, 64 

Phonemsatz, 292 

Phonetik, 46, 63 

phonetisch gekoppelte HMMs, 228 

phonotaktische Merkmale, 417 

Pitch), 391 

Planungspausen, 21 

Plosivlaute, 71 

Polyphonen, 291 

poor man’s trigrams, 323 

Produktionen, 394 

Prosodie, 390 

prosodische Merkmale, 417 

Pulse Code Modulation, 102 

Qualitätsanforderungen, 437 

Quantisierung, 77 

Quantisierungsfehler, 79 

Quantisierungsrauschen, 79 

Quefrenz, 120 

Quelle-Filter-Modell, 51, 119 

Quintphon, 291 

radiale Kovarianzmatrizen, 331 

rational agency, 409 

Rechts-Diphone, 291 

Referenzmuster, 34 

Referenzvektoren, 134 

Reibelaute, 72 

rekurrente Netze, 374 

Resource Management, 270 

Resource Management Task, 37 

Reverberation, 57 

rhetorische Fragen, 405 

Rhythmus, 392 

Robustheit, 353 

Run-On-Erkennung, 263 

räumliche Ausdehnung, 293 

SAT, 364 

Satz, 403 

Schall, 55 

Schalldruckpegel, 58 

Schallenergie, 56 

Schallquelle, 55 

Schallwelle, 55 

Schildknorpel, 43 

schnelle Fouriertransformation, 102 

schritthaltende Erkennung, 263 

Schwa-Ellision, 240 

Schwellwertdetektor, 152 

Sejnowski, 238 

Selektive Radialisierung, 340 

semantische Parser, 394 

semikontinuierliche HMMs, 227 

Semitied Covariances, 343 

Senones, 293 

Shannon-Theorem, 98 

Signal-Rausch-Abstand, 79 

Signalenergie, 106 

Signalnormierung, 122 

Signalqualität, 25 

Silbe, 290 

SNR, 79 

Soundkarte, 79 

speaker-adaptive training, 364 

Speech Organ, 48 

Spektralanalyse, 97 

Spektrogramme, 113 

Spektrum, 91 

Spotforming, 425

Sprachdetektor, 152 

Sprachenidentifikation, 10 

Sprachlaute, 46 

Sprachmodell, 261 

Sprachsignale, 77, 105 

Sprachsynthese, 236 

Sprachsynthesesysteme, 48 

Sprachverstehen, 389 

Sprechakte, 405 

Sprecherabhängigkeit, 17, 354 

sprecheradaptives Training, 364 

Sprecherindentifikation, 9 

Sprecherlokalisierung, 422 

Sprechgeschwindigkeit, 23 

Stack Decoder, 317 

statische Modalitäten, 311 

statisches Basissprachmodell, 275 

stimmhaft, 72, 74 

stimmlos, 72, 74 

stochastische Klassifikatoren, 128 

Stottern, 22 

Strahlsuche, 174, 175 

Subdialogen, 405 

Subpolyphonen, 293 

Such-HMM, 320 

Sucharten, 315 

Suchfehler, 318 

SUR Projekt, 37 

SWB (Switchboard) Task, 38 

syntaktische Parser, 394 

TDNNs, 379 

Telefongespräche, 26 

Tempus, 414 

Termersetzungssystem, 395 

Terminale, 395 

Text-To-Speech Systeme, 236 

Text-To-Speech-Systeme, 435 

Time Delay Neural Nets, 379 

Top-Down-Parser, 396 

Training, 205 

Trainingsdaten, 210 

Transkriptionen, 207, 219 

Trigger, 274 

Trigramm, 265 

Triphone, 291 

Trommelfell, 52 

Turn, 404 

Übertragungsraten, 2 

unbetonte Pausen, 21 

ungeplante Sprache, 19 

ungrammatikalische, 20 

Unigramm, 265 

Uvula, 72 


Vandermondsche Matrix, 101 

Varianten, 240 

Vektor Quantisierung, 129 

velare, 73 

Velum, 43, 72 

VERBMOBIL, 7, 415 

vereinfachtes Evaluierungsproblem, 188 

Verfolgen von Vorträgen, 446 

verschiedenskalige Basisfunktionen, 125 

Vertauschungen, 248 

verzögerte Bigramme, 322 

Vibrationslaute, 72 

Videoclips, 8 

Videorecorder, 6 

View4You, 8 

Viseme, 420 

Viterbi-Algorithmus, 193 

Viterbi-Pfad, 193 

Viterbi-Training, 209 

Vocoder, 33 

Vokabular, 28 

Vokaldreieck, 156 

Vokaltrakt, 45 

Vokaltraktformen, 46 

Vokaltraktlängennormierung, 366 

Vokaltraktmodelle, 47 

volle Kovarianzmatrizen, 337 

von Barkhausen, 117 

Vorhersagenetzwerke, 382 

Voronoi Regionen, 131 

Vortragssprache, 455 

VTLN, 366 

Wahrscheinlichkeitsmasse, 272


Wall Street Journal, 38, 269 

Wavelets, 124 

weighted finte state transducer, 279 

Wetter-HMM, 184 

Widerstand-Kondensator-Einheit, 79 

Wizard-of-Oz, 410 

Wort, 289, 414 

Wort-HMM, 200 

Wortabbrüche, 20 

Wortcluster, 244 

Worterkennungsrate, 248 

Worterkennungsraten, 37 

Wortfehlerrate, 249 

Wortkorrektrate, 249 

Wortmodelle, 292 

Wortübergangskontexte, 312 

WSJ, 38 

Zahndamm, 43 

Zeitbereich, 89 

Zeitfrequenzvariable, 92 

zeitinvariant, 81 

Zeitinvarianz, 80 

zeitliche Ausdehnung, 293 

Zunge, 43

Sprachliche Mensch-Maschine-Kommunikation

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?