18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

17. Kontextabhängige akustische Modelle<br />

kontextabhängige akustische Modelle In der Geschichte der Spracherkennung<br />

gab es relativ wenige Meilensteine, von denen man sagen kann, sie haben<br />

die Erkennungsleistung dramatisch verbessert. Einer davon ist der Einsatz<br />

kontextabhängiger akustischer Modelle. Da unser Artikulationsapparat<br />

mechanischen Gesetzen genügen muß, kann er keine Sprünge zwischen<br />

zwei Idealzuständen für zwei aufeinanderfolgende Laute machen. Was bei<br />

Diphthongen offensichtlich ist, gilt im Prinzip für jedes Lautepaar. Das heißt<br />

vor allem, daß die zeitlichen Randgebiete eines Lautes mit den angrenzenden<br />

Lauten verschwimmen, aber auch daß die Ausprägung des gesamten Lautes<br />

von den ihm umgebenden Lauten abhängt. Den ersten großen Durchbruch<br />

auf dem Gebiet erreichte Kai-Fu Lee in seiner Dissertation [?]. Seine<br />

Erfahrungen werden inzwischen in nahezu allen aktuellen Spracherkennern<br />

eingebracht und führen zu etwa einem Drittel weniger Fehlern als bei den<br />

Erkennern, die nur kontextunabhängige Modelle benutzen.<br />

17.1 Suche nach der optimalen Spracheinheit<br />

Bereits im Kap. 14 wurde die Problematik der verschiedenen Einheiten der<br />

Sprache, die ein eigenes Modell erhalten sollen, einführend behandelt. Hier<br />

werden verschiedene in der Praxis verwendete Einheiten gegenübergestellt<br />

und insbesondere darauf eingegangen, wie diese Einheiten gefunden werden.<br />

Tab. 17.1 zeigt, wie das Wort ” Hallo“ mit verschiedenen Spracheinheiten<br />

modelliert werden kann. Diese unterscheiden sich in ihrer zeitlichen und<br />

räumlichen Ausdehnung. Mit der zeitlichen Ausdehnung ist die Dauer<br />

der Einheit in der Sprachaufnahme gemeint, und mit der räumlichen<br />

Ausdehnung der Anteil am Merkmalsraum, der durch die Einheit abgedeckt<br />

wird. Die längste zeitliche Ausdehnung hat eindeutig die Modellierung<br />

mit der Einheit ” Wort“. Damit würde das Wort ” Hallo“ wie in der ersten<br />

Zeile der Tabelle dargestellt mit einer einzigen Einheit modelliert (die im<br />

Beispiel sinnigerweise den Namen Hallo erhalten hat). Welchen Teil des<br />

Merkmalsraum so eine Worteinheit abdeckt hängt natürlich davon ab, wie

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!