18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

294 17. Kontextabhängige akustische Modelle<br />

Die Problematik mit Modellen unterschiedlicher zeitlicher und räumlicher<br />

Ausdehnung ist eine in der Mustererkennung immer wiederkehrende. Die bei<br />

der Gestaltung des Parameterraumes eines Erkenners zu berücksichtigenden<br />

Kriterien, die Vor- und Nachteile unterschiedlich ausgedehnter Modelle sind<br />

in Tab. 17.3 17.4 zusammengefaßt.<br />

Vorteile Nachteile<br />

kurz hohe Flexibilität wenig Evidenz im Sprachsignal<br />

⇒ vokabularunabhängig ⇒ hohe Verwechselbarkeit<br />

lang geringe Verwechselbarkeit wenig Trainingsdaten pro Einheit<br />

Tabelle 17.3. Vor- und Nachteile unterschiedlicher zeitlicher Modellausdehnung<br />

Vorteile Nachteile<br />

spezifisch gute diskriminative wenig Trainingsdaten<br />

Fähigkeiten pro Einheit<br />

generell robust trainierbar schlechte diskriminative<br />

Fähigkeiten<br />

Tabelle 17.4. Vor- und Nachteile unterschiedlicher räumlicher Modellausdehnung<br />

Die meisten Spracherkenner verwenden neben der Information über die<br />

benachbarten Phoneme auch die Information über die Position eines Phonems<br />

innerhalb eines Wortes. Die Hypothese dabei ist, daß sich ein Phonem<br />

anders anhört, wenn es am Anfang eines Wortes steht, als wenn es mitten<br />

im Wort steht, auch wenn der phonetische Kontext der gleiche ist. Diese Annahme<br />

ist in der Tat begründet, weil wir bei Sprechen sehr wohl das Wort<br />

als Einheit sehen, und dies sich im Sprechrhythmus und den Betonungsregeln<br />

widerspiegelt. Tab. 17.5 zeigt ein Beispiel, in dem die D- und L-Laute unterschiedlich<br />

behandelt werden, obwohl ihr Triphon (und sogar Quintphon)<br />

Kontext identisch sind. Tatsächlich hört sich die Aussprache von ” handlich“<br />

merkbar anders and als diejenige von ” Hand Licht“ (natürlich auch abgesehen<br />

vom T-Laut in ” Licht“).<br />

Abb. 17.3 zeigt wie viele verschiedene Polyphone es gibt, wenn unterschiedlich<br />

breite Kontexte betrachtet werden. Das Schaubild enthält zwei<br />

Kurven, die durchgezogene für die auf der Wall Street Journal (WSJ) Datenbank<br />

gemessenen Werte und die gepunktete für die entsprechenden Werte auf<br />

der Switchboard (SWB) Datenbank. Als Unterschiedlich wurden Polyphone<br />

betrachtet, wenn sie sich entweder in einem Phon unterschieden oder an ver-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!