18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

292 17. Kontextabhängige akustische Modelle<br />

wir komplette Wortmodelle verwenden, da auch hier jedes Modell komplett<br />

vom Wort abhängt. Die zeitliche Ausdehnung bleibt aber die gleiche wie bei<br />

Monophonen.<br />

Tab. 17.2 gibt an, welcher Anteil an allen Wall Street Journal Vokabularwörtern<br />

durch die Kontextbreite komplett abgedeckt wird, also mit anderen<br />

Worten, welcher Anteil des Vokabulars so gut wie mit Ganzwortmodellen<br />

modelliert wird. Man sieht, daß eine allzu große Kontextbreite keine nennenswerten<br />

Vorteile mehr erwarten läßt.<br />

Kontextbreite: Mono- Di- Tri- Quint- Septphone<br />

Ganzwortabdeckung: 3% 27% 49% 80% 90%<br />

Tabelle 17.2. Abdeckung des Vokabulars durch Quasi-Ganzwortmodelle<br />

Wenn der Phonemsatz aus 50 Monophonen besteht, dann kann es theoretisch<br />

bis zu 2500 Diphone geben. Das wäre noch handhabbar. Allerdings<br />

ist es illusorisch alle möglichen Polyphone einer Sprache zu modellieren, so<br />

daß in der Praxis ein Zusammenfassung zu generalisierten Polyphonen zu<br />

Polyphonklassen nötig wird. Auch diese habe die zeitliche Ausdehnung von<br />

Monophonen. Aus der Kenntnis der Polyphonklasse läßt sich dann aber<br />

nicht mehr der Kontext selbst ableiten.<br />

Auch wenn Phoneme eine relativ kurze Zeitspanne von 10ms bis 100ms<br />

abdecken, so beobachtet man dennoch oft innerhalb dieser Zeit eine Variation.<br />

Gerade bei Diphthongen und Affrikaten ist es offensichtlich, daß der<br />

Anfang des Lautes nicht auf die gleiche Art wie sein Ende modelliert weden<br />

sollte. Daher verwenden alle erfolgreichen Spracherkenner zeitlich kürzere<br />

Einheiten, wie zum Beispiel die kontextunabhängigen Submonophone. Meist<br />

wird ein Phonem in drei Teile, ein Beginn-, ein Mittel- und ein Endsegment.<br />

Seltener in zwei Teile wie in Tab. 17.1. Dort besteht nun das Wort ” Hallo“<br />

aus acht Einheiten.<br />

Subtriphone sind die Unterteilung von Triphonen in zeitlich kürzere<br />

Einheiten. Subtriphone haben die gleiche zeitliche Ausdehnung wie Submonophone<br />

(bei gleicher Anzahl von Segmenten). Sie bilden aber schon eine<br />

so feine Unterteilung des Merkmalsraumes, daß in der Regel nicht genug<br />

Trainingsdaten zur Verfügung stehen, um jedes Modell zu trainieren.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!