18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

244 14. Das akustische Modell<br />

Verwendung von Wortclustern<br />

Für die meisten Sprachen gibt es bestimmte, häufig verwendete Phrasen, deren<br />

Aussprache sich mit der Zeit von der Konkatenation der Aussprache der<br />

einzelnen Phrasenbestandteile weg entwickelt hat. Beispiel für solche Phänomene<br />

sind im Deutschen zum Beispiel die Wortfolge haben wir“ die gerne<br />

”<br />

wie hammer“ oder hamwer“ ausgesprochen wird, oder das im Englischen<br />

” ”<br />

typische going to“, das eher wie gonna“ ausgesprochen wird. Manche Kon-<br />

” ”<br />

traktionen finden sich sogar in der Bildung neuer Wörter wieder, wie zum<br />

Beispiel die Wörter fürs“ und aufs“ als Zusammenfassung der Wortfolgen<br />

” ”<br />

” für das“ bzw. auf das“. Daher verwenden viele Aussprachelexika gesonderte<br />

”<br />

Einträge für einige wenige aber häufig auftretende kurze Wortfolgen.<br />

14.6.4 Flexible Transkriptionen<br />

Die Trainingsdaten für einen Spracherkenner bestehen in der Regel aus einer<br />

Sammlung von Aufnahmen und einer Datei, in der beschrieben ist, was auf<br />

den Aufnahmen zu hören ist, die sogenannten Transkriptionen. Es gehört<br />

nicht viel Weisheit dazu, zu schließen, daß die Qualität der Trainingsdaten<br />

auch die Qualität des aus ihnen berechneten Modells bestimmt. Dabei kommt<br />

es vor allem darauf an, daß in den Sprachsignalen auch das gesprochen<br />

wird, was in den zugehörigen Transkriptionen steht. In den Anfängen der<br />

Spracherkennung verwendete man daher sicherheitshalber nur sehr saubere<br />

Aufnahmen, also solche, in denen keine störenden Geräusche und auch<br />

keine störenden menschlichen Laute wie Atem- oder Lippengeräusche zu<br />

hören waren. Selbst Pausen zwischen den Wörtern eines kontinuierlich<br />

gesprochenen Satzes waren unerwünscht. Die Trainingsdaten wurden meist<br />

eigens für das Trainieren von Spracherkennern gesammelt. Inzwischen ist<br />

es üblich Aufnahmen zu verwenden, die nicht für die Spracherkennung<br />

vorgesehen waren – Aufnahmen, in denen <strong>Mensch</strong>en natürlich z.B. mit<br />

anderen <strong>Mensch</strong>en reden. In solcher ” ungeplanter“ Sprache kommen sehr<br />

wohl Störgeräusche und Pausen vor.<br />

Der erste Schritt in Richtung der Verwendung ungeplanter Sprache geht<br />

dahin, in den Transkriptionen auch die Geräusche festzuhalten. Darüber<br />

hinaus gibt es noch eine Reihe weiterer Phänomene, die ebenfalls in die<br />

Transkriptionen mit aufgenommen werden können, wie z.B. die Tatsache,<br />

daß ein Wort falsch oder auch im Dialekt ausgesprochen wurde, oder daß<br />

nur Wortfragmente ausgesprochen bzw. gestottert wurden.<br />

Selbst erfahrenen Transkribieren unterlaufen dabei oft Fehler, weil kurze<br />

Stotterer, dialektische Einfärbungen oder für den <strong>Mensch</strong>en das Verständnis<br />

nicht störende Geräusche einfach ” psychologisch“ überhört werden. Daher<br />

gibt es das Bestreben, sehr gut ausgebildete Transkribierer in mehreren

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!