18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

14.6 Aussprachemodellierung 245<br />

Durchläufen über dieselben Daten in einem sehr zeitaufwendigen Prozeß<br />

hochqualitative Transkriptionen zu erzeugen. Der zeitliche Aufwand für das<br />

Abhören der Aufnahmen und schreiben der Transkriptionen kann dabei<br />

sogar vom Zehnfachen bis zum Hundertfachen der Länge der Aufnahme<br />

betragen. Dabei werden nicht einmal die zeitlichen Zuordnungen ( ” Labels“)<br />

angegeben, sondern lediglich der gesprochene mit diversen Effekten angereicherte<br />

Text.<br />

Aus den Transkriptionen werden die im Training verwendeten Satz-<br />

HMMs erzeugt. Wären die Transkriptionen perfekt, dann würde stets ein<br />

Satz-HMM mit einer einzigen völlig linearen Anordnung der Zustände<br />

genügen. Gestehen wir aber den Transkribierern zu, daß sie nicht nur die<br />

Länge von Pausen sondern sogar deren Existenz zwischen zwei Wörtern<br />

überhören dürfen, dann müssen wir zumindest zwischen dem letzten Zustand<br />

eines Wortes und dem ersten Zustand des darauffolgenden Wortes<br />

einen optionalen Stillezustand einbauen, der das Stillephonem modelliert.<br />

Gestatten wir den Transkribierern, einige zwar im Signal recht gut wiederzuerkennenden<br />

Laute wie Atmen, Lippen- oder Zungengeräusche, Reiben<br />

oder Klopfen am Mikrophon etc. zu überhören, dann bietet es sich an,<br />

zwischen den Wörtern nicht nur optionale Stillelaute sondern auch noch<br />

optionale Geräusche zu erlauben. Ganz besonders offensichtlich wird dies bei<br />

Mischgebilden zwischen Geräuschen und Wörtern, wie z.B. bei emphatischen<br />

Pausen, die im Deutschen typischerweise mit ” Äh“-Lauten und Varianten<br />

davon gefüllt werden. Selbst solche ” Ah“ Laute entgehen Transkribierern<br />

hin und wieder. Ganz besonders kompliziert kann es werden, wenn Wortfragmente<br />

oder Stotterer abgebildet werden sollen. Es ist oft gar nicht<br />

möglich eine sinnvolle Beschreibung zu liefern, weil z.B. das gesprochene<br />

Fragment keine korrekte textuelle Umschreibung hat. Man stelle sich vor,<br />

jemand stottert beim Sprechen des Wortes ” Manager“ und spricht die erste<br />

Silbe zweimal: ” Man- Manager“. Würde man dies so in die Transkription<br />

schreiben, hätte das System wohl große Schwierigkeiten, zu dem ” Man-“ eine<br />

passende Phonemfolge zu finden, der nächstbeste Lexikoneintrag für ” man“<br />

wäre jedenfalls ungeeignet. Schlimmer noch sind in der Praxis tatsächlich<br />

nicht selten beobachtete Lautartikulationen, die gar nicht im phonetischen<br />

Inventar einer Sprache enthalten sind. Erlauben wir den Transkribierern,<br />

solche Dinge nicht immer perfekt zu umschreiben und erlauben wir darüber<br />

hinaus zusätzlich, das Überhören dialektgeprägter Einfärbungen der Sprache<br />

nicht explizit festzuhalten, so kommen wir schnell an einem Punkt an, an<br />

dem die Qualität der Transkriptionen deutlich abnimmt. An diesem Punkt<br />

gibt es dann nur noch zwei Alternativen, entweder man investiert noch<br />

viel mehr Aufwand zum Verbessern dieser Qualität, oder man unternimmt<br />

Maßnahmen zum Umgang mit nicht vollständig korrekt transkribierten<br />

Aufnahmen. Gerade bei sehr großen Trainingsdatenbasen wird sich die

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!