18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

15. Erkennung kontinuierlicher Sprache<br />

Kontinuierliche Sprache bietet gegenüber isolierten Wörtern zusätzliche<br />

Herausforderungen in mehreren Bereichen. Wenn man fließend spricht,<br />

spricht man meist unvorsichtiger und ungenauer. Außerdem ist fließende<br />

Sprache meist deutlich schneller, und es treten Koartikulationseffekte auf,<br />

die einzelne Wörter im Kontext anders klingen lassen, als wenn diese Wörter<br />

isoliert ausgesprochen würden. Diese Probleme könnten im Prinzip ignoriert<br />

werden, wenn wir wüßten, wo in einer Aufnahme ein Wort beginnt und wo<br />

es aufhört. Dann wäre die Erkennung wegen der größeren Variablität und<br />

schlechteren Qualität der Signale zwar schwieriger, aber wir könnten die<br />

bisher betrachteten Algorithmen weiter verwenden. Jetzt ist es aber so, daß<br />

das Erkennungssystem keine explizite Information darüber hat, wo sich in<br />

einer Aufnahme Wortgrenzen befinden, es muß diese selbst finden.<br />

Da beim automatischen Finden der Wortgrenzen Fehler gemacht werden,<br />

ist zu erwarten, daß der Erkenner bei Eingaben wie ” geh heim“ Hypothesen<br />

wie ” geheim“ liefert, oder statt ” Nordirlandbeauftragter“ das falsche ” nord<br />

Ihr Land beauftragt er“ erkennt. Wie auch immer diese Wortgrenzen zustande<br />

kommen, man kann schon jetzt sagen, daß ein Vorgehen, bei dem ein<br />

Sprachsignal zunächst in unabhängige Segmente zerstückelt wird, um dann<br />

auf den Segmenten eine Isoliertworterkennung durchzuführen, zum Scheitern<br />

verurteilt ist. Ein ausreichend exaktes Finden von Wortgrenzen nur mit Hilfe<br />

des akustischen Signals ist nahezu ausgeschlossen. Manche Sprachen wie<br />

z.B. die chinesische sind so geartet, daß die geübten Nachrichtensprecher im<br />

Rundfunk die Silben mit einer relativ gleichbleibenden ” Taktrate“ vorlesen<br />

und daß sich diese Silbenfrequenz in der energetischen Analyse des Signals<br />

wiederfinden läßt, so daß eine automatische Segmentierung in Silben manchmal<br />

machbar ist. Aber die allermeisten Chinesen sprechen weniger getaktet<br />

und in den meisten anderen Sprachen ist eine Taktung viel schwieriger im<br />

Signal zu erkennen. In Sprachen wie im Englischen und Deutschen, in denen<br />

nicht einmal eindeutig definiert ist, was eine Silbe ist (wieviele Silben hat das<br />

Wort Uhr?), ist eine automatische Wortsegmentierung vor der eigentlichen<br />

Erkennung nicht möglich. Daher werden wir auf andere Algorithmen zum<br />

Trainieren von Erkennern und zum Erkennen von Aufnahmen angewiesen<br />

sein. Im folgenden werden Probleme, die mit kontinuierlicher Sprache

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!