18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

12. Hidden Markov Modelle<br />

Man kann sagen, daß alle Erkenner für sprecherunabhängige kontinuierliche<br />

Erkennung großer Vokabulare entweder direkt auf der Theorie der Hidden-<br />

Markov-Modelle beruhen oder zumindest wesentliche Teile der Erkenner nach<br />

deren Prinzipien funktionieren. Wegen der großen Bedeutung der Hidden-<br />

Markov-Modelle werden sie in diesem Kapitel detailliert behandelt.<br />

12.1 Probleme mit einfachen Mustervergleichern<br />

Wie bereits bei der Einführung des DTW-Algorithmus kennengelernt,<br />

bringen einfache Vergleiche von Sprachaufnahmen einige Probleme mit sich.<br />

Nicht nur die zeitliche Verzerrung spielt da eine Rolle, sondern vor allem<br />

die Menge der Referenzmuster. Bisher sind wir immer davon ausgegangen,<br />

daß wir für jedes zu erkennende Wort ein Referenzmuster abgespeichert<br />

haben. Dies bedeutet zum einen, daß wir entweder ein durchschnittliches auf<br />

viele Einzellfälle gar nicht gut passendes Muster verwenden, oder sehr viele<br />

Muster benötigen, was wiederum ein Problem für die Erkennerlaufzeit und<br />

für das Sammeln der Muster darstellt. Man stellt schnell fest, daß der reine<br />

Mustervergleichsansatz für die Erkennung sprecherunabhängiger Sprache<br />

eher ungeeignet ist.<br />

Ein weiteres gravierendes Problem ist die Skalierung des Aufwandes mit<br />

der Vokabulargröße. Wenn wir für jedes Wort ein Muster benötigen, dann<br />

sehen wir bald ein, daß ein Erkenner für Vokabulare in der Größenordnung<br />

10 5 kaum sinnvoll realisierbar ist. Insbesondere dann, wenn für jedes Wort<br />

auch noch mehrere Muster abgelegt werden sollen. Diese müßten vorher erst<br />

einmal mühevoll gesammelt werden.<br />

Abgespeicherte Muster sind nicht nur sprecherspezifisch, sondern auch<br />

umgebungsspezifisch. Das heißt, daß die Erkennungsrate bei Sprecherwechsel<br />

aber auch bei Umgebungswechsel (anderes Mikrophon, andere Raumakustik)<br />

abfällt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!