18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

12.2 Sprache als stochastischer Prozeß 181<br />

Betrachtet man die Signale mehrerer Aufnahmen eines Lautes, so stellt<br />

man fest, daß diese (wenn geeignet vorverarbeitet) mehr oder weniger von<br />

einem ” durchschnittlichen“ Signal abweichen. Je nachdem, wie die Definition<br />

eines Lautes ist (Phonem, Phon, etc.), kann es auch oft vorkommen, daß<br />

derselbe Laut verschiedene ” durchschnittliche“ Ausprägungen hat, z.B.<br />

in verschiedenen akustischen Kontexten. Wie ein Signal für einen Laut<br />

genau aussehen wird, kann man nur mit einer gewissen Wahrscheinlichkeit<br />

vorhersagen. Das heißt, man kann den Vorgang der Spracherzeugung als<br />

stochastischen Prozeß betrachten, stochastischer Prozeß ein Prozeß der<br />

bestimmte Signale emittiert in Abhängigkeit vom Zustand, in dem er sich<br />

gerade befindet. Als Zustände können die einzelnen Laute näherungsweise<br />

angenommen werden. Wenn jemand also das Wort ” Hallo“ sagt, nehmen<br />

wir näherungsweise an, daß sein Artikulationsapparat ca. vier Zustände (H,<br />

A, L, O) durchläuft, in jedem Zustand eine gewisse Zeit verweilt und in<br />

jedem Zustand ein Signal erzeugt (bzw. Symbol emittiert), dessen Form<br />

zufällig aber abhängig vom Zustand ausfällt. Wenn wir nun noch die Zeit<br />

diskretisieren und das gesamte Modell nur zu diskreten Zeitpunkten betrachten,<br />

wenn wir außerdem den Zustandswechseln zu jedem Zeitpunkt eine<br />

Wahrscheinlichkeit zuordnen, dann erhalten wir ein Markov Modell. Markov<br />

Modelle werden in der Forschung in verschiedenen Disziplinen verwendet.<br />

In der Spracherkennung typische Topologien sind in Abb. 12.1 dargestellt.<br />

Bei ergodischen Modellen sind alle Zustandsfolgen gleich gut möglich.<br />

Solche Modelle werden nur für spezielle Teilaufgaben der Spracherkennung<br />

verwendet. Für die Modellierung von Sprache findet man viel häufiger mehr<br />

oder weniger linear angeordnete Zustande. Im einfachsten Fall hat jeder<br />

Zustand nur einen Übergang zum nächsten Zustand und zu sich selbst.<br />

Beim Bakis-Modell kommen zusätzlich noch Übergänge zum übernächsten<br />

Zustand dazu. Dieses Bakis-HMM entspricht dem Bakis-Übergangsmuster<br />

beim DTW-Algorithmus (vgl. Abs. 11.2.1). Einige Erkenner verwendet noch<br />

weitere Sprünge, so daß – wie im links-nach-rechts Modell gezeigt beliebig<br />

viele Zustände übersprungen werden können. Gelegentlich ist es sinnvoll<br />

zwei einfache Modelle als Alternativen parallel zu schalten. Dies wird vor<br />

allem dann genutzt, wenn für dasselbe Phänomen zwei verschiedene Modelle<br />

(z.B. zwei verschiedene Aussprachen desselben Wortes) eingesetzt werden.<br />

Ein gerne verwendetes Beispiel für Markov Modelle ist das Wetter.<br />

Man stelle sich vor, das Wetter kann zwei Zustände annehmen, nämlich<br />

” schönes Wetter“ und schlechtes Wetter“. Dabei kann sowohl bei schönem<br />

”<br />

Wetter als auch bei schlechtem Wetter die Sonne scheinen. Sicher ist es<br />

wahrscheinlicher, daß man das Wetter als schön bezeichnet, wenn die<br />

Sonne scheint, aber auch ohne Sonnenschein kann dies mit einer kleinen<br />

Wahrscheinlichkeit vorkommen. Außerdem kann man meist beobachten, daß<br />

das Wetter ein wenig konstant ist. Das heißt, wenn das Wetter erst einmal

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!