18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

374 22. Künstliche Neuronale Netze<br />

Plosivlaute b, d, g, p, t, k mit jeweils nachfolgendem englischen ” ee“-Laut<br />

ging. Da die Aufnahmen für solche Spracheinheiten relativ kurz waren, war<br />

es üblich, diese als ganzes auf die Eingabeneuronen eines mehrschichtigen<br />

Perzeptrons (engl. multi-layer perceptron MLP) zu legen. So gelang es unter<br />

günstigen Bedinungen (ein Sprecher, geräuschfreie Umgebung, saubere<br />

und exakt geschnittene Aufnahmen) relativ gute Klassifikationsraten zu erzielen<br />

(z.B. [?] [?]). Es stellte sich allerdings recht schnell heraus, daß einfache<br />

MLPs nicht geeignet waren um damit Laute unter ungünstigen Bedingungen<br />

oder gar kontinuierlich gesprochene Sprache zu erkennen. Im Laufe<br />

der Zeit wurden vermehrt komplexere Achitekturen als MLPs verwendet um<br />

die speziellen Eigenheiten gesprochener Sprache zu berücksichtigen. Einfache<br />

MLP-Klassifikatoren werden aber bis heute noch verwendet, um damit Teilaufgaben<br />

der Spracherkennung zu lösen, wie z.B. die Erkennung bestimmter<br />

Umstände (Sprechermerkmale, akustische Umgebung o.ä.) welche dann zu<br />

Steuerung des Erkennungsprozesses weiterverwendet werden.<br />

22.2.2 Elman-Netze und Jordan-Netze<br />

Ein häufiger Kritikpunkt an der Verwendung von neuronalen Netzen zur<br />

Erkennung von Sprache ist die Tatsache, daß ein ” reguläres“ MLP eine in<br />

dem Sinne statische Ausgabe produziert, daß diese nur von einem statischen<br />

Eingabefenster abhängt und nicht vom Zeitlichen Verlauf der Eingabemuster.<br />

Während Hidden Markov Modelle in der Lage sind, die Dynamik der<br />

Sprache durch ihre Zustandsfolgen zu modellieren, fehlt diese Fähigkeit<br />

bei gewöhnlichen MLPs. Ein Ansatz, der sich bis heute bei den erfolgreich<br />

verwendeten konnektionistischen Spracherkennern gehalten hat, besteht<br />

darin, daß die ” Entscheidung“, die das Netz trifft, davon abhängig gemacht<br />

wird, welche Entscheidung es einen oder einige Zeittakte zuvor getroffen<br />

hat. Dadurch wird eine Kontextabhängigkeit in den Entscheidungsprozeß<br />

eingebaut, die dafür sorgt, daß nicht zu jedem Muster ein ganz bestimmtes<br />

Klassifikationsergebnis nur durch die Netzgewichte definiert ist, sondern daß<br />

auch das vorherige Klassifikationsergebnis eine Rolle spielt.<br />

Die beiden naheliegenden Netzwerkarchitekturen werden als Elman-Netze<br />

und Jordan-Netze (s. Abb. 22.2). Bei Jordan-Netzen werden Ausgänge des<br />

Netzes wieder als Teil der Eingabe verwendet. Das heißt der Kontext wird<br />

durch die vorherige Klassifikation definiert. Bei Elman-Netzen werden die<br />

Ausgaben einiger Neuronen der versteckten Schichten wieder als Eingabe<br />

verwendet.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!