18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

380 22. Künstliche Neuronale Netze<br />

u<br />

a<br />

l<br />

h<br />

Abb. 22.5. Typische Folge aktivster Neuronen für das finnische Wort ” humppila“<br />

Eingabe in das Netz liefert, und darüber hinaus über die Definition der<br />

Netzwerkgewichte.<br />

Das erstmals in [?] [?] für die Spracherkennung verwendete TDNN<br />

ist in Abb. 22.6 dargestellt. Das Netz wurde verwendet um die isoliert<br />

gesprochenen Phoneme b, d, und g zu erkennen. Das Sprachsignal wurde<br />

zu 15 Vektoren (ein Vektor alle 10ms) zu je 16 Mel-Spektralkoeffizienten<br />

verarbeitet. Als Eingabeschicht wird ein Feld von 3 × 16 Neuronen als 30ms<br />

breites Fenster über die Aufnahme ” geschoben“. Über der Eingabeschicht<br />

ist die Verdeckte Schicht mit 8 Neuronen. Zwischen der Eingabe- und der<br />

verdeckten Schicht befinden sich drei verschiedene 16x8 große Gewichtematrizen.<br />

Jede enthält die Gewichte für eine andere Zeittaktverschiebung<br />

(Time Delay). Die Eingabe in ein Neuron der verdeckten Schicht in Abb.<br />

22.7 abgebildet. Für jedes Eingabeneuron ui gibt es n Zeitverzögerungen<br />

mit eigener Gewichtung. Diese Gewichtungen sind so angeordnet, daß die<br />

Gewichte für verschiedene Neuronen der verdeckten Schicht mit gleicher<br />

Zeitverzögerung miteinander gekoppelt sind.<br />

Die TDNNs haben eine zufriedenstellende Leistung bei der Erkennung<br />

isoliert gesprochener Phoneme. Für kontinuierliche Sprache sind sie jedoch<br />

nicht geeignet. Dafür wurden sie in [?] zu so genannten Multi-State Time<br />

Delay Neural Nets (MS-TDNNs) weiterentwickelt. Die MS-TDNNs sind eine<br />

Mischung zwischen Konnektionistischen Ansätzen und Hidden Markov Modellen.<br />

Dabei wird von den HMMs die Idee der Zustände, Zustandsübergänge<br />

und des Dekodierungsproblems übernommen, von den neuronalen Netzen<br />

werde die diskriminative Art des Trainings und die ” feed-forward“-basierte<br />

Art der Berechnung der Emissionswahrscheinlichkeiten übernommen.<br />

Bis zur Ebene der Phonemschicht sind TDNNs und MS-TDNNs gleich.<br />

Beide implementieren eine Phonemschicht, bei der jedem zu erkennenden<br />

p<br />

m<br />

i

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!