18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

g<br />

d<br />

b<br />

b d g<br />

Integration über die Zeit<br />

Phonemschicht<br />

3 Neuronen<br />

22.2 Architekturen 381<br />

versteckte Schicht<br />

8 Neuronen<br />

Eingabeschicht16 Mel-Koeffizienten<br />

15 Zeittakte<br />

Abb. 22.6. Time Delay Neural Network (TDNN) zur Erkennung von b, d, und g<br />

Phonem eine Reihe von Aktivierungswerten eines Neurons zugeordnet wird.<br />

Während bei TDNNs diese Aktivierungswerte über die Zeit aufsummiert werden<br />

sie bei MS-TDNNs als Ersatz für Emissionswahrscheinlichkeiten bzw.<br />

für lokale Distanzen in einem DTW-Algorithmus verwendet. Als reines neuronales<br />

Netz betrachtet, besitzt das MSTDNN einen (oder mehrere) Wortschichten<br />

über der Phonemschicht. Jedes Wort ist eine Konkatenation von<br />

Phonemen, durch die wie beim Viterbi- beziehungsweise DTW-Algorithmus<br />

die wahrscheinlichste Folge beziehungsweise diejenige mit der geringsten kumulativen<br />

Distanz gesucht (s. Abb. 22.8).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!