18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

22.2 Architekturen 379<br />

welchem Laut/Phon es die größte Ausgabe produziert, dann ergibt sich ein<br />

” Karte“ der Laute, die zum Beispiel so aussehen kann wie in Abb. 22.4.<br />

a a<br />

o<br />

l<br />

.<br />

o<br />

o<br />

l<br />

o<br />

o<br />

.<br />

a<br />

o<br />

u<br />

a<br />

a<br />

u<br />

u<br />

a h<br />

a<br />

v<br />

h<br />

h<br />

v<br />

v<br />

h<br />

r<br />

r<br />

r<br />

œ<br />

r<br />

v vn<br />

tk<br />

p<br />

k<br />

œ<br />

m<br />

d<br />

œ<br />

r<br />

n<br />

p<br />

. . v k pt t p t p h # #<br />

Abb. 22.4. Kohonens selbstorganisierende Karte<br />

ah<br />

a<br />

Das Netz versucht also so gut wie möglich ähnliche Laute in ähnliche<br />

Gebiete der Netzschicht zu positionieren. Beim hier abgebildeten Netz<br />

wurde eine zweidimensionale Wabenstruktur als Nachbarschaftsbeziehung<br />

verwendet. Das Gebiet am oberen linken Rand der Schicht spricht vor<br />

allem bei A- und O-ähnlichen Lauten an, rechts unten finden sich vor allem<br />

verschiedene Konsonanten.<br />

Neben der Klassifikation eines einzelnen Lautes kann man mit Hilfe von<br />

Kohonen-Netzen auch kontinuierliche Sprache erkennen. Verwendet man zum<br />

Beispiel als Merkmale Kurzzeitspektren X1, . . . Xt für die Zeitpunkte 1 . . .t,<br />

und bestimmt zu jedem Zeitpunkt das Neuron mit maximaler Ausgabe.<br />

Diese Neuronen ergeben schließlich einen Pfad durch den Zielraum, anhand<br />

dessen ein Wort erkannt werden kann. Ein Beispiel dafür ist in Abb. 22.5 zu<br />

sehen, bei dem Teuvo Kohonen persönlich das finnische Wort ” humppila“<br />

gesprochen hatte.<br />

22.2.5 MS-TDNNs<br />

Eine in der Spracherkennung beliebte Architektur zur Berücksichtigung<br />

dynamischer Eigenschaften der Sprache ist das so genannten Time Delay<br />

Neural Net (TDNN). Die Dynamik geht auf zwei Arten in die Klassifikation<br />

ein, einmal in Form eines Fensters, das einen größeren Zeitlichen Kontext<br />

des Signals überdeckt und somit mehr als nur ein Kurzzeitspektrum als<br />

l<br />

n<br />

d<br />

f<br />

g<br />

n<br />

p<br />

f<br />

n<br />

t<br />

f<br />

g<br />

h<br />

p<br />

y<br />

n<br />

r<br />

e<br />

y<br />

hj<br />

r<br />

y<br />

j<br />

h<br />

e<br />

j<br />

j<br />

k<br />

j<br />

i<br />

hi<br />

e<br />

i<br />

j<br />

#<br />

i<br />

i<br />

j

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!