18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

420 26. Zusätzliche Modalitäten<br />

den beiden Wörtern gehörenden Lippenbewegungen sind klar voneinander<br />

zu unterscheiden. Der Anteil der Versuchspersonen, die bei so einem Video<br />

auf die Frage ” Was haben Sie gehört?“ mit ” Bach“, also dem Wort, das<br />

nur visuell aber nicht akustisch zu erkennen war, antworten, ist signifikant<br />

höher als bei einem Experiment, bei dem auch in der Videosequenz ” Fach“<br />

gesprochen wird. Dieses Experiment zeigt, daß <strong>Mensch</strong>en beim Erkennen<br />

von Sprache auch die visuelle Information die vom Sprecher kommt,<br />

nutzen. Dieser Effekt wird nach seinem Entdecker McGurk Effekt genannt [?].<br />

Ein weiteres Beispiel dafür ist die in diesem Zusammenhang gerne<br />

verwendete Cocktail-Party. Wenn viele <strong>Mensch</strong>en in einem Raum gleichzeitig<br />

reden, muß zum Verständnis des Gesprächspartners mehr als nur die Schallwelle<br />

des Sprechers analysiert werden. Weil wir zwei Ohren haben, können<br />

wir eine Art ” Beam-Forming“ machen und uns auf den Schall, der aus einer<br />

bestimmten Richtung kommt, konzentrieren. Der Leser kann sich leicht<br />

davon überzeugen, wie wichtig in so einer Situation zwei Ohren sind, indem<br />

er sich ein Ohr mit der Hand zuhält und dann kaum noch die Position der<br />

einzelnen Sprecher nur mit einem Ohr bestimmen kann. Zusätzlich zu dem<br />

Konzentrieren auf eine bestimmte Richtung der Signalherkunft, kann unser<br />

Gehirn sich auch noch auf bestimmte Frequenzbereiche konzentrieren und<br />

so die Sprache des Gegenüber mehr ” verstärken“ als die anderen Geräusche<br />

im Raum. Und schließlich hilft es auch noch, auf die Mundpartie zu schauen<br />

und die Lippenbewegungen zu verfolgen. So können insbesondere solche<br />

Wörter, die akustisch leicht verwechselbar sind, z.B. ” man“ und ” wann“<br />

besser unterschieden werden.<br />

Viseme sind die optischen Gegenstücke zu den akustischen Phonemen.<br />

Ähnlich wie ein Wort aus mehreren Phonemen zusammengebaut werden<br />

kann, so erscheint es im Videobild als Folge verschiedener Viseme. Die Abbildung<br />

zwischen Phonemen und Visemen ist allerdings nicht bijektiv. So sind<br />

zum Beispiel die Wörter ” Haus“ und ” aus“ zwar akustisch unterscheidbar,<br />

aber nicht auf der Videoaufnahme. Der Fall, daß es verschiedene Viseme für<br />

denselben Laut gibt, ist in natürlicher Sprache praktisch ausgeschlossen und<br />

für das Lippenlesen nicht von Bedeutung.<br />

In den Anfängen des Lippenlesens waren die Anforderungen an die Bildqualität<br />

noch sehr hoch. In [?] wird eine sehr gute Beleuchtung von mehreren<br />

Seiten erwartet. Aus den Aufnahmen wurden bestimmte Eigenschaften der<br />

Lippen gemessen (Höhe, Breite, Umfang, Fläche, usw.). Diese Meßwerte<br />

bildeten einen Merkmalsvektor, der dann mit wortweise abgespeicherten<br />

Mustern mittels DTW verglichen wurde, um so für verschiedene Wörter<br />

Wahrscheinlichkeiten zu berechnen. Der Lippenleser wurde verwendet, um<br />

die akustische Erkennung von isoliert gesprochenen Ziffern und Buchstaben<br />

zu verbessern. Dabei wurden mit Hilfe eines akustischen Erkenners die n

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!