18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

26.1 Lippenlesen auf Videoaufnahmen 421<br />

besten Hypothesen extrahiert, und unter diesen dann die am besten mit<br />

dem visuellen Erkenner übereinstimmende gewählt. Die Fehlerrate des Akustischen<br />

Erkenners für Buchstaben konnte von 36% auf 34% gesenkt werden.<br />

Die berichtete Fehlerreduktion von 5% auf 0% bei der Ziffernerkennung<br />

berechtigt allerdings zu Zweifeln an der Signifikanz der Testdaten.<br />

Später folgten andere Ansätze, bei denen zum Beispiel der optische<br />

Fluß berechnet und zu Klassifikation benutzt wurde [?]. Erste neuronale<br />

Ansätze wurden von [?] verfolgt. Dabei wurden zunächst nur statische<br />

Grauwertbilder der Lippen verwendet. Erwähnenswert für diese Arbeit<br />

war die Tatsache, daß bei der auch hier vorgenommenen gemeinsamen<br />

Erkennung mit einen zusätzlichen akustischen Erkenner die Gewichtung<br />

der visuellen und akustischen Klassifikatoren auf Basis der Messung des<br />

Signal-Rausch-Abstandes vorgenommen wurde. Das führte dazu, daß bei<br />

stark verrauschten Aufnahmen mehr Wert auf das Videosignal und bei sehr<br />

sauberen Aufnahmen mehr Wert auf das Audiosignal gelegt wurde.<br />

In [?] werden TDNNs [?] verwendet. Allerdings wurden die Lippenbewegungen<br />

nicht mit Hilfe eine Videokamera aufgezeichnet sondern mit Hilfe<br />

von im Gesicht der Sprecher befestigten Sensoren. Die Klassifikation erfolgte<br />

durch Multiplikation der Wahrscheinlichkeiten des akustischen Erkenners<br />

und des TDNNs.<br />

Spätere Arbeiten gehen dazu über kontinuierliche Sprache zu verarbeiten<br />

und dynamische Ansätze zu verfolgen. Die Verwendung neuronaler Netze<br />

hat sich aber zumindest für die Analyse und Vorklassifikation der Videoaufnahmen<br />

gehalten. [?] verwendet MS-TDNNs [?] [?] für die Erkennung<br />

kontinuierlich gesprochener Buchstabiersequenzen. Das Besondere an der<br />

Arbeit ist, daß die gleiche konnektionistische MS-TDNN Architektur sowohl<br />

für die visuelle als auch für die akustische Erkennung verwendet wurde.<br />

Dies erlaubt zahlreiche Freiheiten bei der Entscheidung der Fusion der<br />

Informationsströme. Prinzipiell war es möglich, bei exakt synchronisierten<br />

Daten die Fusion der akustischen und optischen Merkmale schon auf<br />

Signalebene durchzuführen. Allerdings führten die großen Unterschiede in<br />

der Dimensionalität und Informationsgehalt des Videostroms gegenüber dem<br />

Audiostrom zu Schwierigkeiten (das Netz konzentrierte sich fast ausschließlich<br />

auf den Videostrom). Eine Fusion auf höherer Ebene (verdeckte Schicht<br />

des neuronalen Netzes) funktionierte wesentlich besser [?]. Die Fehlerraten<br />

konnten im sprecherabhängigen Fall gegenüber einem rein akustischen<br />

Erkenner auf sauberen Daten um bis zu 40% und bei verrauschten Daten<br />

um über 50% gesenkt werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!