18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

356 21. Robustheit und Adaption<br />

le betrachtet: Ohne weiteres Wissen, gibt allein die Grundfrequenz F0 der<br />

Stimme einen wertvollen Hinweis. Männer sprechen in der Regel mit tieferer<br />

Stimme als Frauen. Das andere Kriterium kann man aus den Gesamtbeobachtungswahrscheinlichkeiten<br />

der beiden geschlechtsspezifischen Erkennern<br />

gewinnen. Unter der Voraussetzung, daß beide Erkenner die gleiche Struktur<br />

des Parameterraumes haben, so daß sich deren HMM-Emissions- und Übergangswahrscheinlichkeiten<br />

vergleichen lassen, und unter der Voraussetzung,<br />

daß beide das gleiche Sprachmodell verwenden, kann man P(X|λ männlich<br />

mit P(X|λ weiblich vergleichen und sich für das Geschlecht mit größerer<br />

Wahrscheinlichkeit entscheiden. Gegebenenfalls kann man noch, falls bekannt,<br />

die a priori Wahrscheinlichkeiten für die Geschlechter mit einbeziehen<br />

und mit Hilfe der Bayes-Regel sogar die a posteriori Wahrscheinlichkeiten<br />

P(Geschlecht|X) bestimmen. Es mag zwar sein, daß diese Methode nicht<br />

immer zum richtigen Ergebnis führt. In der Praxis stellt sich aber heraus,<br />

daß selbst dann, wenn die Geschlechtsklassifikation einen Fehler macht,<br />

der dann ” falsche“ Erkenner trotzdem die besseren Erkennungsergebnisse<br />

produziert, weil die Ursache für die Fehlklassifikation daher kommt, daß sich<br />

die Stimme der Sprecherin wie die eines eher typischen Mannes oder die<br />

Stimme des Sprechers wie die einer Frau anhören.<br />

21.2 Spontane Effekte<br />

Oft werden als die vier wichtigsten Qualitätseigenschaften von Spracherkennern<br />

beziehungsweise Spracherkennungsaufgaben genannt: die<br />

Sprecher(un)abhängigkeit, die Komplexität des Vokabulars, die Qualität<br />

des Signals und die Spontaneität der Sprache. Sie spannen sozusagen einen<br />

vierdimensionalen Raum auf, in dem sprecherabhängige Erkennung eines<br />

kleinen diktierten, also sorgfältig gesprochenen Vokabulars über einen<br />

ungestörten Kanal in der “leichtesten“ Ecke liegt, und sprecherunabhängige<br />

Erkennung spontaner <strong>Mensch</strong>-<strong>Mensch</strong>-Dialoge mit sehr großen Vokabularen<br />

und störungsbehafteten Übertragungskanälen in der ” schwersten“ Ecke liegt.<br />

Die Dimension der Sprecher(un)abhängigkeit verliert in der Forschung immer<br />

mehr an Bedeutung. Es wird kaum noch an sprecherabhängigen Systemen<br />

geforscht. Sprecherunabhängigkeit und Adaption sind hier die Mittel der<br />

Wahl. Kleine Vokabulare findet man nur noch für Spezialaufgaben, und<br />

die Größen typischer Vokabulare stellen weniger den Spracherkenner selbst<br />

von Schwierigkeiten, sondern vielmehr die Entwickler von Sprachmodellen.<br />

Die Problematik der Signalqualität wird in der Regel durch besondere<br />

Signal- und Modelladaptionsverfahren angegangen, und für viele bekannte<br />

Störungen (zum Beispiel Automobilgeräusche [?]) existieren auch relativ<br />

gute Lösungen. Die Dimension, die somit als die vermutlich schwierigste<br />

bezeichnet werden kann, ist die Spontaneität. Teilweise ist es sogar so, daß

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!