18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

21.4 Adaptionsziele 359<br />

Geräusche in fünf oder sechs Klassen ist. Die Klassen können mit Hilfe eines<br />

agglomerativen Ballungsverfahrens gefunden werden. In [?] konnten auf<br />

ähnliche Weise mit 14 Geräuschklassen dramatische Verbesserungen der Fehlerrate<br />

erreicht werden, ca. 50% weniger Fehler insgesamt, und immer noch<br />

über ca. 10% weniger Fehler selbst auf sauberen Aufnahmen ohne Geräusche.<br />

Einbindung von Geräuschen ins Sprachmodell<br />

Es gibt zwei Paradigmen, die beim Modellieren von geräuschbehafteten<br />

Wortfolgen beachtet werden sollten. Einmal die Behandlung von Geräuschen<br />

wie gewöhnliche Wörter. Unter der Annahme, daß manche Geräusch<br />

bevorzugt an bestimmten Stellen in der Sprache auftreten, sollten sie<br />

bei der Berechnung der n-Gramme wie alle andere Wörter behandelt<br />

werden. Dies gilt insbesondere für Atemgeräusche, Lippenschmatzen und die<br />

meisten Füllwörter. Andere Geräusche, insbesondere nichtartikulatorische,<br />

können schwer vorhergesagt werden. Für diese sollte das Paradigma der<br />

Transparenz aus der Sicht des Sprachmodells verfolgt werden. Das heißt,<br />

sie sollten nicht wir gewöhnliche Wörter bei der Berechnung der n-Gramme<br />

verwendet, sondern an dieser Stelle zunächst ignoriert werden. Später,<br />

während der Erkennung sollten sie allerdings vom Sprachmodell nicht für<br />

” unmöglich“ gehalten werden, sondern “durchgereicht“ werden, so daß<br />

P(wn|w1, w2, . . . wi, wGeräusch , wi+1 . . . wn−1) genauso berechnet wird wie<br />

P(wn|w1, w2, . . . wi, wi+1 . . . wn−1).<br />

21.4 Adaptionsziele<br />

Die Adaption eines Spracherkenners an aktuelle Gegebenheiten kann verschiedene<br />

Ziele verfolgen. Entweder werden die Parameter des Erkenners and<br />

die Gegebenheiten oder das aufgezeichnete Signal wird an die Parameter des<br />

Erkenners angepaßt. Der erste Fall wird Modelladaption genannt, der zweite<br />

Signaladaption (s. Abb. 21.2.<br />

In beiden Fällen wird davon ausgegangen, daß die Trainingsdaten eine<br />

Art kanonischer Daten sind, die entweder durch Normierung oder durch<br />

Mittelung der Trainingsdaten den Durchschnitt aller Gegebenheiten (Sprecher,<br />

Kanal, Hintergrund) darstellen. Mit diesen Daten wird das kanonische<br />

Modell geschätzt, das direkt für die nichtadaptierte Erkennung verwendet<br />

wird.<br />

Wenn festgestellt wird, daß die Testdaten nicht dem Mittel der Trainingsdaten<br />

entsprechen, kann im Falle der Signaladaption eine Transformation

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!