18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

306 17. Kontextabhängige akustische Modelle<br />

Es ist grundsätzlich möglich, auch andere Phänomene als (Sub-)Triphone<br />

zu ballen. Im allgemeinen Fall werden Entscheidungsbäume über Mengen<br />

von Subpolyphonen mit beliebieger Kontextbreite berechnet. Bei solchen<br />

Aufgaben kann es vermehrt dazu kommen, daß eine Kontextfrage über<br />

einen vom Zentralphonem weit entfernen Kontext weder mit ja noch mit<br />

nein beantwortet werden kann. Die Frage ” −5 = Vokal“, also ” ist das fünfte<br />

Phonem nach links ein Vokal“, kann für den Kontext A(B,D|N) gar nicht<br />

beantwortet werden, weil dieser Kontext nicht bekannt ist. Theoretisch<br />

müßten als statt binärer Entscheidungsbäume ternäre verwendet werden,<br />

die neben den Antworten ja und nein auch noch die Antwort ” unbekannt“<br />

erlauben. Allerdings gilt auch hier [?], daß der zusätzliche Aufwand und<br />

die zusätzlichen Komplikationen den Gewinn nicht lohnen, und man am<br />

einfachsten solche nicht beantwortbaren Fragen mit nein beantwortet.<br />

In [?] und [?] werden Experimente mit verschiedenen Kontextbreiten<br />

vorgestellt. Die Erkenntnis dabei entspricht im wesentlichen den Erwartungen,<br />

daß der Vorteil einer kontextabhängigen Modellierung mit wachsender<br />

Kontextbreite immer geringer wird. Beim Vergleich der deutschen mit der<br />

englischen Sprache stellt sich sogar heraus, daß im Deutschen noch weniger<br />

Kontext benötigt wird. Während im Englischen Kontexte der Breite ±3<br />

gelegentlich noch leichte Gewinne gegenüber ±2 bringen, ist im Deutschen<br />

schon bei ±2 (Quintphonen) kaum noch ein nennenswerter Unterschied<br />

zu ±1 (Triphonen) festzustellen. Das hängt vor allem von der viel stärker<br />

koartikulierten englischen Sprache ab.<br />

Abb. 17.10 zeigt, wie viele Fragen zu welcher Kontextbreite in einem<br />

Ballungsvorgang [?] mit divisiver Ballung und Entropiedistanz auf dem Wall<br />

Street Journal Korpus gestellt wurden. Zwei Erkenntnisse sind dabei zu<br />

entnehmen: Erstens, Kontexte geringerer Breite sind von größerer Bedeutung,<br />

und werde öfter befragt, und zweitens kommen Fragen zu entfernten<br />

Kontexten erst in sehr tiefen Regionen des Entscheidungsbaumes vor, also<br />

erst dann, wenn die Auftrennungsgewinne schon relativ klein geworden sind.<br />

Die gemeinsame Modellierung verschiedener akustischer Phänomene<br />

kann auf verschiedene Art erfolgen. Wie in Kap. 14 im Zusammenhang<br />

mit verschiedenen Kontinuierlichkeitsgraden schon besprochen, so kann die<br />

Vereinigung der Modelle auf der Ebene der Mixturgewichte oder auf der<br />

Ebene kompletter Mischverteilungen geschehen. In [?] wird die allgemeine<br />

Variante einer mehrstufigen Ballung mit dem JANUS Spracherkenner<br />

[?] vorgestellt. Dort wird in der ersten Stufe eine Zusammenlegung der<br />

Modelle auf der Ebene kompletter Mischverteilungen (Codebücher als<br />

Graustufenmatrizen und Mixturgewichte als Histogramme dargestellt)<br />

durchgeführt, und in der zweiten Stufe eine Zusammenlegung auf der Ebene<br />

der Mixturgewichte. Das Ergebnis des JANUS-Ballungsverfahren ist ein

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!