18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

418 25. Erkennung verschiedener Sprachen<br />

statt eines w, d oder s stattoderÌ. Dieses Problem ist nur in den Griff<br />

zu bekommen, wenn das System über den Wortschatz bescheid weiß.<br />

• Grammatikalische Struktur<br />

So wie die Phonotaktik definiert, wie aus Phonemen Wörter entstehen<br />

können, so gibt die Grammatik an, wie aus Wörtern Sätze entstehen.<br />

Beide sind von der Sprache abhängig. Daher kann eine Analyse der Grammatikalischen<br />

Struktur eines Satzes Identifizierung der Sprache hilfreich<br />

sein. Dafür muß natürlich ein Spracherkennungssystem vorhanden sein,<br />

um überhaupt Wortfolgen aus dem Gesprochenen heraus erkennen. Es ist<br />

dann zu erwarten, daß ein Erkenner, für eine Sprache A auf Sätzen in der<br />

Sprache A mit höherer Wahrscheinlichkeit Wortfolgen produziert, die den<br />

Grammatikregeln von A entsprechen, als wenn er einen Satz der Sprache<br />

B erkennt.<br />

Ein sprachidentifizierendes System sollte zur Unterscheidung von Sprachen<br />

möglichst viele dieser Informationsquellen einbeziehen.<br />

Die Architekturen für LID-Systeme können in zwei Gruppen unterteilt<br />

werden. In der ersten wird für jede zu identifizierende Sprache ein<br />

eigenständiges Modell trainiert. Bei der Identifizierung laufen alle eigenständigen<br />

Modelle parallel und produzieren unabhängig voneinander<br />

Erkennerhypothesen (Phonemfolgen oder Wortfolgen) mit dazugehörigen<br />

Beobachtungswahrscheinlichkeiten oder Konfidenzwerten. Diejenige Sprache,<br />

deren Modell die beste Bewertung für die Testäußerung liefert, wird als die<br />

gesprochene Sprache identifiziert. Architekturen dieser Gruppe werden von<br />

einem Großteil der Forscher verwendet (z.B. [?], [?], [?]).<br />

Die andere Gruppe zeichnet sich durch ein einziges Modell für alle Sprachen<br />

aus. Beim Erkennen der Testäußerung konkurrieren einzelne Teilmodelle<br />

(zum Beispiel Phoneme oder Wörter) miteinander. Die Teilmodelle haben in<br />

verschiedenen Sprachen verschiedene Auftretenswahrscheinlichkeiten. Diejenige<br />

Sprache, deren typische Teilmodelle am häufigsten in der Hypothese<br />

vorkommen wird schließlich identifiziert ([?], [?]).<br />

Ein Nachteil der Verfahren aus der ersten Gruppe ist, daß mit wachsender<br />

Zahl der zu identifizierenden Sprachen der insgesamt zu leistende Rechenund<br />

Speicherbedarf anwächst. Bei der zweiten Gruppe manifestiert sich ein<br />

ähnlich Nachteil in der steigenden Zahl verschiedener Teilmodelle. Diese<br />

wachsen allerdings sublinear mit der Zahl der Sprachen, da viele Sprachen<br />

auch viele gemeinsame Eigenschaften haben.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!