18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

27.1 Ein Erkenner für eine neue Aufgabe 435<br />

Aus den Textkorpora müssen n-Gramme berechnet werden. Typische<br />

Größen dieser n-Gramm Sprachmodelle liegen in der Größenordnung von<br />

mehreren Millionen bis mehreren Zig Millionen Bigrammen und Trigrammen<br />

sowie den dazugehörigen Back-Off Parametern.<br />

Ein weiterer Wichtiger Bestandteil der Erkennerumgebung ist das Aussprachelexikon.<br />

Für die verbreitetsten Sprachen existieren schon zahlreiche<br />

Lexika. Für seltenere Sprachen oft keine in elektronischer Form. In manchen<br />

Sprachen (zum Beispiel Serbisch und Kroatisch) kann die Orthographie<br />

direkt auch als phonetische Umschrift verwendet werden. In anderen Sprachen<br />

ist dies nicht möglich. In der Tat gibt es sogar sehr viele Sprachen die<br />

ganz ohne Schriftform existieren – zugegebenermaßen sind solche Sprachen<br />

nicht besonders weit verbreitet. Das Aussprachelexikon muß das gesamte<br />

Trainingsvokabular abdecken. Wörter, die nicht im Lexikon enthalten sind,<br />

können nicht mit den üblichen HMM-Erkennungsmethoden von Kap. 12<br />

erkannt werden. An dieser Stelle entstehen oft sehr zeitraubende Arbeiten.<br />

Selbst in etablierten Sprachen wie die deutsche tauchen immer wieder Wörter<br />

auf, die in den bis dahin benutzten Lexika nicht vorkommen. So kann man bei<br />

einer deutschen Datensammlung von mehreren Stunden Sprache erwarten,<br />

Hunderte von Wörtern zu erfassen, für die noch keine phonetische Umschrift<br />

vorhanden ist. Einige davon lassen sich automatisch erzeugen – zum Beispiel<br />

weil sie Komposita von bekannten Wörtern sind. für andere müssen Text-To-<br />

Speech-Systeme verwendet werden. Da weder die Kompositaerkennung noch<br />

die Text-To-Speech-Systeme perfekt funktionieren bedarf ein derart automatisch<br />

erzeugtes Lexikon einer nachträgliche Durchsicht durch einen Experten.<br />

Das Aussprachelexikon definiert somit auch den Phonemsatz der neuen<br />

Sprache. Dieser bildet die Grundlage für die initialen akustischen Modelle.<br />

Für die Erzeugung von Kontextentscheidungsbäumen wird ein Fragenkatalog<br />

benötigt, der an den Phonemsatz der neuen Sprache angepaßt ist. In<br />

der Regel ist es möglich, mit Hilfe der IPA-Lautedefinitionen jedem Phonem<br />

artikulatorische Eigenschaften zuzuordnen und in etwa die gleichen Mengen<br />

dieser Eigenschaften über verschiedene Sprachen hinweg zu verwenden.<br />

27.1.5 Training und Evaluation<br />

Vor dem eigentlichen Training steht die Initialisierung des Parameterraumes.<br />

Wenn es sich um einen Erkenner für eine neue Sprache handelt, dann liegen<br />

in der Regel keine Labels vor und es existiert auch kein ausreichend guter<br />

Erkenner, der gute Labels erzeugen könnte. Wenn ein Erkenner in einer<br />

ähnlichen Sprache existiert könnte dieser dazu herangezogen werden, initiale<br />

(schlechte) Labels zu erzeugen. Problematisch wird dies allerdings dann,<br />

wenn die Phonemsätze der alten und der neuen Sprache nicht übereinstimmen.<br />

Phoneme aus der neuen Sprache kann der alte Erkenner gar nicht

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!