18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

16.7 Adaption von Sprachmodellen 287<br />

Schwierigkeiten damit haben, zu entscheiden, ob zwei aufeinanderfolgende<br />

Wörter zusammen oder getrennt oder gar mit Bindestrich geschrieben<br />

werden sollten. Spracherkenner machen dabei relativ viele Fehler. In [?] wird<br />

festgestellt, daß unter den Fehlern, die ein Diktiererkenner auf deutschen<br />

Nachrichtentexten Produziert, ca. 16% aller Fehler falsche Komposita sind.<br />

Genauer gesagt, der Erkenner hat es versäumt zwei getrennt erkannte<br />

Komponenten zu einem Kompositum zusammenzufügen.<br />

Die erste Idee, das Problem anzugehen wird in [?] vorgestellt. Dabei<br />

werden alle Zerlegungen, die beim Aufbereiten der Texte durchgeführt<br />

wurden abgespeichert. Für jedes Wortpaar wird geprüft, ob es sich aus<br />

zwei Komponenten zusammensetzen läßt, von denen die erste einmal das<br />

Vorderteil und die zweite einmal das Hinterteil eines Kompositums war.<br />

Wenn ja, wird aus dem Wortpaar ein einzelnes Wort gemacht. Würde<br />

dabei verlangt werden, daß auch das entstehende Kompositum schon einmal<br />

als ganzes im Trainingstext aufgetaucht war, würde man ja gerade den<br />

Vorteil der Zerlegung entgegenwirken. Häufig vorkommende Komposita wie<br />

” Bundeskanzler“ werden in der Regel gar nicht erst zerlegt, weil sie ohnehin<br />

unter den häufigsten 100 000 Wörtern vorkommen. Eine Komposition von<br />

Wörtern in der Erkennerhypothese ist damit im wesentlichen nur für die<br />

seltenen Wörter wichtig, deren Auftrittswahrscheinlichkeit in irgendwelchen<br />

Textdaten nahe null ist. In [?] wird berichtet, daß die Anwendung<br />

der einfachen Regel ” wi war mal Vorne-Komponente und wi+1 war mal<br />

Hinten-Komponente, dann füge wi und wi+1 zusammen“ nicht hilfreich<br />

ist, im Gegenteil, die Wortfehlerrate steigt sogar an, weil nicht nur viele<br />

Zusammenfügungen unterlassen werden sondern vor allem weil zu viele<br />

falsche Zusammenfügungen gemacht werden.<br />

Ein verfeinertes Kompositabildungsverfahren wird in [?] vorgestellt. Dabei<br />

werden vor einer Prüfung ob wi eine Vorne-Komponente und wi+1 eine<br />

Hinten-Komponente ist, noch einige Heuristiken angewendet. Der Algorithmus<br />

ist eher dadurch motiviert, festzustellen, welche Substantiv-Paare nicht<br />

kombiniert werden sollten. Abb. 16.5 skizziert den Entscheidungsalgorithmus.<br />

Dabei wird zunächst geprüft, ob eines der Wörter ein Eigenname ist<br />

(vergleich mit den häufigsten Eigennamen aus einem Telefonbuch). In den<br />

seltensten Fällen ist eine Komponente eines Kompositums ein häufiger Eigenname.<br />

Wenn kein Eigenname dabei ist, wird geprüft, ob zwei aufeinanderfolgende<br />

Substantive zu einer Aufzählung gehören ( ” Substantiv1 Substantiv2<br />

und/oder Substantiv3“). Zwar würden mit dieser Regel Hypothesen wie ” Die<br />

Staats Sekretäre und Minister sagten ...“ fälschlicherweise als Aufzählung erkannt<br />

werden, aber in der Praxis überwiegen die Fälle, in denen Substantive<br />

nicht zusammengesetzt werden sollten, wenn sie in Aufzählungen auftauchen.<br />

Sind die Substantive mit Adjektiven oder Artikel davor versehen greift die<br />

Regel nicht oder sie müßte erheblich komplizierter implementiert werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!