18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

250 15. Erkennung kontinuierlicher Sprache<br />

Man kann sich darüber streiten, wie sinnvoll das Maß der Wortfehlerrate<br />

zur Bestimmung der Qualität eines Spracherkenners ist. In der Forschergemeinde<br />

werden auch immer wieder andere Möglichkeiten diskutiert. So<br />

spielen zum Beispiel bei den meisten so genannten HUB-5 Evaluationen<br />

[?] der DARPA (Erkennung spontaner Telefondialoge zwischen <strong>Mensch</strong>en)<br />

zusätzlich die korrekten Zeitangaben eine Rolle. Da wird jedes Wort der<br />

Erkennerhypothese mit einem Anfangs- und einem Endzeitstempel versehen,<br />

und es wird nur dann als korrekt erkannt angesehen, wenn die Zeitstempel<br />

und die tatsächliche Zeit sich überlappen. Andere Fehlermaße berücksichtigen<br />

die Wichtigkeit bestimmter Wörter für das Verstehen einer Äußerung.<br />

Hierbei geht man davon aus, daß ein falsch erkannter Artikel weniger schlimm<br />

ist als ein falsch erkanntes Substantiv. So definiert man für jedes Wort eine<br />

” Wichtigkeit“ und zählt dann nicht 1,0 für jede Vertauschung, Einfügung<br />

und Auslassung, sondern einen Wert, der sich aus der Wichtigkeit der in<br />

den Fehler involvierten Wörter berechnet. Bei dem Anfang der neunziger<br />

Jahre eingeführten so genannten Wall-Street-Journal-Test (HUB-1) [?] sind<br />

bei den meisten Erkennern an einem guten Drittel aller Fehler die englischen<br />

Artikel the und a beteiligt.<br />

Die Motivation für die Einbeziehung der Wichtigkeit falsch erkannter<br />

Wörter ist deswegen von Bedeutung, weil gerade bei der Evaluation von<br />

Erkennern und der Veröffentlichung von Erkennungsergebnissen sonst nur<br />

Aufmerksamkeit auf eine einzige Zahl gelegt wird, und die Forschung sich<br />

durch die Konzentration auf das Beseitigen von unwichtigen Fehlern von der<br />

Arbeit an der Beseitigung wichtigerer Fehler abhalten läßt.<br />

Allerdings haben auch die alternativen Fehlermaße ihre Probleme: Wer<br />

soll definieren, wie schwerwiegend welcher Fehler ist. Hier kommt eine<br />

gewisse Subjektivität ins Spiel. Je komplizierter ein Fehlermaß ist, umso<br />

mehr Möglichkeiten der unfairen Bewertung bietet es. Ein derart einfaches<br />

Maß, wie die oben definierte Wortfehlerrate ist per se wesentlich objektiver.<br />

Bei einigen bestimmten Erkennungsproblemen gibt man aber in der Regel<br />

auch andere Maße zusätzlich zur Wortfehlerrate an. So ist dies zum Beispiel<br />

vor allem bei Sprachen sinnvoll, bei denen die Definition eines Wortes<br />

problematisch ist. Dies ist bei vielen asiatischen, auf Silben basierenden<br />

Sprachen wie Chinesisch und Japanisch der Fall. Im Japanischen gibt es<br />

nur 48 grundlegende Silben aus denen die komplette Sprache aufgebaut<br />

wird. Texte sind Aneinanderreihungen dieser Silben, wobei kein Unterschied<br />

gemacht wird zwischen Silbenübergängen innerhalb eines Wortes und<br />

Wort-zu-Wort-Übergängen. Bestimmte Sachverhalte (anderer Tempus bei<br />

Verben, Singular/Plural bei Substantiven, etc.) werden durch Verwenden<br />

besonderer dafür vorgesehener Silben ausgedrückt. Ob diese Silben Teil<br />

eines Wortes oder ein eigenständiges Wort sind, darüber kann man sich

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!