18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

38 3. Geschichte<br />

auch hier ca. 1000 Wörter.<br />

Als abzusehen war, daß RM der Forschung kaum noch Herausforderungen<br />

bot, ging die DARPA dazu über, schwierigere Aufgaben zu verfolgen. Anfang<br />

der Neunziger wurden die ATIS (Air Travel Information System) und WSJ<br />

(Wall Street Journal) Benchmarks definiert. Bei ATIS bestand die Aufgabe<br />

darin, nicht nur die Sprache einer Person zu erkennen, die einen Flug buchen<br />

möchte, sondern auch das Gesprochene zu verstehen und mit dem Sprecher<br />

einen Dialog zu führen, bis der gewünschte Flug gefunden und gebucht<br />

war. Die größte Herausforderung gegenüber RM stellte jetzt die spontane<br />

Sprache dar. Zwar waren die zu sprechenden Sätze in der Regel nicht sehr<br />

kompliziert, aber es wurde keine feste Grammatik vorgegeben, die Benutzer<br />

konnten frei sprechen. Die Behandlung spontaner Sprache mußte mit neuen<br />

Problemen (fehlerhafte Aussprache, Geräusche, Wortabbrüche etc.) fertig<br />

werden. Die neue Herausforderung bei WSJ bestand vor allem in dem großen<br />

Vokabular. Ausgehend von zunächst 5000 Wörtern wurde der Benchmark<br />

in wenigen Jahren auf schließlich offiziell unbeschränkte (praktisch aber<br />

60000 Wörter große) Vokabulare ausgeweitet. Derart große Vokabulare<br />

brachten nicht nur die Problematik mit sich, mehr verwechselbare Wörter<br />

zu besitzen, sie trieben auch die entwickelten Erkenner an die Grenzen der<br />

Rechnerkapazitäten. Die zur Verfügung gestellten Trainingsdaten übertrafen<br />

beim WSJ alle bis dahin verfügbaren. Mit insgesamt fast 200 Stunden<br />

Sprachaufnahmen von mehreren hundert Sprechern standen so viele Trainingsdaten<br />

zur Verfügung, daß die Parameterräume der Akustischen Modelle<br />

sehr groß gewählt werden konnten. Auch die Textdaten, die zum Trainieren<br />

der linguistischen Sprachmodelle verwendet wurden hatten mit 300 000 000<br />

Worten eine enorme Größe. Die WSJ Aufnahmen bestanden aus diktierten<br />

und vorgelesenen Zeitungsartikeln. Die Qualität der Aufnahmen war wie bei<br />

SUR, RM und ATIS sehr gut. Die Sprache wurde immer in einem ruhigen<br />

Büro mit einem Nachbesprechungsmikrophon aufgenommen.<br />

Mitte der Neunziger, als die Fehlerraten der besten Erkenner, die an den<br />

alljährlichen Evaluationen teilnahmen, für unbeschränkte Vokabulare bei ca.<br />

6% war, ging die DARPA dazu über, Erkennungsaufgaben zu definieren,<br />

bei denen die Umstände deutlich schwieriger waren. Dabei wurden dann<br />

zunächst die SWB (Switchboard) Task und die BN (Broadcast News) Task<br />

definiert. Bei SWB ging es darum, Sprache von Personen zu erkennen, die<br />

sich über das Telefon über ein vorgegebenes Thema unterhalten. In einer<br />

späteren Varianten (Call Home Task) wurde auf die Vorgabe des Themas<br />

verzichtet, und die Personen durften sich mit Bekannten oder Verwandten<br />

am Telefon über beliebige Themen unterhalten. Die Gespräche wurden<br />

mitgeschnitten und in Handarbeit transkribiert. Für die SWB-Evaluation<br />

im Jahre 2004 wurde die Trainingsdatenmenge um ein Größenordnung<br />

von 250 auf ca. 2500 Stunden erweitert. Die ersten Evaluationen auf

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!