18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

28 2. Eigenschaften und Taxonomie von Sprache und Spracherkennern<br />

anderer Personen, kaum möglich. Der so genannte Cocktail-Party-Effekt<br />

beschreibt die Problematik, eine einzelne Stimme aus einem Wirrwarr vieler<br />

verschiedener Stimmen herauszuhören. Wir <strong>Mensch</strong>en sind bei dieser Aufgabe<br />

erstaunlich gut. Wir können selbst relativ leise Stimme von Personen<br />

verfolgen und mithören, die sich in einer <strong>Mensch</strong>enmenge weiter weg von uns<br />

befinden, als manche in unmittelbarer Nachbarschaft sprechende <strong>Mensch</strong>en.<br />

Wenn wir uns konzentrieren, können wir aus einer Aufnahme, auf der zwei<br />

bis drei Leute mit gleicher Lautstärke sprechen jeden einzelnen Sprecher<br />

heraushören und erkennen, was er sagt. Die Spracherkennungstechnik ist bei<br />

weitem noch nicht in der Lage diese Fähigkeit auch nur annährend so gut<br />

nachzuahmen.<br />

2.7 Das Vokabular<br />

Ein Kriterium, das die Anfänge der Entwicklung der Spracherkennungsforschung<br />

begleitet hat war die Größe des Erkennervokabulars, das heißt<br />

die Zahl der verschiedenen Wörter, die ein Erkenner gleichzeitig erkennen<br />

kann. Während man früher vor allem an der Erkennung einzelner Laute<br />

und später einzelner vollständiger Wörter arbeitete, wurde klar, daß die<br />

Schwierigkeit mit der Zahl der zu erkennenden Wörter schnell steigt.<br />

Spracherkennungssysteme waren nur für sehr eingeschränkte eng umrissene<br />

Aufgaben möglich. Anfang und Mitte der Achtziger Jahre sprach man<br />

noch von großen Vokabularen ab ca. 1000 Wörtern. In den Neunzigern war<br />

die Größe von 64000 Wörtern lange Zeit Standard für große Vokabulare<br />

(LVCSR = Large Vocabulary Continuous Speech Recognition). Diese Größe<br />

hatte drei Ursachen: Zum einen läßt sich so das Vokabular mit 16 Bits<br />

codieren, zum anderen genügt diese Größe, um im Englischen mehr als<br />

99% der in Zeitungstexten verwendeten Wörter abzudecken, und drittens<br />

wurde der in den Neunzigern beliebte Benchmarktest, der auf vorgelesenen<br />

Wall-Street-Journal-Artikeln basiert, auf eine Vokabulargröße von 60000<br />

Wörtern festgelegt.<br />

2.8 <strong>Kommunikation</strong>sart<br />

Einen wichtigen Einfluß auf die Schwierigkeit einer Erkennungsaufgabe hat<br />

die Art der <strong>Kommunikation</strong>. Damit meinen wir, ob sich zwei Personen<br />

miteinander unterhalten, also ein Dialog stattfindet, oder ob eine Person<br />

allein redet (z.B. Briefe diktiert oder einen Vortrag hält).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!