18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

27.1 Ein Erkenner für eine neue Aufgabe 437<br />

27.1.6 Qualitätsanforderungen überprüfen und erfüllen<br />

Wenn der Erkenner fertig trainiert ist, kann es schon zu spät sein, bestimmte<br />

Änderungen vorzunehmen. Daher müssen gegebenenfalls einige Anforderungen<br />

schon während des Trainingsprozesses berücksichtigt werden. Andere<br />

werden oft erst hinterher erfüllt. Typische Anforderungen an Spracherkenner<br />

sind zum Beispiel die Erwartung, daß er in Echtzeit läuft. Zwar gilt auch<br />

bei der Entwicklung von Spracherkennern immer wieder der Wahlspruch<br />

der Softwaretechnik ” Make it work first, before you make it work fast“,<br />

allerdings kann eine ungeeignete Architektur des Parameterraumes dazu<br />

führen, daß eine Erkennung in Echtzeit hoffnungslos ist. Die Geschwindigkeit<br />

der Erkennung kann in der Regel mit einigen Parametern (Breite des<br />

Suchstrahls) eingestellt werden, wobei eine Reduzierung der Erkennungszeit<br />

so gut wie immer mit einer Erhöhung der Fehlerrate verbunden ist. Unter<br />

Umständen kann es nötig sein, einen kleineren Parameterraum oder ein<br />

kleineres Sprachmodell verwenden zu müssen, um Echtzeitanforderungen<br />

erfüllen zu können.<br />

Manche Aufgaben benötigen eine schritthaltende Erkennung. Das heißt<br />

der Erkenner muß bevor eine Äußerung beendet ist, den Anfang schon erkannt<br />

haben. Er arbeitet dann nicht auf einer fertigen Audio-Datei sondern<br />

auf einem Audio-Strom oder auf einer wachsenden Audio-Datei. Wenn der<br />

Benutzer eines intelligenten Vortragsunterstützungssystem zum Beispiel sagt<br />

” Auf der nächsten Folie sehen Sie wir die Ergebnisse dieser Experimente auf<br />

den Daten ausgefallen sind, die wir letztes Jahr im Rahmen des Projektes<br />

FAME gesammelt ...“. Wenn der Redner keine Sprechpause macht, wird ein<br />

Sprachdetektor auch kein Ende der Äußerung detektieren, und das System<br />

würde nicht erwartungsgemäß funktionieren, wenn es nicht schon am Anfang<br />

dieser Äußerung auf die nächste Präsentationsfolie schalten würde.<br />

Wenn schritthaltende Erkennung benötigt wird, muß dies gegebenenfalls<br />

in den Signalverarbeitungsroutinen des Erkenners berücksichtigt werden.<br />

Normierungsverfahren, die auf Äußerungsebene arbeiten (zum Beispiel<br />

verschiedene Mittelwertsubtraktionsverfahren), müssen darauf ausgerichtet<br />

werden, mit einem Audiodatenstrom zu arbeiten, dessen Ende nicht abzusehen<br />

ist. Für Mittelwertssubtraktionen bedeutet dies meistens, daß die<br />

Mittelwert auf einem Zeitfenster in der Vergangenheit berechnet werden<br />

müssen. Bei komplizierten Suchalgorithmen bedeutet schritthaltende Erkennung,<br />

daß es nicht sinnvoll ist, mehrere Vorwärts- und Rückwärtsdurchläufe<br />

über die Aufnahme zu machen, wenn nicht klar ist, wann der Rückwärtsdurchgang<br />

gestartet werden soll.<br />

Andere Qualitätsanforderungen beziehen sich zum Beispiel auf die<br />

Adaptierbarkeit des Erkenners. Die am meisten verbreiteten Adaptionsmethoden<br />

sind Vokaltraktlängennormierungen und Maximum-Likelihood

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!