29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4. ERHÄLTLICHE PROGRAMME 24<br />

zu integrieren. Microsoft bietet vier Standardcharaktere an. Man hat allerdings zusätzlich die Möglichkeit,<br />

eigene zu erstellen oder weitere Charaktere von Fremdanbietern zu erhalten. Die Basis für den<br />

Microsoft Agent ist die Microsoft Speech API 4.0. Sie muss in jedem Fall installiert werden um, mit<br />

dem Agent zu arbeiten. Wird der Agent in einem Programm aktiv, führt die vom Entwickler definierten<br />

Aktionen aus. Zum Beispiel kann er dem Anwender mit Hilfe der verschiedenen TTS Engines Hinweisen<br />

geben oder auf Spracheingaben reagieren. Für TTS werden unter anderen Engines für U.S. Englisch,<br />

britisches Englisch, Französisch, Deutsch und Italienisch geboten. Die Spracheingabe wird jedoch nur<br />

für U.S. Englisch unterstützt. Alle Downloads finden sich unter [13], zusätzliche TTS Fremdanbieter<br />

unter [12]. Weiter Informationen zur genaueren Funktionsweise der SAPI sind in Kapitel 5.2 zu finden.<br />

4.1.2 CVoiceControl<br />

CVoiceControl ist ein Spracherkennungssystem von Daniel Kiecza. Es ermöglicht dem Linuxanwender<br />

Sprachbefehle mit Unix Kommandos zu verknüpfen. Es erkennt automatisch Spracheingaben mittels<br />

Mikrofon. Falls diese Eingaben korrekt erkannt werden, führt CVoiceControl die zugehörigen Kommandos<br />

aus. Damit die Eingabe erkannt werden kann muss mindestens ein Sprechermodell angelegt werden.<br />

Einen entsprechenden Editor gehört schon zu CVoiceControl. In einem Sprechermodell befindet sich<br />

je Sprachkommando eine Beschreibung dessen, was gesagt wird, das auszuführende Kommando selbst<br />

und Vergleichswerte für den Erkenner. Bei den Vergleichswerten handelt es sich um Sprachaufnahmen<br />

des Kommandos, die man selbst anfertigen muss. Da direkt die Ähnlichkeit zwischen dem eintreffenden<br />

Sprachsignal und den Vergleichswerten berechnet wird ist es vorteilhaft mehrere Vergleichswerte pro<br />

Kommando aufzunehmen. Die vorgegebene Mindestzahl beträgt dabei vier. Da der Erkenner die Amplitude<br />

des eintreffenden Sprachsignals nicht anpasst, muss man bei der Spracheingabe darauf achten, dass<br />

die Entfernung zwischen Mund und Mikrofon sowie die Aussprachelautstärke konstant bleiben. Indem<br />

man Vergleichswerte nicht nur in verschiedenen Betonungen sondern auch in verschiedenen Lautstärken<br />

aufnimmt, kann hier möglicherweise Abhilfe geschaffen werden. Leider ist dazu nichts im Online<br />

Handbuch zu finden. [10] CVoiceControl bietet damit einen sprecherabhängigen Spracherkenner. Das<br />

Training des Erkenners wird hier durch das anlegen der Vergleichswerte erledigt. Es ist nur diskrete<br />

Spracheingabe möglich. Dies ist für die Eingabe einzelner Befehlswörter oder Befehlswortgruppen aber<br />

vollkommen ausreichend. Wie in Kapitel 2.2.1 gesagt, sollte das Vokabular des Erkenners so klein wie<br />

möglich gehalten werden, um die Rechenzeit zu sparen und Verwechslungsfehler auszuschließen. Dies<br />

ist in CVoiceControl gegeben, indem man mehrere Sprechermodelle für verschiedene Anwendungen<br />

anlegt und immer nur das benötige Modell lädt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!