Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4. ERHÄLTLICHE PROGRAMME 24<br />
zu integrieren. Microsoft bietet vier Standardcharaktere an. Man hat allerdings zusätzlich die Möglichkeit,<br />
eigene zu erstellen oder weitere Charaktere von Fremdanbietern zu erhalten. Die Basis für den<br />
Microsoft Agent ist die Microsoft Speech API 4.0. Sie muss in jedem Fall installiert werden um, mit<br />
dem Agent zu arbeiten. Wird der Agent in einem Programm aktiv, führt die vom Entwickler definierten<br />
Aktionen aus. Zum Beispiel kann er dem Anwender mit Hilfe der verschiedenen TTS Engines Hinweisen<br />
geben oder auf Spracheingaben reagieren. Für TTS werden unter anderen Engines für U.S. Englisch,<br />
britisches Englisch, Französisch, Deutsch und Italienisch geboten. Die Spracheingabe wird jedoch nur<br />
für U.S. Englisch unterstützt. Alle Downloads finden sich unter [13], zusätzliche TTS Fremdanbieter<br />
unter [12]. Weiter Informationen zur genaueren Funktionsweise der SAPI sind in Kapitel 5.2 zu finden.<br />
4.1.2 CVoiceControl<br />
CVoiceControl ist ein Spracherkennungssystem von Daniel Kiecza. Es ermöglicht dem Linuxanwender<br />
Sprachbefehle mit Unix Kommandos zu verknüpfen. Es erkennt automatisch Spracheingaben mittels<br />
Mikrofon. Falls diese Eingaben korrekt erkannt werden, führt CVoiceControl die zugehörigen Kommandos<br />
aus. Damit die Eingabe erkannt werden kann muss mindestens ein Sprechermodell angelegt werden.<br />
Einen entsprechenden Editor gehört schon zu CVoiceControl. In einem Sprechermodell befindet sich<br />
je Sprachkommando eine Beschreibung dessen, was gesagt wird, das auszuführende Kommando selbst<br />
und Vergleichswerte für den Erkenner. Bei den Vergleichswerten handelt es sich um Sprachaufnahmen<br />
des Kommandos, die man selbst anfertigen muss. Da direkt die Ähnlichkeit zwischen dem eintreffenden<br />
Sprachsignal und den Vergleichswerten berechnet wird ist es vorteilhaft mehrere Vergleichswerte pro<br />
Kommando aufzunehmen. Die vorgegebene Mindestzahl beträgt dabei vier. Da der Erkenner die Amplitude<br />
des eintreffenden Sprachsignals nicht anpasst, muss man bei der Spracheingabe darauf achten, dass<br />
die Entfernung zwischen Mund und Mikrofon sowie die Aussprachelautstärke konstant bleiben. Indem<br />
man Vergleichswerte nicht nur in verschiedenen Betonungen sondern auch in verschiedenen Lautstärken<br />
aufnimmt, kann hier möglicherweise Abhilfe geschaffen werden. Leider ist dazu nichts im Online<br />
Handbuch zu finden. [10] CVoiceControl bietet damit einen sprecherabhängigen Spracherkenner. Das<br />
Training des Erkenners wird hier durch das anlegen der Vergleichswerte erledigt. Es ist nur diskrete<br />
Spracheingabe möglich. Dies ist für die Eingabe einzelner Befehlswörter oder Befehlswortgruppen aber<br />
vollkommen ausreichend. Wie in Kapitel 2.2.1 gesagt, sollte das Vokabular des Erkenners so klein wie<br />
möglich gehalten werden, um die Rechenzeit zu sparen und Verwechslungsfehler auszuschließen. Dies<br />
ist in CVoiceControl gegeben, indem man mehrere Sprechermodelle für verschiedene Anwendungen<br />
anlegt und immer nur das benötige Modell lädt.