Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

4. ERHÄLTLICHE PROGRAMME 24 zu integrieren. Microsoft bietet vier Standardcharaktere an. Man hat allerdings zusätzlich die Möglichkeit, eigene zu erstellen oder weitere Charaktere von Fremdanbietern zu erhalten. Die Basis für den Microsoft Agent ist die Microsoft Speech API 4.0. Sie muss in jedem Fall installiert werden um, mit dem Agent zu arbeiten. Wird der Agent in einem Programm aktiv, führt die vom Entwickler definierten Aktionen aus. Zum Beispiel kann er dem Anwender mit Hilfe der verschiedenen TTS Engines Hinweisen geben oder auf Spracheingaben reagieren. Für TTS werden unter anderen Engines für U.S. Englisch, britisches Englisch, Französisch, Deutsch und Italienisch geboten. Die Spracheingabe wird jedoch nur für U.S. Englisch unterstützt. Alle Downloads finden sich unter [13], zusätzliche TTS Fremdanbieter unter [12]. Weiter Informationen zur genaueren Funktionsweise der SAPI sind in Kapitel 5.2 zu finden. 4.1.2 CVoiceControl CVoiceControl ist ein Spracherkennungssystem von Daniel Kiecza. Es ermöglicht dem Linuxanwender Sprachbefehle mit Unix Kommandos zu verknüpfen. Es erkennt automatisch Spracheingaben mittels Mikrofon. Falls diese Eingaben korrekt erkannt werden, führt CVoiceControl die zugehörigen Kommandos aus. Damit die Eingabe erkannt werden kann muss mindestens ein Sprechermodell angelegt werden. Einen entsprechenden Editor gehört schon zu CVoiceControl. In einem Sprechermodell befindet sich je Sprachkommando eine Beschreibung dessen, was gesagt wird, das auszuführende Kommando selbst und Vergleichswerte für den Erkenner. Bei den Vergleichswerten handelt es sich um Sprachaufnahmen des Kommandos, die man selbst anfertigen muss. Da direkt die Ähnlichkeit zwischen dem eintreffenden Sprachsignal und den Vergleichswerten berechnet wird ist es vorteilhaft mehrere Vergleichswerte pro Kommando aufzunehmen. Die vorgegebene Mindestzahl beträgt dabei vier. Da der Erkenner die Amplitude des eintreffenden Sprachsignals nicht anpasst, muss man bei der Spracheingabe darauf achten, dass die Entfernung zwischen Mund und Mikrofon sowie die Aussprachelautstärke konstant bleiben. Indem man Vergleichswerte nicht nur in verschiedenen Betonungen sondern auch in verschiedenen Lautstärken aufnimmt, kann hier möglicherweise Abhilfe geschaffen werden. Leider ist dazu nichts im Online Handbuch zu finden. [10] CVoiceControl bietet damit einen sprecherabhängigen Spracherkenner. Das Training des Erkenners wird hier durch das anlegen der Vergleichswerte erledigt. Es ist nur diskrete Spracheingabe möglich. Dies ist für die Eingabe einzelner Befehlswörter oder Befehlswortgruppen aber vollkommen ausreichend. Wie in Kapitel 2.2.1 gesagt, sollte das Vokabular des Erkenners so klein wie möglich gehalten werden, um die Rechenzeit zu sparen und Verwechslungsfehler auszuschließen. Dies ist in CVoiceControl gegeben, indem man mehrere Sprechermodelle für verschiedene Anwendungen anlegt und immer nur das benötige Modell lädt.
4. ERHÄLTLICHE PROGRAMME 25 4.1.3 XVoice XVoice ermöglicht durchgängige Spracheingabe und Sprachsteuerung unter Linux. Um die Spracheingaben in Text umzuwandeln wird IBMs ViaVoice benötigt. ViaVoice ist allerdings weder gemeinsam mit XVoice erhältlich, noch kostenlos. [5] Des weiteren wird ViaVoice nicht mehr von IBM betreut oder angeboten. Weitere Informationen zu ViaVoice sind im Abschnitt 4.<strong>2.3</strong> zu finden. In XVoice kann der Nutzer verschiedene Sprachkommandos mit Aktionen verbinden. Dazu muss er diese Kommandos in Vokabularen zusammenfassen. Diese wiederum können dann mit unterschiedlich Anwendungen oder Modi verknüpft angewandt oder aber dauerhaft verwendet werden. In einem Übersichtsfenster zeigt XVoice die aktiven Vokabulare und die letzten Spracheingaben an. Falls eine Spracheingabe einem Kommando sehr ähnelte, aber XVoice sich nicht sicher genug ist, wird dies im Übersichtsfenster grau unterlegt angezeigt. Eine Aktion wird aber nicht ausgeführt. Innerhalb einer Anwendung ist XVoice in einem von vier Zuständen. Im Kommandomodus wird nur auf Befehle aus dem Vokabular reagiert. Im Diktiermodus werden nur generelle Kommandos beachtet, ansonsten wird jede Spracheingabe einfach aufgeschrieben. Im Untätig-Modus werden nur generelle Befehle ausgeführt. Im vierten, dem Diktier- und Kommandomodus werden beide Modi kombiniert. Um in diesem Modus Kommandos zu erkennen muss vor und nach jedem Kommando eine Pause gelassen werden.[21] Zusammenfassend kann man sagen, das XVoice durch die verschiedenen Modi sowohl kontinuierliche wie auch diskrete Spracheingabe unterstützt. Gleichzeitig kann, durch die Modi einerseits ein möglichst kleines, auf die jeweilige Anwendung abgestimmtes Vokabular verwendet werden und andererseits mit Hilfe des umfangreiches Vokabulars die Texteingabe realisiert werden. Die Spracherkennung erfolgt dabei sprecherabhängig. Um bestmögliche Ergebnisse zu erzielen sollte ViaVoice, auf dem XVoice basiert, vor der Arbeit trainiert werden. 4.2 kommerzielle Anwendungen 4.2.1 Dragon Naturally Speaking Dragon Naturally Speaking wird von Nuance entwickelt. Es bietet Spracheingabe, Sprachsteuerung und fließende Sprachausgabe von Texten in einem. Die Spracheingabe bietet die Möglichkeit Texte auf Deutsch oder Englisch zu diktieren. Dies soll laut Hersteller dreimal schneller als mit der Tastatur funktionieren. Dabei kann eine Erkennungsrate von bis zu 99Prozent erreicht werden. Der Spracherkenner muss vor Beginn der Arbeit nicht trainiert werden. Während der Arbeit legt das Programm allerdings automatisch ein Nutzerprofil an und verfeinert es fortlaufend, um die Fehlerrate zu senken. Zusätzlich zur Diktierfunktion sollen mit Dragon Naturally Speaking auch die meisten Windows XP und 2000 Anwendungen und die Maus per Spracheingabe steuerbar sein. Außerdem kann der Nutzer
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78:
Abbildungsverzeichnis 75 Abbildungs
Alle anzeigen

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?