Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
7. AUSWAHL EINES SPRACHERKENNERS 48<br />
Ergebnis möglich.<br />
Auch der jlab SpeechServer des IAS bietet einen fertigen Spracherkenner. Dieser arbeitet auf Kommandozeilenebene<br />
und besitzt schon vordefinierte Schnittstellen. Es gibt eine fertige in JAVA geschriebene<br />
Anwendung, bestehend aus einem dem Server und einer Client-Webseite, auf der der Server getestet<br />
werden kann. Dort können unter anderem Vokabulare geladen werden, man kann eigene Spracheingaben<br />
machen und die eigenen Vokabulare mit Hilfe von Sprachaufnahmen automatisch längeren Tests unterziehen.<br />
Der Speech Server ist allerdings nur auf die deutsche Sprache trainiert. Die Antwortzeiten sind<br />
zwar recht lang, je nachdem, wie gut man das Vokabular eingestellt hat, liefert der SpeechServer aber<br />
gute Erkennungsergebnisse. Darin liegt auch der besondere Vorteil des SpeechServers, da nie eine Trainingsphase<br />
nötig ist. Der Server kann auf Kommandozeilenebene initialisiert werden. Dort muss man<br />
lediglich einen Pfad für die Konfigurationsdatei und eine Session ID angeben. Optional sind auch noch<br />
weitere Einstellungen möglich. Danach kann man mit Hilfe einiger weniger Funktionen neue Vokabulare<br />
laden, Sprachdaten an den Server senden und bekommt die entsprechenden Erkennungsergebnisse<br />
zurück.<br />
Die Ergebnisse werden noch einmal in Tabelle 7.1 dargestellt.<br />
Erkenner CMU Sphinx Microsoft Speech API jlab SpeechServer<br />
bereit zur Nutzung nein ja ja<br />
Sprache englisch versch. Sprachen mögl. deutsch<br />
Spracheingabe diskret diskret diskret<br />
kontinuierlich<br />
Eingangstraining nein ja nein<br />
Mehrbenutzerbetrieb ja nein ja<br />
Erkennungsergebnis mittelmäßig gut gut<br />
(sehr gut mit Training)<br />
Tabelle 7.1: Übersicht über die Eigenschaften von CMU Sphinx, MS SAPI und jlab<br />
Da für Sphinx der eigentliche Erkenner erst erstellt werden muss und die Erkennungsergebnisse in den<br />
Beispielen nicht überragend waren, kommt dieser Erkenner nicht in die engere Wahl für eine Schnittstelle.<br />
Die Entscheidung zwischen der SAPI und jlab fällt hingegen schon schwerer. Jlab bietet zwar etwas bessere<br />
Erkennungsergebnisse, dafür ist das Erstellen des Vokabulars in Phonemschrift besonders schwierig<br />
und die Eingabe auf die deutsch Sprache beschränkt. Durch die höhere Erkennungsgeschwindigkeit und<br />
bessere Dokumentation fällt die Wahl am Ende auf die SAPI von Microsoft. Im folgenden Kapitel wird