29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5. FREI VERFÜGBARE SPRACHERKENNER 36<br />

den vorhandenen Kontext. So gibt es zum Beispiel Phoneme die nur sehr selten an Wortanfängen stehen<br />

oder Phoneme die nie oder nur selten aufeinander folgen. Trotz dieser Verbesserung dauert die Spracherkennung<br />

noch zu lange. Um die Liste der möglichen Phonemkandidaten weiter zu verkleinern gibt es<br />

zusätzlich die Wortvorhersagedatenbank. Mit ihrer Hilfe werden Phoneme eliminiert, die keine gültigen<br />

Wörter ergeben. Indem man das Vokabular zusätzlich noch auf die Wörter beschränkt, die man wirklich<br />

benötigt, kann man die Erkennungsgeschwindigkeit weiter erhöhen. Sobald Phoneme erkannt sind,<br />

werden sie in Wörter geparst, in Text Strings umgewandelt und an die Anwendung weiter gegeben.[19]<br />

5.3 jlab Speech Server<br />

5.3.1 Allgemeines<br />

Der jlab Speech Server wurde im Jahre 2003 am Institut für Akustik und Sprachkommunikation (IAS)<br />

der TU <strong>Dresden</strong> entwickelt und seit dem immer weiter verbessert. Obwohl jlab unter frei verfügbare<br />

Spracherkenner aufgeführt ist, darf er nur mit Genehmigung des IAS genutzt werden und ist nur dort erhältlich.<br />

Der Erkenner arbeitet ausschließlich auf deutsch. Die Erkennung läuft sprecherunabhängig ab,<br />

wodurch ein zeitraubendes Eingangstraining für den Nutzer entfällt. Dadurch ist der jlab Speech Server<br />

ist immer sofort einsetzbar. Um die Erkennungsrate zu verbessern, sollten Wörterbücher mit den Sprachkommandos<br />

so klein wie möglich gehalten werden, so dass immer nur das minimal nötige Vokabular<br />

geladen ist. Damit keine Verzögerungen auftreten ermöglicht der jlab Speech Server einen schnellen<br />

Wechsel zwischen den Wörterbüchern.<br />

Auf Basis des jlab Speech Servers wurden unter anderem schon die Diplomarbeiten ’Sprachsteuerung<br />

eines Computerspiels - Untersuchungen zur Leistungsfähigkeit und Ergonomie’ [20] und ’Konzeption,<br />

Realisierung und Evaluation einer multimodalen Benutzungsoberfläche für PDA-basierte Software’ [22]<br />

verfasst, sowie eine Web-basierte Lernumgebung entwickelt. [27]<br />

5.3.2 Aufbau<br />

Der Grobaufbau des jlab Speech Server wird in Abbildung 5.5 gezeigt. Er kümmert sich um das Sitzungs-<br />

, Netzwerk- und Sicherheitsmanagement und bietet Dienste zur Sprachsynthese, Sprechererkennung und<br />

Spracherkennung. Im Folgenden wird es aber nur um die Spracherkennung gehen. Zum Speech Server<br />

gehört natürlich noch ein Client, der je nach Anwendung erstellt werden muss. Er ist dafür zuständig,<br />

beim Server eine neue Sitzung zu registrieren und das genutzte Vokabular, sowie alle Spracheingaben an<br />

den Server zu übermitteln. Außerdem muss er noch auf die Erkennungsergebnisse reagieren. [27]

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!