29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5. FREI VERFÜGBARE SPRACHERKENNER 37<br />

Abbildung 5.5: Die jlab Speech Server Architektur nach [27]<br />

5.3.3 Funktion<br />

Bevor mit der Spracheingabe begonnen werden kann, muss der Client dem Server ein Vokabular übergeben.<br />

Darin finden sich die zu erkennenden Befehle und verschiedene Rückweisungswerte. Genauere<br />

Informationen zum Vokabular finden sich in Abschnitt 5.3.4. Aus dem Vokabular erstellt Server nun ein<br />

Erkennungsnetzwerk. Außerdem steht dem Erkenner das akustische Model der Eingabesprache zur Verfügung.<br />

Um nun eine Eingabe zu erkennen wird das Sprachsignal in einem ersten Schritt, durch verschiedene<br />

Filter analysiert. Dadurch entsteht eine Folge von Merkmalsvektoren, die das Signal beschreiben.<br />

Mit Hilfe des akustischen Models wird aus der Vektorfolge eine Netzwerk aus möglichen Phonemfolgen<br />

erstellt. Aus diesem Netzwerk wiederum, werden unter Zuhilfenahme des Erkennungsnetzwerks die<br />

Erkennungsergebnisse generiert. Außerdem werden Vertraulichkeitswerte berechnet, die angeben wie<br />

sicher sich der Erkenner bei den einzelnen Ergebnissen war. In einem letzten Schritt werden all diese<br />

Ergebnisse bezüglich ihres Vertraulichkeitswertes und der im Vokabular angegeben Rückweisungswerte<br />

ausgewertet. Am Ende wurden entweder alle Ergebnisse verworfen oder das endgültige Ergebnis an den<br />

Client gesandt. [27]<br />

5.3.4 Vokabular<br />

Vokabulare in jlab werden in einfachen txt-Dateien angegeben die je nach Bedarf in den Erkenner geladen<br />

werden. Ein Vokabular besteht dabei aus mehreren Befehlszeilen. Jede Zeile enthält an erster Stelle<br />

die orthographische Beschreibung des Befehls. Dieser Wert wird, neben verschiedenen statistischen Ergebnissen,<br />

vom Erkenner zurück geliefert. Er kann sich auch in mehreren Zeilen wiederholen, was als<br />

verschiedene Aussprachevarianten ein und des selben Befehls interpretiert wird. An zweiter Stelle wird

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!