Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5. FREI VERFÜGBARE SPRACHERKENNER 37<br />
Abbildung 5.5: Die jlab Speech Server Architektur nach [27]<br />
5.3.3 Funktion<br />
Bevor mit der Spracheingabe begonnen werden kann, muss der Client dem Server ein Vokabular übergeben.<br />
Darin finden sich die zu erkennenden Befehle und verschiedene Rückweisungswerte. Genauere<br />
Informationen zum Vokabular finden sich in Abschnitt 5.3.4. Aus dem Vokabular erstellt Server nun ein<br />
Erkennungsnetzwerk. Außerdem steht dem Erkenner das akustische Model der Eingabesprache zur Verfügung.<br />
Um nun eine Eingabe zu erkennen wird das Sprachsignal in einem ersten Schritt, durch verschiedene<br />
Filter analysiert. Dadurch entsteht eine Folge von Merkmalsvektoren, die das Signal beschreiben.<br />
Mit Hilfe des akustischen Models wird aus der Vektorfolge eine Netzwerk aus möglichen Phonemfolgen<br />
erstellt. Aus diesem Netzwerk wiederum, werden unter Zuhilfenahme des Erkennungsnetzwerks die<br />
Erkennungsergebnisse generiert. Außerdem werden Vertraulichkeitswerte berechnet, die angeben wie<br />
sicher sich der Erkenner bei den einzelnen Ergebnissen war. In einem letzten Schritt werden all diese<br />
Ergebnisse bezüglich ihres Vertraulichkeitswertes und der im Vokabular angegeben Rückweisungswerte<br />
ausgewertet. Am Ende wurden entweder alle Ergebnisse verworfen oder das endgültige Ergebnis an den<br />
Client gesandt. [27]<br />
5.3.4 Vokabular<br />
Vokabulare in jlab werden in einfachen txt-Dateien angegeben die je nach Bedarf in den Erkenner geladen<br />
werden. Ein Vokabular besteht dabei aus mehreren Befehlszeilen. Jede Zeile enthält an erster Stelle<br />
die orthographische Beschreibung des Befehls. Dieser Wert wird, neben verschiedenen statistischen Ergebnissen,<br />
vom Erkenner zurück geliefert. Er kann sich auch in mehreren Zeilen wiederholen, was als<br />
verschiedene Aussprachevarianten ein und des selben Befehls interpretiert wird. An zweiter Stelle wird