DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4 Zusammenfassung<br />
4 Zusammenfassung<br />
An dieser Stelle soll die Aufgabenstellung noch einmal ins Gedächtnis zurückgerufen werden: Die<br />
Aufgabe war es, die vorhandene VoiceXML‐Plattform, genannt Friedberger Sprachserver (FBSV), um<br />
eine Voice‐over‐IP (VoIP)‐Komponente zu erweitern, so dass der Sprachserver auch als automatisier‐<br />
ter Telefon‐Sprachdienst genutzt werden kann. Ferner sollte ein Dialog erstellt werden, mit der die<br />
Funktion des Systems demonstriert werden kann.<br />
Bevor mit der Arbeit begonnen wurde, stand noch nicht fest, ob sich das gewünschte Ziel auf diese<br />
Weise und mit vertretbarem Aufwand umsetzen ließe. Nach einer anfänglichen Phase des Ausprobie‐<br />
rens stellte sich dann aber rasch der erste Erfolg ein. Die über das Netzwerk eingehenden Sprachda‐<br />
ten konnten erfolgreich an den Spracherkenner umgeleitet werden. Zu diesem Zeitpunkt war klar,<br />
dass die Umsetzung des Konzeptes möglich ist. Da die Umleitung der ausgehenden Sprachdaten ei‐<br />
nen dazu analogen Prozess darstellt, war mit keinen neuen Problemen zu rechnen.<br />
Der Umfang des für die VoIP‐Anbindung benötigten Programmcodes ist relativ gering. Der aufwändi‐<br />
gere Teil war die Analyse des vorhandenen Quellcodes, um den internen Fluss der Sprachdaten zu<br />
verstehen und eine geeignete Stelle zu finden, wo die Daten eingespeist bzw. abgegriffen werden<br />
konnten.<br />
Nachdem die Verbindung zwischen Sprachserver und VoIP‐Client stand, musste das Format der Au‐<br />
diodaten angepasst werden. Dazu mussten nur ein paar Parameter geändert werden.<br />
Durch die Verwendung des Codecs G.711 bei der Audioübertragung entsteht kaum ein Qualitätsver‐<br />
lust. Die Daten werden zwar etwas reduziert, aber es entstehen dabei keine Kompressionsartefakte,<br />
die sich negative auf die Erkennung auswirken könnten.<br />
Probleme bereitete die Umstellung der Abtastrate von 16 kHz auf 8 kHz. Die Hidden Markov Modelle<br />
mussten nochmal mit Eingangsdaten in 8 kHz erstellt und trainiert werden. Die Konfiguration des<br />
Erkenners musste entsprechend angepasst werden. Durch die Umstellung auf 8 kHz sank die Erken‐<br />
nungsrate um wenige Prozent (etwa um 2 – 3 %).<br />
Die Erkennung funktionierte soweit auch über eine Telefonverbindung und es konnte mit der Ent‐<br />
wicklung eines Beispieldialoges begonnen werden. Als Szenario für den Beispieldialog wurde ein FH<br />
Informationsdienst gewählt. Der Dialog wurde dabei in VoiceXML unter Zuhilfenahme eines einfa‐<br />
chen Texteditors erstellt. Die speziellen Funktionen des Dienstes wurden mit JavaScript‐Funktionen<br />
simuliert, z.B. wird bei der Notenauskunft eine Datenbankabfrage simuliert.<br />
Für den Dialog war es nötig, den Erkenner von Wortbasierter Erkennung auf Phonembasierte Erken‐<br />
nung umzustellen, da sonst nur die wenigen Worte zu erkennen gewesen wären, für die auch Model‐<br />
le erstellt und trainiert worden wären. Jetzt konnten alle Worte erkannt werden, deren Aussprache<br />
im Wörterbuch hinterlegt war. Die Aussprache der einzelnen Worte wurde aus dem bestehenden<br />
Wörterbuch Hadi‐Bomp entnommen.<br />
Durch die Umstellung auf Phonembasierte Erkennung zeigte sich dann der größte Einbruch in der<br />
Erkennungsrate. In einigen Spracheingabe‐Menüs wurden bestimmte Optionen bevorzugt, während<br />
andere Optionen kaum erkannt wurden.<br />
102