31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4 Zusammenfassung<br />

4 Zusammenfassung<br />

An dieser Stelle soll die Aufgabenstellung noch einmal ins Gedächtnis zurückgerufen werden: Die<br />

Aufgabe war es, die vorhandene VoiceXML‐Plattform, genannt Friedberger Sprachserver (FBSV), um<br />

eine Voice‐over‐IP (VoIP)‐Komponente zu erweitern, so dass der Sprachserver auch als automatisier‐<br />

ter Telefon‐Sprachdienst genutzt werden kann. Ferner sollte ein Dialog erstellt werden, mit der die<br />

Funktion des Systems demonstriert werden kann.<br />

Bevor mit der Arbeit begonnen wurde, stand noch nicht fest, ob sich das gewünschte Ziel auf diese<br />

Weise und mit vertretbarem Aufwand umsetzen ließe. Nach einer anfänglichen Phase des Ausprobie‐<br />

rens stellte sich dann aber rasch der erste Erfolg ein. Die über das Netzwerk eingehenden Sprachda‐<br />

ten konnten erfolgreich an den Spracherkenner umgeleitet werden. Zu diesem Zeitpunkt war klar,<br />

dass die Umsetzung des Konzeptes möglich ist. Da die Umleitung der ausgehenden Sprachdaten ei‐<br />

nen dazu analogen Prozess darstellt, war mit keinen neuen Problemen zu rechnen.<br />

Der Umfang des für die VoIP‐Anbindung benötigten Programmcodes ist relativ gering. Der aufwändi‐<br />

gere Teil war die Analyse des vorhandenen Quellcodes, um den internen Fluss der Sprachdaten zu<br />

verstehen und eine geeignete Stelle zu finden, wo die Daten eingespeist bzw. abgegriffen werden<br />

konnten.<br />

Nachdem die Verbindung zwischen Sprachserver und VoIP‐Client stand, musste das Format der Au‐<br />

diodaten angepasst werden. Dazu mussten nur ein paar Parameter geändert werden.<br />

Durch die Verwendung des Codecs G.711 bei der Audioübertragung entsteht kaum ein Qualitätsver‐<br />

lust. Die Daten werden zwar etwas reduziert, aber es entstehen dabei keine Kompressionsartefakte,<br />

die sich negative auf die Erkennung auswirken könnten.<br />

Probleme bereitete die Umstellung der Abtastrate von 16 kHz auf 8 kHz. Die Hidden Markov Modelle<br />

mussten nochmal mit Eingangsdaten in 8 kHz erstellt und trainiert werden. Die Konfiguration des<br />

Erkenners musste entsprechend angepasst werden. Durch die Umstellung auf 8 kHz sank die Erken‐<br />

nungsrate um wenige Prozent (etwa um 2 – 3 %).<br />

Die Erkennung funktionierte soweit auch über eine Telefonverbindung und es konnte mit der Ent‐<br />

wicklung eines Beispieldialoges begonnen werden. Als Szenario für den Beispieldialog wurde ein FH<br />

Informationsdienst gewählt. Der Dialog wurde dabei in VoiceXML unter Zuhilfenahme eines einfa‐<br />

chen Texteditors erstellt. Die speziellen Funktionen des Dienstes wurden mit JavaScript‐Funktionen<br />

simuliert, z.B. wird bei der Notenauskunft eine Datenbankabfrage simuliert.<br />

Für den Dialog war es nötig, den Erkenner von Wortbasierter Erkennung auf Phonembasierte Erken‐<br />

nung umzustellen, da sonst nur die wenigen Worte zu erkennen gewesen wären, für die auch Model‐<br />

le erstellt und trainiert worden wären. Jetzt konnten alle Worte erkannt werden, deren Aussprache<br />

im Wörterbuch hinterlegt war. Die Aussprache der einzelnen Worte wurde aus dem bestehenden<br />

Wörterbuch Hadi‐Bomp entnommen.<br />

Durch die Umstellung auf Phonembasierte Erkennung zeigte sich dann der größte Einbruch in der<br />

Erkennungsrate. In einigen Spracheingabe‐Menüs wurden bestimmte Optionen bevorzugt, während<br />

andere Optionen kaum erkannt wurden.<br />

102

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!