DIPLOMARBEIT

Weitere Magazine

Empfehlungen

Info

4 Zusammenfassung 4 Zusammenfassung An dieser Stelle soll die Aufgabenstellung noch einmal ins Gedächtnis zurückgerufen werden: Die Aufgabe war es, die vorhandene VoiceXML‐Plattform, genannt Friedberger Sprachserver (FBSV), um eine Voice‐over‐IP (VoIP)‐Komponente zu erweitern, so dass der Sprachserver auch als automatisier‐ ter Telefon‐Sprachdienst genutzt werden kann. Ferner sollte ein Dialog erstellt werden, mit der die Funktion des Systems demonstriert werden kann. Bevor mit der Arbeit begonnen wurde, stand noch nicht fest, ob sich das gewünschte Ziel auf diese Weise und mit vertretbarem Aufwand umsetzen ließe. Nach einer anfänglichen Phase des Ausprobie‐ rens stellte sich dann aber rasch der erste Erfolg ein. Die über das Netzwerk eingehenden Sprachda‐ ten konnten erfolgreich an den Spracherkenner umgeleitet werden. Zu diesem Zeitpunkt war klar, dass die Umsetzung des Konzeptes möglich ist. Da die Umleitung der ausgehenden Sprachdaten ei‐ nen dazu analogen Prozess darstellt, war mit keinen neuen Problemen zu rechnen. Der Umfang des für die VoIP‐Anbindung benötigten Programmcodes ist relativ gering. Der aufwändi‐ gere Teil war die Analyse des vorhandenen Quellcodes, um den internen Fluss der Sprachdaten zu verstehen und eine geeignete Stelle zu finden, wo die Daten eingespeist bzw. abgegriffen werden konnten. Nachdem die Verbindung zwischen Sprachserver und VoIP‐Client stand, musste das Format der Au‐ diodaten angepasst werden. Dazu mussten nur ein paar Parameter geändert werden. Durch die Verwendung des Codecs G.711 bei der Audioübertragung entsteht kaum ein Qualitätsver‐ lust. Die Daten werden zwar etwas reduziert, aber es entstehen dabei keine Kompressionsartefakte, die sich negative auf die Erkennung auswirken könnten. Probleme bereitete die Umstellung der Abtastrate von 16 kHz auf 8 kHz. Die Hidden Markov Modelle mussten nochmal mit Eingangsdaten in 8 kHz erstellt und trainiert werden. Die Konfiguration des Erkenners musste entsprechend angepasst werden. Durch die Umstellung auf 8 kHz sank die Erken‐ nungsrate um wenige Prozent (etwa um 2 – 3 %). Die Erkennung funktionierte soweit auch über eine Telefonverbindung und es konnte mit der Ent‐ wicklung eines Beispieldialoges begonnen werden. Als Szenario für den Beispieldialog wurde ein FH Informationsdienst gewählt. Der Dialog wurde dabei in VoiceXML unter Zuhilfenahme eines einfa‐ chen Texteditors erstellt. Die speziellen Funktionen des Dienstes wurden mit JavaScript‐Funktionen simuliert, z.B. wird bei der Notenauskunft eine Datenbankabfrage simuliert. Für den Dialog war es nötig, den Erkenner von Wortbasierter Erkennung auf Phonembasierte Erken‐ nung umzustellen, da sonst nur die wenigen Worte zu erkennen gewesen wären, für die auch Model‐ le erstellt und trainiert worden wären. Jetzt konnten alle Worte erkannt werden, deren Aussprache im Wörterbuch hinterlegt war. Die Aussprache der einzelnen Worte wurde aus dem bestehenden Wörterbuch Hadi‐Bomp entnommen. Durch die Umstellung auf Phonembasierte Erkennung zeigte sich dann der größte Einbruch in der Erkennungsrate. In einigen Spracheingabe‐Menüs wurden bestimmte Optionen bevorzugt, während andere Optionen kaum erkannt wurden. 102
4 Zusammenfassung Die Ursache dafür ist, dass beim Training der Phonemmodelle nur eine geringe Menge an Trainings‐ material verwendet wurde. Für gute Erkennungsergebnisse muss das Training entweder mit umfang‐ reichem allgemeinem Material durchgeführt werden oder es muss Material verwendet werden, wel‐ ches dem späteren Einsatzgebiet entspricht. Besonders die Durchführung des Anmeldedialogs gestaltete sich mit der mäßigen Erkennungsrate schwierig. Für Abhilfe sollte hier ein DTMF‐Erkenner sorgen. Dual Tone Multiple Frequency (DTMF) ist ein Verfahren zur Übertragung der gewählten Rufnummer oder auch der gedrückten Tasten. Der Benutzer hat also die Möglichkeit, Ziffernfolgen wie Matrikel‐Nr. und PIN direkt über die Tastatur einzugeben. Die DTMF‐Erkennung kann aber auch für normale Dialogmenüs verwendet werden, in‐ dem das Drücken einer Taste einer bestimmten Option zugewiesen wird. Die Implementierung des DTMF‐Erkenners gestaltete sich einfach. Für die eigentliche Signalanalyse wurde ein externes Programm hinzugezogen. Der Sprachserver hat die aufgezeichnete Audiodatei an das Programm übergeben und anschließend das Ergebnis aus einer Datei eingelesen. Abschließend kann man sagen, dass die VoiceXML‐Plattform durch die VoIP‐Anbindung zu einem vollwertigen Sprachdialogsystem wurde, das auch über das Telefon erreichbar ist. Die Verbindung kann sowohl online über VoIP, als auch über das Festnetz mittels SIP‐Gateway hergestellt werden. Bevor das System in der Praxis eingesetzt werden kann, sollten aber noch bessere Phonemmodelle organisiert werden. 103
Seite 1 und 2:
DIPLOMARBEIT Fachgebiet der Diploma
Seite 3 und 4:
Inhaltsverzeichnis Inhaltsverzeichn
Seite 5 und 6:
Inhaltsverzeichnis 3.2.2.2 Die wich
Seite 7 und 8:
1 Aufgabenstellung 1 Aufgabenstellu
Seite 9 und 10:
2.1 Voice‐over‐IP 2 Grundlagen
Seite 11 und 12:
2.1 Voice‐over‐IP Adresse in de
Seite 13 und 14:
2.1 Voice‐over‐IP 2.1.5 Problem
Seite 15 und 16:
2.1 Voice‐over‐IP Nachteile Tei
Seite 17 und 18:
2.2 Session Initiation Protocol (SI
Seite 19 und 20:
2.2 Session Initiation Protocol (SI
Seite 21 und 22:
2.3 Spracherkennung 2.3.3 Anwendung
Seite 23 und 24:
2.3 Spracherkennung 2.3.4.2 Signala
Seite 25 und 26:
2.3 Spracherkennung Ein Phonem‐Mo
Seite 27 und 28:
2.3 Spracherkennung Zunächst wird
Seite 29 und 30:
2.4 Sprachsynthese Die Entwicklung
Seite 31 und 32:
2.4 Sprachsynthese Ziel‐Prosodie
Seite 33 und 34:
2.5 VoiceXML 2.5.4 Weitere VoiceXML
Seite 35 und 36:
3.1 Rahmenbedingungen 3 Implementie
Seite 37 und 38:
3.2 Vorstellung der Komponenten Das
Seite 39 und 40:
3.2 Vorstellung der Komponenten Bei
Seite 41 und 42:
3.2 Vorstellung der Komponenten 3.2
Seite 43 und 44:
3.2 Vorstellung der Komponenten 3.
Seite 45 und 46:
3.2 Vorstellung der Komponenten 3.2
Seite 47 und 48:
3.3 Vorbereitungen Die Archivdatei
Seite 49 und 50:
3.3 Vorbereitungen Im Dialog System
Seite 51 und 52: 3.3 Vorbereitungen Auf dem Entwickl
Seite 53 und 54: 3.3 Vorbereitungen Abbildung 33: Im
Seite 55 und 56: 3.3 Vorbereitungen Abbildung 36: Au
Seite 57 und 58: 3.3 Vorbereitungen Nun kann der Que
Seite 59 und 60: 3.3 Vorbereitungen Abbildung 40: Ei
Seite 61 und 62: 3.4 Verbinden der Komponenten Als n
Seite 63 und 64: 3.4 Verbinden der Komponenten 3.4.1
Seite 65 und 66: 3.4 Verbinden der Komponenten 3.4.1
Seite 67 und 68: 3.4 Verbinden der Komponenten numBy
Seite 69 und 70: 3.4 Verbinden der Komponenten // nu
Seite 71 und 72: 3.4 Verbinden der Komponenten Die I
Seite 73 und 74: 3.4 Verbinden der Komponenten Die A
Seite 75 und 76: 3.4 Verbinden der Komponenten Abbil
Seite 77 und 78: 3.4 Verbinden der Komponenten Nach
Seite 79 und 80: 3.5 Anpassung Wort‐basierte Erken
Seite 81 und 82: 3.5 Anpassung Drückt der Benutzer
Seite 83 und 84: 3.5 Anpassung Ist eine DTMF‐Erken
Seite 85 und 86: 3.6 Erstellen eines Beispieldialogs
Seite 101: 3.6 Erstellen eines Beispieldialogs
Seite 105 und 106: 5 Verbesserungsmöglichkeiten Mehrb
Seite 107 und 108: 6 Literaturverzeichnis [Spr08] —.
Seite 109 und 110: 7 Abbildungsverzeichnis 7 Abbildung
Seite 111 und 112: Anhang Anhang A Inhalt der CD Die n
Alle anzeigen

DIPLOMARBEIT

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?