Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

5. FREI VERFÜGBARE SPRACHERKENNER 36 den vorhandenen Kontext. So gibt es zum Beispiel Phoneme die nur sehr selten an Wortanfängen stehen oder Phoneme die nie oder nur selten aufeinander folgen. Trotz dieser Verbesserung dauert die Spracherkennung noch zu lange. Um die Liste der möglichen Phonemkandidaten weiter zu verkleinern gibt es zusätzlich die Wortvorhersagedatenbank. Mit ihrer Hilfe werden Phoneme eliminiert, die keine gültigen Wörter ergeben. Indem man das Vokabular zusätzlich noch auf die Wörter beschränkt, die man wirklich benötigt, kann man die Erkennungsgeschwindigkeit weiter erhöhen. Sobald Phoneme erkannt sind, werden sie in Wörter geparst, in Text Strings umgewandelt und an die Anwendung weiter gegeben.[19] 5.3 jlab Speech Server 5.3.1 Allgemeines Der jlab Speech Server wurde im Jahre 2003 am Institut für Akustik und Sprachkommunikation (IAS) der TU <strong>Dresden</strong> entwickelt und seit dem immer weiter verbessert. Obwohl jlab unter frei verfügbare Spracherkenner aufgeführt ist, darf er nur mit Genehmigung des IAS genutzt werden und ist nur dort erhältlich. Der Erkenner arbeitet ausschließlich auf deutsch. Die Erkennung läuft sprecherunabhängig ab, wodurch ein zeitraubendes Eingangstraining für den Nutzer entfällt. Dadurch ist der jlab Speech Server ist immer sofort einsetzbar. Um die Erkennungsrate zu verbessern, sollten Wörterbücher mit den Sprachkommandos so klein wie möglich gehalten werden, so dass immer nur das minimal nötige Vokabular geladen ist. Damit keine Verzögerungen auftreten ermöglicht der jlab Speech Server einen schnellen Wechsel zwischen den Wörterbüchern. Auf Basis des jlab Speech Servers wurden unter anderem schon die Diplomarbeiten ’Sprachsteuerung eines Computerspiels - Untersuchungen zur Leistungsfähigkeit und Ergonomie’ [20] und ’Konzeption, Realisierung und Evaluation einer multimodalen Benutzungsoberfläche für PDA-basierte Software’ [22] verfasst, sowie eine Web-basierte Lernumgebung entwickelt. [27] 5.3.2 Aufbau Der Grobaufbau des jlab Speech Server wird in Abbildung 5.5 gezeigt. Er kümmert sich um das Sitzungs- , Netzwerk- und Sicherheitsmanagement und bietet Dienste zur Sprachsynthese, Sprechererkennung und Spracherkennung. Im Folgenden wird es aber nur um die Spracherkennung gehen. Zum Speech Server gehört natürlich noch ein Client, der je nach Anwendung erstellt werden muss. Er ist dafür zuständig, beim Server eine neue Sitzung zu registrieren und das genutzte Vokabular, sowie alle Spracheingaben an den Server zu übermitteln. Außerdem muss er noch auf die Erkennungsergebnisse reagieren. [27]
5. FREI VERFÜGBARE SPRACHERKENNER 37 Abbildung 5.5: Die jlab Speech Server Architektur nach [27] 5.3.3 Funktion Bevor mit der Spracheingabe begonnen werden kann, muss der Client dem Server ein Vokabular übergeben. Darin finden sich die zu erkennenden Befehle und verschiedene Rückweisungswerte. Genauere Informationen zum Vokabular finden sich in Abschnitt 5.3.4. Aus dem Vokabular erstellt Server nun ein Erkennungsnetzwerk. Außerdem steht dem Erkenner das akustische Model der Eingabesprache zur Verfügung. Um nun eine Eingabe zu erkennen wird das Sprachsignal in einem ersten Schritt, durch verschiedene Filter analysiert. Dadurch entsteht eine Folge von Merkmalsvektoren, die das Signal beschreiben. Mit Hilfe des akustischen Models wird aus der Vektorfolge eine Netzwerk aus möglichen Phonemfolgen erstellt. Aus diesem Netzwerk wiederum, werden unter Zuhilfenahme des Erkennungsnetzwerks die Erkennungsergebnisse generiert. Außerdem werden Vertraulichkeitswerte berechnet, die angeben wie sicher sich der Erkenner bei den einzelnen Ergebnissen war. In einem letzten Schritt werden all diese Ergebnisse bezüglich ihres Vertraulichkeitswertes und der im Vokabular angegeben Rückweisungswerte ausgewertet. Am Ende wurden entweder alle Ergebnisse verworfen oder das endgültige Ergebnis an den Client gesandt. [27] 5.3.4 Vokabular Vokabulare in jlab werden in einfachen txt-Dateien angegeben die je nach Bedarf in den Erkenner geladen werden. Ein Vokabular besteht dabei aus mehreren Befehlszeilen. Jede Zeile enthält an erster Stelle die orthographische Beschreibung des Befehls. Dieser Wert wird, neben verschiedenen statistischen Ergebnissen, vom Erkenner zurück geliefert. Er kann sich auch in mehreren Zeilen wiederholen, was als verschiedene Aussprachevarianten ein und des selben Befehls interpretiert wird. An zweiter Stelle wird
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 37: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?