Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

5. FREI VERFÜGBARE SPRACHERKENNER 34 wertung eines Pfades an einem bestimmten Punkt innerhalb des Search Graph, eine Referenz auf den aktuellen Zustand, eine Referenz auf das eingegebene Merkmal und andere nützliche Informationen. Durch den Zustand kann der Search Manager einen Token mit seinem dazugehörigen Zustandsverlauf, den kontextabhängigen phonetischen Einheiten, Aussprachen, Wörtern und Grammatikzuständen in Verbindung bringen. Jede Teilannahme endet an einem aktiven Token. Sphinx-4 bietet ein sub-framework das Search Manager unterstützt die aus Active List, Pruner und Scorer bestehen. Die Active List wird aus allen, im Moment aktiven Token generiert. Dabei wird die Anzahl der aktiven Token reduziert, indem der Pruner Token löscht, die sich in einem Endzustand befinden, obwohl noch weitere Merkmalsvektoren eintreffen. Der Search Manager kommuniziert auch mit dem Scorer. Wenn eine Bewertung vom Scorer angefordert wird, bekommt dieser Zugriff auf den aktuellen Merkmalsvektor und führt darauf Berechnungen aus. [26] 5.2 Microsoft Speech API 5.2.1 Allgemeines Die Speech API wurde von Microsoft entwickelt um Spracherkennung und Sprachsynthese in Windows Anwendungen nutzbar zu machen. Alle Versionen wurden so entworfen, dass Software Entwickler nach belieben Anwendungen dafür schreiben können. Dazu wird ein standardisiertes Interfaces genutzt, auf das mit vielen verschiedenen Programmiersprachen zugegriffen werden kann. Außerdem können Fremdfirmen ihre eigenen Spracherkenner und TTS Engines erstellen oder existierende anpassen, um mit der SAPI zu arbeiten. Solange diese Engines konform zu den von Microsoft unterstützten sind, können sie auch an deren Stelle treten. Die Speech API ist frei weitergebbar und kann mit jeder Windows Anwendung vergeben werden, die Sprachtechnologien nutzen will. [24] Hier ein kurzer Überblick über Anwendungen, die die SAPI nutzen: • Microsoft Narrator in Windows 2000 und höher • Microsoft Office XP • Microsoft Windows XP für Tablet PC • Microsoft Agent • Microsoft Speech Server • Microsoft Voice Command • Microsoft Plus! Voice Command für den Windows Media Player
5. FREI VERFÜGBARE SPRACHERKENNER 35 • Bonzi Buddy • Dragon Naturally Speaking • Adobe Reader [24] 5.2.2 Aufbau Die SAPI verfügt über Spracherkennung und Sprachsynthese. Im Rahmen dieser Arbeit soll nur auf die Spracherkennung eingegangen werden. Die Abbildung 5.4 zeigt den Aufbau des Spracherkenners der Speech API. Abbildung 5.4: Aufbau des Speech API Spracherkenners nach [19] 5.<strong>2.3</strong> Funktion Die Spracheingabe des Nutzers wird zunächst digitalisiert. Diese Audiodaten werden dann im Frequenzanalysemodul in ein passenderes Format umgewandelt. Dies beinhaltet einen Großteil der Signalverarbeitung. Die größte Herausforderung besteht darin, die nützlichen Informationen aus dem Audiosignal zu extrahieren. Als nächstes werden die umgewandelten Daten durch das Phonemerkennungsmodul in Phoneme zerlegt. Dazu durchsucht das Modul eine ’Sound to Phonem’ Datenbank nach einem Phonem, das am ehesten dem Eingegebenen entspricht. Jeder Datenbankeintrag beinhaltet ein Template. Es beschreibt wie dieses Phonem klingt. Da das Vergleichen vieler Phoneme sehr lange dauern kann, gibt es das Phonemvorhersagemodul. Es reduziert die Anzahl der möglichen folgenden Phoneme in Bezug auf
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 35: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?