Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
5. FREI VERFÜGBARE SPRACHERKENNER 35<br />
• Bonzi Buddy<br />
• Dragon Naturally Speaking<br />
• Adobe Reader<br />
[24]<br />
5.2.2 Aufbau<br />
Die SAPI verfügt über Spracherkennung und Sprachsynthese. Im Rahmen dieser Arbeit soll nur auf die<br />
Spracherkennung eingegangen werden. Die Abbildung 5.4 zeigt den Aufbau des Spracherkenners der<br />
Speech API.<br />
Abbildung 5.4: Aufbau des Speech API Spracherkenners nach [19]<br />
5.<strong>2.3</strong> Funktion<br />
Die Spracheingabe des Nutzers wird zunächst digitalisiert. Diese Audiodaten werden dann im Frequenzanalysemodul<br />
in ein passenderes Format umgewandelt. Dies beinhaltet einen Großteil der Signalverarbeitung.<br />
Die größte Herausforderung besteht darin, die nützlichen Informationen aus dem Audiosignal<br />
zu extrahieren. Als nächstes werden die umgewandelten Daten durch das Phonemerkennungsmodul in<br />
Phoneme zerlegt. Dazu durchsucht das Modul eine ’Sound to Phonem’ Datenbank nach einem Phonem,<br />
das am ehesten dem Eingegebenen entspricht. Jeder Datenbankeintrag beinhaltet ein Template. Es beschreibt<br />
wie dieses Phonem klingt. Da das Vergleichen vieler Phoneme sehr lange dauern kann, gibt es<br />
das Phonemvorhersagemodul. Es reduziert die Anzahl der möglichen folgenden Phoneme in Bezug auf