Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
9. ABSCHLIESSENDE BETRACHTUNGEN 63<br />
9 Abschließende Betrachtungen<br />
9.1 Resümee<br />
Zu Beginn dieser Arbeit wurden zunächst einige grundlegende Informationen über Spracheingabe und<br />
den Aufbau von Spracherkennern gegeben. Danach wurden einige momentan verfügbare Spracherkenner<br />
vorgestellt.<br />
Im Hauptteil dieser Arbeit wurden drei freie Erkenner vorgestellt und verglichen. Dabei handelte es sich<br />
zum einen um Sphinx von, unter Anderen, der Carnegie Mellon <strong>Universität</strong>. Dieser Erkenner bietet eine<br />
knappe Dokumentation und einige Beispielanwendungen. Der Nachteil ist, dass Sphinx eine Art Baukasten<br />
für Spracherkenner ist. Man hätte also zunächst seinen eigenen Erkenner aufbauen müssen, bevor<br />
man ihn in einer Anwendung nutzen kann. Sphinx ist in Java implementiert.<br />
Jlab vom Institut für Akustik und Sprachkommunikation der TU <strong>Dresden</strong> bietet einen fertigen Erkenner<br />
der für Befehlseingabe konzipiert ist und mit der deutschen Sprache arbeitet. Nachteilig wirkt sich bei<br />
Jlab das Vokabular aus. Durch das Angeben der Befehle in Phonemschrift ist es für Laien sehr schwer<br />
ein korrektes Vokabular zu erstellen. Außerdem kann sehr viel Feinarbeit nötig sein, um die Rückweisungsschwellen<br />
korrekt anzugeben, damit Verwechslungen durch den Erkenner ausgeschlossen werden.<br />
Der dritte Erkenner war die Microsoft Speech API. Sie bietet eine gute Dokumentation und eine Vielzahl<br />
von guten Beispielen zur Einarbeitung. Der Erkenner ist für Diktieranwendungen, sowie Befehlseingabe<br />
gedacht. Er arbeitet mit der englischen Sprache, es existieren aber Pakete für andere Sprachen. Außerdem<br />
handelt es sich bei der SAPI um den einzigen der drei Erkenner, der in C++ geschrieben ist.<br />
Im Anschluss daran wurden mit den Erkennern einige Tests durchgeführt. Bei der Befehlseingabe lag jlab<br />
mit 86,5Prozent Worterkennungsrate vor der SAPI mit 83,63Prozent. Am schlechtesten schnitt Sphinx,<br />
mit einer Rate von 72,71Prozent, ab. Letztendlich muss man sagen, dass dabei keiner der Erkenner<br />
wirklich überzeugende Ergebnisse geliefert hat. Anschließend wurde auch die Worterkennungsrate für<br />
die Diktieranwendung der SAPI getestet. Das mittlere Ergebnis dieses Tests lag bei 68,3Prozent. Danach<br />
wurden noch einmal alle drei Erkenner miteinander verglichen.<br />
Im letzten Kapitel dieses Belegs wurde eine Schnittstelle auf Basis der SAPI beschrieben. Die Schnittstelle<br />
versucht die SAPI spezifischen Merkmale zu verdecken um so eine einfachere Möglichkeit zu