29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

9. ABSCHLIESSENDE BETRACHTUNGEN 63<br />

9 Abschließende Betrachtungen<br />

9.1 Resümee<br />

Zu Beginn dieser Arbeit wurden zunächst einige grundlegende Informationen über Spracheingabe und<br />

den Aufbau von Spracherkennern gegeben. Danach wurden einige momentan verfügbare Spracherkenner<br />

vorgestellt.<br />

Im Hauptteil dieser Arbeit wurden drei freie Erkenner vorgestellt und verglichen. Dabei handelte es sich<br />

zum einen um Sphinx von, unter Anderen, der Carnegie Mellon <strong>Universität</strong>. Dieser Erkenner bietet eine<br />

knappe Dokumentation und einige Beispielanwendungen. Der Nachteil ist, dass Sphinx eine Art Baukasten<br />

für Spracherkenner ist. Man hätte also zunächst seinen eigenen Erkenner aufbauen müssen, bevor<br />

man ihn in einer Anwendung nutzen kann. Sphinx ist in Java implementiert.<br />

Jlab vom Institut für Akustik und Sprachkommunikation der TU <strong>Dresden</strong> bietet einen fertigen Erkenner<br />

der für Befehlseingabe konzipiert ist und mit der deutschen Sprache arbeitet. Nachteilig wirkt sich bei<br />

Jlab das Vokabular aus. Durch das Angeben der Befehle in Phonemschrift ist es für Laien sehr schwer<br />

ein korrektes Vokabular zu erstellen. Außerdem kann sehr viel Feinarbeit nötig sein, um die Rückweisungsschwellen<br />

korrekt anzugeben, damit Verwechslungen durch den Erkenner ausgeschlossen werden.<br />

Der dritte Erkenner war die Microsoft Speech API. Sie bietet eine gute Dokumentation und eine Vielzahl<br />

von guten Beispielen zur Einarbeitung. Der Erkenner ist für Diktieranwendungen, sowie Befehlseingabe<br />

gedacht. Er arbeitet mit der englischen Sprache, es existieren aber Pakete für andere Sprachen. Außerdem<br />

handelt es sich bei der SAPI um den einzigen der drei Erkenner, der in C++ geschrieben ist.<br />

Im Anschluss daran wurden mit den Erkennern einige Tests durchgeführt. Bei der Befehlseingabe lag jlab<br />

mit 86,5Prozent Worterkennungsrate vor der SAPI mit 83,63Prozent. Am schlechtesten schnitt Sphinx,<br />

mit einer Rate von 72,71Prozent, ab. Letztendlich muss man sagen, dass dabei keiner der Erkenner<br />

wirklich überzeugende Ergebnisse geliefert hat. Anschließend wurde auch die Worterkennungsrate für<br />

die Diktieranwendung der SAPI getestet. Das mittlere Ergebnis dieses Tests lag bei 68,3Prozent. Danach<br />

wurden noch einmal alle drei Erkenner miteinander verglichen.<br />

Im letzten Kapitel dieses Belegs wurde eine Schnittstelle auf Basis der SAPI beschrieben. Die Schnittstelle<br />

versucht die SAPI spezifischen Merkmale zu verdecken um so eine einfachere Möglichkeit zu

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!