Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
7. AUSWAHL EINES SPRACHERKENNERS 47<br />
7 Auswahl eines Spracherkenners<br />
In diesem Abschnitt werden noch einmal kurz die Vorteile und Nachteile der einzelnen Erkenner angesprochen.<br />
Auf dieser Basis wird einer von ihnen für die Implementation einer vereinfachten Schnittstelle<br />
ausgewählt.<br />
Bei CMU Sphinx handelt es sich um eine Arte Baukasten für Spracherkenner. Der Entwickler erhält<br />
so die Möglichkeit, einen eigenen Spracherkenner nach seinen Bedürfnissen zu erstellen. Dadurch ist<br />
das Ergebnis sehr flexibel in seiner Funktionalität. Man benötigt keine Trainingsphase bevor man beginnen<br />
kann damit zu arbeiten. So ist ein schneller Wechsel zwischen verschiedenen Nutzern und sogar<br />
die gleichzeitige Verwendung durch mehrere Nutzer möglich. Leider handelt es sich bei CMU Sphinx<br />
nicht um einen fertigen Spracherkenner, sondern wie schon erwähnt um eine Art Baukasten. Das heißt,<br />
man müsste den endgültigen Erkenner erst konzipieren und entwickeln, bevor man ihn in irgendeine andere<br />
Anwendung integrieren kann. Ein weiterer Nachteil besteht darin, dass auch bei den vorhandenen<br />
Beispielen die Erkennungsrate nicht besonders gut war.<br />
Die Microsoft Speech API ist schon ein fertiges System. In einer Vielzahl von Beispielanwendungen<br />
wird gezeigt, wie exakt der Erkenner arbeiten kann. Er wird sogar in einer Diktieranwendung genutzt,<br />
die freie Texte erkennt, also mit großen Vokabularen umgehen kann. Natürlich besteht die Möglichkeit in<br />
der eigenen Anwendung auch ein eigenes, kleineres Vokabular zu definieren, wodurch die Erkennungsrate<br />
noch verbessert werden kann. Standardmäßig unterstützt die SAPI 5.1 U.S. Englisch. Außerdem<br />
kann man noch Paket für verschiedene andere Sprachen nachladen. Zusätzlich zu den Beispielanwendungen<br />
bekommt man noch einige Tutorials geboten. In ihnen wird gezeigt, wie man die SAPI in die<br />
eigenen Anwendungen integriert. Der Nachteil der SAPI von Microsoft besteht allerdings darin, dass vor<br />
Beginn der Arbeit eine Trainingsphase für den Erkenner nötig ist. Je nachdem wieviel Zeit man sich dabei<br />
nimmt und wieviele der möglichen Trainingssitzungen man absolviert, wird die Wahrscheinlichkeit<br />
erhöht, dass die erkannten Worte auch die gesprochenen sind. Somit ist es nicht möglich sofort mit der<br />
Arbeit zu beginnen. Dazu kommt noch, dass die SAPI nur für einen Benutzer je Gerät gedacht ist. Es<br />
wird also ein globales Profil angelegt. Dieses Profil wird für jede Anwendung, die mit der SAPI arbeitet<br />
geladen. Mehrere Profile sind nicht möglich. Man kann zwar trotzdem mehrere Nutzer an einem System<br />
arbeiten lassen, aber da sich dabei das Sprecherprofil jedes mal gravierend ändert, ist dann kein optimales