29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

6. TESTS 44<br />

fig zu Verwechslungen. In einer Umgebung in der nur das wirklich benötigte Vokabular genutzt wird,<br />

kann dem nach eine bedeutend höhere Worterkennungsrate erreicht werden. Ein weiteres Problem für<br />

den Vergleich besteht darin, dass die SAPI sprecherabhängig arbeitet. In diesem Fall war der Erkenner<br />

durch eine vorab Trainingszeit von insgesamt etwa 60 Minuten besonders auf meine Stimme trainiert<br />

und um einen neuen Vokabulareintrag hinzuzufügen musst dieser ebenfalls noch einmal eingesprochen<br />

werden. Das sollte dem Erkenner normalerweise einen Vorteil verschaffen. Eine interessante Frage besteht<br />

darin, welchen Einfluss die Sprecherabhängigkeit auf die Erkennungsrate hat. Im Folgenden wird<br />

der gesamte Test noch einmal mit einem Sprecher wiederholt, auf den Erkenner vorher nicht trainiert<br />

wurde. Erschwerend kommt hinzu, dass es sich nun um eine Sprecherin handelt, der Erkenner ist jedoch<br />

weiter auf einen männlichen Sprecher eingestellt. Das Ergebnis dieser Testreihe ist in Tabelle 6.4 zu sehen.<br />

Dabei hat der Erkenner in allen Bereichen deutlich schlechter abgeschnitten. Auch bei diesem Test<br />

Menüpunkt Anzahl richtig verwechselt Worterkennungsrate<br />

der Befehle erkannt in Prozent<br />

Musik 31 46 109 29,68<br />

Anrufe 24 37 83 30,83<br />

Spiele 18 71 19 78,89<br />

eMail 13 29 36 44,61<br />

Hauptmenü 11 33 22 60<br />

Tabelle 6.4: Worterkennungsrate des Dictation Pad (untrainiert)<br />

gibt es wieder einen besonders abweichenden Wert. Diesmal ist es die Erkennungsrate für den Menüpunkt<br />

Spiele, die eine deutlich bessere Erkennungsrate als alle anderen aufweist. Trotzdem wäre sie für<br />

einen Einsatz in Anwendungen nicht ausreichend. Aus den Ergebnissen kann man klar ablesen, dass die<br />

Sprecherabhängigkeit einen sehr großen Einfluss auf die Worterkennungsrate hat. Es macht also wenig<br />

Sinn zu versuchen eine Anwendung, die sprecherunabhängig sein soll, mit einen sprecherabhängigen<br />

Erkenner zu erstellen.<br />

6.1.4 Vergleich<br />

Um die verschiedenen Systeme noch einmal direkt gegenüber zu stellen werden in Tabelle 6.5 die einzelnen<br />

Worterkennungsraten und ein Durchschnittswert angegeben. Bei der Dialog Demo kann man gut die<br />

Abhängigkeit von Vokabulargröße und Worterkennungsrate erkennen. Der beste Wert von 89,23Prozent<br />

ist allerdings immernoch zu niedrig. Wenn man selbst eine Anwendung auf der Basis von Sphinx erstellt<br />

kann man daran aber noch Verbesserungen vornehmen. Der JLab Speech Server hingegen hält einen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!