Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

6. TESTS 44 fig zu Verwechslungen. In einer Umgebung in der nur das wirklich benötigte Vokabular genutzt wird, kann dem nach eine bedeutend höhere Worterkennungsrate erreicht werden. Ein weiteres Problem für den Vergleich besteht darin, dass die SAPI sprecherabhängig arbeitet. In diesem Fall war der Erkenner durch eine vorab Trainingszeit von insgesamt etwa 60 Minuten besonders auf meine Stimme trainiert und um einen neuen Vokabulareintrag hinzuzufügen musst dieser ebenfalls noch einmal eingesprochen werden. Das sollte dem Erkenner normalerweise einen Vorteil verschaffen. Eine interessante Frage besteht darin, welchen Einfluss die Sprecherabhängigkeit auf die Erkennungsrate hat. Im Folgenden wird der gesamte Test noch einmal mit einem Sprecher wiederholt, auf den Erkenner vorher nicht trainiert wurde. Erschwerend kommt hinzu, dass es sich nun um eine Sprecherin handelt, der Erkenner ist jedoch weiter auf einen männlichen Sprecher eingestellt. Das Ergebnis dieser Testreihe ist in Tabelle 6.4 zu sehen. Dabei hat der Erkenner in allen Bereichen deutlich schlechter abgeschnitten. Auch bei diesem Test Menüpunkt Anzahl richtig verwechselt Worterkennungsrate der Befehle erkannt in Prozent Musik 31 46 109 29,68 Anrufe 24 37 83 30,83 Spiele 18 71 19 78,89 eMail 13 29 36 44,61 Hauptmenü 11 33 22 60 Tabelle 6.4: Worterkennungsrate des Dictation Pad (untrainiert) gibt es wieder einen besonders abweichenden Wert. Diesmal ist es die Erkennungsrate für den Menüpunkt Spiele, die eine deutlich bessere Erkennungsrate als alle anderen aufweist. Trotzdem wäre sie für einen Einsatz in Anwendungen nicht ausreichend. Aus den Ergebnissen kann man klar ablesen, dass die Sprecherabhängigkeit einen sehr großen Einfluss auf die Worterkennungsrate hat. Es macht also wenig Sinn zu versuchen eine Anwendung, die sprecherunabhängig sein soll, mit einen sprecherabhängigen Erkenner zu erstellen. 6.1.4 Vergleich Um die verschiedenen Systeme noch einmal direkt gegenüber zu stellen werden in Tabelle 6.5 die einzelnen Worterkennungsraten und ein Durchschnittswert angegeben. Bei der Dialog Demo kann man gut die Abhängigkeit von Vokabulargröße und Worterkennungsrate erkennen. Der beste Wert von 89,23Prozent ist allerdings immernoch zu niedrig. Wenn man selbst eine Anwendung auf der Basis von Sphinx erstellt kann man daran aber noch Verbesserungen vornehmen. Der JLab Speech Server hingegen hält einen
6. TESTS 45 Menüpunkt Sphinx4 JLAB Microsoft SAPI Dialog Demo Speech Server Dictation Pad Musik 58,06 81,94 54,84 Anrufe 69,17 81,67 89,17 Spiele 68,89 88,19 95,56 eMail 89,23 86,15 87,69 Hauptmenü 78,18 94,55 90,91 Durchschnitt 72,71 86,5 83,63 Tabelle 6.5: Worterkennungsraten aller drei Anwendungen in Prozent relativ konstante Worterkennungsrate über alle Vokabulargrößen. Das zeigt das er auch bei größeren Vokabularen noch gut funktioniert. Außerdem liefert er im Durchschnitt das beste Ergebnis ab. Für den Test stand leider nur die Version 1.3.5 des JLab Sprachmodells zur Verfügung. Mit der verbesserten Version 1.3.19 könnte noch einmal eine kleine Verbesserung erreicht werden. Durch eine Optimierung des Vokabulars kann auch die Häufigkeit von Verwechslungen reduziert und somit die Worterkennungsrate gesteigert werden. Dies stellt das größte Verbesserungspotenzial dar, da am Testvokabular nur Standardwerte eingestellt waren. Dictation Pad belegt mit einer durchschnittlichen Worterkennungsrate von 83,63Prozent in diesem Abschnitt zunächst den zweiten Platz. Wenn man die einzelnen Werte betrachtet fällt allerdings sofort die besonders schlechte Wertung im Menüpunkt Musik auf. In Anbetracht der der Tatsache, das es bei diesem Menüpunkt um sehr lange Befehlswortgruppen handelte und der Erkenner mit einem viel größeren Vokabular umgehen musste, besteht jedoch eine besonders hohe Verwechslungsgefahr. Lässt man diesen Ausreißer einmal außer Betracht erreicht Dictation Pad eine durchschnittliche Worterkennungsrate von 90,83Prozent. Wenn man eine eigene Anwendung auf Basis des Speech API erstellt, kann man auch eigene Vokabulare anlegen. Dadurch können Verwechslungsfehler im Vergleich zum Dictation Pad erheblich reduziert werden. Die Ergebnisse dieser Tests zeigen, dass man JLAB und SAPI bezüglich der Worterkennungsrate in etwa gleich stark einordnen kann und ihre Ergebnisse durch angesprochenen Verbesserungen noch ausbauen kann. Sphinx hingegen erhält eine schlechtere Bewertung. Dabei ist besonders der negative Einfluss der Vokabulargröße auf die Worterkennungsrate ein Problem.
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?