Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

6. TESTS 42 wie hoch die Worterkennungsrate in den einzelnen Menüs ist. Jeder Befehl wurde dazu fünf mal wiederholt. Außerdem wurden nur ein Teil der möglichen Menüpunkte ausgewählt, die geeignet sind, einen Überblick zu geben welche Erkennungsraten bei welcher Vokabulargröße zu erwarten sind. Natürlich Menüpunkt Anzahl richtig nicht verwechselt Worterkennungsrate der Befehle erkannt erkannt in Prozent Musik 31 90 24 40 58,06 Anrufe 24 83 10 27 69,17 Spiele 18 62 13 15 68,89 eMail 13 58 3 4 89,23 Hauptmenü 11 43 4 8 78,18 Tabelle 6.1: Worterkennungsrate einiger Menüs der Sphinx-4 Dialog Demo sind diese Daten mit Vorsicht zu betrachten. Zunächst ist Sphinx für sprecherunabhängiges Erkenner gedacht. Darum wäre es von Vorteil gewesen noch die Daten von anderen Sprechern zu haben um objektive Werte zu erhalten. Außerdem versteht dieser Erkenner nur die englische Sprache. Ein Muttersprachler hätte somit wahrscheinlich noch eine etwas bessere Worterkennungsrate erzielen können. Des weiteren schient es, als ob der Erkenner besser damit zurecht kommt, wenn man die Pausen zwischen den einzelnen Wörtern einer Befehlswortgruppe etwas verlängert. 6.1.2 JLab Im Kapitel 5.3.5 wurden schon einmal Testdaten von JLab gezeigt. Um einen besseren Vergleich mit Sphinx zu erreichen wurden im einige zusätzliche Vokabulare erstellt. Diese orientieren sich stark an den Befehlswörterbüchern der Sphinx-4 Dialog Demo. Der Zweck besteht darin, die Befehle in ihrer Länge, Anzahl und Ähnlichkeit untereinander, denen des Sphinx Tests anzugleichen. So soll trotz der unterschiedlichen Sprache ein möglichst guter Vergleich zustande kommen. In Tabelle 6.2 werden die Testergebnisse dargestellt. Auch in diesem Test wurde jeder Befehl fünf mal eingegeben. Der JLab Speech Server erreicht in fast allen Menügrößen deutlich bessere Erkennungsraten. Diese Werte sind jedoch nicht vollständig vergleichbar. Die eigenhändig erstellten Vokabulare für JLab sind nicht optimiert. Das heißt die Rückweisungsschwelle für die einzelnen Befehle ist so gering, das beinahe jede Eingabe am Ende auch wirklich als ein Befehl erkannt wird. Aus diesem Grund sind auch nur Verwechslungsfehler in der Tabelle zu finden. Das ist kein Problem wenn man den Erkenner nur einschaltet wenn man auch wirklich einen Befehl gibt (siehe Abschnitt <strong>2.3</strong>.1.1 Push to Talk). Es erschwert aber den Vergleich mit Sphinx, da dort versucht wird wirklich nur auf echte Befehle zu reagieren.
6. TESTS 43 Menüpunkt Anzahl richtig verwechselt Worterkennungsrate der Befehle erkannt in Prozent Musik 31 127 28 81,94 Anrufe 24 98 22 81,67 Spiele 18 80 10 88,89 eMail 13 56 9 86,15 Hauptmenü 11 52 3 94,55 Tabelle 6.2: Worterkennungsrate von JLab 6.1.3 SAPI Um die Microsoft Speech API zu testen wurde die zugehörige Anwendung Dictation Pad genutzt. Sie ist ursprünglich für kontinuierliche Spracheingabe gedacht und nutzt ein sehr umfangreiches englisches Grundvokabular. Diese Anwendung wurde gewählt, da man dem Vokabular eigene Einträge hinzufügen kann. So ist zumindest gewährleistet, dass Testvokabular der Sphinx-4 Dialog Demo eins zu eins übernommen werden kann. Im ’erweiterten Vokabular’ des Dictation Pads war zu jeder Zeit nur das Vokabular eines der Menüpunkte aktiv um weiter störende Einflüsse zu vermeiden. Natürlich resultieren aus dieser Wahl auch Probleme auf die später eingegangen wird. In Tabelle 6.3 werden zunächst die Testergebnisse gezeigt. Wieder wurde jeder Befehl fünf mal gegeben. Aus den Testergebnissen ist Menüpunkt Anzahl richtig verwechselt Worterkennungsrate der Befehle erkannt in Prozent Musik 31 85 70 54,84 Anrufe 24 107 13 89,17 Spiele 18 86 4 95,56 eMail 13 57 8 87,69 Hauptmenü 11 50 5 90,91 Tabelle 6.3: Worterkennungsrate des Dictation Pad (trainiert) ersichtlich, dass alle Fehler der SAPI auf Verwechslungen zurück zu führen sind. Die Ursache dafür ist allerdings nicht, wie bei JLab, eine zu niedrige Rückweisungsschwelle. Das Problem ist hier vielmehr, dass neben dem extra erstellten Wörterbucheinträgen, während des Tests auch noch alle anderen Wörter aus dem allumfassenden Sprachvokabular aktiv genutzt wurden. Besonders gravierend war dieser Einfluss im Untermenü ’Musik’. Durch die besonders langen Befehlswortgruppen kam es hier sehr häu-
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43: 6. TESTS 41 6 Tests Alle drei Syste
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?