Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

8. ENTWICKLUNG EINER SCHNITTSTELLE AUF BASIS DER MICROSOFT SPEECH API 62 Menüpunkt Sphinx4 JLAB Microsoft SAPI SAPI Interface Dialog Demo Speech Server Dictation Pad Testanwendung Musik 58,06 81,94 54,84 96,80 Anrufe 69,17 81,67 89,17 92,00 Spiele 68,89 88,19 95,56 100 eMail 89,23 86,15 87,69 100 Hauptmenü 78,18 94,55 90,91 92,70 Durchschnitt 72,71 86,5 83,63 97,10 Tabelle 8.2: Vergleich der Ergebnisse aus Kapitel 6 mit den Ergebnissen der Testanwendung (Angaben in Prozent)
9. ABSCHLIESSENDE BETRACHTUNGEN 63 9 Abschließende Betrachtungen 9.1 Resümee Zu Beginn dieser Arbeit wurden zunächst einige grundlegende Informationen über Spracheingabe und den Aufbau von Spracherkennern gegeben. Danach wurden einige momentan verfügbare Spracherkenner vorgestellt. Im Hauptteil dieser Arbeit wurden drei freie Erkenner vorgestellt und verglichen. Dabei handelte es sich zum einen um Sphinx von, unter Anderen, der Carnegie Mellon <strong>Universität</strong>. Dieser Erkenner bietet eine knappe Dokumentation und einige Beispielanwendungen. Der Nachteil ist, dass Sphinx eine Art Baukasten für Spracherkenner ist. Man hätte also zunächst seinen eigenen Erkenner aufbauen müssen, bevor man ihn in einer Anwendung nutzen kann. Sphinx ist in Java implementiert. Jlab vom Institut für Akustik und Sprachkommunikation der TU <strong>Dresden</strong> bietet einen fertigen Erkenner der für Befehlseingabe konzipiert ist und mit der deutschen Sprache arbeitet. Nachteilig wirkt sich bei Jlab das Vokabular aus. Durch das Angeben der Befehle in Phonemschrift ist es für Laien sehr schwer ein korrektes Vokabular zu erstellen. Außerdem kann sehr viel Feinarbeit nötig sein, um die Rückweisungsschwellen korrekt anzugeben, damit Verwechslungen durch den Erkenner ausgeschlossen werden. Der dritte Erkenner war die Microsoft Speech API. Sie bietet eine gute Dokumentation und eine Vielzahl von guten Beispielen zur Einarbeitung. Der Erkenner ist für Diktieranwendungen, sowie Befehlseingabe gedacht. Er arbeitet mit der englischen Sprache, es existieren aber Pakete für andere Sprachen. Außerdem handelt es sich bei der SAPI um den einzigen der drei Erkenner, der in C++ geschrieben ist. Im Anschluss daran wurden mit den Erkennern einige Tests durchgeführt. Bei der Befehlseingabe lag jlab mit 86,5Prozent Worterkennungsrate vor der SAPI mit 83,63Prozent. Am schlechtesten schnitt Sphinx, mit einer Rate von 72,71Prozent, ab. Letztendlich muss man sagen, dass dabei keiner der Erkenner wirklich überzeugende Ergebnisse geliefert hat. Anschließend wurde auch die Worterkennungsrate für die Diktieranwendung der SAPI getestet. Das mittlere Ergebnis dieses Tests lag bei 68,3Prozent. Danach wurden noch einmal alle drei Erkenner miteinander verglichen. Im letzten Kapitel dieses Belegs wurde eine Schnittstelle auf Basis der SAPI beschrieben. Die Schnittstelle versucht die SAPI spezifischen Merkmale zu verdecken um so eine einfachere Möglichkeit zu
Seite 1 und 2:
TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4:
1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6:
3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8:
5 Selbstständigkeitserklärung Hie
Seite 9 und 10:
2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 11 und 12:
2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 13 und 14: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 15 und 16: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 63: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs
Alle anzeigen

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?