Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

6. TESTS 46 6.2 Worterkennungsrate für Diktieranwendungen Für Sphinx und JLab ist an dieser Stelle kein Test möglich, da es sich ausschließlich um diskrete Spracherkenner handelt. Trotzdem ist dieser Test interessant um die tatsächliche Leistungsfähigkeit der Microsoft Speech API am Beispiel der Dictation Pad Anwendung besser beurteilen zu können. In diesem Test werden zwei etwa gleichlange Texte diktiert und die Worterkennungsrate gemessen. Bei dem ersten Text handelt es sich um einen der Trainingstexte der SAPI, bei dem zweite Text um fiktive Geschichte. Die Ergebnisse sind in Tabelle 6.6 zu sehen. Das für beide Texte etwa die gleiche Rate gemessen wur- Text Wortzahl nicht oder Worterkennungsrate falsch erkannt in Prozent Aesop’s Fabeln 864 260 69,91 fiktive Geschichte 917 305 66,74 Tabelle 6.6: Ergebnisse für die Diktieranwendung der SAPI de zeigt, das der Erkenner nach genügend Trainingszeit, bekannte wie unbekannte Texte gleichermaßen gut erkennt. Leider ist eine Erkennungsrate von maximal siebzig Prozent nicht annähernd ausreichend. Sicher könnte auch bei diesem Test ein Muttersprachler noch bessere Werte erzielen, aber selbst eine Worterkennungsrate von 90 oder 95 Prozent ist für eine Diktieranwendung noch zu wenig.
7. AUSWAHL EINES SPRACHERKENNERS 47 7 Auswahl eines Spracherkenners In diesem Abschnitt werden noch einmal kurz die Vorteile und Nachteile der einzelnen Erkenner angesprochen. Auf dieser Basis wird einer von ihnen für die Implementation einer vereinfachten Schnittstelle ausgewählt. Bei CMU Sphinx handelt es sich um eine Arte Baukasten für Spracherkenner. Der Entwickler erhält so die Möglichkeit, einen eigenen Spracherkenner nach seinen Bedürfnissen zu erstellen. Dadurch ist das Ergebnis sehr flexibel in seiner Funktionalität. Man benötigt keine Trainingsphase bevor man beginnen kann damit zu arbeiten. So ist ein schneller Wechsel zwischen verschiedenen Nutzern und sogar die gleichzeitige Verwendung durch mehrere Nutzer möglich. Leider handelt es sich bei CMU Sphinx nicht um einen fertigen Spracherkenner, sondern wie schon erwähnt um eine Art Baukasten. Das heißt, man müsste den endgültigen Erkenner erst konzipieren und entwickeln, bevor man ihn in irgendeine andere Anwendung integrieren kann. Ein weiterer Nachteil besteht darin, dass auch bei den vorhandenen Beispielen die Erkennungsrate nicht besonders gut war. Die Microsoft Speech API ist schon ein fertiges System. In einer Vielzahl von Beispielanwendungen wird gezeigt, wie exakt der Erkenner arbeiten kann. Er wird sogar in einer Diktieranwendung genutzt, die freie Texte erkennt, also mit großen Vokabularen umgehen kann. Natürlich besteht die Möglichkeit in der eigenen Anwendung auch ein eigenes, kleineres Vokabular zu definieren, wodurch die Erkennungsrate noch verbessert werden kann. Standardmäßig unterstützt die SAPI 5.1 U.S. Englisch. Außerdem kann man noch Paket für verschiedene andere Sprachen nachladen. Zusätzlich zu den Beispielanwendungen bekommt man noch einige Tutorials geboten. In ihnen wird gezeigt, wie man die SAPI in die eigenen Anwendungen integriert. Der Nachteil der SAPI von Microsoft besteht allerdings darin, dass vor Beginn der Arbeit eine Trainingsphase für den Erkenner nötig ist. Je nachdem wieviel Zeit man sich dabei nimmt und wieviele der möglichen Trainingssitzungen man absolviert, wird die Wahrscheinlichkeit erhöht, dass die erkannten Worte auch die gesprochenen sind. Somit ist es nicht möglich sofort mit der Arbeit zu beginnen. Dazu kommt noch, dass die SAPI nur für einen Benutzer je Gerät gedacht ist. Es wird also ein globales Profil angelegt. Dieses Profil wird für jede Anwendung, die mit der SAPI arbeitet geladen. Mehrere Profile sind nicht möglich. Man kann zwar trotzdem mehrere Nutzer an einem System arbeiten lassen, aber da sich dabei das Sprecherprofil jedes mal gravierend ändert, ist dann kein optimales
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?