Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

5. FREI VERFÜGBARE SPRACHERKENNER 28 5 Frei verfügbare Spracherkenner Im vorherigen Kapitel wurde ein Überblick über schon vorhandene Sprachsteuerungssoftware gegeben. In diesem Kapitel hingegen werden drei Systeme vorgestellt, die dem Programmierer die Möglichkeit geben Sprachsteuerung in eigene Anwendungen zu integrieren. Es wird gezeigt, dass diese Systeme sehr unterschiedliche Eigenschaften besitzen. Eines der Systeme erkennt die deutsche Sprache, wohingegen die anderen für die englische Sprache entwickelt wurden. Außerdem erkennt eines der Systeme nur sprecherabhängig, was wiederum mit sprecherunabhängigem Erkennen nur schwer zu vergleichen ist. 5.1 Sphinx-4 5.1.1 Allgemeines Sphinx-4 wurde von der Sphinx Gruppe an der Carnegie Mellon <strong>Universität</strong>, Mitsubishi Electric Research Labs, Sun Microsystems Laboratorien und Hewlett Packard entwickelt. Dabei wurden sie von der <strong>Universität</strong> von Kalifornien in Santa Cruz und dem Massachusetts Institut of Technologie unterstützt. Bei Sphinx-4 handelt es sich um ein Spracherkennungssystem, das komplett in Java geschrieben wurde. [4] 5.1.2 Aufbau Die Abbildung 5.1 zeigt den Aufbau der Architektur von Sphinx-4. Sphinx-4 wurde sehr flexibel und modular entworfen. Jeder der beschriebenen Teile kann einfach ausgetauscht werden ohne das dafür an den anderen Systemteilen Veränderungen vorgenommen werden müssen. Es existieren die drei Hauptmodule Front End, Decoder und Liguist. Das Front End nimmt ein oder mehrere Eingangssignale und zerlegt diese in eine Folge von Features (Merkmalsvektoren). Der Liguist erstellt aus dem Language Model, den Ausspracheinformationen aus dem Dictionary und den strukturellen Informationen aus einem oder mehreren Acoustic Models einen Search Graph. Der Search Manager arbeitet innerhalb des Decoders. Er nutzt den Search Graph um aus den Features, die er vom Front End erhält, die Eingabe zu entschlüsseln und das Ergebnis zu generieren. Dabei kann die Anwendung jeder-
5. FREI VERFÜGBARE SPRACHERKENNER 29 Abbildung 5.1: Aufbau von Sphinx-4 nach [26] zeit Kontrollanweisungen an die verschiedenen Module senden und somit auf den Erkennungsprozess Einfluss nehmen. Sphinx-4 besteht aus vielen einstellbaren Teilen. Um diese Einstellungen vor zu nehmen wird der Configuration Manager genutzt. Außerdem können mit seiner Hilfe, Module dynamisch während der Laufzeit geladen oder verändert werden. Zusätzlich werden dem Nutzer viele Werkzeuge geboten. Mit ihrer Unterstützung können verschiedenste Statistiken, wie zum Beispiel über die Wortfehlerrate oder die Speichernutzung erstellt werden. 5.1.3 Funktion Sobald der Erkenner gestartet wird, richtet er das Front End, den Decoder und den Linguist ein. Dabei werden die Spezifikationen des Nutzers beachtet. Diese Komponenten wiederum legen ihre eigenen Unterkomponenten an. Der Liguist lädt das Acoustic Model, das Dictionary und das Language Model. Aus diesen Teilen wird danach ein passender Search Graph konstruiert. Der Decoder erstellt den Search Manager, der wiederum den Scorer, den Pruner und die Active List anlegt. Die meisten dieser Komponenten sind Java Interfaces. Für sie existieren verschiedene Implementationen. Welche Implementation tatsächlich genutzt wird legt der Nutzer in einer Konfigurationsdatei fest. Sie basiert auf XML und wird vom Configuration Manager geladen. In ihr können auch Eigenschaften wie zum Beispiel die Sample Rate der eintreffenden Sprachdaten festgelegt werden. Um ein Eingabesignal richtig zu erkennen wird der Search Graph genutzt. Innerhalb des Graphen gibt
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 33 und 34: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?