29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5. FREI VERFÜGBARE SPRACHERKENNER 28<br />

5 Frei verfügbare Spracherkenner<br />

Im vorherigen Kapitel wurde ein Überblick über schon vorhandene Sprachsteuerungssoftware gegeben.<br />

In diesem Kapitel hingegen werden drei Systeme vorgestellt, die dem Programmierer die Möglichkeit<br />

geben Sprachsteuerung in eigene Anwendungen zu integrieren. Es wird gezeigt, dass diese Systeme sehr<br />

unterschiedliche Eigenschaften besitzen. Eines der Systeme erkennt die deutsche Sprache, wohingegen<br />

die anderen für die englische Sprache entwickelt wurden. Außerdem erkennt eines der Systeme nur<br />

sprecherabhängig, was wiederum mit sprecherunabhängigem Erkennen nur schwer zu vergleichen ist.<br />

5.1 Sphinx-4<br />

5.1.1 Allgemeines<br />

Sphinx-4 wurde von der Sphinx Gruppe an der Carnegie Mellon <strong>Universität</strong>, Mitsubishi Electric Research<br />

Labs, Sun Microsystems Laboratorien und Hewlett Packard entwickelt. Dabei wurden sie von der<br />

<strong>Universität</strong> von Kalifornien in Santa Cruz und dem Massachusetts Institut of Technologie unterstützt.<br />

Bei Sphinx-4 handelt es sich um ein Spracherkennungssystem, das komplett in Java geschrieben wurde.<br />

[4]<br />

5.1.2 Aufbau<br />

Die Abbildung 5.1 zeigt den Aufbau der Architektur von Sphinx-4. Sphinx-4 wurde sehr flexibel und<br />

modular entworfen. Jeder der beschriebenen Teile kann einfach ausgetauscht werden ohne das dafür an<br />

den anderen Systemteilen Veränderungen vorgenommen werden müssen.<br />

Es existieren die drei Hauptmodule Front End, Decoder und Liguist. Das Front End nimmt ein oder<br />

mehrere Eingangssignale und zerlegt diese in eine Folge von Features (Merkmalsvektoren). Der Liguist<br />

erstellt aus dem Language Model, den Ausspracheinformationen aus dem Dictionary und den strukturellen<br />

Informationen aus einem oder mehreren Acoustic Models einen Search Graph. Der Search Manager<br />

arbeitet innerhalb des Decoders. Er nutzt den Search Graph um aus den Features, die er vom Front End<br />

erhält, die Eingabe zu entschlüsseln und das Ergebnis zu generieren. Dabei kann die Anwendung jeder-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!