Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5. FREI VERFÜGBARE SPRACHERKENNER 28<br />
5 Frei verfügbare Spracherkenner<br />
Im vorherigen Kapitel wurde ein Überblick über schon vorhandene Sprachsteuerungssoftware gegeben.<br />
In diesem Kapitel hingegen werden drei Systeme vorgestellt, die dem Programmierer die Möglichkeit<br />
geben Sprachsteuerung in eigene Anwendungen zu integrieren. Es wird gezeigt, dass diese Systeme sehr<br />
unterschiedliche Eigenschaften besitzen. Eines der Systeme erkennt die deutsche Sprache, wohingegen<br />
die anderen für die englische Sprache entwickelt wurden. Außerdem erkennt eines der Systeme nur<br />
sprecherabhängig, was wiederum mit sprecherunabhängigem Erkennen nur schwer zu vergleichen ist.<br />
5.1 Sphinx-4<br />
5.1.1 Allgemeines<br />
Sphinx-4 wurde von der Sphinx Gruppe an der Carnegie Mellon <strong>Universität</strong>, Mitsubishi Electric Research<br />
Labs, Sun Microsystems Laboratorien und Hewlett Packard entwickelt. Dabei wurden sie von der<br />
<strong>Universität</strong> von Kalifornien in Santa Cruz und dem Massachusetts Institut of Technologie unterstützt.<br />
Bei Sphinx-4 handelt es sich um ein Spracherkennungssystem, das komplett in Java geschrieben wurde.<br />
[4]<br />
5.1.2 Aufbau<br />
Die Abbildung 5.1 zeigt den Aufbau der Architektur von Sphinx-4. Sphinx-4 wurde sehr flexibel und<br />
modular entworfen. Jeder der beschriebenen Teile kann einfach ausgetauscht werden ohne das dafür an<br />
den anderen Systemteilen Veränderungen vorgenommen werden müssen.<br />
Es existieren die drei Hauptmodule Front End, Decoder und Liguist. Das Front End nimmt ein oder<br />
mehrere Eingangssignale und zerlegt diese in eine Folge von Features (Merkmalsvektoren). Der Liguist<br />
erstellt aus dem Language Model, den Ausspracheinformationen aus dem Dictionary und den strukturellen<br />
Informationen aus einem oder mehreren Acoustic Models einen Search Graph. Der Search Manager<br />
arbeitet innerhalb des Decoders. Er nutzt den Search Graph um aus den Features, die er vom Front End<br />
erhält, die Eingabe zu entschlüsseln und das Ergebnis zu generieren. Dabei kann die Anwendung jeder-