29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5. FREI VERFÜGBARE SPRACHERKENNER 31<br />

5.1.3.2 Liguist<br />

Der Liguist erstellt den Search Graph. Dieser wird während der Suche vom Decoder genutzt. Natürlich<br />

ist auch der Linguist austauschbar und lässt sich dynamisch konfigurieren. Um den Search Graph<br />

zu erstellen nutzt der Linguist typischerweise die Sprachstruktur, die im Language Model angegeben<br />

wird und die topologische Struktur des Acoustic Model. Zusätzlich wird noch ein Dictionary oder Aussprachelexikon<br />

genutzt. Es bildet Worte aus dem Language Model auf Sequenzen von Elementen des<br />

Acoustic Model ab. Im Folgenden werden die drei Unterkomponenten des Liguist noch einmal näher<br />

beschrieben.[26]<br />

Language Model<br />

Das Language Model des Linguist bietet eine ’word-level’ Sprachstruktur. Das heißt, es arbeitet auf der<br />

Basis von ganzen Wörtern. Diese kann von einer Vielzahl auswechselbarer Implementationen dargestellt<br />

werden. Die Implementationen fallen in eine von zwei Kategorien, eine graphgesteuerte Grammatik<br />

oder ein stochastisches N-Gram Modell. Die Graphgesteuerte Grammatik repräsentiert einen gerichteten<br />

’Wort-Graphen’. Dabei steht jeder Knoten für ein Wort und jede Kante für die Wahrscheinlichkeit, dass<br />

dieser Übergang statt findet. Das stochastische N-Gram Model gibt an, wie wahrscheinlich ein Wort<br />

folgt, wenn die vorherigen n-1 Wörter beobachtet wurden. [26]<br />

Dictionary<br />

Das Dictionary liefert die Aussprache für Wörter die im Language Model vertreten sind. Die Aussprache<br />

teilt Wörter in Folgen kleinerer ’unter Worteinheiten’ auf, die im Acoustic Model aufgeführt sind.<br />

Das Dictionary ermöglicht es auch, die einzelnen Wörter zu klassifizieren. Dabei ist es Wörtern erlaubt<br />

zu mehrere Klassen zu gehören. Je nach Bedarf kann das Dictionary unterschiedlich optimiert und implementiert<br />

werden. Eine Möglichkeit währe zum Beispiel, das gesamte Vokabular zu laden, sobald das<br />

System initialisiert wird. Eine andere Möglichkeit besteht darin die Aussprachen immer erst bei Bedarf<br />

zu liefern. [26]<br />

Acoustic Model<br />

Das Acoustic Model liefert die Abbildung einer Spracheinheit auf ein Hidden Markov Modell (HMM).<br />

Dieses HMM kann mit Merkmalsvektoren verglichen werden, die vom Front End kommen. Dabei werden<br />

auch Kontextinformationen wie die Wortposition einbezogen. Im Fall von sogenannten Triphonen<br />

bedeutet Kontext, die einzelnen Phoneme links und rechts von einem betrachteten Phonem. Die Wortposition<br />

würde dann aussagen, ob das Triphon am Anfang, in der Mitte oder am Ende eines Wortes<br />

steht oder selbst ein Wort ist. Welche Kontextinformationen genau in Betracht gezogen werden, wird<br />

von Sphinx-4 nicht vorgegeben. Normalerweise teilt der Linguist jedes Wort des aktiven Vokabulars in<br />

Folgen kontextabhängiger Untereinheiten. Diese Einheiten und ihr Kontext werden dann an das Acou-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!