Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
5. FREI VERFÜGBARE SPRACHERKENNER 31<br />
5.1.3.2 Liguist<br />
Der Liguist erstellt den Search Graph. Dieser wird während der Suche vom Decoder genutzt. Natürlich<br />
ist auch der Linguist austauschbar und lässt sich dynamisch konfigurieren. Um den Search Graph<br />
zu erstellen nutzt der Linguist typischerweise die Sprachstruktur, die im Language Model angegeben<br />
wird und die topologische Struktur des Acoustic Model. Zusätzlich wird noch ein Dictionary oder Aussprachelexikon<br />
genutzt. Es bildet Worte aus dem Language Model auf Sequenzen von Elementen des<br />
Acoustic Model ab. Im Folgenden werden die drei Unterkomponenten des Liguist noch einmal näher<br />
beschrieben.[26]<br />
Language Model<br />
Das Language Model des Linguist bietet eine ’word-level’ Sprachstruktur. Das heißt, es arbeitet auf der<br />
Basis von ganzen Wörtern. Diese kann von einer Vielzahl auswechselbarer Implementationen dargestellt<br />
werden. Die Implementationen fallen in eine von zwei Kategorien, eine graphgesteuerte Grammatik<br />
oder ein stochastisches N-Gram Modell. Die Graphgesteuerte Grammatik repräsentiert einen gerichteten<br />
’Wort-Graphen’. Dabei steht jeder Knoten für ein Wort und jede Kante für die Wahrscheinlichkeit, dass<br />
dieser Übergang statt findet. Das stochastische N-Gram Model gibt an, wie wahrscheinlich ein Wort<br />
folgt, wenn die vorherigen n-1 Wörter beobachtet wurden. [26]<br />
Dictionary<br />
Das Dictionary liefert die Aussprache für Wörter die im Language Model vertreten sind. Die Aussprache<br />
teilt Wörter in Folgen kleinerer ’unter Worteinheiten’ auf, die im Acoustic Model aufgeführt sind.<br />
Das Dictionary ermöglicht es auch, die einzelnen Wörter zu klassifizieren. Dabei ist es Wörtern erlaubt<br />
zu mehrere Klassen zu gehören. Je nach Bedarf kann das Dictionary unterschiedlich optimiert und implementiert<br />
werden. Eine Möglichkeit währe zum Beispiel, das gesamte Vokabular zu laden, sobald das<br />
System initialisiert wird. Eine andere Möglichkeit besteht darin die Aussprachen immer erst bei Bedarf<br />
zu liefern. [26]<br />
Acoustic Model<br />
Das Acoustic Model liefert die Abbildung einer Spracheinheit auf ein Hidden Markov Modell (HMM).<br />
Dieses HMM kann mit Merkmalsvektoren verglichen werden, die vom Front End kommen. Dabei werden<br />
auch Kontextinformationen wie die Wortposition einbezogen. Im Fall von sogenannten Triphonen<br />
bedeutet Kontext, die einzelnen Phoneme links und rechts von einem betrachteten Phonem. Die Wortposition<br />
würde dann aussagen, ob das Triphon am Anfang, in der Mitte oder am Ende eines Wortes<br />
steht oder selbst ein Wort ist. Welche Kontextinformationen genau in Betracht gezogen werden, wird<br />
von Sphinx-4 nicht vorgegeben. Normalerweise teilt der Linguist jedes Wort des aktiven Vokabulars in<br />
Folgen kontextabhängiger Untereinheiten. Diese Einheiten und ihr Kontext werden dann an das Acou-