Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

5. FREI VERFÜGBARE SPRACHERKENNER 30 es verschiedene Wege um zum richtigen Ergebnis zu gelangen. In Sphinx-4 wird ein Token-Algorithmus implementiert. Jedes mal wenn ein neuer Zustand im Search Graph erreicht wird, wird ein neuer Token erstellt. Er zeigt auf den vorherigen Token und den nächsten Zustand im Graph. In der Active List werden alle Pfade durch den Search Graph verfolgt, die im Moment aktiv sind. Dazu wird der letzte Token jedes Pfads gespeichert. Die Anwendung möchte nun, dass der Recognizer eine Erkennung durchführt. Dazu fordert der Search Manager den Scorer auf, jeden Token der Active List mit dem nächsten Feature (Merkmalsvektor), der vom Front End kommt, auszuwerten. Dabei entsteht eine Auswertung für jeden aktiven Pfad. Mit Hilfe dieser Bewertung und bestimmten heuristischen Methoden wird der Pruner verschiedene Token verwerfen. Jeder übrige Pfad wird um den nächsten Zustand erweitert. Für jeden Zustand wird ein neuer Token erstellt. Dieser Vorgang wird wiederholt, bis keine weiteren Merkmalsvektoren mehr vom Front End eingehen. Das bedeutet im Normalfall, dass keine weitere Spracheingabe erfolgte. An dieser Stelle werden alle Pfade, die den Endzustand erreicht haben, verglichen. Der Pfad mit der höchsten Bewertung wird als Ergebnis an die Anwendung zurück geschickt.[4] 5.1.3.1 Front End Die Aufgabe des Front End ist es, Eingangssignale in eine Folge von Merkmalen zu zerlegen. Wie in Abbildung 5.2: Das Sphinx-4 Front End nach [26] Abbildung 5.2 dargestellt, umfasst das Front End eine oder mehrere parallele Ketten von signalverarbeitenden Modulen. Den so genannten Data Processors. Dadurch, dass mehrere Ketten unterstützt werden, können gleichzeitig verschieden Merkmale für ein einzelnes oder verschiedene Eingangssignale berechnet werden. Jede Ausgabe eines Data Processors kann einem anderen Data Processor wieder als Eingabe dienen. Dadurch werden beliebig lange Ketten ermöglicht. Der letzte Data Processor jeder Kette ist dafür verantwortlich, dass aus den verschiedenen Signalparametern ein Datenobjekt, der Merkmalsvektor, erstellt wird. Dieser kann dann vom Decoder weiter verarbeitet werden. [26]
5. FREI VERFÜGBARE SPRACHERKENNER 31 5.1.3.2 Liguist Der Liguist erstellt den Search Graph. Dieser wird während der Suche vom Decoder genutzt. Natürlich ist auch der Linguist austauschbar und lässt sich dynamisch konfigurieren. Um den Search Graph zu erstellen nutzt der Linguist typischerweise die Sprachstruktur, die im Language Model angegeben wird und die topologische Struktur des Acoustic Model. Zusätzlich wird noch ein Dictionary oder Aussprachelexikon genutzt. Es bildet Worte aus dem Language Model auf Sequenzen von Elementen des Acoustic Model ab. Im Folgenden werden die drei Unterkomponenten des Liguist noch einmal näher beschrieben.[26] Language Model Das Language Model des Linguist bietet eine ’word-level’ Sprachstruktur. Das heißt, es arbeitet auf der Basis von ganzen Wörtern. Diese kann von einer Vielzahl auswechselbarer Implementationen dargestellt werden. Die Implementationen fallen in eine von zwei Kategorien, eine graphgesteuerte Grammatik oder ein stochastisches N-Gram Modell. Die Graphgesteuerte Grammatik repräsentiert einen gerichteten ’Wort-Graphen’. Dabei steht jeder Knoten für ein Wort und jede Kante für die Wahrscheinlichkeit, dass dieser Übergang statt findet. Das stochastische N-Gram Model gibt an, wie wahrscheinlich ein Wort folgt, wenn die vorherigen n-1 Wörter beobachtet wurden. [26] Dictionary Das Dictionary liefert die Aussprache für Wörter die im Language Model vertreten sind. Die Aussprache teilt Wörter in Folgen kleinerer ’unter Worteinheiten’ auf, die im Acoustic Model aufgeführt sind. Das Dictionary ermöglicht es auch, die einzelnen Wörter zu klassifizieren. Dabei ist es Wörtern erlaubt zu mehrere Klassen zu gehören. Je nach Bedarf kann das Dictionary unterschiedlich optimiert und implementiert werden. Eine Möglichkeit währe zum Beispiel, das gesamte Vokabular zu laden, sobald das System initialisiert wird. Eine andere Möglichkeit besteht darin die Aussprachen immer erst bei Bedarf zu liefern. [26] Acoustic Model Das Acoustic Model liefert die Abbildung einer Spracheinheit auf ein Hidden Markov Modell (HMM). Dieses HMM kann mit Merkmalsvektoren verglichen werden, die vom Front End kommen. Dabei werden auch Kontextinformationen wie die Wortposition einbezogen. Im Fall von sogenannten Triphonen bedeutet Kontext, die einzelnen Phoneme links und rechts von einem betrachteten Phonem. Die Wortposition würde dann aussagen, ob das Triphon am Anfang, in der Mitte oder am Ende eines Wortes steht oder selbst ein Wort ist. Welche Kontextinformationen genau in Betracht gezogen werden, wird von Sphinx-4 nicht vorgegeben. Normalerweise teilt der Linguist jedes Wort des aktiven Vokabulars in Folgen kontextabhängiger Untereinheiten. Diese Einheiten und ihr Kontext werden dann an das Acou-
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 35 und 36: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?