Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

5. FREI VERFÜGBARE SPRACHERKENNER 32 stic Model weiter gegeben. Daraus entstehen die HMM-Graphen der jeweiligen Einheiten. Danach wird aus diesen HMM-Graph, in Verbindung mit dem Language Model, der Search Graph konstruiert. Der Sphinx-4 HMM-Graph ist einfach ein gerichteter Objektgraph ohne feste Strukturen. Jeder Knoten korrespondiert mit einem HMM-Zustand und jede Kante gibt die Übergangswahrscheinlichkeit an. Dadurch können ganz einfach verschiedenste HMM’s mit unterschiedlichen Topologien geliefert werden. Es gibt keine Einschränkung bei der Anzahl der Zustände, der Anzahl der Übergänge oder ihrer Richtung. Ein HMM-Zustand kann die Bewertung für ein beobachtetes Feature erstellen. Was dabei genau berechnet wird, steht im HMM-Zustand selbst und wird vor dem System versteckt. Wie alles andere, kann auch das Acoustic Model an die Bedürfnisse des Nutzers angepasst werden. [26] Search Graph Der Linguist kann auf viele verschiedene Arten implementiert werden und die Topologien des von ihm generierten Suchraums variieren sehr. Trotzdem wird der Suchraum immer als Search Graph dargestellt. Der in Abbildung 5.3 gezeigte Search Graph stellt die primäre Datenstruktur dar, die für den Erkennungsprozess genutzt wird. In diesem gerichteten Graph steht jeder Knoten für einen festen oder fließenden Abbildung 5.3: Der Sphinx-4 Search Graph für ’one’ und ’two’ nach [26] Zustand. Fließende Zustände werden mit eintreffenden Features verglichen. Feste Zustände repräsentieren sprachliche Konstrukte auf einer höheren Ebene, wie Wörter und Phoneme. Diese werden nicht direkt mit eintreffenden Features verglichen. Die Kanten repräsentieren die möglichen Zustandsübergänge und ihre Wahrscheinlichkeit. Der Search Graph kann auf verschiedene Arten implementiert werden. Je nachdem wie er implementiert wurde, beeinflusst dies die Erkennungsgenauigkeit, die Geschwindigkeit und den Speicherbedarf. [26]
5. FREI VERFÜGBARE SPRACHERKENNER 33 Implementation Es gibt verschiedene Implementationen für den Linguist. • Der Flat Liguist passt besonders bei Erkennungsaufgaben mit kontextfreien Grammatiken, finitestate Grammatiken, finite-state Wandlern und kleinen N-Gram Sprachmodellen. Alle diese externen Sprachmodelle werden in interne Grammatikstrukturen umgewandelt. Dabei entsteht ein gerichteter Wortgraph. Jeder Konten steht für ein Wort, jede Kante für die Übergangswahrscheinlichkeit. Aus der internen Grammatikstruktur wird direkt der Search Graph erzeugt und vollständig in den Speicher geladen. Dadurch ist der Flat Linguist zwar sehr schnell, hat aber Probleme bei Grammatiken mit hohem Verzweigungsgrad.[26] • Der Dynamic Flat Linguist ist dem Flat Linguist sehr ähnlich und damit auch für ähnliche Aufgaben geeignet. Der Hauptunterschied ist dabei, dass der Search Graph, je nach Bedarf, dynamisch konstruiert wird. Dadurch ist es zwar möglich mit weit komplexeren Grammatiken umzugehen, gleichzeitig wird aber die Erkennungsgeschwindigkeit reduziert.[26] • Der Lex Tree Linguist ist passend für alle Erkennungsaufgaben die große Vokabulare und N-Gram Sprachmodelle nutzen. Die Wörter werden in sogenannten Lex Trees organisiert. Dabei handelt es sich um eine kompakte Methode große Vokabulare darzustellen. Aus diesen Lex Trees werden dynamische ’Suchzustände’ generiert. So können sehr große Vokabulare bei nur mäßigem Speicheraufwand genutzt werden.[26] 5.1.3.3 Decoder Die Hauptaufgabe des Decoders besteht darin, die Features, die vom Front End kommen, mit dem Search Graph des Linguist zu verknüpfen. Daraus generiert er dann Annahmen über das Ergebnis. Der Decoder umfasst einen austauschbaren Search Manager und anderen Code, der dabei hilft die Arbeit für die Anwendung zu vereinfachen. Der interessanteste Teil des Decoders ist der Search Manager. Der Decoder sendet ihm einfach die Anweisung, eine Anzahl von Features zu erkennen. In jedem Schritt des Erkennungsprozesses generiert der Search Manager ein Ergebnisobjekt. Es beinhaltet alle Pfade die einen finalen Zustand erreicht haben. Um das Ergebnis zu verarbeiten bietet Sphinx-4 Utilities. Mit ihrer Hilfe können Konfidenzmaße für die einzelnen Ergebnisse berechnet werden. Dabei wird der Anwendung die Möglichkeit gegeben, am Erkennungsprozess teil zu haben. Der Search Manager wird nicht auf eine bestimmte Implementation beschränkt. Jeder Search Manager nutzt einen Token-Algorithmus. Ein Sphinx-4 Token ist ein Objekt das mit einen Zustand innerhalb des Erkennungsprozesses in Zusammenhang steht. Es beinhaltet die gesamte akustische und sprachliche Be-
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 33: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72: 10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74: 10. GLOSSAR 71 []
Seite 75 und 76: Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78: Abbildungsverzeichnis 75 Abbildungs

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?