18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

11.3 Spracherkennung mittels Dynamic Time Warping 171<br />

Nehmen Sie zwei verschiedene Wörter auf, und speichern sie das eine als<br />

Signal 1 und das andere als Signal 2. Damit ist die Datenbasis dieses<br />

minimalistischen Erkenners komplett.<br />

Nehmen Sie nun ein weiteres Wort auf (praktischerweise sprechen Sie eines<br />

der schon gespeicherten Wörter noch einmal) und speichern dieses als<br />

Testmuster ab.<br />

Wenn Sie nun die DTW-Algorithmen auf beiden Signalen rechnen lassen,<br />

dann können Sie die beiden akkumulierten Distanzen vergleichen und das<br />

Wort mit der kleineren Distanz als erkannt betrachten.<br />

Versuchen Sie einen Eindruck davon zu gewinnen, wie gut/schlecht die<br />

Erkennung funktioniert in Abhängigkeit davon, wie ähnlich sich die Wörter<br />

sind.<br />

Mit den Schaltflächen ” Bakis“, ” Itakura“ und ” Symmetrisch“ können Sie<br />

das Übergangsmuster wählen, das der DTW-Algorithmus verwenden soll.<br />

11.3.1 Einschränkungen des Suchraums<br />

Wenn man Muster von mehreren Sekunden Länge mit dem DTW-<br />

Algorithmus vergleichen möchte, kann es lohnenswert sein, nicht die gesamte<br />

DTW-Matrix abzusuchen, sondern nur solche Zustände zu betrachten,<br />

die überhaupt betreten werden können oder sogar nur solche, die eine<br />

Mindestwahrscheinlichkeit haben. Das Bestimmen, welche Zustände als<br />

Nachfolger des Zustandes (i, j) in Frage kommen wird als ” Expandieren“<br />

von (i, j) bezeichnet. Zwei Sprachsignale mit jeweils 1000 Vektoren würden<br />

eine DTW-Matrix mit 1 000000 Elementen aufspannen. Auch wenn diese<br />

heute vom Speicherbedarf her unproblematisch wäre, so sollte zumindest<br />

aus Laufzeitgründen geprüft werden, wie das Expandieren eines Zustandes<br />

gegebenenfalls die Suche nach dem DTW-Pfad vereinfacht werden kann. Die<br />

Menge der besuchbaren Zustände wird DTW-Suchraum genannt.<br />

Auf jeden Fall sollten die resultierenden DTW-Pfade einige Erwartungen<br />

erfüllen, wie sie in Abb. 11.11 dargestellt sind. Es sollte sichergestellt sein,<br />

daß die Pfade von links unten nach rechts oben verlaufen. Sie sollten auch<br />

monoton sein. Eine Nichtmonotonie des Pfades würde bedeuteten, daß ein<br />

Teil einer Aufnahme mit zwei verschiedenen Teilen der anderen Aufnahme<br />

verglichen würde, etwas das für normale Spracherkennung keinen Sinn hat<br />

(außer gegebenenfalls beim Vergleichen eines Lachens bestehend aus vielen<br />

” ha“ mit einem Lachen bestehend aus einem einzigen ha“). Besonders<br />

”<br />

hohe Sprünge sollten vermieden werden, um so eine lokale Kontinuität des

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!