18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

10.1 Zeitsignalbasierte Erkennung 153<br />

chen. Nicht nur zwischen einzelnen Wörtern werden Sprechpausen gemacht,<br />

oft sogar innerhalb eines Wortes. Und oft handelt es sich bei kurzzeitigen<br />

Niedrigenergiephasen auch nicht um explizite Sprechpausen sondern um<br />

leises Sprechen oder auch um die Artikulation von etwas länger anhaltenden<br />

Konsonanten oder Konsonantenfolgen, die in der Regel wesentlich weniger<br />

Energie haben als Vokale.<br />

In Abb. 10.1 ist der Verlauf der Signalenergie über die Zeit dargestellt<br />

und der Bereich, der vom Sprachdetektor als Sprache erkannt würde grau<br />

unterlegt. Eine kleine Spitze über dem Schwellwert und eine kurze Phase<br />

darunter ändern nichts am aktuellen Zustand.<br />

Abb. 10.1. Energiebasierter Sprachdetektor mit Schwellwertvergleich<br />

Wir können also einen derartigen auf Messung der Signalenergie basierenden<br />

Sprachdetektor durch ein Zustandsautomaten darstellen.<br />

In Abb. 10.2 ist ein solcher Zustandsautomat dargestellt. Nach jeder<br />

Energiemessung findet ein Zustandsübergang statt. Wenn die Energie<br />

über dem Schwellwert liegt, wird jeweils der mit ⊕ markierte Übergang<br />

genommen, im anderen Fall der mit ⊖ markierte.<br />

Natürlich kann in der Praxis ein solcher Automat beliebig verfeinert<br />

werden. So können (und sollten meist auch) für verschiedene Übergänge<br />

verschiedene Schwellwerte verwendet werden. Auch die Zahl der Zwischenzustände,<br />

in denen ein Sprache/Nichtsprachewechsel antizipiert wird (die<br />

Werte u und v in Abb. 10.2) können variiert werden.<br />

Die Einstellung des Schwellwertes erfolgt bei solchen Detektoren meist<br />

empirisch. Es werden einige Aufnahmen gemacht und die Energie gemessen.<br />

Daraufhin entscheidet der Bediener, welcher Schwellwert sinnvoll ist. Besser<br />

ist eine automatische Einstellung, entweder mit Hilfe eines genormten<br />

Signalgebers oder adaptiv mit Hilfe der vom Spracherkenner gelieferten<br />

Erkennungshypothesen. Man kann erwarten, daß ein einigermaßen gut<br />

funktionierender Erkenner zumindest ausreichend genau Stille von Sprache<br />

unterscheiden kann, um damit einen initialen Schwellwert zu bestimmen,

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!