18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

110 8. Verarbeitung von Sprachsignalen<br />

z.B. im Experiment 8.1) in Wirklichkeit nur gemittelte Spektren mehrerer<br />

gleichlanger Teilaufnahmen, für die die Berechnung einer DFT in akzeptabler<br />

Zeit machbar ist.<br />

8.2.2 Kurzzeitspektrum<br />

Um Sprache zu erkennen, bietet es sich also an, statt eines Langzeitspektrums<br />

viele aufeinanderfolgende Kurzzeitspektren zu berechnen, von denen<br />

jedes einem Laut entspricht. Da wir zu der Zeit, zu der wir entscheiden<br />

müssen, auf welchen Teilen eines Signals ein Kurzzeitspektrum berechnet<br />

wird, ja noch gar nicht wissen, wo ein Laut anfängt und wo die Grenze zum<br />

nachfolgenden Laut ist, müssen wir also anders vorgehen. Die erste Idee, im<br />

Signal nach stationären Teilen zu suchen ist relativ schwierig umzusetzen.<br />

Aus der reinen Wellenform des Signals ist es zwar möglich, bestimmte grobe<br />

Strukturen wie Sprache / Stille, oder stimmhaft / stimmlos zu erkennen,<br />

aber die Auftrennung in einzelne Laute ist nicht sinnvoll machbar. Als<br />

Alternative drängt sich die Methode auf, einfach in regelmäßigen kurzen<br />

Zeitintervallen ein neues Spektrum zu berechnen. Wenn diese Intervalle<br />

genügend kurz sind – z.B. kürzer als der zu erwartende kürzeste Laut – dann<br />

können wir davon ausgehen, daß jeder Laut aus mehreren hintereinander<br />

liegenden ähnlichen Kurzzeitspektren besteht.<br />

Mit Framerate wird üblicherweise der zeitliche Abstand einzelner Kurzzeitspektren<br />

bezeichnet. Jedes einzelne Spektrum wird auf einem kleinen<br />

Zeitrahmen (Frame) berechnet. Bevor wir uns für einen bestimmten regelmäßigen<br />

Abstand entscheiden, könnte ein Blick auf die durchschnittlichen<br />

Längen einzelner Laute hilfreich sein. Eine Längenstatistik für Laute des<br />

amerikanischen Englisch ist in Tab. 8.2 dargestellt (die Werte wurden mit<br />

einem Erkenner, der nicht alle IPA-Laute kannte, ermittelt, daher die nicht<br />

1:1 Abbildung von IPA-Symbolen zu Lauten). Die kürzesten Laute nehmen<br />

im Schnitt ca. 40 Millisekunden Zeit in Anspruch. Die längsten haben<br />

einen Schnitt von einer achtel Sekunde. Selbstverständlich kommen in der<br />

natürlichen Sprache auch Laute vor, die signifikant kürzer sind als 40 ms,<br />

und es ist auch problemlos möglich, einzelne Laute mehrere Sekunden lang<br />

anzuhalten. Dennoch ist es sinnvoll, alle 10 ms ein neues Spektrum zu<br />

berechnen. Dann kann man davon ausgehen, daß selbst die kürzesten Laute<br />

im Schnitt aus einigen wenigen Kurzzeitspektren zusammengebaut werden<br />

können. Die meisten Spracherkenner verwenden daher auch Frameraten von<br />

ca. 10 ms. Unter Umständen kann eine dynamische Variation dieses Wertes<br />

sinnvoll sein, zum Beispiel um variierende Sprechgeschwindigkeiten etwas<br />

auszugleichen oder auch um in relativ stationären Teilen dadurch Rechenzeit<br />

einzusparen, daß weniger Frames berechnet werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!