18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

366 21. Robustheit und Adaption<br />

21.5.5 VTLN<br />

Abb. 21.5 zeigt die idealisierte Vorstellung der Auswirkung unterschiedlich<br />

langer Vokaltrakte auf das durchschnittliche Spektrum eines Sprechers.<br />

Die fett gezeichnete Kurve in der Mitte stellt das Langzeitspektrum eines<br />

Sprechers mit durchschnittlich langem Vokaltrakt. Bei der linken Kurve,<br />

die in etwa die gleich Form hat wie die durchschnittliche, kommen eher<br />

niedrigere Frequenzen vor, so als sei die durchschnittliche Kurve nach links<br />

verschoben. Dies ist bei Sprechern mit langem Vokaltrakt zu erwarten, da<br />

lange Vokaltrakte längere Wellenlängen also niedrigere Frequenzen weniger<br />

dämpfen. Bei Personen mit relativ kurzem Vokaltrakt ist zu erwarten, daß<br />

vermehrt hohe Frequenzen vorkommen, daß also tendenziell das durchschnittliche<br />

Spektrum nach rechts verschoben ist.<br />

langer<br />

Vokal-<br />

trakt<br />

durchschnittliches<br />

Spektrum<br />

Abb. 21.5. Spektren für verschiedene Vokaltraktlängen<br />

kurzer<br />

Vokaltrakt<br />

Frequenz<br />

In der Praxis sehen die Durchschnittsspektren natürlich nicht so idealisiert<br />

aus wie in Abb. 21.5. Schließlich bestimmt nicht nur die Vokaltraktlänge<br />

sondern auch die von den Stimmbändern erzeugte Grundfrequenz die Anteile<br />

der verschiedenen Frequenzen am Spektrum.<br />

Eine Möglichkeit der Vokaltraktlängenadaption besteht darin, das<br />

Sprachsignal so zu transformieren, daß es dem eines Sprechers mit durchschnittlichem<br />

Vokaltrakt möglichst nahe kommt. Es handelt sich dabei<br />

also um eine Normierung und um eine Signaladaption (vgl. Gl. 21.1).<br />

Diese Normierung wird oft auch als Vokaltraktlängennormierung (VTLN)<br />

bezeichnet. Die beliebteste Art der VTLN ist die Neudefinition der Zusammenfassung<br />

der Fourierkoeffizienten zu Filterbänken. Sei B0(f) der<br />

Index des Filterbankkoeffizienten, der unter anderen den Energieanteil der<br />

Frequenz f aufnimmt. Betrachten wir einen Laut, bei dem der Durchschnitt<br />

der Frequenzen mit höchster Energie über alle Sprecher bei f0 liegt.<br />

Spricht nun ein Sprecher diesen Laut so, daß der größte Energieanteil bei<br />

der Frequenz f1 vorkommt, dann ist die Idee jetzt, eine Filterbankfunk-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!