18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

8.3 Cepstralanalyse<br />

8.3 Cepstralanalyse 119<br />

Betrachten wir das Quelle-Filter-Modell des Vokaltraktes wie in Abb. 4.9<br />

dargestellt. Dabei nehmen wir an, daß das aufgezeichnete Sprachsignal<br />

entsteht, indem eine Anregungsschwingung a durch mehrere hintereinanderfolgende<br />

Filter gefiltert wird. Wenn wir davon ausgehen, daß es sich bei<br />

diesen Filtern um lineare zeitinvariante Filter handelt, dann können wir die<br />

Hintereinanderausführung mehrerer Filter zur Anwendung eines einzigen<br />

Filters b zusammenfassen. Die Beobachtung ist dann also die Faltung<br />

c = a ∗ b von a mit b.<br />

Wenn wir eine Spektralanalyse, also eine Fouriertransformation der Beobachtung<br />

durchführen, erhalten wir: C = A · B wobei C die Transformierte<br />

von c, A die Transformierte von a und B die Transformierte von b ist. Eine<br />

anschließende Logarithmierung liefert log C = log A + log B. Jetzt sehen<br />

wir, daß das logarithmierte Spektrum eine Summe zweier logarithmierter<br />

Spektren ist. Spricht jemand mehrere Vokale hintereinander, so kann dabei<br />

die Anregungsschwingung unverändert bleiben während sich die Form des<br />

Vokaltraktes, insbesondere die Lage der Zunge ändert. Das heißt über eine<br />

gewisse Zeit bleibt a konstant, während nur b sich ändert. Berechnet man<br />

den Mittelwert ¯ C = Ā + ¯ B von log C über diesem Zeitraum und subtrahiert<br />

ihn von jedem einzelnen logarithmierten Kurzzeitspektrum, dann erhalten<br />

wir log A(t) + log B(t) − ¯ C = log B(t) − ¯ B, also nur noch Anteile des<br />

” variablen“ Anteils des Signals. Analog verhält es sich, wenn wir annehmen,<br />

daß der Vokaltrakt – und somit der gesamte Filter – konstant bleibt. Dann<br />

befinden sich im mittelwertsbefreiten logarithmierten Spektrum nur die<br />

” variablen“ Anteile der Anregungsfunktion.<br />

Eine anschließende Fouriertransformation oder auch deren Inverse ändert<br />

aufgrund der Linearitätseigenschaften derselben an diesen Sachverhalten<br />

nichts. In Anlehnung an die Bezeichnung ” Spektrum“ bezeichnen wir die<br />

Funktion FT −1 (log FT(f)) als das Cepstrum der Funktion f.<br />

Statt der vollständigen inversen Fouriertransformation FT −1 kann<br />

auch eine andere spektralanalysierende Transformation wie z.B. die diskrete<br />

Cosinus-Transformation verwendet werden. In jedem Fall ist das<br />

Ergebnis die Spektralanalyse des Spektrums selbst, so daß die niedrigen<br />

Cepstralkoeffizienten die niedrigen Schwingungsanteile des als Schwingung<br />

betrachteten Spektrums enthalten und die höheren Cepstralkoeffizienten die<br />

höherfrequenten Schwingungsanteile enthalten.<br />

Insbesondere kann man sagen, daß der 0-te Cepstralkoeffizient den<br />

Konstantanteil des Spektrums beschreibt, also den durchschnittlichen Wert<br />

aller einzelnen Spektralanteile des Ursprungssignals, d.h. die Gesamtenergie.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!