18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

124 8. Verarbeitung von Sprachsignalen<br />

8.5.2 Mittelwertssubtraktion<br />

Unabhängig von der Bedeutung der Cepstralkoeffizienten, bei denen ein<br />

” konstanter“ und eine variabler“ Signalanteil entfaltet werden, enthalten<br />

”<br />

Sprachaufnahmen oft auch über eine gewisse Zeit konstante additiv überlagerte<br />

Geräusche. Aufgrund der Linearität der Fouriertransformation (und<br />

auch der Inversen) finden sich additive Anteile in der Zeitdarstellung als<br />

additive Anteile in der Frequenzdarstellung wieder. Das heißt, daß z.B.<br />

ein Hintergrundrauschen (z.B. die typische Büroakustik mit dem Surren<br />

von PC-Lüftern und Festplatten) sich sowohl im Spektrum als auch im<br />

Cepstrum als additiver Anteil wiederfinden, der über eine bestimmte Zeit<br />

relativ konstant ist.<br />

Wenn wir davon ausgehen, daß das Hintergrundgeräusch während<br />

einer gesamten Aufnahme unverändert ist, dann empfiehlt es sich, das<br />

durchschnittliche Spektrum oder das durchschnittliche Cepstrum von allen<br />

Kurzzeitspektren bzw. Kurzzeitcepstren zu subtrahieren. Dadurch wird<br />

auf jeden Fall der zeitlich konstante Anteil des Hintergrundgeräusches aus<br />

dem Signal entfernt, allerdings werden auch konstante Anteile aus dem<br />

Sprachanteil des Signals auch entfernt. Die Praxis hat gezeigt (z.B. [?]), daß<br />

der Schaden durch die Mittelwertssubtraktion bei weitem durch die Vorteile<br />

aufgewogen wird. Zum einen ist für die Erkennung von Sprachsignalen der<br />

konstante Anteil weniger wichtig als der variable, zum anderen können<br />

störende Hintergrundgeräusche, die während der Erkennung aber nicht in<br />

den Trainingsdaten auftreten, die Erkennungsqualität sehr stark senken.<br />

Dabei ist weniger das Vorhandensein der Geräusche ausschlaggebend sondern<br />

vielmehr die Unterschiedlichkeit der Trainings- und der Testaufnahmen.<br />

Wenn wir nicht davon ausgehen, daß das Hintegrundrauschen während einer<br />

gesamten Aufnahme konstant ist, können wir mit Hilfe eines Schleppfensters<br />

von jedem Kurzzeitspektrum, den Mittelwert einiger vorangegangenen<br />

Spektren subtrahieren. Am einfachsten ist es, dabei ein exponentiell abfallend<br />

gewichtetes Fenster zu verwenden, so daß des i-te Spektrum xi ersetzt<br />

wird durch x ′ i = i−1<br />

k=0 ek−i · xk.<br />

8.6 Wavelets<br />

Für den Raum der bandbegrenzten 2π-periodische Funktionen bilden die<br />

Funktionen cos(0x), sin(x), cos(x), sin(2x), cos(2x), . . . sin(nx), cos(nx) eine<br />

Orthonormalbasis. Jede Funktion läßt sich als Linearkombination von Sinusund<br />

Cosinusfunktionen verschiedener Frequenzen darstellen. Schon relativ<br />

früh nachdem Fouriers Theorie anerkannt wurde, wurden auch andere Basen<br />

angedacht. Betrachtet man die Fourierreihen für unstetige Funktionen,

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!