18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Abb. 8.7. Spektrogramm der Wortfolge ” eins zwei drei“<br />

8.2 Spektralranalyse 115<br />

– zumindest nicht nur – darauf zurück, daß sie für jedes Kurzzeitspektrum<br />

erkennen können, von welchem Laut es stammt, sondern vielmehr darauf,<br />

daß sie eine herausragende Kombinationsgabe besitzen, ähnlich wie bei<br />

<strong>Mensch</strong>en, die Texte lesen können, bei denen von jeder Zeile die obere Hälfte<br />

oder gar noch mehr verdeckt ist.<br />

8.2.4 Filterbänke<br />

Wie in Abs. 4.2 beschrieben, ist die Empfindlichkeit des Ohres unterschiedlich<br />

für verschiedene Frequenzen. Das menschliche Ohr hat eine feinere<br />

Auflösung für niedrigere Frequenzen. So liegt es nahe, anzunehmen, daß<br />

diejenigen Frequenzbereiche, die das Ohr schlechter auflöst, auch weniger<br />

wichtig für die Erkennung von Sprachlauten sind. Zumindest würde man<br />

erwarten, daß eine Signalverarbeitung, die das Verhalten des Ohres in dieser<br />

Beziehung nachahmt, dadurch eher Vorteile als Nachteile für die Erkennungsgenauigkeit<br />

hat. Die übliche diskrete n-Punkt-Fouriertransformierte<br />

liefert n + 1 diskrete Werte, wobei der 0-te Wert der Frequenz ω = 0 (dem<br />

durchschnittlichen Abstand des Signals von der Zeitachse) entspricht und<br />

der i-te Wert der Frequenz ωs n<br />

2i mit ωs als Abtastrate. Zweifellos ist es bei<br />

einer durchaus typischen 256-Punkt-DFT äußerst unwahrscheinlich, daß zwei<br />

Laute darin unterschieden werden können, daß ein ganz bestimmter Punk<br />

einen ganz bestimmten Wert hat. Vielmehr sind Laute daran zu erkennen,<br />

daß bestimmte Punktbereiche in bestimmten Wertebereichen liegen. Eine<br />

Auflösung von 256 Punkten enthält zwar viel Information, vieles davon ist<br />

aber entweder redundant oder zumindest irrelevant. Wünschenswert wäre<br />

eine Transformation, die die 256 Koeffizienten in wesentlich weniger wandelt<br />

und dabei die für die Erkennung wichtigen Inhalte beibehält.<br />

Bei der Kompression von Videos und Bildern mit Hilfe der JPEG und<br />

MPEG Verfahren werden unter anderem dadurch Daten eingespart, daß

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!