18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

8.2 Spektralranalyse 109<br />

Klicken Sie jetzt auf Fouriertransform und betrachten Sie das angezeigte<br />

Spektrum. Wenn Ihr Pfeifton ” sauber“ war, dann dürfte im Spektrum<br />

abgesehen von ein paar Wacklern hier und da im wesentlichen nur ein<br />

einziger deutlicher Ausschlag zu erkennen sein.<br />

Die horizontale Achse des Spektrums ist die Frequenzachse. An Ihr können<br />

Sie ablesen, welche Frequenz Ihr Pfeifton hatte.<br />

Machen Sie noch eine Aufnahme, bei der Sie diesmal zwei oder drei Pfeiftöne<br />

hintereinander mit unterschiedlichen Tonhöhen aufnehmen. Im Spektrum<br />

sollten Sie dann zwei oder drei Ausschläge erkennen.<br />

Machen Sie noch ein paar Aufnahmen und betrachten Sie die dazugehörigen<br />

Spektren. Probieren Sie insbesondere einige Vokale und einige Frikative aus<br />

(z.B. ein lautes und deutliches Ah oder ein besonders lautes Sch.)<br />

Machen Sie eine Aufnahme, in der Sie viele verschiedene Laute sprechen,<br />

z.B. einen ganzen Satz.<br />

8.2.1 Langzeitspektrum<br />

Nimmt man eine komplette Aufnahme, die es gilt zu erkennen, also zum<br />

Beispiel ein Wort oder einen Satz, und berechnet das Spektrum dieser<br />

Aufnahme, dann erhält man so etwas ähnliches wie die Überlagerung der<br />

Spektren aller in der Aufnahme vorkommenden Laute. Es ist schon bei<br />

wenigen Lauten kaum möglich, und bei vielen Lauten eigentlich unmöglich,<br />

in so einem Spektrum die ” Teilspektren“ der einzelnen Laute zu identifizieren.<br />

Eine Rekonstruktion der Reihenfolge, in der die Laute artikuliert<br />

wurden, ist unmöglich. Daher eignet sich ein Spektrum, das über einer längeren<br />

Aufnahme berechnet wird, nicht, um darauf Spracherkennung zu machen.<br />

Wir können aber leicht feststellen, daß die Spektren einzelner ” uniformer“<br />

Laute diese Laute oft recht gut charakterisieren. Die naheliegende<br />

Vorgehensweise besteht also darin, nicht ein Spektrum über die gesamte<br />

Aufnahme zu berechnen, sondern viele Spektren über einzelne Teile der<br />

Aufnahme, in denen ein wenigstens einigermaßen stationärer Laut zu hören<br />

ist.<br />

Im übrigen bringen echte Langzeitspektren eine weitere Herausforderung<br />

mit sich. Wenn die Aufnahme aus Tausenden oder gar Hunderttausenden<br />

Abtastwerten besteht, dann ist die Berechnung der diskreten Fouriertransformierten<br />

(DFT) auf einem so langen Vektor extrem aufwendig bis gar nicht<br />

mehr sinnvoll durchführbar. So sind viele Langzeitspektraldarstellung (wie

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!