18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

8. Verarbeitung von Sprachsignalen<br />

Sprachsignale werden typischerweise als diskrete Abtastfolgen von Spannungsverläufen,<br />

die an einem Mikrophon durch Änderungen des umgebenden<br />

Schalldrucks bzw. der Schallschnelle anliegen, dargestellt. Die Spannungsverläufe<br />

werden von einem Analog-Digital-Wandler zu diskreten Zeitpunkten<br />

quantisiert und als diskretes Signal mit endlichem Wertebereich ausgegeben.<br />

Die wichtigsten Parameter der Analog-Digital-Wandlung sind die Abtastfrequenz<br />

und die Auflösung. Typische Werte sind 16kHz und 16 bit.<br />

8.1 Eigenschaften des Signals im Zeitbereich<br />

Die Darstellung eines abgetasteten Sprachsignals als Kurve hat vermutlich<br />

jeder Leser schon einmal gesehen (zum Beispiel Abb. 2.3). Schon beim Anblick<br />

einer solchen Darstellung des Signals im Zeitbereich erscheint es dem<br />

Betrachter sehr schwierig, damit gesprochene Sprache zu erkennen. Betrachten<br />

wir zunächst einige leicht erkennbare Eigenschaften. Wenn die horizontale<br />

Auflösung der Darstellung nicht ausreicht, um jeden Abtastwert einzeln anzuzeigen,<br />

erkennt man meist nur die sogenannte Einhüllende (engl.: envelope).<br />

Diese ist stark korreliert mit der Energie des Signals. Meist kann man an<br />

dieser Einhüllenden ziemlich leicht erkennen, in welchen Zeitbereichen des<br />

Signals gesprochen wurde. Umgekehrt ist das in der Regel nicht so einfach.<br />

Dort, wo die Einhüllende nicht nennenswert von der Nullinie abweicht, kann<br />

trotzdem Sprache vorliegen, dann aber meist solche Teile, die nicht stimmhafte<br />

Laute enthalten. Abb. 8.1 stellt zwei Signale gegenüber. Das linke ist<br />

ein Ausschnitt aus einer Aufnahme eines stimmhaften Lauts, in dem deutlich<br />

eine Regelmäßigkeit zu erkennen ist. Auf den ersten Blick wird das Signal aus<br />

nur wenigen einzelnen Wellen zusammengesetzt. Auf der Rechten Seite der<br />

Abbildung ist die Aufnahme eines stimmlosen Lauts zu sehen. Hier ist keine<br />

Ordnung zu erkennen. In der Tat lassen sich stimmlose Frikative wie zum<br />

Beispiel ein [s] auch sehr gut durch einfaches weißes Rauschen synthetisieren.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!