18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

10.1 Zeitsignalbasierte Erkennung 155<br />

Klassifikator scheint in solchen Situationen angebrachter. Zum Beispiel<br />

könnte ein Gauß-Klassifikator verwendet werden, der zwei multivariate<br />

Normalverteilungen, eine für Sprache und eine für Stille modelliert. Im<br />

allgemeineren Fall könnten sogar mehrere Verteilungen je Modell verwendet<br />

werden und so der Grenzverlauf zwischen den Modellen beliebig kompliziert<br />

modelliert werden.<br />

In machen Situationen, insbesondere wenn die Rechnerkapazität dies<br />

erlaubt, kann zur Detektion von Stille sogar ein kompletter Spracherkenner<br />

verwendet werden. Dieser Spracherkenner muß nicht mit einem großen<br />

Vokabular laufen. Zum Beispiel würde ein Lauteerkenner, der auch den<br />

” Laut“ Stille erkennen kann ausreichen. Im Extremfall kann das Vokabular<br />

des Erkenners aus nur zwei Vokabeln“, Stille und Sprache, bestehen, was<br />

”<br />

dann einem einfachen Klassifikator wie weiter oben beschrieben sehr nahe<br />

kommt.<br />

10.1.2 Kombination von Merkmalen<br />

Für Nahbesprechungsmikrophone funktionieren einfache, nur die Energie<br />

messende Detektoren meist ausreichend gut. Wenn die Aufnahmebedingungen<br />

aber so sind, daß die Hintergrundgeräusche in etwa so laut sind wie<br />

leise Anteile der Sprache, müssen etwas intelligentere Detektoren verwendet<br />

werden. Hin und wieder beobachtet man das Phänomen, daß die letzten<br />

Silben eines Satzes von Detektoren abgeschnitten werden, weil es üblich ist,<br />

die Lautstärke am Ende eines Satzes zu senken, was dazu führt, daß die<br />

Signalenergie unter den Schwellwert fällt, der höher als das Hintergrundrauschen<br />

gewählt wurde.<br />

Auch Sprachlaute, die nur wenig Energie haben, wie zum Beispiel Konsonanten,<br />

werden leicht von einfachen Detektoren als Stille mißverstanden.<br />

In solchen Fällen bietet es sich an, weitere Eigenschaften des Signals außer<br />

der Energie zu messen.<br />

Die Nulldurchgangsrate und der Verlauf der Amplituden sind Merkmale,<br />

die gerne verwendet werden. Zwar ist es so, daß die Energie des Signals<br />

dem Integral unter dem Quadrat der Amplitude entspricht, aber dennoch<br />

enthält die Amplitude zusätzliche Information. Hohe Amplituden, die nicht<br />

lange anhalten haben wenig Energie, deuten aber auf Plosivlaute oder<br />

Stopplaute hin. Die Nulldurchgangsrate bzw. die Änderung derselben kann<br />

auch Hinweise darauf geben, daß Sprache vorliegt, obwohl die Energie sehr<br />

niedrig ist.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!