18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

152 10. Erkennung statischer Sprachsignale<br />

Jeder, der schon mal Walkie-Talkies oder CB-Funk Geräte benutzt hat, hat<br />

den ein oder anderen Fall erlebt, daß der Sprecher den Sendeknopf mitten<br />

in der ersten gesprochenen Silbe betätigt und mitten oder kurz vor der<br />

letzten Silbe schon wieder losläßt, so daß der Anfang und das Ende des<br />

Gesprochenen abgeschnitten werden.<br />

Aus Erfahrung mit Vorführungen von Spracherkennungssystemen wissen<br />

wir außerdem, daß unerfahrene Benutzer sich unsicher sind über die korrekte<br />

Bedienung eines Aufnahmeknopfes. Das fängt an mit der Frage, ob der<br />

Knopf nur einmal kurz gedrückt werden soll oder ob er während der<br />

gesamten Aufnahme gedrückt bleiben soll, und reicht bis zu Personen, die<br />

den Knopf für jedes Wort, das sie sprechen, einzeln kurz antippen. Bei<br />

solchen Problemen hilft auch möglicherweise vorhandenes Feedback in Form<br />

eines akustischen Start-/Stoppsignals oder eines visuellen hervorgehobenen<br />

Ohres nicht viel.<br />

Teilweise ist es problematisch, auf Aufnahmegrenzen zu verzichten und<br />

den Erkenner ununterbrochen laufen zu lassen. Dies ist deshalb nicht immer<br />

angebracht, weil die durchschnittliche Erkennung dann höchstens in Echtzeit<br />

oder noch schneller ablaufen müßte. Nicht jede Erkennungsaufgabe kann so<br />

schnell mit ausreichender Erkennungsgenauigkeit ablaufen. Außerdem stellt<br />

es eine große Ressourcenverschwendung dar, wenn ganze Computer ständig<br />

damit beschäftigt sind, Sprache zu erkennen, obwohl nur einen Bruchteil der<br />

Zeit wirklich Sprache vorliegt.<br />

Wünschenswert wäre es, wenn auf das Bestimmen der Aufnahmegrenzen<br />

durch den Benutzer ganz verzichtet werden könnte. Das Sprachverarbeitungssystem<br />

sollte selbständig erkennen, wann die aufgezeichnete Wellenform<br />

Sprache darstellt und wann nicht. Die naheliegendste Vorgehensweise ist<br />

ein einfacher Schwellwertdetektor, der immer dann, wenn die Energie des<br />

Signals über einem Schwellwert liegt, diesen Bereich der Aufnahme dem<br />

Spracherkenner zur Erkennung gibt. Dabei wird die Energie des Signals<br />

über einen bestimmten Zeitraum gemessen (typischerweise 10 bis 100 Millisekunden).<br />

Diese Meßwerte bilden eine zeitliche Folge. Um zu vermeiden,<br />

daß der Sprachdetektor anspringt, wenn nur eine kurzzeitige Überschreitung<br />

des Schwellwertes – z.B. durch Störgeräusche – verzeichnet wird, kann die<br />

Entscheidung ” Sprache liegt vor“ auch erst dann getroffen werden, wenn<br />

eine ausreichend große Zahl an aufeinanderfolgenden Meßwerten über dem<br />

Schwellwert liegt. Entsprechend wird das kurzzeitige Unterbrechen der Sprache<br />

durch kurze Niedrigenergiephasen verhindert, indem das System erlaubt,<br />

daß einige wenige Meßwerte unterhalb des Schwellwertes akzeptiert werden,<br />

ohne daß die Hochenergiephase als beendet angesehen wird. Solche kurzen<br />

Unterbrechungen könnten zwar auch durch Störungen im Aufnahmeapparat<br />

verursacht werden, viel eher aber kommen sie von den Pausen beim Spre-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!