18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

8.5 Einfache Signalnormalisierungen 123<br />

Spracherkennungsprozeß als eine Art Normierung ansehen. So weit wollen<br />

wir aber nicht gehen. Wenn wir hier von Normierung reden, dann meinen<br />

wir damit die Transformation des Signals, so daß die Variabilität abnimmt<br />

und die Parameter des Erkennungssystems besser geschätzt werden können,<br />

bzw. daß weniger Parameter für die gleiche Klassifikationsleistung benötigt<br />

werden. Eine sehr einfache Normierung, die man leicht als sinnvoll ansieht,<br />

ist die Normierung der Lautstärke. Eine Wortfolge bleibt sicher dieselbe,<br />

unabhängig davon wie der Mikrophonverstärker eingestellt ist. Wozu sollte<br />

man also dem Erkenner die ” Mühe“ machen, Darstellung der gleichen Laute<br />

für verschiedene Lautstärken lernen zu müssen. Einige Normierungsverfahren<br />

können schon auf dem reinen Signal durchgeführt werden, andere verwenden<br />

Wissen über die Lautfolge und greifen erst viel später im Erkennungsprozeß.<br />

8.5.1 Offsetnachführung<br />

Je nachdem, auf welche Art das Sprachsignal weiter verarbeitet wird, kann<br />

es durchaus schädlich sein, wenn die ” Nullinie“ nicht bei null sondern<br />

irgendwo daneben liegt. Bei vielen A/D Wandlern kann es vorkommen, daß,<br />

selbst wenn gar kein Signal anliegt, ein Wert ungleich null geliefert wird.<br />

Dieser Wert wird als Offset des A/D Wandlers bezeichnet. Insbesondere<br />

wenn die Energie eines Signals berechnet werden soll, kann das Ergebnis<br />

durch einen Offset stark verfälscht werden. Daher ist es sinnvoll, bei einer<br />

Sprachaufnahme den Durchschnittswert aller Abtastwerte zu berechnen<br />

und diesen von allen Werten zu subtrahieren. Um einer schleichenden<br />

Wanderung des Offsets entgegenzuwirken, sollte dies sogar auf jedem<br />

ausreichend langen Teilstück einer Aufnahme gemacht werden. Wenn wir<br />

davon ausgehen, daß die kleinste Informationstragende Frequenz in einer<br />

Sprachaufnahme nicht unter 10 Hz liegt, dann kann der Offset auf Abschnitten<br />

der Länge 1/10 Sekunde jeweils neu geschätzt und so nachgeführt werden.<br />

Einen vergleichbaren Effekt kann man dadurch erzielen, daß man statt<br />

des aufgezeichneten Signals dessen Ableitung verwendet. In der Regel ist der<br />

Unterschied zwischen einem Sprachsignal und dessen Ableitung nicht hörbar.<br />

Nimmt man an, daß das Signal als Superposition mehrerer Sinus-Funktionen<br />

mit verschiedenen Frequenzen und Phasen entseht, dann ist die Ableitung<br />

davon wieder einer Superposition von den gleichen Sinus-Funktionen mit<br />

denselben Frequenzen nur mit anderen Phasen. Da aber nach allgemeiner<br />

Einschätzung das Phasenspektrum keine Rolle bei der Erkennung von Sprache<br />

spielt, enthält das abgeleitete Signal alle relevanten Informationen, ist<br />

aber mittelwert- bzw. offset-bereinigt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!