18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

168 11. Erkennung dynamischer Sprachsignale<br />

Wenn das dynamische Programmieren also dazu verwendet wird, zwei<br />

Sprachsignale zeitlich so zu verzerren, daß sie dadurch möglichst gut<br />

aufeinander passen, dann wird dies dynamic time warping (DTW) genannt.<br />

Auch im Deutschen findet man häufiger den englischsprachigen Ausdruck<br />

als das deutsche Pendant ” dynamische Zeitverzerrung“. Das Ergebnis ist<br />

dann analog zum DP-Pfad ein DTW-Pfad (s. Abb. 11.8). Je feiner die<br />

Sprachaufnahmen granuliert sind, das heißt, je kürzer die Zeitabschnitte<br />

sind, für die jeweils ein neuer Merkmalsvektor beobachtet wird, umso<br />

unwichtiger wird die Betrachtung von Auslassungen und Einfügungen. Wenn<br />

wir zwei Signale X = x1, . . . xn und Y = y1, . . .ym betrachten gehen wir<br />

davon aus, der DTW-Pfad k = min(n, m) Zuordnungen (also eine Relation)<br />

{(xi1, yj1), (xi2, yj2), . . . (xik , yjk )} (11.5)<br />

findet, und die Distanz zwischen X und Y berechnet sich als Summe<br />

(kumulative Distanz) aller ” lokalen“ Distanzen:<br />

d(X, Y ) =<br />

k<br />

|xil − yjl | (11.6)<br />

l=1<br />

Als lokale Distanzen |xil − yjl | werden meist einfache euklidische Distanzen<br />

verwendet. In der Praxis stellt sich heraus, daß in der Tat das<br />

Nichtberücksichtigen der Auslassungen und Einfügungen keine merklichen<br />

Auswirkungen auf die Distanzberechnung hat. Somit stellt sich an dieser<br />

Stelle die Frage, ob nicht auch andere Zustandsübergangsschemata als<br />

bei der minimalen Editierdistanz sinnvoll sind. Abb. 11.9 zeigt verschiede<br />

Möglichkeiten an. Oben links ist das Schema zu sehen, das auch für die Editierdistanz<br />

verwendet wurde. Oben in der Mitte ist eine leichte Abwandlung<br />

davon dargestellt, bei der höchsten eine Auslassung oder Einfügung hintereinander<br />

stattfinden darf, so daß nicht längere Abschnitte eines Musters<br />

komplett ignoriert werden können. Das Übergangsschema oben links wird<br />

Bakis-Schema genannt. Es ist für die Berechnung von Editierdistanzen wegen<br />

des fehlenden Einfügeschrittes nicht geeignet. Da dies aber beim Vergleich<br />

von Sprachaufnahmen keine Bedeutung hat, und da das Bakis-Schema als<br />

sehr angenehme Eigenschaft hat, immer nur von Zuständen (t, . . .) auf<br />

Zustände (t + 1, . . .) überzugehen, ist es das in der Spracherkennung am<br />

häufigsten benutzte. Es ermöglicht so relativ effiziente Implementierungen.<br />

Das Schema unten links ist eine Modifikation des Bakis-Schemas, bei der<br />

keine zwei aufeinanderfolgenden horizontalen Schritte erlaubt sind – auch<br />

hier, um zu verhindern, daß größere Bereiche einer Aufnahme komplett<br />

ignoriert werden können. Auch wesentlich komplexere Schemata wie unten<br />

in der Mitte und unten rechts (hier mit zusätzlich gewichteten in die<br />

Distanzberechnung mit eingehenden Straftermen versehen) wurden gelegentlich<br />

verwendet. Das Schema unten links (Itakura-Schema) verbietet ein<br />

zweimaliges Nach-Rechts-Gehen“ und stellt so auch eine Mindeststeigung<br />

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!