18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

422 26. Zusätzliche Modalitäten<br />

26.2 Sprecherlokalisierung<br />

In Szenarien, in denen <strong>Maschine</strong>n für die Perzeption menschlicher <strong>Kommunikation</strong><br />

eingesetzt werden – unabhängig davon, ob für <strong>Mensch</strong>-<strong>Mensch</strong>- oder<br />

<strong>Mensch</strong>-<strong>Maschine</strong>-<strong>Kommunikation</strong> – kommt es oft vor, daß die räumliche<br />

Position eines Sprechers von Bedeutung ist. So ist es zum Beispiel für das<br />

Erzeugen einer Zusammenfassung einer Besprechung wichtig festzuhalten,<br />

von welchem Sprecher was gesagt wurde. Auch wenn dem System die Sprecher<br />

nicht bekannt sind, so kann es dennoch jedem Besprechungsteilnehmer<br />

einen virtuellen Namen zuordnen. Wenn keine zusätzlichen perzeptiven<br />

Möglichkeiten über im Raum installierte Kameras existieren, dann besteht<br />

eine Person für das System aus einer Stimme und einer Position. Personen<br />

könnte man sicher auch über den Inhalt dessen, was sie sagen, identifizieren.<br />

Sicherer aber geht es indem man entweder die Stimme analysiert, was in<br />

der Komplexität vergleichbar aufwendig ist, wie die Erkennung der Sprache<br />

selbst, oder man stellt den Ort des Schallquelle fest, von der aus das gerade<br />

Gesagte kommt.<br />

26.2.1 Akustisch<br />

Wenn zur Aufnahme eines Sprachsignals mehr als ein Mikrophon verwendet<br />

wird, kann man auf die Position der Quelle des Signals Rückschlüsse ziehen.<br />

Betrachten wir die stereophone Aufnahme eines Signals. Jedes der beiden<br />

Mikrophone ist mit einem eigenen Eingang eines Mehrkanal-Analog-Digital-<br />

Wandlers verbunden. Die Verwendung eines solchen Wandlers ist nötig, um<br />

eine exakte zeitliche Zuordnung der einzelnen Abtastwerte aus verschiedenen<br />

Kanälen zu ermöglichen. Nehmen wir der Einfachheit halber an, die<br />

Aufnahmevorrichtung, das heißt die beiden Mikrophone und die Schallquelle,<br />

befinden sich in der selben Ebene. Das erste Mikrophon liefert die Abtastwerte<br />

X1 = (x1[1], x1[2], . . .x1[n]) und das zweite Mikrophon die Werte<br />

X2 = (x2[1], x2[2], . . . x2[n]). Nehmen wir außerdem an, daß die Schallwellen,<br />

die bei den beiden Mikrophonen ankommen, sich nur unwesentlich voneinander<br />

unterscheiden, und daß der Hauptunterschied der zeitliche Versatz ist,<br />

also das der Schallquelle nähere Mikrophon die Welle zuerst mißt bevor diese<br />

auf das entferntere Mikrophon trifft. Wenn die beiden gemessenen Signale<br />

ausreichend ähnlich<br />

<br />

sind, kann man mit Hilfe der Korrelation den Zeitversatz<br />

d = argmaxd x1[i]·x2[i−d] messen. Bei einer Abtastrate von r Hz bedeutet<br />

ein Zeitversatz von m Abtastwerten einen Laufzeitunterschied von r · m Sekunden.<br />

Bei einer Aufnahme mit für die Spracherkennung typischen 16 kHz<br />

kann also der Laufzeitunterschied mit einer Genauigkeit von ca. 1/16000 Sekunde<br />

gemessen werden. Wenn nun noch die Schallgeschwindigkeit c bekannt<br />

ist, dann läßt sich daraus der Distanzunterschied der Schallquelle zu den<br />

beiden Mikrophonen berechnen:

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!