18.11.2014 Aufrufe

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Abbildung 2: C-Bogen-System zur <strong>3D</strong>-Darstellung von Gefäßen (Quelle: Siemens Medical <strong>Solutions</strong>).<br />

• Kommandowort-Systeme: Diese Kategorie von Systemen ist immer noch sehr weit verbreitet,<br />

da sie wenig Rechenaufwand erfordert, es billige Chips dafür gibt und da der Anwender<br />

den Wortschatz selbst festlegen kann. Ein System kann ca. 10 bis 100 Einzelwörter<br />

erkennen, jedes davon löst eine Aktion aus. Der Anwender muß jedes der Kommandowörter<br />

ein- oder mehrmals sprechen. Aus den Sprachsignalen werden Merkmale berechnet und abgespeichert.<br />

Wird ein neuer Befehl gesprochen, so werden die daraus berechneten Merkmale<br />

mit allen gespeicherten Befehlen verglichen (Dynamische Zeitverzerrung) und das System<br />

entscheidet sich für den Befehl mit dem kleinsten Abstand. Ein wichtiger Nachteil dieses<br />

Ansatzes ist die Sprecherabhängigkeit des Systems: Wechselt der Anwender, so muss<br />

das gesamte System neu trainiert werden. Typische Anwendungen sind die Sprachwahl<br />

bei Handys (siehe die Telekom-Werbung “Wenn Sie Ihre Oma anrufen wollen, sagen Sie<br />

einfach ‘Oma’!”) oder einfache Gerätesteuerungen (“links”, “rechts”, “stop”).<br />

• Kommando- und Kontroll-Systeme: Die oben genannten Systeme stoßen sehr schnell<br />

an ihre Grenze, wenn es um die Parametrierbarkeit der Befehle geht (“nach links um<br />

Grad”). Die Tatsache, dass man einer Benutzeräußerung nicht mehr eine Aktion<br />

zuordnen kann, hat wichtige Konsequenzen: die erkannte Wortkette muß analysiert werden;<br />

der einzelne Anwender kann nicht mehr alle kombinatorisch möglichen Äußerungen<br />

vorab sprechen. Daher wird die Erkennung und Interpretation der Befehle mit grundsätzlich<br />

anderen Verfahren durchgeführt: statt sprecherabhängigem Schablonvergleich werden<br />

Verfahren zur sprecherunabhängigen Erkennung (insbesondere “Hidden Markov Modelle”)<br />

und zur Interpretation der erkannten Kette der am wahrscheinlichsten gesprochenen<br />

Wörter (insbesondere “Endliche Automaten”) verwendet. Eine wichtige Unterscheidung<br />

besteht zwischen folgenden Erkennertypen:<br />

– Grammatik-basierte Erkenner: Die Menge der möglichen Befehle wird vorab exakt<br />

festgelegt und in einem Graph abgespeichert. Der Erkenner benutzt den Graphen<br />

und lässt nur Pfade in dem Graphen als gültige Kommandos zu. Jedem Pfad wird<br />

eine Interpretation zugeordnet. Damit steht die Bedeutung des Kommandos nach<br />

der Erkennung fest. Da nicht alle Wörter zu jedem Zeitpunkt möglich sind, wird die<br />

Zahl der Erkennungsfehler stark reduziert. Ein Nachteil ist, dass der Benutzer die<br />

Wortfolge der Befehle exakt kennen muss.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!