Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Abbildung 2: C-Bogen-System zur <strong>3D</strong>-Darstellung von Gefäßen (Quelle: Siemens Medical <strong>Solutions</strong>).<br />
• Kommandowort-Systeme: Diese Kategorie von Systemen ist immer noch sehr weit verbreitet,<br />
da sie wenig Rechenaufwand erfordert, es billige Chips dafür gibt und da der Anwender<br />
den Wortschatz selbst festlegen kann. Ein System kann ca. 10 bis 100 Einzelwörter<br />
erkennen, jedes davon löst eine Aktion aus. Der Anwender muß jedes der Kommandowörter<br />
ein- oder mehrmals sprechen. Aus den Sprachsignalen werden Merkmale berechnet und abgespeichert.<br />
Wird ein neuer Befehl gesprochen, so werden die daraus berechneten Merkmale<br />
mit allen gespeicherten Befehlen verglichen (Dynamische Zeitverzerrung) und das System<br />
entscheidet sich für den Befehl mit dem kleinsten Abstand. Ein wichtiger Nachteil dieses<br />
Ansatzes ist die Sprecherabhängigkeit des Systems: Wechselt der Anwender, so muss<br />
das gesamte System neu trainiert werden. Typische Anwendungen sind die Sprachwahl<br />
bei Handys (siehe die Telekom-Werbung “Wenn Sie Ihre Oma anrufen wollen, sagen Sie<br />
einfach ‘Oma’!”) oder einfache Gerätesteuerungen (“links”, “rechts”, “stop”).<br />
• Kommando- und Kontroll-Systeme: Die oben genannten Systeme stoßen sehr schnell<br />
an ihre Grenze, wenn es um die Parametrierbarkeit der Befehle geht (“nach links um<br />
Grad”). Die Tatsache, dass man einer Benutzeräußerung nicht mehr eine Aktion<br />
zuordnen kann, hat wichtige Konsequenzen: die erkannte Wortkette muß analysiert werden;<br />
der einzelne Anwender kann nicht mehr alle kombinatorisch möglichen Äußerungen<br />
vorab sprechen. Daher wird die Erkennung und Interpretation der Befehle mit grundsätzlich<br />
anderen Verfahren durchgeführt: statt sprecherabhängigem Schablonvergleich werden<br />
Verfahren zur sprecherunabhängigen Erkennung (insbesondere “Hidden Markov Modelle”)<br />
und zur Interpretation der erkannten Kette der am wahrscheinlichsten gesprochenen<br />
Wörter (insbesondere “Endliche Automaten”) verwendet. Eine wichtige Unterscheidung<br />
besteht zwischen folgenden Erkennertypen:<br />
– Grammatik-basierte Erkenner: Die Menge der möglichen Befehle wird vorab exakt<br />
festgelegt und in einem Graph abgespeichert. Der Erkenner benutzt den Graphen<br />
und lässt nur Pfade in dem Graphen als gültige Kommandos zu. Jedem Pfad wird<br />
eine Interpretation zugeordnet. Damit steht die Bedeutung des Kommandos nach<br />
der Erkennung fest. Da nicht alle Wörter zu jedem Zeitpunkt möglich sind, wird die<br />
Zahl der Erkennungsfehler stark reduziert. Ein Nachteil ist, dass der Benutzer die<br />
Wortfolge der Befehle exakt kennen muss.