18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

156 10. Erkennung statischer Sprachsignale<br />

Eine der sinnvollsten Arten, einen Sprachdetektor unter Verwendung<br />

mehrer Eigenschaften des Signals zu machen, ist ein multivariater Gauß-<br />

Klassifikator. Im n-dimensionalen Merkmalsraum wird je Klasse (Stille vs.<br />

Sprache) eine Normalverteilung geschätzt. Wenn genügend Aufnahmedaten<br />

vorliegen, kann man auch mehrere Normalverteilungen zu einem Codebuch<br />

je Klasse schätzen. Solche Gaußklassifikatoren, zusätzlich versehen mit einer<br />

” dynamischen Entscheidungsglättung“ ähnlich wie beim Zustandsautomaten<br />

funktionieren, in der Regel höchst zufriedenstellend.<br />

10.2 Das Vokaldreieck<br />

In Abb. 4.8 ist die Bedeutung des Begriffes Formanten skizziert. Ende<br />

der Achtziger wurden Versuche unternommen, aus dem Sprachsignal die<br />

Formanten zu extrahieren [?] [?]. Dabei wurden verschiedene amerikanische<br />

Vokale gesprochen. Die erste und zweite Formante, F1 und F2 wurden gemessen<br />

und zur Charakterisierung der Aufnahmen verwendet. Beim Auftragen<br />

der Meßpunkte in ein Koordinatensystem nahmen die Koordinatenpaare<br />

in etwa den Bereich eines Dreiecks ein (s. Abb. 10.3). Daher entstand der<br />

Name ” Vokaldreieck“.<br />

Bei den Klassifikationsexperimenten von [?] wurden ein einfaches dreischichtiges<br />

Perzeptron verwendet, das zur Klassifikation die in Abb. 10.3<br />

eingezeichneten Trennlinien fand.<br />

In der Praxis stellt sich jedoch die Formantenanalyse für die Erkennung<br />

kontinuierlicher Sprache als ungeeignet heraus, hauptsächlich deshalb, weil<br />

es meistens sehr schwierig bis unmöglich ist, die Formanten zu extrahieren.<br />

10.3 Vergleich von Spektrogrammen<br />

Ist ein Stück Audioaufzeichnung erst einmal als Sprache identifiziert, muß<br />

es nun klassifiziert werden. Die Standardmethode der Einzelworterkennung<br />

wie sie auch heute in einfachen Erkennern (z.B. Einzelkommandoerkenner<br />

in Mobiltelefonen, Fernbedienungen oder PDAs) verwendet wird, ist der<br />

Vergleich des aufgezeichneten Musters mit allen in Frage kommenden<br />

Mustern aus einem zuvor gelernten und abgespeicherten Katalog von<br />

Referenzmustern. Jedem zu erkennenden Kommando wird eine oder mehrere<br />

Referenzen zugeordnet.<br />

Ein direkter Vergleich der Wellenformen hätte keine Chance, sinnvolle<br />

Erkennungsergebnisse zu liefern. Selbst die mit allergrößter Sorgfalt

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!