18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

238 14. Das akustische Modell<br />

akustischen Atomen kann aus der Aussprache die dazu gehörige HMM-<br />

Zustandsfolge direkt ohne Umwege abgeleitet werden. Wenn wir aber davon<br />

ausgehen, daß wir spezifischere Modelle verwenden, kann es vorkommen, daß<br />

in dem neuen Wort Phoneme in bestimmten Kontexten oder Ausprägungen<br />

vorkommen, die bis dahin in den Trainingsdaten nicht beobachtet worden<br />

waren. In solchen Fällen gilt es, aus dem vorhandenen Repertoire an<br />

akustischen Einheiten die passenden auszuwählen (Details dazu in Kap. 17).<br />

Mitte der achtziger Jahre machte ein Experiment von T. Sejnowski<br />

Furore und trug mit dazu bei, daß die durch den Artikel von Minski<br />

und Papert quasi betäubte Forschung an künstlichen neuronalen Netzen<br />

wiederbelebt wurde [?]. Bei diesem Experiment wurde ein verhältnismäßig<br />

einfaches dreischichtiges Perzeptron (vgl. Kap. 22) mit ca. 200 Neuronen<br />

trainiert, bei Eingabe eines Buchstaben und seiner Nachbarbuchstaben in<br />

einem Text das dazu passende Phonem zu generieren. Natürlich hatte das<br />

Netz Schwierigkeiten beim Erzeugen von Phonemfolgen für Eigennamen,<br />

Fremdwörter oder Buchstabenfolgen bei denen die Zuordnung Buchstabezu-Phonem<br />

stark von einer Eins-zu-eins-Zuordnung abwich. Auch wenn die<br />

Qualität der so produzierten Aussprache von der heutiger Systeme noch<br />

weit weg war, so kann man es allein schon wegen seiner Einfachheit als<br />

einen sehr gelungenes Experiment bezeichnen. Deutlich besser als so ein<br />

einfaches Perzeptron funktionieren Regelbasierte Text-To-Speech Systeme.<br />

Diese enthalten Regeln, wie bestimmte Buchstabenfolgen der Orthographie<br />

ausgesprochen werden, und für einige Wörter und Eigennamen auch komplette<br />

Phonemfolgen.<br />

Die typischen Aussprachelexika werden heute in einem zweistufigen<br />

Prozeß erzeugt. Zuerst wird mit einem Regelbasierten System für jedes<br />

Vokabularwort eine Aussprache erzeugt. Dabei wird gegebenenfalls geprüft,<br />

ob Teile des zu phonetisierenden Wortes selbst schon bekannte Wörter oder<br />

Teile bekannter Wörter sind. Dann können diese bereits bekannten Aussprachen<br />

verwendet werden. Im zweiten Durchgang überprüft ein <strong>Mensch</strong> die<br />

automatisch erzeugten Umschriften, was schneller geht, als wenn der <strong>Mensch</strong><br />

von Anfang an die Umschriften erzeugt. Schlechte Umschriften lassen sich<br />

teilweise dadurch aufdecken, daß auf einer Testdatenmenge die phonetisch<br />

falsch beschriebenen Wörter überdurchschnittlich viele Fehler verursachen.<br />

Solche müssen dann bei Bedarf manuell korrigiert werden. Ein als ganzes<br />

sorgfältig manuell erzeugtes, auf die Belange der Spracherkennung hin<br />

optimiertes Aussprachelexikon [?] kann gegenüber einem halbautomatisch<br />

erzeugten Lexikon [?] die Fehlerrate eines Erkenners um über 10% (von<br />

10.7% auf 9.3%) senken [?].

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!