18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

236 14. Das akustische Modell<br />

14.6 Aussprachemodellierung<br />

Wenn wir das akustische Modell aus der Fundamentalformel der Spracherkennung<br />

berechnen, läßt sich p(x|W) auf viele verschiedene Arten zerlegen.<br />

Die bei weitem am meisten verwendete Zerlegung ist die von W in eine Folge<br />

von akustischen Einheiten, typischerweise Allophone bzw. deren Untersegmente.<br />

In letzter Zeit häufen sich Ansätze, die eine Zerlegung von W weniger<br />

nach phonetischen Einheiten sondern eher nach Sequenzen artikulatorischer<br />

Eigenschaften [?] gestalten. Der große Vorteil einer Zerlegung in Phoneme<br />

besteht darin, daß ein in die Lautschrift Eingeweihter – nicht unbedingt<br />

ein Phonetiker – relativ einfach die phonetische Umschrift für ein Wort<br />

bestimmen kann.<br />

Es gibt einige Ansätze, Spracherkennung mit null phonetischem Wissen<br />

zu machen [?] [?] [?], allerdings bisher für die meisten Sprachen mit deutlich<br />

schlechterer Erkennungsrate. Für Sprachen mit phonetischer Orthographie<br />

ist es einfach möglich, aus der Orthographie die korrekte Aussprache direkt<br />

abzuleiten. Für die meisten Sprachen, insbesondere für das Englische ist dies<br />

nicht mehr möglich. So verwenden die allermeisten Spracherkenner im voraus<br />

erstellte Lexika, in denen für jedes erkennbare Wort zur Orthographie dieses<br />

Wortes auch die entsprechende phonetische Umschrift eingetragen ist. Nur<br />

mit dieser Information können gute HMMs für die Wörter aufgebaut werden.<br />

14.6.1 Aussprachelexika und Text-To-Speech Systeme<br />

Dieser Abschnitt beschäftigt sich nicht mit der akustischen Qualität<br />

von Sprachsynthesesystemen. Wenn wir hier von <strong>Mensch</strong>-<strong>Maschine</strong>-<br />

<strong>Kommunikation</strong> reden, ist der die <strong>Kommunikation</strong> vom <strong>Mensch</strong>en zur<br />

<strong>Maschine</strong> gemeint. Inwiefern können Text-To-Speech Systeme für das<br />

Verstehen menschlicher Sprache dennoch gewinnbringend eingesetzt werden?<br />

Der Begriff ” Text-To-Speech Systeme“ wird für zweierlei Dinge verwendet,<br />

einmal für die Generierung der Phonemfolge aus einem gegebenen<br />

Text, und darüber hinaus auch für komplette Sprachsynthesesysteme mit<br />

zusätzlicher Erzeugung eines Sprachsignals.<br />

Zweifellos ist es nötig, für eine große Akzeptanz von natürlichsprachlichen<br />

<strong>Mensch</strong>-<strong>Maschine</strong> Dialogsystemen eine sehr gute Sprachsynthese zu<br />

verwenden. Dazu gehören im wesentlichen drei nicht unbedingt unabhängige<br />

Teile: Die akustische Qualität, die korrekte Prosodie (s. 23) und die korrekte<br />

Auswahl der Lautefolge.<br />

Die meisten Sprachsynthesesysteme verwenden einen mehrstufigen<br />

Prozeß zum Generieren eines Sprachsignals. In der ersten Phase wird dem

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!