DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2.4 Sprachsynthese<br />
2.4.3.2 Digital Speech Processing (DSP)<br />
30<br />
Abbildung 13: Natural Language Processing<br />
Der zweite Schritt wird als Digital Speech Processing (DSP) bezeichnet. Hier wird mit Hilfe der Ausga‐<br />
be aus dem ersten Schritt das Sprachsignal synthetisiert.<br />
Abbildung 14: Digital Speech Processing<br />
Die Synthese des Sprachsignals erfolgt dabei nach einem der folgenden drei Hauptverfahren [Bur08]:<br />
Formant Synthese<br />
Das älteste Verfahren ist die Formant Synthese. Hier wird das Sprachsignal anhand von physikali‐<br />
schen Modellen berechnet (Formanten nennt man die Resonanz‐Frequenzen im Sprechtrakt). Dieses<br />
Verfahren ist sehr flexibel und es werden nur geringe Ressourcen benötigt, es hat aber auch den<br />
Nachteil, dass das erzeugte Sprachsignal nicht sehr natürlich klingt.<br />
Diphon Synthese<br />
Unter einem Diphon versteht man die Kombination von zwei aufeinander folgenden Sprachlauten.<br />
Das Sprachsignal wird bei diesem Verfahren durch eine Verkettung solcher Diphone erzeugt. Die<br />
Prosodie‐Anpassung (Rhythmus und Satzmelodie) wird durch Signal‐Manipulation erreicht (Abhängig<br />
von der Kodierung der Diphone). Dieses Verfahren ist etwas aufwändiger als die Formant Synthese,<br />
das generierte Signal klingt dafür aber auch etwas natürlicher.<br />
Non‐uniform unit selection<br />
Das modernste und komplexeste Verfahren ist die Non‐uniform unit selection. Aus einer großen Da‐<br />
tenbasis werden die am besten passenden Sprachteile (units) herausgesucht und miteinander verket‐<br />
tet, wobei diese eine variable Länge besitzen (non‐uniform). Dabei wird eine doppelte Kostenfunkti‐<br />
on minimiert: die Stücke sollen gut aneinander passen (Verkettungs‐Kosten) und die Vorgaben der