28.10.2013 Aufrufe

Automatische Spracherkennung und -synthese

Automatische Spracherkennung und -synthese

Automatische Spracherkennung und -synthese

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Spracherkennung</strong> <strong>und</strong><br />

Sprach<strong>synthese</strong><br />

Einführung in die Computerlinguistik<br />

Sommersemester 2012<br />

Peter Kolb


<strong>Spracherkennung</strong> / -<strong>synthese</strong><br />

<strong>Spracherkennung</strong> (automatic speech<br />

recognition, ASR)<br />

Sprach<strong>synthese</strong> (text-to-speech, TTS)


Phone (Laute)<br />

Konsonanten<br />

Vokale<br />

Phonetik<br />

Artikulationsort: nasal, dental, labial, glottal,<br />

palatal, ...<br />

Artikulationsart: frikativ, sibilant, nasal, plosiv, ...<br />

Stimmhaft vs. stimmlos<br />

Zungenposition:<br />

hoch/tief (offen/geschlossen)<br />

vorn / hinten<br />

Lippen ger<strong>und</strong>et / nicht ger<strong>und</strong>et


Sonorität (Schallfülle)<br />

Phonetik<br />

Konsonanten (”Mitlaute”) nicht sonorant =<br />

Geräusche<br />

Vokale (”Selbstlaute”) sonorant = Klänge<br />

Sonoranten können Silbenträger sein<br />

Neben Vokalen auch l, m, n <strong>und</strong> r<br />

z.B. silbischer n-Laut in laufen, l-Laut in Dirndl<br />

Tschechisch: vlk, krk


Phonetik<br />

Sonoranten: durch Resonanz werden<br />

bestimmte Töne (=Frequenzen) verstärkt<br />

Formant: Frequenzbereich mit hoher<br />

Konzentration akustischer Energie<br />

Unterscheidung von Vokalen anhand ihrer<br />

beiden tiefsten Formanten F1 <strong>und</strong> F2 möglich


Phonetik<br />

Intonation einer Äußerung wird durch Verlauf<br />

des Basisformanten F0 wiedergegeben


F0-Verlauf


Phonologie<br />

Phonem: bedeutungstragende Einheit<br />

Minimalpaare: Tisch vs. Fisch<br />

Phonem kann durch unterschiedliche Phone<br />

realisiert werden: /ch/ → [ç] oder [x]<br />

Allophone<br />

je nach Kontext:<br />

ich → /ich/ → [iç]<br />

ach → /ach/ → [ax]


Visualisierung<br />

Oszillogramm: Visualisierung des<br />

Amplitudenverlaufs (der Wellenform) in der<br />

Zeit


Visualisierung<br />

Oszillogramm: Visualisierung des<br />

Amplitudenverlaufs (der Wellenform) in der<br />

Zeit


Oszillogramm<br />

Vokale gut erkennbar:<br />

hohe Amplitude (laut)<br />

lange Dauer<br />

Stimmhaftigkeit = regelmäßige<br />

Amplitudenspitzen<br />

Konsonanten weniger gut:<br />

Plosive: Stille gefolgt von (leichtem)<br />

Amplitudenausschalg<br />

Frikative: Rauschen (vgl. /sh/ in she)


”sprechen”:<br />

<br />

<br />

<br />

”s_rechen”:<br />

Visualisierung


Spektrogramm<br />

Signal mittels Fourier-Transformation in die<br />

einzelnen Frequenzanteile zerlegen<br />

Formanten als dunkle Streifen sichtbar


Sprachkorpora<br />

Transkription gesprochener Sprache<br />

Annotationswerkzeug PRAAT


PRAAT


PRAAT: Formanten


PRAAT (3)


<strong>Spracherkennung</strong><br />

<strong>Automatische</strong> <strong>Spracherkennung</strong> (automatic<br />

speech recognition, ASR)


Systemparameter<br />

Erkennung kontinuierlicher Sprache oder<br />

Einzelworterkennung (diskret)


Systemparameter<br />

Sprecherabhängig oder sprecherunabhängig<br />

sprecherunabhängige<br />

Wortschatz einige tausend Wörter<br />

sprecherabhängige<br />

müssen vom Benutzer trainiert werden<br />

erlauben größeren Wortschatz


Systemparameter<br />

eingeschränkt auf spezielle Domäne oder<br />

universell<br />

Nutzung von speziellen Lexika <strong>und</strong><br />

Hintergr<strong>und</strong>wissen<br />

Einschränkung auf Domäne geht nicht<br />

unbedingt mit kleinerem Wortschatz einher<br />

Firmen bieten Erweiterungslexika für spezielle<br />

Fachgebiete an


Diktiersysteme<br />

Praktischer Einsatz<br />

universell oder mit speziellem Fachwortschatz<br />

z.B. für Ärzte<br />

Gerätesteuerung<br />

Navigationsgerät, Handy, Smartphone<br />

Dialogsysteme<br />

begrenzter Wortschatz (Domäne)<br />

Fahrplanauskunft<br />

Zahlen von 0 bis 9: Trefferquote fast 100%<br />

Übersetzung gesprochener Sprache


ASR: Ansatz<br />

Modellierung des Erkennungsproblems mit<br />

dem gestörten Kanal:<br />

<br />

<br />

P(T|S) = P(T) P(S|T) / P(S)<br />

t max = argmax t P(T) P(S|T)<br />

P(T): Wahrscheinlichkeit eines Satzes<br />

n-Gramm-Sprachmodell


ASR: Ansatz<br />

P(S|T): akustisches Modell<br />

allerdings wird nicht die Mikrophon-Aufnahme<br />

selbst als Eingabe (S) verwendet<br />

das Signal wird digitalisiert <strong>und</strong> vorverarbeitet<br />

u.a. Spektralanalyse (Fourier-Transformation)<br />

das Eingabesignal wird zu jedem Zeitpunkt<br />

durch einen Merkmalsvektor repräsentiert<br />

39 Merkmale<br />

aus dem Merkmalsvektor werden Phon-<br />

Wahrscheinlichkeiten bestimmt


Systemüberblick


HMM<br />

Idee: eine beobachtete Symbolsequenz wurde<br />

von versteckten Zuständen erzeugt<br />

z.B. Wörter von Wortarten, Laute von<br />

Phonemen<br />

endlicher Automat mit versteckten (hidden)<br />

Zuständen<br />

Übergangswahrscheinlichkeiten zwischen den<br />

Zuständen<br />

zusätzlich Emissionswahrscheinlichkeiten


HMM


Lernproblem:<br />

HMM<br />

Gegeben ist Ausgabesequenz. Es sollen die<br />

Parameter des HMM bestimmt werden, die<br />

am wahrscheinlichsten die Ausgabesequenz<br />

erzeugen. Lösbar mit Hilfe des Baum-Welch-<br />

Algorithmus.<br />

Dekodierungsproblem:<br />

Gegeben ist HMM <strong>und</strong> Beobachtungssequenz.<br />

Es soll die wahrscheinlichste Sequenz der<br />

versteckten Zustände bestimmt werden, die<br />

die beobachtete Sequenz erzeugt hat. Lösbar<br />

mit Hilfe des Viterbi-Algorithmus.


Störgeräusche<br />

Offene Probleme<br />

Erkennen unbekannter Wörter<br />

Sprechervielfalt: Dialekt, Sprachfehler<br />

Honig: ['ho:nik] vs. ['honiç]


Sprach<strong>synthese</strong><br />

automatische Sprach<strong>synthese</strong> (text-to-speech,<br />

TTS)


Sprach<strong>synthese</strong><br />

Ansätze zur Synthese von Wellenformen:<br />

artikulatorische Synthese: Nachbildung des<br />

artikulatorischen Systems<br />

Formanten<strong>synthese</strong>: Regeln zur Erzeugung<br />

künstlicher Spektren<br />

konkatenative Synthese<br />

heutige TTS-Systeme verwenden<br />

konkatenative Ansätze


Sprach<strong>synthese</strong><br />

konkatenative Ansätze: erzeugen keine<br />

künstlichen Laute, sondern verwenden<br />

Samples<br />

Diphon-Synthese<br />

Koartikulation<br />

Datenbank aller Diphone (Phon-Übergänge)<br />

Im dt. 2500 Diphone, im span. 800<br />

Non-uniform Unit Selection<br />

sehr große Datenbank mit Phonen, Diphonen,<br />

Silben, Wörtern, Phrasen, Sätzen


Sprach<strong>synthese</strong><br />

konkatenative Ansätze: erzeugen keine<br />

künstlichen Laute, sondern verwenden<br />

Samples<br />

Diphon-Synthese<br />

Koartikulation<br />

Datenbank aller Diphone (Phon-Übergänge)<br />

Im dt. 2500 Diphone, im span. 800<br />

Non-uniform Unit Selection<br />

sehr große Datenbank mit Phonen, Diphonen,<br />

Silben, Wörtern, Phrasen, Sätzen


Prosodie<br />

Sprachsignal enthält suprasegmentale oder<br />

prosodische Information<br />

Sprechgeschwindigkeit, Rythmus, Pausen<br />

Akzent<br />

Intonation (F0!)<br />

Funktionen prosodischer Information:<br />

Gliederung des Satzes<br />

Satzmodus (Aussage, Frage)<br />

Text- u. Dialogkohärenz, Informationsstruktur


MARY


Quellen<br />

MARY: http://mary.dfki.de/<br />

Beispiele:<br />

http://ttssamples.syntheticspeech.de/deutsch/<br />

Wolfgang von Kempelen (Video)<br />

Voder (Video)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!