31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2.3 Spracherkennung<br />

2.3.4.2 Signalanalyse<br />

Als Ausgangspunkt liegt das digitalisierte Sprachsignal vor, wie es z.B. von der Soundkarte aufge‐<br />

zeichnet wurde. Dieses besteht aus einer zeitlichen Abfolge von Amplitudenwerten, es wird daher<br />

auch als Zeitsignal bezeichnet. Nun müssen aus diesem Signal Merkmale extrahiert werden, die ty‐<br />

pisch für die einzelnen Laute der Sprache sind. Dazu wird das Signal in etwa 25 Millisekunden lange<br />

Abschnitte unterteilt, wobei sich die einzelnen Abschnitte mit dem Vorgänger und dem Nachfolger<br />

teilweise überlappen. Für die Abschnitte wird nun jeweils eine Spektralanalyse durchgeführt, um zu<br />

ermitteln wie stark welche Frequenzen vertreten sind. Dies geschieht mit Hilfe der Fourier‐<br />

Transformation.<br />

Abbildung 7: Signalanalyse<br />

Aus den erhaltenen Kurzzeitspektren werden nun einzelne Kennwerte berechnet, die anschließend<br />

zu Merkmalsvektoren zusammengefasst werden. Mit Hilfe dieser Vektoren können die gesprochenen<br />

Laute identifiziert werden. Die zeitliche Abfolge dieser Vektoren bildet die Grundlage für die Ent‐<br />

scheidung, welche Wortfolge gesprochen wurde.<br />

Um den passenden Satz zu einer Folge von Merkmalsvektoren zu finden, werden Methoden der Sta‐<br />

tistik angewandt. Der Prozess lässt sich in die akustische und in die linguistische Modellierung auftei‐<br />

len.<br />

23

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!