DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2.3 Spracherkennung<br />
2.3.4.2 Signalanalyse<br />
Als Ausgangspunkt liegt das digitalisierte Sprachsignal vor, wie es z.B. von der Soundkarte aufge‐<br />
zeichnet wurde. Dieses besteht aus einer zeitlichen Abfolge von Amplitudenwerten, es wird daher<br />
auch als Zeitsignal bezeichnet. Nun müssen aus diesem Signal Merkmale extrahiert werden, die ty‐<br />
pisch für die einzelnen Laute der Sprache sind. Dazu wird das Signal in etwa 25 Millisekunden lange<br />
Abschnitte unterteilt, wobei sich die einzelnen Abschnitte mit dem Vorgänger und dem Nachfolger<br />
teilweise überlappen. Für die Abschnitte wird nun jeweils eine Spektralanalyse durchgeführt, um zu<br />
ermitteln wie stark welche Frequenzen vertreten sind. Dies geschieht mit Hilfe der Fourier‐<br />
Transformation.<br />
Abbildung 7: Signalanalyse<br />
Aus den erhaltenen Kurzzeitspektren werden nun einzelne Kennwerte berechnet, die anschließend<br />
zu Merkmalsvektoren zusammengefasst werden. Mit Hilfe dieser Vektoren können die gesprochenen<br />
Laute identifiziert werden. Die zeitliche Abfolge dieser Vektoren bildet die Grundlage für die Ent‐<br />
scheidung, welche Wortfolge gesprochen wurde.<br />
Um den passenden Satz zu einer Folge von Merkmalsvektoren zu finden, werden Methoden der Sta‐<br />
tistik angewandt. Der Prozess lässt sich in die akustische und in die linguistische Modellierung auftei‐<br />
len.<br />
23