Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 18<br />
besitzen nennt man Formanten. Diese ermöglichen es, das Signal zu identifizieren und sind als F1 bis F4<br />
eingetragen. Diese Merkmale jedoch im Echtzeitbetrieb aus einem Signal zu extrahieren dauert zu lange.<br />
Beim Linear Predictive Coding werden diese Merkmale deshalb nur beim Erstellen eines Eintrags,<br />
für das Referenzmusterspeicher, extrahiert. Dies verringert zunächst nur den Speicheraufwand für das<br />
Vokabular. Während des tatsächlichen Betriebs des Erkenners werden diese Merkmale dazu genutzt das<br />
ursprüngliche Signal eines Vokabulareintrags wieder herzustellen, was wesentlich schneller funktioniert.<br />
Das ursprüngliche Signal wird dann mit Hilfe der Kreuzkorrelationsfunktion mit dem eingehenden Signal<br />
verglichen. Das Ergebnis gibt an, wie ähnlich sich die zwei Signale sind. [17]<br />
cepstrale Glättung<br />
Auch hier wird ein Anregungs-/Bewertungsmodell als Grundlage verwendet. Das Cepstrum (c (n)) ist<br />
die inverse Fourier-Transormation (IDFT) des Logarithmus des Spektrums (X (k)) eines Sprachsignals<br />
(x (n)).<br />
c (n) = IDF T {log|X (k) |}<br />
Nach dieser Transformation sind der Anregungs- und der Bewertungsteil zeitlich getrennt. Der unerwünschte<br />
Anregungsteil kann nun einfach subtrahiert werden. Danach wird das ganze wieder Fouriertransformiert<br />
und entlogarithmiert um letztendlich das Spektrum (Bild (d) der Abbildung 3.5) des Bewertungsteils<br />
zu erhalten. [17]<br />
Frequenz-Zeit-Transformation<br />
Das Eingangssignal wurde während der Vorbereitung in Segmente unterteilt. Die Segmente werden so<br />
kurz gewählt, das man davon ausgehen kann, dass das Signal in einem Segment gleich bleibt. Jedes<br />
Segment wird mit Hilfe der Fouriertransformation vom Zeit- in den Frequenzbereich überführt. So erhält<br />
man zu jedem Segment das zugehörige Spektrum. Wenn man diese Spektren zeitlich verknüpft folgt<br />
daraus das Gesamtspektrum des Eingangssignals.<br />
3.2.2 Merkmalableitung<br />
Differentiation<br />
Die Differenziation erfasst Unterschiede erster und zweiter Ordnung, zwischen Teilobjekten die einander<br />
folgen.<br />
1. Ordnung: x ′ i = x i+1 − x i<br />
2. Ordnung: x ′′<br />
i = x′ i+1 − x′ i