29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 18<br />

besitzen nennt man Formanten. Diese ermöglichen es, das Signal zu identifizieren und sind als F1 bis F4<br />

eingetragen. Diese Merkmale jedoch im Echtzeitbetrieb aus einem Signal zu extrahieren dauert zu lange.<br />

Beim Linear Predictive Coding werden diese Merkmale deshalb nur beim Erstellen eines Eintrags,<br />

für das Referenzmusterspeicher, extrahiert. Dies verringert zunächst nur den Speicheraufwand für das<br />

Vokabular. Während des tatsächlichen Betriebs des Erkenners werden diese Merkmale dazu genutzt das<br />

ursprüngliche Signal eines Vokabulareintrags wieder herzustellen, was wesentlich schneller funktioniert.<br />

Das ursprüngliche Signal wird dann mit Hilfe der Kreuzkorrelationsfunktion mit dem eingehenden Signal<br />

verglichen. Das Ergebnis gibt an, wie ähnlich sich die zwei Signale sind. [17]<br />

cepstrale Glättung<br />

Auch hier wird ein Anregungs-/Bewertungsmodell als Grundlage verwendet. Das Cepstrum (c (n)) ist<br />

die inverse Fourier-Transormation (IDFT) des Logarithmus des Spektrums (X (k)) eines Sprachsignals<br />

(x (n)).<br />

c (n) = IDF T {log|X (k) |}<br />

Nach dieser Transformation sind der Anregungs- und der Bewertungsteil zeitlich getrennt. Der unerwünschte<br />

Anregungsteil kann nun einfach subtrahiert werden. Danach wird das ganze wieder Fouriertransformiert<br />

und entlogarithmiert um letztendlich das Spektrum (Bild (d) der Abbildung 3.5) des Bewertungsteils<br />

zu erhalten. [17]<br />

Frequenz-Zeit-Transformation<br />

Das Eingangssignal wurde während der Vorbereitung in Segmente unterteilt. Die Segmente werden so<br />

kurz gewählt, das man davon ausgehen kann, dass das Signal in einem Segment gleich bleibt. Jedes<br />

Segment wird mit Hilfe der Fouriertransformation vom Zeit- in den Frequenzbereich überführt. So erhält<br />

man zu jedem Segment das zugehörige Spektrum. Wenn man diese Spektren zeitlich verknüpft folgt<br />

daraus das Gesamtspektrum des Eingangssignals.<br />

3.2.2 Merkmalableitung<br />

Differentiation<br />

Die Differenziation erfasst Unterschiede erster und zweiter Ordnung, zwischen Teilobjekten die einander<br />

folgen.<br />

1. Ordnung: x ′ i = x i+1 − x i<br />

2. Ordnung: x ′′<br />

i = x′ i+1 − x′ i

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!