Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 18 besitzen nennt man Formanten. Diese ermöglichen es, das Signal zu identifizieren und sind als F1 bis F4 eingetragen. Diese Merkmale jedoch im Echtzeitbetrieb aus einem Signal zu extrahieren dauert zu lange. Beim Linear Predictive Coding werden diese Merkmale deshalb nur beim Erstellen eines Eintrags, für das Referenzmusterspeicher, extrahiert. Dies verringert zunächst nur den Speicheraufwand für das Vokabular. Während des tatsächlichen Betriebs des Erkenners werden diese Merkmale dazu genutzt das ursprüngliche Signal eines Vokabulareintrags wieder herzustellen, was wesentlich schneller funktioniert. Das ursprüngliche Signal wird dann mit Hilfe der Kreuzkorrelationsfunktion mit dem eingehenden Signal verglichen. Das Ergebnis gibt an, wie ähnlich sich die zwei Signale sind. [17] cepstrale Glättung Auch hier wird ein Anregungs-/Bewertungsmodell als Grundlage verwendet. Das Cepstrum (c (n)) ist die inverse Fourier-Transormation (IDFT) des Logarithmus des Spektrums (X (k)) eines Sprachsignals (x (n)). c (n) = IDF T {log|X (k) |} Nach dieser Transformation sind der Anregungs- und der Bewertungsteil zeitlich getrennt. Der unerwünschte Anregungsteil kann nun einfach subtrahiert werden. Danach wird das ganze wieder Fouriertransformiert und entlogarithmiert um letztendlich das Spektrum (Bild (d) der Abbildung 3.5) des Bewertungsteils zu erhalten. [17] Frequenz-Zeit-Transformation Das Eingangssignal wurde während der Vorbereitung in Segmente unterteilt. Die Segmente werden so kurz gewählt, das man davon ausgehen kann, dass das Signal in einem Segment gleich bleibt. Jedes Segment wird mit Hilfe der Fouriertransformation vom Zeit- in den Frequenzbereich überführt. So erhält man zu jedem Segment das zugehörige Spektrum. Wenn man diese Spektren zeitlich verknüpft folgt daraus das Gesamtspektrum des Eingangssignals. 3.2.2 Merkmalableitung Differentiation Die Differenziation erfasst Unterschiede erster und zweiter Ordnung, zwischen Teilobjekten die einander folgen. 1. Ordnung: x ′ i = x i+1 − x i 2. Ordnung: x ′′ i = x′ i+1 − x′ i
3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 19 Merkmalselektion Um die Gesamtanzahl der zu speichernden Information zu reduzieren, werden redundate Merkmale beseitigt. Vektorquantisierung Um die Anzahl der Merkmalsvektoren zu reduzieren werden ähnliche Vektoren zu einem einzelnen Vektor zusammengefasst. Psychisch motivierte Verfahren Bei psychisch motivierten Verfahren werden für den Menschen tatsächlich wahrnehmbare Größen als Merkmale genutzt. In der Akustik handelt es sich dabei um die Phoneme. Die kleinsten bedeutungstragenden Einheiten der Sprache. Eintreffende Sprachsignale werden in ihre Phonemfolge zerlegt. Heuristische Verfahren Aus verschiedenen Signalen werden aussagekräftige Merkmale aufgrund von Expertenwissen extrahiert. Diese Merkmale können später genutzt werden, um bereits untersuchte Signale wieder zu erkennen. 3.3 Klassifikation In diesem Schritt werden die abgeleiteten Merkmale mit den Daten aus einem oder mehreren Referenzmusterspeichern verglichen. Danach wird das ähnlichste Muster als erkanntes Ergebnis weiter gegeben. Natürlich kann es sein, dass tatsächlich garkeine Eingabe erfolgte. Aus diesem Grund darf der Unterschied zwischen Eingabesignal und zugeordnetem Referenzmuster einen voreingestellte Rückweisungsschwelle nicht überschreiten. Um die Klassifikation durchzuführen gibt es verschiedene Verfahren. 3.3.1 Lineare Streckung/Stauchung Da man das selbe Wort nur sehr selten exakt gleich schnell ausspricht muss das Eingangsmuster zeitlich an das Referenzmuster angepasst werden. Ein einfaches Verfahren dazu passt die Gesamtdauer des Eingangssignals durch linear Streckung oder Stauchung an das Referenzmuster an. Danach wird ein direkter Vergleich zwischen dem Muster des Eingangssignals und dem entsprechenden Referenzmuster durchgeführt. Dies wird für alle Referenzmuster wiederholt und das passendste ausgewählt.
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17 und 18: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 19: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 23 und 24: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70: 10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72:
10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74:
10. GLOSSAR 71 []
Seite 75 und 76:
Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78:
Abbildungsverzeichnis 75 Abbildungs
Alle anzeigen

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?