Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Weitere Magazine

Empfehlungen

Info

3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 16 menschliche Sprache einen Frequenzbereich von 50Hz bis 8kHz umfasst, ist es zum Beispiel sinnvoll alle darunter und darüber liegenden Frequenzanteile des Signals zu entfernen. Grenzdetektion: Bei einem eintreffenden Signal muss es sich allerdings nicht zwangsläufig ein Sprache handeln. Mit Hilfe der Grenzdetektion soll nun herausgefunden werden wo der Sprachteil beginnt beziehungsweise endet. Dazu existieren zwei Verfahren. Das Erste arbeitet im Zeitbereich. Es wertet die Energiesumme des Signals über einen bestimmten Zeitraum aus um eine Grenzdetektion vornehmen zu können. Wird ein Schwellwert überschritten muss es sich um ein Sprachsignal handeln. Beim analytischen Verfahren hingegen werden bestimmte Merkmale aus dem Eingangssignal extrahiert und mit Hilfe verschiedener Entscheidungsregeln wird überprüft, ob die Merkmale des Eingangssignals mit den Merkmalen eines Sprachsignals übereinstimmen.[2] Normierung, Pegelanpassung: Damit die spätere Mustererkennung erheblich einfacher ablaufen kann wird das Signal zusätzlich angepasst, sprich normiert. Der größte Pegel des Signals wird dabei auf einen vordefiniert Maximalwert gesetzt und alle anderen Pegel im Verhältnis zu dieser Änderung angepasst.[3] 3.1.2 Spezielle Vorverarbeitung Quellenlokalisation und -verfolgung: Dieses Verfahren dient wie die Vorfilterung dazu Umgebungslärm auszufiltern. Dabei wird versucht den sogenannten Cocktailparty-Effekt 2 nachzubilden. Anstelle eines einzelnen Mikrofons und eines sehr komplexen Lärmfiltersystems werden bei diesem Verfahren mehrere Mikrofone verwendet. Dadurch entstehen unterschiedliche Aufnahmen des Signals, mit deren Hilfe man verschiedene Schallquellen voneinander unterscheiden, Echos kompensieren und Störungen unterdrücken kann.[9] Segmentierung: Die Segmentierung ist der letzte Schritt der Vorverarbeitung. Das gefilterte und normierte Sprachsignal wird hierbei in Segmente gleicher Länge aufgeteilt. Sie haben eine Dauer von 10ms bis 25ms, werden mit Hilfe einer Fensterfunktion, wie zum Beispiel dem Hamming-Fenster, gewonnen und können einan- 2 Cocktailparty-Effekt bezeichnet die Fähigkeit des menschlichen Gehörs, sich bei vielen Signalquellen auf ein einzelnes Signal zu konzentrieren und alle anderen auszublenden.
3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 17 der überlappen.[2] 3.2 Analyse und Merkmalsableitung 3.2.1 Analyseverfahren Linear Predictive Coding Beim Linear Predictive Coding wird die menschliche Sprache vereinfacht als ein Anregungs-/ Bewertungsmodell dargestellt. Die Öffnung zwischen den Stimmbändern liefern die Anregungimpulse, die dann durch den Rachenraum und Mund bewertet werden. Dies wird in Abbildung 3.5 für einen Vokal dargestellt. Die Häufigkeit der Anregung F 0 (Bild (a)) ist dabei 1/T 3 0 (Bild (b)). In Bild (c) der Abbil- Abbildung 3.5: Anregung und Bewertung für einen Vokal[17] dung 3.5 ist die zugehörige Bewertungsfunktion zu sehen. Sie zeigt die vorhandene Signalenergien für die einzelnen Frequenzen an. Frequenzanteile, die im Verhältnis zu ihrer Umgebung relativ viel Energie 3 T 0 bezeichnet die Zeitdauer zwischen zwei Anregungen.
Seite 1 und 2: TECHNISCHE UNIVERSITÄT DRESDEN FAK
Seite 3 und 4: 1 Inhaltsverzeichnis 1 Einleitung 6
Seite 5 und 6: 3 5.3.4 Vokabular . . . . . . . . .
Seite 7 und 8: 5 Selbstständigkeitserklärung Hie
Seite 9 und 10: 2. ALLGEMEINE ANGABEN ZU SPRACHEING
Seite 17: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 21 und 22: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 23 und 24: 3. ALLGEMEINER AUFBAU EINES SPRACHE
Seite 25 und 26: 4. ERHÄLTLICHE PROGRAMME 23 4 Erh
Seite 27 und 28: 4. ERHÄLTLICHE PROGRAMME 25 4.1.3
Seite 29 und 30: 4. ERHÄLTLICHE PROGRAMME 27 4.2.4
Seite 31 und 32: 5. FREI VERFÜGBARE SPRACHERKENNER
Seite 43 und 44: 6. TESTS 41 6 Tests Alle drei Syste
Seite 45 und 46: 6. TESTS 43 Menüpunkt Anzahl richt
Seite 47 und 48: 6. TESTS 45 Menüpunkt Sphinx4 JLAB
Seite 49 und 50: 7. AUSWAHL EINES SPRACHERKENNERS 47
Seite 51 und 52: 7. AUSWAHL EINES SPRACHERKENNERS 49
Seite 53 und 54: 8. ENTWICKLUNG EINER SCHNITTSTELLE
Seite 65 und 66: 9. ABSCHLIESSENDE BETRACHTUNGEN 63
Seite 67 und 68: 9. ABSCHLIESSENDE BETRACHTUNGEN 65
Seite 69 und 70:
10. GLOSSAR 67 10 Glossar Erkennung
Seite 71 und 72:
10. GLOSSAR 69 Sprache zu Sprache u
Seite 73 und 74:
10. GLOSSAR 71 []
Seite 75 und 76:
Literaturverzeichnis 73 [13] MICROS
Seite 77 und 78:
Abbildungsverzeichnis 75 Abbildungs
Alle anzeigen

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?