29.01.2014 Aufrufe

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 16<br />

menschliche Sprache einen Frequenzbereich von 50Hz bis 8kHz umfasst, ist es zum Beispiel sinnvoll<br />

alle darunter und darüber liegenden Frequenzanteile des Signals zu entfernen.<br />

Grenzdetektion:<br />

Bei einem eintreffenden Signal muss es sich allerdings nicht zwangsläufig ein Sprache handeln. Mit<br />

Hilfe der Grenzdetektion soll nun herausgefunden werden wo der Sprachteil beginnt beziehungsweise<br />

endet. Dazu existieren zwei Verfahren. Das Erste arbeitet im Zeitbereich. Es wertet die Energiesumme<br />

des Signals über einen bestimmten Zeitraum aus um eine Grenzdetektion vornehmen zu können. Wird<br />

ein Schwellwert überschritten muss es sich um ein Sprachsignal handeln. Beim analytischen Verfahren<br />

hingegen werden bestimmte Merkmale aus dem Eingangssignal extrahiert und mit Hilfe verschiedener<br />

Entscheidungsregeln wird überprüft, ob die Merkmale des Eingangssignals mit den Merkmalen eines<br />

Sprachsignals übereinstimmen.[2]<br />

Normierung, Pegelanpassung:<br />

Damit die spätere Mustererkennung erheblich einfacher ablaufen kann wird das Signal zusätzlich angepasst,<br />

sprich normiert. Der größte Pegel des Signals wird dabei auf einen vordefiniert Maximalwert<br />

gesetzt und alle anderen Pegel im Verhältnis zu dieser Änderung angepasst.[3]<br />

3.1.2 Spezielle Vorverarbeitung<br />

Quellenlokalisation und -verfolgung:<br />

Dieses Verfahren dient wie die Vorfilterung dazu Umgebungslärm auszufiltern. Dabei wird versucht den<br />

sogenannten Cocktailparty-Effekt 2 nachzubilden. Anstelle eines einzelnen Mikrofons und eines sehr<br />

komplexen Lärmfiltersystems werden bei diesem Verfahren mehrere Mikrofone verwendet. Dadurch entstehen<br />

unterschiedliche Aufnahmen des Signals, mit deren Hilfe man verschiedene Schallquellen voneinander<br />

unterscheiden, Echos kompensieren und Störungen unterdrücken kann.[9]<br />

Segmentierung:<br />

Die Segmentierung ist der letzte Schritt der Vorverarbeitung. Das gefilterte und normierte Sprachsignal<br />

wird hierbei in Segmente gleicher Länge aufgeteilt. Sie haben eine Dauer von 10ms bis 25ms, werden<br />

mit Hilfe einer Fensterfunktion, wie zum Beispiel dem Hamming-Fenster, gewonnen und können einan-<br />

2 Cocktailparty-Effekt bezeichnet die Fähigkeit des menschlichen Gehörs, sich bei vielen Signalquellen auf ein einzelnes<br />

Signal zu konzentrieren und alle anderen auszublenden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!