Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Belegarbeit (.pdf - 2.3 MB) - Technische Universität Dresden
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3. ALLGEMEINER AUFBAU EINES SPRACHERKENNERS 16<br />
menschliche Sprache einen Frequenzbereich von 50Hz bis 8kHz umfasst, ist es zum Beispiel sinnvoll<br />
alle darunter und darüber liegenden Frequenzanteile des Signals zu entfernen.<br />
Grenzdetektion:<br />
Bei einem eintreffenden Signal muss es sich allerdings nicht zwangsläufig ein Sprache handeln. Mit<br />
Hilfe der Grenzdetektion soll nun herausgefunden werden wo der Sprachteil beginnt beziehungsweise<br />
endet. Dazu existieren zwei Verfahren. Das Erste arbeitet im Zeitbereich. Es wertet die Energiesumme<br />
des Signals über einen bestimmten Zeitraum aus um eine Grenzdetektion vornehmen zu können. Wird<br />
ein Schwellwert überschritten muss es sich um ein Sprachsignal handeln. Beim analytischen Verfahren<br />
hingegen werden bestimmte Merkmale aus dem Eingangssignal extrahiert und mit Hilfe verschiedener<br />
Entscheidungsregeln wird überprüft, ob die Merkmale des Eingangssignals mit den Merkmalen eines<br />
Sprachsignals übereinstimmen.[2]<br />
Normierung, Pegelanpassung:<br />
Damit die spätere Mustererkennung erheblich einfacher ablaufen kann wird das Signal zusätzlich angepasst,<br />
sprich normiert. Der größte Pegel des Signals wird dabei auf einen vordefiniert Maximalwert<br />
gesetzt und alle anderen Pegel im Verhältnis zu dieser Änderung angepasst.[3]<br />
3.1.2 Spezielle Vorverarbeitung<br />
Quellenlokalisation und -verfolgung:<br />
Dieses Verfahren dient wie die Vorfilterung dazu Umgebungslärm auszufiltern. Dabei wird versucht den<br />
sogenannten Cocktailparty-Effekt 2 nachzubilden. Anstelle eines einzelnen Mikrofons und eines sehr<br />
komplexen Lärmfiltersystems werden bei diesem Verfahren mehrere Mikrofone verwendet. Dadurch entstehen<br />
unterschiedliche Aufnahmen des Signals, mit deren Hilfe man verschiedene Schallquellen voneinander<br />
unterscheiden, Echos kompensieren und Störungen unterdrücken kann.[9]<br />
Segmentierung:<br />
Die Segmentierung ist der letzte Schritt der Vorverarbeitung. Das gefilterte und normierte Sprachsignal<br />
wird hierbei in Segmente gleicher Länge aufgeteilt. Sie haben eine Dauer von 10ms bis 25ms, werden<br />
mit Hilfe einer Fensterfunktion, wie zum Beispiel dem Hamming-Fenster, gewonnen und können einan-<br />
2 Cocktailparty-Effekt bezeichnet die Fähigkeit des menschlichen Gehörs, sich bei vielen Signalquellen auf ein einzelnes<br />
Signal zu konzentrieren und alle anderen auszublenden.