13.07.2015 Aufrufe

PROGRAMM - DAGA 2012

PROGRAMM - DAGA 2012

PROGRAMM - DAGA 2012

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Programm <strong>DAGA</strong> <strong>2012</strong> 241Mi. 14:00 neon 3.08 Robuste SpracherkennungSpectro-Temporal Features with Noise-Adaptive CompetitionS.K. Ngouoko Mboungueng a , M. Heckmann b und B. Wrede aa Univ. Bielefeld, CoR-Lab; b Honda Research Insitute Europe GmbHWe could show in the past that Hierarchical Spectro-Temporal (HIST)features yield improved performance in noise especially when combinedwith standard features. In this paper we incorporate an adaptive featurecompetition in the feature extraction process and investigate its benefits.Previously, we used the same competition strength for all acousticalenvironments, thereby the HIST feature extraction was independent ofthe acoustic environment. However, each acoustical environment exhibitsits own characteristics. Therefore, we adapt the competition strengthwith respect to the acoustical environment. Primarily, we determine empiricallythe optimal competition strength in each environment. Then, weuse the Signal-to-Noise Ratio (SNR) as indicator for the acoustical environment.Hence, we estimate the SNR of the signal and set the competitionstrength accordingly. Experimental results with different noise typesdemonstrate that such an adaptation of the HIST features can improvethe recognition rates.Mi. 14:25 neon 3.08 Robuste SpracherkennungEvaluation modulationstiefennormierender Methoden zur Verbesserungder Robustheit automatischer Spracherkennungssystememit unterschiedlichen MerkmalenM.R. Schädler und B. KollmeierMedizinische Physik, Carl-von-Ossietzky Universität OldenburgDie zur automatischen Spracherkennung (ASR) genutzten Merkmalewie MFCCs, RASTA-processing, Gabor Merkmale oder andere Projektioneneines logarithmisch skalierten Mel-Spektrogrammes haben häufignormierende Eigenschaften. So werden beispielsweise schnelle zeitlicheVariationen der spektralen Einhüllenden eines Sprachsignals vonlangsamen getrennt; zudem wird nicht relevante Information, wie zumBeispiel zeitliche und spektrale Feinstruktur, so integriert, dass sie möglichstwenig Einfluss auf die Merkmale hat. Eine der Motivationen dabeiist, dass die menschliche Spracherkennungsleistung vom Vorhandenseindieser Information weitgehend unabhängig ist. Im Vergleichzu Menschen sind ASR Systeme jedoch wesentlich empfindlicher bezüglichÄnderungen der Modulationstiefe zwischen Trainings und Testphase.Die Modulationstiefe wird durch additive Störgeräusche spektralund temporal, und durch Nachhall temporal verringert. Dadurch erhöhtsich die Varianz gemischter (verrauscht und unverrauscht) Sprachdatengegenüber unverrauschten schon bei sehr hohen Signal-zu-Rausch-Abständen. Durch eine Normierung der Modulationstiefe kann diese Varianzund damit die Differenz zwischen Trainings und Testdaten verringertwerden. In dieser Studie wird in Spracherkennungsexperimenten

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!