PROGRAMM - DAGA 2012

PROGRAMM - DAGA 2012 PROGRAMM - DAGA 2012

dega.akustik.de
von dega.akustik.de Mehr von diesem Publisher
13.07.2015 Aufrufe

240 DAGA 2012 Programmand noise dominance from the power ratio criterion and on the extensionof the Wiener single channel noise suppression to multichannel data.The suggested time-frequency mask leads to appreciable improvementsin automatic speech recognition (ASR) performance, and other than withmany standard time-frequency masks, the ASR improvements do notdepend on the use of missing data speech recognition, but are achievableto almost their full extent without modifications to the decoder.Mi. 10:10 neon 3.08 Robuste SpracherkennungUntersuchungen zur Güte der Simulation einer Spracheingabe imFreisprechmodus bei der Evaluierung von SpracherkennungssytemenA. Kitzig und H.-G. HirschHochschule NiederrheinBei der Entwicklung von robusten Spracherkennungssystemen ist esvon großem Interesse, zur Evaluation der Leistungsfähigkeit eines SystemsSprachsignale zur Verfügung zu haben, die möglichst realistischdie akustischen Bedingungen praxisrelevanter Störszenarien beinhalten.Eine Möglichkeit zur Generierung solcher Sprachdaten besteht inder Simulation der akustischen Bedingungen, z.B. durch die additiveÜberlagerung von ungestörten Sprachsignalen und Störgeräuschenoder eine Faltung mit geeigneten Raumimpulsantworten zur Simulationeiner Spracheingabe im Freisprechmodus. Bei einer Simulation derakustischen Bedingungen stellt sich die Frage, wie gut die Simulationdie reale Aufnahme von Sprachsignalen in der jeweiligen akustischenUmgebung widerspiegelt. Dies wird im Rahmen der hier vorgestelltenArbeiten für eine Spracheingabe im Freisprechmodus in Räumen untersucht.Dazu werden englische Ziffern und Ziffernketten der TIDigitsSprachdatensammlung in verschiedenen Räumen über einen Aktivlautsprecherwiedergegeben und an unterschiedlichen Mikrofon- Positionenaufgezeichnet. Zusätzlich wird bei jeder Lautsprecher-Mikrofon Anordnungdie Raumimpulsantwort (RIR) gemessen. Durch eine Faltung derungestörten Sprachsignale mit der jeweiligen RIR wird eine zweite Versionder aufgezeichneten Sprachsignale erzeugt. Durch einen Vergleichder Erkennungsraten bei Verwendung der aufgezeichneten Signale undder mit Hilfe der RIR erzeugten Signale kann die Güte der Simulation beurteiltwerden. Ein weiteres Ziel dieser Arbeiten ist es, der Forschungsgemeinschafteine Sammlung realer Aufnahmen zur Verfügung zu stellen.

Programm DAGA 2012 241Mi. 14:00 neon 3.08 Robuste SpracherkennungSpectro-Temporal Features with Noise-Adaptive CompetitionS.K. Ngouoko Mboungueng a , M. Heckmann b und B. Wrede aa Univ. Bielefeld, CoR-Lab; b Honda Research Insitute Europe GmbHWe could show in the past that Hierarchical Spectro-Temporal (HIST)features yield improved performance in noise especially when combinedwith standard features. In this paper we incorporate an adaptive featurecompetition in the feature extraction process and investigate its benefits.Previously, we used the same competition strength for all acousticalenvironments, thereby the HIST feature extraction was independent ofthe acoustic environment. However, each acoustical environment exhibitsits own characteristics. Therefore, we adapt the competition strengthwith respect to the acoustical environment. Primarily, we determine empiricallythe optimal competition strength in each environment. Then, weuse the Signal-to-Noise Ratio (SNR) as indicator for the acoustical environment.Hence, we estimate the SNR of the signal and set the competitionstrength accordingly. Experimental results with different noise typesdemonstrate that such an adaptation of the HIST features can improvethe recognition rates.Mi. 14:25 neon 3.08 Robuste SpracherkennungEvaluation modulationstiefennormierender Methoden zur Verbesserungder Robustheit automatischer Spracherkennungssystememit unterschiedlichen MerkmalenM.R. Schädler und B. KollmeierMedizinische Physik, Carl-von-Ossietzky Universität OldenburgDie zur automatischen Spracherkennung (ASR) genutzten Merkmalewie MFCCs, RASTA-processing, Gabor Merkmale oder andere Projektioneneines logarithmisch skalierten Mel-Spektrogrammes haben häufignormierende Eigenschaften. So werden beispielsweise schnelle zeitlicheVariationen der spektralen Einhüllenden eines Sprachsignals vonlangsamen getrennt; zudem wird nicht relevante Information, wie zumBeispiel zeitliche und spektrale Feinstruktur, so integriert, dass sie möglichstwenig Einfluss auf die Merkmale hat. Eine der Motivationen dabeiist, dass die menschliche Spracherkennungsleistung vom Vorhandenseindieser Information weitgehend unabhängig ist. Im Vergleichzu Menschen sind ASR Systeme jedoch wesentlich empfindlicher bezüglichÄnderungen der Modulationstiefe zwischen Trainings und Testphase.Die Modulationstiefe wird durch additive Störgeräusche spektralund temporal, und durch Nachhall temporal verringert. Dadurch erhöhtsich die Varianz gemischter (verrauscht und unverrauscht) Sprachdatengegenüber unverrauschten schon bei sehr hohen Signal-zu-Rausch-Abständen. Durch eine Normierung der Modulationstiefe kann diese Varianzund damit die Differenz zwischen Trainings und Testdaten verringertwerden. In dieser Studie wird in Spracherkennungsexperimenten

240 <strong>DAGA</strong> <strong>2012</strong> Programmand noise dominance from the power ratio criterion and on the extensionof the Wiener single channel noise suppression to multichannel data.The suggested time-frequency mask leads to appreciable improvementsin automatic speech recognition (ASR) performance, and other than withmany standard time-frequency masks, the ASR improvements do notdepend on the use of missing data speech recognition, but are achievableto almost their full extent without modifications to the decoder.Mi. 10:10 neon 3.08 Robuste SpracherkennungUntersuchungen zur Güte der Simulation einer Spracheingabe imFreisprechmodus bei der Evaluierung von SpracherkennungssytemenA. Kitzig und H.-G. HirschHochschule NiederrheinBei der Entwicklung von robusten Spracherkennungssystemen ist esvon großem Interesse, zur Evaluation der Leistungsfähigkeit eines SystemsSprachsignale zur Verfügung zu haben, die möglichst realistischdie akustischen Bedingungen praxisrelevanter Störszenarien beinhalten.Eine Möglichkeit zur Generierung solcher Sprachdaten besteht inder Simulation der akustischen Bedingungen, z.B. durch die additiveÜberlagerung von ungestörten Sprachsignalen und Störgeräuschenoder eine Faltung mit geeigneten Raumimpulsantworten zur Simulationeiner Spracheingabe im Freisprechmodus. Bei einer Simulation derakustischen Bedingungen stellt sich die Frage, wie gut die Simulationdie reale Aufnahme von Sprachsignalen in der jeweiligen akustischenUmgebung widerspiegelt. Dies wird im Rahmen der hier vorgestelltenArbeiten für eine Spracheingabe im Freisprechmodus in Räumen untersucht.Dazu werden englische Ziffern und Ziffernketten der TIDigitsSprachdatensammlung in verschiedenen Räumen über einen Aktivlautsprecherwiedergegeben und an unterschiedlichen Mikrofon- Positionenaufgezeichnet. Zusätzlich wird bei jeder Lautsprecher-Mikrofon Anordnungdie Raumimpulsantwort (RIR) gemessen. Durch eine Faltung derungestörten Sprachsignale mit der jeweiligen RIR wird eine zweite Versionder aufgezeichneten Sprachsignale erzeugt. Durch einen Vergleichder Erkennungsraten bei Verwendung der aufgezeichneten Signale undder mit Hilfe der RIR erzeugten Signale kann die Güte der Simulation beurteiltwerden. Ein weiteres Ziel dieser Arbeiten ist es, der Forschungsgemeinschafteine Sammlung realer Aufnahmen zur Verfügung zu stellen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!