PROGRAMM - DAGA 2012
PROGRAMM - DAGA 2012 PROGRAMM - DAGA 2012
240 DAGA 2012 Programmand noise dominance from the power ratio criterion and on the extensionof the Wiener single channel noise suppression to multichannel data.The suggested time-frequency mask leads to appreciable improvementsin automatic speech recognition (ASR) performance, and other than withmany standard time-frequency masks, the ASR improvements do notdepend on the use of missing data speech recognition, but are achievableto almost their full extent without modifications to the decoder.Mi. 10:10 neon 3.08 Robuste SpracherkennungUntersuchungen zur Güte der Simulation einer Spracheingabe imFreisprechmodus bei der Evaluierung von SpracherkennungssytemenA. Kitzig und H.-G. HirschHochschule NiederrheinBei der Entwicklung von robusten Spracherkennungssystemen ist esvon großem Interesse, zur Evaluation der Leistungsfähigkeit eines SystemsSprachsignale zur Verfügung zu haben, die möglichst realistischdie akustischen Bedingungen praxisrelevanter Störszenarien beinhalten.Eine Möglichkeit zur Generierung solcher Sprachdaten besteht inder Simulation der akustischen Bedingungen, z.B. durch die additiveÜberlagerung von ungestörten Sprachsignalen und Störgeräuschenoder eine Faltung mit geeigneten Raumimpulsantworten zur Simulationeiner Spracheingabe im Freisprechmodus. Bei einer Simulation derakustischen Bedingungen stellt sich die Frage, wie gut die Simulationdie reale Aufnahme von Sprachsignalen in der jeweiligen akustischenUmgebung widerspiegelt. Dies wird im Rahmen der hier vorgestelltenArbeiten für eine Spracheingabe im Freisprechmodus in Räumen untersucht.Dazu werden englische Ziffern und Ziffernketten der TIDigitsSprachdatensammlung in verschiedenen Räumen über einen Aktivlautsprecherwiedergegeben und an unterschiedlichen Mikrofon- Positionenaufgezeichnet. Zusätzlich wird bei jeder Lautsprecher-Mikrofon Anordnungdie Raumimpulsantwort (RIR) gemessen. Durch eine Faltung derungestörten Sprachsignale mit der jeweiligen RIR wird eine zweite Versionder aufgezeichneten Sprachsignale erzeugt. Durch einen Vergleichder Erkennungsraten bei Verwendung der aufgezeichneten Signale undder mit Hilfe der RIR erzeugten Signale kann die Güte der Simulation beurteiltwerden. Ein weiteres Ziel dieser Arbeiten ist es, der Forschungsgemeinschafteine Sammlung realer Aufnahmen zur Verfügung zu stellen.
Programm DAGA 2012 241Mi. 14:00 neon 3.08 Robuste SpracherkennungSpectro-Temporal Features with Noise-Adaptive CompetitionS.K. Ngouoko Mboungueng a , M. Heckmann b und B. Wrede aa Univ. Bielefeld, CoR-Lab; b Honda Research Insitute Europe GmbHWe could show in the past that Hierarchical Spectro-Temporal (HIST)features yield improved performance in noise especially when combinedwith standard features. In this paper we incorporate an adaptive featurecompetition in the feature extraction process and investigate its benefits.Previously, we used the same competition strength for all acousticalenvironments, thereby the HIST feature extraction was independent ofthe acoustic environment. However, each acoustical environment exhibitsits own characteristics. Therefore, we adapt the competition strengthwith respect to the acoustical environment. Primarily, we determine empiricallythe optimal competition strength in each environment. Then, weuse the Signal-to-Noise Ratio (SNR) as indicator for the acoustical environment.Hence, we estimate the SNR of the signal and set the competitionstrength accordingly. Experimental results with different noise typesdemonstrate that such an adaptation of the HIST features can improvethe recognition rates.Mi. 14:25 neon 3.08 Robuste SpracherkennungEvaluation modulationstiefennormierender Methoden zur Verbesserungder Robustheit automatischer Spracherkennungssystememit unterschiedlichen MerkmalenM.R. Schädler und B. KollmeierMedizinische Physik, Carl-von-Ossietzky Universität OldenburgDie zur automatischen Spracherkennung (ASR) genutzten Merkmalewie MFCCs, RASTA-processing, Gabor Merkmale oder andere Projektioneneines logarithmisch skalierten Mel-Spektrogrammes haben häufignormierende Eigenschaften. So werden beispielsweise schnelle zeitlicheVariationen der spektralen Einhüllenden eines Sprachsignals vonlangsamen getrennt; zudem wird nicht relevante Information, wie zumBeispiel zeitliche und spektrale Feinstruktur, so integriert, dass sie möglichstwenig Einfluss auf die Merkmale hat. Eine der Motivationen dabeiist, dass die menschliche Spracherkennungsleistung vom Vorhandenseindieser Information weitgehend unabhängig ist. Im Vergleichzu Menschen sind ASR Systeme jedoch wesentlich empfindlicher bezüglichÄnderungen der Modulationstiefe zwischen Trainings und Testphase.Die Modulationstiefe wird durch additive Störgeräusche spektralund temporal, und durch Nachhall temporal verringert. Dadurch erhöhtsich die Varianz gemischter (verrauscht und unverrauscht) Sprachdatengegenüber unverrauschten schon bei sehr hohen Signal-zu-Rausch-Abständen. Durch eine Normierung der Modulationstiefe kann diese Varianzund damit die Differenz zwischen Trainings und Testdaten verringertwerden. In dieser Studie wird in Spracherkennungsexperimenten
- Seite 192 und 193: 190 DAGA 2012 ProgrammFür solche A
- Seite 194 und 195: 192 DAGA 2012 Programmund Verarbeit
- Seite 196 und 197: 194 DAGA 2012 Programmdistinkten te
- Seite 198 und 199: 196 DAGA 2012 Programmwenn verschie
- Seite 200 und 201: 198 DAGA 2012 ProgrammMi. 10:10 pal
- Seite 202 und 203: 200 DAGA 2012 ProgrammDas alte Roll
- Seite 204 und 205: 202 DAGA 2012 ProgrammMi. 16:55 pal
- Seite 206 und 207: 204 DAGA 2012 ProgrammIm Vortrag we
- Seite 208 und 209: 206 DAGA 2012 ProgrammMi. 9:45 auru
- Seite 210 und 211: 208 DAGA 2012 Programmmasking varie
- Seite 212 und 213: 210 DAGA 2012 ProgrammMi. 16:30 aur
- Seite 214 und 215: 212 DAGA 2012 Programmdieser Vorher
- Seite 216 und 217: 214 DAGA 2012 ProgrammMi. 9:20 hass
- Seite 218 und 219: 216 DAGA 2012 ProgrammIn dieser Arb
- Seite 220 und 221: 218 DAGA 2012 Programmcompute the d
- Seite 222 und 223: 220 DAGA 2012 ProgrammMi. 17:45 has
- Seite 224 und 225: 222 DAGA 2012 Programman automatic
- Seite 226 und 227: 224 DAGA 2012 ProgrammMi. 9:45 germ
- Seite 228 und 229: 226 DAGA 2012 Programmkonnte die Fu
- Seite 230 und 231: 228 DAGA 2012 ProgrammMi. 16:30 ger
- Seite 232 und 233: 230 DAGA 2012 ProgrammSitzung „Si
- Seite 234 und 235: 232 DAGA 2012 ProgrammMi. 10:10 rad
- Seite 236 und 237: 234 DAGA 2012 Programmder freien Sc
- Seite 238 und 239: 236 DAGA 2012 Programmder Grundglei
- Seite 240 und 241: 238 DAGA 2012 Programmnach drei Jah
- Seite 244 und 245: 242 DAGA 2012 Programmder Beitrag m
- Seite 246 und 247: 244 DAGA 2012 ProgrammSitzung „Au
- Seite 248 und 249: 246 DAGA 2012 ProgrammMi. 17:45 neo
- Seite 250 und 251: 248 DAGA 2012 ProgrammMi. 8:55 heli
- Seite 252 und 253: 250 DAGA 2012 ProgrammDie Schall 03
- Seite 254 und 255: 252 DAGA 2012 ProgrammLärmreduktio
- Seite 256 und 257: 254 DAGA 2012 Programmrealer Messwe
- Seite 258 und 259: 256 DAGA 2012 ProgrammMittwoch (ab
- Seite 260 und 261: 258 DAGA 2012 ProgrammSitzung „Me
- Seite 262 und 263: 260 DAGA 2012 Programmuntersucht wu
- Seite 264 und 265: 262 DAGA 2012 ProgrammFachvorträge
- Seite 266 und 267: 264 DAGA 2012 Programmbieten Kopfh
- Seite 268 und 269: 266 DAGA 2012 Programmsich eine vol
- Seite 270 und 271: 268 DAGA 2012 ProgrammDo. 9:20 Spec
- Seite 272 und 273: 270 DAGA 2012 ProgrammDo. 14:25 Spe
- Seite 274 und 275: 272 DAGA 2012 ProgrammDo. 16:05 Spe
- Seite 276 und 277: 274 DAGA 2012 Programmein zusätzli
- Seite 278 und 279: 276 DAGA 2012 Programmvorausberechn
- Seite 280 und 281: 278 DAGA 2012 ProgrammDo. 15:40 Spe
- Seite 282 und 283: 280 DAGA 2012 ProgrammSitzung „St
- Seite 284 und 285: 282 DAGA 2012 Programmauf Finite-El
- Seite 286 und 287: 284 DAGA 2012 Programmsimuliert, wo
- Seite 288 und 289: 286 DAGA 2012 ProgrammDo. 16:30 chr
- Seite 290 und 291: 288 DAGA 2012 Programmist eine Mass
240 <strong>DAGA</strong> <strong>2012</strong> Programmand noise dominance from the power ratio criterion and on the extensionof the Wiener single channel noise suppression to multichannel data.The suggested time-frequency mask leads to appreciable improvementsin automatic speech recognition (ASR) performance, and other than withmany standard time-frequency masks, the ASR improvements do notdepend on the use of missing data speech recognition, but are achievableto almost their full extent without modifications to the decoder.Mi. 10:10 neon 3.08 Robuste SpracherkennungUntersuchungen zur Güte der Simulation einer Spracheingabe imFreisprechmodus bei der Evaluierung von SpracherkennungssytemenA. Kitzig und H.-G. HirschHochschule NiederrheinBei der Entwicklung von robusten Spracherkennungssystemen ist esvon großem Interesse, zur Evaluation der Leistungsfähigkeit eines SystemsSprachsignale zur Verfügung zu haben, die möglichst realistischdie akustischen Bedingungen praxisrelevanter Störszenarien beinhalten.Eine Möglichkeit zur Generierung solcher Sprachdaten besteht inder Simulation der akustischen Bedingungen, z.B. durch die additiveÜberlagerung von ungestörten Sprachsignalen und Störgeräuschenoder eine Faltung mit geeigneten Raumimpulsantworten zur Simulationeiner Spracheingabe im Freisprechmodus. Bei einer Simulation derakustischen Bedingungen stellt sich die Frage, wie gut die Simulationdie reale Aufnahme von Sprachsignalen in der jeweiligen akustischenUmgebung widerspiegelt. Dies wird im Rahmen der hier vorgestelltenArbeiten für eine Spracheingabe im Freisprechmodus in Räumen untersucht.Dazu werden englische Ziffern und Ziffernketten der TIDigitsSprachdatensammlung in verschiedenen Räumen über einen Aktivlautsprecherwiedergegeben und an unterschiedlichen Mikrofon- Positionenaufgezeichnet. Zusätzlich wird bei jeder Lautsprecher-Mikrofon Anordnungdie Raumimpulsantwort (RIR) gemessen. Durch eine Faltung derungestörten Sprachsignale mit der jeweiligen RIR wird eine zweite Versionder aufgezeichneten Sprachsignale erzeugt. Durch einen Vergleichder Erkennungsraten bei Verwendung der aufgezeichneten Signale undder mit Hilfe der RIR erzeugten Signale kann die Güte der Simulation beurteiltwerden. Ein weiteres Ziel dieser Arbeiten ist es, der Forschungsgemeinschafteine Sammlung realer Aufnahmen zur Verfügung zu stellen.