PROGRAMM - DAGA 2012
PROGRAMM - DAGA 2012 PROGRAMM - DAGA 2012
122 DAGA 2012 ProgrammRecognition (ASR) can be dramatic. In this paper, we demonstrate thiseffect on a strong recognition system for German broadcast news, usinga dedicated fire fighter radio transmitter. We will dissect the influence ofthe hardware and the software components by analysing the word errorrate, typical word substitutions and changes in the extracted features.We also suggest countermeasures to obtain a stronger ASR system inthis setting.Di. 14:50 radon 3.05 SprachverarbeitungSchätzung der idealen binären Maske mittels Bayes’scher Klassifikationunter Einfluss von Störgeräusch und NachhallC. Kowalski, T. May und S. van de ParUniversität Oldenburg, Institut für Physik - AkustikUnter realen Bedingungen sind Sprachsignale verschiedenen Störeinflüssen,z.B. Störgeräusch oder Nachhall, ausgesetzt. Diese Einflüssesorgen dafür, dass einige Zeit-Frequenz-Punkte keine verlässlichen Informationenüber das Sprachsignal beinhalten. Bei der Sprecher- bzw.Spracherkennung gibt es verschiedene Möglichkeiten mit diesem als”Missing Data” bezeichneten Problem umzugehen. Diese Methoden setzenjedoch eine ideale binäre Maske (IBM) voraus, welche die Zeit-Frequenz-Repräsentation des gestörten Sprachsignals in verlässlicheund nicht verlässliche Bereiche unterteilt. Unglücklicherweise steht dieIBM unter realen Bedingungen nicht zur Verfügung und muss somitgeschätzt werden. Es wird eine Methode vorgestellt, welche die IBMmittels eines Bayes’schen Klassifikators schätzt. Dabei wird die Schätzungfür jeden Kanal einer Gammatone-Filterbank durchgeführt. Als primäresMerkmal wird eine Störgeräuschschätzung verwendet, welchekanalübergreifend in die Klassifikation einfliesst. Um die Robustheit dergeschätzten Masken in verhallten Umgebungen zu erhöhen, wird dieSchätzung mit einer Onset-Maske kombiniert, die den Direktschallanteilwiederspiegelt. Die Evaluation erfolgt durch Sprechererkennungsratenin Störgeräuschumgebung und unter Einfluss von Nachhall. Dabei wirddas Augenmerk auf den Zusammenhang zwischen den Erkennungsratenund der Qualität der geschätzten IBM gerichtet.Di. 15:15 radon 3.05 SprachverarbeitungOptimierung audiovisueller Medien für verschiedene versorgte undunversorgte Hypakusis-PathologienC. Simon und G. FassioStudiengang Ton, HFF PotsdamDie Sprachverständlichkeit audiovisueller Medien wie Film und Fernsehenkann aufgrund der individuellen Hörschädigung und Rezeptionsumgebungdes Zuschauers sowie der technischen Eigenschaften desSendesignals stark beeinträchtigt sein. In der Studie wird untersucht, inwieweitdieses Problem durch eine Sprachverständlichkeits-Optimierungdes Sendesignals in der Ton-Postproduktion audiovisueller Medien gelöstwerden kann. Die Signalmodulation erfolgt unter anderem in den
Programm DAGA 2012 123Bereichen SNR und frequenzspezifischem Dynamikverhalten und wirdin einer gängigen Tonstudioumgebung umgesetzt. Im Hörversuch werdenNormalhörende sowie Probanden mit unterschiedlichen Hypakusis-Pathologien mit und ohne Hörgerät getestet. In der Testreihe wird die Anteilder richtig verstandenen Worte für kurze Dialogszenen aus Fernsehspielfilmenmit 10 Hörgeräteträgern und 12 unversorgten Probanden gemessen.Die eine Hälfte der präsentierten Szenen enthält randomisiertjeweils die originale Fernsehtonfassung, die andere eine auf Sprachverständlichkeitoptimierte Tonfassung, welche ebenfalls den technischenRichtlinien nach ARD-Pflichtenheft 3/5 entspricht. Um Rückschlüsseauf die Sprachverständlichkeit des heterogenen Audiomaterials trotzder hohen Individualität von Hörschädigungen zu ermöglichen, werdendie Probanden nach ihren Reintonaudiogramm-Werten in Kategoriender Hörschädigung und in Gruppen mit und ohne Hörgerät eingeteilt.Die Untersuchungsergebnisse zeigen eine Verbesserung der Sprachverständlichkeitfür alle getesteten Gruppen, wobei die stärksten Effektebei leichtgradig und mittelgradig Hörgeschädigten auftreten.Di. 15:40 radon 3.05 SprachverarbeitungObjective Evaluation of Speech Quality for Short-Term Spectral AttenuationMethodsJ. Bruemmerstedt a , S. Goetze a , F. Xiong a , J. Rennies a und J. Bitzer b,aa Fraunhofer IDMT / Hör-, Sprach- und Audiotechnologie, Oldenburg;b Inst. für Hörtechnik und Audiologie, Jade Hochschule OldenburgIn hands-free communication scenarios the signal of the desired speakeris corrupted by interferences, such as reverberation and ambient noisethat have to be removed by signal processing. Short-term spectral attenuation(STSA) is widely used to suppress such interferences. However,since the filter is located in the signal path it always affects both, desiredsignal and interference, and artifacts are introduced to the signal, e.g.the so-called musical noise. The assessment of speech intelligibility andspeech quality is important especially during system development. Whilesubjective listening tests give good results, they require a considerableamount of time and effort. Therefore, objective measures are demanded,which give a reliable indication of the subjective perception but takemuch less effort in terms of time and cost. Several measures have beenproposed, but still no generally applicable measures have been found.The goal of this work is to evaluate objective measures for STSA algorithms.In order to achieve this, subjective listening tests are conductedand several measures, ranging from signal-based to psychoacousticallymotivated ones are computed. A correlation-analysis is performed inorder to determine measures, that give a reliable indication of the perceivedspeech quality.
- Seite 74 und 75: 72 DAGA 2012 ProgrammSitzung „Bau
- Seite 76 und 77: 74 DAGA 2012 ProgrammDi. 15:15 Spec
- Seite 78 und 79: 76 DAGA 2012 Programmdem komplexen
- Seite 80 und 81: 78 DAGA 2012 Programmmit Hilfe von
- Seite 82 und 83: 80 DAGA 2012 ProgrammDienstag (bis
- Seite 84 und 85: 82 DAGA 2012 ProgrammSchallfeldzerl
- Seite 86 und 87: 84 DAGA 2012 Programmund instantan
- Seite 88 und 89: 86 DAGA 2012 ProgrammSitzung „Num
- Seite 90 und 91: 88 DAGA 2012 Programmnumerischen Ak
- Seite 92 und 93: 90 DAGA 2012 ProgrammDi. 17:20 vana
- Seite 94 und 95: 92 DAGA 2012 Programm∂ np + δ∂
- Seite 96 und 97: 94 DAGA 2012 ProgrammDi. 14:25 tita
- Seite 98 und 99: 96 DAGA 2012 Programmvorwärtsgesic
- Seite 100 und 101: 98 DAGA 2012 Programmdie Möglichke
- Seite 102 und 103: 100 DAGA 2012 ProgrammDi. 14:25 pal
- Seite 104 und 105: 102 DAGA 2012 Programmwerden Daten
- Seite 106 und 107: 104 DAGA 2012 ProgrammDi. 14:50 aur
- Seite 108 und 109: 106 DAGA 2012 ProgrammDi. 16:30 aur
- Seite 110 und 111: 108 DAGA 2012 Programmthreshold and
- Seite 112 und 113: 110 DAGA 2012 ProgrammIm Beitrag we
- Seite 114 und 115: 112 DAGA 2012 ProgrammDi. 15:15 has
- Seite 116 und 117: 114 DAGA 2012 ProgrammDienstag (bis
- Seite 118 und 119: 116 DAGA 2012 ProgrammAudiosignalen
- Seite 120 und 121: 118 DAGA 2012 Programmwichtige Roll
- Seite 122 und 123: 120 DAGA 2012 ProgrammDi. 17:45 ger
- Seite 126 und 127: 124 DAGA 2012 ProgrammDi. 16:30 rad
- Seite 128 und 129: 126 DAGA 2012 ProgrammThe resulting
- Seite 130 und 131: 128 DAGA 2012 ProgrammSprachmerkmal
- Seite 132 und 133: 130 DAGA 2012 ProgrammDi. 15:15 neo
- Seite 134 und 135: 132 DAGA 2012 Programmverwendeten c
- Seite 136 und 137: 134 DAGA 2012 Programmwas built to
- Seite 138 und 139: 136 DAGA 2012 ProgrammDi. 15:15 hel
- Seite 140 und 141: 138 DAGA 2012 Programmder Akustikso
- Seite 142 und 143: 140 DAGA 2012 ProgrammMi. 9:20 Spec
- Seite 144 und 145: 142 DAGA 2012 ProgrammAuswertung de
- Seite 146 und 147: 144 DAGA 2012 ProgrammDazu wird ein
- Seite 148 und 149: 146 DAGA 2012 Programmauch die Krä
- Seite 150 und 151: 148 DAGA 2012 ProgrammMittwoch (ab
- Seite 152 und 153: 150 DAGA 2012 Programmeinen faserve
- Seite 154 und 155: 152 DAGA 2012 Programmüber kleine
- Seite 156 und 157: 154 DAGA 2012 ProgrammMi. 16:30 Spe
- Seite 158 und 159: 156 DAGA 2012 Programmsich auch auf
- Seite 160 und 161: 158 DAGA 2012 Programmder Flankenü
- Seite 162 und 163: 160 DAGA 2012 Programmzum Körpersc
- Seite 164 und 165: 162 DAGA 2012 ProgrammMi. 15:15 Spe
- Seite 166 und 167: 164 DAGA 2012 ProgrammWohnen” deu
- Seite 168 und 169: 166 DAGA 2012 ProgrammSitzung „Vi
- Seite 170 und 171: 168 DAGA 2012 ProgrammMi. 9:45 chro
- Seite 172 und 173: 170 DAGA 2012 ProgrammMi. 14:50 chr
122 <strong>DAGA</strong> <strong>2012</strong> ProgrammRecognition (ASR) can be dramatic. In this paper, we demonstrate thiseffect on a strong recognition system for German broadcast news, usinga dedicated fire fighter radio transmitter. We will dissect the influence ofthe hardware and the software components by analysing the word errorrate, typical word substitutions and changes in the extracted features.We also suggest countermeasures to obtain a stronger ASR system inthis setting.Di. 14:50 radon 3.05 SprachverarbeitungSchätzung der idealen binären Maske mittels Bayes’scher Klassifikationunter Einfluss von Störgeräusch und NachhallC. Kowalski, T. May und S. van de ParUniversität Oldenburg, Institut für Physik - AkustikUnter realen Bedingungen sind Sprachsignale verschiedenen Störeinflüssen,z.B. Störgeräusch oder Nachhall, ausgesetzt. Diese Einflüssesorgen dafür, dass einige Zeit-Frequenz-Punkte keine verlässlichen Informationenüber das Sprachsignal beinhalten. Bei der Sprecher- bzw.Spracherkennung gibt es verschiedene Möglichkeiten mit diesem als”Missing Data” bezeichneten Problem umzugehen. Diese Methoden setzenjedoch eine ideale binäre Maske (IBM) voraus, welche die Zeit-Frequenz-Repräsentation des gestörten Sprachsignals in verlässlicheund nicht verlässliche Bereiche unterteilt. Unglücklicherweise steht dieIBM unter realen Bedingungen nicht zur Verfügung und muss somitgeschätzt werden. Es wird eine Methode vorgestellt, welche die IBMmittels eines Bayes’schen Klassifikators schätzt. Dabei wird die Schätzungfür jeden Kanal einer Gammatone-Filterbank durchgeführt. Als primäresMerkmal wird eine Störgeräuschschätzung verwendet, welchekanalübergreifend in die Klassifikation einfliesst. Um die Robustheit dergeschätzten Masken in verhallten Umgebungen zu erhöhen, wird dieSchätzung mit einer Onset-Maske kombiniert, die den Direktschallanteilwiederspiegelt. Die Evaluation erfolgt durch Sprechererkennungsratenin Störgeräuschumgebung und unter Einfluss von Nachhall. Dabei wirddas Augenmerk auf den Zusammenhang zwischen den Erkennungsratenund der Qualität der geschätzten IBM gerichtet.Di. 15:15 radon 3.05 SprachverarbeitungOptimierung audiovisueller Medien für verschiedene versorgte undunversorgte Hypakusis-PathologienC. Simon und G. FassioStudiengang Ton, HFF PotsdamDie Sprachverständlichkeit audiovisueller Medien wie Film und Fernsehenkann aufgrund der individuellen Hörschädigung und Rezeptionsumgebungdes Zuschauers sowie der technischen Eigenschaften desSendesignals stark beeinträchtigt sein. In der Studie wird untersucht, inwieweitdieses Problem durch eine Sprachverständlichkeits-Optimierungdes Sendesignals in der Ton-Postproduktion audiovisueller Medien gelöstwerden kann. Die Signalmodulation erfolgt unter anderem in den