PROGRAMM - DAGA 2012

PROGRAMM - DAGA 2012 PROGRAMM - DAGA 2012

dega.akustik.de
von dega.akustik.de Mehr von diesem Publisher
13.07.2015 Aufrufe

122 DAGA 2012 ProgrammRecognition (ASR) can be dramatic. In this paper, we demonstrate thiseffect on a strong recognition system for German broadcast news, usinga dedicated fire fighter radio transmitter. We will dissect the influence ofthe hardware and the software components by analysing the word errorrate, typical word substitutions and changes in the extracted features.We also suggest countermeasures to obtain a stronger ASR system inthis setting.Di. 14:50 radon 3.05 SprachverarbeitungSchätzung der idealen binären Maske mittels Bayes’scher Klassifikationunter Einfluss von Störgeräusch und NachhallC. Kowalski, T. May und S. van de ParUniversität Oldenburg, Institut für Physik - AkustikUnter realen Bedingungen sind Sprachsignale verschiedenen Störeinflüssen,z.B. Störgeräusch oder Nachhall, ausgesetzt. Diese Einflüssesorgen dafür, dass einige Zeit-Frequenz-Punkte keine verlässlichen Informationenüber das Sprachsignal beinhalten. Bei der Sprecher- bzw.Spracherkennung gibt es verschiedene Möglichkeiten mit diesem als”Missing Data” bezeichneten Problem umzugehen. Diese Methoden setzenjedoch eine ideale binäre Maske (IBM) voraus, welche die Zeit-Frequenz-Repräsentation des gestörten Sprachsignals in verlässlicheund nicht verlässliche Bereiche unterteilt. Unglücklicherweise steht dieIBM unter realen Bedingungen nicht zur Verfügung und muss somitgeschätzt werden. Es wird eine Methode vorgestellt, welche die IBMmittels eines Bayes’schen Klassifikators schätzt. Dabei wird die Schätzungfür jeden Kanal einer Gammatone-Filterbank durchgeführt. Als primäresMerkmal wird eine Störgeräuschschätzung verwendet, welchekanalübergreifend in die Klassifikation einfliesst. Um die Robustheit dergeschätzten Masken in verhallten Umgebungen zu erhöhen, wird dieSchätzung mit einer Onset-Maske kombiniert, die den Direktschallanteilwiederspiegelt. Die Evaluation erfolgt durch Sprechererkennungsratenin Störgeräuschumgebung und unter Einfluss von Nachhall. Dabei wirddas Augenmerk auf den Zusammenhang zwischen den Erkennungsratenund der Qualität der geschätzten IBM gerichtet.Di. 15:15 radon 3.05 SprachverarbeitungOptimierung audiovisueller Medien für verschiedene versorgte undunversorgte Hypakusis-PathologienC. Simon und G. FassioStudiengang Ton, HFF PotsdamDie Sprachverständlichkeit audiovisueller Medien wie Film und Fernsehenkann aufgrund der individuellen Hörschädigung und Rezeptionsumgebungdes Zuschauers sowie der technischen Eigenschaften desSendesignals stark beeinträchtigt sein. In der Studie wird untersucht, inwieweitdieses Problem durch eine Sprachverständlichkeits-Optimierungdes Sendesignals in der Ton-Postproduktion audiovisueller Medien gelöstwerden kann. Die Signalmodulation erfolgt unter anderem in den

Programm DAGA 2012 123Bereichen SNR und frequenzspezifischem Dynamikverhalten und wirdin einer gängigen Tonstudioumgebung umgesetzt. Im Hörversuch werdenNormalhörende sowie Probanden mit unterschiedlichen Hypakusis-Pathologien mit und ohne Hörgerät getestet. In der Testreihe wird die Anteilder richtig verstandenen Worte für kurze Dialogszenen aus Fernsehspielfilmenmit 10 Hörgeräteträgern und 12 unversorgten Probanden gemessen.Die eine Hälfte der präsentierten Szenen enthält randomisiertjeweils die originale Fernsehtonfassung, die andere eine auf Sprachverständlichkeitoptimierte Tonfassung, welche ebenfalls den technischenRichtlinien nach ARD-Pflichtenheft 3/5 entspricht. Um Rückschlüsseauf die Sprachverständlichkeit des heterogenen Audiomaterials trotzder hohen Individualität von Hörschädigungen zu ermöglichen, werdendie Probanden nach ihren Reintonaudiogramm-Werten in Kategoriender Hörschädigung und in Gruppen mit und ohne Hörgerät eingeteilt.Die Untersuchungsergebnisse zeigen eine Verbesserung der Sprachverständlichkeitfür alle getesteten Gruppen, wobei die stärksten Effektebei leichtgradig und mittelgradig Hörgeschädigten auftreten.Di. 15:40 radon 3.05 SprachverarbeitungObjective Evaluation of Speech Quality for Short-Term Spectral AttenuationMethodsJ. Bruemmerstedt a , S. Goetze a , F. Xiong a , J. Rennies a und J. Bitzer b,aa Fraunhofer IDMT / Hör-, Sprach- und Audiotechnologie, Oldenburg;b Inst. für Hörtechnik und Audiologie, Jade Hochschule OldenburgIn hands-free communication scenarios the signal of the desired speakeris corrupted by interferences, such as reverberation and ambient noisethat have to be removed by signal processing. Short-term spectral attenuation(STSA) is widely used to suppress such interferences. However,since the filter is located in the signal path it always affects both, desiredsignal and interference, and artifacts are introduced to the signal, e.g.the so-called musical noise. The assessment of speech intelligibility andspeech quality is important especially during system development. Whilesubjective listening tests give good results, they require a considerableamount of time and effort. Therefore, objective measures are demanded,which give a reliable indication of the subjective perception but takemuch less effort in terms of time and cost. Several measures have beenproposed, but still no generally applicable measures have been found.The goal of this work is to evaluate objective measures for STSA algorithms.In order to achieve this, subjective listening tests are conductedand several measures, ranging from signal-based to psychoacousticallymotivated ones are computed. A correlation-analysis is performed inorder to determine measures, that give a reliable indication of the perceivedspeech quality.

122 <strong>DAGA</strong> <strong>2012</strong> ProgrammRecognition (ASR) can be dramatic. In this paper, we demonstrate thiseffect on a strong recognition system for German broadcast news, usinga dedicated fire fighter radio transmitter. We will dissect the influence ofthe hardware and the software components by analysing the word errorrate, typical word substitutions and changes in the extracted features.We also suggest countermeasures to obtain a stronger ASR system inthis setting.Di. 14:50 radon 3.05 SprachverarbeitungSchätzung der idealen binären Maske mittels Bayes’scher Klassifikationunter Einfluss von Störgeräusch und NachhallC. Kowalski, T. May und S. van de ParUniversität Oldenburg, Institut für Physik - AkustikUnter realen Bedingungen sind Sprachsignale verschiedenen Störeinflüssen,z.B. Störgeräusch oder Nachhall, ausgesetzt. Diese Einflüssesorgen dafür, dass einige Zeit-Frequenz-Punkte keine verlässlichen Informationenüber das Sprachsignal beinhalten. Bei der Sprecher- bzw.Spracherkennung gibt es verschiedene Möglichkeiten mit diesem als”Missing Data” bezeichneten Problem umzugehen. Diese Methoden setzenjedoch eine ideale binäre Maske (IBM) voraus, welche die Zeit-Frequenz-Repräsentation des gestörten Sprachsignals in verlässlicheund nicht verlässliche Bereiche unterteilt. Unglücklicherweise steht dieIBM unter realen Bedingungen nicht zur Verfügung und muss somitgeschätzt werden. Es wird eine Methode vorgestellt, welche die IBMmittels eines Bayes’schen Klassifikators schätzt. Dabei wird die Schätzungfür jeden Kanal einer Gammatone-Filterbank durchgeführt. Als primäresMerkmal wird eine Störgeräuschschätzung verwendet, welchekanalübergreifend in die Klassifikation einfliesst. Um die Robustheit dergeschätzten Masken in verhallten Umgebungen zu erhöhen, wird dieSchätzung mit einer Onset-Maske kombiniert, die den Direktschallanteilwiederspiegelt. Die Evaluation erfolgt durch Sprechererkennungsratenin Störgeräuschumgebung und unter Einfluss von Nachhall. Dabei wirddas Augenmerk auf den Zusammenhang zwischen den Erkennungsratenund der Qualität der geschätzten IBM gerichtet.Di. 15:15 radon 3.05 SprachverarbeitungOptimierung audiovisueller Medien für verschiedene versorgte undunversorgte Hypakusis-PathologienC. Simon und G. FassioStudiengang Ton, HFF PotsdamDie Sprachverständlichkeit audiovisueller Medien wie Film und Fernsehenkann aufgrund der individuellen Hörschädigung und Rezeptionsumgebungdes Zuschauers sowie der technischen Eigenschaften desSendesignals stark beeinträchtigt sein. In der Studie wird untersucht, inwieweitdieses Problem durch eine Sprachverständlichkeits-Optimierungdes Sendesignals in der Ton-Postproduktion audiovisueller Medien gelöstwerden kann. Die Signalmodulation erfolgt unter anderem in den

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!