8 Diplom- und Studienarbeiten - IAS - Technische Universität Dresden

Technische Universität Dresden 

Fakultät Elektrotechnik und Informationstechnik 

Institut für Akustik und Sprachkommunikation 

Professur für Systemtheorie und Sprachtechnologie 

Jahresbericht 2009 

Berichtszeitraum 1.1.2009 bis 31.12.2009

Postanschrift (Briefe): 

Technische Universität Dresden 

Fakultät Elektrotechnik und Informationstechnik 

Institut für Akustik und Sprachkommunikation 

Professur für Systemtheorie und Sprachtechnologie 

01062 Dresden 

Postanschrift (Pakete): 

Helmholtzstr. 10 

01069 Dresden 

Besucheradresse: 

Helmholtzstr. 18 

Barkhausen-Bau 

Sekretariat: Zi.: S48 

Telefon: ++49 – 351 - 463 37656 (Sekretariat) 

++49 – 351 - 463 32747 

Fax: ++49-351 – 463 – 37781 

E-Mail: Ruediger.Hoffmann@tu-dresden.de 

Als Manuskript gedruckt 

2

Vorwort 

Vorwort 

Der vorliegende Jahresbericht ist der neunzehnte aus dem Institut für Akustik und Sprachkommunikation 

der TU Dresden und umfasst für das Jahr 2009 anteilig die Aktivitäten der Professur für Systemtheorie 

und Sprachtechnologie und der Honorarprofessur für Elektroakustik. 

Um mit positiven Nachrichten zu beginnen, sollen einige erfreuliche Personalia in chronologischer 

Reihenfolge erwähnt werden: 

• Am 24. März 2009 erhielt unser langjähriger ehemaliger Institutsdirektor, Herr Prof. Dr.-Ing. 

habil. Peter Költzsch, auf der Konferenz NAG/DAGA in Rotterdam die Helmholtz-Medaille für 

seine herausragenden und vielfältigen Beiträge zur Strömungsakustik verliehen. 

• Zum 1. Juni 2009 bewilligte die Humboldt-Stiftung die Verlängerung des Forschungsaufenthaltes 

von Frau Dr. Joan K.-Y. Ma in unserer Arbeitsgruppe für ein Jahr. 

• Zum Wintersemester 2009/10 erhielt unsere langjährige Mitarbeiterin, Frau Dr. phil. Hongwei 

Ding, eine Professorenstelle für Linguistik an der School of Foreign Languages der Tongji University, 

Shanghai. 

• Am 26. Oktober 2009 wurde Herrn Dr.-Ing. Rolf Dietzel anlässlich seines 75. Geburtstages die 

Ehrenmedaille der TU Dresden für seine Verdienste um die Traditionspflege an unserer Universität 

überreicht. 

Allen Genannten gilt noch einmal unser herzlicher Glückwunsch. 

Im Bereich der Lehre hat uns im Berichtsjahr der Bologna-Prozess sehr stark beschäftigt. Die Fakultät 

Elektrotechnik und Informationstechnik hat nach reiflicher Überlegung beschlossen, ihre drei Studiengänge 

nicht auf konsekutive Abschlüsse (Bachelor / Master) umzustellen, sondern das international 

angesehene Diplomstudium beizubehalten. Gegenwärtig erfolgt die Modularisierung der Diplomstudiengänge 

im Einklang mit den Bologna-Vorschriften. 

Im Hinblick auf die Entwicklung der Studentenzahlen gibt es für das Berichtsjahr keine guten Nachrichten. 

Die Fakultät immatrikulierte mit 324 Anfängerinnen und Anfängern wiederum reichlich 10 % 

weniger als im Vorjahr. Wir erklären uns diesen Effekt, der diesmal nicht im gesamtdeutschen Trend 

liegt, mit der im Berichtsjahr erfolgten Schließung des Dresdener Halbleiter-Herstellers Qimonda. 

In der Forschung zur Sprachverarbeitung macht sich im Drittmittelsektor bemerkbar, dass die meisten 

Konzerne ihre Forschung auf diesem Gebiet praktisch eingestellt haben. Dank der in den letzen Jahren 

erfolgten Verbreiterung unserer fachlichen Basis in Richtung einer allgemeiner verstandenen intelligenten 

Signalverarbeitung konnte die Finanzierung des wissenschaftlichen Nachwuchses trotzdem 

gesichert werden. Ich danke allen Förderinstitutionen und Industriepartnern, die sich gemeinsam mit 

uns für die Belange der Anwendung der Signal- und Systemtheorie auf sprachliche und nichtsprachliche 

Signale eingesetzt haben. Mein besonderer Dank gilt wieder Frau Wilhelmine Willkomm für die 

fortdauernde, großzügige Unterstützung der Lehre und Qualifizierung aus den Mitteln ihrer Stiftung. 

Allen Mitgliedern und Freunden des Instituts für Akustik und Sprachkommunikation wünsche ich für 

2010 alles Gute, Gesundheit und Erfolg. 

Dresden, im Februar 2010 Rüdiger Hoffmann 

3

Inhaltsverzeichnis 

4 


Vorwort.................................................................................................................................................... 3 

Inhaltsverzeichnis .................................................................................................................................... 4 

1 Mitarbeiterinnen und Mitarbeiter ..................................................................................................... 6 

2 Lehre ................................................................................................................................................ 8 

2.1 Vorlesungen, Übungen, Praktika ................................................................................................ 8 

2.1.1 Pflichtfächer im Grund- und Hauptstudium ....................................................................... 8 

2.1.2 Wahlobligatorische Fächer................................................................................................. 8 

2.1.3 Lehrveranstaltungen für andere Studiengänge (Nebenfach)............................................. 9 

2.1.4 Externe Lehrangebote ....................................................................................................... 9 

2.2 Studienarbeiten ........................................................................................................................ 10 

2.3 Diplomarbeiten ......................................................................................................................... 10 

2.4 Studienwerbung und Führungen.............................................................................................. 10 

3 Forschungsbericht.......................................................................................................................... 12 

3.1 Verarbeitung und Erkennung sprachlicher und nicht sprachlicher Signale............................... 12 

3.1.1 Theorie der akustischen Mustererkennung..................................................................... 12 

3.1.2 Sprachsteuerung für Mess- und Prüfgeräte .................................................................... 14 

3.2 Sprachsynthese ........................................................................................................................ 18 

3.2.1 Sprachsynthesesystem DRESS....................................................................................... 18 

3.2.2 Prosodische Analyse und Resynthese ............................................................................ 20 

3.3 Verarbeitung akustischer Signale (akustisches Frontend)........................................................ 21 

3.3.1 Robuste Spracherkennung in Räumen durch Beamforming ........................................... 21 

3.3.2 Multimodales, personalisiertes Bedienkonzept für Public Terminals – .............................. 

Mobiles Endgerät............................................................................................................. 22 

3.3.3 Nichtlineares Übertragungsverhalten von Kondensatormikrofonen................................ 23 

3.3.4 Untersuchungen zur Signalseparation für Zweikanalmikrofone ...................................... 24 

3.4 Anwendungen von Sprachtechnologie in Interaktionsforschung und Didaktik........................ 24 

3.4.1 Überblick .......................................................................................................................... 24 

3.4.2 Euronounce/ Intelligent Pronunciation Tutoring System ................................................. 25 

3.4.3 Prosodic impairment in dysarthria associated with Parkinson’s disease: Analysis-bysynthesis.......................................................................................................................... 

30 

3.4.4 AvatR – Audio visual assistant turns Real........................................................................ 31 

3.4.5 Lingubär – Lehrmittel zur Förderung der kindlichen Sprachkompetenz .......................... 32 

3.4.6 CALL-Kooperation mit der Beuth Hochschule für Technik, Berlin................................... 33 

3.4.7 Multimediale Vorlesungsergänzung zur Systemtheorie und Signalverarbeitung ............ 34 

3.5 Verarbeitung von Musiksignalen .............................................................................................. 36 

3.5.1 Einordnung des Forschungsprojektes ............................................................................. 36 

3.5.2 Durchführung................................................................................................................... 37 

3.5.3 Vergleich statistischer Klassifikatoren zur Ermittlung musikalischer Aspekte................. 37 

3.6 Forschungsaktivitäten der Honorarprofessur Elektroakustik.................................................... 39 

3.7 Historische Aktivitäten.............................................................................................................. 39 

3.7.1 Bestandserschließung ..................................................................................................... 39 

3.7.2 Öffentlichkeitsarbeit ........................................................................................................ 39 

3.7.3 Projekte zu historischen phonetischen Geräten .............................................................. 41 

3.7.4 Geschichte der mechanischen Sprachsynthese.............................................................. 43 

4 Drittmittelprojekte und haushaltfinanzierte Forschung .................................................................. 44 

4.1 Drittmittelprojekte .................................................................................................................... 44 

4.2 Haushaltfinanzierte Forschung ................................................................................................. 45 

5 Veröffentlichungen ......................................................................................................................... 46 

5.1 Bücher, Buchbeiträge............................................................................................................... 46 

5.2 Veröffentlichungen in Zeitschriften .......................................................................................... 46 

5.3 TU-Informationen und Lehrmaterial ......................................................................................... 47 

5.4 Konferenzveröffentlichungen ................................................................................................... 47 

5.5 Vorträge (ungedruckt)............................................................................................................... 49


5.6 Patente ..................................................................................................................................... 51 

5.7 Forschungsberichte.................................................................................................................. 51 

5.8 Zeitungsbeiträge und Kurzmitteilungen.................................................................................... 51 

6 Promotionen................................................................................................................................... 52 

7 Habilitationen.................................................................................................................................. 52 

8 Diplom- und Studienarbeiten.......................................................................................................... 52 

8.1 Diplom-/Masterarbeiten............................................................................................................ 52 

8.2 Studienarbeiten ........................................................................................................................ 52 

9 Auszeichnungen und Ehrungen ..................................................................................................... 53 

9.1 Verleihung der Ehrenmedaille der Technischen Universität Dresden an .................................... 

Herrn Dr.-Ing. Rolf Dietzel, 26. Oktober 2009 .......................................................................... 53 

9.2 Innovationspreis Medizintechnik für ein TU-Projekt, 29. Oktober 2009................................... 55 

10 Wissenschaftliche Veranstaltungen ......................................................................................... 57 

10.1 Zwanzigste Konferenz Elektronische Sprachsignalverarbeitung, ............................................ 

Dresden, 21. – 24. 9. 2009................................................................................................... 57 

10.1.1 Einordnung....................................................................................................................... 57 

10.1.2 Fachteil der ESSV, 21. – 23. 9. 2009 ............................................................................... 57 

10.1.3 Traditionstag, 23. / 24. 9. 2009 ........................................................................................ 58 

10.1.4 Zur Zukunft der ESSV ...................................................................................................... 60 

10.2 didacta 2009 – die Bildungsmesse Hannover, 10. – 14. 2. 2009......................................... 60 

10.3 Statusseminare des BMBF-Projekts „Sprachsteuerung für Mess- und Prüfgeräte“ 

Dresden, 05. 03. und 03. 09. 2009 ...................................................................................... 61 

10.4 EURONOUNCE-Meetings in Bratislava, Wehlen und Poznan ............................................. 62 

10.5 Japanisch-deutscher Kooperationsworkshop, Dresden, 8./9. Dezember 2009................... 64 

10.6 ECESS-Treffen, Dresden, 18. - 19. Juni 2009 ...................................................................... 65 

10.7 Statusseminare des Projektes "Untersuchung des Einsatzes von Verfahren zur Analyse 

zeitlicher Verläufe bei der Extraktion perzeptueller musikalischer Attribute", ....................... 

Dresden, 12. 05. und 03. 07. 2009 ...................................................................................... 65 

10.8 Tschechisch-deutscher Kooperationsworkshop, Dresden, 14. – 21. November 2009........ 66 

10.9 Wissenschaftliche Veranstaltungen zur Lautsprecherforschung......................................... 66 

10.9.1 Weiterbildungsveranstaltung „Assessment of Signal Distortion in Audio Systems“, 

Dresden, 5. – 7. 11. 2009 ................................................................................................ 66 

10.9.2 Gastvorlesung in Taiwan.................................................................................................. 67 

10.9.3 ALMA Symposium auf der Prolight + Sound .................................................................. 67 

10.9.4 Weitere Schulungen, öffentliche Workshops und Seminare .......................................... 67 

11 Reisen....................................................................................................................................... 68 

12 Aktivitäten in der wissenschaftlichen Gemeinschaft ............................................................... 72 

12.1 Akademische Selbstverwaltung........................................................................................... 72 

12.2 Mitarbeit in Gremien ............................................................................................................ 72 

12.3 Mitarbeit in Programmkomitees .......................................................................................... 72 

5

6 

Mitarbeiterinnen und Mitarbeiter 

1 Mitarbeiterinnen und Mitarbeiter 

Hochschullehrer 

Telefon 

Prof. Dr.-Ing. habil. Rüdiger Hoffmann 32747 

Prof. Dr.-Ing. habil. W. Klippel 

Prof. Dr.-Ing. habil Dieter Mehnert 

Wissenschaftliche Mitarbeiterinnen und Mitarbeiter 

Honorarprofessor 

externer Mitarbeiter 

33106 

Dr.-Ing. Ute Feldmann bis 30.09.2009 

Dipl.-Ing. Oliver Jokisch 32289 

PD Dr.-Ing. Ulrich Kordon 32240 

Dipl.-Ing. Mathias Kortke 34849 

Dr.-Ing. Matthias Wolff 36298 

Wissenschaftliche Mitarbeiterinnen und Mitarbeiter auf Drittmittelstellen, Doktoranden, WHK 

Dr. phil. Hongwei Ding bis 30.08.2009 

Dipl.-Ing. Frank Duckhorn BMBF 34839 

Dipl.-Ing. Thomas Fehér AiF 32721 

MSc. Hamurabi Gamboa Rosales Stipendium/WHK 34839 

Dipl.-Ing. Hussein Hussein Stipendium/WHK/Beuth-Hochschule 32289 

für Technik Berlin 

Dipl.-Ing. Stephan Hübler seit 14.4.2009, mufin GmbH 32799 

Dipl.-Slaw. Rainer Jäckel EU 34283 

Dipl.-Ing. Dietmar Richter Microtech Gefell GmbH 32275 

Dipl.-Ing. Guntram Strecha BMBF 34849 

Dipl.-Inf. Constanze Tschöpe FhG 36298 

Dipl.-Ing. Sören Wittenberg AiF 32275 

Ingenieure 

Dipl.-Ing. Steffen Kürbis 33395 

Gastwissenschaftlerinnen und Gastwissenschaftler 

Dr. Joan Ma Humboldt-Stiftung 32799 

Dr. Liliya Tsirulnik DAAD (01.09. – 31.10.2009) 

Doc. PhDr. Jan Volín, Ph.D. 

DAAD-Förderprogramm Ostpartner- 

Mgr. Radek Skarnitzl, Ph.D. 

schaften – Kooperation mit der 

Karlsuniversität Prag 

(14.11. – 21.11.2009)

Stipendiaten 

Dr.-Ing. Udo Hain 

Dipl. Medienwirtin Karina Matthes 

Dr.-Ing. Rico Petrick 

Mitarbeiterinnen und Mitarbeiter 

exist-Gründerstipendium seit 

01.06.2009 

Dipl.-Ing. Katja Krampitz exist-Gründerstipendium 01. 06. - 

31.08.2009 

Dipl.-Inf. Niels Baumbach 

Dipl.-Wirtsch.-Ing. Toni Homuth 

Robert Granich 

exist-Gründerstipendium bis 

30.09.2009 

ABM/AGH E (Historische akustisch-phonetische Sammlung) 

Dipl.-Ing. Hans-Dieter Keil bis 31.3.2009 ABM 

seit 1.7.2009 AGH E 

Sekretärin 

32449 

32721 

Barbara Wrann 37656 

7

2 Lehre 

2.1 Vorlesungen, Übungen, Praktika 

8 

Lehre 

Im Sommersemester 2009 und im Wintersemester 2009/2010 wurden die folgenden Lehrveranstaltungen 

durchgeführt: 

2.1.1 Pflichtfächer im Grund- und Hauptstudium 

Vorlesung Systemtheorie I (Prof. Hoffmann) 

2 SWS Vorlesung, 1 SWS Übung 

Studiengänge Elektrotechnik, Informationssystemtechnik, Mechatronik u. Nebenfach 

WS 09/10 

3. Semester 

300 Hörer 

Vorlesung Systemtheorie II (Prof. Hoffmann) SS 09 

2 SWS Vorlesung, 2 SWS Übung 4. Semester 

Studiengänge Elektrotechnik, Informationssystemtechnik, Mechatronik und Nebenfach 

336 Hörer 

Vorlesung Systemtheorie III (Stochastische Signale und Systeme) 

(Prof. Hoffmann) 


Studienrichtung Informationstechnik, Wahlfach für Studiengänge Informationssystemtechnik 

und Mechatronik 

Vorlesung Signalverarbeitung (Prof. Hoffmann) 


Studienrichtung Informationstechnik, Studiengang Informationssystemtechnik und 

Nebenfach 

Praktikum Mikrorechentechnik II (Mitwirkung) 

Versuch „Akustischer Schalter“ (PD Dr. Kordon und Mitarbeiter) 

Studiengang Elektrotechnik 

Übung Grundlagen der Elektrotechnik (Mitwirkung) 

(PD Dr. Kordon, Dipl.-Ing. Kortke) 

2.1.2 Wahlobligatorische Fächer 

Doktorandenseminar Systemtheorie und Sprachtechnologie 

2 SWS Seminar 

Vorlesung Signalanalyse und –erkennung (Prof. Hoffmann) 


Vorlesung Technische Sprachkommunikation (PD Dr. Kordon) 

2 SWS Vorlesung 

WS 09/10 

5. Semester 

40 Hörer 

WS 09/10 

5. Semester 

60 Hörer 

SS 09 

4. Semester 

40 Teilnehmer 

WS 09/10 

1. Semester 

24 Teilnehmer 

SS 09 und 

WS 09/10 

10 Teilnehmer 

SS 09 

6. Semester 

20 Hörer 

SS 09 

6. Semester 

21 Hörer

Lehre 

Praktikum Akustik 

(gemeinsam mit der Professur Kommunikationsakustik) 

3 SWS Praktikum 

Hauptseminar Systemtheorie-Sprachtechnologie-Kommunikationsakustik 

(gemeinsam mit der Professur Kommunikationsakustik, 

Koordinator: Dipl.-Ing. Jokisch) 

1 SWS Seminar 

Akustische Mustererkennung (Dr. Wolff) 


Vorlesung Sprachsynthese (PD Dr. Kordon) 


Audiosignalverarbeitung 

(PD Dr.-Ing. Kordon/Dipl.-Ing. Kürbis) 

2 SWS Vorlesung, 1 SWS Praktikum 

Praktikum Technische Sprachkommunikation (PD Dr. Kordon) 

3 SWS Praktikum 

Vorlesung Aktive Steuerung von Schall und Schwingungen (Prof. Klippel) 


Bewertung von Signalverzerrungen in Audiosystemen (Prof. Klippel) 

Blockveranstaltung 

2.1.3 Lehrveranstaltungen für andere Studiengänge (Nebenfach) 

Vorlesung Einführung in die Systemtheorie (PD Dr. Kordon) 


2.1.4 Externe Lehrangebote 

Konzipieren, Generieren und Explorieren akustisch-phonetischer Korpora 

(Dipl.-Slaw. Jäckel) 

Vortrag im Hauptseminar Angewandte Phonetik (Institut für Germanistik) 

Sprachverarbeitung (PD Dr. Kordon) 

Lehrauftrag BTU Cottbus 

WS 09/10 

7. Semester 

2 Teilnehmer 

WS 09/10 

7. Semester 

3 Hörer 

WS 09/10 

7. Semester 

4 Hörer 

WS 09/10 

7. Semester 

5 Hörer 

WS 09/10 

7. Semester 

11 Teilnehmer 

WS 09/10 

7. Semester 

SS 09 

3 Hörer 

WS 09/10 

ca. 80 Hörer 

WS 09/10 

3. Semester 

36 Hörer 

27.05.09 

ca. 60 Hörer 

WS 09/10 

ca. 30 Hörer 

9

2.2 Studienarbeiten 

10 

Lehre 

Im Berichtszeitraum wurden am Institut für Akustik und Sprachkommunikation 3 Studienarbeiten 

angefertigt. Die Themen, die Bearbeiter und die Betreuer der Arbeiten sind im Abschnitt 8.2 aufgeführt. 

2.3 Diplomarbeiten 

Im Berichtszeitraum wurden am Institut für Akustik und Sprachkommunikation 5 Diplomarbeiten angefertigt. 

Die Themen, die Bearbeiter und die Betreuer der Arbeiten sind im Abschnitt 8.1 aufgeführt. 

2.4 Studienwerbung und Führungen 

Schnupperstudium am 8. Januar 2009 

Vorlesungen: 

• Einführung in die Systemtheorie (Vorlesung 3. Semester) PD Dr. Kordon 

• Systemtheorie I (Vorlesung 3. Semester) Prof. Hoffmann 

• Spracherkennung I (Vorlesung 7. Semester) Dr. Wolff 

Laborbesichtigung mit Experimenten 

• Labor für Spracherkennung und Sprachsynthese PD Dr. Kordon 

Betreuung von Schülerpraktika 

Zwei Schüler absolvierten an der Professur jeweils ein zweiwöchiges Betriebspraktikum. Dabei wurden 

die Aufbereitung und Digitalisierung historischer Sprach- und Musikaufnahmen der historischen 

akustisch-phonetischen Sammlung weiter fortgeführt. 

Sommeruniversität 

Im Rahmen der Sommeruniversität fanden im Juni und Juli 2009 (25.06., 02.07., 09.07., 16.07.) vier 

Veranstaltungen statt an denen insgesamt 52 Schülerinnen und Schüler teilnahmen). Diese Veranstaltungen 

wurden in Zusammenarbeit mit dem Lehrstuhl für Kommunikationsakustik durchgeführt. 

Von der Professur für Systemtheorie und Sprachtechnologie erfolgte eine Einführung in die Sprachanalyse 

und Sprachsynthese durch PD Dr. Kordon und Dipl.-Ing. Wittenberg. 

Es wurde das Labor für Spracherkennung und Sprachsynthese besichtigt. 

Lange Nacht der Wissenschaften 

Am 19. Juli 2009 beteiligte sich die Professur zum wiederholten Male mit 

• der Präsentation von Experimenten im Spracherkennungs- und Sprachsyntheselabor und 

• der Vorstellung der historischen akustisch-phonetischen Sammlung unter dem Titel „Forschen 

wie Professor Higgins“ 

• Demonstration der adaptiven Lautsprechersteuerung (Prof. Klippel) 

an der Langen Nacht der Wissenschaften. 

Es konnten wieder mehrere hundert Besucher an diesem Abend begrüßt werden.

Lehre 

Besuch einer Schülergruppe des HOGA-Gymnasiums 

an der Fakultät Elektrotechnik und Informationstechnik 

am 5.2.2009 

Anteil der Professur Systemtheorie und Sprachtechnologie: 

Fachvortrag „Denken in Systemen“ 

Herr Prof. R. Hoffmann (Inst. für Akustik und Sprachkommunikation) demonstriert am Beispiel seines 

Fachgebietes, der Mensch-Maschine-Kommunikation mittels natürlicher Sprache, unsere prinzipielle 

Vorgehensweise bei der Beschreibung von Systemen sowie zur Lösung ingenieurtechnischer Aufgaben 

Stammtisch der VDE-Hochschulgruppe 

am 16.06.2009 

„Sprachsynthese – wie baue ich mir eine Stimme?“ 

Vortrag und Diskussion PD Dr.-Ing. U. Kordon 

Es konnten ca. 15 Teilnehmer begrüßt werden. 

Besuch einer Gruppe von Schülern des Goethe-Insituts 

an der Fakultät Elektrotechnik und Informationstechnik 

am 27.08.2009 

60 Schüler und 10 Betreuer des Goethe-Instituts 

Anteil der Professur Systemtheorie und Sprachtechnologie: 

Vortrag: Dipl.-Ing. Wittenberg 

Demonstration des Spracherkenners: Dipl.-Ing. Duckhorn 

Exkursion von Studenten der HTW Dresden 

am 10.09.2009 

Vorstellung des Arbeitsgebietes Sprachtechnologie 

Ausstellung SprachSignale in den Technischen Sammlungen der Stadt Dresden 

Führung durch die Ausstellung 

am 2.10.2009 

führte Dipl.-Ing. Fehér 35 Schüler des Schiller-Gymnasiums Pirna durch die Ausstellung SprachSignale 

Vortrag im Rahmen des Turmfestes 

am 8.11.2009 

Professor Hoffmann 

Von legendären sprechenden Köpfen zu elektronischen „talking heads“ 

Vortrag 

am 6.12.2009 

PD Dr.-Ing. Kordon 

Wie „hört“ und „spricht“ ein Computer“? 

11

3 Forschungsbericht 

12 

Forschungsbericht 

3.1 Verarbeitung und Erkennung sprachlicher und nicht 

sprachlicher Signale 

In diesem Abschnitt berichten wir über die verschiedenen Arbeiten, die im Rahmen der Weiterentwicklung 

und Anwendung unserer Plattform UASR (Unified Approach to Signal Synthesis and 

Recognition) durchgeführt wurden. 

Zunächst wird auf die Weiterentwicklung der theoretischen Basis eingegangen. Diese Ergebnisse 

sind im Zusammenhang mit den Anwendungen auf nicht sprachliche Signale entstanden. Wie aus 

den vorhergehenden Jahresberichten bekannt ist, hat sich dieser Anwendungsbereich stark ausgedehnt. 

Danach erfolgt die Beschreibung der Arbeiten, die im Berichtszeitraum im Rahmen des vom BMBF 

geförderten Projekts „Sprachsteuerung für Mess- und Prüfgeräte (SSMG)“ durchgeführt wurden und 

die Umsetzung des UASR in Hardware zum Ziel haben. Diese Arbeiten stehen in engem Zusammenhang 

mit den Projekten zu nicht sprachlichen Signalen. 

3.1.1 Theorie der akustischen Mustererkennung 

Auf dem Gebiet der akustischen Mustererkennung wurde im Berichtszeitraum die theoretische 

Grundlage weiterentwickelt. Dies betrifft speziell eine verbesserte mathematische Formulierung von 

Hidden-Markov-Modellen, welche die Lücke zur Theorie der Finite-State-Transducers (endliche Transduktoren) 

schließt. 

Eigenschaften von Prüfobjekten äußern sich als typische Ausprägungen und zeitliche Abfolgen von 

Signalereignissen. Mit Hilfe von Verfahren der Signalanalyse, Merkmalextraktion, -kompression und 

statistischen Mustererkennung werden automatisch Modelle der Messsignale erstellt. Diese Modelle 

können zur Beurteilung unbekannter Prüfobjekte benutzt werden. Es werden Hidden-Markov-Modelle 

(HMM) und Support Vector Machines (SVM) oder in einfachen Fällen Gaussian Mixture Models 

(GMM) eingesetzt. Da diese Verfahren lernfähig und problemunabhängig sind, eignen sie sich im Prinzip 

für jede akustische Diagnose. Sie benötigen wenig oder gar kein a-priori-Wissen, sind skalierbar 

und echtzeitfähig. Fallen Daten mehrerer Sensoren an, können diese kombiniert werden, um eine 

Gesamtaussage zu treffen. 

Anhand einer speziellen Prüfaufgabe, der Erkennung eines bevorstehenden Ausfalls von Magnetventilen, 

soll die Verfahrensweise genauer erläutert werden. Das Schaltgeräusch eines Ventils beim Öffnen 

und Schließen ist in Abbildung 3.1 dargestellt. In dessen Signalstruktur ist das Auftreten von Ereignissen 

besonders deutlich erkennbar (Abbildung 3.1, oben: mit den vier Ereignissen E0 – „geschlossen“, 

E1 – „öffnen“, E2 – „offen“, E3 – „schließen“). Bei der Merkmalextraktion werden aus 

dem Signal in gleichmäßigen Abständen einzelne Merkmalvektoren und somit insgesamt eine Merkmalvektorfolge 

gebildet(Abbildung 3.1, Mitte). Die interessierenden Eigenschaften liegen nicht nur in 

einem Spektrum (räumliche Eigenschaften), sondern auch in der Folge von Spektren (zeitliche Struktur). 

Eine kurze Folge von Merkmalvektoren beschreibt ein akustisches Ereignis (z. B. E1: öffnen). 

Diese Ereignisse werden bei HMMs in Form von Verteilungsdichtefunktionen beschrieben. 

Die Modellierung von Folgen solcher Ereignisse, also der Signalstruktur, erfolgt als Markov-Kette erster 

Ordnung (typisch für Folgenklassifikatoren). Jeder mögliche Zustandsübergang tritt mit einer bestimmten 

Wahrscheinlichkeit auf (Abbildung 3.1 unten). Die Zustandsfolge in diesem Beispiel ist offensichtlich, 

sie muss jedoch nicht bekannt sein, da das System in der Lage ist, diese selbst zu lernen. 

Im Ablauf der Arbeiten konnte die HMM-Theorie weiter entwickelt werden. Dies führte zu einer einheitlichen 

Darstellung zur Bestimmung der Ausgabewahrscheinlichkeit und der EM-Schätzformeln in 

den Wahrscheinlichkeits-, Max/Mal-, logarithmischen und tropischen Halbringen (Forward/Backward- 

vs. Viterbi-Algoritmus, Baum-Welch- vs. Viterbi-Training, Abbildung 3.2).


Abbildung 3.1: Ablauf der Signalklassifikation mit Unterteilung des Signals in Ereignisse (oben), Darstellung 

der Merkmalvektorfolge nach Kurzzeit-FFT (Mitte) und statistischer Modellierung (unten). 

13

14 


Abbildung 3.2: Vereinheitlichte Darstellung von Forward/Backward- und Viterbi-Algorithmus, 

Details siehe [1]. 

Die Formeln zur HMM-Parameterschätzung können dadurch folgendermaßen dargestellt werden: 

mit 

In Abhängigkeit von dem gewählten Gewichtshalbring stellen diese Formeln gleichzeitig das Baum- 

Welch- und das Viterbi-Training dar. Eine genauere Erläuterung findet man in [1]. 

[1] C. Tschöpe, M. Wolff: Statistical Classifiers for Structural Health Monitoring. IEEE Sensors 

Journal 9 (2009) 11, pp. 1567 - 1576. 

3.1.2 Sprachsteuerung für Mess- und Prüfgeräte 

Fortführung der DSP-Portierung des Spracherkenners 

Im Berichtsjahr 2009 wurde der C++ Spracherkenner, welcher 2008 auf den Digitalen Signalprozesser 

TMS320C6727 von Texas Instruments portiert wurde, optimiert und an die FPGA-Impementierung 

der Merkmalanalyse durch das Fraunhofer Institut für zerstörungsfreie Prüfung (IZfP) angepasst. Hierzu 

wurden folgende Schritte durchgeführt: 

1. Der Ablaufplan des Spracherkenners, wie er im Jahresbericht 2009 abgedruckt war, musste 

an die Implementierung der Merkmalextraktion auf dem FPGA sowie den neuen Entwurf der 

akustischen Nutzerschnittstelle angepasst werden. 

2. In Abbildung 3.3 ist der veränderte Ablaufplan dargestellt. Zum Einen wurde in den Pfad der 

Merkmale für die Voice activity detection (VAD) ein Block mit Normalisierung und Hauptkomponentenanalyse 

(PCA) eingefügt. Hierdurch kann die Dimenstion der Merkmale von 30 auf 

10 reduziert werden. Somit wird Speicherplatz und Rechenzeit für die Berechnung der Mahalanobisdistanzen 

der VAD gespart. Zum Anderen wurde die Entscheidung ob der Merkmals-


vektor verwendet wird oder nicht ans Ende der Merkmalextraktion verschoben (also nach den 

Block GMM – gewichtete Summe). Dadurch konnte der VAD Puffer 1 eingespart werden und 

dessen Aufgabe (die Vektoren um die Verzögerungszeit der VAD zu puffern) wurde vollständig 

vom SFA Puffer übernommen. So reduziert sich die gesamte Verzögerung um die Verzögerung 

der Delta-Berechnung. Außerdem wird die Merkmalextraktion im FPGA nicht mehr 

durch die VAD beeinflusst werden. 

3. Die DSP-Software wurde in das FPGA Demonstrationsprogramm des IzfP integriert. Hierfür 

wurden die berechneten Mahalanobisdistanzen aus dem FPGA übernommen und in den Ablauf 

der Suche eingefügt. Im Weiteren wurde die Synchronisation mit der akustischen Nutzerschnittstelle 

realisiert und die Übertragung von Erkennungsergebnissen sowie Debug- 

Information zum Steuerprogramm auf dem PC über USB ermöglicht. 

4. Die Spracherkennung wurde um die Verwendung von kontextfreien Grammatiken erweitert. 

Dadurch kann in Grammatiken der Form „Größe Zahl Einheit“ eine Beziehung zwischen Größe 

und Einheit abgebildet werden (was in regulären Grammatiken nicht möglich ist). Die Suche 

verarbeitet diese Grammatiken mit einem integrierten Kellerautomaten. 

5. Ein kleiner Speichermanager im DSP für temporäre Daten beschleunigt den Speicherzugriff. 

Alle Daten, die für die Suche benötigt werden passen nicht in den internen Speicher des 

DSPs. Da dieser aber deutlich geringere Zugriffszeiten als der externe Speicher hat wurde ein 

Speichermanager implementiert, der Restkapazitäten im internen Speicher für die Suche 

nutzt. Dadurch konnte der Echtzeitfaktor für die Suche von 50 - 70% auf 15 - 40% reduziert 

werden. 

Voice activity detection (VAD) für den DSP-Spracherkenner 

Der DSP-Spracherkenner wurde um eine Voice Activity Detection (VAD) erweitert. Diese verwendet 

die primären Merkmale des Spracherkenners. Dadurch wird eine zweite Merkmalextraktion für die 

VAD nicht benötigt. Die Verarbeitung der Merkmalvektoren ist analog zu Verarbeitung in dem Spracherkennungszweig 

aufgebaut (Hauptkomponentenanalyse, Mahalanobisdistanz, GMM). So wurde der 

Implementierungsaufwand deutlich reduziert. Die Entscheidung ob ein Vektor als Sprache oder Pause 

detektiert wird fällt auf das GMM mit der größten Wahrscheinlichkeit. Anschließend wird diese Entscheidung 

noch durch einen Zustandsautomaten über mehrere Vektoren geglättet. Dabei fügt dieser 

bestimmte Restriktionen (minimale Sprach- und Pausenlänge, Vor- und Nachlauf) in die Folge der 

Entscheidungen ein. Wenn der Signalpegel innerhalb eines Sprachabschnitts einen bestimmten 

Schwellwert überschreitet, wird dieser Abschnitt endgültig als Sprache markiert und der Spracherkennung 

zugeführt. 

DSP-Portierung von Algorithmen zur HMM-basierten Sprachsynthese 

Für das BMBF-Projekt „Sprachsteuerung für Mess- und Prüfgeräte“ wurde bereits im vorangegangenen 

Berichtszeitraum eine HMM-basierte Sprachsynthese entwickelt. Um den Speicherverbrauch zu 

minimieren, verwendet das Synthesesystem die Datenbasen (speziell: die Hidden-Markov-Modelle) 

des Erkennungssystems. Aufgrund der Verwendung dieser sprecherunabhängigen Modelle ist eine 

Konvertierung zum Zielsprecher notwendig. Um den Rechenaufwand zu Minimieren erfolgt die Konvertierung 

an den vom HMM emittierten Merkmalvektoren durch eine lineare Transformation in Form 

einer Multiplikation mit einer sprecherabhängigen Konvertierungsmatrix. 

15

16 


Abbildung 3.3: Blockschaltbild der Erkenner-Hardware


Im aktuellen Berichtszeitraum wurden die Algorithmen des Synthesesystems auf die Zielplattform 

portiert. Der verwendete DSP besitzt eine 32-bit Fließkommaeinheit, sodass die im Experimentiersystem 

vorliegenden Algorithmen doppelter Genauigkeit (64-bit) auf einfache Genauigkeit (32-bit) reduziert 

wurden. Folgende Algorithmen wurden portiert: 

1 Periodenmarkenfolge aus der Grundfrequenzkontur erzeugen, 

2 Merkmalvektorfolge anhand der Zustandsfolge aus den HMMs generieren, 

3 inverse Hauptkomponentenanalyse (PCA). 

4 Sprecheradaption: Transformation der Merkmalvektorfolge in eine Folge von mel-line cepstral 

quefrencies (M-LCQ). 

5 Synchronisieren der M-LCQ- und Periodenmarkenfolge. 

6 Glättung der M-LCQ-Vektorfolge. 

7 Synthesefilter: 

a) Denormalisierung. 

b) M-LCQ zu Mel-Cepstrum Transformation 

c) Mel-Cepstrum-Synthesefilter. 

Die Rechengenauigkeit einiger Algorithmen nach der Reduktion der Bitbreite auf 32 bit war so gering 

(besonders 7b), dass diese Algorithmen inhaltlich umgestellt werden mussten. Die portierten Algorithmen 

wurden auf der Zielplattform getestet. Die Rechengenauigkeit der gesamten Verarbeitungskette 

ergibt sich aus der Differenz (siehe Abbildung 3.4, schwarzes Signal mit rechter Ordinate) zwischen 

den Synthesesignalen erzeugt mit den Experimentiersystem (siehe Abbildung 3.4, graues Signal 

mit linker Ordinate) und der portierten Synthese. 

Abbildung 3.4: Beispiel für Signalfehler bei der HMM-Sprachsynthese durch Verwendung von 32 Bit 

anstelle von 64 Bit Gleitkomma-Arithmetik (grau: Originalsignal, schwarz: Fehlersignal) 

17

3.2 Sprachsynthese 

3.2.1 Sprachsynthesesystem DRESS 

18 


Die Entwicklungsarbeiten am Dresdener Sprachsynthesesystem DRESS konzentrierten sich im Berichtsjahr 

auf die Einbeziehung der Korpussynthese, die im Rahmen des Promotionsvorhabens von 

Herrn Gamboa bearbeitet wird. Dabei wurde eine Maximum-Likelihood-Bausteinauswahl entwickelt, 

die auf einer Mappinganalyse der Verkettungssubkosten (VK), der BAYES-Klassifikation (BK) und 

der Maximum-Likelihood (ML)-Methode basiert. Der Hauptvorteil dieses neuen Bausteinauswahlverfahrens 

ist, dass kein langwieriges Training mehr notwendig ist, um die gewichteten Koeffizienten für 

die VK zu bestimmen. 

Mappinganalyse: Das Mapping erfolgt über eine Berechnung (offline) der VK zwischen den Bausteinen 

in der Datenbank, die keine oder die ungewünschten Verzerrungen aufweisen, wenn sie verkettet 

werden. Die VK werden durch die Abstandsberechnung zwischen den Eigenschaften der Bausteine 

wie Multiple-Centroid-Analyse (MCAs), Linear Spectral Frequencies (LSF) und MFCC an der linken 

und rechten Grenze abgeschätzt. Bei der Anwendung einer Datenbank wird das Mapping der VK, die 

keine Verzerrungen bei der Verkettung zeigen, durch die Abstandsberechnungen zwischen den Bausteinen 

durchgeführt, die in einem Wort oder Satz der Datenbank aufeinander folgen. Das Mapping 

der VK der ungewünschten Verzerrungen erfolgt über einen festgelegten Satz an Bausteinen. Diese 

Bausteine entstammen aus verschiedenen Wörtern und Sätzen der Datenbank und somit aus verschiedenen 

phonetischen Kontexten. Daher sind sie mehrheitlich nicht richtig verkettet. 

BAYES-Klassifikation: Nach dem Mapping der VK müssen die glatten und verzerrten Verkettungsflächen 

festgelegt werden. Dazu kommt die Unterscheidungsfunktion eines BAYES-Klassifikators mit 

normalverteilten Merkmalvektoren zur Anwendung. Die Abbildung 3.5 zeigt eine zweidimensionale 

Mappinganalyse, wobei beide Verkettungsflächen durch die Trennfunktion d12( x r ) abgegrenzt werden. 

Abbildung 3.5: Trennfunktion. 

Bausteinauswahlprozess: Der Vorgang der Bausteinauswahl besteht aus verschiedenen Stufen, die 

in Abbildung 3.6 zu sehen sind. Zunächst werden die Bausteinkandidaten in der großen Datenbank 

durch den Backward-Oracle-Matching-Algorithmus gesucht. Dieser wählt alle Bausteinfolgen aus, die 

der linguistisch-phonetischen Umsetzung des zu synthetisierenden Textes entsprechen. Danach werden 

die MCAs, LSF und MFCC der gefundenen Bausteine an den Grenzen zum vorhergehenden (linke 

Grenze) und nachfolgenden Baustein (rechte Grenze) berechnet und in einem Vektor abgebildet. 

Im Anschluss wird der Abstand zwischen dem Vorgänger und dem Kandidatenbaustein des gewünschten 

zu synthetisierten Sprachsignals berechnet.


Abbildung 3.6: Ablauf der Maximum-Likelihood-Bausteinauswahl. 

Der berechnete VK-Abstandsvektor der Bausteine wird von dem BK verarbeitet. Der BK klassifiziert 

die Verkettung zwischen den Bausteinen in glatte und verzerrte Verkettungstypen mit Hilfe der entsprechenden 

Trennfunktion. Die Übergänge aus der Netzmatrix, von deren Bausteinen festgestellt 

wurde, dass sie nicht verzerrungsfrei verketten und dessen VK laut Trennfunktion nicht in der glatten 

Verkettungsfläche liegen, werden entfernt (Abbildung 3.6). Dies bedeutet, dass sie nicht mehr für den 

Bausteinauswahlprozess berücksichtigt werden. Durch den Ausschluss der verzerrt verkettenden 

Bausteine verringert sich der Zeit- und Rechenaufwand der Bausteinauswahl. Danach werden die 

noch vorhandenen Bausteine durch die entsprechende vorher erhaltene Verteilung des glatten Verkettungstyps 

aus der Mappinganalyse mit Hilfe der ML-Methode verarbeitet. Dabei wird die Wahrscheinlichkeit 

einer glatten Verkettung zwischen den Bausteinen berechnet. Die erhaltenen Wahrscheinlichkeiten 

der glatt verkettenden Bausteine werden als einzige dglatt( x r ) Verkettungkosten in der Netzmatrix 

beibehalten (Abbildung 3.7). 

Abbildung 3.7 zeigt die Entfernung der Übergänge zwischen den Bausteinen mit verzerrtem Verkettungstyp. 

Schließlich wird nach der Anwendung der ML-Bausteinauswahl im nächsten Schritt genau 

die Bausteinfolge durch die Anwendung des Viterbi-Algorithmus ausgesucht, die in der Netzmatrix 

minimale Ziel- und Verkettungskosten aufweist, um das erwünschte Sprachsignal mit möglichst geringen 

Verzerrungen über die konkatenative Sprachsynthese zu erhalten. 

Abbildung 3.7: Entfernung der Übergänge zwischen den Bausteinen mit verzerrtem Verkettungstyp 

und Einführung von Wahrscheinlichkeit der glatten Verkettungen als Verkettungskosten. 

19

20 


3.2.2 Prosodische Analyse und Resynthese 

Die Natürlichkeit der synthetisierten Sprache hängt von der automatischen Extraktion der prosodischen 

Eigenschaften und der prosodischen Modellierung ab. Ziel der im Rahmen des Promotionsvorhabens 

von Herrn Hussein durchgeführten Untersuchungen ist die Übertragung einer Zielprosodie im 

Rahmen einer Resynthese. 

Abbildung 3.8: Resynthese der extrahierten Akzente und Phrasen mit Hilfe eines Cepstrum-Vocoders. 

Die Akzent und Phrasen wurden durch die Analyse der F0-Kontur mit Hilfe des Fujisaki-Models markiert. 

Die Periodenmarken (PM) dienen als prosodische Merkmale für den Cepstrum-Vocoder. Um das 

Konzept der „Analyse durch Resynthese“ zu implementieren, wurden die Periodenmarken von verschiedenen 

Positionen des Akzent- und Phrasenmarkierungsalgorithmus (siehe Abbildung 3.8) berechnet. 

Diese Positionen sind: A - originale PM; B - PM der berechneten F0-Kontur; C - Konversion 

der Fujisaki-Parameter zu PM; D - Konversion der modifizierten Fujisaki-Parameter zu PM. 

Ein Hörtest (Preference test) wurde zur Prüfung der Qualität der resynthetisierten Sprachsignale 

durchgeführt. 20 Personen haben an diesem Hörtest teilgenommen; jede Person hat 60 Paare von 

Sprachsignalen verglichen. Die Ergebnisse des Hörtestes sind in Abbildung 3.9 für jedes Paar und für 

alle resynthetisierten Sprachsignale dargestellt. 

Abbildung 3.9: Ergebnisse des Hörtests


3.3 Verarbeitung akustischer Signale (akustisches Frontend) 

3.3.1 Robuste Spracherkennung in Räumen durch Beamforming 

Spracherkennung in realen Räumen ist bis heute ein großes Problem. Erkennungsraten von ungestörten 

Signalen im Bereich von 90 % und mehr verschlechtern sich in realen Räumen, je nach Sprecher- 

Mikrofon-Abstand (SMA) und Nachhallzeit des Raumes, auf bis zu unter 30 %, wie in Abbildung 3.11. 

(„einkanalig“) deutlich zu sehen ist. Grund dafür ist der Nachhall des Raumes, wodurch ein „Verwaschen“ 

des Zeitsignals und auch des Spektrums zu beobachten ist. 

Eine bekannte Methode zur Verringerung der als Störschall arbeitenden Reflexionen ist das Beamforming. 

Dabei werden mehrere Mikrofonsignale zu einem einzelnen Signal verrechnet und dadurch 

eine Richtwirkung erzielt. Diese Richtwirkung bewirkt, dass seitlich eintreffender Schall (Raumreflexionen) 

gedämpft wird, während frontal einfallender Schall (das gewünschte Sprachsignal) ungedämpft 

passieren kann. An dieses Grundprinzip anknüpfend, gibt es eine Vielzahl von Beamformingalgorithmen. 

In Abbildung 3.11 sind aktuelle Messungen in realen Räumen gezeigt, deren Ergebnisse einem Spracherkenner 

zugeführt wurden. Gemessen wurde die Erkennungsrate eines Kommandoworterkenners. 

Getestet wurden 2 Beamformingalgorithmen. Der Delay and Sum Beamformer (DSB), eine relativ 

einfache Variante des Beamformings, sowie der Minimum Variance Distortionless Response 

Beamformer (MVDRB). 

Abbildung 3.10: Schematische Darstellung des MVDRB. 

Der MVDRB arbeitet im Frequenzbereich (schematische Darstellung siehe Abbildung 3.10) und kann 

über die frequenzabhängigen Wichtungsfaktoren ( ) an das Störschallfeld angepasst werden. 

Des Weiteren kann die Ausrichtung des Beamformers geändert werden. Dadurch ist es möglich auf 

Quellen zu fokussieren, die sich nicht direkt vor der Mikrofonanordnung befinden. Letzteres ist ebenfalls 

mit dem DSB möglich, allerdings bietet der DSB keine Möglichkeit der Anpassung an das Schallfeld. 

ω j 

Wi 

e 

Das Ergebnis der Messungen ist in Abbildung 3.11 zu sehen. Sowie eine zunehmende Nachhallzeit, 

als auch ein zunehmender SMA verschlechtern die Erkennungsergebnisse deutlich. Durch die Nutzung 

der Beamformer bleibt dieser Trend zwar erhalten, aber die absoluten Ergebnisse liegen deutlich 

über denen der einkanalig aufgenommenen Signale. Vor allem im mittleren Bereich der Nachhallzeit 

(0,45 s, Abbildung 3.11 oben rechts) erreicht der MVDRB eine Verbesserung um ca. 20%. Diese 

Nachhallzeit entspricht einem durchschnittlichen Wohnzimmer. 

Weitere Verbesserungen können im Anschluss mit Hilfe von einkanaligen Algorithmen, sowie Algorithmen 

auf Feature- und Modellebene erreicht werden. 

21

22 


Abbildung 3.11 : Erkennungsraten des DSB und des MVDRB im Vergleich mit einkanaligen Aufnahmen 

bei verschiedenen Abständen und in verschiedenen Räumen. Nachhallzeiten: 

links oben: 0,25 s; rechts oben: 0,45 s; links unten: 0,7 s; rechts unten: 0,95 s. 

In Zusammenarbeit mit Industriepartnern und weiteren Forschungseinrichtungen der TU Dresden 

wird an einem Prototypen für ein Sprachgesteuertes „Public Terminal“ (Informationsterminal) gearbeitet. 

Dieses Terminal wird einen MVDR-Beamformer wie oben beschrieben nutzen um den Störschall 

zu filtern, den Sprecher vor dem Terminal zu orten und dann akustisch auf ihn zu fokussieren. 

Weitere Aspekte dieses Projektes werden im Folgenden erläutert. 

3.3.2 Multimodales, personalisiertes Bedienkonzept für 

Public Terminals – Mobiles Endgerät 

Infolge zunehmender Akzeptanz von elektronischen "Info-Punkten" und anderen öffentlichen Automaten 

(Public Terminals) steigt deren Nutzung, was zu Wartezeiten an diesen Automaten führen kann. 

Durch die Verbesserung des Bedienprozesses kann eine schnelle Bereitstellung der gesuchten Informationen 

erreicht und die Wartezeit anderer Benutzer gesenkt werden. Im Rahmen des Kooperationsprojekts 

"Multimodales, personalisiertes Bedienkonzept für Public Terminals" 1 mit der voice INTER 

connect GmbH und dem Institut für Angewandte Informatik der TU Dresden wird an der Verbesserung 

des Bedienprozesses durch die Integration einer Sprachein- und ausgabe geforscht. Dieses multimodale 

Bedienkonzept soll zusätzlich auf in der Nähe befindliche mobile Endgeräte übertragen werden 

und so die gleichzeitig Bearbeitung mehrer Benutzer erlauben. Durch das ohnehin ständige Mit- 

1 Förderung durch die Arbeitsgemeinschaft industrieller Forschungsvereinigungen (AiF) „Otto von Guericke“ e.V. 

im Rahmen des Förderprogramms PRO INNO II - Förderung der Entwicklung innovativer Produkte und Verfahren“; 

Fördernummer: ProInno KF 0033704LF8


führen von mobilen Endgeräten (z.B. Mobiltelefon) erlaubt dies die intuitive Abfrage standortbezogener 

Informationen mit dem eigenen, vertrauten Endgerät ohne Zusatzkosten. Da dieser Service nur in 

der Nähe des Automaten bereitgestellt wird, kann von einem Location Based Service (standortbezogener 

Dienst) gesprochen werden. Zur drahtlosen Kommunikation ist Bluetooth angedacht, da so 

keine Funknetzinfrastruktur vorausgesetzt werden muss. 

Infolge der Vielfalt an mobilen Endgeräten ist das 

angestrebt Ziel nur mit standardisierten Techniken 

möglich. Eine von vielen Herstellern implementierte 

Technik ist J2ME (Java Plattform 2, Micro Edition) 

von Sun Microsystems. Speziell definierte Konfigurationen 

wie zum Beispiel CLDC (Connected Limited 

Device Configuration) beschreiben dabei die minimale 

notwendige Konfiguration für die Laufzeitumgebung 

(z.B. notwendiger Speicher). Ergänzt werden 

die Konfigurationen durch Profile, wie z.B. das Mobile 

Information Device Profile (MIDP). Diese definieren 

die minimale Hardwareausstattung (Bildschirmgröße, 

Eingabemöglichkeiten usw.) der Endgeräte. 

Neben diesen definierten Minimalausstattungen 

können Java Specification Requests (JSR), also Anforderungen 

auf eine neue Spezifikation bzw. Änderung 

oder Erweiterung einer bestehenden Spezifikation 

eingereicht werden, die dann im Rahmen des 

Java Community Process (JCP) zu Spezifikationen 

führen die z.B. den Zugriff auf die Bluetooth- (JSR- 

082) oder der Audioschnittstelle (JSR-135) regeln. 

Abbildung 3.12: Keine Wartezeit bei der parallelen 

Benutzung eines mobilen Endgerätes am 

öffentlichen Automaten. 

Im Berichtsjahr konnten folgende Funktionalitäten im mobilen Endgeräte realisiert und getestet werden: 

- visuelle Inhalte des Automaten drahtlos empfangen und darstellen 

- Aufnahme und Wiedergabe akustischer Informationen 

- digitale Signalverarbeitung 

- Übertragung von Sprachdaten an den Spracherkenner im Automaten 

- Empfang der Automatenreaktion in visueller und akustischer Repräsentation 

3.3.3 Nichtlineares Übertragungsverhalten von 

Kondensatormikrofonen 

Mikrofone mit Röhrenverstärkern erfreuen sich nach wie vor großer Beliebtheit. Ihr Klang wird als 

warm und druckvoll beschrieben. Viele Toningenieure ziehen oft Mikrofone in dieser traditionellen 

Technologie modernen Transistormikrofonen vor, obwohl Röhrenmikrofone aus messtechnischer 

Sicht ein höheres Eigenrauschen und ein schlechteres Großsignalverhalten besitzen. 

In der Studienarbeit von Herrn Peter Vanselow wurde untersucht, ob die subjektiv empfundenen Qualitätsunterschiede 

zwischen Röhren- und Transistormikrofon allein durch die unterschiedlichen nichtlinearen 

Übertragungseigenschaften erklärt werden können. 

Dazu wurden mit der Software MATLAB Audiosignale, die mit Messmikrofonen aufgenommenen 

wurden, mit den nichtlinearen Kennlinien von Elektronenröhren und Ausgangstransformatoren „verzerrt“ 

und durch Hörversuche subjektiv beurteilt. 

Die Ergebnisse zeigen, dass Unterschiede von den Versuchspersonen erst bei sehr hohen Schalldruckpegeln 

festgestellt werden konnten. In einigen Fällen wirkten sich die nichtlinearen Kennlinien 

als Qualität steigernd aus. Besonders der quadratische Anteil der Röhrenkennlinie führte in einigen 

Fällen zu einer höheren Audioqualität. Dagegen führten die kubischen Signalanteile, die besonders 

durch den Ausgangstransformator erzeugt wurden, immer zu einer Verschlechterung der Audioqualität. 

23

24 


3.3.4 Untersuchungen zur Signalseparation für Zweikanalmikrofone 

Die Separation von Signalen aus einem Signalgemisch ist ein Grundproblem der gesamten Audiotechnik. 

Die Spracherkennung fordert für eine gute Erkennungsrate ein möglichst reines Sprachsignal 

ohne Störgeräusche oder gar andere Stimmen, welche sich mit dem zu erkennendem Signal überlagern. 

In der Studienarbeit von Herrn Kevin Gebhardt wurden verschiedene Algorithmen zur Signaltrennung 

unter Verwendung von zweikanaligen TWIN- Mikrofonen getestet. Die Signaltrennung erfolgte stets 

im Frequenzbereich. Mittels zweikanaliger FFT und Overlapp-Add wurden einzelne Signalabschnitte in 

ihre spektralen Komponenten zerlegt und entsprechend der Richtungsinformationen, die aus den 

Unterschieden beider Signale gewonnen wurden, bewertet. 

Durch gezielte Generierung von Nullstellen in der Richtcharakteristik des Summensignals beider Mikrofone 

konnten die Signale einzelner diskreter Störsignalquellen fast vollständig eliminiert werden. 

Bei Existenz von vielen gleichzeitigen Störsignalquellen im seitlichen und hinteren Schalleinfallsbereich 

des Mikrofons brachte eine spektrale Trennung der Schallanteile gute Erfolge. Besonders gute 

Ergebnisse konnten dann erzielt werden, wenn sich die Spektren von Nutz- und Störsignal deutlich 

unterschieden. 

3.4 Anwendungen von Sprachtechnologie in 

Interaktionsforschung und Didaktik 

3.4.1 Überblick 

Sprachtechnologiekomponenten der TU Dresden werden zunehmend bei Problemstellungen der 

Mensch-Mensch- bzw. Mensch-Technik-Interaktion erprobt, wobei eine interdisziplinäre Kooperation 

mit Kollegen aus nichttechnischen Wissenschaftsgebieten zum Tragen kommt. 

Die vorgestellten Forschungsarbeiten folgen internationalen Ansätzen aus den 1990er Jahren und 

einem aktuellen Trend, der sich u. a. in neu kreierten sowie hochrangig besetzten Veranstaltungsreihen, 

wie z. B. ISCA Workshops on Speech and Language Technology in Education (SLaTE 2007 und 

2009) oder ICMI Workshops on Child, Computer and Interaction (WOCCI 2008 und 2009) manifestiert, 

bei denen das IAS mit Beiträgen präsent war. Wie in den Vorjahren wirkte das IAS außerdem an 

der europäischen COST-Aktion 2102 (Cross-Modal Analysis of Verbal and Non-verbal Communication) 

einschließlich der Workshops mit. 

Der Berichtszeitraum 2009 umfasste folgende Aktivitäten, die in den Unterabschnitten 3.4.2 –3.4.7 

dargestellt werden: 

• Fortführung der Forschungs- und Entwicklungsarbeiten für den Aussprachetrainer („Automat 

zur Akzentreduktion“, Akronym AzAR). Das AzAR-Projekt markierte 2004 den Auftakt für unser 

neues Arbeitsfeld, wobei die im Berichtszeitraum laufende, dritte Projektphase im Rahmen 

des EU-Projekts EURONOUNCE (2007-2009) gefördert wurde und auf slawische sowie 

deutsche Sprachressourcen fokussiert war. 

• Erweiterung der Aussprachetrainertechnologie auf die Zielgruppe Vorschulkinder und Fertigstellung 

des 2008 begonnenen LiSA-Prototyps. Start des EXIST-Projekts „Innovative Produkte 

zur Förderung der kindlichen Sprachkompetenz“ (BMWT). Im Rahmen des neuen Projekts 

werden u. a. die Robustheit des Sprachinterfaces, das Nutzerverhalten sowie Markteintrittsbarrieren 

untersucht. 

• Fortsetzung der Kooperationsbeziehungen zum Sprachtrainingsprojekt der Beuth-Hochschule 

Berlin (Prof. Mixdorff). Unter der Bezeichnung CALL (Computer-Aided Language Learning) 

wird Sprachtechnologie im Kontext des Fremdsprachenerwerbs von Mandarin-Chinesisch untersucht. 

Ein weiteres Teilprojekt betrifft eine sprachübergreifende Prosodiemodellierung in 

Zusammenarbeit mit japanischen Universitäten (Quantitative Cross-Language Prosody Modeling). 

• Fortführung des Projekts zur Untersuchung prosodischer Beeinträchtigungen bei Dysarthrien, 

die durch das Parkinson-Syndrom hervorgerufen werden. Dieses Projekt wird seit 2008 durch 

Frau Dr. Ma im Rahmen ihres Humboldt-Stipendiums betreut und erfolgt in Kooperation mit 

der Klinik und Poliklinik für Neurologie des Universitätsklinikums Dresden (Prof. Storch).


3.4.2 Euronounce/ Intelligent Pronunciation Tutoring System 

Gefördert von der Europäischen Kommission, Agentur für Kultur, Bildung und audiovisuelle Medien 

(EACEA) im Rahmen des Programms Lebenslanges Lernen 

Projektnummer: 135379-LLP-1-2007-1-DE-KA2-KA2MP 

Subprogramm: KA2, Languages 

Förderzeitraum: 01.11.2007 – 31.12.2009 

Partner: TU Dresden, Institut für Akustik und Sprachkommunikation (Projektkoordinator) 

Adam-Mickiewicz-Universität Poznan, Institut für Linguistik 

Slowakische Akademie der Wissenschaften in Bratislava, Institut für Informatik 

REZO Computer Service GmbH & Co. KG 

Schenck Workshops Mülheim/ Ruhr (für Goethe-Institut Dresden/ Weimar) 

Verband der Sächsischen Bildungsinstitute (VSBI) 

Private Fachoberschule und Berufsfachschule Roudnice nad Labem, CZ 

Nachauftragnehmer: 

VoiceInterConnect GmbH Dresden 

Institut für Informatik und Automatisierung der Russischen Akademie der Wissenschaften 

St. Petersburg (SPIIRAS) 

Arbeitsschwerpunkte im Jahr 2009 

1. Fertigstellung der multilingualen Datenbasen 

Wichtigstes Projektziel ist die Entwicklung eines datenbasierten multilingualen Aussprachetrainers, 

der für die Sprachenpaare Deutsch-Russisch, Deutsch-Polnisch, Deutsch-Slowakisch und Deutsch- 

Tschechisch Curricula und Feedbacktechnologie zur Bewertung der Aussprachequalität bereitstellen 

soll. 

Datenbasen sind insbesondere die Entwicklungs- und Trainingsdaten, Testdaten und Curriculardaten. 

Pro Sprachenpaar wurden jeweils 18 Sprecherinnen/ Sprecher mit nach Niveaustufen (A1 – B1, B2 – 

C2 des Europäischen Referenzrahmens) variierendem Testmaterial aufgenommen. Z. B. wurden für 

die Zielsprache Deutsch zur Erzeugung der Analyse-, Trainings- und Testdaten folgende Subkorpora 

aufgezeichnet: Veith-Test (140 Sätze und Wortgruppen), PhonDat - Lesetest (293 phonetisch ausgewogene 

Sätze und zwei Textpassagen), Akzenttest (175 phonetisch reiche Sätze), Prosodietest (119 

Sätze), Lesetext: H. Chr. Andersen, „Das Feuerzeug“ (ca. 1800 Dz.), Teststimuli zur Erzeugung spontaner 

Äußerungen (freies Interpretieren idiomatischer Redewendungen) sowie ein Interview zur Lernbiografie 

der Sprecherin. Zusätzlich wurden Referenzaufnahmen mit Muttersprachlern zur Entwicklung 

der HMM-basierten Aligner-Technologie sowie für die Integration der Curriculardaten in die Lernanwendung 

realisiert. 

2. Annotierung der Sprachaufzeichnungen, automatisches Alignieren der Phonem- und Wortlabel 

2.1 Inventare 

Die applikative Ausrichtung des Projektes erfordert die Erzeugung akustisch-phonetischer Korpora, die 

geeignet sind, interlinguale Effekte systematisch zu erfassen, die im Prozess der Aneignung einer 

Fremdsprache mit hoher interpersoneller Konstanz auftreten. Unter dem speziellen Aspekt der Abbildung 

systembedingter Interferenzen wurden zunächst Annotierungsstandards erarbeitet, die die Vergleichbarkeit 

der Ergebnisse für die betrachteten Sprachenpaare (Source /L1/, Target /L2/) garantieren 

sollen. Für jedes Sprachenpaar wurde ein gemischtes X-SAMPA – Inventar erstellt, das eine wechselseitige 

Zuordnung der Phoneme auf der Basis kategorialer Merkmale ermöglicht. Bereits aus der Kontrastierung 

der Phoneminventare sind Kandidaten für Segmentsubstitutionen erkennbar. 

25

26 


Abbildung 3. 13: Auszug aus dem gemischten Lautinventar für das Sprachenpaar Tschechisch – 

Deutsch. Die tschechischen silbischen Sonoranten /=l/, /=m/ und /=r/, das labio-dentale /F/ (Allophon 

von /m/) und der palatale Nasal /J/ haben im Deutschen Inventar keine Entsprechungen. 

2.2 Symbolische Repräsentation segmenteller Aussprachefehler 

Ein Teil der regelmäßig auftretenden Abweichungen von der zielsprachlichen Aussprache-norm kann 

in die Segmentebene (Phoneme, Allophone) projiziert werden. Es handelt sich dabei einerseits um 

Substitutionen und Indels (Einfügungen oder Löschungen von Segmenten), andererseits um Verletzungen 

der Distributions- und Verkettungsregeln über bestimmte Segmente, die in der Oberflächenform 

als segmentelle Abweichungen auffallen. Für die Zwecke der Annotierung L1 – bedingter Abweichungen 

von der Standardlautung wurde die von Bonaventura, Howarth und Menzerath (Bonaventura, 

Howarth & Menzel: 2000 1 , 2000 2 ) vorgeschlagene Prozedur modifiziert. In einem ersten Schritt 

wurden die Aufzeichnungen (Teilkorpora Veith-Sätze, Veith-Wortgruppen und Akzenttest) automatisch 

segmentiert. Die Phonemlabel wurden entsprechend der für die Zielsprache vereinbarten kanonischen 

Transkription mithilfe des vicAligners zugeordnet und anschließend in der Datenbank- 

Entwicklungsumgebung WiGE manuell angepasst. In einem weiteren Schritt wurden die auffälligen 

Segmente markiert. Dabei kommen folgende Fallentscheidungen in Betracht: (1) das auffällige Segment 

entspricht einer Einheit des muttersprachlichen Inventars, (2) das auffällige Segment repräsentiert 

einen Übergangszustand, ist aber einem zielsprachlichen Segment hinreichend ähnlich. Im ersten 

Fall wird das entsprechende Phonemsymbol aus dem L1-Inventar verwendet. Im Fall der Übereinstimmung 

der SAMPA-Symbole erhält das Label ein Suffix. Da zu beobachtende Interferenzen häufig 

in einem breiten Spektrum variieren (wie z. B. die Ersetzungen der Frikative /x-C/, /h/ und der vorderen 

labialen Vokale /y:/, Y/, /2:/, /9/ bei Sprechern mit russischem Akzent), musste eine pragmatische Lösung 

gefunden werden. Alle auftretenden Varianten werden aufgrund des Höreindrucks entweder 

einem muttersprachlichen oder einem zielsprachlichen Phonem zugeordnet.


Neben den Substitutionen treten Einfügungen (z. B. /j/ nach hohen vorderen Vokalen) und Löschungen 

von Segmenten sowie segmentübergreifende Fehler auf (Kontaktassimilation, Kontrahierung 

benachbarter Segmente bzw. Vereinfachung von Konsonantenclustern, die i. d. R. L1-spezifischen 

Mustern folgen). 

Model Inventory for the notation of mispronunciation-hypotheses 

• target language phonemes: 

standard-notation as given in the target language model set (phoneme-set) 

• source language phonemes: 

notation as given in the source language model set (phoneme-set) but expanded by the suffix 

„underscore one“ '_1' 

e.g. 'r_1', 'd^z'_1' 

• sample for the notation of mispronunciation-hypotheses 

text: der Aal das All 

transcription: d e 6 {a: l; a:-a l} d a s {a l; a-a_1 l-l_1; a-a: l; a l -@} 

Abbildung 3. 14: Konventionen zur Fehlernotation (VoiceInterConnect, 07/28/2009) 

Wenn ein Sprecher ein Segment eingefügt hat, z. B. wenn das Wort sehen als „sej*en“ ausgesprochen 

wurde, ist die Transkription /z|e:-E:|-j| @-e_5|n/. 

Wurde dagegen ein Phonem, das in der Standardtranskription enthalten ist, vom Sprecher nicht realisiert 

(Elision), z. B. Kunstgewerbe als „Kuns*gewerbe“, wurde /k |u_5| n |s-z |–t |g |@-i_5|v|E|6-r_5|b|@/ 

annotiert. 

Abbildung 3. 15: Fehlernotation in Wafesurfer-Labelspur (Sequenz „gewusst haben willst“, Index 5 

entspricht L1 RU) 

Ein Teil der Aufnahmen wurde im Praat-TextGrid-Format annotiert. Dabei erfolgte die Markierung der 

abweichenden Segmente in einer Kopie der kanonischen Labelspur durch Einsetzen der L1spezifischen 

Label. 

27

28 


Abbildung 3. 16: Fehlernotation in Praat-TextGrid (Substitution von /N/ durch /N/ + /g/ in der Wortform 

„klingelte“) 

Die annotierten Korpora wurden einer kontrastiven Untersuchung unterzogen. Für jede Richtung innerhalb 

eines Sprachenpaares wurden die im Laufe der Aneignung der Zielsprache regulär auftretenden 

Fehlermuster in den Datenkorpora identifiziert, phonologisch beschrieben und klassifiziert. 

Die Trainingsdaten für die Entwicklung akustischer Modelle wurden entsprechend den Spezifikationen 

in Form kanonisch annotierter Aufnahmen im Format 16 kHz/ 44.1 kHz, 16 bit, PCM, little endian, 

bereitgestellt. 

3. Implementierung, Entwicklung der Feedback-Funktionen 

Mit dem Erkennertraining wurden die Partner VoiceInterConnect GmbH und SPIIRAS (Institut für beauftragt. 

Der HMM – basierte Phonemerkenner wurde an muttersprachlichen Daten trainiert. Das 

Nutzerfeedback wird aus den Konfidenzmaßen des Aligners generiert. Der Aligner segementiert das 

akustische Eingangssignal und labelt die Segmente in Übereinstimmung mit der erwarteten bzw. – 

bei Vorliegen von Alternativen – der wahrscheinlichsten Phonemfolge. Das akustische Feedbacksystem 

wertet sowohl den Output des Aligners als auch grundlegende Parameter des Eingangssignals 

aus. Die Erzeugung des korrektiven Feedbacks in der Lernapplikation basiert neben dem automatisch 

erzeugten akustischen Feedback auf phonetisch-phonologischem bzw. didaktischem Wissen. Das 

Feedbacksystem ist in der Lage, Aussprachealternativen zu unterscheiden, die im Sprachmodell hinterlegt 

sind. Für die innerhalb der einbezogenen Sprachenpaare (L1-L2) systematisch auftretenden 

Aussprachefehler wurden akustische Modelle trainiert und Transkriptionen nach einem im Rahmen 

des Projekts EURONOUNCE entwickelten Notationssystem codiert. 

Weitere Feedback-Funktionen der im Projekt EURONOUNCE verwendeten Testplattform Azar3.0 sind 

eine interaktive Formant-Target-Chart, 

4. Datenbankeditor, Datenbank-Infrastruktur 

Der von dem Partner REZO Computer Service entwickelte Datenbankeditor ermöglicht den Remote - 

Zugriff auf Curriculardaten, Tutorials und visuelle Inhalte, insbesondere das Eingeben, Editieren und 

Verwalten aller Inhaltskomponenten. Die Autoren der Inhaltskomponenten legen Navigationsstrukturen 

an, ordnen den Themenbereichen Übungen zu und transferieren die Inhaltsdaten auf den Projektserver. 

Im Datenbankeditor werden mithilfe eines Wörterbuchs die kanonischen SAMPA - Transkriptionen 

ausgegeben und ggf. vom Autor editiert. Aus der Datenbank können Leselisten erstellt werden,


die in der Entwicklungsumgebung WiGE (VoiceInterConnect) weiter verarbeitet werden. Dabei bleiben 

die in der Datenbank angelegten Satznummern bzw. Indizes erhalten. Die in WiGE-rec erhaltenen 

Referenzaufnahmen im wav-Format und die in WiGE-align automatisch erzeugten (und ggf. manuell 

korrigierten) Labeldateien im Lab-Format werden zur Datenbank transferiert. Aus den Daten wird ein 

codierter Datenstream generiert, der in die Lernanwendung eingelesen wird. 

Abbildung 3. 17: Navigationsstruktur (1. und 2. Ebene) des Curriculums „Speech training L1 PL - L2 

DE“ in der Editoransicht. 

5. Contententwicklung, Curricula, Tutorials 

Für jede Sprachversion wurde ein Beispielcurriculum bereitgestellt, das eine systematische Einführung 

in das Lautsystem der Zielsprache, einen Übungsteil zu den Bereichen Lautsystem, Silben- und 

Wortprosodie (Silbenstrukturen, prosodische Wortformen und Betonungsregeln), Sprechrhythmus 

und Satzintonation beinhaltet. Ausgehend von den im Ergebnis der Analyse repräsentativer Teile der 

Sprachkorpora ermittelten Interferenzen wurden spezifische Aufgaben für Lernende mit den Muttersprachen 

Tschechsisch, Plnisch, Slowakisch und Russisch aufgenommen. Für die Zielsprache 

Deutsch wurde zusätzlich ein kommunikativ orientiertes Curriculum mit dem Titel „Phonetik-Theater“ 

(Schenck Workshops) integriert. Zu dem gesamten Übungsmaterial sind in der Lernanwendung annotierte 

Referenzaudios verfügbar. Annotiert wurde die vom Referenzsprecher benutzte realisationsphonetische 

Variante. In der Lernanwendung stehen den potenziellen Anwendern – Lehrern und Lernenden 

– zusätzliche reich illustrierte Materialien zu einer breiten Auswahl phonetischer Themen sowie 

zur Interpretation der im Übungsteil verwendeten Darstellungen des akustischen Sprachsignals 

zur Verfügung. 

29

30 


Abbildung 3. 18: Lernanwendung Azar3, Template für Kontrastpaarübungen 

3.4.3 Prosodic impairment in dysarthria associated with Parkinson’s 

disease: Analysis-by-synthesis 

Project Background 

This project, sponsored by Alexander von Humboldt Foundation, aims at (i) providing a cross-linguistic 

comparison of prosodic impairments in German and Cantonese dysarthric speakers associated with 

Parkinson’s Disease and (ii) developing an alternative approach in the perceptual evaluation of prosodic 

impairment (see annual report 2008). Dysarthria, a motor speech disorders due to damage in 

the central or peripheral nervous system, is characterized by deficits in prosody, articulation, resonance, 

phonation and respiration. At least 89% of individuals with Parkinson’s disease have dysarthria 

(Logemann, 1978). Prosodic impairment is one of the most common characteristics in 

speakers with hypokinetic dysarthria associated with Parkinson’s disease. Impairment in prosody 

may result in severely reduced speech intelligibility and communication efficiency, and may result in 

listeners’ negative personality association with the speaker. An accurate description of the nature of 

prosodic impairment is imperative for the implementation of an efficient speech treatment regime. 

Project Partner and Progress 

This project involved collaboration with a self-help organization in Hong Kong, Hong Kong Parkinson’s 

Disease Foundation, for the recruitment of Cantonese subjects, and Department of Neurology, University 

Hospital Carl Gustav Carus of TU Dresden for recruitment of German subjects. 

We have collected speech data from about 30-40 speakers in each language. Perceptual evaluation 

was conducted on these speech materials by native experts (experienced speech and language


therapists) and the severity of speech and prosodic impairments was evaluated. The speech samples 

collected represented speakers of different severity in both languages. Acoustic analyses are being 

currently conducted to compare the similarities and differences across languages. 

Expected Outcomes 

1. Characterization of the prosodic features in dysarthria associated with Parkinson’s disease in 

German and Cantonese speakers. 

2. Development of an alternative approach in assessing the prosodic impairment in dysarthria associated 

with Parkinson’s disease, which (a) allows different prosodic dimensions to be systematically 

manipulated simultaneously, and (b) improves the reliability of the measures by allowing direct 

comparison between the target signal and the synthesized signal. 

3. Development of a synthesis tool for modeling the prosodic features of dysarthria associated with 

Parkinson’s disease. 

Practical Implications 

1. There is a general lack of understanding on overall prosodic impairment. This study will contribute 

to the knowledge of how different prosodic features interact and their relations to overall perception. 

2. The cross-linguistic comparison of the prosodic impairment enables further understanding to the 

nature of dysarthria, as the observed prosodic impairment as a result of the manifestation of the 

neurological impairment may be accentuated by the linguistic characteristics of a language. 

3. The alternative approach of prosodic assessment can have clinical applications, as speech therapists 

require reliable measurement for identifying the treatment targets and documentation of 

treatment progress. 

4. The tool for synthesizing prosodic features can be used as a training tool for speech therapy students 

in the perception of pathological speech, as speech samples of different degrees prosodic 

impairment can be synthesized with the tool developed. 

3.4.4 AvatR – Audio visual assistant turns Real 

Im Rahmen des Förderprogrammes „Existenzgründungen aus der Wissenschaft” wurde von Absolventen 

der HTW und der TU Dresden ein Gründerstipendium eingeworben, das 2008/09 zur Förderung 

des in der Überschrift genannten Projektes diente. Die Projektziele sind im Jahresbericht 2008 

ausführlich beschrieben worden. Darüber hinaus erfolgte zur ESSV 2009 in einem Beitrag eine ausführliche 

Vorstellung der Ergebnisse. 

Die Ergebnisse des Berichtsjahres werden durch die Gründer wie folgt zusammengefasst: 

In 2009 stand die Entwicklung der Software „AvatR“ im Zentrum des Projektes. Es konnte ein weit 

reichendes Netzwerk in Wirtschaft und Wissenschaft aufgebaut werden. Diese Entwicklungen sollen 

den Grundstein für die im Jahr 2010 gesteckten Ziele sein. Die Veröffentlichung der Software Kaimbo 

als Proof of Concept und die geplanten Ausweitungen im B2B-Geschäft haben oberste Priorität für die 

AvatR GbR. Technologisch steht die Weiterentwicklung der Software Kaimbo sowie die Entwicklung 

eines, dem Thema „Crowd-Sourcing“ angelehnten, Hilfesystems im Fokus des Unternehmens. Desweiteren 

wird die Web-Sprachsynthese Teil des Produktportfolios bleiben. 

Zum aktuellen Stand der Entwicklung des Unternehmens wird auf die Webseite http://www.avatr.net/ 

verwiesen, der auch die Abbildung 3. 19 entnommen ist. 

31

32 


Abbildung 3. 19: Funktionskonzept von AvatR 

3.4.5 Lingubär – Lehrmittel zur Förderung der kindlichen 

Sprachkompetenz 

Im Rahmen des Förderprogramms „Existenzgründungen aus der Wissenschaft“ wurde die Förderung 

des Projektes „Lingubär“ beantragt und bewilligt. Das Ziel ist die Entwicklung eines Lehrmittels zur 

Förderung der kindlichen Sprachkompetenz. Für das Kind erscheint das Lehrmittel in der kindgerechten 

Form eines Plüschtieres oder einer Puppe. Der Lingubär besitzt eine verborgene Elektronik mit 

einem embedded Prozessor, der die notwendigen Signalverarbeitungsaufgaben abarbeitet. Als solche 

sind die beiden Hauptkomponenten, die Spracheingabe und Sprachausgabe, zu nennen, die einen 

Dialog mit dem Kind herstellen. 

Um die Idee umzusetzen wird derzeit auf verschiedenen Wissenschaftsgebieten gearbeitet. Diese 

sind insbesondere: 

Spracherkennung: Für Spracheingabe ist es nötig, einen Spracherkenner zu implementieren. Neben 

den bekannten Problemen in der Spracherkennung kommen bei der Lingubär-Anwendung noch besondere 

Herausforderungen hinzu. Dies sind zum einen die Erkennung von Kindersprache, bei der 

verstärkt mit nicht kooperativen Sprechern zu rechnen ist. Weiterhin unterscheidet sich die Erkennung 

von Kindersprache dadurch, dass die Artikulatoren, die die Merkmale der Sprache formen, noch 

im Wachstum begriffen und dadurch deutlich kleiner als bei Erwachsenen sind. Die entstehenden 

Merkmale für die Spracherkennung unterscheiden sich damit von Merkmalen von Erwachsenensprache, 

was darin resultiert, dass ein Spracherkenner mit Kindersprache zu trainieren ist. Jedoch existieren 

dafür kaum entsprechende Datenbasen. Es wird derzeit nach Möglichkeiten gesucht, um dieses 

Problem zu lösen. Eine weitere Herausforderung stellt die Robustheit gegen Störeinflüsse wie Umgebungsgeräusche 

und Raumhall dar. In der Anwendung des Lingubären ist mit einem ungünstigen 

Sprecher-Mikrofon-Abstand sowie verschiedenen instationären Störern, wie weiteren spielenden 

Kindern etc., zu rechnen. Die dritte Herausforderung besteht darin, die Spracherkennung auf einer 

embedded Plattform unterzubringen, was erfahrungsgemäß ein längerfristige ingenieurtechnische 

Aufgabe darstellt. 

Sprachausgabe: Die Sprachausgabe kann relativ einfach in Form von abspielbaren Audioaufnahmen 

realisiert werden. Jedoch ist in Anbetracht von geringen Speicherressourcen auf der Zielplattform 

eventuell über ein anderes Verfahren nachzudenken. Es stehen hierfür eine Wortsynthese oder Vollsynthese 

zur Disposition. Um die Stimme der Srachausgabe an die Anwendung bzw. an die Bedürfnisse 

des Kindes anpassen zu können, wird ein Verfahren zur Voice Conversion implementiert.


Pädagogik: Eine besondere Herausforderung stellt die Mensch-Maschine-Schnittstelle bei der Lingubär-Anwendung 

dar. Hier wird in Kooperation mit Erziehungswissenschaftlern eine Konzeption entwickelt, 

die sprachliche Lehrinhalte in kindgerechter Form aufbereiten und im Lingubär umsetzen soll. 

Dabei entsteht ein Dialogmodul. Das Design des Dialogs unterscheidet sich dabei von Geräten für 

Erwachsene, da wieder auf die Spezifik von kindlichen Verhaltensweisen eingegangen werden muss. 

Weiterhin muss die äußere Form der Puppe kindgerecht gestaltet sein (Kindchenschema), um zu 

gewährleisten, dass sie das Kind als Gesprächspartner akzeptiert. 

3.4.6 CALL-Kooperation mit der Beuth Hochschule für Technik, Berlin 

(Arbeitsgruppe von Prof. Hansjörg Mixdorff) 

Ähnlich zu den Dresdner Projekten, laufen an der Beuth Hochschule seit etwa zwei Jahren Forschungsarbeiten 

zur Verwendung von Sprachtechnologie beim Aussprachentraining. Im Gegensatz 

zum Fokus auf die spezifischen Gegebenheiten beim Deutschunterricht slawischer Muttersprachler in 

Dresden, werden in Berlin chinesische bzw. taiwanesische Muttersprachler sowie deutsche Sprachschüler 

beim Mandarin-Unterricht untersucht und verschiedene Technologien evaluiert. 

Im Dresdner EURONOUNCE-Projekt wurden u. a. slawische und deutsche Referenz-Sprachdaten 

gesammelt und der Softwareprototyp AzAR 2.0 mit der zugrunde liegenden Spracherkennungstechnik 

entwickelt. Außerdem laufen in Berlin Vorbereitungen für eine Projekterweiterung in Richtung japanischer 

Muttersprachler und für eine stärkere prosodische Gewichtung sprachübergreifender CALL- 

Studien (computer-aided language learning). 

Um das gemeinsame Know-how beider Institutionen zu bündeln, wurde eine entsprechende Kooperation 

vereinbart. Dazu gehören u. a. der Austausch von Software und Sprachdaten, die gemeinsame 

Analyse nach phonologisch-prosodischen Kriterien sowie ein teilweise gemeinsamer Auftritt bei externen 

Partnern, Anwendern oder Fördermittelgebern. 

An der Zusammenarbeit waren mehrere Mitarbeiter bzw. Doktoranden des Dresdner Instituts beteiligt: 

Hussein Hussein, Oliver Jokisch, Hongwei Ding und Rainer Jäckel. 

Abbildung 3.20: Projektmeeting mit der Arbeitsgruppe von Prof. Li Aijun , CASS Beijing, 25.09.2009 

Herr Jokisch unternahm zwei Forschungsreisen nach China und Japan. Anlässlich dieser Aufenthalte 

hielt er Vorträge zur CALL-Thematik an folgenden Einrichtungen: Chinese Academy of Social Sciences 

(Beijing), Tongji-Universität (Shanghai), University of Science and Technology of China (Hefei), University 

of Tokyo, Kobe University und Advanced Institute of Science and Technology (Kanazawa). Dabei 

wurden auch die Verfügbarkeit von Sprachdatenressourcen und Sprechern bzw. die Laborbedingungen 

vor Ort analysiert. 

33

34 


3.4.7 Multimediale Vorlesungsergänzung zur Systemtheorie und 

Signalverarbeitung 

Aus dem Multimediafonds der TU Dresden wurde im Jahre 2009 das Projekt ”Multimediale Vorlesungsergänzung 

zur Systemtheorie und Signalverarbeitung“ gefördert. 

Im Mittelpunkt dieses Projektes stand die Erstellung von Lernmodulen zu den Vorlesungen Systemtheorie 

I, II und III und Signalverarbeitung und deren Integration auf der Lernplattform OPAL des Bildungsportals 

Sachsen sowie die Entwicklung von interaktiven Demonstratoren als Vorlesungsergänzung 

zum Selbststudium. 

Abbildung 3. 21: HTML-Seite zum Vorlesungsskript Systemtheorie III 

Die Erstellung der Vorlesungsskripte wurde von der leitenden Idee getragen, für die verschiedenen 

Präsentationsmöglichkeiten der Vorlesungen nur eine einzige Datenbasis zu nutzen und pflegen zu 

müssen. Bei den Präsentationen der Vorlesung handelt es sich um das vom Vorlesenden genutzte 

Vorlesungsskript, Folien zur Vorlesung sowie die HTML-Seiten auf der Lernplattform. 

Das Konzept, für diese einheitliche Datenbasis das Satzsystem LaTeX zu nutzen, hat sich sehr bewährt. 

Problematisch dabei ist lediglich die mehrfache Nutzung von Abbildungen, strukturierten Texten 

und mathematischen Formeln in den verschiedenen Präsentationen. Hierbei wurde die jeweilige 

Anpassung mittels Compiler-Direktiven direkt in den LaTeX-Quellen vorgenommen. 

Nach einer initialen Überarbeitung der Rohfassungen der Vorlesungsskripte Systemtheorie I, II und III 

in den Zeiträumen Dezember 2008 bis Februar 2009, begannen die Arbeiten zu einer automatischen 

Erstellung der HTML-Seiten aus den LaTeX-Quellen. Hierbei konnte auf Erfahrung mit den Werkzeug 

make, pdflatex und latex2html zurückgegriffen werden. Zur gemeinsamen Bearbeitung der Quellen 

wird Subversion (svn) als Versionsverwaltungssystem genutzt. Eine weitere Überarbeitung der Vorlesungsskripte 

erfolgte parallel zur Erstellung der HTML-Seiten bis zum Projektende im Dezember 

2009.


Bei der Erstellung der HTML-Seiten ergaben sich im Vergleich zu einem gedruckten Vorlesungsskript 

einige Besonderheiten. Diese betreffen besonders die Erzeugung von Tabellen, die Umsetzung von 

einigen Formelzeichen und die Wahl der Gliederungstiefe. Beim letzteren gilt es, stets die Balance 

zwischen Überblick und Länge der Informationen auf einer HTML-Seite zu wahren und mittels Unterinhaltsverzeichnissen 

Übersichtlichkeit einzuführen. 

In Ergänzung zu den Vorlesungen Systemtheorie II und Signalverarbeitung wurden zwei interaktive 

Demonstratoren geschaffen und in die entsprechenden Lernmodule der Lernplattform OPAL eingebunden. 

Es wurde ein Java-Applet ”Lineares zeitinvariantes System“ erstellt, das die Funktionsweise 

eines kanonischen linearen zeitinvarianten Systems (Digitalfilter) anhand von wählbaren Eingangssignalen 

und Systemparametern demonstriert. Die Ausgangssignale dieses Systems können grafisch 

angezeigt und akustisch wiedergegeben werden. 

Abbildung 3. 22: Demonstrator: "Lineares zeitinvariantes System -- LTIS" 

Das Ziel des zweiten Demonstrators ”SignalANalyse und -SYnthese – SANSY“ ist es, die verschiedenen 

Analyse-, Transformations- und Synthesealgorithmen der Sprachverarbeitung zu testen und den 

Einfluss der Variation der Parameter auf die jeweiligen Merkmale anhand des synthetisierten Sprachsignals 

hörbar zu machen. 

Abbildung 3. 23: Demonstrator: "SignalANalyse und -SYnthese -- SANSY" 

35

3.5 Verarbeitung von Musiksignalen 

36 


In Kooperation mit der mufin GmbH wurde das Projekt "`Untersuchung des Einsatzes von Verfahren 

zur Analyse zeitlicher Verläufe bei der Extraktion perzeptueller musikalischer Attribute"' ins Leben 

gerufen. 

3.5.1 Einordnung des Forschungsprojektes 

Die Verbreitung von Musik wurde durch das Internet und den mp3-Standard revolutioniert. Jeder Musiker 

und Künstler bekommt die Möglichkeit seine Kunst selbst anzubieten, was zu einem nahezu 

unüberschaubaren Angebot an Musik führt. Neue Technologien wie die Navigation durch Musiksammlungen, 

deren Visualisierung, Annotation, Musikempfehlungssysteme, semantische Suche und 

das Bilden von Kaufempfehlungen sind nötig. In diesem spannenden Umfeld bewegt sich das vorliegende 

Forschungsprojekt der Klassifikation musikalischer Aspekte. 

Menschen beschreiben Musik mit einfachen, signalfernen, bedeutungsvollen Aspekten. Deren automatische 

Gewinnung aus dem Musiksignal bildet die Grundlage für eine Annotation von Musiktiteln 

und dient damit allen oben genannten Aufgabenfeldern. Gegenstand der Untersuchungen sind unter 

anderem Aspekte wie Genre, Klangfarbe, Tempo, Rhythmus und Songstrukturen. Aus Sicht der Mustererkennung 

werden Merkmalvektoren, hinter denen sich Ausprägungen eines Aspektes verbergen, 

beobachtet. Da Musiksignale Informationen in ihrer zeitlichen Struktur tragen, wird insbesondere der 

zeitliche Verlauf von Musik mittels Segmentierung in die Untersuchung einbezogen. 

Abbildung 3.24: Visualisierung zur Einordnung des Forschungsprojekts.

3.5.2 Durchführung 


Zu Beginn standen grundsätzliche Betrachtungen bezüglich der Eignung von Verfahren der Mustererkennung 

für die Ermittlung musikalischer Aspekte [3]. Abschnitt 3.5.3 enthält weitere Ausführungen 

zu den Ergebnissen. Aufbauend auf dieser Studie wurde in der nächsten Phase der Aspekt Genre 

näher untersucht [1]. Dabei wurde die vorliegende Methodik der Firma mufin in einen internationalen 

Kontext gesetzt, sowie verschiedene Schritte der Aspektgewinnung näher beleuchtet und verbessert. 

Die weiterführenden Schritte werden sich mit dem Rhythmus in Musik auseinandersetzen. Fokus 

wird dort zunächst die Erkennung von Tanzmusik auf der Grundlage von Rhythmus sein. 

3.5.3 Vergleich statistischer Klassifikatoren zur Ermittlung 

musikalischer Aspekte 

Die am Anfang des Projektes stehende Studie untersuchte die sechs Aspekte Instrument Density, 

Music Color, Percussiveness, Tempo, Sing Detect und Style. Ausgangspunkt für die Gewinnung dieser 

Aspekte war ein Pool von Musiksignalen mit der dazugehörigen Beschriftung der Aspektausprägungen. 

Anschließend wurden Merkmale aus dem Signal extrahiert und eine sekundäre Merkmalanalyse 

durchgeführt. Die Unterscheidungsfunktion ordnet jedem Merkmalvektor eine Aspektausprägung 

zu auf deren Grundlage die Entscheidungsfunktion eine Ausprägung für den gesamten Song bildet. 

Die Aspektgewinnung ist in Abbildung 3.25 dargestellt. 

Abbildung 3.25: Übersichtsdarstellung der Aspektgewinnung - Gegenstand der Untersuchungen war 

der grau hinterlegte Klassifikator 

Als Klassifikatoren wurden Gaussian-Mixture-Models und Hidden-Markov-Modelle verwendet. Letzte 

hatten zunächst eine feste Links-Rechts-Struktur, wo 3 bzw. 10 Zustände als vorgebene Struktur 

dienten. Das führte dazu, dass im Testmaterial mindestens 3 bzw. 10 aufeinanderfolgende Merkmalvektoren 

einer Klasse zugeordnet wurden. Im letzten Experiment, dem Topologietraining, erhielten 

die Hidden-Markov-Modell vollkommene Freiheit, die zeitliche Struktur einer Aspektausprägung über 

den ganzen Song abzubilden. Besonders der zuletzt genannte Ansatz ist bemerkenswert, ermöglicht 

er doch komplexere zeitliche Verläufe einer Aspektausprägung wiederzugeben (Abbildung 3.26). 

Es hat sich kein Klassifikationsansatz für alle sechs Aspekte als alleiniger Gewinner durchgesetzt. 

Betrachtet man die verschiedenen Aspekte, so bewegen sich die jeweils besten Erkennungsraten 

zwischen 62,4±3,4 für den Tempoaspekt und 95,8±2,2 für Percussiveness. Das automatische Topologietraining 

setzte sich nicht für alle Aspekte mit der besten Erkennungsrate durch, konnte aber in 

den meisten Fällen die Anzahl der Modellparameter stark reduzieren. Es bleibt festzuhalten, dass die 

Mustererkennung in Musikstücken mittels der hier verwendeten Markov-Modelle prinzipiell möglich 

ist. 

37

38 


Abbildung 3.26: Darstellung des HMM nach dem Topologietraining für den Aspekt Instrument Density. 

Die Kanten sind mit Eingabesymbol (Nummer der Normalverteilung), Ausgabesymbol und Übergangswahrscheinlichkeit 

beschriftet. 

Literatur: [2] 

Literatur 

[1] Huebler, S.: Untersuchung des Einsatzes von Verfahren zur Analyse zeitlicher Verläufe 

bei der Extraktion perzeptueller musikalischer Attribute. Zwischenbericht 1, mufin GmbH, 

Okt 2009. Untersuchung des Genreaspektes der Firma mufin mit Literaturstudium, internationalem 

Vergleich und Experimenten bezüglich sekundärere Merkmalanalyse, SVM und Entscheidungsfunktion. 

[2] Huebler, S., M. Wolff und M. Eichner: Vergleich statistischer Klassifikatoren zur 

Ermittlung musikalischer Aspekte. In: Hoffmann, R. (Hrsg.): Elektronische Sprachsignalverarbeitung. 

Tagungsband der 20. Konferenz, Dresden, 21. - 23. 9., Bd. 53 d. Reihe Studientexte zur Sprachkommunikation, 

S. 338–345, Sep 2009. 

[3] Wolff, M., S. Huebler und S. Wittenberg: Untersuchung des Einsatzes von Verfahren 

zur Analyse zeitlicher Verläufe bei der Extraktion perzeptuelle musikalischer Attribute. 

Forschungsbericht, mufin GmbH, Sep 2009.


3.6 Forschungsaktivitäten der Honorarprofessur Elektroakustik 

In der Verbindung von klassischer Elektroakustik und moderner Signalverarbeitung ergeben sich viele 

interessante Forschungsaufgaben, deren Bearbeitung und Lösung für die Entwicklung von moderner 

Audiotechnik notwendig ist. Ein erster Schwerpunkt ist die verbesserte Modellierung von Lautsprechern 

und anderen Wandlern im Klein- und Großsignalbereich sowie die Bestimmung der entsprechenden 

freien Modellparameter mit Hilfe der Systemidentifikation. Die optimale Schätzung der effektiv 

abstrahlenden Fläche Sd mit Hilfe von Laserscanndaten wurde in einer Diplomarbeit bearbeitet und 

eine interessante Lösung entwickelt. Ein weiterer Schwerpunkt ist die schnelle Erkennung und Lokalisierung 

von irregulären Lautsprecherdefekten, wie zum Beispiel eine reibende Schwingspule, 

Fremdkörper, schwingende Teile und Lecks in Lautsprechergehäusen. In einer Diplomarbeit wurde 

ein Demodulationsverfahren entwickelt, das aus der Hüllkurve des Messsignals eindeutige Merkmale 

für modulierte turbulente Strömungsgeräusche gewinnt. Dieses Verfahren soll auch auf mehrere Mikrofone 

erweitert und zur Lokalisierung der Leckstelle verwendet werden. Weitere Analyseverfahren 

werden für zufällige und deterministische Verzerrungen von anderen Lautsprecherdefekten entwickelt. 

Das Ziel dieser Forschung ist die Entwicklung eines Expertensystems, das mit Hilfe der Fuzzylogik 

diese Merkmale verknüpft und die wahrscheinlichste Fehlerursache erkennt. 

3.7 Historische Aktivitäten 

3.7.1 Bestandserschließung 

Auch im Jahr 2009 wurde an der Erschließung der Bestände der historischen akustisch-phonetischen 

Sammlung (HAPS) weiter gearbeitet. Die sehr aufwendigen Arbeiten zur Beschreibung und fotografischen 

Dokumentation der durch die 2005 übernommenen historischen Gerätesammlung des Phonetischen 

Instituts der Universität Hamburg konnten im Wesentlichen abgeschlossen werden. Damit 

steht das Material für eine Erweiterung der bestehenden Internetseite bereit, die bei Verfügbarkeit 

der Bearbeitungskapazität erfolgen wird. Den Herren Prof. Dr. Dieter Mehnert und Dr. Rolf Dietzel ist 

wieder für ihren unermüdlichen Einsatz zu danken. Nach Fertigstellung der Fotodokumentation konzentrieren 

sich jetzt die Arbeiten auf die Vorbereitung eines gedruckten Kataloges. 

Für die formale Inventarisierung nach den Vorschriften der Kustodie der TU Dresden konnte 2008 ein 

Mitarbeiter auf ABM-Basis für ein Jahr eingestellt werden. Erfreulicherweise ließ sich diese Unterstützungsmaßnahme 

im Berichtsjahr noch einmal verlängern, so dass die Erarbeitung der Datenbank 

weitergeführt werden konnte. 

3.7.2 Öffentlichkeitsarbeit 

Auch 2009 wurden große Anstrengungen unternommen, die HAPS und unsere historischen Arbeiten 

der interessierten Öffentlichkeit durch Führungen, Vorträge und Publikationen vorzustellen, wie die 

folgende Liste zeigt: 

• Mehrfach Führung von kleineren Besuchergruppen 

• 20. / 21. 3. 2009 Arbeitstreffen am Phonetischen Institut der Universität Amsterdam zur Geschichte 

der Sprachsynthese unter Beteiligung von Prof. Tjeerd de Graaf (Leeuwarden) 

• 24. 3. 2009: Beteiligung an der strukturierten Sitzung „History of Acoustics“ der NAG / DAGA 

2009 (Organisation der Sitzung: R. Hoffmann und R. M. Aarts) mit einem Beitrag über Resonatoren 

nach Schäfer 

• 19. 6. 2009: Lange Nacht der Wissenschaften Dresden. Besichtigung der Sammlungsräume; Vortrag 

"Forschen wie Professor Higgins'" 

• 16. 7. 2009: Vortrag über Wolfgang von Kempelen als Erfinder für die Arbeitsgruppe Geschichte 

der Otologie / Literarischer Arbeitskreis Borkum 

39

40 


• 13. 9. 2009: 80. Geburtstag von Prof. Dr. Wolf (Frankfurt), Beteiligung an der Festschrift mit je 

einem Beitrag über Valentin Merbitz und über die Auswertung von Phonographenwalzen mit dem 

Boekeschen Gestell 

• 11. 11. 2009: Führung für die Elektroakustik-Absolventen des Jahres 1969 der Fakultät Elektrotechnik 

• 23. / 24. 9. 2009: Durchführung des Traditionstages als Ergänzung der 20. Konferenz "Elektronische 

Sprachsignalverarbeitung", Dresden. Beteiligung mit mehreren historischen Beiträgen (siehe 

den Abschnitt „Konferenzen“ in diesem Jahresbericht) 

• 23. 9. 2009: Eröffnung der Sonderausstellung „SprachSignale“ in den Technischen Sammlungen 

Dresden mit Beständen der HAPS; Veröffentlichung eines Flyers und eines Ausstellungsführers 

(siehe Abbildung 3. 27 und Abbildung 3. 28). Die Ausstellung war bis zum 10. Januar 2010 geplant 

und wurde wegen der guten Resonanz bis zum 21. März 2010 verlängert. 

• 8. 11. 2009 und 6. 12. 2009: Öffentliche Vorträge in den Technischen Sammlungen Dresden als 

Begleitprogramm der Ausstellung „SprachSignale“ 

• 17. 11. 2009: Vortrag über die HAPS im Rahmen der Ringvorlesung (Studium generale) der Fakultät 

ET / IT 

Abbildung 3. 27: Ausstellung SprachSignale in den Technischen Sammlungen Dresden.


Abbildung 3. 28: Erste Führung durch die Ausstellung durch Prof. Dr. D. Mehnert. 

3.7.3 Projekte zu historischen phonetischen Geräten 

Übertragungsverhalten Mareyscher Kapseln 

Im Jahresbericht 2008 wurde dieses Projekt, das anteilig durch die DEGA gefördert wurde, bereits 

vorgestellt. Aufgrund ihrer großen Bedeutung für die historische phonetische Messtechnik ist es von 

großem Interesse, das Übertragungsverhalten der verschiedenen Formen der Mareyschen Kapseln 

beurteilen zu können. In den Teilen des Projektes, über die bereits berichtet wurde, erfolgte die Vermessung 

der verbreiteten Standardform mit einem Laservibrometer vorgenommen. 

Im Berichtsjahr wurden die Untersuchungen ausgeweitet. Zunächst war zu berücksichtigen, dass eine 

Vielzahl von Sonderformen existiert, deren Verwendung und deren Übertragungsverhalten aufzuklären 

sind. Dazu erfolgte im Berichtsjahr eine zweite Messkampagne mit freundlicher Unterstützung durch 

die Professur für Maschinendynamik und Schwingungslehre, deren Laservibrometer genutz werden 

konnte. 

Weiterhin wurde der Frage nach dem Ursprung der Mareyschen Kapseln nachgegangen. Vereinfacht 

dargestellt, ergibt sich die folgende Entwicklungslinie: Im Umfeld des Begründers des experimentellen 

Medizin, Claude Bernard (1813 – 1878), entstand die Forderung nach Aufzeichnungsmöglichkeiten 

für physiologische Vorgänge. Étienne-Jules Marey (1830 - 1904) entwickelte um 1860 ein erstes Gerät 

zur Aufzeichnung des Pulses (Sphygmograph) und verschiedene andere Aufzeichnungsgeräte, an 

denen sich Frühformen der Wandlerkapseln nachweisen lassen (Abbildung 3. 29). Die Anwendung in 

der Phonetik ist dem Vater der Experimentalphonetik, Abbé Jean Rousselot (1846 – 1924), zu verdanken. 

Einer seiner Doktoranden war Giulio Panconcelli-Calzia, der das Phonetische Laboratorium in 

Hamburg aufgebaut hat, dessen historische Geräte sich jetzt in Dresden befinden und der die experimentalphonetische 

Entwicklung in Deutschland wesentlich geprägt hat. 

41

42 


Abbildung 3. 29: Pulsaufnehmer mit 

Arm-Manschette. Beaune, Musée 

E.-J. Marey. Foto: R. Dietzel. 

Um diese Entwicklungslinie besser dokumentieren zu können, wurden Kontakte zu französischen 

wissenschaftsgeschichtlichen Einrichtungen aufgenommen. Als ergiebig erwiesen sich die städtischen 

Museen in Beaune, der Geburtsstadt Mareys. Dort existiert ein sehr gut gepflegtes Musée 

Marey, das leider nicht mehr öffentlich zugänglich ist, aber dank der freundlichen Unterstützung durch 

die zuständige Kustodin, Frau Marion Leuba, am 7. 10. 2009 besucht werden konnte. Erwähnenswert 

sind auch die Bestände des Musée Claude Bernard in Saint Julien en Beaujolais im Sinne einer Ergänzung 

der Bestände in Beaune. Es ist beabsichtigt, die Kontakte weiterzuführen und über die bisherigen 

Ergebnisse zur historischen Sitzung der DAGA 2010 zu berichten. 

Übertragungsverhalten mechanischer Resonatoren 

Betrachtet man die historische phonetische Messtechnik, ist ein weiteres wichtiges Teilgebiet die 

Messung von Frequenzen bzw. Tonhöhen mit Hilfe von mechanischen Resonatoren. Insofern ist es 

auch für diese Gerätegruppe interessant, die Übertragungsfunktionen zu messen und insbesondere 

festzustellen, wie genau die erzielten Messergebnisse sind. Deshalb wurden im Berichtsjahr zwei 

Messkampagnen im großen reflexionsarmen Raum des Instituts für Akustik und Sprachkommunikation 

durchgeführt. 

Abbildung 3. 30: Serie von Rohrresonatoren 

nach Schaefer. 

Aus dem Bestand der HAPS. Foto: 

R. Dietzel.


Die erste Serie von Messungen betraf die in Abbildung 3. 30 dargestellten Rohrresonatoren; über die 

Ergebnisse wurde zur NAG/DAGA in Rotterdam berichtet. Die zweite Serie bezog sich auf die historischen 

Helmholtz-Resonatoren; ihre Ergebnisse flossen in einen Beitrag zum Dresdener Traditionstag 

ein. 

3.7.4 Geschichte der mechanischen Sprachsynthese 

Angeregt durch die eigentümlichen Stimm-Mechaniken aus der HAPS, deren Abbildung im Berichtsjahr 

alle gedruckten Dokumente der Ausstellung SprachSignale zierte, bemühen wir uns seit längerer 

Zeit um eine Vertiefung der Kenntnisse über die Geschichte der mechanischen Sprachsynthese. Im 

Berichtsjahr wurden intensive Recherchen zu Johann Valentin Merbitz (1650 – 1704) durchgeführt. 

Der Hintergrund ist, dass Merbitz, der an der Dresdener Kreuzschule als Konrektor wirkte, die Erfindung 

eines sprechenden Kopfes zugeschrieben wird. Wir haben diese Geschichte in unserem Jahresbericht 

von 2007 als „Letzte Seite“ schon einmal als Kuriosität beschrieben. Nun bestand die Aufgabe, 

der Überlieferung ernsthaft nachzugehen. 

Die Recherche war insofern aufwendig, als es praktisch keine Vorarbeiten z. B. in Form einer Biografie 

gibt. Im Ergebnis liegt inzwischen eine vermutlich fast lückenlose Dokumentation allen Materials 

vor, das jemals über oder von Merbitz gedruckt worden ist. Eine Zusammenfassung wurde als Beitrag 

in Band 52 unserer Studientexte gedruckt und zusätzlich in Kurzform zum Traditionstag präsentiert. 

Aus der Sicht der Geschichte der Sprachsynthese ist die wichtigste Aussage, dass es über den angeblichen 

sprechenden Kopf nur eine einzige Quelle (eine Leipziger Disputation aus dem Jahre 1705) 

gibt, die sich lediglich auf glaubwürdige Zeugen beruft. Die Frage, ob es den Kopf in irgendeiner Form 

wirklich gegeben hat, bleibt damit in der Schwebe. 

Klar ist, dass die gründliche Literaturrecherche nur ein erster Schritt gewesen sein kann. Soweit es 

realisierbar ist, sollen sich Archivstudien anschließen. 

43

44 

Drittmittelprojekte und haushaltfinanzierte Forschung 

4 Drittmittelprojekte und haushaltfinanzierte Forschung 

4.1 Drittmittelprojekte 

Verarbeitung von Mikrofonsignalen 

2006 - 2010 

Microtech Gefell GmbH 

Projektleiter: Prof. Hoffmann 

Bearbeiter: Dipl.-Ing. Richter 

Intelligent Language Tutoring System with Multimodal Feedback Functions 

2007 - 2009 

EU im Rahmen des Lifelong-Learning-Programms 


Bearbeiter: Dipl.-Slaw. Jäckel, Dipl.-Ing. Jokisch 

Sprachsteuerung für Mess- und Prüfgeräte 

2008 – 2010 

BMBF 


Bearbeiter: Dipl.-Ing. Duckhorn, Dipl.-Ing. Strecha 

Akustische Auslegung, mobiles und akustisches Frontend 

2008 – 2010 

AiF 

Kooperation mit der Professur für Technische Informationssysteme (Prof. Kabitzsch) 

Projektleiter: Prof. Kabitzsch 

Bearbeiter: Dipl.-Ing. Fehér 

EXIST-Gründerstipendium: Virtueller Assistent – AvatR 

2008 – 2009 

BMBF 


EXIST-Gründerstipendium: LinguBär 

2009 – 2010 

BMBF 


Untersuchung des Einsatzes von Verfahren zu Analyse zeitlicher Abläufe bei der Extraktion 

perzeptueller musikalischer Attribute 

2009 – 2012 

mufin GmbH 


Bearbeiter: Dipl.-Ing. Hübler 

Industrielle Anwendungen der technischen Sprachkommunikation 

2009 

GWT-TUD GmbH (Transfereinrichtung der TU Dresden) 

Servicebereich „Signalverarbeitung und Mustererkennung“ 

Projektleiter: Prof. Hoffmann, PD Dr. Kordon, Dipl.-Ing. Jokisch

Drittmittelprojekte und haushaltfinanzierte Forschung 

4.2 Haushaltfinanzierte Forschung 

Dresdner Sprachsynthesesystem DRESS/microDRESS/ 

Mitwirkung im European Center of Excellence in Speech Synthesis (ECESS) 

2009 

Dipl.-Ing. O. Jokisch, Dr. H. Ding, MSc. H. Gamboa Rosales, Dipl.-Ing. H. Hussein, PD Dr. U. Kordon, 

Dipl.-Ing. G. Strecha u.a. 

Unified Approach for Speech Synthesis and Recognition (UASR) 

2009 

Dr.-Ing. M. Wolff, Dipl.-Ing. F. Duckhorn, Dr.-Ing. M. Eichner, PD Dr. U. Kordon, Dipl.-Ing. G. Strecha, 

Dipl.-Inf. C. Tschöpe, Dipl.-Ing. S. Wittenberg 

Akustisches Frontend 

2009 

Dipl.-Ing. T. Fehér, Dipl.-Ing. R. Petrick, Dipl.-Ing. D. Richter 

Cross-modal analysis of verbal and non-verbal communication 

COST-Aktion 2102 

2006 – 2010 

Projektleitung: Prof. Dr. A. Esposito (Italien) 

Prof. Dr.-Ing. habil. R. Hoffmann (Management Committee Member) 

Sprachtechnologische Aspekte der multimodalen Interaktion 

2009 

Projektaquisition in Kooperation mit der Fakultät Erziehungswissenschaften 

Prof. Dr.-Ing. habil. R. Hoffmann, Dipl.-Ing. O. Jokisch, Dipl.-Ing. H. Hussein 

Kooperationspartner Fakultät Erziehungswissenschaften: Prof. Dr. L. Alisch 

Hochwertiges Diphoninventar für die deutsche Sprachsynthese 

seit 2002 

Prof. Dr.-Ing. habil. R. Hoffmann, Dipl.-Ing. O. Jokisch, Dr. H. Ding 

Kooperation mit der MLU Halle/Saale, Frau Prof. Dr. U. Hirschfeld 

Historische phonetische Geräte 

seit 2002 

Prof. Dr.-Ing. habil. R. Mehnert, Dr.-Ing. R. Dietzel 

45

5 Veröffentlichungen 

5.1 Bücher, Buchbeiträge 

46 

Veröffentlichungen 

[1] GERLACH, G.; HOFFMANN, R. (Hrsg.): Neue Entwicklungen in der Elektroakustik und elektromechanischen 

Messtechnik. Prof. Dr.-Ing. habil. Günther Pfeifer zum 65. Geburtstag. Dresden: 

TUDpress 2009 (Dresdner Beiträge zur Sensorik, Bd. 40). ISBN 978-3-941298-55-2. 

[2] HOFFMANN, R.: Johann Valentin Merbitz und sein sprechender Kopf. Ein Beitrag zur Frühgeschichte 

der multimedialen Kommunikation. In: LACROIX, A. (Hrsg.): Beiträge zur Signaltheorie, 

Signalverarbeitung, Sprachakustik und Elektroakustik. Dietrich Wolf zum 80. Geburtstag. Dresden: 

TUDpress 2009 (Studientexte zur Sprachkommunikation, Bd. 52), S. 154 – 169. ISBN 978- 

3-941298-30-9. 

[3] HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 2009, Band 1. Tagungsband 

der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: TUDpress 2009 (Studientexte 

zur Sprachkommunikation, Bd. 53). ISBN 978-3-941298-31-6. 

[4] HOFFMANN, R. (Red.): SprachSignale – Analyse und Synthese der menschlichen Sprache. 

Ausstellungsführer, Technische Sammlungen Dresden 2009. ISBN 978-3-86780-134-8. 

[5] HOFFMANN, R.: Denken in Systemen – Reflexionen über das Motto einer Fakultät. In: 

GERLACH, G.; HOFFMANN, R. (Hrsg.): Neue Entwicklungen in der Elektroakustik und elektromechanischen 

Messtechnik. Dresden: TUDpress 2009 (Dresdner Beiträge zur Sensorik, Bd. 

40), S. 13 - 23. ISBN 978-3-941298-55-2. 

[6] KORDON, U.; WOLFF, M.; TSCHÖPE, C.: Mustererkennung für Sensorsignale. GERLACH, G.; 

HOFFMANN, R. (Hrsg.): Neue Entwicklungen in der Elektroakustik und elektromechanischen 

Messtechnik. Dresden: TUDpress 2009 (Dresdner Beiträge zur Sensorik, Bd. 40), S. 69 - 78. 

ISBN 978-3-941298-55-2. 

[7] MEHNERT, D.; DIETZEL, R.: Von Glyphen zu Tonhöhen und Intensitäten – Das Boekesche Gestell, 

ein historisches Auswertegerät. In: LACROIX, A. (Hrsg.): Beiträge zur Signaltheorie, Signalverarbeitung, 

Sprachakustik und Elektroakustik. Dietrich Wolf zum 80. Geburtstag. Dresden: 

TUDpress 2009 (Studientexte zur Sprachkommunikation, Bd. 52), S. 198 - 208. ISBN 978-3- 

941298-30-9. 

[8] PETRICK, R.: Robuste Spracherkennung unter raumakustischen Umgebungsbedingungen. 

Dresden: TUDpress 2009 (Studientexte zur Sprachkommunikation, Bd. 49). ISBN 978-3-941298- 

47-4. 

5.2 Veröffentlichungen in Zeitschriften 

[9] KLIPPEL, W., et al.: Distributed Mechanical Parameters of Loudspeakers Part 1: Measurement. 

J. of Audio Eng. Soc. 57, No. 9 (2009 Sept.), pp. 500-511. 

[10] KLIPPEL, W., et al.: Distributed Mechanical Parameters of Loudspeakers Part 2: Diagnostics. J. 

of Audio Eng. Soc. 57, No. 9 (2009 Sept.), pp. 696 - 708. 

[11] MA J. K-Y; WHITEHILL, T.L.; CHEUNG, K. S-K. (In print): Effect of stimulus type on dysprosody 

in Cantonese speakers associated with Parkinson’s disease. Manuscript accepted by International 

Journal of Language and Communication Disorders. 

[12] MA, J. K-Y; WHITEHILL, T. L.; SO, S. Y-S. (Accepted): Intonation contrast in Cantonese speakers 

with hypokinetic dysarthria associated with Parkinson’s disease. Manuscript accepted by 

Journal of Speech, Language and Hearing Research. 

[13] PUSCH, T.; CHERIF, C.; FAROOQ, A.; WITTENBERG, S.; WOLFF, M.; HOFFMANN, R.; 

TSCHÖPE, C.: Fehlerfrüherkennung an Textilmaschinen mit Hilfe der Körperschallanalyse. Melliand 

Textilberichte 3/2009, S. 113 - 115.


[14] PUSCH, T.; CHERIF, C.; FAROOQ, A.; WITTENBERG, S.; HOFFMANN, R.; TSCHÖPE, C.: Early 

fault detection at textile machines with the help of structure-borne sound analysis [chines.]. 

Melliand China (2009) 6, pp. 54 - 56. 

[15] TSCHÖPE, C.; WOLFF, M.; HOFFMANN, R.: Akustische Mustererkennung für die ZfP. MP 

Materials Testing 10/2009, S. 701 - 704, Carl Hanser Verlag, 2009. 

[16] TSCHÖPE, C.; WOLFF, M.: Statistical Classifiers for Structural Health Monitoring. IEEE Sensors 

Journal, Volume 9, No. 11, Nov. 2009, pp. 1567 - 1576. 

5.3 TU-Informationen und Lehrmaterial 

[17] JÄCKEL; R.: Curriculardaten für das Lernsystem „AzAR3.0“, Teil „Speech Training“ (Zielsprache 

Deutsch). Übungen zu den Themen Vokalsystem, Konsonantensystem, Phonotaktische 

Regeln, Suprasegmentalia (50 Seiten, mit Audiodaten). 

[18] KLIPPEL, W.: Assessment of Signal Distortion in Audio Systems. Lehrmaterial, 5. - 7. 11. 2009, 

TU Dresden, ca. 400 S. 

5.4 Konferenzveröffentlichungen 

[19] BEILIG, M.; HIRSCHFELD, D.; JOKISCH, O.; KOLOSKA, U.: Training of HMMs for pronunciation 

error detection – crosslingual bootstrapping vs. flatstart training. In: HOFFMANN, R. (Hrsg.): Elektronische 

Sprachsignalverarbeitung 2009, Band 1. Tagungsband der 20. Konferenz, Dresden, 

21. – 23. September 2009. Dresden: TUDpress 2009 (Studientexte zur Sprachkommunikation, 

Bd. 53), S. 372 - 379. 

[20] COELHO, L.; HAIN, H.-U.; JOKISCH, O.; BRAGA, D.: Towards an Objective Voice Preference 

Definition for the Portuguese Language. I Iberian SLTech - I Joint SIG-IL/Microsoft Workshop on 

Speech and Language Technologies for Iberian Languages. Porto Salvo, Portugal. 3. – 4. September 

2009, S. 67 - 70. 

[21] DEMENKO, G.; WAGNER, A.; CYLWIK, N.; JOKISCH, O.; KOLOSKA, U.; HIRSCHFELD, D.: 

Audiovisual Feedback for Foreign Language Learning, Proc. 13th IASTED Conf. on Internet and 

Multimedia Systems and Applications (IMSA), Honolulu (Hawaii, USA), August 17 - 19, 2009, 

CD. 

[22] DEMENKO, G.; WAGNER, A.; CYLWIK, N.; JOKISCH, O.: An audiovisual feedback system for 

acquiring L2 pronunciation and L2 prosody. Proc. 2 nd ISCA Workshop on Speech and Language 

Technology in Education (SLaTE), Wroxall Abbey Estate (UK), September 3 - 5, 2009. 

[23] DING, H.; JOKISCH, O.: An investigation of the pronunciation of English words in German SMS 

texts. In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 2009, Band 1. Tagungsband 

der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: TUDpress 2009 

(Studientexte zur Sprachkommunikation, Bd. 53), S. 396 - 402. 

[24] DUCKHORN, F.; STRECHA, G.; WOLFF, M.; HOFFMANN, R.: Ein Sprachdialogsystem mit begrenzten 

Hardwareressourcen. In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 

2009, Band 1. Tagungsband der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: 

TUDpress 2009 (Studientexte zur Sprachkommunikation, Bd. 53), S. 88 - 93. 

[25] FEHÉR, T.; PETRICK, R.; HOFFMANN, R.: Mehrkanaliges akustisches Front-End für Spracherkennungssysteme. 

In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 2009, 

Band 1. Tagungsband der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: 


[26] GAMBOA ROSALES, A.; GAMBOA ROSALES, H.; HOFFMANN, R.: Maximum Likelihood Unit 

Selection for Corpus-based Speech Synthesis. In: Proceedings Interspeech 2009, 10 th Annual 

Conference of the ISCA, September 6 – 10, 2009, Brighton, U.K., pp. 748 – 751. 

47

48 


[27] HAIN, H.-U.; JOKISCH, O.; COELHO, L.: Multilingual Voice Analysis: Towards Prosodic Correlates 

of Voice Preference. In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 



[28] HOFFMANN, R.; MEHNERT, D.; DIETZEL, R.; FUDER, G.: Measuring frequencies with historic 

resonators from Schaefer. Proc. NAD/DAGA 2009, International Conference on Acoustics, Rotterdam, 

23 – 26 March 2009, pp. 258 – 261. 

[29] HOFFMANN, R.; KORDON, U.; WOLFF, M.: Pattern recognition, classification, and speech 

processing for non-speech signals. Proc. 19th Czech-German Workshop on Speech Processing, 

Prague, September 29 – October 1, 2009, CD-ROM. 

[30] HOFFMANN, R.; FELLBAUM, K.: 20 Jahre Sprachsignalverarbeitung im Spiegel einer Konferenz. 

In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 2009, Band 1. Tagungsband 

der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: TUDpress 2009 

(Studientexte zur Sprachkommunikation, Bd. 53), S. 15 - 24. 

[31] HÜBLER, S.; WOLFF, M; EICHNER, M.: Vergleich statistischer Klassifikatoren zur Ermittlung 

musikalischer Aspekte. In: HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 


TUDpress 2009 (Studientexte zur Sprachkommunikation, Bd. 53), S. 338 -- 345. 

[32] JÄCKEL, R., HUSSEIN, H.: Kontrastive Untersuchung zur Realisierung der Fokusakzente in gelesenen 

Äußerungen (Am Beispiel der Sprachenpaarung L1 Russisch – L2 Deutsch). In: 

HOFFMANN, R. (Hrsg.): Elektronische Sprachsignalverarbeitung 2009, Band 1. Tagungsband 

der 20. Konferenz, Dresden, 21. – 23. September 2009. Dresden: TUDpress 2009 (Studientexte 

zur Sprachkommunikation, Bd. 53), 380 – 387. 

[33] JOKISCH, O.; WAGNER, A.; SABO, R.; JÄCKEL, R.; CYLWIK, N.; RUSKO, M.; RONZHIN, A., 

HOFFMANN; R.: Multilingual Speech Data Collection for the Assessment of Pronunciation and 

Prosody in a Language Learning System. In: Proceedings of the 13 th International Conference 

Speech and Computer, 21 - 25 June 2009, St. Petersburg, pp. 515 – 520. 

[34] JOKISCH, O.; GRÜNBAUM, W.; HOFFMANN, R.: Personalized speech synthesis: Age, gender 

and emotional features. Proc. 13th International Conf. Speech and Computer (SPECOM), St. 

Petersburg, June 22 - 24, 2009, pp. 186 - 189. 

[35] JOKISCH, O.; WAGNER, A.; SABO, R.; JÄCKEL, R.; CYLWIK, N.; RUSKO, M.; RONZHIN A.; 

HOFFMANN, R.: Multilingual speech data collection for the assessment of pronunciation and 

prosody in a language learning system. Proc. 13th International Conf. Speech and Computer 

(SPECOM), St. Petersburg, June 22 - 24, 2009, pp. 515 - 520. 

[36] JOKISCH, O.; HAIN, H.-U.; PETRICK, R.; HOFFMANN, R.: Robustness Optimization of a 

Speech Interface for Child-Directed Embedded Language Tutoring. The 2nd Workshop on Child, 

Computer and Interaction (WOCCI). November 5, 2009, Cambridge, MA (Bestandteil der Konferenz-CD 

der ICMI-MLMI 2009, Cambridge, MA, November 2 – 6, 2009). 

[37] KLIPPEL, W.: Fast measurement of motor and suspension nonlinearities in loudspeaker manufacturing. 

Proceedings of International Symposium of Electroacoustic Technology ISEAT, 

Shenzhen, China, 11 - 12 November 2009, pp. 148 - 162. 

[38] KLIPPEL, W.: Distributed mechanical parameters describing vibration and sound radiation of 

loudspeaker drive units. Proceedings of International Symposium of Electroacoustic Technology 

ISEAT, Shenzhen, China, 11 - 12 November 2009, pp. 87 - 96. 

[39] MA, J. K-Y.: Lexical tone production by Cantonese speakers with Parkinson’s disease. In: Proceedings 

Interspeech 2009, 10 th Annual Conference of the ISCA, September 6 – 10, 2009, 

Brighton, U.K., pp. 1691 – 1694.


[40] MIXDORFF, H.; KÜLLS, D.; HUSSEIN, H.; GONG SHU, HU GUOPING, WEI SI: Towards a 

Computer-aided Pronunciation Training System for German Learners of Mandarin. Proc. 2 nd 

ISCA Workshop on Speech and Language Technology in Education (SLaTE), Wroxall Abbey Estate 

(UK), September 3 - 5, 2009. 

[41] PETRICK, R.: A Comparison of Methods for Robust Speech Recognition in Reverberant Environments. 

Proc. 19th Czech-German Workshop on Speech Processing, Prague, September 29 – 

October 1, 2009, CD-ROM. 

[42] PETRICK, R.; RUECKERT, C.; HOFFMANN, R.: Room Acoustic Conditions and Limits in Home 

and Office Environments. In Proc. 13th International Conf. Speech and Computer (SPECOM), 

St. Petersburg, June 22 - 24, 2009, pp. 232 -- 237. 

[43] SCHLECHTER, J.; KLIPPEL, W.: Distributed Mechanical Loudspeaker Parameters. National 

Conference of the Audio Eng. Soc. of Japan, Tokio 2007, Preprint. 

[44] SCHLECHTER, J.; KLIPPEL, W.: Fast Measurement of Motor and Suspension Nonlinearities in 

Loudspeaker Manufacturing. National Conference of the Audio Eng. Society of Japan, Tokio, 

24 - 27 July 2009, Preprint. 

[45] STRECHA, G; WOLFF, M.; DUCKHORN, F.; WITTENBERG, S.; TSCHÖPE, C: The HMM Synthesis 

Algorithm of an Embedded Unified Speech Recognizer and Synthesizer. In: Proceedings 

Interspeech 2009, 10 th Annual Conference of the ISCA, September 6 – 10, 2009, Brighton, 

U.K., pp. 1763 - 1766. 

[46] TSCHÖPE, C.; WOLFF, M.; HOFFMANN, R.: Automatische Klassifikationsverfahren in der Zustandsüberwachung., 

DGZFP-Jahrestagung, Münster, 18. - 20. 5. 2009. Beitrag Di.3.B.2, 5 S. 

auf Konferenz-CD. 

[47] WOLFF, M.; TSCHÖPE, C.: Pattern Recognition for Sensor Signals. IEEE SENSORS 2009 Conference, 

Christchurch, Neuseeland, 25. – 28. 10. 2009, pp. 665 – 668. 

5.5 Vorträge (ungedruckt) 

[48] DUCKHORN, F.; WOLFF, M.; STRECHA, G.; HOFFMANN, R: An Application Example for Unified 

Speech Synthesis and Recognition using Hidden Markov Models. 2nd One Day Meeting on 

Unified Models for Speech Recognition and Synthesis, 30. 3. 2009, University of Birmingham. 

[49] FEHÉR, T.: Gezielte Beschallung und Spracherfassung mit robustem akustischen Frontend. 

Technologietag „Multimodale, interaktive Bedienkonzepte für technische Geräte“, 25. 9. 2009, 

Dresden. 

[50] FELDMANN, U.: Chaos++‘. Auszeichnungsveranstaltung des Sächsischen Korrespondenzzirkels 

Mathematik Kl. 5 - 8, 24. 6. 2009, MAN-Gymnasium Dresden. 

[51] HOFFMANN, R.; WOLFF, M.: Pattern recognition, classification, and speech processing for 

non-speech signals. ERS-Workshop “Maschinendiagnose – Grundlagen, Konzepte, Visionen”. 

RWTH Aachen, 8. 7. 2009. 

[52] HOFFMANN, R.: Wolfgang von Kempelen als Erfinder. Arbeitsgruppe Geschichte der Otologie 

und Literarischer Arbeitskreis Borkum, Borkum, 16. 7. 2009. 

[53] HOFFMANN, R.: 40 Jahre institutionalisierte Sprachtechnologie in Dresden, 10 Jahre historische 

akustisch-phonetische Sammlung. Eröffnungsvortrag zum Traditionstag, Technische 

Sammlungen Dresden, 23. 9. 2009. 

[54] HOFFMANN, R.: „... ein curiöser und inventiöser Mann“ - Johann Valentin Merbitz und sein 

sprechender Kopf in Dresden. Vortrag zum Traditionstag, TU Dresden, 24. 9. 2009. 

[55] HOFFMANN, R.; WOLFF, M.: The UASR project: Unified approach to speech synthesis and 

recognition. 2nd One Day Meeting on Unified Models for Speech Recognition and Synthesis, 

30. 3. 2009, University of Birmingham. 

49

50 


[56] HOFFMANN, R.: Von legendären sprechenden Köpfen zu elektronischen „talking heads“. Vortrag 

zum Turmfest der Technischen Sammlungen Dresden, 8. 11. 2009. 

[57] HOFFMANN, R.: Forschen wie Professor Higgins – Highlights aus der historischen akustischphonetischen 

Sammlung der Fakultät ET/IT. Ringvorlesung der Fakultät ET/IT im studium generale, 

17. 11. 2009. 

[58] HOFFMANN, R.: Laudatio zur Verleihung des Johann-Philipp-Reis-Preises 2009 an Prof. Dr. 

Sebastian Möller. Gelnhausen, 29. 10. 2009. 

[59] HOFFMANN, R.: Sprachsynthese und Systemtheorie. Physikalisches Kolloquium des Fachbereichs 

Physik der Universität Frankfurt anlässlich der Verabschiedung in den Ruhestand von 

Prof. Dr. Arild Lacroix. 2. 12. 2009. 

[60] HÜBLER, S.: Combining Holistic and Aspect Models in a Content-Driven Music Recommendation 

System. In: 5th Music Information Retrieval Evaluation eXchange (MIREX2009), Oct, 26 - 

30, 2009. 

[61] HUTT, S. et al.: Loudspeaker FE/BE Modeling Workshop. presented at the 126 th Convention of 

the Audio Eng. Soc. in Munich, 7 – 9 May, 2009. 

[62] JÄCKEL, R.: Integration of learning content and feedback functions in the multilingual pronunciation 

tutoring system EURONOUNCE. 19th Czech-German Workshop on Speech Processing, 

Prague, September 29 – October 1, 2009. 

[63] JOKISCH, O.: Sprachtechnologie in didaktischen Applikationen. Öffentlicher Vortrag auf dem 

Hochschulforum der didacta-Bildungsmesse in Hannover, 12.02.2009. 

[64] JOKISCH, O.; MIXDORFF, H.: Linguistic and Phonetic Analysis for the Pronunciation Teaching - 

German Learners of Mandarin. Public talks at: Phonetics Laboratory of the Institute of Linguistics 

at the Chinese Academy of Social Sciences (CASS), Beijing, 25/09/2009 and English Department 

of the School of Foreign Languages at the Tongji University, Shanghai, 30/09/2009, Internal 

presentation at: iFLYTEK Research Center at the University of Science and Technology of 

China (USTC), Hefei (Provinz Anhui), 28/09/2009. 

[65] JOKISCH, O.; MIXDORFF, H: Quantitative Cross-Language Prosody Modeling and its Application 

in a Pronunciation Training System – Case Studies at TU Dresden and Beuth-Hochschule. 

Public talks at: Lab of the Dept. of Information and Communication Engineering at the University 

of Tokyo, 19/11/2009 and Department of Linguistics at Kobe University, Kobe, 21/11/2009, 

Presentation at: Laboratory at the Japan Advanced Institute of Science and Technology (JAIST), 

Kanazawa (Präfektur Ishikawa), 23/11/2009. 

[66] KLIPPEL, W. et al. : Fast Measurement of Motor and Suspension Nonlinearities in Loudspeaker 

Manufacturing. 127 th Convention of the Audio Eng. Soc., 9 - 12 October 2009, New York, USA. 

[67] KLIPPEL, W.: Active Compensation of Nonlinear Loudspeaker Distortion. 1 st European ALMA 

Symposium at the Prolight + Sound, 4 April 2009, Frankfurt Germany. 

[68] KORDON, U.: Wie „hört“ und „spricht“ ein Computer? Vortrag in den Technischen Sammlungen 

Dresden, 6. 12. 2009. 

[69] MEHNERT, D.; DIETZEL, R.: Akustische Resonatoren als Messmittel für die experimentelle 

Phonetik. Vortrag zum Traditionstag, TU Dresden, 24. 9. 2009. 

[70] PETRICK, R.: Spracherkennung unter raumakustischen Umgebungsbedingungen. Universität 

Erlangen-Nürnberg, Lehrstuhl für Multimediakommunikation und Signalverarbeitung, Prof. Walter 

Kellermann, Erlangen, 15. 6. 2009.

5.6 Patente 


[71] EICHNER, M.; WOLFF, M.; HOFFMANN, R.; KORDON, U.; ZIEGENHALS, G.: Verfahren und 

Vorrichtung zur Klassifikation und beurteilung von Musikinstrumenten gleicher Instrumentengruppen. 

Deutsches Patent Nr. 10 2006 014 507, erteilt am 7. 5. 2009. 

[72] KLIPPEL, W.: Anordnung und Verfahren zur Erkennung, Ortung und Klassifikation von Defekten. 

Deutsche Patentanmeldung 2009. 

5.7 Forschungsberichte 

[73] HÜBLER, S.: Untersuchung des Einsatzes von Verfahren zur Analyse zeitlicher Verläufe bei der 

Extraktion perzeptueller musikalischer Attribute. Zwischenbericht 1, mufin GmbH, Okt 2009. 

[74] WOLFF, M., S. HÜBLER UND S. WITTENBERG: Untersuchung des Einsatzes von Verfahren zur 

Analyse zeitlicher Verläufe bei der Extraktion perzeptuelle musikalischer Attribute. Forschungsbericht, 

TU Dresden, Sept. 2009. 

[75] WOLFF, M.: Sprachsteuerung für Mess- und Prüfgeräte. Zwischenbericht, 09.02.2009, 2 Seiten. 

[76] WITTENBERG, S.; WOLFF, M.: Fehlerfrüherkennung an Spinnmaschinen. Abschlussbericht, 

März 2009, 18 Seiten. 

5.8 Zeitungsbeiträge und Kurzmitteilungen 

[77] STANG, M.: Geräte zur Erforschung der menschlichen Sprache. Die akustisch-phonetische 

Sammlung der Technischen Universität Dresden. Beitrag in der Reihe „Schatzkammern der 

Wissenschaft“ im Deutschlandfunk, gesendet 22.12.2008.; 

http://www.dradio.de/dlf/sendungen/forschak/895258/. 

[78] KALLENBACH, J.: Star Trek an der Uni / Wissenschaftlicher Sternenhype. ad rem, die unabhängige 

Hochschulzeitung in Sachsen, 21. Jahrg., Nr. 11 (6. Mai 2009), S. 4 und 7. 

[79] N. N.: Interaktiver Aussprachetrainer mit Signalanalysefunktionen. Informationsblatt (4 Seiten), 

TU Dresden, Institut für Akustik und Sprachkommunikation 2009. 

[80] WECKBRODT, H.: Klingonen und sprechende Maschinen. Technische Sammlungen und 

Dresdner Uni zeigen Sonderausstellung über Sprachtechnologie. Dresdner Neueste Nachrichten 

(DNN), 23. 9. 2009. 

[81] H. O. / T. Z.: Preis für implantierbares Hörgerät. Dresdner Universitätsjournal, 20. Jahrg., Nr. 

18/2009, S. 2. 

[82] N. N.: Gewissenhaft und kompetent. Dr. Rolf Dietzel erhält anlässlich seines 75. Geburtstages 

die Ehrenmedaille der TUD. Dresdner Universitätsjournal, 20. Jahrg., Nr. 19/2009, S. 5. 

[83] N. N.: TUD stellt in Technischen Sammlungen aus. Dresdner Universitätsjournal, 20. Jahrg., Nr. 

19/2009, S. 7. 

51

6 Promotionen 

52 

Promotionen,Habilitationen, Diplom- und Studienarbeiten 

[1] PETRICK, R.: Robuste Spracherkennung unter raumakustischen Umgebungsbedingungen. Technische 

Universität Dresden, Fakultät Elektrotechnik und Informationstechnik. Gutachter: 

HOFFMANN, R. (TU Dresden), UNOKI, M. (Japan Advanced Institute of Science and Technology). 

Tag der Verteidigung: 25. 9. 2009 

externe Gutachtertätigkeit 

[2] RÖMER, R.: Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle. Dissertation, 

Technische Universität München, Fakultät für Elektrotechnik und Informationstechnik. Gutachter: 

G. RUSKE (TU München), R. HOFFMANN (TU Dresden). Tag der Verteidigung: 

10. 3. 2009. 

[3] EICHLER, M.: Breitbandige Beamforming-Algorithmen zur Erfassung von Audiosignalen mit kompakten 

Mikrofon-Arrays. Dissertation, Goethe-Universität Frankfurt am Main, Fachbereich Physik. 

Gutachter: A. LACROIX (Universität Frankfurt), H. REININGER (Universität Frankfurt), R. 

HOFFMANN (TU Dresden). Tag der Disputation: 15. 12. 2009. 

7 Habilitationen 

externe Gutachtertätigkeit 

[4] SCHNELL, K.: Modellbasierte Sprachanalyse und –synthese. Habilitationsschrift, Goethe- 

Universität Frankfurt am Main, Fachbereich Physik. Zweitgutachter: R. HOFFMANN (TU Dresden). 

Tag des Habilitationsvortrages: 28. 10. 2009, Tag der Antrittsvorlesung: 9. 12. 2009. 

8 Diplom- und Studienarbeiten 

8.1 Diplom-/Masterarbeiten 

[DA1] WERNER, R.: Erkennung und Ortung von Strömungsgeräuschen und anderen impulsiven 

Verzerrungen im Rahmen der Qualitätsüberprüfung von Lautsprechersystemen. (Prof. Klippel, 

Dr. Irrgang), verteidigt am 28.9.2009 

[DA2] HOSSMAR, M.: Prosodiemodellierung zur emotionalen Sprachsynthese. (MSc. Gamboa Rosales), 

verteidigt am 14.7.2009 

[DA3] KÖHLER, R.: DSP-Portierung von Algorithmen der HMM-Synthese. (Dipl.-Ing. Strecha), verteidigt 

am 11.11.2009 

[DA4] LEONHARDT, O.: „Messung der Kenngrößen von elektroakustischen Wandlern ohne akustischen 

Sensor“ verteidigt am: 17.12.2009 

[DA5] GRÜNBAUM, W.: Weiterentwicklung eines einkanaligen Algorithmus zur Störgeräuscheunterdrückung. 

(Dipl.-Ing. Fehér, Dipl.-Ing. Gruber – voiceINTERconnect), verteidigt am 

25.11.2009 

8.2 Studienarbeiten 

[StA1] SCHIFFNER, M.: Anwendung der Hilbert-Huang-Transformation in der Signalanalyse. (Dipl.- 

Ing. Wittenberg) 

[StA2] VANSELOW, P.: Nichtlineares Übertragungsverhalten von Kondensatormikrofonen (Dipl.-Ing. 

Richter) 

[StA3] GEBHARDT, K.: Untersuchungen zur Signalseparation für Zweikanalmikrofone (Dipl.-Ing. Richter)

Auszeichnungen und Ehrungen 

9 Auszeichnungen und Ehrungen 

9.1 Verleihung der Ehrenmedaille der Technischen Universität 

Dresden an Herrn Dr.-Ing. Rolf Dietzel, 26. Oktober 2009 

Herr Dr.-Ing. Rolf Dietzel hat über Jahrzehnte hinweg in ehrenamtlicher Arbeit hervorragende Beiträge 

zur Traditionspflege und zur Dokumentation der Entwicklung der Fakultät Elektrotechnik und Information 

geleistet. Besonders hervorzuheben sind die verantwortliche wissenschaftliche Betreuung des 

Barkhausen-Archivs der Fakultät und sein Einsatz beim Aufbau und der Dokumentation der historischen 

akustisch-phonetischen Sammlung (HAPS) der TU Dresden. Aus diesen Gründen hat der Rat 

der Fakultät Elektrotechnik und Informationstechnik in seiner Sitzung am 20. 5. 2009 einstimmig beschlossen, 

seine Auszeichnung mit der Ehrenmedaille der TU Dresden zu beantragen. Der Senat hat 

diesem Antrag zugestimmt, und die Medaille konnte dem Jubilar an seinem 75. Geburtstag durch den 

Prorektor für Universitätsplanung, Herrn Prof. Dr. M. Curbach, übergeben werden. 

Abbildung 9.1: Prof. Dr. Curbach und Dr.-Ing. Dietzel nach der Übergabe der Medaille 

53

54 


Abbildung 9.2: Ehrenmedaille der Technischen Universität Dresden 

Der wissenschaftliche Werdegang von Herrn Dr. Dietzel ist eng mit der Entwicklung der technischen 

Akustik an der TU Dresden verbunden und reicht bis in deren "klassische" Zeit, die durch das Wirken 

von Walter Reichardt geprägt wurde, zurück. Er hat nach dem Studium der Elektrotechnik bei Prof. 

Reichardt über ein akustisches Thema (Untersuchungen an eingezwängten Dämpfungsbelägen) 1967 

promoviert. Die Emeritierung von Prof. Reichardt fällt zeitlich mit der Hochschulreform 1968/69 zusammen, 

in deren Umsetzung der Wissenschaftsbereich "Kommunikation und Messwerterfassung" 

(später "Akustik und Messtechnik") mit mehreren neuen Professuren gegründet wurde. Herr Dr. Dietzel 

wurde der durch A. Lenk besetzten Professur "Messwerterfassung" zugeordnet und war dort bis 

zu deren durch die Emeritierung von Prof. Lenk (1996) bedingten Auflösung als Oberassistent tätig. Er 

hat in dieser Funktion wissenschaftliche Projekte und zahllose studentische Arbeiten betreut und viele 

Vorlesungen, Übungen und Praktika auf dem weitgespannten Gebiet der technischen Akustik durchgeführt. 

Hervorzuheben ist seine selbständige Lehrtätigkeit auf dem Gebiet der elektromechanischen 

Netzwerke. Nach dem Wegfall der Professur von A. Lenk hat er die beschriebenen Leistungen unter 

dem Dach der Professur von R. Hoffmann (Systemtheorie und Sprachtechnologie) weiter erbracht, bis 

er 1999 in den Ruhestand eintrat. 

Die Verleihung der Ehrenmedaille hängt jedoch nur mittelbar mit dem langjährigen Wirken von Herrn 

Dr. Dietzel für Forschung und Lehre auf dem Gebiet der technischen Akustik und für das Gedeihen 

des heutigen Instituts für Akustik und Sprachkommunikation bzw. seiner Vorgängereinrichtungen 

zusammen. Er hat über viele Jahre seine fachliche Arbeit mit großem zeitlichen Aufwand mit der Sicherung 

und Pflege der wissenschaftlichen Traditionen seines Fachgebietes und seiner Fakultät verbunden. 

Dabei nutzte er intensiv seine gediegenen Kenntnisse auf dem Gebiet der wissenschaftlichen 

Fotografie, die er übrigens auch in eigenen Vorlesungen weitergegeben hat. Die beeindruckende 

Bilanz dieser ehrenamtlichen Tätigkeiten im Bereich der Technikgeschichte und Traditionspflege 

soll nachstehend in stark gekürzter Form dargelegt werden. 

An prominentester Stelle ist die Betreuung des Barkhausen-Archivs zu nennen. Das Wirken von Heinrich 

Barkhausen (1881 - 1956), der als einer der Väter der heutigen Informationstechnik zu den profilbildenden 

Wissenschaftlern unserer Universität zählt, wird an der Fakultät ET/IT durch eine Sammlung 

von Dokumenten in Schrift, Bild und Ton bewahrt. Der systematische Aufbau dieses Archivs geht auf 

die Feiern zum 150-jährigen Bestehen der TH/TU Dresden 1978 und die Mitarbeit an der Barkhausen- 

Ehrung der Akademie der Wissenschaften 1981 zurück und wurde durch Prof. Lunze initiiert, der ins-


besondere als Herausgeber der Barkhausen-Festschrift 1981 wirkte. Er hat von Anfang an Dr. Dietzel 

in die Konzeption der Sammlung integriert, der zahlreiche Recherchen durchführte, Kontakte knüpfte 

und u. a. in den Entstehungsprozess der von Prof. Howard geschaffenen Porträtbüste Barkhausens 

einbezogen war. Wenig später (1982) wurde Prof. Lunze emeritiert, und die Fakultät betraute Dr. 

Dietzel mit der weiteren Betreuung des Archivs, der er sich mit Hingabe gewidmet hat. Es stellte sich 

schnell heraus, dass nicht nur Aufbau und Pflege des Bestandes Aufwand erforderten, sondern dass 

darüber hinaus die Existenz des Archivs bald bei wissenschafthistorisch interessierten Einrichtungen 

bekannt wurde und deshalb zahlreiche Anfragen nach Informationen, Kopien und Reproduktionen 

eingingen, die sämtlich gewissenhaft beantwortet wurden. 

Diese Gewissenhaftigkeit und Kompetenz hat zehn Jahre später auch die Barkhausen-Erben davon 

überzeugt, die bisher nur als Leihgabe zur Verfügung gestellten Teile des persönlichen Nachlasses 

von Heinrich Barkhausen der Universität dauerhaft zu überlassen. So schreibt eine der Töchter Barkhausens 

1992 an den Dekan: "Es hat uns besonders gefreut, dass Herr Dr. Dietzel sich so liebevoll um 

den Nachlass kümmert, wissen wir ihn nun doch in den allerbesten Händen. Ich glaube, es war ganz 

richtig, dass wir die Papiere der TU überlassen haben und nicht dem Deutschen Museum in München, 

das auch in Frage gekommen wäre, die aber unmöglich so viel persönliches Interesse hätten 

einsetzen können, nach unserer Meinung.“ 

Die Kette der Anfragen an das Barkhausen-Archiv und damit an die Sachkenntnis von Dr. Dietzel ist 

bis heute nicht abgerissen; so dass das Barkhausen-Archiv seit drei Jahrzehnten eine lebendige Stätte 

der Traditionspflege ist, und das hauptsächlich dank des Engagements von Herrn Dr. Dietzel. 

Parallel zum Barkhausen-Archiv ist durch die langjährige Arbeit von Herrn Dr. Dietzel an der Fakultät in 

Verbindung mit seinen fotografischen Aktivitäten eine einzigartige Fotodokumentation der Geschichte 

der Fakultät entstanden, die vielseitig genutzt worden ist. Bekanntlich ist ein solches Archiv nur langfristig 

wirksam, wenn es in geeigneter Weise erschlossen ist. So ist derzeit Dr. Dietzel mit der digitalen 

Aufarbeitung der Bestände stark gefordert. Diese Aktivitäten können unter dem Aspekt der Dokumentation 

der Fakultätsgeschichte nicht hoch genug gewürdigt werden. Die Kustodie und das Universitätsarchiv 

greifen gerne auf sie zurück. 

Große Verdienste hat Herr Dr. Dietzel in dem Jahrzehnt seit seinem Eintritt ins Rentenalter (1999) bei 

der Erschließung der historischen akustisch-phonetischen Sammlung erworben. Da dieses Thema 

seit Jahren in unseren Jahresberichten verfolgt werden kann, sollen die überaus zeitaufwendigen 

Arbeiten des Jubilars an dieser Stelle nur erwähnt werden. Ihre Spuren findet man leicht bei der Betrachtung 

der Webseiten unserer historischen Sammlung und in den Publikationen zu historischen 

phonetischen Geräten, an denen Herr Dr. Dietzel beteiligt war und ist. 

Auch außerhalb der Universität engagiert sich Herr Dr. Dietzel mit großem Einsatz auf heimatkundlichem, 

ortsgeschichtlichem und foto- und kinotechnischem Gebiet in den einschlägigen Vereinen. So 

war es keine Überraschung, dass anlässlich der Verleihung der Medaille eine Vielzahl von Freunden 

und Weggefährten zur Gratulation gekommen waren und so dazu beitrugen, dass uns die Feier in 

schöner Erinnerung bleiben wird. 

9.2 Innovationspreis Medizintechnik für ein TU-Projekt, 

29. Oktober 2009 

Im Berichtsjahr wurde durch den Direktor der Klinik und Poliklinik für Hals-Nasen-Ohrenheilkunde des 

Universitätsklinikums, Herrn Prof. Dr. med. Dr. h. c. Th. Zahnert, die Idee eines Wandlerbausteins 

vorgestellt, der in das Mittelohr von stark hörgeschädigten Patienten implantiert werden kann. Die 

Frage einer Realisierungsmöglichkeit wurde gemeinsam mit unserer Arbeitsgruppe und mit Herrn 

Prof. Dr. G. Pfeifer (Institut für Halbleiter- und Mikrosystemtechnik) diskutiert und ein Lösungsvorschlag 

erarbeitet. Dieser wurde für den Innovationswettbewerb des BMBF zur Förderung der Medizintechnik 

2009 eingereicht und wurde Sieger des Wettbewerbs im Modul BASIS (siehe Abbildung). 

Es besteht die begründete Aussicht, dass das Projekt im Jahre 2010 eine Förderung erhält, durch die 

die Realisierung eines Modells in Gemeinschaftsarbeit der genannten Institute erfolgen kann. 

55

56 

Auszeichnungen und Ehrungen

Wissenschaftliche Veranstaltungen 

10 Wissenschaftliche Veranstaltungen 

10.1 Zwanzigste Konferenz 

Elektronische Sprachsignalverarbeitung, 

Dresden, 21. – 24. 9. 2009 

10.1.1 Einordnung 

Im Berichtsjahr wurde die Konferenz „Elektronische 

Sprachsignalverarbeitung“ (ESSV) zum 20. Mal in Folge 

durchgeführt. Die Tatsache, dass sich die Veranstaltungsreihe 

nach nunmehr zwei Jahrzehnten unverminderter 

Akzeptanz erfreut, war Anlass, das Jubiläum 

gebührend zu begehen. Dazu kam, dass das Institut für 

Akustik und Sprachkommunikation (IAS) in seiner heutigen 

Form auf eine 1969 erfolgte Fusion akustischer, 

nachrichtentechnischer und messtechnischer Kapazitäten 

zurückgeht, mithin den 40. Jahrestag seiner Gründung 

begehen konnte. Außerdem war zu bedenken, 

dass die historische akustisch-phonetische Sammlung 

der TU Dresden (HAPS) 1999 gegründet wurde und 

somit ihr zehnjähriges Bestehen zu verzeichnen war. 

Um trotz der Häufung der Jubiläen die 20. ESSV vor 

einer nostalgischen Tendenz zu bewahren, wurde beschlossen, 

die Jubiläen an einem gesonderten Traditionstag 

im Anschluss an den fachlichen Teil der ESSV 

zu begehen. Der Traditionstag konnte unabhängig von 

der Konferenz besucht werden. Beide Veranstaltungen 

wurden mit dem nebenstehenden Logo beworben. 

10.1.2 Fachteil der ESSV, 21. – 23. 9. 2009 

Die Organisatoren der diesjährigen ESSV in Dresden waren bei der Vorbereitung motiviert, anlässlich 

des Jubiläums der Konferenz möglichst viele aktive Teilnehmer, darunter natürlich möglichst alle 

"Stammkunden", zu gewinnen. Dieser Bemühung arbeitete eindeutig die gegenwärtige Wirtschaftskrise 

entgegen, die so manchem potentiellen Teilnehmer insbesondere aus mittelständischen Unternehmen 

die Finanzierung unmöglich gemacht hat. Zugleich befindet sich die Industrieforschung der 

Sprachtechnologie in Deutschland bekanntlich in einem tiefgreifenden strukturellen Umbruch. Diese 

Probleme betrafen vor allem die Kraftfahrzeug-Anwendungen, die in den letzten Jahren eine fachliche 

Hauptkomponente der ESSV bildeten. Eine geplante strukturierte Sitzung zu diesem Themenkomplex 

musste 2009 ausfallen. 

Umso erfreulicher ist es, dass die ESSV 2009 trotz dieses problematischen Umfeldes eine deutlich 

überdurchschnittliche Beteiligung aufweisen konnte: Der Tagungsband enthält 50 Beiträge von insgesamt 

96 Autoren. Die Veranstalter bedanken sich herzlich bei allen, die zu diesem Erfolg beigetragen 

haben. 

Betrachtet man die 20 Tagungsbände der ESSV-Serie, spiegelt sich in ihnen die Entwicklung der 

Sprachtechnologie in Deutschland auf höchst interessante Weise. Waren die 1990er Jahre noch stärker 

durch die Grundlagenforschung (und dabei insbesondere durch das Großprojekt Verbmobil) geprägt, 

zeigt sich im letzten Jahrzehnt auf einer Anzahl von Anwendungsfeldern ein deutlicher Durchbruch 

in die Praxis. Der Einführungsbeitrag der Konferenz, gehalten von Prof. Fellbaum, stellte sich 

die Aufgabe, einige dieser Tendenzen in Form einer Übersicht darzustellen. 

57

58 


Beleuchtet man die auf der Konferenz vertretenen Themengruppen, zeigt sich die Vielfalt der Grundlagendisziplinen 

und Anwendungsfelder, die in der Sprachsignalverarbeitung zusammenspielen. 

Diesmal waren zwei Anwendungsbereiche in strukturierten Sitzungen besonders präsent. Das war 

zum einen die Sitzung "Sprachtechnologie zur Unterstützung von Menschen mit Sinnesbehinderungen", 

die durch Professor Klaus Fellbaum organisiert wurde, zum anderen die Sitzung "Sprachtechnologie 

in didaktischen Anwendungen", die Rainer Jäckel organisiert hat. Während die erstgenannte 

Sitzung ein traditionelles, typisches und wichtiges Anwendungsbiet der Sprachtechnologie umfasst, 

bezieht sich die zweite auf Anwendungen, die erst seit wenigen Jahren im Blickpunkt stehen, aber 

ebenfalls ein großes Anwendungspotential haben. 

Auch die beiden Hauptvorträge der Konferenz standen für typische Tendenzen. Bekanntlich hat die 

Sprachtechnologie eine ihrer Wurzeln in der Nachrichtentechnik, woran der Hauptvortrag von Professor 

Peter Vary erinnert, der den umfangreichen Vortragsblock zu Themen aus der Signalverarbeitung 

einleitet. Der zweite Hauptvortrag stammte von Dirk Schönfuß und widmete sich der Verarbeitung 

von Musiksignalen. Durch die Aufnahme dieses Hauptvortrages soll die Tendenz betont werden, dass 

die bewährten Verfahren der Sprachtechnologie in zunehmendem Maße erfolgreiche Anwendungen 

auf nichtsprachliche Signale finden, und unter diesen sind die Musiksignale eine besonders wichtige 

Gruppe. 

10.1.3 Traditionstag, 23. / 24. 9. 2009 

Auf der Suche nach einem geeigneten Ort für die Durchführung des Traditionstages boten sich die 

Technischen Sammlungen Dresden an, die sich in dem industriegeschichtlich bedeutsamen Ernemann-Bau 

befinden. Im Rahmen der Vorgespräche entstand die Idee, den Traditionstag mit der Installation 

einer Sonderausstellung mit Beständen der HAPS zu verbinden, die für einige Monate in den 

Technischen Sammlungen verbleiben sollte. Diese Idee führte schließlich zur Vorbereitung der Ausstellung 

mit dem Titel SprachSignale. Details zu dieser Ausstellung wurden in Punkt 3.7.2 dieses Berichtes 

erwähnt (vgl. auch Abbildung 3. 27). 

Der Traditionstag begann am Nachmittag des 23. September 2009 mit etwa 40 Teilnehmern in den 

Räumen der Technischen Sammlungen und hatte folgenden Ablauf: 

• Eröffnung des Traditionstages und der Ausstellung mit einem Vortrag von Prof. Hoffmann zu den 

Jubiläen 40 Jahre IAS und 10 Jahre HAPS 

• Erste Führung durch die Ausstellung SprachSignale durch Prof. Mehnert (Abbildung 3. 28). 

• Festvortrag über Wolfgang von Kempelen, gehalten von der Kempelen-Spezialistin Frau Dr. Alice 

Reininger, Universität für Angewandte Kunst, Wien (Abbildung 10.1). 

• Beisammensein im Turmcafe des Ernemann-Baus 

Am 24. September 2009 wurde der Traditionstag im Barkhausenbau durch eine Anzahl eingereichter 

Vorträge zu historischen Vorträgen ergänzt. Die Beiträge, die sehr angeregte Gespräche auslösten, 

rankten sich um drei Themenfelder: 

• Institutionen: Eine besondere Rolle spielte die Geschichte der Phonetik an der Universität Hamburg, 

da deren Traditionen mit der Entstehung der Dresdener HAPS eng verbunden sind. 

• Personen: Drei historisch interessante Persönlichkeiten aus drei verschiedenen Jahrhunderten 

spielten eine besondere Rolle: Johann Valentin Merbitz (aus lokalgeschichtlichem Interesse), 

Wolfgang von Kempelen (als Vater der experimentellen Phonetik und Sprachtechnologie) und Giulio 

Panconcelli-Calzia (als bedeutender Experimentalphonetiker des 20. Jahrunderts). 

• Geräte: In dieser fachlichen Gruppe standen historische phonetische Geräte im Vordergrund, natürlich 

im engen Zusammenhang mit den Objekten der Ausstellung SprachSignale. 

Im Einzelnen wird man die Beiträge des Traditionstages einem Protokollband entnehmen können, der 

nachträglich als Band 2 des vorliegenden Tagungsbandes (also Band 54 der Studientexte zur Sprachkommunikation) 

erscheint. Er wird auch die Übersichtsbeiträge zum 40-jährigen Institutsjubiläum und 

zum zehnjährigen Bestehen der HAPS enthalten.


Abbildung 10.1: Frau Dr. A. Reininger und Prof. R. Hoffmann nach dem Festvortrag des Traditionstages 

in den Technischen Sammlungen. 

Abbildung 10.2: Vortrag im Kinosaal der Technischen Sammlungen. 

59

10.1.4 Zur Zukunft der ESSV 

60 


Zurückkommend auf die Konferenzserie ESSV im engeren Sinne, kann festgestellt werden, dass sie 

sich über die zwei Jahrzehnte ihres Bestehens als Erfolgsmodell erwiesen hat und deshalb auch weitergeführt 

werden sollte. Dabei muss allerdings bedacht werden, dass nicht nur die Konferenz, sondern 

auch ihre Initiatoren in die Jahre gekommen sind. Der Senior unter ihnen ist Dieter Mehnert, der 

auf eigenen Wunsch nach 20 Jahren aktiver Mitarbeit aus dem Kreis der Organisatoren mit herzlichem 

Dank für die geleistete Arbeit und die ständige Inspiration ausgeschieden ist. Ulrich Kordon, 

Privatdozent für Sprachkommunikation an der TU Dresden, hat sich bereit erklärt, an seiner Stelle in 

das Organisationskomitee einzutreten. 

Auch Klaus Fellbaum ist 2007 in den Ruhestand gewechselt. Es ist sicher, dass er sich mit unverminderter 

Energie an der Gestaltung der ESSV weiter beteiligen wird, jedoch fehlt uns seitdem Cottbus 

als einer unserer Stamm-Standorte. Damit konzentriert sich die Logistik der ESSV derzeit auf den 

Dresdener Standort. Der Umstand, dass auch der dortige Inhaber der Professur Systemtheorie und 

Sprachtechnologie und Verfasser dieser Zeilen seinen voraussichtlichen Ruhestand am zeitlichen 

Horizont erkennen kann, führt zu der Frage nach der rechtzeitigen Absicherung der Zukunft der Konferenzserie. 

Deshalb haben die bisher aktiven Personen beschlossen, einen Förderverein "Elektronische 

Sprachsignalverarbeitung" zu gründen, der nicht an eine bestimmte Universität gebunden ist. Er wird 

die jährliche Vergabe des Konferenzstandortes koordinieren und die jeweiligen Ausrichter beraten. 

Der Verein wurde am Rande der 20. ESSV gegründet und am 17. Februar 2010 in das Register des 

Amtsgerichtes Dresden eingetragen. 

Wir hoffen, damit das unter den gegebenen Randbedingungen optimale Modell gewählt zu haben, 

und freuen uns auf noch viele erfolgreiche Konferenzen "Elektronische Sprachsignalverarbeitung". 

10.2 didacta 2009 – die Bildungsmesse 

Hannover, 10. – 14. 2. 2009 

Die didacta, Europas größte Bildungsmesse, fand vom 10. bis 14. Februar 2009 in Hannover statt und 

gab der Branche traditionell wichtige Impulse. Rund 74.000 Besucher kamen auf das Messegelände 

und informierten sich bei 718 Ausstellern auf einer Ausstellungsfläche von rund 30.000 Quadratmetern 

über aktuelle Produkte, Trends und neue bildungspolitische Ansätze. Die Messe wurde von 1 400 

Workshops, Vorträgen und Seminaren begleitet. 

Das Institut für Akustik und Sprachkommunikation präsentierte sich 2009 erstmalig und als eines von 

wenigen - insbesondere wenigen ostdeutschen - Hochschulinstituten auf der didacta mit Ergebnissen 

aus den Projekten AzAR bzw. EURONOUNCE, die sich mit dem sprachübergreifenden Aussprachetraining 

einschließlich der Entwicklung entsprechender Feedback-Algorithmen sowie Datenbasen 

befassen und im Abschnitt 3.4.2 des Jahresberichts erläutert werden. 

Abbildung 10.3: Das IAS auf der didacta-Messe in Hannover (Halle 14, Stand G 76/1)


Die Messebeteiligung zielte u. a. darauf, die Institutsprojekte im Bereich Sprachenlernen einer breiteren 

Öffentlichkeit vorzustellen, neue Kooperationspartner und Projektansätze zu gewinnen und die 

Akzeptanz des vorgestellten Prototyps AzAR 2.0 bei Fachkollegen aus unterschiedlichen Teilgebieten 

(u. a. Pädagogen, Logopäden, Berater oder Technologieentwickler) zu testen. Desweiteren wurde der 

Messeauftritt durch die Beteiligung am didacta-Hochschulforum mit einem Vortrag am 12. Februar zur 

„Sprachtechnologie in didaktischen Applikationen“ von Herrn Jokisch flankiert. 

Die quantitative Besucherresonanz im Hochschulbereich der Messe war insgesamt eher dürftig, 

wobei die Besucher in der Regel gut vorbereitet waren und sich qualitativ interessante Kontakte ergaben. 

Der eigene Messestand mit einer Grundfläche von 9 Quadratmetern fiel zwar bescheiden aus, 

wurde aber dennoch funktionell mit PC-Technik, Monitoren, Werbematerial, etc. gestaltet und bei den 

Fachkollegen aufmerksam registriert. 

Aus ca. 35 gezielten Fachbesuchen am Stand ergaben sich Kontakte mit weiterführendem Charakter. 

Interessenten waren u. a. Pädagogen aus dem Schul- und Berufsschulbereich, Mitarbeiter von Frühfördereinrichtungen 

(z. B. Kindergarten der Diakonie) und Kollegen der TUD-eigenen Erziehungswissenschaften 

(u. a. aus der Lehrerbildung). 

10.3 Statusseminare des BMBF-Projekts 

„Sprachsteuerung für Mess- und Prüfgeräte“ 

Dresden, 05. 03. und 03. 09. 2009 

Am 05.03.2009 fand am Fraunhofer IZFP Dresden das 1. Statusseminar des vom BMBF geförderten 

Projekts „Sprachsteuerung für Mess- und Prüfgeräte“ statt, dessen Ziel die technische Realisierung 

einer möglichst natürlichsprachlichen Kommunikation mit Mess- und Prüfgeräten, speziell eines Ultraschall-Prüfgeräts 

der Sinus Messtechnik GmbH sowie eines Mikroohmmeters der Firma Werner Industrielle 

Elektronik, ist. 

Am Statusseminar nahmen 12 Personen aus folgenden Institutionen teil: VDI Technologiezentrum 

GmbH, SINUS Messtechnik GmbH, TU Dresden, Fraunhofer IZFP Dresden, Werner Industrielle Elektronik 

Das Treffen hatte die folgende Tagesordnung: 

10:00 Begrüßung und Eröffnung 

10:10 C. Tschöpe: Planung 

10:20 G. Papsdorf: Modifikation Prüfgerät und Sprachdialog Design 

10:30 Dr.-Ing. M. Wolff: Arbeitsstand Sprachein- und –ausgabe/Entwurf akustische Nutzerschnittstelle 

10:45 F. Duckhorn: Spracherkennung C- und DSP-Portierung 

mit Vorführung 

10:55 G. Strecha: Algorithmenentwurf Sprachsynthese 


11:05 Dr.-Ing. D. Joneit: Stand der FPGA-Implementierung und des Rahmenprogramms 

(inkl. Hardware-Aufbau und -Test) 


11:20 Diskussion 

im Anschluss: Laborrundgang im Fraunhofer IZFP Dresden 

61

62 


Am 03.09.2009 fand am Fraunhofer IZFP Dresden das 2. Statusseminar des vom BMBF geförderten 

Projekts „Sprachsteuerung für Mess- und Prüfgeräte“ statt. 

Am Statusseminar nahmen 10 Personen aus folgenden Institutionen teil: VDI Technologiezentrum 

GmbH, SINUS Messtechnik GmbH, TU Dresden, Fraunhofer IZFP Dresden, Werner Industrielle Elektronik 

Das Treffen hatte die folgende Tagesordnung: 

09:30 Begrüßung und Eröffnung 

09:40 C. Tschöpe: Einführung, Projektstand 

09:55 Dr.-Ing. D. Joneit: FPGA-Implementierung und Rahmenprogramm 

10:10 F. Duckhorn: Akustische Nutzerschnittstelle C- und DSP-Portierung und Optimierung 

10:25 G. Strecha: Sprachsynthese C-Portierung 

10:40 R. Köhler: Sprachsynthese DSP-Portierung 

10:55 G. Papsdorf: Modifikation Prüfgerät, Sprachdialog Design und Testplanung 

11:10 T. Werner: Schaltungsentwurf, Umsetzung Schaltung, Fertigung und Aufbau 

11:25 Diskussion 

10.4 EURONOUNCE-Meetings 

in Bratislava, Wehlen und Poznan 

Die TU Dresden verantwortete in ihrer Eigenschaft als Konsortialführerin des EU-„Life Long Learning“-Projekts 

EURONOUNCE (2007-2009) die Durchführung verschiedener Projekttreffen und bereitete 

die fachlichen Arbeitsinhalte entsprechend vor. Folgende Meetings fanden im Berichtszeitraum 

2009 statt (Die regionale Organisation erfolgte durch die jeweiligen Projektpartner vor Ort.): 

• 17. - 18. Februar: 3. EUN-Meeting, Slovak Academy of Science, Bratislava, 

• 3. - 4. Juni: 4. EUN-Meeting, Hotel Wehlen / REZO Computer-Service Dresden, 

• 16. - 17. Dezember: 5. EUN-Meeting, Adam Mickiewicz University, Poznan. 

Das dritte Meeting in Bratislava konzentrierte auf administrative Planungen und eine kooperative Dokumentenaufbereitung 

in Auswertung des EUN-Zwischenberichts 2007-2008. Weiterhin wurden Weiterentwicklungen 

der Lernplattform auf prosodischer Auswertungsebene und andere technologische 

Zielsetzungen diskutiert. Teilnehmer waren die technischen Entwicklungspartner Slovak Academy of 

Science (Bratislava), die Adam Mickiewicz University (Poznan) und die TU Dresden. 

Beim vierten Meeting in Wehlen bzw. in Dresden waren neben allen technologischen Partnern auch 

die Disseminationspartner, u. a. REZO Computer-Service (Dresden), der Verband sächsischer Bildungsinstitute 

(VSBI Leipzig) sowie die Firma Schenck Workshops (Mühlheim) vertreten. Hierbei 

standen Fachberichte zu Projektergebnissen sowie Fragen der Ergebnisverwertung / Publizität im 

Vordergrund. Außerdem fand eine Schulung zur Inhaltsgenerierung neuer Lektionen mittels Datenbankeditor 

statt. 

Das fünfte Projekttreffen in Poznan konzentrierte sich auf Maßnahmen zur Erstellung des Abschlussberichts 

einschließlich öffentlicher und vertraulicher Projektberichte an den Projektträger EACEA. 

Am Rande der Treffen bestand die Möglichkeit zum gemütlichen Erfahrungsaustausch – sowohl bei 

gemeinsamen Abendessen als auch bei Stadtrundgängen bzw. einem Besuch der Festung Königstein.


Abbildung 10.4: 4. EUN-Projektmeeting in Wehlen, 03.06.2009 

Abbildung 10.5: 5. EUN-Projektmeeting in Poznan, 16.12.2009 

63

64 


10.5 Japanisch-deutscher Kooperationsworkshop, 

Dresden, 8./9. Dezember 2009 

In den Jahren 2008/09 entwickelte sich eine neue Kooperation mit dem Japan Advanced Institute of 

Scince and Technology (JAIST) in Nomi (Präfektur Ishikawa). Sie begann mit der Ko-Betreuung der 

Dissertation Petrick durch Prof. Masashi Unoki, die sehr erfolgreich war und das Bedürfnis erzeugte, 

eine engere Zusammenarbeit unserer beiden Einrichtungen anzustreben. Seitens der TU Dresden 

befürwortete der Rat der Fakultät Elektrotechnik und Informationstechnik den Abschluss eines Kooperationsvertrages 

am 21. 1. 2009. 

JAIST ist eine Graduiertenuniversität, führt also kein Grundstudium durch. Es bietet exzellente Bedingungen 

für die akademische Qualifizierung. Es besteht aus mehreren „Schools“, wobei unser Partner 

die School of Information Science ist. Zwischen dem JAIST und unserer Fakultät wurden am 8. 9. 

2009 (JAIST) bzw. 5. 10. 2009 (TUD) die beiden Abkommen 

• Agreement of Academic Exchange und 

• Agreement of Student Exchange 

unterzeichnet. Es geht nun darum, diese Austauschabkommen mit Leben zu erfüllen. 

Um diesem Ziel näher zu kommen, fand am 8. und 9. 12. 2009 in Dresden ein Workshop mit den 

Professoren Masato Akagi und Masashi Unoki aus der Human Information Processing Group der 

School of Information Science statt. Er wurde eingeleitet durch einen öffentlichen Vortrag von Professor 

Akagi zum Thema „Voice conversion to add non-linguistic information into speaking voices“, dem 

später ein Vortrag von Professor Unoki zum Thema „MTF-based speech dereverberation and denoising“ 

folgte. Ergänzt wurde dieses Programm durch eine gegenseitige Vorstellung der Institute sowie 

durch drei Fachvorträge von Dresdener Doktoranden. 

In den intensiven Gesprächen erfolgte die Identifikation möglicher Kooperationsthemen. Die Diskussion 

soll im März 2010 bei einem zweiten Treffen, dann am JAIST, fortgesetzt werden. 

Abbildung 10.6: Prof. Unoki und Prof. Akagi


10.6 ECESS-Treffen, 

Dresden, 18. - 19. Juni 2009 

Das 13. Treffen des „European Center of Excellence in Speech Synthesis“ (ECESS) fand Mitte Juni in 

Dresden statt. An diesem Treffen nahmen teil: 

• Universität Bonn 

• University of Maribor 

• Ludwigs-Maximilian-Universität, München 

• University of the Basque Country, Bilbao, Spanien 

• University of Vigo, Spanien 

• Universität Bochum 

• SVOX Deutschland GmbH 

Nach der Begrüßung der Teilnehmer durch Professor Hoffmann (TUD) wurde in der Generalversammlung 

über das weitere Vorgehen innerhalb des Konsortiums gesprochen. Anschließend daran fanden 

die Beratungen der Colleges „Sprachdatenbanken“, „Tools“ und „Module und Systeme“ statt. Hier 

wurden jeweils die Ergebnisse der Aufgaben überprüft, die während des vorhergehenden Treffens im 

Januar 2009 in München festgelegt wurden. 

Die Agenda im College „Tools“ umfasste die Evaluation von Verfahren für die Segmentierung von 

Sprachdatenbanken, die Vorgehensweise zur prosodischen Annotation und die Aktivitäten auf dem 

Gebiet der Sprechercharakterisierung. Das College „Sprachdatenbanken“ diskutierte über die Erstellung 

weiterer Wissensquellen wie Lexika oder prosodisch annotierter Texte, welche für die Entwicklung 

der einzelnen Module nötig sind. 

Im College „Module und Systeme“ wurde über den Status der Module gesprochen, die innerhalb der 

TTS-Systeme der einzelnen Partner für die Standard-Sprache Englisch entwickeln worden sind. Ergebnis 

der Sitzung sind die Vorbereitung und Durchführung der Evaluation. Das an der Universität in 

Maribor entwickelte „Remote Evaluation System“ (RES) wurde bei mehreren Partnern erfolgreich 

installiert und getestet und eine erste Evaluation der Module für die Vorverarbeitung wurde durchgeführt. 

Weitere Schritte sind geplant, um auch die Module für die Prosodiegenerierung und die akustische 

Synthese zu testen. Dafür müssen noch die entsprechenden Spezifikationen erarbeitet werden. 

Zudem werden TTS-Systeme für die Landessprache der jeweiligen Partner entwickelt. 

10.7 Statusseminare des Projektes "Untersuchung des Einsatzes 

von Verfahren zur Analyse zeitlicher Verläufe bei der Extraktion 

perzeptueller musikalischer Attribute", 

Dresden, 12. 05. und 03. 07. 2009 

Zusammen mit dem Projektpartner der mufin GmbH fanden mehrere Statusseminare im Jahre 2009 

statt. Die Treffen am 12.05. und 03.07. zum einen an unserem Institut und zum anderen bei der Firma 

mufin GmbH waren Bestandteil und Abschluss der einführenden Studie[Verweis Wolff 2009]. Die 

Ergebnisse, welche die prinzipiellen Möglichkeiten der Zusammenarbeit darlegten, wurden präsentiert. 

Bei beiden Treffen waren D. Schönfuß, Dr. M. Eichner und T. Herberger von der mufin GmbH 

sowie Prof. R. Hoffmann, Dr. M. Eichner und S. Hübler von unserem Institut anwesend. 

Für die weitere Zusammenarbeit wurde ein intensiver Austausch über den jeweils aktuellen Forschungsstand 

vereinbart. Nach Abschluss der Studie wurden diesbezügliche fortlaufende Gespräche 

14tägig mit sieben Telefonaten und vier weiteren Treffen realisiert. Dabei waren D.Schönfuß und Dr. 

M. Eichner von der mufin GmbH und S. Hübler als verantwortlicher wissenschaftlicher Mitarbeiter 

des Instituts regelmäßig beteiligt. Ergebnisse sind in dem ersten Zwischenbericht zu entnehmen. 

65

66 


10.8 Tschechisch-deutscher Kooperationsworkshop, 

Dresden, 14. – 21. November 2009 

Zwischen unserem Institut und den Prager Partnereinrichtungen der Akademie der Wissenschaften 

und der Karlsuniversität bestehen langjährig enge Beziehungen, zu deren Pflege der regelmäßig in 

Prag stattfindende tschechisch-deutsche Workshop „Speech Processing“ dient. Im Berichtsjahr wurde 

er ergänzt durch einen Arbeitsbesuch der Leitung des Phonetischen Instituts der Karlsuniversität 

Prag an unserem Institut. Wir konnten den Direktor des Instituts, Herrn doc. PhDr. Jan Volín, Ph.D., 

und den Geschäftsführer des Instituts, Mgr. Radek Skarnitzl, Ph.D., in Dresden begrüßen. Folgender 

Arbeitsplan wurde absolviert: 

16. 11. Meeting at Institute of Acoustics and Speech Communication 

• Information about ongoing research activities 

• Exchange of information about available data bases and technological solutions for 

planning a first proposal 

• Discussion about perspectives of future co-operation 

17. 11. Demonstration of the AzAR3.0 pronunciation tutoring system, discussion about perspectives 

in development of language tutoring applications 

19. 11. (1) Visit at TU Dresden Foreign Languages Department (Lehrzentrum Sprachen und Kulturen), 

demonstration of learning software and eLearning applications, discussions with 

foreign language teachers 

(2) Meeting with colleagues from Institute of German Studies and Institute of Slavonic 

studies, discussion about co-operation in the fields of linguistic research and teaching, 

participation in exchange programs etc. 

20. 11. Meeting at TU Dresden’s European Project Centre, information about financial support 

of planned co-operations within European programmes 

Außerdem wurde die Zeit genutzt, einen abgestimmten Projektantrag im Rahmen des EU- 

Förderprogramms Eurocores/EuroUnderstanding vorzubereiten. Das Projekt zielt dabei auf die Entwicklung 

und Realisierung eines Experimentiersystems zur Signalmanipulation und –resynthese von 

Lernersprache. Besonders ist hervorzuheben, dass dieses Vorhaben auf eine längerfristige Zusammenarbeit 

gerichtet ist und die Einbindung weiterer Partner aus dem sprachwissenschaftlichen Bereich 

vorsieht. 

10.9 Wissenschaftliche Veranstaltungen zur 

Lautsprecherforschung 

In den folgenden Abschnitten sind die wissenschaftlichen Veranstaltungen zusammengestellt, die in 

Verantwortung der Honorarprofessur Elektroakustik (Prof. Dr. Klippel) angeboten wurden. 

10.9.1 Weiterbildungsveranstaltung „Assessment of Signal 

Distortion in Audio Systems“, Dresden, 5. – 7. 11. 2009 

Eine umfangreiche, englischsprachige Veranstaltung zur Bewertung von Signalverzerrungen in Audiosystemen 

wurde zugleich für die Weiterbildung sowie als Blockveranstaltung für die Studierenden 

angeboten. Als Schwerpunkt und praktisches Beispiel diente die Schallreproduktion im Automobil. 

Dieses Thema fand ein breites Interesse bei mehr als 80 Teilnehmern aus dem In- und Ausland. Die 

Studenten des Institutes und andere Teilnehmer aus der Industrie stellten in einer kleinen Ausstellung 

im Rahmen einer gemeinsamen Abendveranstaltung neue Ideen und Entwicklungen vor. Dieses gesellige 

Zusammensein und die Pausen zwischen den Vorlesungseinheiten boten vielfältige Gelegenheiten 

Kontakte zu knüpfen und technische Probleme zu diskutieren.


10.9.2 Gastvorlesung in Taiwan 

Im Rahmen einer Gastprofessur von Prof. Klippel am elektroakustischen Institut der Feng Chia Universität, 

Taichung (Taiwan), wurde eine dreitägige Vorlesungsreihe zum Thema “Big sound from small 

speakers” gehalten, woran auch Ingenieure aus der taiwanesischen Industrie teilnahmen. Prof. Huang, 

der Leiter des elektroakustischen Institutes und Dekan der elektrischen Fakultät an der Feng 

Chia Universität, ist an einer stärkeren Kooperation mit dem IAS interessiert und möchte die organisatorischen 

Voraussetzungen für einen Studentenaustausch zwischen beiden Hochschulen schaffen. 

10.9.3 ALMA Symposium auf der Prolight + Sound 

Prof. Klippel organisierte als verantwortlicher Chairman das wissenschaftliche Tagungsprogramm des 

ersten europäischen ALMA Symposiums zum Thema “Loudspeaker Design – Science and Art”, 

das im Rahmen der Prolight + Sound (Musikmesse) am 4. April 2009 in Frankfurt/ Main stattfand. 

10.9.4 Weitere Schulungen, öffentliche Workshops und Seminare 

Im Anschluss an die AES Convention wurde von Dr. Christopher Struck von CJS Labs und Prof. Klippel 

ein gemeinsames Seminar zum Thema “Loudspeaker Performance: Measurements, Analysis & 

Diagnostics” vom 13. – 14. Oktober 2009 in New York durchgeführt. 

Die notwendigen Reisen nach China und Taiwan nutzte Prof. Klippel für Vorträge zu ausgewählten 

Themen der Elektroakustik. Die eintägigen öffentlichen Seminare fanden in wichtigen chinesischen 

Industriezentren (Shenzhen, Guangzhou, Jiashan ZheJaing, Shanghai und Beijing) statt und wurden 

sowohl von chinesischen als auch westlichen Ingenieuren aus der Audioindustrie zur Weiterbildung 

genutzt. 

67

11 Reisen 

68 

Reisen 

Dipl.-Ing Jokisch Meeting European Center of Excellence in Speech 

Synthesis 

München 

Prof. Hoffmann 

Dr. Wolff 

Dipl.-Slaw. Jäckel 

Dipl.-Ing. Jokisch 

Dr. Ding 

Dipl.-Ing.Jokisch 


Dr.-Ing. Wolff 

Dipl.-Inf. Tschöpe 

Projektgespräche Universität Halle, Seminar für 

Sprechwissenschaft und Phonetik 

Halle 

Bildungsmesse DIDACTA 

Hannover 

Projektmeeting LLP/EURONOUNCE 

Bratislava 

Projektbesprechung WEPA Papierfabrik Sachsen 

GmbH 

Kriebethal 

Dipl.-Ing. Richter Beratung mit Projektpartner Microtech Gefell GmbH 

Gefell 

H.Granich 

Dipl.-Wirtsch.-Ing. 

Homuth 

Messeteilnahme CeBit 

Hannover 

Prof. Hoffmann Verteidigung Dissertation Dipl.-Ing. Römer, 

TU München 

Treffen zur Geschichte der Mediendidaktik 

Herr Simons 

Kirchheim bei München 

Prof. Hoffmann Programmkomittee ESSV 

Berlin 


Prof. Mehnert 


Dr.-Ing. Wolff 

Dipl.-Ing. Kürbis 

Konsultationen am Institut für Phonetik 

Amsterdam 

Projektberatung SEBA KMT 

Radeburg 

Dipl.-Ing.Feher COST 2102 International School on Multimodal Signals: 

Cognitive and Algorithmic Issues 

Dublin 


Prof. Mehnert 

Dipl.-Ing. Richter 


Dipl.-Ing. Duckhorn 

NAG/DAGA 2009, International Conference on 

Acoustics 

Rotterdam 

2nd One Day Meeting on Unified Models for Speech 

Recognition 

University of Birmingham 

22.01. - 23.01.2009 

06.02.2009 

10.02. - 14.02.2009 

17.02. - 18.02.2009 

25.02.09 

25.02. - 26.02.2009 

04.03. - 05.03.2009 

10.03. - 11.03.2009 

12.03.2009 

19.03. - 23.03.2009 

20.03.2009 

22.03. - 28.03.2009 

23.03. - 26.03.2009 

30.03.2009

Reisen 

Prof. Hoffmann CVHI – Conference and Workshop on Assistive 

Technologies for Vision and Hearing Impairment 

Wroclaw 

Prof. Hoffmann Professorium der Fakultät Elektrotechnik und Informationstechnik 

Frauenstein 

Dipl.-Ing. Richter Beratung zu Digitalmikrofonen 

Hochschule Merseburg (FH) 

Merseburg 

Prof. Hoffmann Vorstandssitzung An-Institut IfM Zwota 

Oelsnitz/Vogtland 

Dipl.-Slaw. Jäckel Konsulation zu EURONOUNCE 

Institut für Slawistik der Humboldt-Universität 

Berlin 




EURONOUNCE-Meeting 

Wehlen 

Prof. Hoffmann Jahresabsprache Willkomm-Stiftung 

Rödermark-Waldacker 

Dipl.-Ing. Jokisch LMU Meeting und HAPS-Geräte 

München 

Dr. Hain 

Kooperation Aufbereitung von Datenbanken mit Kin- 

Dipl.-Ing. Jokisch dersprache 

Dipl.-Ing. Petrick Erlangen 


Dipl-Ing. Jokisch 

Dipl.-Ing. Petrick 

13th International Conference on Speech and Computer 

(SPECOM)/Arbeitstreffen EURONOUNCE 

St. Petersburg 

Prof. Hoffmann ERS-Workshop „Maschinendiagnose- Grundlagen, 

Konzepte, Visionen“ 

Aachen 

Prof. Hoffmann Vortrag Arbeitsgruppe Geschichte der Otologie und 

Literarischer Arbeitskreis Borkum, 

Borkum 

Prof. Hoffmann Berufungskommission Kommunikationstechnik 

Cottbus 

Prof. Hoffmann Programmkomitee ESSV 

Berlin 

Dr. Ma Programm der Humboldt-Stiftung 

Deutschlandrundreise 

Prof. Hoffmann Besuch FH Zwickau und 

Vorstandsstitzung An-Institut IfM Zwota 

Zwota 

21.04. - 23.04.2009 

24.04. – 25.04.2009 

27.04.2009 

13.05.2009 

15.05.2009 

03.06. - 04.06.2009 

09.06. -10.06.2009 

10.06.2009 

15.06.2009 

21.06. - 26.06.2009 

07.07. - 09.07.2009 

16.07.2009 

04.08.2009 

11.08.2009 

17.08. - 29.08.2009 

20.08.2009 

69


Dr. Ma 

MSc. Gamboa 


Dipl.-Ing. Strecha 

Dipl.-Ing. Wittenberg 

70 

Reisen 

INTERSPEECH - 10th Annunal Conference of the 

International Speech Communication Association 

(ISCA) 

Brighton, UK 

Dipl.-Ing. Jokisch 2nd ISCA--Workshop on Speech and Language 

Technology in Education 

Wroxall Abbey Estate UK 

Dr.-Ing. Hain 


Workshop Analog Devices 

Berlin 

Prof. Hoffmann International conference on boimetric ID Management 

and Multimodal Communication/COST 2102 

Management Committee Meeting 

Madrid 

Dipl.-Ing. Jokisch CALL-Pojekt (Kooperation L1CN-L2DE, Prof. Mixdorf) 

Beijing, Hefei, Shanghai 





Dipl.-Ing. Richter 

19th Czech-German Workshop on Speech Processing 

Prague 


Cottbus 

Dipl.-Med.-wirt 

Matthes 

Dr. Wolff 


Prof. Mehnert 


Dr. Dietzel 

Messebesuch modell-hobby-spiel 

Leipzig 

Projekttreffen SSMG 

Leipzig 

Arbeitsbesuch Musée Marey, 

Beaune-Bourgogne und 

Musée Claude Bernard, 

Saint Julien en Baujolais 

Dipl.-Ing. Jokisch Sitzung Pro Ideenfond - Dr. Milde/H. Stoss (V2C) 

Hamburg 


Cottbus 

PD Dr. Kordon 1. Potsdamer Sounddesignforum 

Potsdam 

Dr. Wolff 


IEEE SENSORS Conference 

Christchurch, Neuseeland 

Prof. Hoffmann Verleihung Johann-Philipp-Reis-Preis (Laudator) 

Gelnhausen 

06.09. - 10.09.2009 

02.09. - 10.09.2009 

09.09.2009 

16.09. - 19.09.2009 

24.09. - 05.10.2009 

29.09. – 01.10.2009 

01.10.- 02.10.2009 

03.10.2009 

05.10.2009 

05.10. - 10.10.2009 

08.10. - 09.10.2009 

14.10. - 15.10.2009 

14.10. - 15.10.2009 

23.10. - 28.11.2009 

29.10.2009

Reisen 

Prof. Hoffmann Besuch Prof. Wolf Universität Frankfurt 

Frankfurt 

Dr.-Ing. Hain 


2nd Workshop on Child, Computer and Interaction 

Cambridge,MA (USA) 

Besuch Fa. SpeechCycle 

New York, USA 

Prof. Hoffmann Mitgliederversammlung An-Institut IfM Zwota 

Zwota 

Dipl.-Ing. Jokisch CALL-Projekt (Kooperation L1JP-L2DE. Prof. Mixdorff) 

Tokio, Kobe, Ishikawa 

Dr. Hain 

Dr. Petrick 

Dipl.-Med.-wirt 

Matthes 

Seminar "Gründerpersönlichkeit" von EXIST 

Kienbaum GmbH 

Magdeburg 

Frau Wrann Seminar AVS „Kommunikation und Sekretariatsarbeit 

im Vorzimmer“ 

Prof. Hoffmann Physikalisches Kolloquium Goethe-Universität 

Frankfurt/Main 



EURONOUNCE-Projektmeeting 

Poznan 

30.10.2009 

01.11. - 08.11.2009 

13.11.2009 

17.11. - 25.11.2009 

17.11.2009 

23.11. - 25.11.2009 

02.12. - 03.12.2009 

16.12. - 17.12.2009 

71

72 

Aktivitäten in der wissenschaftlichen Gemeinschaft 

12 Aktivitäten in der wissenschaftlichen Gemeinschaft 

12.1 Akademische Selbstverwaltung 

Prof. Dr.-Ing. habil. R. Hoffmann 

- Mitglied des Rates der Fakultät Elektrotechnik und Informationstechnik 

- Mitglied der Strukturkommission der Fakultät Elektrotechnik und Informationstechnik 

Dipl.-Ing. M. Kortke 

- Mitglied der Schwerbehindertenvertretung der TU Dresden als Stellvertreter der Vertrauensperson 

12.2 Mitarbeit in Gremien 


- Mitglied von IEEE, ITG, ISCA, DHV 

- Vorsitzender des ITG-Fachausschusses 4.4 "Sprachverarbeitung“ 

- Mitglied der ISCA Special Interest Group „Speech Synthesis“ (SynSIG) 

- Mitglied des Landesausschusses der U.R.S.I., Kommission C (Signals and Systems) 

- Gutachter in den Programmen des BMBF zur Förderung der Forschung an Fachhochschulen 

- Reviewer für das Zentralblatt für Mathematik 

- Gründungsmitglied des ECESS (European Center of Excellence in Speech Synthesis) 

- Mitglied des Management Committee der Aktion COST 2102 

- Mitglied des Vorstandes des Vogtländischen Fördervereins für Musikinstrumentenbau und Innovation 

e.V. 

- Mitglied des Client Advisory Board, Kongress-Marketing Dresden 

PD Dr.-Ing. U. Kordon 

- Mitglied ITG-Fachausschuss 4.3 „Sprachakustik“ 

12.3 Mitarbeit in Programmkomitees 


- CVHI 2009, Conference and Workshop on Assistive Technologies for People with Vision and Hearing 

Impairments, Wroclaw 20. - 23. 4. 2009 (Mitglied Scientific Organising Committee) 

- SPECOM 2009, 13th International Conference Speech and Computer, St. Petersburg 21. - 25. 6. 

2009 (Mitglied International Scientific Committee) 

- BioID_MultiComm, Joint International Conference on Biometric ID Management and Multimodal 

Communication, Madrid 16. - 18. 9. 2009 (Mitglied Scientific Committee) 

- ESSV 2009, 20. Konferenz Elektronische Sprachsignalverarbeitung, Dresden 21. - 24. 9. 2009 

(Wiss. Tagungsleitung) 

- TAT 2009, IASTED International Conference on Telehealth and Assistive Technology, Cambridge, 

MA, 4. - 6. 11. 2009 (Member International Program Committee)

Die letzte Seite 

Ende April 2009 hatte unsere historische Sammlung außergewöhnlichen Besuch: Der bekannte Dresdener 

Kabarettist Olaf Schubert (im Bild links) besuchte die Sammlung mit seinem Produzenten Martin 

Fischer und dem Fotografen Volker Dietzel, um Fotos für das Booklet seiner neuen CD „Komplette 

Fragmente – Schon wieder 17 Hördialoge“ anzufertigen. Die nicht ganz ernst gemeinten Bilder sollen 

optisch die Frage beantworten, wie eigentlich ein Hördialog entsteht. 

Olaf Schubert ist übrigens Gewinner des Deutschen Kleinkunstpreises 2009 in der Sparte Kleinkunst, 

der ihm am 21. Februar 2010 in Mainz verliehen wurde. Wir gratulieren. 

73

8 Diplom- und Studienarbeiten - IAS - Technische Universität Dresden

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?