05.03.2014 Aufrufe

AIPUK

AIPUK

AIPUK

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

INSTITUT FÜR PHONETIK UND<br />

DIGITALE SPRACHVERARBEITUNG<br />

UNIVERSITÄT KIEL<br />

Arbeitsberichte<br />

(<strong>AIPUK</strong>)<br />

herausgegeben von<br />

K. J. Kohler<br />

Nr. 33 November 1998


Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung<br />

Herausgeber: K.J. Kohler ISSN 0172–8156<br />

32 1997 The Kiel Corpus of Read/Spontaneous Speech: Acoustic data base, processing tools<br />

and analysis results (A.P. Simpson, K.J. Kohler, T. Rettstadt, eds.)<br />

31 1996 Sound Patterns of Connected Speech. Description, Models and Explanation<br />

(A.P. Simpson, M. Pätzold, eds.)<br />

30 1996 Sound Patterns in Spontaneous Speech (K.J. Kohler, C. Rehor, A. Simpson)<br />

29 1995 From Scenario to Segment. The Controlled Elicitation, Transcription, Segmentation<br />

and Labelling of Spontaneous Speech (K.J. Kohler, M. Pätzold, A. Simpson)<br />

28 1994 Lexica of the Kiel PHONDAT Corpus, Read Speech, Vol. II (K.J. Kohler)<br />

27 1994 Lexica of the Kiel PHONDAT Corpus, Read Speech, Vol. I (K.J. Kohler)<br />

26 1992 Phonetisch-Akustische Datenbasis des Hochdeutschen (K.J. Kohler, ed.)<br />

25 1991 Studies in German Intonation (K.J. Kohler, ed.)<br />

24 1990 Testverfahren zur Erfassung der sprachlichen Hörfähigkeit und ihrer Langzeitveränderung<br />

bei Hörgeschädigten (K. Kliem)<br />

23 1986 Phonetische Forschung in der Niederdeutschen Dialektologie (K.J. Kohler, R. Tödter,<br />

M. Weinhold)<br />

22 1986 Speech Rate. Final Report on a Research Project (Ch.E. Hoequist, K.J. Kohler,<br />

K. Schäfer-Vincent)<br />

21 1984 Größere Forschungsprojekte im Institut für Phonetik der Universität Kiel. Zwischenund<br />

Abschlußberichte (W.J. Barry, W.A. van Dommelen, Ch.E. Hoequist, K.J. Kohler,<br />

R. Tödter)<br />

20 1983 Studies in Speech Timing (K.J. Kohler, Ch.E. Hoequist)<br />

19 1982 Experimentelle Untersuchungen von Zeitstrukturen im Deutschen (K.J. Kohler,<br />

K. Schäfer-Vincent, G. Timmermann)<br />

18 1982 Phonetic Data Processing at Kiel University. Developments and Applications<br />

(W.J. Barry, W.A. van Dommelen, H. Janßen, K.J. Kohler, K. Schäfer, W. Thon,<br />

G. Timmermann)<br />

17 1982 Experimentelle Untersuchungen zur Lautdauer im Hoch- und Niederdeutschen<br />

(W.J. Barry, K.J. Kohler)<br />

16 1981 Beiträge zur experimentellen und angewandten Phonetik (W.J. Barry, K.J. Kohler, ed.)<br />

15 1981 Aspects of the Speech Pause: Phonetic Correlates and Communicative Functions<br />

(A. Butcher)<br />

14 1981 Die Merkmalpaare stimmhaft/stimmlos und fortis/lenis in der Konsonantenproduktion<br />

und -perzeption des heutigen Standard-Französisch (K.J. Kohler, W.A. van Dommelen,<br />

G. Timmermann)<br />

13 1980 Die Verarbeitung akustischer Information in der lautsprachlichen Wahrnehmung<br />

(W.J. Barry)<br />

12 1979 “Time” in the Production and the Perception of Speech. Report of an Interdisciplinary<br />

Colloquium held in the Phonetics Department of Kiel University, February 22–24,<br />

1979 (W.J. Barry, K.J. Kohler, eds.)<br />

11 1979 Numerische und experimentelle Methoden der linearen Prädiktion zur Datenreduktion<br />

von Sprachsignalen (G. Rathjen). Produktion und Perzeption der Plosive und Frikative<br />

im heutigen Standard-Französisch: wort- und satzphonetische Untersuchungen<br />

(K.J. Kohler, H. Künzel)<br />

10 1978 Phonetische und linguistische Beiträge zur sprachlichen Kommunikation (W.J. Barry,<br />

K.J. Kohler, H. Künzel)<br />

9 1977 Generative Phonologie des Deutschen und des Englischen (K.J. Kohler)<br />

8 1977 Experimentelle Untersuchungen zur Koartikulation und Steuerung im Deutschen —<br />

Experimental Investigation into Coarticulation and Articulatory Control (A. Butcher,<br />

K.J. Kohler, H. Künzel)<br />

7 1977 Ausspracheabweichungen: Eine experimental-phonetische Untersuchung an deutschen<br />

Englischlernenden (W.J. Barry)<br />

6 1976 The Influence of the Native Language on the Perception of Vowel Quality (A. Butcher)<br />

5 1975 Auditive und signalphonetische Untersuchungen zur gesprochenen Sprache im Deutschen<br />

4 1975 Phonetik und Ausspracheunterricht<br />

3 1975 Lautwahrnehmung und Lautproduktion im Englischunterricht für Deutsche (E. Weiher)<br />

2 1974 Eine experimentelle Untersuchung zur Pausenperzeption (H. Künzel)<br />

1 1973 Phonetische Extensionalisierung von Gesprächstypen


Phonetische Datenbanken des<br />

Deutschen in der empirischen<br />

Sprachforschung und der<br />

phonologischen Theoriebildung<br />

Adrian P. Simpson


¡<br />

c 1998 Adrian P. Simpson<br />

All rights reserved.<br />

This report or any part thereof may not be<br />

reproduced in any form without the written<br />

permission of the author ISSN 0172–8156


¢<br />

Vorwort<br />

Nur ein Teil der Form und des Inhalts einer Arbeit ist der Person zuzuschreiben,<br />

die sich Autor/in nennen darf. Diese Schrift ist keine Ausnahme.<br />

Ich möchte den wichtigsten Personen für ihren Anteil an dieser Stelle<br />

danksagen.<br />

Dem Direktor des IPDS, Klaus Kohler, danke ich für seine Unterstützung<br />

sowie für viele fruchtbare Diskussionen, auch dafür, daß wir<br />

phonetisch oft nicht einer Meinung sind. John Kelly und John Local in<br />

York haben mich mit ihrer Begeisterung für Phonetik und Phonologie angesteckt,<br />

meine Augen und Ohren trainiert. Matthias Pätzold sei für die<br />

langen und nicht selten lauten Debatten gedankt, die viele Anregungen<br />

lieferten und mir oft klargemacht haben, daß ich mich gerade auf einem<br />

Holzweg befand. Dem Land Schleswig-Holstein sowie dem Bundesministerium<br />

für Bildung, Wissenschaft, Forschung und Technologie (im Rahmen<br />

des Verbundprokjekts Verbmobil) gilt mein Dank für die Finanzierung<br />

von Personal, die in stundenlanger und mühevoller Kleinstarbeit die Kieler<br />

Datenbasis The Kiel Corpus segmentiert und etikettiert und somit einen<br />

automatischen Zugang auf sinnvolle phonetische und linguistische Weise<br />

überhaupt erst ermöglicht hat.<br />

Schließlich gilt mein größter Dank meiner Frau Gudu, ohne deren Liebe,<br />

Geduld und Unterstützung diese Arbeit ihr Ende nicht gefunden hätte.<br />

Eine frühere Version dieser Arbeit wurde von der Philosophischen Fakultät<br />

der Christian-Albrechts-Universität zu Kiel im Sommersemester 1998 als<br />

Habilitationsschrift angenommen.<br />

Kiel, im November 1998


Für Julie,<br />

die das Licht der Welt nicht erblicken durfte.


Inhaltsverzeichnis<br />

1 Einführung 1<br />

1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Gesprochene Datenbanken – ein Überblick . . . . . . . . 4<br />

1.3 Das Problem einer Datenbank . . . . . . . . . . . . . . . 9<br />

2 Das Kiel Corpus 15<br />

2.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.2 Inhalte der Sprachsignale . . . . . . . . . . . . . . . . . . 16<br />

2.3 Symbolische Weiterverarbeitung . . . . . . . . . . . . . . 17<br />

2.3.1 Orthographische Version des Signalinhalts . . . . 18<br />

2.3.2 Phonologische Transkription der orthographischen<br />

Version . . . . . . . . . . . . . . . . . . . . 18<br />

2.3.3 Etikettierung und Segmentation . . . . . . . . . . 20<br />

2.4 Erstellung einer Datenbank aus den Etikettierdateien mit<br />

KielDat . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.5 Phonetisch-phonologischer Status der Etikettierung und<br />

Segmentation . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

3 Deutsche Vokale - spontan und gelesen 33<br />

3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.2 Phonologie der deutschen Vokale . . . . . . . . . . . . . . 34<br />

3.3 Andere Studien zur akustischen Ausprägung des hochdeutschen<br />

Vokalismus . . . . . . . . . . . . . . . . . . . . 37<br />

3.4 Probleme bei der Messung von Vokalsystemen . . . . . . 40<br />

3.4.1 Phonologische und phonetische Vokale . . . . . . 40<br />

3.4.2 Status des Gemessenen . . . . . . . . . . . . . . . 41<br />

vii


viii<br />

3.4.3 Die akustische Charakterisierung von Diphthongen 43<br />

3.5 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

3.6 Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

3.6.1 Messung der monophthongalen Abschnitte . . . . 48<br />

3.6.2 Messung der diphthongalen Abschnitte . . . . . . 50<br />

3.7 Häufigkeitsverteilung der Einzelvokale . . . . . . . . . . . 52<br />

3.8 Akustische Ausprägung der Einzelvokale . . . . . . . . . 58<br />

3.8.1 Akustische Ausprägung der Monophthonge . . . . 58<br />

3.8.2 Akustische Ausprägung der Diphthonge . . . . . . 64<br />

3.9 Beziehungen zwischen Vokalqualität und Geschlecht,<br />

Dauer, lautlichem Kontext sowie Stil . . . . . . . . . . . . 76<br />

3.9.1 Vokalqualität und Dauer . . . . . . . . . . . . . . 80<br />

3.9.2 Vokalräume, Geschlecht und Korpus . . . . . . . . 89<br />

3.9.3 Vokalqualität und konsonantische Umgebung . . . 94<br />

3.10 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />

£<br />

£<br />

£<br />

£<br />

£<br />

4 Phonetik und Phonologie des deutschen 105<br />

4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

4.2 Andere Studien zum . . . . . . . . . . . . . . . . . . . . 107<br />

4.2.1 Qualitative Beschreibungen . . . . . . . . . . . . 107<br />

4.2.2 Quantitative Beschreibungen . . . . . . . . . . . . 110<br />

4.3 Phonetische Lautmuster des . . . . . . . . . . . . . . . . 115<br />

4.3.1 Daten und Methode . . . . . . . . . . . . . . . . . 115<br />

4.3.2 Konsonantische Korrelate des . . . . . . . . . . 116<br />

4.3.3 Vokalische Korrelate des . . . . . . . . . . . . . 121<br />

4.3.4 Alternation zwischen vokalischen und konsonantischen<br />

Korrelaten . . . . . . . . . . . . . . . . . 131<br />

4.4 Phonetische und phonologische Erklärung der Lautmuster 132<br />

4.4.1 Zeitliche Überlappung . . . . . . . . . . . . . . . 133<br />

4.4.2 Artikulatorisch-aerodynamische Abläufe . . . . . 137<br />

4.4.3 Phonologische Unterschiede . . . . . . . . . . . . 140<br />

4.4.4 Unentschiedene Fälle . . . . . . . . . . . . . . . . 141<br />

4.4.5 Eigenschaften der phonetischen und phonologischen<br />

Analyse . . . . . . . . . . . . . . . . . . . 144<br />

4.5 Modellierung der Muster . . . . . . . . . . . . . . . . . . 147


ix<br />

¤<br />

5<br />

Wissensbasierte Gewinnung von Steuerparametern für die<br />

Formantsynthese 151<br />

5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />

5.2 Akustische Analysedaten und die Klatt-Formantsynthese . 154<br />

5.3 Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . 158<br />

5.3.1 Signalanalyse und Formantsortierung . . . . . . . 158<br />

5.3.2 Annotationsunterstützte Überführung der Analysedaten<br />

in Steuersignale . . . . . . . . . . . . . . 158<br />

5.3.3 Glottale Aktivität . . . . . . . . . . . . . . . . . . 159<br />

5.3.4 Plosivlösungen . . . . . . . . . . . . . . . . . . . 164<br />

5.3.5 Frikative . . . . . . . . . . . . . . . . . . . . . . 164<br />

5.4 Ergebnisse von LACS . . . . . . . . . . . . . . . . . . . 166<br />

5.5 Lateral F2 . . . . . . . . . . . . . . . . . . . . . . . . . . 171<br />

5.6 Weiterentwicklungen . . . . . . . . . . . . . . . . . . . . 175<br />

6 Zusammenfassende Diskussion und Ausblick 177<br />

A Texte zum untersuchten Teil des Kiel Corpus 183<br />

A.1 Berliner Sätze . . . . . . . . . . . . . . . . . . . . . . . . 183<br />

A.2 Marburger Sätze . . . . . . . . . . . . . . . . . . . . . . . 187<br />

A.3 Dialog aus dem Kiel Corpus of Spontaneous Speech . . . . 192<br />

B Daten der Sprecher im Kiel Corpus 195<br />

B.1 Sprecher des Kiel Corpus of Read Speech . . . . . . . . . 195<br />

B.2 Sprecher des Kiel Corpus of Spontaneous Speech . . . . . 198<br />

C KielDat-Skript zur automatischen Vokalmessung 201<br />

D Vokalhäufigkeiten im Kiel Corpus of Spontaneous Speech 209<br />

E Formantwerte der Monophthonge 213


§<br />

¦<br />

Abbildungsverzeichnis<br />

¥ ¦ §©¨<br />

§<br />

¥ § § ¦ <br />

2.1 Orthographische Teile aus den (a) gelesenen und (b) spontansprachlichen<br />

Teilkorpora . . . . . . . . . . . . . . . . . 19<br />

2.2 Phonemtranskription des Dialogturns von Abb. 2.1(b) in<br />

SAMPA-Notation . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.3 Die Segmentation und Etikettierung des Wortes das . . . . 21<br />

2.4 Die Etikettierung des Wortes irgendwo, das als<br />

realisiert wurde . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.5 Die Etikettierung des Wortes eigentlich realisiert als 23<br />

2.6 Das Sonagramm und die Etikettierung des Äußerungsabschnittes<br />

nicht zu spät . . . . . . . . . . . . . . . . . . . . 25<br />

2.7 Der Anfang einer Textdatei aus dem Kiel Corpus of Spontaneous<br />

Speech . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.8 Segmentationen und Etikettierungen der Wörter schönes<br />

und Günther von Sprecher k03 . . . . . . . . . . . . . . . 30<br />

2.9 Sonagramm des Wortes kommen samt Segmentation und<br />

Etikettierung . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

3.1 Sonagramm und Etikettierung des Wortes welches, gesprochen<br />

von einem männlichen Sprecher . . . . . . . . . . . 42<br />

3.2 Die Gewinnung von Meßwerten bei einem Diphthong mit<br />

einer Dauer von 137 ms aus dem Wort Zeit . . . . . . . . . 51<br />

3.3 Relative Häufigkeiten der Vokale im spontansprachlichen<br />

Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

3.4 Gesamthäufigkeiten in aufsteigender Reihenfolge von allen<br />

Vokaltokens pro Sprecher/in. . . . . . . . . . . . . . . 55<br />

3.5 Vergleich der relativen Vokalhäufigkeiten in Spontan- und<br />

Lesesprache . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

xi


xii<br />

<br />

<br />

!#"<br />

3.6 Vergleich der spontanen und lesesprachlichen Vokalsysteme<br />

für Inhaltswörter . . . . . . . . . . . . . . . . . . . . 60<br />

3.7 Probleme bei der Formantbestimmung von hinteren gerundeten<br />

Vokalen anhand von Papiersonagrammen . . . . . . 63<br />

3.8 Häufigkeitsverteilung der dauergruppierten Diphthonge . . 66<br />

3.9 Formantverläufe von weiblichem und männlichem in<br />

Spontansprache . . . . . . . . . . . . . . . . . . . . . . . 68<br />

3.10 Formantverläufe von weiblichem und männlichem in<br />

Spontansprache . . . . . . . . . . . . . . . . . . . . . . . 69<br />

3.11 Formantverläufe von weiblichem und männlichem in<br />

Spontansprache . . . . . . . . . . . . . . . . . . . . . . . 70<br />

3.12 Gleitende Mediane von Vokalformantwerten als Funktion<br />

der Dauer geplottet . . . . . . . . . . . . . . . . . . . . . 82<br />

3.13 Vergleich von weiblichen und männlichen Vokalräumen in<br />

Spontan- und Lesesprache . . . . . . . . . . . . . . . . . 90<br />

3.14 Vergleich der spontan- und lesesprachlichen Vokalräume . 91<br />

3.15 Vergleich der weiblichen und männlichen Vokalräume in<br />

Lesesprache - ohne Normalisierung. . . . . . . . . . . . . 94<br />

3.16 Mediane von vokalischem F1 und F2 geplottet als Funktion<br />

der Vokalkategorie gruppiert nach dem vorangehenden<br />

konsonantischen Kontext (Spontansprache) . . . . . . . . 95<br />

3.17 Mediane von vokalischem F1 und F2 geplottet als Funktion<br />

der Vokalkategorie gruppiert nach dem nachfolgenden<br />

konsonantischen Kontext (Spontansprache) . . . . . . . . 96<br />

3.18 Mediane von vokalischem F1 und F2 geplottet als Funktion<br />

der Vokalkategorie gruppiert nach dem vorangehenden<br />

konsonantischen Kontext (Lesesprache) . . . . . . . . . . 97<br />

3.19 Mediane von vokalischem F1 und F2 geplottet als Funktion<br />

der Vokalkategorie gruppiert nach dem nachfolgenden<br />

konsonantischen Kontext (Lesesprache) . . . . . . . . . . 98<br />

4.1 Oszillogramm, Sonagramm und Annotation eines Auszugs<br />

aus den zusammengeschnittenen Äußerungen des<br />

Wortes fährt der Sprecherinnen k08 und k10 sowie des<br />

Sprechers k09 . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

4.2 Oszillogramme und Sonagramme der zweiten Silbe des<br />

Wortes Eintracht für die Sprecher k08 (weiblich), und k07<br />

(männlich) . . . . . . . . . . . . . . . . . . . . . . . . . . 119


xiii<br />

4.3 Sonagramme und Oszillogramme der vier Produktionen<br />

des Wortes Doris für die Sprecher k07 und k08 . . . . . . 122<br />

4.4 Sonagramme und Oszillogramme des Wortes brennen sowie<br />

zwei Produktionen des Wortes drei, gesprochen von<br />

Sprecher k09 . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

4.5 Sonagramme und Oszillogramme des Wortes begreifen,<br />

gesprochen von zwei Sprecherinnen k08 und k12 . . . . . 124<br />

4.6 Werte für die ersten zwei Formanten des Vokals $£ gemessen<br />

in der Mitte des Vokals . . . . . . . . . . . . . . . . . 126<br />

4.7 Formantwerte der ersten zwei Formanten für die Vorsilbe<br />

ver- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />

4.8 Die Qualitäten der £ -Diphthonge im Deutschen . . . . . . 129<br />

4.9 Sonagramme und Etikettierungen von konsonantischen<br />

und vokalischen Realisierungen des Wortes fahren von den<br />

Sprechern k07 und k11 . . . . . . . . . . . . . . . . . . . 131<br />

4.10 Schematische Darstellung der Vermischung der phonetischen<br />

Korrelate verschiedener Vokale mit den Korrelaten<br />

des £ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />

4.11 Sonagramme und Etikettierungen der Frikative bzw. Frikativ-£<br />

-Verbindungen aus den Wörtern Bescheid, Schreiben,<br />

fahren und Freitag der Sprecherin k10 . . . . . . . . . . . 136<br />

4.12 Silbenstrukturen für die konsonantische und vokalische<br />

Aussprache des Wortes fahren . . . . . . . . . . . . . . . 142<br />

4.13 Die £ -Vokalisierungsregel im Kontext eines Langvokals<br />

aus Hall (1993) . . . . . . . . . . . . . . . . . . . . . . . 145<br />

%<br />

&<br />

5.1 Der Aufbau der Klatt-Formantsynthese . . . . . . . . . . . 155<br />

5.2 Gegenüberstellung der Analyse- und dynamischen Syntheseparameter<br />

. . . . . . . . . . . . . . . . . . . . . . . 157<br />

5.3 Illustration von verschiedenen Glottisstellungen in der<br />

Äußerung Wir haben ein Abteil extra für uns gesprochen<br />

von k03. . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

5.4 Überführung der Analysedaten in Syntheseparameter für<br />

Knarrstimme und die verschiedenen Korrelate von . . . 163<br />

5.5 Überführung der Analysedaten in Syntheseparameter für<br />

die verschiedenen Korrelate von . . . . . . . . . . . . . 166<br />

5.6 Die Wiederherstellung von Stimmhaftigkeit, illustriert an<br />

der Wortabfolge mal an aus dem Dialogbeitrag g071a000 . 170


xiv<br />

5.7 LPC-Sonagramme von prävokalischen Lateralen in verschiedenen<br />

Vokalkontexten . . . . . . . . . . . . . . . . . 172<br />

5.8 F2-Werte von prävokalischen Lateralen als Funktion der<br />

F2-Werte der darauffolgenden Vokalabschnitte geplottet . . 173<br />

5.9 LPC-Sonagramme von synthetischen Äußerungen mit<br />

prävokalischen Lateralen in verschiedenen Vokalkontexten 174


Tabellenverzeichnis<br />

2.1 Die Felder einer Datenbankzeile für ein Token des Wortes<br />

und . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

')( *(<br />

3.1 Phonemische IPA-Transkription, sowie Darstellungen in<br />

prosodisch phonologischer Notation und SAMPA der<br />

hochdeutschen Monophthonge und Diphthonge zusammen<br />

mit Beispielwörtern. . . . . . . . . . . . . . . . . . . 37<br />

3.2 Ein Auszug aus den Ergebnissen der akustischen Analyse<br />

der Sprecherin JUM aus dem Dialogbeitrag g361a004 . . . 53<br />

3.3 Ergebnisse eines U-Tests für die F2-Werte von und ,<br />

die in den Diagrammen von Abb. 3.6 geplottet sind . . . . 62<br />

3.4 Korrelation von Dauer und Formantwerten für fünf<br />

Lang/Kurzvokalpaare in Inhaltswörtern . . . . . . . . . . 81<br />

3.5 Dauer-Mediane der zehn Vokalkategorien . . . . . . . . . 86<br />

3.6 Durchschnittliche Dauern von Silben, vokalischen und<br />

nichtvokalischen Elementen in Spontan- und Lesesprache . 86<br />

4.1 Beispiele aus Ulbrichs Daten, die die verschiedenen vokalischen<br />

Kategorien illustrieren. . . . . . . . . . . . . . . . 113<br />

4.2 Eine Auswahl an Sätzen aus dem Berliner Satzkorpus gesprochen<br />

von Sprecher k03 zur Illustration von Ulbrichs<br />

Kategorisierung . . . . . . . . . . . . . . . . . . . . . . . 114<br />

4.3 Synthetische Beispiele von unterschiedlichen £ -Vokalen<br />

und £ -losen Vokalen . . . . . . . . . . . . . . . . . . . . . 148<br />

5.1 Die dynamischen Parameter der Klatt-Formantsynthese . . 156<br />

xv


xvi<br />

5.2 Ausschnitt aus den sortierten und annotierten Analysedaten<br />

aus der Mitte des Wortes Mittagessen . . . . . . . . . 160<br />

5.3 Beispiele von LACS-behandelten männlichen Äußerungen<br />

aus den gelesenen und spontansprachlichen Korpora . 168<br />

D.1 Absolute Vokalhäufigkeiten bei den einzelnen Sprechern<br />

im spontansprachlichen Korpus . . . . . . . . . . . . . . . 210<br />

D.2 Relative Vokalhäufigkeiten bei den einzelnen Sprechern<br />

im spontansprachlichen Korpus . . . . . . . . . . . . . . . 211<br />

D.3 Absolute und relative Gesamthäufigkeiten der Einzelvokale<br />

aus Spontan- und Lesesprache . . . . . . . . . . . . . . 212<br />

E.1 Weibliche Formantwerte aus der Lesesprache . . . . . . . 214<br />

E.2 Weibliche Formantwerte aus der Spontansprache . . . . . 215<br />

E.3 Männliche Formantwerte aus der Lesesprache . . . . . . . 216<br />

E.4 Männliche Formantwerte aus der Spontansprache . . . . . 217


Kapitel 1<br />

Einführung<br />

1.1 Ziele<br />

Mit dem Einzug der EDV in die phonetische Sprachverarbeitung wurde im<br />

Prinzip die Möglichkeit geschaffen, große Mengen gesprochener Sprache<br />

schnell zu bearbeiten und automatisch zu analysieren. Am Anfang stand<br />

diesem Ziel jedoch einiges im Wege. Um gesprochene Sprache in ausreichend<br />

hoher Qualität digital darzustellen, werden hohe Anforderungen<br />

sowohl an die Geschwindigkeit als auch an die Speicherkapazität eines<br />

Rechners gestellt. Erst seit etwa zehn Jahren steht der digitalen Verarbeitung<br />

gesprochener Sprache ausreichende Rechnergeschwindigkeit und<br />

Speicherkapazität kostengünstig zur Verfügung. Eine Folge dieser technischen<br />

Entwicklung ist der Aufbau digitaler Datenbanken gesprochener<br />

Sprache.<br />

Die digitale Sammlung und Analyse gesprochener Sprache bietet viele<br />

Vorteile gegenüber älteren analogen Methoden. Die Analyse auf analogen<br />

Tonträgern, wie z.B. Schallplatten oder Tonbändern, ist zeitaufwendig. Relevante<br />

Äußerungen müssen auf dem Tonträger geortet, auf ein weiteres<br />

Gerät (z.B. Sonagraphen) übertragen, Aufzeichnungen gemacht und Messungen<br />

anhand dieser Aufzeichnungen durchgeführt werden. Im digitalen<br />

Bereich können bei entsprechender Aufbereitung des gesprochenen Materials<br />

viele Schritte einer Analyse automatisiert werden. Die Datenmenge,<br />

die bearbeitet werden kann, wird allein durch den Umfang der erfaßten<br />

1


,<br />

,<br />

2 Einführung<br />

+ Daten begrenzt und nicht durch die für die Untersuchung verfügbare Zeit.<br />

In den letzten Jahren haben digital aufbereitete gesprochene Sprachdatenbanken<br />

einen mächtigen Zuwachs erfahren. Die Erhebung wurde und<br />

wird hauptsächlich von industrieller Seite finanziert und zur Entwicklung<br />

kommerzieller Produkte eingesetzt, jedoch wird die Mehrheit dieser Daten<br />

der Öffentlichkeit zur Verfügung gestellt.<br />

Obwohl der heutigen phonetischen Forschung somit gesprochene<br />

Sprache in großer Menge und schnell verarbeitbarer Form zur Verfügung<br />

steht, stellen sich noch zwei grundsätzliche Fragen, was die wissenschaftliche<br />

Verwendbarkeit solcher Daten betrifft:<br />

1. Sind Daten, die für einen anderen Zweck erhoben wurden, für neue<br />

Fragestellungen überhaupt brauchbar?<br />

2. Welche symbolische Aufbereitung – neben der Digitalisierung der<br />

Sprachsignale selbst – müssen die Äußerungen einer Datenbank<br />

erhalten, um sie für die Bearbeitung phonetischer Fragestellungen<br />

überhaupt interessant zu machen?<br />

Diese Arbeit verfolgt mehrere Ziele. Als erstes werden die Inhalte und<br />

die Form des Kiel Corpus of Read/Spontaneous Speech vorgestellt. Danach<br />

soll aufzeigt werden, wie solche Dateninhalte in ihrer Aufbereitung zur<br />

Erforschung verschiedener Fragestellungen herangezogen werden können.<br />

Jedoch sind diese Analysen nicht kleine exemplarische Streifzüge. Es werden<br />

vielmehr drei vollständige Analysen aus den Kernbereichen der deutschen<br />

Phonetik und Phonologie präsentiert, die auf verschiedene Art und<br />

Weise den Umfang, die Inhalte und die Aufbereitung einer gesprochenen<br />

Sprachdatenbank ausnutzen. Der Aufbau der Arbeit ist wie folgt:<br />

Kapitel 1 gibt einen Überblick über zur Zeit erhältliche gesprochene<br />

Sprachdatenbanken. Die Probleme, die die Benutzung von Datenbankmaterial<br />

bereitet, sowie Lösungswege werden diskutiert.<br />

Kapitel 2 beschreibt den Aufbau des Kiel Corpus of Read/Spontaneous<br />

Speech, das als Untersuchungsobjekt in dieser Studie dienen<br />

soll. Die Elizitationsmethoden werden umrissen sowie die verschiedenen<br />

Schritte in der symbolischen Aufbereitung der gewonnenen<br />

Sprachsignale.


,<br />

1.1 Ziele 3<br />

In den Kapiteln 3 bis 5 werden drei Verwendungen des Kiel Corpus<br />

präsentiert, in denen drei ganz unterschiedliche Fragestellungen an<br />

eine Datenbank bearbeitet werden.<br />

Kapitel 3 ist eine Untersuchung des deutschen Vokalismus anhand<br />

von Spontan- und Lesesprache. Dies ist der klassische Einsatz einer<br />

Datenbank. Eine große Menge Sprachdaten wird nach bestimmten<br />

Mustern automatisch durchsucht und analysiert.<br />

Kapitel 4 setzt zum einen die Untersuchung des deutschen Vokalismus<br />

fort, indem es zusätzlich die durch Vokalisierung des £ im<br />

Deutschen entstehenden Vokalqualitäten einbezieht. Zum andern erweitert<br />

es die Fragestellung auf die Realisierung des deutschen £ insgesamt<br />

und präsentiert dessen phonetische Beschreibung und phonlogische<br />

Analyse anhand eines vergleichsweise kleinen Auszugs (6<br />

Sprecher, 600 Sätze) aus dem Kiel Corpus of Read Speech. Statt<br />

automatischer akustischer Analyse stehen die Methoden der impressionistischen<br />

Phonetik im Vordergrund. Die digitale Aufbereitung<br />

der Sprachsignale und ihre verschiedenen symbolischen Aufbereitungen<br />

dienen hauptsächlich dem Auffinden und Zusammenschneiden<br />

von relevanten Äußerungsabschnitten. Das Kapitel schließt<br />

mit der Skizze einer Modellierung von £ -Aussprachemustern in<br />

der regelgesteuerten Formantsynthese als Beitrag zur phonetischphonologischen<br />

Interpretation von Sprachdaten.<br />

Kapitel 5 setzt die in Kapitel 4 anhand eines eng begrenzten phonetischen<br />

Phänomenbereichs begonnene Diskussion in ausgeweiteter<br />

Form fort und beschreibt eine Methode, wie die phonetischen<br />

Korrelate von phonologischen Abstraktionen, ausgedruckt in<br />

Form von Steuerparametern einer Formantsynthese, gewonnen werden<br />

können. Die Ergebnisse einer gewöhnlichen akustischen Analyse<br />

werden automatisch in die Parameter einer Formantsynthese<br />

überführt. In diesem Prozeß dient die symbolische Etikettierung einer<br />

Äußerung als phonetische und linguistische Wissensbasis und<br />

ermöglicht eine intelligente, sprachkategorische Interpretation der<br />

Analyseergebnisse.<br />

Zu einigen Abbildungen und Tabellen sind Hörbeispiele an der folgenden<br />

URL zu finden: www.ipds.uni-kiel.de/examples.html.<br />

Die Signale sind als Windows WAV-Dateien mit einer Amplituden-


4 Einführung<br />

- auflösung von 16 Bit und 16 kHz Abtastung abgelegt. Abbildungen und<br />

Tabellen, die von Hörbeispielen begleitet werden, sind mit gekennzeichnet.<br />

1.2 Gesprochene Datenbanken – ein Überblick<br />

Zur Zeit gibt es digitale Sammlungen gesprochener Sprache, die zusammen<br />

einen Umfang von mehreren Millionen Wörtern haben. Die linguistischen<br />

Aktivitäten reichen vom Vorlesen von Einzelwörtern bis hin zur<br />

freien Spontansprache. Die Signalqualität reicht von hochqualitativen Aufnahmen<br />

in schallbehandelten Räumen bis zur Mobiltelefonqualität.<br />

Dieser Abschnitt gibt anhand einiger Beispiele einen Überblick über<br />

die verschiedenen sprachtechnologischen Bereiche, in denen gesprochene<br />

Sprachdatenbanken entstanden sind, sowie eine Zusammenstellung<br />

von Datenbanken, die ihre Anwendung in der Sprachtechnologie finden<br />

mögen, dennoch nicht zu diesem Zweck primär erhoben wurden.<br />

Der größte Teil der gesprochenen Sprachdatensammlungen wird von<br />

der Industrie bzw. in Zusammenarbeit zwischen Industrie und wissenschaftlichen<br />

Einrichtungen sowie mit staatlicher Förderung erhoben. Diese<br />

Korpora dienen hauptsächlich der Forschung und Entwicklung von<br />

sprachtechnologischen Anwendungen. Kategorisiert nach bestimmten Anwendungsbereichen<br />

werden in den folgenden Beispielen von gesprochenen<br />

Sprachdatenbanken vorgestellt, die vom LDC 1 vertrieben werden und<br />

z.T. auch per Auftrag gesammelt wurden.<br />

Spracherkennung Zur Entwicklung und Evaluation von Spracherkennungsalgorithmen<br />

werden die größten Datenmengen gebraucht. Als<br />

bekannteste Datenbank in diesem Bereich ist TIMIT (Lamel et al.<br />

1986), eine von Texas Instruments und M.I.T. erhobene Datenbank<br />

des amerikanischen Englisch. Die Datensammlung umfaßt 630<br />

Sprecher aus 8 Dialektregionen, die je 10 phonetisch ausbalancierte<br />

Sätze gelesen haben. Die Signale sind qualitativ hochwertig<br />

(16 kHz, 16 bit). Um vergleichbare Korpora in unterschiedlicher Si-<br />

1 Das Linguistic Data Consortium ist ein Verbund aus Universitäten, Industrie und staatlichen<br />

Forschungseinrichtungen, der Sprachdatenbanken (geschrieben und gesprochen), Lexika<br />

und andere Sprachresourcen sammelt und vertreibt. Nähere Information sind unter URL<br />

(4) zu finden.


1.2 Gesprochene Datenbanken – ein Überblick 5<br />

gnalqualität zu erhalten, wurden die TIMIT-Sätze durch verschiedene<br />

Übertragungskanäle geschickt bzw. über andere Kanäle neu aufgenommen.<br />

So bilden beispielsweise die 6300 TIMIT-Äußerungen<br />

nach Übertragung durch verschiedene Telefonleitungen die Korpora<br />

NTIMIT und CTIMIT; HTIMIT hingegen besteht aus TIMIT-Sätzen,<br />

die von 384 Sprechern neu aufgenommen und durch verschiedene<br />

Telefonhörertypen gespielt wurden.<br />

In der Entwicklung eines telefonischen Flugauskunftssystems entstanden<br />

die ATIS-Korpora (‘Air Travel Information System’) (Seneff<br />

et al. 1991). Statt auf das Elizitieren eines bestimmten phonetischen<br />

Inhaltes zu zielen, wie bei TIMIT, sind die ATIS-Daten spontansprachlich<br />

und aufgabenorientiert. Sprecher wurden aufgefordert,<br />

mit der Simulation eines automatischen Auskunftssystems (Hemphill<br />

et al. 1990) bzw. mit einem Prototypen nach Flugauskunft zu<br />

fragen.<br />

Eine ganz andere Anwendung, die die Datenerhebung in einer anderen<br />

Sprechergruppe erforderte, war das Trainieren des SPHINX II<br />

Spracherkennungssystems (Lee et al. 1990) für den Einsatz in einem<br />

Lese-Trainer für Kinder. Das Kids Corpus besteht aus 5180 Äußerungen<br />

von 76 Kindern im Alter zwischen 6 und 11 Jahren.<br />

Sprachsynthese Hauptsächlich der Generierung von intonatorischen Mustern<br />

in Sprachsynthese ist die Erhebung des Boston University Radio<br />

Speech Corpus gewidmet. Sieben Stunden Rundfunknachrichten<br />

gesprochen von drei weiblichen und vier männlichen Rundfunksprechern<br />

wurden über einen Zeitraum von zwei Jahren aufgenommen.<br />

Dieselben Sprecher wurden auch unter Laborbedingungen<br />

beim Vorlesen von insgesamt 24 Geschichten aufgenommen.<br />

Dabei wurden sie aufgefordert die Geschichten zuerst im Nicht-<br />

Rundfunkstil und nach einer Pause von 30 Minuten im Rundfunkstil<br />

vorzulesen.<br />

Sprecherverifikation Der eindeutigen Erkennung einer Stimme als Sicherheitsmaßnahme<br />

(“secure access”) diente die Erhebung des YO-<br />

HO-Korpus. Dieses Korpus besteht aus vorgelesenen Zahlenreihen,<br />

die typisch für Kombinationsschlösser sind. Die Aufnahmen wurden<br />

in einer Büroumgebung gemacht.


6 Einführung<br />

. Sprecheridentifikation Zur Entwicklung von Methoden für die Erkennung<br />

und Überführung eines Täters anhand einer kleinen Sprachprobe<br />

wurde das BRAMSHILL-Korpus ursprünglich mit analoger Technik<br />

(1978–1979) aufgenommen und 1993 nachträglich digitalisiert.<br />

Aufzeichnungen wurden in den Schlafräumen einer Polizeischule<br />

durchgeführt. Beamte wurden aufgenommen, wie sie mit einem Kollegen<br />

in einem Nachbarzimmer telefonierten. Am Anfang jedes Gesprächs<br />

mußten Sprecher sich vorstellen, zehn Sätze vorlesen, und<br />

sich anschließend zehn Minuten lang anhand einer Photosammlung<br />

als Gesprächsvorlage unterhalten. Die Gespräche wurden sowohl im<br />

Raum als auch nach Übertragung durch die Telefonleitung aufgenommen.<br />

Der Sprecheridentifikationsforschung diente auch das SPIDRE-<br />

Korpus. Dieses Korpus ist ein Auszug aus dem riesigen SWITCH-<br />

BOARD-Korpus (Godfrey et al. 1992), das aus 2430 Telefongesprächen<br />

zwischen mehr als 500 Sprechern besteht.<br />

Sprachidentifikation Der automatischen Erkennung einer Sprache ist<br />

das CALLFRIEND-Korpus gewidmet. Hierzu wurden Telefongespräche<br />

zwischen Muttersprachlern von 12 Sprachen aufgezeichnet,<br />

pro Sprache jeweils 60 Gespräche.<br />

Nicht alle Sprachdatensammlungen wurden für ein bestimmtes Ziel erhoben.<br />

So sollte das SWITCHBOARD-Korpus (URL 5) der sprachtechnologischen<br />

Forschung und Entwicklung im Telefonbereich zur Verfügung<br />

stehen. Selbstverständlich konnte auch die Entwicklung bestimmter<br />

sprachtechnologischer Anwendungen auf schon vorhandenen Datenbanken<br />

basieren, die für andere Zwecke erhoben wurden. Hierzu zählt das<br />

Sprachsynthesesystem CHATR (Black und Taylor 1994; Black und Campbell<br />

1995). CHATR ist in seiner Struktur ein generisches 2 Sprachsynthesesystem,<br />

daß tatsächlich gesprochene phon-große Äußerungsabschnitte<br />

aneinanderkettet. Um eine bestimmte Lautkategorie in verschiedenen intonatorischen<br />

und lautlichen Umgebungen zu gewährleisten, müssen viele<br />

Äußerungsabschnitte pro Kategorie und Sprecher vorhanden sein. Die<br />

Erstellung einer CHATR-Synthese für eine Sprache setzt lediglich eine<br />

hinreichende Menge an segmentierten und etikettierten Äußerungen einer<br />

2 Die Grundstruktur ist sprachunabhängig.


1.2 Gesprochene Datenbanken – ein Überblick 7<br />

/<br />

Sprecherin oder eines Sprechers einer Sprache voraus. So basiert beispielsweise<br />

das deutsche CHATR-System auf einer Sprecherin und einem Sprecher<br />

des Kiel Corpus of Read Speech. Ausschlaggebend für CHATR ist<br />

eine hohe Signalqualität sowie eine phonetisch-phonologische Segmentation<br />

und Etikettierung der Signale (siehe hierzu 2.3.3).<br />

Das Kiel Corpus of Read/Spontaneous Speech, das in dieser Studie beschrieben<br />

und analysiert wird, sowie ein Großteil des Bavarian Archive<br />

for Speech Signals (Tillmann et al. 1995; URL 2; Gibbon et al. 1997: 835–<br />

837), wurden im Rahmen mehrerer industriell und staatlich geförderter<br />

Projekte ursprünglich für sprachtechnologische Zwecke erhoben. Sie bestehen<br />

aus gelesenem sowie spontansprachlichem Material 3 und dienten<br />

hauptsächlich der Entwicklung und Evaluation verschiedener Spracherkennungsalgorithmen.<br />

Die symbolische Aufbereitung des spontansprachlichen<br />

Materials lieferte auch Material über Aussprachevarianten für den<br />

Einsatz in der Sprachsynthese. Die Erhebung des gelesenen Materials wurde<br />

1989 im Auftrag einiger Industriepartner begonnen, ein Projekt, das<br />

den Namen PhonDat (Kohler 1992b) erhielt. Im Jahre 1991 wurde dieses<br />

Projekt Teil des von BMFT geförderten ASL-Projekts (“Architecture for<br />

Speech and Language”). ASL-PhonDat fand seine Fortsetzung in einem<br />

weiteren von Industrie und BMFT/BMBF geförderten Projekt zur Konstruktion<br />

eines maschinellen Dolmetschers. Da dieses Gerät Gespräche<br />

zwischen Geschäftsleuten übersetzen soll, ergab sich die Forderung nach<br />

spontansprachlichem Material.<br />

Datenbanken, die hauptsächlich der Grundlagenforschung gewidmet<br />

sind, also nicht primär für Anwendungszwecke erhoben wurden, sind in<br />

ihrer Zahl und ihrem Umfang wesentlich geringer. Dies liegt nicht zuletzt<br />

an finanziellen Gründen. Obwohl die Kosten für das Sammeln und Speichern<br />

gesprochener Sprachdaten nicht unerheblich sind, liegt die Hauptarbeit<br />

in der ausführlichen und sachgemäßen symbolischen Aufbereitung<br />

der gesammelten Daten. Im einfachsten Fall bedeutet dies nichts anderes<br />

als die Anfertigung einer orthographischen Transliteration der erhobenen<br />

Äußerungen. Im Falle einer phonetischen Untersuchung jedoch muß jede<br />

Äußerung eine irgendwie geartete phonetische oder phonologische Transkription<br />

erhalten, die mit dem Sprachsignal synchronisiert wird.<br />

Die folgenden Datenbanken sind vier Beispiele von Datensammlun-<br />

3 Inhalt und Erhebung des Kiel Corpus of Read/Spontaneous Speech werden in Kapitel 2<br />

beschrieben.


8 Einführung<br />

0 gen, die hauptsächlich der Grundlagenforschung dienen sollen:<br />

ANDOSL Die Australian National Database of Spoken Language (URL<br />

1) besteht aus lese- und spontansprachlichem Material von 108 Sprechern<br />

von drei Soziolekten des Australischen Englisch sowie 105<br />

weiteren Sprechern, für die Englisch eine Fremdsprache ist. Das erhobene<br />

Material von jedem Sprecher besteht aus Lese- (19 Wörter<br />

mit % V1 -Struktur sowie 50–200 phonetisch ausbalancierte Sätze)<br />

sowie Spontansprache (Map task-Sitzungen).<br />

Map Task Das HCRC Map Task Corpus (Anderson et al. 1991) ist eine<br />

Sammlung von 128 Dialogen mit einer Gesamtdauer von etwa 18<br />

Stunden. Die Dialogpartner haben jeweils eine einfache Landkarte<br />

erhalten. Auf einer der Karten ist ein Weg eingezeichnet, der der<br />

anderen Person beschrieben werden muß. Außer dem Weg weisen<br />

die Karten auch einige andere Unterschiede auf. Die Namen von bestimmten<br />

Orten auf der Karte, z.B. “Green Bay”, “white cottage”,<br />

sollten trotz des spontansprachlichen Produkts einer solchen Aufgabe<br />

auch bestimmte phonologische Muster gewährleisten.<br />

MARSEC Das Machine Readable Spoken English Corpus (Roach et al.<br />

1994) basiert auf Aufnahmen und Transkriptionen des Spoken English<br />

Corpus (Knowles und Alderson 1995). Die Aufnahmen bestehen<br />

aus etwa 6 Stunden (ca. 55000 Worte) Rundfunkübertragungen.<br />

Die Originalaufnahmen des SEC, die analog auf Tonband erfolgten,<br />

sind im MARSEC digitalisiert, und die verschiedenen phonetischen<br />

und linguistischen Annotationen sind mit den digitalen Signalen<br />

zeitlich synchronisiert.<br />

EUR-ACCOR Die akustisch-artikulatorische Datenbank EUR-ACCOR<br />

(URL 3) ist eine europäisch finanzierte Datensammlung. Je 5 Sprecher<br />

von 7 EU-Sprachen 4 wurden aufgenommen. Probanden haben<br />

einfache Logatome mit VKV-Struktur, echte Wörter, die der Logatomstruktur<br />

ähneln, sowie 14 kurze Sätze, die die wichtigsten satzphonetischen<br />

Prozesse der jeweiligen Sprache illustrieren, gesprochen.<br />

Erfaßt wurden gleichzeitig maximal fünf Signale: Elektropalatogramm,<br />

Laryngogramm, Mikrofonsignal, nasale und orale Luftströmung.<br />

4 Catalan, Englisch, Französisch, Deutsch, Irisches Gälisch, Italienisch und Schwedisch


1.3 Das Problem einer Datenbank 9<br />

Aus dieser noch lange nicht vollständigen Aufstellung von gesprochenen<br />

Sprachdatenbanken wird der erhebliche Umfang sowie die qualitative<br />

und inhaltliche Breite der digital aufbereiteten Datensammlungen deutlich.<br />

Bevor die Daten aus solchen Sammlungen für phonetische Fragestellungen<br />

eingesetzt werden, muß zuerst geklärt werden, ob sie sich überhaupt<br />

für solche Aufgaben eignen.<br />

1.3 Das Problem einer Datenbank<br />

Nachdem einige Sprachdatenbanken beschrieben wurden, bleibt die<br />

grundlegende Frage unbeantwortet, ob solche Datensammlungen für phonetische<br />

Forschungszwecke nützlich sind. Das muß nicht der Fall sein.<br />

Gesprochene Sprachdaten in einem phonetischen Institut im Rahmen eines<br />

Projektauftrages zu erheben und aufzubereiten, heißt nicht, daß diese<br />

Daten auch der phonetischen Forschung von Nutzen sein müssen. In diesem<br />

Abschnitt wird dieses Problem diskutiert, und es wird deutlich, daß<br />

die Antwort auf die Frage der Benutzung von Datenbanken in der phonetischen<br />

Forschung eng mit den Problemen der Untersuchung von Spontansprache<br />

verstrickt ist.<br />

Das Hauptproblem mit Datenbankmaterial ist wie folgt zu beschreiben.<br />

Obwohl eine rechnerverarbeitbare Datensammlung die Möglichkeit bietet,<br />

eine große Menge an Daten schnell zu analysieren, wird vorweg eine<br />

grundlegende Annahme gemacht: eine bestimmte wissenschaftliche Fragestellung<br />

läßt sich an einer vorhandenen Datenbank empirisch erarbeiten<br />

und statistisch auswerten. Eine für die Phonetik und andere Humanwissenschaften<br />

übliche Arbeitsweise wird somit auf den Kopf gestellt; denn<br />

eine Fragestellung geht meist ihrer Datenerhebung voraus. Eine Hypothese<br />

wird aufgestellt, und die Datenerhebung wird der Fragestellung so zugeschnitten,<br />

daß die aufgestellte Hypothese sich statistisch überprüfen läßt.<br />

In diesem Fall ist die Datenerhebung gezielt und kontrolliert. Wird eine<br />

Hypothese an einer schon vorhandenen Datensammlung getestet, können<br />

die vorhandenen Daten nur zufällig die gleichen Bedingungen erfüllen wie<br />

bei einer gezielten Erhebung. Eine Datenbank mag für einen bestimmten<br />

Zweck erhoben worden sein, aber für jede weitere Untersuchung bleibt<br />

sie eine beliebige Datensammlung. Bei einigen Datenbanken, die im Abschnitt<br />

1.2 beschrieben wurden, wird im voraus versucht, die Datensammlung<br />

auf eine möglichst große Palette von Fragestellungen zuzuschneiden.


10 Einführung<br />

Die ANDOSL ist ein gutes Beispiel dieser Vorgehensweise. Die aufgenommenen<br />

Gruppen lassen sich in verschiedene gleich große Untergruppen<br />

aufteilen, nach Geschlecht, Alter, Soziolekt. Es werden zusätzlich von jedem<br />

Sprecher Proben aus einem möglichst breiten Spektrum von linguistischen<br />

Aktivitäten genommen. Dennoch wird eine mit solcher Sorgfalt<br />

erhobene Datenbank eine ganze Reihe von phonetischen Fragen nicht beantworten,<br />

weil bestimmte Phänomene schlecht oder im schlimmsten Fall<br />

gar nicht vertreten sind.<br />

Die Methodologie phonetischer Datenerhebung bietet ein zusätzliches<br />

Problem. Statt wirkliches Sprachmaterial zu untersuchen, wird das phonetische<br />

Verhalten einer Sprache oft an Logatommaterial (z.B. Lindblom<br />

1963; Stevens und House 1963; Öhman 1966) untersucht, um sämtliche<br />

lautlichen Kontexte zu bekommen, die eine Sprache möglicherweise von<br />

sich aus gar nicht anbietet. Es besteht somit eine Riesenkluft zwischen einer<br />

Kontrolle über Sprachsammlung, die bis hin zur Schaffung einer neuen<br />

Sprachrealität (Logatome) reicht, und dem Verlust jeglicher Kontrolle über<br />

das verfügbare Material in Form einer Datenbank.<br />

Es gibt drei Lösungen des geschilderten Datenbankproblems, wobei<br />

die zweite Alternative nur als Ergänzung zur ersten zu sehen ist:<br />

1. Eine technische Entwicklung mag die Erstellung von Datenbanken<br />

möglich gemacht haben. Diese Tatsache macht eine Datenbank aber<br />

nicht notwendigerweise zu einem brauchbaren Forschungsgegenstand.<br />

Deshalb wird auf die Verwendung von Datenbanken verzichtet<br />

und für jede Fragestellung eine gezielte Datenerhebung durchgeführt.<br />

2. Es wird lediglich den Fragen nachgegangen, die sich anhand einer<br />

Datensammlung statistisch so überprüfen lassen, als würden die Daten<br />

gezielt für die Fragestellung gesammelt.<br />

3. Die statistischen Anforderungen an die Daten werden abgeschwächt.<br />

Man begnügt sich mit nichtparametrischen statistischen<br />

Mitteln und geht davon aus, daß die vorhandenen Daten ein bestimmtes<br />

Phänomen nicht lückenlos abdecken können.<br />

Wenn die statistische Überprüfbarkeit oberste Priorität hat, scheint 1,<br />

ergänzt durch 2, die einzige Alternative zu sein. Die Datensammlung und


1.3 Das Problem einer Datenbank 11<br />

2<br />

mehrere Analysen von Crystal und House (1982, 1988a, 1988b, 1990)<br />

sind ein Beispiel. Zwei kleine Prosatexte vorgelesen von 14 Sprechern (12<br />

männlich, 2 weiblich) dienen als Untersuchungsobjekt, um Dauermuster<br />

in zusammenhängender Rede zu beschreiben und modellieren. Es gibt jedoch<br />

zwingende Gründe, die dritte Alternative zu wählen. Diese hängen<br />

einerseits mit der Untersuchung von Spontansprache und zum anderen mit<br />

dem unterschiedlichen Auftreten von bestimmten Phänomenen in Sprache<br />

zusammen.<br />

Die Untersuchung von Spontansprache wirft ähnliche Schwierigkeiten<br />

auf wie die Untersuchung von Datensammlungen, die für andere Zwecke<br />

als ihre ursprüngliche Erhebung eingesetzt werden – sie sind von Anfang<br />

an unkontrolliert und ungezielt. Wird Spontansprache in einer natürlichen<br />

Umgebung mit einem versteckten Mikrophon gewonnen, hat man keine<br />

Kontrolle über Form und Inhalt der aufgenommenen Äußerungen.<br />

Es gibt verschiedene Versuche, Spontansprache kontrolliert zu elizitieren<br />

(Swerts und Collier 1992; Anderson et al. 1991; URL 5; Pätzold<br />

und Simpson 1994). Die kontrollierte Elizitation erzielt eine Sammlung<br />

von Spontansprache mit gleichzeitiger Kontrolle von Inhalt und Form. Ist<br />

die Aufgabe sehr eng definiert, kann eine ähnliche Kontrolle über Form<br />

und Inhalt erreicht werden, wie sie bei vorgelesenen Wörtern und Sätzen<br />

erreicht wird.<br />

Swerts und Collier (1992) beschreiben eine solche Methode, in der<br />

eine Person aufgefordert wird, ein Netzwerk von einfachen Formen (Kreise,<br />

Dreiecke, Vierecke) gefüllt mit verschiedenen Mustern so zu beschreiben,<br />

daß eine zweite Person das Netzwerk allein anhand der Beschreibung<br />

herstellen kann. Die Person muß eine eng definierte Aufgabe ohne jegliche<br />

Vorbereitung und schriftliche Vorlage erledigen. Die Sprache ist daher<br />

spontan bei gleichzeitigem Erhalt von bestimmten Inhalten und Formen.<br />

Um die spontansprachliche Ausprägung bestimmter Phänomene zu<br />

untersuchen, mag die restringierte Methode von Swerts und Collier die<br />

erwünschten Ergebnisse erzielen. Andere spontansprachliche Muster lassen<br />

sich jedoch bei einer solchen Kontrolle nicht untersuchen. Die Untersuchung<br />

des Vokalsystems, das in Kapitel 3 präsentiert wird, und insbesondere<br />

die Häufigkeitsverteilung der einzelnen Vokalkategorien im Abschnitt<br />

3.7 ist ein solches Beispiel. Die Aussagen, die gemacht werden, sollen,<br />

mit bestimmten Einschränkungen, für spontan gesprochenes Deutsch<br />

gelten, und es darf daher keine zu strenge Kontrolle hinsichtlich Form<br />

und Inhalt auferlegt werden. Mit bestimmten Einschränkungen scheint


12 Einführung<br />

die kontrollierte Elizitation in einem Terminabsprache-Szenario (Pätzold<br />

und Simpson 1994) diese Sprachrepräsentativität zu erzielen. Gleichzeitig<br />

wird die strenge Kontrolle über Form und Inhalt geopfert, und es gibt<br />

beispielsweise große Fluktuationen in den Vorkommenshäufigkeiten von<br />

bestimmten sprachlichen Elementen bei den einzelnen Sprechern. Selbst<br />

die Menge an gesprochenem Material, das von den einzelnen Sprechern<br />

gesammelt wurde, weist eine große Variationsbreite auf. Die gesprächigste<br />

Person produzierte mehr als die sechsfache 5 Menge an Sprache als die<br />

schweigsamsten Teilnehmer.<br />

Die Gewinnung von Spontansprache bedeutet also einen Kompromiß<br />

zwischen dem Wunsch nach der Kontrolle, die man von gelesener Laborsprache<br />

gewohnt ist, und der Natürlichkeit von unbeobachteter Spontansprache.<br />

In den meisten Fällen wird Spontansprache daher das gleiche<br />

Grundproblem besitzen, das allgemein für gesprochene Sprachdatenbanken<br />

gilt. Jedoch kann weder die Untersuchung von Spontansprache wegen<br />

ihrer Unkontrollierbarkeit außer acht gelassen werden, noch können Aussagen<br />

über Spontansprache gemacht werden, indem man sich auf gelesene<br />

Daten beschränkt und hofft, daß sich der Weg zur Spontansprache lediglich<br />

aus einer Projektion von Lesesprache bauen läßt. Bestimmte extralinguistische<br />

Phänomene, wie Korrekturen, Turn-taking, Abbrüche, Häsitationen<br />

sind die offensichtlichsten Beispiele von Phänomenen, die im gelesenen<br />

Bereich keine Entsprechung finden. Daß lesesprachliche Phänomene sich<br />

nicht einfach auf spontansprachliches Verhalten extrapolieren oder direkt<br />

übertragen lassen, wie gelegentlich behauptet wird (z.B. Shockey 1974),<br />

läßt sich an einem Beispiel aus dem Englischen illustrieren. Simpson<br />

(1991, 1992) beschreibt eine Art Konsonantendisharmonie in der Spontansprache<br />

einer Sprecherin von Suffolk-Englisch. In bestimmten Silbenketten,<br />

die it und at enthalten, darf nur einmal ein Glottalverschluß auftreten,<br />

z.B. ¥ 354¦6¦73 “make him”, aber ¥ 354¦8¦ “make it”. Um die impressionistischen<br />

Ergebnisse mit instrumentellen Mitteln zu verifizieren, wurde einige<br />

Zeit später dieselbe Sprecherin ins Labor geholt. Sie wurde gebeten, einige<br />

gezielt konstruierte Sätze zu lesen. Zusätzlich zum Mikrophonsignal wurde<br />

sie an den Laryngographen angeschlossen, um direktere Information<br />

über glottale Aktivität zu erhalten. Die Laborsituation provozierte jedoch<br />

eine Annäherung an die Standardsprache. Die Lautmuster des Phänomens,<br />

5 Das Mengenmaß, das hier verwendet wird, ist die Anzahl der gemessenen Vokalabschnitte<br />

pro Sprecher, wie sie aus der Grafik in Abb. 3.4 auf S. 55 abzulesen ist.


1.3 Das Problem einer Datenbank 13<br />

9<br />

das untersucht werden sollte, wichen soweit von der Standardsprache ab,<br />

daß einfache Sätze (z.B. “She’ll look at it at work”) zu sprachlichen Stolpersteinen<br />

wurden, die die Sprecherin in vielen Fällen ohne Abbrüche und<br />

Wiederholungen nicht ausprechen konnte.


14 Einführung


Kapitel 2<br />

Das Kiel Corpus<br />

2.1 Einleitung<br />

Eine Datenbank ist zunächst einmal nichts anderes als eine Sammlung<br />

von irgendwelchen Objekten. Im Falle einer phonetischen Datenbank sind<br />

die Objekte Signale, die während der Sprechens mit verschiedenen Instrumenten<br />

erfaßt werden. Das Kiel Corpus enthält ausschließlich akustische<br />

Sprachsignale, die Luftdruckschwankungen über Zeit darstellen. Eine reine<br />

Sprachsignalkollektion hat für sprachliche Untersuchungen aber wenig<br />

Nutzen. Deshalb enthält das Kiel Corpus zusätzlich zu den Signalen<br />

auch symbolische Darstellungen der phonetischen und linguistischen Inhalte<br />

der Signale. Diese Textdateien stellen den wichtigsten, wenn auch<br />

mengenmäßig kleineren Teil der Datenbank dar. Im einfachsten Fall werden<br />

die erfaßten Äußerungen von einer orthographischen Version begleitet.<br />

So gibt es z.B. zu jedem Dialog aus dem spontansprachlichen Teil des Kiel<br />

Corpus zumindest eine orthographische Transliteration.<br />

Weitere Bearbeitungsschritte liefern immer detailliertere phonetische<br />

und linguistische Information über die Äußerungen. Von besonderer Bedeutung<br />

für phonetische Untersuchungen ist die Herstellung von zeitlichen<br />

Verbindungen zwischen den symbolisch erfaßten metasprachlichen Abstraktionen<br />

und den Sprachsignalen, denn es ist diese zeitliche Verbindung,<br />

die es einem erlaubt, auf die physikalischen Realisierungen von abstrakten<br />

phonetischen und linguistischen Objekten automatisch zuzugreifen und sie<br />

15


16 Das Kiel Corpus<br />

zu<br />

:<br />

analysieren.<br />

In diesem Kapitel werden die Herstellungsschritte des Kiel Corpus<br />

erläutert. Da die Herstellungsschritte der gelesenen und spontansprachlichen<br />

Teile hinreichend dokumentiert sind, wird diese Erläuterung sich<br />

hauptsächlich auf die theoretischen und praktischen Fragen der Herstellung<br />

und Form des Kiel Corpus konzentrieren, die Konsequenzen für<br />

Datenanalysen haben. Eingehende Beschreibungen zur Aufnahmeumgebung,<br />

Weiterverarbeitung im Signalbereich (Filterung, Abtastung, usw.)<br />

sowie Elizitation sind u.a. in Kohler (1992b), Kohler, Pätzold und Simpson<br />

(1995), Pätzold et al. (1995) und Kohler, Pätzold und Simpson (1997)<br />

zu finden.<br />

2.2 Inhalte der Sprachsignale<br />

Die Sprachsignale des Kiel Corpus sind, was ihre Elizitation betrifft, in<br />

zwei Gruppen zu unterteilen:<br />

1. Leseprache<br />

2. Spontansprache.<br />

Die Form der Sprachsignal- und der dazugehörigen Textdateien ist nahezu<br />

identisch, so daß für analytische Zwecke die lese- und spontansprachlichen<br />

Daten gleich behandelt werden können.<br />

Die Sprachsignale des lesesprachlichen Teils des Kiel Corpus wurden<br />

in zwei Aufnahmeschüben gesammelt (Kohler 1992b). Beide Aufnahmen<br />

sollten in erster Linie Sprachmaterial für die Industrie liefern, u.a. für das<br />

Trainieren von automatischen Spracherkennern. Die Texte der ersten Aufnahmen<br />

bestehen sowohl aus kleineren Geschichten (Nordwind und Sonne<br />

und Die Buttergeschichte) als auch aus Sammlungen von kurzen phonetisch<br />

repräsentativen Sätzen 1 (u.a. Sotschek 1976a, 1976b). Im zweiten<br />

Aufnahmeschub lasen Probanden Texte, die auf Verschriftungen von echten<br />

Anfragen bei der Auskunft der Deutschen Bundesbahn basieren.<br />

Der spontansprachliche Teil des Kiel Corpus besteht aus Dialogen, die<br />

ausschließlich aus dem Bereich der Terminplanung stammen. Wie die ge-<br />

1 Dieses Satzkorpus wird für die Untersuchung von Vokalen der Lesesprache in Kapitel 3<br />

verwendet. Orthographische Darstellungen und kanonische IPA-Transkriptionen der Sätzesammlungen<br />

finden sich im A.1 (S. 183) und A.2 (S. 187).


2.3 Symbolische Weiterverabeitung 17<br />

;<br />

lesenen Daten sollten die Dialoge in erster Linie dem Trainieren von Spracherkennern<br />

dienen, die Teil einer automatischen Übersetzungsmaschine<br />

werden sollen (Karger und Wahlster 1994). Die Elizitation der Dialoge<br />

erfolgte durch ein Terminplanungsspiel (Pätzold und Simpson 1994; Kohler<br />

et al. 1995). Teilnehmer mußten mit Hilfe von Kalenderblättern und<br />

Wochenstundenplänen Termine für Geschäftsreisen und dergleichen vereinbaren.<br />

Die Verwendung des Terminus Spontansprache bezieht sich auf<br />

das Produkt von sprachlichem Handeln, das ohne schriftliche Vorlage zur<br />

Lösung einer unmittelbaren kommunikativen Aufgabe entsteht. Diese Definition<br />

ist jedoch nicht mit Natürlichkeit gleichzusetzen, denn die Laborumgebung<br />

sowie die technisch auferlegte Dialogsteuerung schufen eine<br />

ungewohnte kommunikative Situation.<br />

Zur Zeit des Schreibens befindet sich das Kiel Corpus auf vier CD-<br />

ROMs, die auch sämtliche Daten für die Untersuchungen der späteren<br />

Kapitel liefern. IPDS (1994) enthält das gelesene Korpus Kiel Corpus of<br />

Read Speech; das spontansprachliche Korpus Kiel Corpus of Spontaneous<br />

Speech befindet sich auf den drei restlichen CD-ROMs (IPDS 1995, 1996,<br />

1997a). Das gelesene Korpus enthält Texte von 53 Sprechern (26 weiblich,<br />

27 männlich); im spontansprachlichen Korpus sind 42 Sprecher (18 weiblich,<br />

24 männlich) 2 . Das Deutsch dieser 93 Sprecher läßt sich am besten<br />

durch die vereinbarten Vorgaben für die Erhebung des gelesenen Korpus<br />

charakterisieren, die auch in der Erhebung des spontansprachlichen Materials<br />

befolgt wurde: “Es wurde darauf geachtet, daß die Sprecher eine<br />

nicht zu stark regional geprägte Aussprache hatten und keine Sprachanomalien<br />

wie beispielsweise starken Sigmatismus aufwiesen.” (Thon und<br />

van Dommelen 1992, S. 47) Diese Charakterisierung ist negativ und etwas<br />

unscharf. Sie beschreibt jedoch treffend das Deutsch von Sprechern,<br />

das syntaktisch, morphologisch und phonologisch weitestgehend homogen<br />

ist, jedoch in der phonetischen Realisierung verschiedener phonologischer<br />

Elemente die regionale Herkunft verrät.<br />

2.3 Symbolische Weiterverarbeitung<br />

Wie eingangs gesagt wurde, ist eine reine Sprachsignalkollektion für phonetische<br />

oder phonologische Fragestellungen von wenig Interesse. Es muß<br />

symbolische Information über die phonetischen und linguistischen Inhalte<br />

2 Detaillierte Informationen über die Einzelsprecher finden sich in Anhang B.


18 Das Kiel Corpus<br />

der Signale bereitgestellt werden. Durch mehrere manuelle und automatische<br />

Verarbeitungsschritte werden solche Informationen über das Sprachsignal<br />

in einer Textdatei zusammengetragen.<br />

2.3.1 Orthographische Version des Signalinhalts<br />

Die erste Information ist eine orthographische Version des Signalinhalts.<br />

Bei den gelesenen Daten ist die orthographische Darstellung nichts anderes<br />

als die schriftliche Vorlage, die zur Erhebung der Daten verwendet<br />

wird. Bei den spontansprachlichen Daten kann eine Verschriftung erst nach<br />

der Erhebung erfolgen. Die Verschriftung der Dialoge versucht, zusätzlich<br />

zu den lexikalischen und syntaktischen Inhalten, auch spontansprachliche<br />

Aspekte zu erfassen, z.B. Pausen, nichtverbale Geräusche wie das Einund<br />

Ausatmen, Abbrüche, Häsitationen, usw. Hierzu wurden Konventionen<br />

aufgestellt (Kohler et al. 1994, 1995), die u.a. eine relativ schnelle und<br />

dennoch systematische Verschriftung einer großen Anzahl von Dialogen<br />

an verschiedenen Instituten in Deutschland gewährleisten sollten. Abb. 2.1<br />

zeigt orthographische Auszüge aus dem gelesenen sowie aus dem spontansprachlichen<br />

Teilkorpus.<br />

2.3.2 Phonologische Transkription der orthographischen<br />

Version<br />

Aus der orthographischen Version des Signalinhalts wird eine phonemische<br />

Transkription automatisch hergestellt (Kohler 1992a). Diese Herstellung<br />

erfolgt über das Graphem-Phonem-Konvertierungsmodul eines Volltextsprachsynthesesystems<br />

für das Deutsche. Das Phonemsystem 3 besteht<br />

aus 46 Elementen und ist für ein ‘maximales’ Hochdeutsch ausgelegt, in<br />

dem die Vokale in Bären und Beeren unterschieden werden sowie vier<br />

Nasalvokale in französischen Fremdwörtern: Restaurant, Teint, Saison,<br />

Parfum. Drei der Elemente (Q für ¥ , x für ¥ =? und C für ¥ ), haben<br />

nichtphonemischen Status, sie vermeiden aber sowohl das Aufnehmen von<br />

fragwürdigen Grenzphonemen (Moulton 1947) als auch das Hinzufügen<br />

von morphologischer Information (Bloomfield 1930).<br />

3 Kohler, Pätzold und Simpson (1995), S. 25–29, enthält eine vollständige Aufstellung des<br />

Symbolinventars, das im Kiel Corpus verwendet wird.


2.3 Phonologische Transkription der orthographischen Version 19<br />

(a)<br />

Die Buttergeschichte. Es war in Berlin zu einer Zeit, als Lebensmittel<br />

nicht gen}gend vorhanden waren. Vor einem Laden stand bereits um<br />

sieben Uhr eine beachtliche Menschenmenge, denn man hatte dort am<br />

Abend vorher auf einem Schild schon lesen k|nnen, da~ frische Butter<br />

eingetroffen sei. Jeder wu~te, da~ die Butter schnell ausverkauft<br />

sein w}rde und da~ man ganz fr}h kommen m}sse, um noch etwas zu<br />

erhalten. Da das Gesch{ft erst um acht ge|ffnet wurde, stellten sich<br />

die Leute vor der Ladent}r in einer Reihe an. Wer sp{ter kam, mu~te<br />

sich hinten anschlie~en.<br />

(b)<br />

SIK000: Frau Schulze ,


20 Das Kiel Corpus<br />

s: h: f r ’aU S ’U l t s @ s: , g: f y: 6+ d i:+<br />

p l ’a: n U N d E s+ z: Q ’a 6 b aI t s #f r "y: #S t "Y k s Q a n+<br />

Q aI n @ m+ z ’a m s t a: k Q o: d 6+ z ’O n t a: k , :k h:<br />

v: Q E: m v i:+ z ’i: t Q E s+ d E n+ :k d a:+ b aI+<br />

Q i: n @ n+ Q ’aU s ? Q I C+ k 9 n t @+ z: p: Q a m+ p:<br />

f ’Y n f t s e: n t @ n z: Q o: d 6+ z ’E C t s e: n t @ n<br />

j ’a n u: a: 6 s: h: Q o: d 6+ Q a m+<br />

n ’OY n U n t #t s v "a n t s I C s t @ n z: Q o: d 6+<br />

d r ’aI s I C s t @ n z: h: Q o: d 6+ f ’Y n f t @ n Q U n t+<br />

z ’E k s t @ n :k f ’e: b r u: a: 6 . :k<br />

Abbildung 2.2: Phonemtranskription des Dialogturns von Abb. 2.1(b) in<br />

SAMPA-Notation. (Ref.: g256a000)<br />

2.3.3 Etikettierung und Segmentation<br />

Nach der Erstellung der orthographischen Verschriftung sowie einer Phonemtranskription<br />

besteht immer noch eine recht lose Verbindung zwischen<br />

einem Sprachsignal und Einzelheiten über seinen sprachlichen Inhalt. Diese<br />

Verbindung ist nur eine Gemeinsamkeit in den Namen der Dateien, die<br />

jeweils das Sprachsignal bzw. den Text enthalten. Im nächsten entscheidenden<br />

Schritt wird eine enge zeitliche Verknüpfung zwischen abstrakten<br />

phonetischen und linguistischen Objekten und dem Sprachsignal hergestellt.<br />

Aus der Phonemtranskription wird eine Liste von Etiketten gemacht.<br />

Diese Etiketten werden manuell mit Hilfe einer geeigneten Software (IPDS<br />

1997b) an relevanten Stellen im Sprachsignal ausgerichtet. Durch das Setzen<br />

einer Zeitmarke und das Versehen dieser Zeitmarke mit einem Etikett<br />

wird das Sprachsignal segmentiert und etikettiert.<br />

Die Teilung des Sprachsignals wird nach phonetischen Kriterien<br />

durchgeführt. In Abb. 2.3 ist die Segmentation und Etikettierung des Wortes<br />

das zu sehen. Zwischen den ersten beiden vertikalen Strichen ist der<br />

Signalabschnitt, den man mit der Verschlußphase des Plosivs ¥ @ verbindet.<br />

Der Abschnitt wird mit ##d etikettiert 4 . Zwischen dem dritten und<br />

vierten Strich ist ein vokalischer Abschnitt, den man mit $a verbindet. Ab<br />

der vierten Zeitmarke fängt die alveolare Friktion an, die mit $s+ etikettiert<br />

wird.<br />

4 Bei der Erstellung der Etikettenliste werden Objekte aus der Phonemtranskription mit<br />

einem von drei Präfixen versehen: ## für wortinitiale Segmente, $ für wortinterne Segmente<br />

bzw. # für wortexterne Segmente, z.B. Pausen.


2.3 Etikettierung und Segmentation 21<br />

##d $-h $a<br />

$s+<br />

Abbildung 2.3: Die Segmentation und Etikettierung des Wortes das. Vertikale<br />

Striche sind die Zeitmarken, die jeweils den Anfang eines Signalabschnitts<br />

demarkieren. Das Symbol + am Etikett $s+ zeigt, daß das Wort<br />

ein Funktionswort ist. (Ref.: g101a010)<br />

Modifikation und Erweiterung des Etiketteninventars<br />

Die Phonemtranskription, aus der die Etikettenliste gebildet wird, wird<br />

aus einer schriftlichen Vorlage (orthographische Verschriftung) hergestellt.<br />

Um einige phonetische Aspekte einer Äußerung zu erfassen, können die<br />

Etiketten modifiziert bzw. das Etiketteninventar erweitert werden. Bei den<br />

Modifikationen und Erweiterungen handelt es sich fast ausschließlich um<br />

das Hinzufügen von Information. Vier Modifikationen eines Etiketts werden<br />

durchgeführt:<br />

Unsichere Grenze Der Anfang des Signalabschnitts, mit dem ein Etikett<br />

verbunden werden sollte, ist nicht klar abzugrenzen. Dem Etikett wird %<br />

hinzugefügt, um eine “unscharfe” Grenze anzuzeigen, z.B. ##%t.<br />

Tilgung Zu dem Etikett gibt es keinen Signalabschnitt. Das Etikett wird<br />

mit - suffigiert, um eine Tilgung anzuzeigen, z.B. $t-.<br />

Ersetzung Das Signalstück paßt auf ein anderes Etikett als das, das vorgesehen<br />

ist. Ein anderes Etikett wird mittels - hinzugefügt, z.B. $n-m.<br />

Einfügung Es ist ein Signalabschnitt vorhanden, für den kein Etikett vorgesehen<br />

wurde. Ein Etikett wird hinzugefügt. Sein hinzugefügter Status<br />

wird durch ein vorangestelltes - angezeigt, z.B. $-t.


,<br />

§<br />

¦<br />

22 Das Kiel Corpus<br />

¥ <br />

¥ A <br />

¥ B ¥ C <br />

¥ ¥ D<br />

vorher nachher<br />

Tilgung ##Q ##Q- nicht mehr vorhanden<br />

Einfügung $-q Vokal wird glottalisiert<br />

$’I6 $’I6<br />

$g $g<br />

Tilgung $@ $@- nicht mehr vorhanden<br />

Ersetzung $n $n-N gefunden statt<br />

Ersetzung $t $t-k gefunden statt<br />

$#v $#v<br />

$"o: $"o:<br />

Abbildung 2.4: Die Etikettierung des Wortes irgendwo, das ¥ ¦ §E¨ B<br />

als<br />

realisiert wurde. Die Liste der Etiketten auf der linken Seite wurde aus<br />

der Phonemtranskription hergestellt. Bei der Ausrichtung der Etiketten am<br />

Signal wurden einige Modifikationen durchgeführt (Etikettenliste rechts).<br />

(Ref.: g071a014)<br />

Abb. 2.4 zeigt die Etiketten des Wortes irgendwo wie sie vor (links) und<br />

nach (rechts) der Etikettierung aussehen bei ¥ ¦ §E¨ BB der Realisierung .<br />

Der monotone Charakter der Modifikationen der Etiketten ist aus diesem<br />

Beispiel klar zu erkennen: alle Änderungen werden ausschließlich durch<br />

das Hinzufügen von Information durchgeführt.<br />

Andere phonetische Aspekte des Signals werden durch eine erweiterte<br />

Verwendung von zwei Etiketten sowie das Hinzufügen von zwei neuen Etiketten<br />

angezeigt. Das Etikett $-h wird verwendet, um die Lösungs- und<br />

eventuellen Aspirationsphasen von Plosiven zu markieren (siehe Abb. 2.3).<br />

Glottalisierung, die statt oder in der Umgebung von Glottalverschlüssen<br />

bzw. anderen Plosiven auftreten kann, wird mit $-q angezeigt. Nasalierung<br />

nach dem Wegfall eines Nasalkonsonanten wird mit $-˜ etikettiert.<br />

Desweiteren wird $-MA verwendet, um auf phonetische Korrelate von getilgten<br />

Etiketten hinzuweisen (näheres hierzu unten in 2.3.3).<br />

Abb. 2.5 zeigt eine spontansprachlich typische Realisierung des §<br />

Wortes<br />

¥ § § ¦ eigentlich als . Hier werden auf einer kleinen Strecke die Modifikationen<br />

und Erweiterungen des Etiketteninventars gut illustriert:<br />

Der velare Plosiv ¥ und der Vokal ¥ A sind nicht vorhanden, daher<br />

die Etikettierung $g- und $@-.


§<br />

,<br />

,<br />

2.3 Etikettierung und Segmentation 23<br />

Abbildung 2.5: Die Etikettierung des Wortes eigentlich realisiert als<br />

§<br />

§ ¦ . (Ref.: g072a004)<br />

¦<br />

¥ §<br />

Nur Nasalität bleibt als Korrelat vom phonologischen Objekt F , daher<br />

die Einfügung des Etiketts $-˜ sowie die “Tilgung” des Etiketts<br />

$n-.<br />

Glottalisierung ist sowohl im anlautenden Vokal ($-q) als auch als<br />

Korrelat von G ($t-q) zu sehen.<br />

Die Etikettierung von nichtlinearen Aspekten einer Äußerung<br />

Wie man deutlich aus den Beispielen in Abb. 2.3 und 2.5 sehen kann, wird<br />

die Segmentation und Etikettierung eines Signals streng linear, d.h. ohne<br />

Überlappung durchgeführt. Das Setzen einer Zeitmarke, versehen mit einem<br />

Etikett, zeigt nicht nur den Anfang eines Signalabschnitts an, sondern<br />

es wird auch gleichzeitig das Ende des vorhergehenden Abschnitts markiert.<br />

Dies hat auch zur Folge, daß das ganze Signal restlos segmentiert<br />

und etikettiert wird, d.h. es gibt keine unbehandelten Strecken.


§<br />

24 Das Kiel Corpus<br />

Es ist dennoch in einem solchen System möglich, nichtlineare Aspekte<br />

von Äußerungen anzuzeigen, auch wenn diesen Aspekten zeitlich eine<br />

untergeordnete Rolle zugeteilt wird. Der geknarrte, nasalierte alveolare laterale<br />

Approximant in Abb. 2.5 ist ein gutes Beispiel. Der Signalabschnitt,<br />

den man ¥ § mit symbolisieren kann, stellt das gleichzeitige Auftreten der<br />

phonetischen Korrelate der phonologischen F Elemente H , G und dar. Für die<br />

Zwecke der Etikettierung wird die Zeitmarke am Anfang dieses Abschnitts<br />

mit $l versehen. Die Etiketten für Nasalität, die schon im vorhergehenden<br />

Abschnitt vorhanden ist, sowie für Glottalisierung werden auch an die<br />

Zeitmarke von $l gesetzt. Dadurch werden die Nasalität und die Glottalisierung<br />

der Lateralität zeitlich untergeordnet. In der Etikettierung der Glottalisierung<br />

bzw. Nasalität wird lediglich das Vorkommen registriert, diese<br />

Aspekte können bei einem späteren automatischen Zugriff somit zeitlich<br />

geortet, aber nicht zeitlich abgegrenzt werden.<br />

Es wird ein weiteres Etikett ($-MA) bereitgestellt, um das Vorhandensein<br />

von phonetischen Korrelaten eines phonologischen Elements anzuzeigen,<br />

die keinen zeitlich diskreten Abschnitt für sich allein beanspruchen<br />

können. Dies ist häufig der Fall bei Vokalen, die keine friktionslose stimmhafte<br />

Strecke mehr vorweisen können, aber durchaus in der Qualität von<br />

benachbarten Konsonanten zu finden sind (Rodgers, Helgason und Kohler<br />

1997). Abb. 2.6 zeigt ein typisches Beispiel aus dem spontansprachlichen<br />

Korpus. Das Wort zu wird produziert ohne einen zeitlich absteckbaren Vokal<br />

zwischen dem initialen Frikativ von zu und dem initialen Frikativ des<br />

Wortes spät. In einem streng linearen Ansatz wird der Vokal als getilgt<br />

($u:-+) deklariert. Es sind dennoch in der Qualität der umliegenden Frikative<br />

Korrelate des Vokales vorhanden. Durch das Hinzufügen des generischen<br />

Markers $-MA wird auf das Vorhandensein solcher Korrelate<br />

hingewiesen. Wie bei der Etikettierung von Nasalierung und Glottalisierung<br />

bietet die Verwendung von $-MA nur eine grobe zeitliche Ortung,<br />

aber keine Abgrenzung.<br />

Die zeitliche Verknüpfung von symbolischer Information und Sprachsignal<br />

wird in den Abbildungen 2.3 und 2.5 mit vertikalen Strichen in einem<br />

Sonagramm graphisch dargestellt. Diese Darstellungsweise ist aber<br />

nur eine passende Aufbereitung, die für die Segmentations- und Etikettierungssoftware<br />

gemacht wird, aber auch für Illustrationszwecke sehr nützlich<br />

ist. In der Datenbank selbst sind die Etiketten und ihre zeitliche Positionierung<br />

im Sprachsignal in derselben Textdatei enthalten wie die orthographische<br />

Verschriftung und die Transkription. Abb. 2.7 zeigt einen


2.4 Erstellung einer Datenbank aus den Etikettierdateien mit KielDat 25<br />

Abbildung 2.6: Das Sonagramm und die Etikettierung des Äußerungsabschnittes<br />

nicht zu spät. Trotz der Tilgung u:-+ weist das Label $-MA auf<br />

noch vorhandene Korrelate des Vokals im umliegenden Material. (Ref.:<br />

g074a010)<br />

Auszug aus einer Textdatei nach der Segmentation und Etikettierung.<br />

2.4 Erstellung einer Datenbank aus den Etikettierdateien<br />

mit KielDat<br />

Nach Abschluß der Segmentation und Etikettierung gibt es zu jeder<br />

Sprachsignaldatei eine Textdatei der Form, wie sie in Abb. 2.7 dargestellt<br />

ist. Mit Hilfe von textbearbeitenden Programmwerkzeugen wie grep, sed<br />

und awk oder perl, die unter dem Betriebssystem Unix zu finden sind,<br />

können einige detaillierte Untersuchungen an den Textdateien unternommen<br />

werden. Laut- und Worthäufigkeiten sind Beispiele, die mit relativ<br />

wenig Aufwand erfaßt werden können. Schon bei der Errechnung von<br />

Lautdauern wird ein wenig mehr an Programmiererfahrung verlangt, denn<br />

in einer Label-Zeile der Etikettierdatei wird lediglich der Beginn des betreffenden<br />

Signalabschnitts zeitlich festgehalten; sein Ende ist mit dem Beginn<br />

des nächsten Abschnitts und somit in der nächsten Zeile zu finden. In


26 Das Kiel Corpus<br />

Dateiname<br />

Orthographische Darstellung<br />

eines Dialogbeitrags<br />

Kanonische Transkription<br />

des Dialogbeitrages<br />

Phonetisch-phonologische<br />

Transkription des Beitrages<br />

(Variantentranskription)<br />

Zeit-Segment-Paare<br />

g101a010.s1h<br />

UTB010: denn k"onnen wir das doch dort festlegen<br />

.


,<br />

,<br />

,<br />

2.4 Erstellung einer Datenbank aus den Etikettierdateien mit KielDat 27<br />

9<br />

der Vokaluntersuchung von Kapitel 3 werden symbolische und zeitliche<br />

Informationen der Etikettierdateien verwendet, um akustischen Analysen<br />

zu bestimmten Zeitpunkten in der entsprechenden Signaldatei vorzunehmen.<br />

Eine solche Aufgabe ist aber aus verschiedenen Gründen komplizierter<br />

als eine “einfache” Textsuche. Um solche komplexe, aber auch andere<br />

einfachere Aufgaben leichter zu gestalten, werden die einzelnen Etikettierdateien<br />

zu einer Datenbank aufbereitet. Diese Datenbank enthält alle<br />

Informationen, die in den einzelnen Etikettierdateien zu finden sind, aber<br />

in einer Form, die weitere Analyseschritte wesentlich vereinfacht. Kiel-<br />

Dat (Pätzold 1997) stellt Programmwerkzeuge zur Erstellung einer Datenbank<br />

bereit sowie eine umfangreiche Bibliothek an awk-Funktionen, die<br />

auf Form und Inhalt einer Datenbank zugeschnitten sind und komplexe<br />

Analysen mit verhältnismäßig wenig Programmieraufwand ermöglichen.<br />

Die Datenbank ist eine Textdatei, die aus mehreren Zeilen besteht. Jede<br />

Zeile der Datenbank enthält entweder sämtliche Information zu einer<br />

lexikalischen Einheit aus einer Etikettierdatei oder das Material, das zwischen<br />

lexikalischen Einheiten in einer Etikettierdatei auftritt. Die Information<br />

zu einer lexikalischen Einheit ist in Feldern aufgeteilt, die durch die<br />

Verwendung von Tabulatoren und Leerzeichen getrennt werden. Die Felder<br />

enthalten verschiedene Arten von Information:<br />

symbolisch: orthographische Darstellung des Wortes sowie die kanonische<br />

und die Variantentranskription 5<br />

zeitlich: Anfangs- und Endzeitpunkte des Wortes; Anfangszeitpunkte<br />

und Dauern der einzelnen Segmente; Abtastfrequenz des zugehörigen<br />

Signals<br />

andere: Geschlecht, Transkriptionsformat, Name der Etikettierdatei,<br />

Erstellungsdatum.<br />

Die Strukur einer Zeile, aufgebrochen in seine einzelnen Felder, ist in<br />

Tabelle 2.1 angegeben. Um den programmtechnischen Aufbau der einzelnen<br />

Felder braucht sich der Benutzer nicht zu kümmern, denn zusätzlich<br />

zu den Werkzeugen, die eine Datenbank aus Etikettierdateien erstellt, steht<br />

auch eine umfangreiche Funktionsbibliothek zur Verfügung.<br />

5 Die kanonische Transkription wird auf Grund der Verschriftung erstellt, die Variantentranskription<br />

wird aus den tatsächlich gesetzten Etiketten hergestellt (siehe auch Abb. 2.7)


28 Das Kiel Corpus<br />

Tabelle 2.1: Die Felder einer Datenbankzeile für ein Token des Wortes und.<br />

(Ref.: g311a005)<br />

und<br />

orthographische Darstellung<br />

30 Position im Satz oder Turn<br />

orthographische Darstellung einer<br />

eventuellen Überlagerung (unbelegt)<br />

Position der Überlagerung (unbelegt)<br />

Q U n t+<br />

kanonische Transkription<br />

##Q- 00 $U 02 $n 04 $t-+ 06 Variantentranskription. Die Zahlen<br />

nach jedem Label zeigen die Positionen,<br />

die verwendet werden, um auf<br />

die Zeiten und Dauern der einzelnen<br />

Labels zugreifen zu können.<br />

02.10.1997 14:16 Datum und Uhrzeit der Herstellung<br />

des Eintrags<br />

g311a005.s1h<br />

Dateiname der Etikettierdatei, aus<br />

der dieser Eintrag stammt.<br />

g311a005<br />

Dateiname ohne Pfadangabe und Erweiterung<br />

SVA005<br />

Sprecher und Turn-Nummer<br />

m<br />

Geschlecht<br />

SAM<br />

Labelformat<br />

16000 Abtastfrequenz des zugehörigen<br />

Sprachsignals<br />

6.9236875 Zeitpunkt des Wortanfangs im<br />

Sprachsignal<br />

6.970625 Zeitpunkt des Wortendes im Sprachsignal<br />

6.9236875 Dieses und weitere gerade Felder<br />

enthalten die Anfangszeitpunkte der<br />

einzelnen Labels.<br />

0 Dieses und weitere ungerade Felder<br />

enthalten die Dauern der einzelnen<br />

Labels.<br />

6.9236875<br />

0.0223125<br />

6.946<br />

0.024625<br />

6.970625<br />

0


2.5 Status der Etikettierung und Segmentation 29<br />

I<br />

2.5<br />

Phonetisch-phonologischer Status der Etikettierung<br />

und Segmentation<br />

Die vorigen Abschnitte haben beschrieben, wie zeitliche Verbindungen<br />

zwischen abstrakten phonetischen und linguistischen Kategorien und den<br />

Sprachsignalen im Kiel Corpus hergestellt wurden. Bevor man sich jedoch<br />

in die Datenanalyse begibt, muß deutlich gemacht werden, welchen Status<br />

die Etikettierungen und die zeitlich abgesteckten Signalabschnitte haben.<br />

Die Art der Etikettierung und Segmentation, die im Kiel Corpus durchgeführt<br />

wird, ist nach der Kategorisierung von Barry und Fourcin (1992)<br />

als “broad phonetic” zu bezeichnen. Diese Bezeichnung stammt aus der<br />

britischen Schule (Sweet 1877; Jones 1967). Die Beziehung zwischen den<br />

segmentierten Signalabschnitten und den Etiketten läßt sich am besten innerhalb<br />

der phonetisch nahen Phonemtheorie von Jones (1967) ansiedeln.<br />

Signalabschnitte werden durch das Etikettieren mit Objekten aus einer<br />

Phonemtranskription als lautliche Mitglieder von bestimmten Phonemen<br />

erklärt. Durch das Etikettieren weiterer Details wie Glottalisierung, Nasalierung<br />

sowie durch Verwendung der allophonischen Elemente x und C<br />

wird die Etikettierung stellenweise zu einer engen Transkription (“linguisitically<br />

narrow transcription”, Jones 1967: 220). Die Etiketten, die phonologische<br />

Elemente des Deutschen darstellen, dürfen aber nie allgemeinphonetische<br />

Interpretationen erhalten, denn dies würde ihre Bedeutung<br />

weit verfehlen. Das Etikett $b beispielsweise kann mit einem Signalabschnitt<br />

verknüpft werden, der als stimmhafter bilabialer Plosiv kategorisiert<br />

wird. In vielen anderen Fällen jedoch liefert diese direkte phonetische<br />

Übersetzung keine akkurate Beschreibung des mit $b etikettierten Signalabschnitts.<br />

Häufige Korrelate J von im Deutschen sind einerseits der entstimmte<br />

bilabiale ¥ K L Plosiv in initialer Position sowie intervokalisch der<br />

stimmhafte bilabiale ¥ MN Approximant .<br />

Die Segmentation des Kiel Corpus ist das Ergebnis eines günstigen<br />

Kompromisses zwischen dem Wunsch, abstrakte phonologische Elemente<br />

mit ihren wichtigsten phonetischen Korrelaten im Sprachsignal zu verknüpfen,<br />

und der Forderung nach einer streng linearen Aufteilung des Signals.<br />

Unterschiede in der Segmentation haben wiederum Folgen für die<br />

Ergebnisse von Analysen, die mit ihr arbeiten. Diese Unterschiede können<br />

einerseits kleinere Details in der Abgrenzung sein, sie können aber auch<br />

grundsätzlicherer Natur sein. Illustrieren kann man diese Unterschiede am


30 Das Kiel Corpus<br />

(a)<br />

(b)<br />

Abbildung 2.8: Segmentationen und Etikettierungen der Wörter (a)<br />

schönes und (b) Günther von Sprecher k03. (Ref.: (a) k03be001, (b)<br />

k03be021)<br />

Beispiel der Segmentation der Vokale im Kiel Corpus, das Untersuchungsobjekt<br />

des nächsten Kapitels.<br />

In Untersuchungen zur Vokaldauer und -qualität müssen Entscheidungen<br />

getroffen werden über die Abschnitte in einer Äußerung, die zum Vokal<br />

erklärt werden. Im Kiel Corpus ist der Abschnitt, der zeitlich abgesteckt<br />

und als Vokal etikettiert wird, nicht selten eine stimmhafte friktionslose<br />

Strecke. Negativ beschrieben wird der Signalabschnitt abgesteckt,<br />

der nicht mehr mit der Phonetik von vorhergehenden und nachfolgenden<br />

Elementen zu vereinbaren ist. In Abfolgen von Frikativen oder Plosiven<br />

und Vokalen beginnt die als Vokal etikettierte Strecke mit dem Einsetzen<br />

von Stimmhaftigkeit und kräftiger Formantstruktur nach der Lösung der<br />

Frikativenge oder des Plosivverschlusses. Das Ende eines Vokals läßt sich<br />

erkennen an der starken Abschwächung der oberen Formanten zu Plosivverschlüssen<br />

hin oder daran, daß in Vokal-Frikativ-Abfolgen die spektrale<br />

Ausprägung der Friktionsenge überwiegt. Nach oder vor stimmhaften<br />

Lateralen oder Nasalen wird Vokalbeginn/-ende oft durch abrupte Änderungen<br />

im Formantverlauf angezeigt, die ebenfalls die Auflösung bzw.<br />

Herstellung eines oralen Verschlusses signalisieren. Die Segmentation und<br />

Etikettierung der Wörter schönes und Günther in Abb. 2.8 illustrieren die<br />

Abgrenzung von Vokalabschnitten in Plosiv-, Nasal- und Frikativ-Umgebungen.


2.5 Status der Etikettierung und Segmentation 31<br />

Die genaue Positionierung der Segmentgrenzen hat selbstverständlich<br />

Folgen für Analysen zur Vokaldauer. Aus Abb. 2.8 kann man sehen,<br />

daß die eine Vokalstrecke die Formantübergänge in einen vorhergehenden<br />

bzw. nachfolgenden Konsonanten beinhalten, so lang diese stimmhaft<br />

sind. Zur Vokalstrecke gehören aber nicht Aspirationsphasen von Plosiven,<br />

die getrennt markiert werden (siehe 2.3.3). Die Entscheidung, ob solche<br />

Übergänge zum Vokal oder zu den umliegenden Konsonanten zu zählen<br />

sind, muß in einer linearen Segmentation willkürlich getroffen werden,<br />

denn die Übergänge gehören sowohl zum Vokal als auch zum Konsonanten.<br />

Da diese Frage unentscheidbar ist, findet man in anderen Studien Unterschiede<br />

in der zeitlichen Abgrenzung von Vokalen, z.B. Peterson und<br />

Lehiste (1960) nehmen die Mitte der Explosionsphase eines Plosivs als<br />

den Beginn eines Vokals, während Fischer-Jørgensen (1964) den Beginn<br />

des Vokals auf Grund eines abrupten Anstiegs der logarithmischen Intensitätskurve<br />

(1964: 182) bestimmt.<br />

Zu ganz anderen Ergebnissen käme eine zeitliche Verknüpfung von<br />

Symbol- und Signalebenen, wie sie in Abb. 2.9 durchgeführt ist. Die vertikalen<br />

Linien im Sonagramm sind die linearen Segmentgrenzen des Kiel<br />

Corpus, die zwei horizontalen gestrichelten Linien stellen die Strecken<br />

dar, über die eine nichtlineare Segmentation die phonetischen Korrelate<br />

der phonologischen ! Elemente O und bestimmen könnte. Statt einer<br />

streng linearen Aufteilung des Signals werden die phonologischen Elemente<br />

mit den Signalabschnitten verknüpft, die ihre phonetischen Korrelate<br />

in irgendeiner Form enthalten. So ist der Signalabschnitt, der Korrelate<br />

des phonologischen O Elements enthält, mehr als der bilabialer<br />

Nasal, der in diesem Beispiel segmentiert und mit $m etikettiert wurde.<br />

Die zeitliche Ausdehnung der phonetischen Korrelate des phonologischen<br />

! Elements erstrecken sich viel weiter als der vokalische Anteil, der segmentiert<br />

und mit $’O etikettiert wurde. Diese nichtlineare Aufteilung hat<br />

zur Folge, daß bestimmte Signalstrecken von mehreren phonologischen<br />

Elementen belegt werden. Es wird explizit das durchgeführt, was nur ansatzweise<br />

im Kiel Corpus mit den Elementen $-q, $-˜ und $-MA angelegt<br />

ist. In einer nichtlinearen Segmentation treten Fragen zur Zugehörigkeit<br />

von Formantübergängen nicht auf, denn sie gehören automatisch zum<br />

Konsonanten und zum Vokal. Die Durchführung einer nichtlinearen Segmentation<br />

und seine anschließende Verwendbarkeit bringen jedoch Nachteile<br />

mit sich. Aus praktischer Sicht ist das Setzen von Grenzen für die<br />

Korrelate eines phonologischen Elements noch schwieriger als im linea-


32 Das Kiel Corpus<br />

##k<br />

$-h $’O $m<br />

$@-<br />

$n<br />

c<br />

m<br />

Abbildung 2.9: Sonagramm des Wortes kommen samt Segmentation (vertikale<br />

Striche) und Etikettierung. Die horizontalen gestrichelten Linien zeigen<br />

die mögliche zeitliche Ausdehnung der phonetischen Korrelate der<br />

phonologischen ! Elemente O und . (Ref.: g196a003)<br />

ren Ansatz, denn man muß im voraus schon wissen, welche akustischphonetischen<br />

Merkmale als Korrelate von welchen phonologischen Objekten<br />

dienen sollen, eine der Fragen, der auf Grund einer Datenbank nachzugehen<br />

ist. Schwerwiegender als die Segmentation sind die Probleme einer<br />

Analyse einer nichtlinearen Datenbank. Viele nichtlineare Fragestellungen,<br />

wie beispielsweise die Analyse des £ in Kapitel 4, lassen sich an einer<br />

linear segmentierten Datenbank erarbeiten. Die Bearbeitung bestimmter<br />

Fragestellungen, die für lineare, aber auch für nichtlineare Ansätze von<br />

Interesse sind, laßt sich jedoch nicht an einer nichtlinearen Segmentation<br />

durchführen. Sämtliche Analysen zur Vokalabschnittdauer oder solche<br />

Analysen wie die des nächsten Kapitels, die von der zeitlichen Abgrenzung<br />

von Vokalabschnitten abhängig sind, können mit Strecken, die wie !<br />

in Abb. 2.9 markiert werden, nichts anfangen.


Kapitel 3<br />

Deutsche Vokale - spontan<br />

und gelesen<br />

3.1 Einleitung<br />

Die zeitliche Verknüpfung eines Sprachsignals mit abstrakten phonetischen<br />

und linguistischen Kategorien ermöglicht komplexe, automatische<br />

Analysen von großen Datenmengen in kurzer Zeit, was den offensichtlichsten<br />

Einsatz einer phonetischen Datenbank darstellt. In diesem Kapitel<br />

wird die akustische Ausprägung des deutschen Vokalsystems in Spontanund<br />

Lesesprache präsentiert. Die Datenbasis für diese Untersuchung umfaßt<br />

fast das gesamte Kiel Corpus of Spontaneous Speech sowie etwa die<br />

Hälfte des Kiel Corpus of Read Speech. Mit 54 Sprechern (25 weiblich, 29<br />

männlich) und einer Gesamtaufnahmedauer von fast sechs Stunden stellt<br />

diese Untersuchung die bis zum gegenwärtigen Zeitpunkt umfangreichste<br />

Analyse des deutschen Vokalismus dar.<br />

Das Vokalsystem eines Sprechers läßt sich über Messungen der ersten<br />

zwei bzw. drei Formantfrequenzen akustisch charakterisieren. Obwohl die<br />

Bestimmung dieser Frequenzen allein nicht ausreichen mag, um Vokalqualität<br />

und Vokalkontrast vollständig zu bestimmen (Fant 1960; Maurer,<br />

Cook, Landis und D’Heureuse 1992), erlaubt eine passende graphische<br />

Darstellung der unteren Formanten ähnliche Aussagen im akustischen Bereich,<br />

wie sie in der auditiv-propriozeptiven Domäne (Catford 1977) der<br />

33


34 Deutsche Vokale - spontan und gelesen<br />

P impressionistischen Phonetik gemacht werden. Die Bestimmung der Formantfrequenzen<br />

eines Vokals kann mit Hilfe von geeigneten spektrographischen<br />

Darstellungen mit dem Auge durchgeführt werden. Diese Vorgehensweise<br />

ist jedoch unpraktikabel für die Datenmenge, die hier untersucht<br />

wird, und nutzt außerdem die Möglichkeiten des Kiel Corpus nicht aus,<br />

das einen genauen zeitlichen und sprachkategorisch gesteuerten Zugriff<br />

auf die Sprachsignale ermöglicht. Unter Verwendung einer LPC-Analyse,<br />

deren Ergebnisse anschließend sortiert werden, kann die Formantbestimmung<br />

automatisch ablaufen, auch wenn der Vokaltyp mehrerer Messungen<br />

bedarf, um den Formantverlauf charakterisieren zu können, wie es bei Diphthongen<br />

der Fall ist.<br />

Dieses Kapitel verfolgt zwei Ziele. Im Vordergrund steht die Beschreibung<br />

von bestimmten akustischen Aspekten des deutschen Vokalsystems,<br />

wie es von Frauen und Männern in unterschiedlichen sprachlichen Aktivitäten<br />

realisiert wird. Das zweite, methodologische, Ziel ist zu zeigen,<br />

wie die automatische Analyse der phonetischen Korrelate von sprachlichen<br />

Kategorien an einer Datenbank wie dem Kiel Corpus durchgeführt<br />

werden kann.<br />

In der artikulatorischen Produktion verschiedener Vokalqualitäten<br />

kann das Ansatzrohr als komplexes Filter betrachtet werden, das durch<br />

Bewegungen der Zunge, der Lippen, des Gaumensegels und des Rachenraumes<br />

in seiner Form verändert wird. Bestimmte Frequenzanteile eines<br />

komplexen Signals, wie das der Stimmbandschwingung, werden beim Passieren<br />

durch das Filter entsprechend seinen Eigenfrequenzen hervorgehoben<br />

bzw. unterdrückt. Diese bilden sich in den Formanten des erzeugten<br />

Vokals ab. Frequenzanalysen des akustischen Sprachsignals erlauben gewisse<br />

Aussagen über die Resonanzfrequenzen des Ansatzrohres.<br />

3.2 Phonologie der deutschen Vokale<br />

Eine phonologische Aufstellung des deutschen Vokalsystems kann anhand<br />

von groben phonetischen Beobachtungen erfolgen. Wichtiger ist, daß<br />

dieses System nicht allein auf Grund von phonetischen Eigenschaften,<br />

wie Vokalqualität oder Länge, sondern auch hinsichtlich lexikalischer und<br />

grammatikalischer Beziehungen erfaßt wird. Bei der Aufstellung eines solchen<br />

Systems müssen folgende Faktoren berücksichtigt und systematisch<br />

dargestellt werden:


T<br />

T<br />

T<br />

3.2 Phonologie der deutschen Vokale 35<br />

1. Die Beziehung zwischen Huf und Hof ist auch zu finden in den<br />

Paaren Hiebe / hebe, Hübe / höbe, Hessen / hassen, beten / baten.<br />

2. Die Unterschiede zwischen den Gliedern der folgenden Wortpaare<br />

sind phonologisch gleich: bitte / biete, Busse / Buße, Schrott / Schrot,<br />

Stadt / Staat.<br />

3. Der Unterschied zwischen den Wörtern im Paar Lech / Loch ist derselbe<br />

in den Paaren Sicht / Sucht, bete / Bote, schief / schuf.<br />

4. Die Qualität der Vokalabschnitte in der ersten Silbe der Wörter<br />

kriechen, Huchen, lachen, Brüche ist eher monophthongal, in den<br />

Wörtern Bauch, Bäuche und Beichte hingegen ist sie diphthongal.<br />

5. Bestimmte Vokalalternationen erfüllen verschiedene grammatikalische<br />

Funktionen: Mutter / Mütter, Bruder / Brüder, Koch / Köche,<br />

groß / größer Bach / Bäche, Haus / Häuser, lang / länger.<br />

QSRUT<br />

V<br />

W X<br />

W Q WYV Q X R XZV R T V<br />

W T[W<br />

X<br />

T[X<br />

X V Q X\W V Q V W V<br />

W<br />

T]X\W T]X<br />

Die Triade erfaßt die Alternationen der Vokalhöhe in (1). Die<br />

Unterschiede in (2) werden durch für das erste und für das zweite Element<br />

jedes Paares ausgedrückt. Die Beziehung zwischen den Wörtern in<br />

(3) wird durch für das erste und für das zweite Glied erfaßt. Für die Alternationen<br />

in (1) bis (3) sieht die Notation mit Beispielwörtern wie folgt<br />

aus: (biete), (bitte), (Schrot), (Schrott), (Staat), (Stadt).<br />

Der Unterschied zwischen den Monophthongen und Diphthongen wird lediglich<br />

durch eine andere Plazierung der Symbole und angegeben:<br />

(Beichte) und (Bauch). Die Alternationen in (5) werden durch das Hinzufügen<br />

von erfaßt: / (Mutter / Mütter), / (Bach / Bäche),<br />

/ (Haus / Häuser).<br />

Diese Analyse des deutschen Vokalsystems erinnert in Aufstellung und<br />

Aussehen stark an die prosodische Phonologie von Firth (Firth 1948). Die<br />

Erarbeitung eines phonologischen Systems auf Grund von phonetischen<br />

Ähnlichkeiten und Unterschieden in den Äußerungen einer Sprache bildet<br />

den Grundstein jedes phonologischen Ansatzes. Wichtiger Unterschied zu<br />

anderen Ansätzen ist das Erfassen von phonetischen Mustern, die grammatikalische<br />

Funktionen erfüllen, d.h. die Beziehung von bestimmten Vokalen<br />

zu ihren umgelauteten Gegenstücken wird in der Phonologie einheitlich<br />

erfaßt. Die explizite Berücksichtigung von grammatikalischen Beziehung<br />

hat eine Folge: die Phonologie einer Sprache richtet sich nach


T<br />

36 Deutsche Vokale - spontan und gelesen<br />

0 den vorgefundenen Beziehungen in der Sprache und ist somit sprachspezifisch.<br />

Im Extremfall heißt dies, daß eine Sprache mit der gleichen Anzahl<br />

von Vokaloppositionen und einer identischen phonetischen Ausprägung<br />

der Vokale nicht dieselbe Phonologie haben würde, wenn die Vokalalternationen<br />

in anderen Beziehungen zueinander stünden. Dies steht im starken<br />

Widerspruch zu den Versuchen, eine universelle Merkmalstheorie aufzustellen,<br />

die ihren Ursprung in der Prager Schule (Trubetzkoy 1939) und<br />

der daraus entstandenen Merkmalstheorie von Jakobson, Fant und Halle<br />

(1952) hat.<br />

Dieser Abschnitt hat unter Verwendung einer Firth’schen Phonologie<br />

bestimmte Beziehungen zwischen den Vokalalternationen im Hochdeutschen<br />

klargestellt. Um den Weg durch dieses Kapitel zu erleichtern und<br />

auch die verschiedenen Diagramme übersichtlicher zu machen, werden<br />

aber die üblichen, phonemähnlichen IPA-Transkriptionen der Vokale verwendet.<br />

Diese Darstellung sollte aber stellvertretend für die hier vorgestellten<br />

phonologischen Formeln betrachtet werden. Da es sich nicht um eine<br />

phonemische Aufstellung handelt, wird eine Hervorhebung durch Fettdruck<br />

gemacht und auf eine Klammerung durch (^^ Schrägstriche ) verzichtet.<br />

Tabelle 3.1 enthält eine Aufstellung der Monophthonge und Diphthonge<br />

mit ihren IPA-Transkriptionen neben der prosodisch-phonologischen<br />

Notation zusammen mit Beispielwörtern. Die SAMPA-Notation der Etiketten<br />

ist zur Ergänzung noch einmal aufgeführt. In einem Fall _ – – stehen<br />

der IPA-Notation zwei prosodische Formeln gegenüber. Dies ergibt<br />

sich einmal aus der lexikalischen Alternation in Paaren wie bete / bette,<br />

die R mit dargestellt wird sowie aus der grammatikalischen Beziehung in<br />

Paaren wie Band / Bände, die T mit zu belegen ist. Es wird hier angenommen,<br />

daß die phonetischen Korrelate Ẁ V R von W[V und gleich sind. In<br />

der Analyse werden daher alle Vokalabschnitte, die mit E etikettiert sind,<br />

zusammen behandelt. Neben den diskutierten Vokalen, die in betonten Silben<br />

vorkommen, sind die Vokale aus den unbetonten Silben der Wörter<br />

Beichte und Häuser auch aufgeführt.


a<br />

<br />

c<br />

d<br />

_<br />

e<br />

f<br />

<br />

V<br />

3.3 Andere Studien zum hochdeutschen Vokalismus 37<br />

Tabelle 3.1: Phonemische IPA-Transkription, sowie Darstellungen in prosodisch<br />

phonologischer Notation und SAMPA der hochdeutschen Monophthonge<br />

und Diphthonge zusammen mit Beispielwörtern.<br />

( W Q<br />

WbV Q<br />

( X\W Q<br />

" Q X\WbV<br />

W ( R<br />

T R W W V V<br />

( R X\W<br />

R X\W>V<br />

T W _(<br />

T B(<br />

T<br />

X R *(<br />

R XSV !<br />

')( X Q<br />

IPA Prosodisch SAMPA Beispiel<br />

i: biete<br />

I bitte<br />

y: Güte<br />

Y Lücke<br />

e: bete<br />

/ E Bett / Bände<br />

2: löse<br />

9 Götter<br />

E: Käse<br />

a: Staat<br />

a Stadt<br />

o: Los<br />

O Loch<br />

u: Fuß<br />

Q XgV<br />

T]W <br />

T]X<br />

!#" T]X\W<br />

U Kuß<br />

aI Beichte<br />

aU Haus<br />

OY Häuser<br />

@ Beichte<br />

6 Häuser<br />

3.3 Andere Studien zur akustischen Ausprägung<br />

des hochdeutschen Vokalismus<br />

Die Erfindung der Sonagraphie in den vierziger Jahren (Potter, Kopp und<br />

Kopp 1966) bot zum ersten Mal die ernsthafte Gelegenheit, eine Frequenzanalyse<br />

einer Äußerung über die Zeit zu bekommen. Aber auch in den<br />

zwanziger und dreißiger Jahren sind Versuche unternommen worden, an<br />

die akustische Struktur von deutschen Vokalen zu gelangen. Barczinski<br />

und Thienhaus (1935) untersuchen einige Lauttypen des Deutschen mit<br />

dem Suchtonverfahren von Grützmacher (1927). Dieses Verfahren besitzt


38 Deutsche Vokale - spontan und gelesen<br />

l jedoch einen großen Nachteil, der die Verwendung der Wörter “deutsch”<br />

und “Sprachlaute” im Titel der Studie von Barczinski und Thienhaus kaum<br />

rechtfertigt: um Frequenzanteile eines Lautes bis zu einer Frequenz von<br />

4 kHz analysieren zu können, mußte der Laut mehrere Minuten lang bei<br />

gleichbleibender Qualität produziert werden, was nur von einem gut trainierten<br />

Sänger (Barczinski) gemacht werden kann.<br />

Es gibt verhältnismäßig wenige akustische Untersuchungen zur allgemeinen<br />

akustischen Charakterisierung des hochdeutschen Vokalismus seit<br />

dem Einzug der Spektrographie. Die Mehrheit der Studien sind im Vergleich<br />

zu analogen Studien zum Englischen (Peterson und Barney 1952;<br />

Hillenbrand et al. 1995) auch in ihrem Umfang klein. Ausnahmen bilden<br />

Pätzold und Simpson (1997) sowie Heid, Wesenick und Draxler (1995) 1 .<br />

Die erste ernsthafte spektrographische Untersuchung zum hochdeutschen<br />

Vokalsystem ist Jørgensen (1969). Jørgensens Daten sind von männlichen<br />

Sprechern und stammen aus zwei Quellen. Einen Teil bilden Sonagramme<br />

von isolierten Wörtern, produziert von drei Sprechern. Bei einem<br />

der Sprecher handelt es sich um Material für einen Aussprachekurs. Der<br />

zweite Teil besteht aus isolierten zweisilbigen Wörtern, deren Konsonanten<br />

die Formantstruktur der jeweiligen Vokale so wenig wie möglich beeinflussen<br />

sollten. Sechs Sprecher wurden aufgenommen, von denen die drei<br />

geeignetsten zur spektrographischen Untersuchung herangezogen wurden.<br />

Beide Sprechergruppen werden als hochdeutsch beschrieben und die Sprache<br />

von einem Sprecher aus der ersten Gruppe wird als “eine sehr geschliffene<br />

Bühnensprache norddeutschen Gepräges” charakterisiert.<br />

Rausch (1972) 2 hat gezielt vier Sprecher (männlich) ausgesucht, die in<br />

ihrer Sprache ein vorbildliches Hochdeutsch darstellen sollen: einen Phonetiker<br />

und drei Sprechkundler. Im Gegensatz zu Jørgensen (1969) wurde<br />

ein wissenschaftlicher Text 3 sowie nicht weiter spezifizierte Zusatztexte<br />

verwendet, die fehlende Vokale aus dem Haupttext belegen sollten.<br />

Mehrere Arbeiten von Iivonen (1983, 1987a, 1987b, 1993) untersuchen<br />

die Vokalsysteme regionaler Varietäten sowie die Realisierung von Vo-<br />

1 Trotz einer großen Datenbasis von 16 Sprechern, die jeweils 64 Sätze gesprochen haben,<br />

ist die Studie von Heid, Wesenick und Draxler (1995) von geringem Nutzen, denn sämtliche<br />

Formantwerte von weiblichen und männlichen Sprechern werden zusammengeworfen, ohne<br />

vorher eine geeignete Normalisierung durchgeführt zu haben.<br />

2 Die Ergebnisse dieser Studie werden immer noch zur Illustration der akustischen Ausprägung<br />

der deutschen Monophthonge in Einführungstexten verwendet (Kohler 1995a;<br />

Pompino-Marschall 1995).<br />

3 “Das neue physikalische Denken” von R. March.


3.3 Andere Studien zum hochdeutschen Vokalismus 39<br />

m<br />

kalsystemen in verschiedenen Regionalfärbungen. Iivonen (1979) 4 untersucht<br />

akzentuierte Monophthonge in zweisilbigen Wörtern mit der Struktur<br />

. Die Wörter wurden von zwei Sprechern im Trägersatz Sag x<br />

J V(Gn$F<br />

nochmal! zwölfmal wiederholt, wobei die erste und letzte Wiederholung<br />

zur Weiteranalyse weggelassen wurden. Beide Sprecher waren männliche<br />

Germanisten, die Hochdeutsch mit leichter regionaler Färbung sprachen.<br />

Iivonen (1984) vergleicht hochdeutsche und schweizerhochdeutsche<br />

Realisierungen von Monophthongen von insgesamt acht Sprechern. Die<br />

hochdeutsche Gruppe enthielt drei Männer und zwei Frauen, von den drei<br />

Schweizerdeutschen war eine weiblich. Das gelesene Material bestand aus<br />

den zweisilbigen Wörtern in Satzrahmen von Iivonen (1979) sowie aus anderen<br />

zweisilbigen Wörtern, die entweder in Zwölfergruppen oder isoliert<br />

(mit Pausen) gesprochen wurden.<br />

Ramers (1988) untersucht vier Sprecher, die Einzelwörter 5 sowie<br />

zwanzig Sätze produzierten, um Monophthonge in akzentuierten und<br />

nichtakzentuierten Kontexten zu erhalten. Die Sprecher waren männliche<br />

wissenschaftliche Mitarbeiter des Kölner Instituts für Phonetik, und<br />

ihr Deutsch wird negativ charakterisiert als frei von “starker dialektaler<br />

Färbung” (Ramers 1988: 168).<br />

Aus diesen Arbeiten bildet sich ein recht homogenes Bild, was die<br />

Sprecher und das produzierte Material betrifft. Die untersuchten Sprecher<br />

sind überwiegend Männer, außer der Untersuchung von Iivonen (1984),<br />

die drei Frauen enthielt. Die Versuchspersonen in den meisten Studien<br />

(Jørgensen 1969; Rausch 1972; Iivonen 1979, 1987a; Ramers 1988) sind<br />

nicht nur Hochdeutschsprecher sondern sind auch sprachlich trainiert. Dieses<br />

ist sicherlich von Vorteil, was das sonst ungewohnte Vorlesen betrifft,<br />

aber es liegt der Verdacht nahe, daß man eine bestimmte artikulatorische<br />

Reinheit aus einer solchen Gruppe erhofft, ohne diese näher definieren zu<br />

können. Das untersuchte Material ist ausschließlich gelesen. Um Vokale<br />

im gleichen Kontext zu erhalten, werden z.T. Wörter verwendet, die dem<br />

Hochdeutschen fremd sind, weil sie dialektaler Herkunft oder gar Logatome<br />

sind. So enthält die Liste der Zweisilbler aus Iivonen (1979) und Ramers<br />

(1988) die Wörter Butten, Botten, Bütten bühten und buten (Ramers<br />

verwendet buhten).<br />

4 Iivonen (1987a) verwendet die Daten von Sprecher MR aus Iivonen (1979).<br />

5 Ramers verwendet eine ähnliche Liste von zweisilbigen Wörtern wie Iivonen (1979).


,<br />

,<br />

,<br />

40 Deutsche Vokale - spontan und gelesen<br />

3.4 o<br />

Probleme bei der Messung von Vokalsystemen<br />

Bevor man an die Messung der akustischen Korrelate eines Vokalsystems<br />

herangehen kann, müssen die Probleme dieses Unterfangens klar sein. Außer<br />

den praktischen Schwierigkeiten, Vokale automatisch zu messen, gibt<br />

es eine Reihe von Problemen theoretischer Natur, die sich in folgenden<br />

Fragen zusammenfassen lassen:<br />

Welche Signalabschnitte gelten als Vokale, welche nicht?<br />

Wenn man einen Vokal gemessen hat, welchen Status hat diese Messung?<br />

Wo im Sprachsignal mißt man?<br />

3.4.1 Phonologische und phonetische Vokale<br />

Als erstes muß ein Unterschied zwischen Objekten auf zwei unterschiedlichen<br />

Abstraktionsebenen gemacht werden, d.h. zwischen einem Vokal<br />

im phonologischen und einem Vokal im phonetischen Sinne. Ein phonologischer<br />

Vokal ist ein Term in einem abstrakten linguistischen System.<br />

Dieses System wird auf Grund von phonetischen Ähnlichkeiten und Unterschieden<br />

in Äußerungen aufgestellt (siehe 3.2). Die einzelnen Elemente<br />

sind aber keine Laute, sondern Knoten in einem Netz von Beziehungen. Je<br />

nach phonologischer Theorie ist die Beziehung der phonologischen Elemente<br />

zur phonetischen Masse, über die sie abstrahieren, unterschiedlich.<br />

Im Falle eines Prager Phonemsystems nach Trubetzkoy (1939) abstrahiert<br />

ein Phonem allein über die Phonetik, die es von anderen Systemgliedern<br />

in der betreffenden Sprache unterscheidet, während in einer phonetisch<br />

nahen Auffassung des Phonems, wie sie bei Jones (1967) zu finden ist,<br />

das Phonem stellvertretend für eine Gruppe von Lauten steht. Der phonetische<br />

Vokal läßt sich ausschließlich anhand artikulatorischer, auditiver<br />

oder akustischer Kriterien definieren. Der vocoid von Pike (1943) und das<br />

Kardinalvokalsystem von Jones (1917) sind zwei artikulatorisch-auditive<br />

Definitionen eines phonetischen Vokals, die nichts mit der sprachlichen<br />

Funktion eines Lautes zu tun haben.<br />

Durch die klare Trennung zwischen den phonetischen und phonologischen<br />

Abstraktionen ist es möglich von einem phonetischen Vokal zu


3.4 Status des Gemessenen 41<br />

p<br />

sprechen, dessen Qualität aus der zeitlichen Überlappung der phonetischen<br />

Korrelate mehrerer phonologischer Elemente resultiert. Andererseits<br />

können Signalabschnitte, die phonetisch konsonantisch sind, die phonetischen<br />

Korrelate von phonologischen Vokalen enthalten. Ein Sonagramm<br />

des Wortes welches in Abb. 3.1 illustriert beide Fälle. Der Signalabschnitt,<br />

etikettiert mit $E $%l, ist phonetisch gesehen vokalisch. Die artikulatorische<br />

Enge verursacht keine lokalen Turbulenzen, die zur Friktion führen,<br />

und die Luft entweicht über einen zentralen Kanal aus dem Mund. Dieser<br />

vokalische Abschnitt, der auditiv ein vorn schließender Diphthong ist, besteht<br />

jedoch aus den phonetischen Korrelaten des phonologischen _ Vokals<br />

und des phonologischen H Konsonanten . Der Abschnitt in der zweiten Silbe<br />

des Wortes, der mit $@ etikettiert ist, ist jedoch kein phonetischer Vokal,<br />

obwohl er die phonetischen Korrelate des phonologischen $ Vokals enthält.<br />

Dieser Abschnitt unterscheidet sich zwar durch eine ausgeprägte Formantstruktur<br />

und weniger Unregelmäßigkeit im oberen Frequenzbereich von<br />

den Abschnitten links und rechts, die mit ($C) bzw. ($S+) etikettiert sind,<br />

aber auditiv ist dieser Abschnitt deutlich als Frikativ zu erkennen.<br />

In einer akustischen Untersuchung des Vokalsystems einer Sprache<br />

will man Aussagen über die akustischen Korrelate der phonologischen Vokalkategorien<br />

in dieser Sprache machen, nicht jedoch über phonetische<br />

Vokalkategorien als solche. Abb. 3.1 dient hier wieder als Beispiel. Eine<br />

Untersuchung der Diphthonge des Deutschen wäre nicht an Vokalabschnitten,<br />

wie sie in der ersten Silbe des Wortes welches auftreten, interessiert,<br />

denn dieser Abschnitt ist nur phonetisch als Diphthong zu klassifizieren,<br />

nicht jedoch als Korrelat eines der phonologischen Diphthonge , !#" , .<br />

3.4.2 Status des Gemessenen<br />

Eine Mittlung von Formantmessungen in der Mitte von mehreren Vokalabschnitten<br />

desselben phonologischen Monophthongs 6 kann als akustisches<br />

Korrelat des betreffenden Vokals dienen. Diese Vorgehensweise<br />

macht zwei Annahmen. Erstens, die Korrelate der phonologischen Monophthonge<br />

in der untersuchten Sprachprobe lassen sich hinreichend durch<br />

jeweils eine Messung aus den betreffenden Vokalabschnitten charakterisieren.<br />

Zweitens, die phonetischen Korrelate eines Vokals sind immer diesel-<br />

6 Eine geeignete Behandlung von Diphthongen wird im nächsten Abschnitt 3.4.3 besprochen.


,<br />

,<br />

,<br />

42 Deutsche Vokale - spontan und gelesen<br />

Abbildung 3.1: Sonagramm und Etikettierung des Wortes welches gesprochen<br />

von einem männlichen Sprecher. (Ref.: g423a004)<br />

ben 7 , und die oberflächlich beobachtbaren und erfaßbaren Unterschiede,<br />

die sich in den einzelnen Vokalabschnitten niederschlagen, sind auf eine<br />

Reihe von Faktoren zurückzuführen:<br />

Bei kurzer Vokaldauer reicht die Zeit nicht aus, um das Ziel der Vokalbewegung<br />

zu erreichen.<br />

Phonetische Korrelate von anderen phonologischen Elementen treten<br />

zeitgleich mit denen des Vokals auf.<br />

Gewisse Variation ist in jedem komplexen biologischen System wie<br />

dem Artikulationsapparat enthalten.<br />

7 Stevens und House (1963) schlagen eine weitere Möglichkeit vor: oberflächliche Unterschiede<br />

in Vokalqualität könnten auf gezielten Modifikationen des Vokals beruhen, die<br />

zusätzliche Hinweise (cues) zur Wahrnehmung des Vokals und der umgebenden Konsonanten<br />

liefern.


,<br />

3.4 Akustische Charakterisierung von Diphthongen 43<br />

Meßfehler.<br />

Ein Teil von jeder Messung, die in die Mittlung eingeht, enthält mehr<br />

oder weniger vokalfremde Information, denn kein Äußerungsabschnitt<br />

enthält die Korrelate eines einzelnen phonologischen Objektes. Der Abschnitt<br />

in Abb. 3.1, der mit @ etikettiert ist, ist ein klarer Fall. Die Korrelate<br />

des $ Vokals und die der q Frikative r und überlappen zeitlich. In<br />

manchen Studien wird dennoch versucht, die zeitliche Überlappung der<br />

Korrelate von anderen phonologischen Objekten mit denen des Vokals zu<br />

minimieren. So bieten die Wörter aus Jørgensen (1969) den Vokalen präund<br />

postvokalische konsonantische Kontexte, die die Vokalqualität so wenig<br />

wie möglich beeinflussen sollen: % prävokalisch oder nichts, postvokalisch<br />

labiale Konsonanten nach hinteren gerundeten Vokalen, dorsale oder<br />

apikale nach vorderen Vokalen. Aber auch inmitten eines relativ langen<br />

vokalischen Abschnitts, in dem man meinen könnte, die umgebenden Konsonanten<br />

hätten wenig Einfluß auf die Vokalqualität, kann neben den phonetischen<br />

Korrelaten eines Vokals auch die Phonetik anderer Elemente zu<br />

finden sein. Korrelate von intonatorischen Elementen sind in der Tonhöhe<br />

zu finden, aber auch in der Qualität eines Vokalabschnitts ist die Phonetik<br />

von anderen Elementen enthalten. Ein solches Beispiel verzeichnen Local,<br />

Kelly und Wells (1986) in einer Untersuchung von Turn-taking in Urban<br />

Tyneside. Neben den phonetischen Eigenschaften von Turn-Finalität, die<br />

man erwarten würde, wie Tonhöhe, Tempo, Lautstärke und Stimmqualität,<br />

finden sie auch eine Zentralisierung der Vokalqualität 8 . Der sogenannte<br />

Nullkontext, in dem ein Vokal isoliert gesprochen wird (z.B. Stevens und<br />

House 1963), entgeht auch diesem Problem nicht, denn obwohl der Vokal<br />

frei von konsonantischem Einfluß ist, bleibt er eine Äußerung und nimmt<br />

in dieser Äußerung die finale Position ein.<br />

3.4.3 Die akustische Charakterisierung von Diphthongen<br />

Im vorhergehenden Abschnitt wird eine adäquate Charakterisierung der<br />

akustischen Korrelate eines Monophthongs auf eine Messung inmitten eines<br />

betreffenden Abschnitts beschränkt. Eine akustische Charakterisierung<br />

8 Die Zentralisierung des Vokals in der zweiten Silbe von isoliert gesprochenen zweisilbigen<br />

Wörtern in Nord (1975, 1986) kann auch auf Äußerungsfinalität zurückgeführt werden.


44 Deutsche Vokale - spontan und gelesen<br />

0 von Diphthongen ist aus verschiedenen Gründen nicht so einfach zu finden,<br />

denn es gibt unterschiedliche Interpretationsmöglichkeiten für die artikulatorischen<br />

Bewegungen und die akustischen Produkte dieser Bewegungen.<br />

In symbolphonologischen und symbolphonetischen Darstellungen<br />

eines Diphthongs werden gewöhnlich zwei Vokalsymbole verwendet. Sie<br />

kennzeichnen lediglich zwei Vokalqualitäten, ohne Auskunft über die zeitliche<br />

Beziehung der beiden Vokalqualitäten zueinander zu liefern. Mindestens<br />

die folgenden Möglichkeiten zur Beschreibung und Charakterisierung<br />

der Dynamik von Diphthongen sind in Erwägung zu ziehen:<br />

Über eine gewisse Strecke am Anfang des Diphthongs wird die erste<br />

Vokalqualität erzielt. Nach einer bestimmten Zeit beginnt ein<br />

,<br />

Übergang in Richtung auf die zweite Vokalqualität mit einer festgelegten<br />

artikulatorischen Geschwindigkeit. Steht genügend Zeit zur<br />

Verfügung, wird die zweite Qualität erreicht. Ist die Zeit zu kurz,<br />

wird eine Vokalqualität am Ende des diphthongalen Abschnitts erreicht,<br />

die zwischen Anfangs- und Endqualität liegt.<br />

Über eine gewisse Strecke am Anfang des Diphthongs wird die erste<br />

Vokalqualität erzielt. Nach einer bestimmten Zeit wird die zwei-<br />

,<br />

te Vokalqualität angepeilt. Die Geschwindigkeit, mit der die Zunge<br />

zum zweiten Vokalziel bewegt wird, hängt von der zur Verfügung<br />

stehenden Zeit ab, je kürzer die Zeit, desto höher die Geschwindigkeit<br />

der Bewegung.<br />

Über eine gewisse Strecke am Anfang des Diphthongs wird die erste<br />

Vokalqualität erzielt. Nach einer bestimmten Zeit wird die zwei-<br />

,<br />

te Vokalqualität mit einer festgelegten Geschwindigkeit angepeilt.<br />

Wenn mehr Zeit zur Verfügung steht als notwendig ist, die zweite<br />

Vokalqualität zu erreichen, so wird die Geschwindigkeit verlangsamt.<br />

Diese verschiedenen Möglichkeiten anhand von Daten aus einem spontansprachlichen<br />

Korpus zu überprüfen, bereitet gewisse Probleme, denn<br />

weder der zeitliche Kontext noch die lautliche Umgebung ist kontrollierbar.<br />

Dennoch ist gerade die Spontansprache für die Untersuchung der Dynamik<br />

von Diphthongen von großem Interesse. An einem Extrem werden<br />

kurze Vokalabschnitte in Funktionswörtern wie ein und mein gefunden,<br />

die phonetisch gesehen keine Diphthonge mehr sind. Am anderen Extrem


3.4 Akustische Charakterisierung von Diphthongen 45<br />

p<br />

stehen Vokalabschnitte, deren Länge auch die Funktion einer Häsitation<br />

erfüllt. Eine solche Länge in einer kontrollierten Situation hervorzurufen,<br />

kann nur durch eine explizite Aufforderung erfolgen. Welchen Status ein<br />

bewußt erzeugter überlanger Vokal hat, ist negativ zu beschreiben: er hat<br />

mit großer Wahrscheinlichkeit nur wenig mit der Produktion eines überlangen<br />

Vokals gemeinsam, der eine interaktive Rolle in der Struktur eines<br />

Gesprächs spielt.<br />

Die Meßstrategien in akustischen Beschreibungen von Diphthongen<br />

sind fast so zahlreich, wie die Arbeiten selbst. Im einfachsten Fall (z.B.<br />

Lehiste und Peterson 1961; Pätzold und Simpson 1997) wird ein Diphthong<br />

lediglich durch seine Anfangs- und Endqualität definiert. In der<br />

elektromyographischen und akustischen Untersuchung von Collier, Bell-<br />

Berti und Raphael (1982) wird zusätzlich zur Anfangs- und Endqualität<br />

ein weiterer Meßpunkt in der Mitte des Vokalabschnitts genommen. Holbrook<br />

und Fairbanks (1962) wählen fünf Meßpunkte bei der Messung von<br />

äußerungsfinalen Diphthongen, jeweils am Anfang und Ende sowie drei<br />

weitere äquidistante Punkte dazwischen. Diese Strategie wird auch von<br />

Narahara, Shimoda und Okamoto (1977) in ihrer Beschreibung von deutschen<br />

Diphthongen verfolgt. Am meisten greifen theoretische Annahmen<br />

über die Produktion eines Diphthongs in die Messungen von Gay (1968)<br />

hinein. Er unterteilt den diphthongalen Abschnitt schon bei der Messung<br />

in “Onset steady state”, “Glide” und “Offset steady state” und bestimmt<br />

für jeden Abschnitt, falls vorhanden, eine Dauer sowie Formantfrequenzen<br />

der Anfangs- und Endphasen, bzw. am Anfang- oder Ende der Gleitphase,<br />

wenn Onset oder Offset fehlt.<br />

Eine geeignete Meßstrategie für Diphthonge in fortlaufender Rede<br />

muß zwei Ziele verfolgen:<br />

1. Die gewonnenen Meßwerte sollten soweit wie möglich nur die Bewegungsabläufe<br />

im Vokalabschnitt charakterisieren, die den phonetischen<br />

Korrelaten des Diphthongs zuzuschreiben sind, d.h. die<br />

direktesten Folgen anderer benachbarter Vokal- und Konsonantenabschnitte<br />

sollen so wenig wie möglich in der Messung vorhanden<br />

sein.<br />

2. Die Meßwerte von mehreren Vokalabschnitten müssen miteinander<br />

vergleichbar sein, damit man z.B. Mittelwerte bilden kann.


46 Deutsche Vokale - spontan und gelesen<br />

Um beiden Forderungen nachzukommen, wurde eine automatische<br />

Meßstrategie entwickelt, die der Methode von Holbrook und Fairbanks<br />

(1962) am meisten ähnelt. Deren Strategie ist dennoch für die hiesigen<br />

Daten aus verschiedenen Gründen zu grob und eignete sich schon für die<br />

Untersuchung von Narahara, Shimoda und Okamoto (1977) nicht. Holbrook<br />

und Fairbanks haben Sätze mit Eigennamen am Ende aufgenommen,<br />

die eine einfache % V-Struktur hatten, z.B. “My name is John Howe”.<br />

Der geringe Einfluß des initialen glottalen Frikativs auf den Vokal sowie<br />

der einheitliche Kontext der Äußerungsfinalität erlaubten eine Formantbestimmung<br />

unmittelbar am Anfang und Ende des diphthongalen Abschnitts,<br />

d.h. gleich nach dem Einsetzen der Stimmhaftigkeit im Vokal sowie am<br />

Ende am letzten Punkt, an dem eine Formantstruktur noch zu erkennen<br />

war.<br />

Für Diphthonge in fortlaufender Rede ist die Strategie von Holbrook<br />

und Fairbanks ungeeignet, denn die Dauern der einzelnen diphthongalen<br />

Abschnitte variieren stark, was gegen eine fixe Anzahl von Punkten<br />

spricht. Die prä- und postvokalischen Kontexte variieren ebenfalls, was<br />

gegen Formantmessungen an Punkten unmittelbar am Beginn und Ende<br />

des betreffenden Vokalabschnitts spricht 9 . Aus diesen Gründen wurde die<br />

Anzahl der Meßpunkte für Vokalabschnitte von unterschiedlicher Dauer<br />

flexibel gehalten, und die Formanten wurden nicht unmittelbar am Anfang<br />

und Ende eines Abschnitts bestimmt, sondern jeweils 20 ms nach dem Anfang<br />

bzw. vor dem Ende, um die direktesten Folgen der konsonantischen<br />

Umgebung zu vermeiden. Der genaue Abstand zwischen den Meßzeitpunkten<br />

wird innerhalb bestimmter Grenzen variiert, damit diphthongale<br />

Abschnitte innerhalb von Dauergruppen von einer festen Zahl an Meßpunkten<br />

definiert werden. Somit kann über alle Abschnitte in einem Dauerbereich<br />

eine Mittlung durchgeführt werden. Eine genauere Beschreibung<br />

der Meßmethode und der Berechnung der Meßzeitpunkte findet sich in<br />

Abschnitt 3.6.2. Diese Meßmethode versucht die Formantverläufe von Diphthongen<br />

mit verschiedener Dauer so weit wie möglich freizuhalten von<br />

Erklärungen über die mögliche Herkunft dieser Strukturen, was erst der<br />

Interpretation der erfaßten Verläufe überlassen sein sollte.<br />

9 Da Narahara, Shimoda und Okamoto (1977) Wörter und kleinere Sätze von Schallplatten<br />

zur hochdeutschen Aussprache untersucht haben, befinden sich ihre Diphthonge ebenfalls in<br />

zeitlich und lautlich unterschiedlichen Kontexten, was ebenfalls gegen die direkte Übernahme<br />

der Meßstrategie von Holbrook und Fairbanks spricht.


3.5 Daten 47<br />

s<br />

3.5<br />

Daten<br />

Das Kiel Corpus of Spontaneous Speech enthält Material von insgesamt<br />

21 Dialogsitzungen im Verbmobil Terminabsprache-Szenario. Von diesen<br />

21 Dialogsitzungen sind jedoch nur 16 vollständig segmentiert und etikettiert<br />

worden. Die restlichen 5 Dialogsitzungen wurden teilweise bearbeitet.<br />

Es werden die Vokale der 18 Sprecher und 14 Sprecherinnen der 16<br />

vollständig bearbeiteten Dialoge hier analysiert. Die gelesenen Daten, die<br />

zum Vergleich herangezogen werden, sind dieselben, die in Pätzold und<br />

Simpson (1997) analysiert wurden, d.h. die 2400 Sätze der Berliner und<br />

Marburger Teilkorpora, die von 11 Sprecherinnen und 11 Sprechern gesprochen<br />

wurden.<br />

Es wurden alle Vokale der 32 Sprecher gemessen, außer den £ -<br />

Diphthongen. Diese werden in Kapitel 4 behandelt, in dem gezeigt wird,<br />

daß die Vokalabschnitte der £ -Diphthonge aus der zeitlichen Überlappung<br />

der phonetischen Korrelate des Vokals und der des £ und somit als Extremfall<br />

des Meßproblems gelten, das in Abschnitt 3.4 diskutiert wurde.<br />

Lediglich die Vokalabschnitte des phonologischen Komplexes $t£ werden<br />

in die Analyse einbezogen, um ihn in den jeweiligen Vokalsystemen zu<br />

plazieren und mit $ vergleichen zu können.<br />

3.6 Methode<br />

Als erster Schritt wurde aus den Etikettierdateien der ausgesuchten Teile<br />

der gelesenen und spontansprachlichen Korpora eine Datenbank erstellt<br />

(s. Abschnitt 2.4, S. 25ff ). Wegen Modifikationen an der Meß- und Sortiermethode<br />

wurden die gelesenen Daten noch einmal analysiert, um sie mit<br />

den Ergebnissen der Messungen in den spontanen Daten vergleichbar zu<br />

machen. Die erstellte Datenbank wird in einigen automatischen Schritten<br />

nach Vokalen durchsucht, und in jedem Vokalabschnitt wird je nach Kategorie<br />

(Monophthong, Diphthong) an einem oder mehreren Punkten eine<br />

Formantbestimmung durchgeführt. In 3.6.1 und 3.6.2 werden die einzelnen<br />

Schritte beschrieben. Das KielDat-Skript, das die einzelnen Schritte<br />

durchgeführt hat, ist in vollkommentierter Form in Anhang C enthalten.<br />

Dieses Skript soll gleichzeitig ein allgemeines Beispiel für einen komplexen<br />

Zugriff auf eine KielDat-Datenbank liefern. Auch ohne Programmierkenntnisse<br />

liefert die Kommentierung des Programms eine verständliche


48 Deutsche Vokale - spontan und gelesen<br />

Progression u<br />

durch die einzelnen Schritte.<br />

3.6.1 Messung der monophthongalen Abschnitte<br />

Die erstellte Datenbank wurde auf Vokale durchsucht. Bei jedem nicht als<br />

getilgt markierten Monophthong wurden die Formanten in der Mitte des<br />

betreffenden Vokalabschnitts bestimmt. Die Formantbestimmung wurde<br />

wie folgt durchgeführt. 50 ms des Signals 10 um die Mitte des Vokalabschnitts<br />

wurden analysiert. In diesem Abschnitt wurde alle 5 ms eine LPC-<br />

Analyse 11 gemacht, aus der zwei Abschätzungen der Formantfrequenzen<br />

berechnet wurden 12 . Die Anzahl der geschätzten Formantfrequenzen richtet<br />

sich nach dem Geschlecht des Sprechers sowie nach der Abtastfrequenz<br />

des Signals. Bei einer weiblichen Stimme und einer Abtastfrequenz von<br />

16 kHz werden sieben Formanten geschätzt, bei einer männlichen Stimme<br />

acht. Die zwei Abschätzungen der Formantfrequenzen basieren auf zwei<br />

unterschiedlichen Behandlungen der LPC-Koeffizienten, die unterschiedliche<br />

Vor- und Nachteile aufweisen. In der ersten Schätzung (Saito und<br />

Nakata 1985; Vogten 1983) werden Formantfrequenzen durch die Wurzellösung<br />

des LPC-Polynoms bestimmt. In der zweiten Analyse, “robust<br />

formant analysis” (Willems 1987), wird eine andere Methode angewendet,<br />

die ebenfalls die gewünschte Anzahl von Formanten liefert. Eine wichtige<br />

Eigenschaft der zweiten Analyse jedoch sind nahezu kontinuierliche Formantverläufe.<br />

Vor allem diese Eigenschaft in Kombination mit der ersten<br />

Schätzung erlaubt eine zuverlässige automatische Bestimmung der unteren<br />

Formantfrequenzen.<br />

Im nächsten Schritt werden die zwei Schätzungen der Formantfrequenzen<br />

verwendet, um an die wahrscheinlichsten Formantfrequenzen zu gelangen.<br />

Dieser Schritt ist aus zwei Gründen notwendig:<br />

1. Die Formantanalyse liefert immer eine feste Anzahl von geschätzten<br />

Frequenzen, auch wenn diese im Signal nicht vorhanden sind. Es<br />

entstehen Pseudoformanten.<br />

10 Ein Abschnitt dieser Länge ist notwendig, um mit der verwendeten F0-Analyse (Schäfer-<br />

Vincent 1982, 1983), die im Zeitbereich arbeitet, auch F0 bestimmen zu können.<br />

11 Eine allgemein verständliche und ausführliche Einführung in die LPC-Analyse liefert<br />

Ladefoged (1996).<br />

12 Fensterlänge: 20 ms; Überlappung: 75% Fenstertyp: Hamming; Filterordnung: 16 für<br />

männliche, 14 für weibliche Stimmen


3.6 Messung der monophthongalen Abschnitte 49<br />

2. Gewisse Resonanzen im Signal sind nicht die gesuchten Formantfrequenzen.<br />

Vor allem Nasalität kann zu solchen zusätzlichen Resonanzen<br />

führen, d.h. das Hinzuschalten des Nasenraumes durch Senken<br />

des Gaumensegels.<br />

In den meisten Fällen sind Pseudofrequenzen von (1) einfach zu erkennen,<br />

denn entweder erhalten sie einen extrem hohen oder extrem niedrigen<br />

Wert, oder sie haben eine sehr große Bandbreite. Die Extremwerte werden<br />

gleich ausgeschlossen. Die restlichen Pseudofrequenzen machen sich<br />

durch ihre große Bandbreite bemerkbar. Frequenzen, deren Bandbreiten<br />

größer sind als ein Schwellwert (momentan bei 1000 Hz) bzw. größer sind<br />

als die Formantfrequenz selbst, werden entweder ausgeschlossen oder sie<br />

werden durch eine gewichtete Mittlung mit der nächstgelegenen Frequenz<br />

kombiniert. Die übriggebliebenen Frequenzen werden durchnumeriert, so<br />

daß jede Frequenz einem Formanten zugeteilt wird. Hierzu wird eine Tabelle<br />

von Formantfrequenzen herangezogen, die theoretische Werte eines<br />

Ansatzrohres bei der Produktion eines ¥ A (Fant 1960) darstellen. Für die<br />

männlichen Stimmen wird eine Ansatzrohrlänge von 17,5cm angenommen,<br />

die zu den Richtwerten 500 Hz (F1), 1500 Hz (F2), 2500 Hz (F3)<br />

usw. führt. Bei weiblichen Stimmen wird eine kürzere Ansatzrohrlänge<br />

angenommen und Richtwerte für die Formantfrequenzen eines ‘neutralen’<br />

Ansatzrohres, die um etwa 10% höher liegen. Nach der numerischen Zuordnung<br />

werden solche Frequenzen überprüft, die dieselbe Formantnummer<br />

erhalten haben. Wenn zwei Frequenzen F2 zugeordnet werden, wird<br />

versucht eine dieser Frequenzen einem anderen Formanten zuzuordnen.<br />

Ist eine Lücke oberhalb von F2 frei, d.h. einer der höheren Formanten (F3,<br />

F4, F5, F6, F7 oder F8) hat keine Frequenz erhalten, so werden alle Frequenzen<br />

nach oben geschoben, bis diese Lücke gefüllt ist, und der höhere<br />

F2-Wert wird F3 zugeordnet. Sind sowohl F1 als auch F3 leer, und zwei<br />

Frequenzen wurden F2 zugeordnet, wird auf Grund der Nähe eines dieser<br />

Werte zu Richtwerten für F1 und F3 entweder der größere Wert nach F3 geschoben<br />

oder der kleinere nach F1. Nach der Sortierung kommt die zweite<br />

Formantschätzung zum Tragen, indem alle Lücken, die durch die Formantsortierung<br />

entstanden sind mit Werten aus der zweiten Formantschätzung<br />

aufgefüllt werden.<br />

Im letzten Schritt wird ein Datensatz aus der Vokalmitte ausgedruckt.<br />

Dieser enthält, neben der sortierten Formantinformation, den F0-Wert, die<br />

Dauer des gesamten Vokalabschnitts, den Zeitpunkt der Messung, das Eti-


v<br />

50 Deutsche Vokale - spontan und gelesen<br />

+ kett des zugehörigen Vokalabschnitts, das Sprecherkürzel, Geschlecht sowie<br />

Information zum prä- und postvokalischen Kontext.<br />

3.6.2 Messung der diphthongalen Abschnitte<br />

Gemäß den Überlegungen zur akustischen Charakterisierung von Diphthongen<br />

in Abschnitt 3.4.3 wurde folgende Meßstrategie angewendet.<br />

An jedem Diphthong-Token mit einer Dauer von mehr als 60 ms wurden<br />

Formantmessungen 13 an mehreren Punkten durchgeführt. Die erste und<br />

letzte Messung erfolgte 20 ms vom Anfang bzw. 20 ms vor dem Ende des<br />

betreffenden Vokalabschnitts, um die direktesten Folgen von Formantabbiegungen<br />

in benachbarte Vokal- und Konsonantenartikulationen zu vermeiden.<br />

Um vergleichbare Vokalabschnitte zu bekommen, d.h. Meßwerte<br />

von Vokalabschnitten zu erhalten, die miteinander vergleichbar sind,<br />

wurden alle Diphthong-Tokens innerhalb von 20 ms-breiten Dauergruppen<br />

(60–80 ms, 80–100 ms, 100–120 ms, usw.) durch die gleiche Anzahl<br />

von Meßpunkten charakterisiert. So kann eine Mittlung über mehrere<br />

Diphthong-Tokens innerhalb eines Bereichs unternommen werden, die<br />

anschließend Vergleiche der Formantverläufe von unterschiedlich langen<br />

Diphthongen ermöglicht.<br />

Der Diphthong wird zuerst in Zeitscheiben geschnitten, deren Anzahl<br />

sich als der ganzzahlig abgerundete Quotient aus der zentralen Vokaldauer<br />

(Vokaldauer abzüglich der Randzonen von jeweils 20 ms) und einer idealen<br />

20 ms-Strecke bestimmt. Addiert man eins auf die Anzahl der Zeitscheiben<br />

bekommt man die Anzahl der Meßpunkte. Die Schrittbreite, d.h.<br />

die Breite einer Zeitscheibe oder der zeitliche Abstand zwischen den Meßpunkten<br />

für einen einzigen Vokalabschnitt, ist der Quotient aus der zentralen<br />

Vokaldauer und der Anzahl der Zeitscheiben:<br />

vxwzy©{5|}>~YE€b~b)‚tƒ…„‡†ˆb‰nŠŒ‹<br />

‚ƒ…„Ž†bˆ<br />

{U|}>~Y©€~b<br />

(3.1)<br />

ˆ<br />

ist die Schrittbreite zwischen den Meßpunkten in Millisekunden. Die<br />

Vokaldauer ist ebenfalls in Millisekunden.<br />

Aus der Berechnung der Anzahl der Meßpunkte ergibt sich automatisch<br />

eine Dauergruppierung in 20 ms breiten Gruppen. Alle Diphthonge<br />

mit einer Dauer zwischen 120 und 140 ms werden beispielsweise<br />

13 Die Formantbestimmung zu einem bestimmten Zeitpunkt ist wie für monophthongale<br />

Abschnitte.


3.6 Messung der diphthongalen Abschnitte 51<br />

Abbildung 3.2: Die Gewinnung von Meßwerten bei einem Diphthong<br />

mit einer Dauer von 137 ms aus dem Wort Zeit. Die Anfangs- und Endpunkte<br />

des Vokals sind mit Beg bzw. Ende gekennzeichnet. Formantmessungen<br />

werden jeweils 20 ms vom Beginn, bzw. 20 ms vor dem Ende<br />

des Vokalabschnitts genommen (Punkte A und E). Die Schrittbreite für<br />

die dazwischen liegenden Punkte (B–D)<br />

y’‘t“b”<br />

errechnet sich aus Formel 3.1:<br />

ms ms ms ms ms ms. (Ref.: g115a005)<br />

w †˜ Bš ˆ ‰kŠ „•†bˆ ‰nŠ–‹—y’‘t“b” „•†ˆ<br />

durch fünf Meßpunkte charakterisiert. Die Berechnung der Meßpunkte<br />

und der Schrittbreite zwischen den Punkten für den konkreten Fall eines<br />

Diphthongs aus dem Wort Zeit mit einer Dauer von 137 ms wird in<br />

Abb. 3.2 illustriert.<br />

Alle diphthongalen Abschnitte, die eine Dauer von weniger als 60 ms<br />

haben, werden meßtechnisch wie Monophthonge behandelt, d.h. Formantwerte<br />

werden nur in der Mitte des Vokalabschnitts ermittelt.<br />

Wie eingangs gesagt werden alle beschriebenen Schritte zur Formantmessung<br />

der Monophthonge und Diphthonge automatisch mit dem in Anhang<br />

C aufgeführten KielDat-Skript durchgeführt. Das Ergebnis der Analyse<br />

ist eine Datei pro Sprecher. Neben den Formantfrequenzen und -


52 Deutsche Vokale - spontan und gelesen<br />

0 bandbreiten der unteren drei Formanten enthält diese Datei einige andere<br />

Informationen zur Versuchsperson (Sprecherkürzel und Geschlecht), zum<br />

Dialog (Kennung), zum Vokalabschnitt (Label, Datensatznummer, Dauer,<br />

Grundfrequenz zur Zeit der Messung) und zum Kontext (Wort, prä- und<br />

postvokalischer Kontext). Tabelle 3.2 enthält einen Auszug aus der Datei<br />

der Sprecherin JUM aus dem spontansprachlichen Korpus. Dieser Auszug<br />

macht noch einmal die unterschiedlichen Meßstrategien für Monophthonge<br />

und Diphthonge deutlich. Die Monophthonge werden durch einen Meßpunkt<br />

definiert, haben somit einen Datensatz, der Diphthong mit einer<br />

Dauer von 281 ms dagegen wird an mehreren Stellen (13) gemessen.<br />

3.7 Häufigkeitsverteilung der Einzelvokale<br />

Das Diagramm in Abb. 3.3 faßt die relativen Häufigkeiten der Vokale zusammen<br />

14 . Für die einzelnen Sprecher wurden relative Häufigkeiten für<br />

jeden Vokal errechnet und aus diesen Werten wurden pro Vokal die Mediane,<br />

Maxima und Minima ermittelt. Die Vokale im Diagramm sind nach<br />

den Medianwerten in absteigender Reihenfolge geordnet. Obwohl die absolute<br />

Gesamtzahl an Vokaltokens, die von den Einzelsprechern produziert<br />

wurden, stark variiert (siehe Abb. 3.4), bleiben die allgemeinen Tendenzen<br />

in den relativen Häufigkeiten der einzelnen Vokale erhalten. Am<br />

interessantesten ist die phonologische Gruppierung, die sich in der numerischen<br />

Rangordnung wiederfindet. In Abschnitt 3.2 wurde eine phonologische<br />

Gruppierung der Vokale › nach œ , oder œ\› gemischt aufgestellt.<br />

Diese phonologische Gruppierung läßt sich direkt auf die Reihenfolge der<br />

Vokalhäufigkeiten übertragen. Häufigste Gruppe › ist , œ dann , die phonologisch<br />

komplexeste œ\› Gruppe ist zugleich am seltensten. Die Rangfolge<br />

ist aus zweierlei Gründen interessant. Erstens findet die phonologische Kategorisierung,<br />

die auf Grund phonetischer Muster und grammatikalischer<br />

Alternationen unternommen wurde, post hoc Bestätigung in der Gruppierung,<br />

die sich aus der Häufigkeitsverteilung ergibt. Zweitens zeigen sich<br />

die vorderen gerundeten Vokale, nicht nur als typologische Seltenheit in<br />

den Sprachen der Welt (Crothers 1978), sondern auch als Seltenheit in einer<br />

Sprache, in der sie vorkommen.<br />

14 Anhang D auf S. 209 enthält tabellarische Aufstellungen der absoluten (Tabelle D.1) und<br />

relativen Häufigkeiten (Tabelle D.2) der Einzelvokale bei den einzelnen Sprechern.


3.7 Häufigkeitsverteilung der Einzelvokale 53<br />

Tabelle 3.2: Ein Auszug aus den Ergebnissen der akustischen Analyse der Sprecherin JUM aus dem Dialogbeitrag<br />

g361a004. Jede Zeile enthält die Daten zu einem Meßpunkt im jeweiligen Vokal. Zusätzlich zu den Frequenzen und<br />

Bandbreiten der ersten drei Formanten in den Spalten “F1–B3” sind auch andere Informationen notwendig für die<br />

Weiterverarbeitung: Sprecherkürzel, Dialogbeitragskürzel, Geschlecht (f = “weiblich”), Label des Vokalabschnitts,<br />

Nummer des Datensatzes (wichtig bei Diphthongen), Dauer des Vokalabschnitts, Meßpunkt der Formantanalyse,<br />

Grundfrequenz sowie die orthographische Darstellung des betreffenden Wortes und umgebender Kontext. Aus<br />

Platzgründen ist der lange Kontext des 4. Datensatzes ($I) etwas gekürzt worden.<br />

Kürzel Beitrag Geschl. Label Satz Dauer Meßpunkt F0 F1 B1 F2 B2 F3 B3 Wort Kontext<br />

JUM g361a004 f $o: 1 92 14.350 209 427 263 1287 420 2835 263 November ##n $v<br />

JUM g361a004 f $’E 1 115 14.530 195 615 64 1711 164 2687 239 November $v $m<br />

JUM g361a004 f $6 1 260 14.895 144 731 81 1533 236 2814 259 November $b #:k #s:<br />

JUM g361a006 f $I 1 116 0.060 0 432 147 2040 118 2744 131 ist+ $n #:k . . .<br />

JUM g361a006 f $a 1 69 0.270 257 732 59 1711 250 2781 263 dann+ $-h $n+<br />

JUM g361a006 f $’i: 1 59 0.545 259 309 98 2148 236 2788 138 siebzehnte ##z $p<br />

JUM g361a006 f $e: 1 30 0.730 196 464 144 1761 185 2721 745 siebzehnte $s $n<br />

JUM g361a006 f $@ 1 69 0.865 181 458 95 1606 222 2611 703 siebzehnte $-h ##f<br />

JUM g361a006 f $’aI 1 281 1.060 176 711 159 1179 153 2802 176<br />

JUM g361a006 f $’aI 2 281 1.080 176 733 170 1176 203 2819 186<br />

JUM g361a006 f $’aI 3 281 1.100 180 757 184 1219 246 2594 789<br />

JUM g361a006 f $’aI 4 281 1.120 179 771 160 1289 272 2763 469<br />

JUM g361a006 f $’aI 5 281 1.140 182 763 119 1397 245 2711 362<br />

JUM g361a006 f $’aI 6 281 1.160 184 735 105 1544 198 2667 335<br />

JUM g361a006 f $’aI 7 281 1.180 191 697 96 1687 119 2639 339<br />

JUM g361a006 f $’aI 8 281 1.200 202 616 102 1768 161 2576 398<br />

JUM g361a006 f $’aI 9 281 1.220 212 590 62 1878 246 2558 709<br />

JUM g361a006 f $’aI 10 281 1.240 236 572 204 1416 999 2616 547<br />

JUM g361a006 f $’aI 11 281 1.260 268 511 219 1200 999 2643 516<br />

JUM g361a006 f $’aI 12 281 1.280 279 407 163 1597 999 2426 322<br />

JUM g361a006 f $’aI 13 281 1.300 285 365 163 1769 999 2776 562 frei $r UttEnd


¢<br />

Ÿ£<br />

¤<br />

¥<br />

¦<br />

٤<br />

©<br />

ª<br />

©¥<br />

Ÿ «<br />

Ÿ¢<br />

¬Ÿ<br />

54 Deutsche Vokale - spontan und gelesen<br />

Abbildung 3.3: Relative Häufigkeiten der Vokale im spontansprachlichen Korpus. Der Median-Punkt pro Vokal ist<br />

ein Mittelwert, berechnet über die einzelnen Sprecher. Die Punkte Maximum und Minimum beziehen sich jeweils<br />

auf die größte und kleinste relative Häufigkeit. Die Vokale sind in absteigender Reihenfolge nach der Größe der<br />

Mediane geordnet.<br />

Vokal<br />

ž<br />

Ÿ<br />

¡ž<br />

Ÿ<br />

¨¦<br />

Ÿ<br />

0.0<br />

2.0<br />

4.0<br />

6.0<br />

relative Häufigkeit [%]<br />

8.0<br />

10.0<br />

12.0<br />

14.0<br />

Median<br />

Maximum<br />

Minimum<br />

16.0<br />

18.0<br />

20.0


3.7 Häufigkeitsverteilung der Einzelvokale 55<br />

4000<br />

3500<br />

3000<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

0<br />

SOK<br />

AME<br />

FRA<br />

SVA<br />

BAC<br />

URG<br />

THS<br />

FRS<br />

SAR<br />

JUM<br />

ARK<br />

CHD<br />

SIK<br />

KAP<br />

HEL<br />

WEM<br />

KAE<br />

REK<br />

KAK<br />

GEP<br />

MEH<br />

MLG<br />

ANL<br />

ANS<br />

NAR<br />

UTB<br />

HAH<br />

JAK<br />

TIS<br />

OLV<br />

HEE<br />

MAW<br />

Anzahl von Vokaltokens<br />

Sprecher/in<br />

Abbildung 3.4: Gesamthäufigkeiten in aufsteigender Reihenfolge von allen Vokaltokens pro Sprecher/in.


56 Deutsche Vokale - spontan und gelesen<br />

In Abb. 3.5 wird ein Vergleich zwischen den Häufigkeiten aus<br />

den spontansprachlichen Daten und denen aus dem gelesenen Subkorpus<br />

durchgeführt, sowie ein externer Vergleich zur Zählung von Meier<br />

(1967). Für die spontansprachlichen und die gelesenen Vokale wurden<br />

zwei Zählungen durchgeführt. Die erste (Gemessen) bezieht sich auf die<br />

Zählung der Vokalabschnitte, die in die akustische Messung eingegangen<br />

sind, die zweite (Kanonisch) bezieht sich auf die Anzahl der jeweiligen<br />

Vokalkategorien in den kanonischen Formen der Wörter. Die zweite, kanonische,<br />

Zählung erlaubt einen besseren Vergleich zu den Häufigkeiten aus<br />

Meiers (1967) Zählung von 100 000 Lauten aus der gelesenen Sprache.<br />

Die Vokale sind nach der Häufigkeit in der gemessenen Spontansprache<br />

absteigend angeordnet.<br />

Bei den ersten vier (­®[¯°®Œ­B±® ² Vokalkategorien ) sind die größten Unterschiede<br />

zwischen den einzelnen Korpora und unterschiedlichen Zählungen<br />

zu sehen. Der Erhebungsunterschied (Gemessen vs. Kanonisch) macht<br />

sich ² beim am deutlichsten bemerkbar. Die große Diskrepanz liegt<br />

hauptsächlich in den lateralen und nasalen ³´²µ Endsilben, ³´² und , die<br />

in der Mehrheit der Fälle als silbischer Lateral bzw. Nasal auftreten, keinen<br />

Vokalabschnitt aufweisen und somit nicht in die akustische Messung<br />

² der -Vokalabschnitte aufgenommen werden. Nennenswerte Unterschiede<br />

zwischen den spontanen und gelesenen Subkorpora lassen sich ² auf<br />

und die offenen ­ Vokale ­B± und beschränken. Unter den 50 häufigsten<br />

Wörtern im spontansprachlichen Korpus gibt es lediglich sechs Wörter<br />

­ die enthalten: das, dann, am, also, machen, und daß, jedoch sind sie<br />

für über ­ 3000 -Tokens verantwortlich. Vor allem für das hohe Aufkommen<br />

der Wörter dann, also und das (in seiner Funktion als Pronomen)<br />

ist der spontansprachliche Kontext verantwortlich. Das häufige Auftreten<br />

der Präposition-Artikel-Verschmelzung am ist jedoch nicht dem spontansprachlichlichen<br />

Kontext zuzuschreiben, sondern der besonderen Aktivität<br />

der Terminplanung, in der häufig Konstruktionen wie am Freitag und am<br />

sechsten auftreten. Der Dialogsituation ist auch die große Anzahl ­B± von zu<br />

verdanken. Die Wörter ja (Bejahung und Adverb), da (Konjunktion und<br />

Adverb), mal, habe und aber sind die Vertreter des ­B± Vokals unter den<br />

50 häufigsten Wörtern und sind für über 2000 Fälle dieses Vokals verantwortlich.<br />

Im Vergleich mit der Zählung von Meier (1967) ist die größte Ähnlichkeit<br />

mit der kanonischen Zählung des gelesenen Subkorpus zu finden.<br />

Diese Ähnlichkeit ist jedoch nicht überraschend, denn Meiers Zählung von


¹Å<br />

¹<br />

¹»<br />

Â<br />

Ã<br />

·¾<br />

¹Á<br />

¹À<br />

¾<br />

¿<br />

¼ ¹<br />

¹½<br />

¸·<br />

»<br />

¹·<br />

º<br />

·<br />

¸<br />

3.7 Häufigkeitsverteilung der Einzelvokale 57<br />

30.0<br />

25.0<br />

Gemessen (s)<br />

Kanonisch (s)<br />

Gemessen (l)<br />

Kanonisch (l)<br />

Meier<br />

20.0<br />

15.0<br />

10.0<br />

Relative Häufigkeit [%]<br />

5.0<br />

0.0<br />

¿<br />

ÄÂ<br />

Vokal<br />

Abbildung 3.5: Vergleich der relativen Vokalhäufigkeiten in Spontan- und Lesesprache. Gemessen und Kanonisch<br />

beziehen sich auf die unterschiedliche Zählung der Vokalhäufigkeit (siehe Text) in Spontansprache (s) und Lesesprache<br />

(l). Als externer Vergleich fungieren die Werte aus Meier (1967: 250). Die Vokale sind nach ihrer relativen<br />

Häufigkeit in der ‘gemessenen’ Spontansprache angeordnet. Eine Aufstellung der absoluten und relativen Häufigkeiten<br />

findet sich in Tabelle D.3 auf Seite 212.


58 Deutsche Vokale - spontan und gelesen<br />

Æ 100 000 Lauten, je zu 50 000 aus Prosa und Poesie, erfolgte in geschriebenen<br />

Texten, d.h. in kanonischen Formen, und es waren die Ergebnisse aus<br />

Zählungen wie dieser, die als Grundlage für die Lauthäufigkeitsverteilung<br />

bei der Aufstellung der Marburger und Berliner Sätze verwendet wurden<br />

(Sotschek 1976a; 1976b).<br />

3.8 Akustische Ausprägung der Einzelvokale<br />

Eine günstige Methode, akustische Vokalsysteme aufzubereiten, ist, die<br />

einzelnen Vokale anhand der ersten und zweiten Formantwerte in einem<br />

zweidimensionalen Raum zu plazieren. Der F2-Wert eines Vokals bildet<br />

die x-Koordinate, der F1-Wert die y-Koordinate. Statt die lineare Hertz-<br />

Skalierung zu verwenden, werden Frequenzen in Bark-Werte (Zwicker<br />

und Fastl 1990) 15 umgerechnet. Die Verwendung der Bark-Skala liefert<br />

eine bessere Annäherung an die Funktionsweise des Gehörs als eine lineare<br />

Hertz-Skala. Um die übliche auditiv-artikulatorische Darstellung eines<br />

Vokalsystems auch im akustischen Bereich zu erhalten, werden Abszisse<br />

und Ordinate in umgekehrter Richtung gezeichnet, so daß F2-Werte aufsteigend<br />

von rechts nach links, F1-Werte aufsteigend von oben nach unten<br />

verlaufen.<br />

3.8.1 Akustische Ausprägung der Monophthonge<br />

Um verschiedene Vergleiche herstellen zu können, sind die Vokalwerte in<br />

Gruppen nach Geschlecht (weiblich, männlich), Korpus (lese- vs. spontansprachlich)<br />

und Worttyp (Inhalts- vs. Funktionswort) eingeteilt worden.<br />

Die Gruppierung nach Geschlecht berücksichtigt die bekannten akustischen<br />

Unterschiede, die sich z.T. durch Unterschiede in der durchschnittlichen<br />

Größe des Ansatzrohrs bei Frauen gegenüber Männern erklären lassen.<br />

Die Einteilung nach Korpustyp will den akustischen Folgen der unterschiedlichen<br />

linguistischen Aktivitäten auf die Vokalsysteme nachgehen.<br />

Die oft beobachteten zentraleren Qualitäten von Vokalen in Funkti-<br />

15 Für die eigentliche Umrechnung wird die Formel aus Traunmüller (1990) verwendet, die<br />

eine genauere Umrechnung erlaubt als Zwicker und Fastl (1990):<br />

ÇÉÈ‡Ê ËÍÌtÎ ÏtÐnÑÒ©Ð ÓÔЗÕÍÌÍÖÑÍ×Ø6ÙÚ5ÖtÎ ÛÍÜ<br />

mit × in Hertz


3.8 Akustische Ausprägung der Monophthonge 59<br />

Ý<br />

onswörtern gegenüber Inhaltswörtern werden durch die Aufteilung nach<br />

Worttyp berücksichtigt. Nur die Monophthonge aus Inhaltwörtern werden<br />

hier analysiert. Über die Werte für den ersten und zweiten Formanten sind<br />

pro Vokalkategorie Mediane gebildet worden. Tabellen der Mediane und<br />

Quartile der ersten drei Formanten für die einzelnen Monophthonge aus<br />

Inhaltswörtern, getrennt nach Geschlecht und Korpus sind in Anhang E<br />

auf S. 213 zu finden.<br />

Obwohl dieselben Lesedaten wie in Pätzold und Simpson (1997)<br />

verwendet werden, gibt es zusätzlich zu kleineren meßtechnischen Details<br />

zwei weitere Unterschiede, die zu unterschiedlichen Ergebnissen<br />

führen. Erstens, wie eben erwähnt, werden Vokale aus Funktions- und<br />

Inhaltswörtern getrennt aufgeführt. Die Aufteilung wurde in Pätzold und<br />

Simpson (1997) nicht gemacht. Zweitens werden in der hiesigen Aufstellung<br />

die Werte aus den Þ verschiedenen -Vokalen ß (außer ), die Pätzold und<br />

Simpson zu den Korrelaten der jeweiligen monophthongalen Vokalkategorie<br />

gezählt haben, nicht berücksichtigt.<br />

In Abb. 3.6 werden die Vokalsysteme der Inhaltswörter aus Leseund<br />

Spontansprache für die jeweilige Geschlechtergruppe (Frauen: 3.6a,<br />

Männer: 3.6b) verglichen. Vokale aus der Spontansprache sind in normaler<br />

Schrift, Vokale aus der Lesesprache umrissen dargestellt. Die Vokalsysteme<br />

aus beiden Geschlechtergruppen und beiden Korpora stimmen allgemein<br />

mit den Ergebnissen anderer Studien zum deutschen Vokalismus<br />

überein. Die Kurzvokale 16 , à , á , â , ­ und ã sind, außer beim männlichen<br />

¯<br />

­ spontanen , zentraler als ihre langen Entsprechungen. Die F1-Werte der<br />

geschlossenen ¯ Kurzvokale à , ã und sind im allgemeinen etwas größer<br />

als die der nichtgeschlossenen ä± Langvokale åb± , æ± und . Lediglich das offene<br />

­B± /­<br />

Vokalpaar hat ähnliche, z.T. fast identische F1 und F2-Werte.<br />

Dies stimmt ebenfalls mit den Ergebnissen anderer Studien (Sendlmeier<br />

1982; Ramers 1988; Kohler 1995a) überein, die aufgezeigt haben, daß der<br />

Hauptunterschied zwischen den phonetischen Korrelaten ­B± von ­ und in<br />

der Länge und nicht in der Qualität zu finden ist, wie dies in den restlichen<br />

Lang-Kurz-Vokalpaaren der Fall ist, eine Feststellung, die in den perzeptorischen<br />

Experimenten von Sendlmeier (1982) aufgezeigt wurde.<br />

Die qualitative Nähe der geschlossenen ¯ Kurzvokale à , ã und zu den<br />

nichtgeschlossenen ä± Langvokalen å± , æ± und hat Lass (1984) sowie Ra-<br />

16 “Lang” und “kurz” dienen lediglich als wörtliche Bezeichnungen für die in Abschnitt 3.2<br />

. Andere Bezeichnungen wie “gespannt”<br />

ç<br />

und “ungespannt” hätten die gleiche Funktion erfüllen können.<br />

aufgestellten phonologischen Kategorisierung ç / è


éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

û<br />

ö §<br />

¢ ò<br />

éééééééééééééééééééééééééééééé<br />

û<br />

éééééééééééééééééééééééééééééé<br />

ö<br />

§<br />

ë<br />

ñ<br />

þ<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

¢<br />

ò<br />

ñ<br />

í<br />

<br />

î ÿ<br />

÷<br />

©<br />

í<br />

þ ë<br />

ê<br />

<br />

ù<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ý<br />

©<br />

î<br />

÷ ÿ<br />

ê<br />

ù<br />

ý<br />

ô<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

¡<br />

ô<br />

¡<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

60 Deutsche Vokale - spontan und gelesen<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

15<br />

14<br />

13<br />

12<br />

F2 [Bark]<br />

11 10<br />

ð énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

úüû £ û í<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ó<br />

õ ø<br />

¦ û ¨ û<br />

ò`í í í<br />

í<br />

¢>û énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ê í ý û<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

2500 2000 1750 1500 1250 1000 750 600<br />

F2 [Hz]<br />

9<br />

ìÉí<br />

8<br />

¤ ¥ û<br />

7<br />

6<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

6<br />

7<br />

8<br />

(a)<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

15<br />

14<br />

13<br />

12<br />

F2 [Bark]<br />

11 10<br />

ð í<br />

ú û £ û<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ìÉí<br />

õ ø ¦ û í ¨ û<br />

¢>û<br />

í ó í ò`í énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ê í<br />

ý û<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

2500 2000 1750 1500 1250 1000 750 600<br />

F2 [Hz]<br />

9<br />

8<br />

¤ ¥ û<br />

7<br />

6<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

6<br />

7<br />

8<br />

(b)<br />

Abbildung 3.6: Vergleich der spontanen und lesesprachlichen Vokalsysteme<br />

für Inhaltswörter der Frauen in (a) bzw. der Männer in (b). Spontansprachliche<br />

Vokal sind in normaler Schrift, Lesesprache ist umrissen dargestellt.<br />

Formantwerte sind Mediane aus allen Werten für die jeweilige<br />

Vokalkategorie pro Gruppe.


3.8 Akustische Ausprägung der Monophthonge 61<br />

<br />

mers (1988) dazu verleitet, eine Phonologisierung vorzunehmen, in ¯ der à ,<br />

ã und als die kurzen Gegenstücke ä± zu å± , æ± und analysiert werden. Nach<br />

den Überlegungen zur Aufstellung des Vokalsystems in Abschnitt 3.2 wird<br />

dies als ungünstige Lösung gewertet, die phonetische Beobachtungen an<br />

falscher Stelle berücksichtigt.<br />

Die F1-Werte ² von in den weiblichen und männlichen Systemen unterstützen<br />

die Ergebnisse von Barry (1995) an einem erheblich kleineren<br />

Korpus, die eine halbgeschlossene Qualität in etwa der gleichen Höhe wie<br />

andeuten. Nähme ² tatsächlich eine zentrale Lage im jeweiligen Vokalsystem<br />

ein, hätte es einen F1-Wert von etwa 550 Hz für die weiblichen<br />

ä±<br />

und 500 Hz für die männlichen Sprecher. Stattdessen liegen die weiblichen<br />

Median-F1-Werte bei 438 Hz (Lesesprache) bzw. 470 Hz (Spontansprache),<br />

die männlichen bei 392 Hz (Lesesprache) bzw. 405 Hz (Spontansprache).<br />

Die Notwendigkeit, einen funktionellen Kontrast ß zu aufrechtzuerhalten,<br />

scheint ein möglicher Grund für die relative Geschlossenheit<br />

zu liefern. Barry stellt fest, daß der niedrige F1-Wert ² für im Gegensatz<br />

zu anderen Studien steht. Jedoch ist es möglich, andere Schlüsse aus der<br />

Literatur zu ziehen. Beobachtungen einer Vokalqualität, die zentral, sogar<br />

halboffen sein kann (Delattre 1965; Ulbrich 1972; Meinhold 1989; Kohler<br />

1995a), basieren im allgemeinen auf impressionistischen Beobachtungen<br />

der Vokalqualität. In nur einer Studie (Iivonen 1970) finden sich F1-Werte<br />

für ²<br />

die offener sind als die für á± . Sovijärvi (1965), zitiert in Iivonen<br />

(1970), und Meyer-Eppler (1959) finden beide F1-Werte für ein männliches<br />

² , die niedriger als 500 Hz sind.<br />

Ein weiterer Unterschied zu anderen Studien (Jørgensen 1969; Rausch<br />

1972; Narahara und Shimoda 1977) 17 , der sich in allen vier Vokalsystemen<br />

von Abb. 3.6 wiederfindet, ist die hintere Position von æ± im Vergleich zu<br />

<br />

± . Erwartungsgemäß ist der F1-Wert von æ± höher als bei ± , der Vokal<br />

ist somit offener. Der F2-Wert von æb± liegt jedoch tiefer. Außer bei den<br />

spontanen Daten der Männer liegen die F2-Werte von æ± signifikant tiefer<br />

als die von ± (siehe Tabelle 3.3). Bei den männlichen spontansprachlichen<br />

Daten ist die F2-Lage von ± zu æ± nicht statistisch verschieden.<br />

Die tiefer liegenden F2-Werte von æ± können auf zwei artikulatorische<br />

Faktoren zurückgeführt werden:<br />

17 Die Zahlen in Kohler (1995a) sind eine Aufbereitung der Ergebnisse aus Rausch (1972).


62 Deutsche Vokale - spontan und gelesen<br />

Tabelle 3.3: Ergebnisse eines U-Tests für die F2-Werte von ± und æ± , die<br />

in den Diagrammen von Abb. 3.6 geplottet sind. Die erste Spalte enthält<br />

den Korpus, die zweite Spalte die Werte für und die dritte Spalte die einseitige<br />

Wahrscheinlichkeit von unter (F2-Werte von æb± F2-Werte<br />

von ± ).<br />

<br />

<br />

!<br />

<br />

<br />

weiblich, spontan -2.57 .0051<br />

männlich, spontan -0.65 .2578<br />

weiblich, gelesen -5.74 p .00003<br />

männlich, gelesen -6.72 p .00003<br />

Innere Lippenrundung Zusätzlich zur Rundung werden die Lippen vorgestülpt<br />

18<br />

Linguale Engebildung Die Enge zwischen Zungenrücken und Gaumen<br />

wird weiter hinten gebildet.<br />

Einer dieser Faktoren oder eine Kombination aus beiden führen zu einer<br />

Verlängerung des Hohlraums zwischen der dorso-velaren Enge und den<br />

Lippen, deren akustisches Produkt eine Herabsenkung des zweiten Formanten<br />

ist.<br />

Für die Unterschiede zu den Ergebnissen aus anderen Studien bieten<br />

Pätzold und Simpson (1997) mehrere Erklärungen an. Der offensichtlichste<br />

Grund für die Unterschiede liegt darin, daß die Sprechergruppen, die<br />

in anderen Studien untersucht wurden, eine weiter vorne liegende Qualität<br />

für æ± als für ± haben. Ein zweiter Grund könnte im konsonantischen<br />

Kontext liegen, der dem Vokal æ± mehr Kontexte für eine hintere Qualität<br />

bietet als bei ± . In den Marburger Sätzen, also in der Hälfte des gelesenen<br />

Korpus, haben von den 23 æ± -Fällen fast die Hälfte (viermal Doris, dreimal<br />

hoch, jeweils einmal Brot, Motoren, Tore, rot) einen dorso-uvularen Frikativ<br />

als ihren unmittelbaren Kontext. Von den 25 ± -Fällen jedoch treten nur<br />

drei in einem ähnlichen Kontext (Besuch, besucht und Ruhe) auf. In den<br />

18 Diese Definition von innerer Lippenrundung ist nach Sweet (1890) und Catford (1977,<br />

1988). Durch die Vorstülpung der Lippen wird die labiale Enge durch die Innenseiten der<br />

Lippen gebildet. Äußere Rundung entsteht durch eine vertikale Kompression der Lippen, die<br />

zu einer labialen Enge zwischen den Außenseiten führt.


3.8 Akustische Ausprägung der Monophthonge 63<br />

"hoch"<br />

"Fuß"<br />

Abbildung 3.7: Ein Sonagramm von männlichen Äußerungen der Wörter<br />

hoch und Fuß aus dem gelesenen Korpus. Diese Darstellung entspricht in<br />

etwa der Zeit- und Frequenzauflösung eines Papiersonagrammes, an denen<br />

Messungen in früheren Studien gemacht wurden. Die senkrechten Pfeile<br />

markieren die Mitte des jeweiligen Vokalabschnitts, die waagerechten die<br />

Position des zweiten Formanten im jeweiligen Vokalabschnitt zum Zeitpunkt<br />

der Messung. (Ref.: hoch: k11mr068; Fuß: k63be044)<br />

Berliner Sätzen sowie im spontansprachlichen Korpus sieht die Situation<br />

anders aus. Während in den Berlinern Sätzen ± in drei Fällen in einem hinteren<br />

Kontext auftritt (Kuchen, besuchen und suche), finden sich nur zwei<br />

Fälle von æb± im ähnlichen Kontext (Rosengarten, Weißbrot). In den spontansprachlichen<br />

Daten überwiegen ebenfalls die konsonantischen Kontexte,<br />

die eine hintere Realisierung des ± statt des æ± bevorzugen würden. Über<br />

18% (153 von 833) der ± -Fälle in Inhaltswörtern entfallen auf hintere<br />

Kontexte, während bei æ± -Fällen lediglich 9,6% (69 von 720) einen hinteren<br />

Kontext aufweisen. Ein dritter möglicher Grund für die Diskrepanz<br />

zwischen den Ergebnissen dieser und früherer Studien mag lediglich in den<br />

unterschiedlichen Methoden der Formantbestimmung liegen. Die Schwie-


64 Deutsche Vokale - spontan und gelesen<br />

" rigkeiten, die ersten beiden Formanten hinterer gerundeter Vokale anhand<br />

von traditionellen Papiersonagrammen zu bestimmen, sind bekannt. Von<br />

den aufgeführten Untersuchungen gibt lediglich Jørgensen (1969) die Verwendung<br />

von “sections” 19 zur Formantbestimmung an. Es ist nicht ausgeschlossen,<br />

daß eine vorherige Annahme über die akustische Position æ± von<br />

zu einer ähnlichen Voreingenommheit in der Messung selbst führen konnte.<br />

Das Problem der Formantbestimmung anhand von Papiersonagrammen<br />

ist an einem Beispiel in Abb. 3.7 illustriert. Aus der Mitte der jeweiligen<br />

Vokalabschnitte (mit senkrechten Pfeilen markiert) liefert die hier verwendete<br />

LPC-Formantbestimmung F2-Werte, die bei etwa 750 Hz für den Vokal<br />

in hoch und 790 Hz für den Vokal in Fuß liegen. Die Lage von F2 wird<br />

mit den waagerechten Pfeilen markiert. Je nach angewandtem Verfahren<br />

und Parametereinstellung können sich diese Werte verändern, aber die Beziehung<br />

(F2 æ±# von F2 von ± ) bleibt. Sowohl die Frequenz- als auch die<br />

zeitliche Auflösung des Sonagramms in Abb. 3.7 entsprechen in etwa der<br />

eines Papiersonagrammes, das z.B. Rausch (1972) zur Verfügung gestanden<br />

hätte. Die Probleme, die Mitte eines Formantbandes aus einer solchen<br />

<br />

Darstellung zuverlässig zu bestimmen sind offensichtlich. Der schwach<br />

ausgeprägte zweite Formant von Fuß scheint tiefer zu liegen als der stärkere<br />

F2 von hoch.<br />

3.8.2 Akustische Ausprägung der Diphthonge<br />

Wie schon ausführlich in Abschnitt 3.4.3 diskutiert, benötigt die akustische<br />

Charakterisierung eines Diphthonges sowohl eine andere Meßmethode<br />

als auch eine andere graphische Aufbereitung der Ergebnisse, als es bei<br />

Monophthongen der Fall ist. In Abschnitt 3.6.2 wurde die angewendete<br />

Meßmethode beschrieben, die automatisch eine Dauergruppierung der diphthongalen<br />

Vokalabschnitte durchführt und eine Mittlung aller Abschnitte<br />

in einer bestimmten Dauergruppe erlaubt.<br />

Dauerverteilung der Diphthonge<br />

Abb. 3.8 enthält die Häufigkeitsverteilung der verschiedenen Dauergruppen<br />

für die drei Diphthonge ­¯ , ­ã und $#à aus dem spontansprachlichen<br />

19 Eine “section” ist eine Aufzeichnung der Amplitude als Funktion der Frequenz zu einem<br />

bestimmten Zeitpunkt in der Äußerung. Sie erlaubt eine bessere Identifizierung der Formanten.


3.8 Akustische Ausprägung der Diphthonge 65<br />

%<br />

Korpus in (a) und dem gelesenen Korpus in (b). Die Werte stammen<br />

aus Inhalts- und Funktionswörtern, und die weiblichen und männlichen<br />

Häufigkeiten sind zusammengelegt worden. In der Häufigkeitsverteilung<br />

der Vokale in Abschnitt 3.7 ­¯ ist der häufigste $#à und der seltenste Diphthong,<br />

egal ob Lese- oder Spontansprache das Untersuchungsobjekt ist.<br />

Die Seltenheit $à von ist nicht nur auf seine phonologische Komplexität<br />

(siehe 3.2), sondern auch auf seine Abwesenheit in den im Korpus vorkommenden<br />

Funktionswörtern 20 zurückzuführen.<br />

Aus dem Diagramm in Abb. 3.8 wird ersichtlich, daß nicht nur die absoluten<br />

Häufigkeiten der Einzeldiphthonge unterschiedlich sind, sondern<br />

auch ihre Häufigkeitsverteilung in den verschiedenen Dauergruppen. Bei<br />

den spontansprachlichen ­¯ Diphthongen ­ã und (Abb. 3.8a) ist die Dauergruppe<br />

80–100 ms am häufigsten bestetzt, $à während am häufigsten<br />

eine Dauer von 120–140 ms aufweist. Bei den gelesenen Diphthongen<br />

(Abb. 3.8b) sehen die Verteilungen etwas anders aus. Die größte Dauergruppe<br />

­¯ für ist 100–120 ms, 20 ms nach oben geschoben gegenüber seinem<br />

spontansprachlichen Gegenstück. Die häufigste Dauergruppe $#à für<br />

bleibt bei 120–140 ms. Diese Dauergruppe ist auch die meistbelegte für<br />

, obwohl ­ã im Gegensatz zu $#à eine breitgipfligere Verteilung in den<br />

­ã<br />

Dauergruppen zwischen 80 und 140 ms aufweist.<br />

Die zeitliche Verteilung der verschiedenen Diphthonge hat Konsequenzen<br />

für Aussagen über die gemittelten Verläufe der Abschnitte in den<br />

schwach besetzten, außenliegenden Dauergruppen. Vergleiche zwischen<br />

allen drei Diphthongen werden ab 180–200 ms nicht mehr möglich, weil<br />

die Anzahl $à der -Tokens aufgeteilt nach Geschlechtergruppen auf unter<br />

10 abfällt. ­ã Für ­¯ und geht die Anzahl der Fälle erst ab der Gruppe<br />

260–280 ms teilweise unter 10 herunter. Es ist fraglich, ob gerade dieses<br />

Problem sich bei einer immer größer werdenden Datenmenge verändern<br />

würde, denn wie oben schon erwähnt, besitzt der $#à Diphthong einen ganz<br />

anderen sprachlichen Stellenwert ­¯ als ­ã und , der sich u.a. in seinem<br />

phonetischen Verhalten ausprägt. ­¯ Die -Tokens im Dauerbereich oberhalb<br />

von 280 ms bestehen zu 78% aus Diphthongen in einer wortfinalen offenen<br />

Silbe, und etwa 39% wurden mit einer Häsitationsmarkierung (z:) versehen,<br />

so daß ein Teil der Länge eine zusätzliche interaktive Funktion erfüllt.<br />

Da die Anzahl der Wörter, $à die als finale offene Silbe haben, sehr gering<br />

ist, würde dieser Diphthong nur in ganz besonderen Dialogkontexten den<br />

20 Der Diphthong &(' kommt lediglich in den Funktionswörtern euch und euer vor.


66 Deutsche Vokale - spontan und gelesen<br />

800<br />

700<br />

600<br />

Anzahl der Tokens<br />

500<br />

400<br />

300<br />

*<br />

) +<br />

)<br />

- ,<br />

200<br />

100<br />

0<br />

-60 60-<br />

80<br />

80- 100- 120- 140- 160- 180- 200- 220- 240- 260- 280- 300- 320- 340- 360- 380- 400- 420- 440- 520-<br />

100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 540<br />

Dauerguppe [ms]<br />

(a)<br />

300<br />

250<br />

/<br />

. 0<br />

.<br />

12<br />

200<br />

Anzahl der Tokens<br />

150<br />

100<br />

50<br />

0<br />

-60 60-80 80-100 100-<br />

120-<br />

140-<br />

160-<br />

180-<br />

200-<br />

220-<br />

240-<br />

260-<br />

280-<br />

300-<br />

320-<br />

340-<br />

360-<br />

120<br />

140<br />

160<br />

180<br />

200<br />

220<br />

240<br />

260<br />

280<br />

300<br />

320<br />

340<br />

360<br />

380<br />

Dauergruppe [ms]<br />

(b)<br />

Abbildung 3.8: Die Häufigkeitsverteilung der dauergruppierten Einzeldiphthonge<br />

aus den (a) spontansprachlichen und (b) gelesenen Daten. Die<br />

größte Dauergruppe pro Diphthong ist mit einem Pfeil markiert. Weibliche<br />

und männliche Häufigkeiten wurden zusammengelegt.


3.8 Akustische Ausprägung der Diphthonge 67<br />

Ý<br />

oberen Dauerbereich ­¯ von erreichen.<br />

Die höhere Dauerverteilungsspitze $à für ­¯ gegenüber in beiden Korpora<br />

und ­ã<br />

gegenüber im spontansprachlichen Korpus mag auf seine<br />

Abwesenheit in Funktionswörtern zurückgeführt werden. Wenn die Diphthonge<br />

­ã und der gelesenen Funktionswörter aus der Dauerzählung<br />

­¯<br />

herausgenommen werden, verschiebt sich die Verteilungsspitze ­¯ von<br />

auch zur Dauergruppe 120–140 ms, so daß alle drei Diphthonge diese<br />

Dauergruppe am häufigsten belegen. Bei den spontanen Daten bringt das<br />

Herausrechnen der Diphthongdauern der Funktionswörter ebenfalls ein<br />

Verschieben der Verteilungsspitzen ­¯ von ­ã und , jedoch nur nach 100–<br />

120 ms und nicht nach 120–140 ms, der Verteilungsspitze $#à von .<br />

Formantverläufe der Diphthonge<br />

Abb. 3.9–3.11 enthalten gemittelte Verläufe der ersten beiden Formanten<br />

der spontansprachlichen Diphthonge ­¯ (Abb. 3.9), ­ã (Abb. 3.10) und $#à<br />

(Abb. 3.11) für die Frauen in (a) und die Männer in (b). Die Abszisse ist<br />

eine Pseudo-Zeitachse. Da die Diphthonge in einer 20 ms-breiten Dauergruppe<br />

(z.B. 80–100, 100-120, 120–140, usw.) durch die gleiche Anzahl<br />

von Meßpunkten charakterisiert werden, müssen die Zeitpunkte, gegen die<br />

die Formantwerte geplottet sind, zeitlich dehnbar vorgestellt werden. Eine<br />

Zeitangabe an der X-Achse entspricht der unteren Grenze in der jeweiligen<br />

Dauergruppe. So wird beispielsweise die Dauergruppe 100–120 ms durch<br />

vier Meßpunkte charakterisiert; der erste Meßpunkt liegt bei 20 ms, der<br />

letzte 20 ms vor dem Ende des Vokalabschnitts, je nach tatsächlicher Abschnittslänge,<br />

zwischen 80 und 100 ms. In den Abbildungen wird jeweils<br />

der niedrigste Zeitpunkt als Zeitangabe verwendet, die Formantwerte für<br />

die Dauergruppe 100–120 ms liegen jeweils bei 20, 40 60 und 80 ms. Um<br />

von einem Verlauf zu einer Dauergruppe umzurechnen, addiert man 20 auf<br />

den Zeitpunkt des letzten Meßpunkts für die untere und weitere 20 für die<br />

obere Grenze. Hört ein Verlauf bei 240 ms auf, entspricht das der Dauergruppe<br />

260–280 ms.<br />

Um einen Eindruck über Änderungen im Verlauf bei steigender Dauer<br />

der diphthongalen Abschnitte zu vermitteln, ohne gleichzeitig das Bild<br />

mit zu vielen Kurven unübersichtlich zu machen, sind in Abb. 3.9–3.11<br />

nur die Verläufe aus bestimmten Dauergruppen dargestellt worden. Zuerst<br />

werden Formantverläufe von jeder zweiten Dauergruppe dargestellt.<br />

Die Anzahl der Tokens in den höheren Dauergruppen nimmt immer weiter


68 Deutsche Vokale - spontan und gelesen<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(a)<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(b)<br />

Abbildung 3.9: Formantverläufe von F1 und F2 für (a) weibliches und<br />

(b) männliches ­¯ in Spontansprache. Abgebildet sind die Dauergruppen<br />

60–80, 100–120, 140–160, 180–200, 220–240, 240–260 (nur männlich)<br />

und 260–280 (nur weiblich). Die unterschiedlichen Symbolisierungen der<br />

Verläufe dienen lediglich der besseren Lesbarkeit.


3.8 Akustische Ausprägung der Diphthonge 69<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(a)<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(b)<br />

Abbildung 3.10: Formantverläufe von F1 und F2 für (a) weibliches und (b)<br />

männliches ­ã in Spontansprache. Abgebildet sind die Dauergruppen 60–<br />

80, 100–120, 140–160, 180–200, 220–240 (nur männlich), 240–260 ms.<br />

Die unterschiedlichen Symbolisierungen der Verläufe dienen lediglich der<br />

besseren Lesbarkeit.


70 Deutsche Vokale - spontan und gelesen<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(a)<br />

2500<br />

2250<br />

2000<br />

1750<br />

Frequenz [Hz]<br />

1500<br />

1250<br />

1000<br />

750<br />

500<br />

250<br />

0 20 40 60 80 100 120 140 160 180 200 220 240 260<br />

Zeit [ms]<br />

(b)<br />

Abbildung 3.11: Formantverläufe von F1 und F2 für (a) weibliches und<br />

(b) $#à<br />

männliches in Spontansprache. Abgebildet sind die Dauergruppen<br />

80–100, 100–120, 140–160, 180–200 ms. Die unterschiedlichen Symbolisierungen<br />

der Verläufe dienen lediglich der besseren Lesbarkeit.


3.8 Akustische Ausprägung der Diphthonge 71<br />

3<br />

ab (siehe Abb. 3.8), so daß eine Mittlung über die Einzelverläufe zu starken<br />

Schwankungen an einzelnen Punkten führen kann. Solche gemittelten<br />

Verläufe wurden nicht weiterverwendet.<br />

Bei der graphischen Darstellung der Monophthonge wird eine Bark-<br />

Skalierung verwendet, um Abstände im akustischen Raum zu erhalten, die<br />

denen des Wahrnehmungsapparates näher kommen als eine lineare Hertz-<br />

Skalierung. Bei den Diphthongen kommen die zeitlichen Abläufe hinzu,<br />

d.h. die Veränderungen der Formanten über die Zeit. Diese Veränderungen,<br />

die in akustischen Aufzeichnungen erfaßt wurden, können aus artikulatorischer<br />

oder aus auditiver Sicht beschrieben werden. Für diese Beschreibung<br />

ist die lineare Skalierung gewählt worden, um artikulatorischnahe<br />

akustische Aussagen zu machen, d.h. Bewegungsabläufe, konstante<br />

Geschwindigkeit, Beschleunigung und Verlangsamung werden zuerst aus<br />

artikulatorischer Sicht betrachtet.<br />

Die Formantverläufe der Diphthonge werden einzeln behandelt. Über<br />

die Formantverläufe von allen Diphthongen der jeweiligen Kategorie über<br />

sämtliche Dauergruppen läßt sich jedoch eine Gemeinsamkeit erkennen:<br />

trotz unterschiedlicher Verlaufsformen über die verschiedenen Dauergruppen,<br />

ist eine gleichgerichtete Grundbewegung immer zu erkennen.<br />

(Abb. 3.9) Als ein nach vorn schließender Diphthong verläuft in allen<br />

Dauergruppen ­¯ des die genannte Grundbewegung für F1 nach unten,<br />

­¯<br />

für F2 nach oben. Mit zunehmender Abschnittsdauer fängt der Verlauf von<br />

F2 tiefer an, so daß der F2-Anfang bei den weiblichen Diphthongen zwischen<br />

1700 Hz und 1350 Hz liegt. Bei den Männern ist die gleiche Tendenz<br />

vorhanden, jedoch ist die Variationsbreite des F2-Anfangs kleiner. Er liegt<br />

zwischen 1350 Hz für die Dauergruppe 60–80 ms und 1200 Hz für die<br />

Dauergruppe 240–260 ms. Der erreichte Endpunkt des F2-Verlaufs nimmt<br />

mit zunehmender Dauer zu. Mit zunehmender Dauer bildet der F2-Verlauf<br />

eine immer ausgeprägtere S-Form, d.h. die Formantbewegungen am Anfang<br />

und Ende sind langsamer. Bei den längeren Vokalabschnitten, ab der<br />

Dauergruppe 140–160 ms bei den weiblichen und ab der Gruppe 220–<br />

240 ms bei den männlichen Diphthongen sind untere und obere Enden der<br />

S-Form so weit abgeflacht, daß eine Zielqualität erreicht zu sein scheint.<br />

Bei den weiblichen liegt dieser Punkt zwischen 2000 und 2100 Hz, bei den<br />

männlichen zwischen etwa 1650 und 1750 Hz.<br />

Die Form der Verläufe ist für Frauen und Männer unterschiedlich. Bei


72 Deutsche Vokale - spontan und gelesen<br />

4 den weiblichen Diphthongen bleiben die verschiedenen Teile der S-Form<br />

(Anfangsphase, Hauptbewegung und Endphase) bei zunehmender Dauer<br />

etwa gleich proportioniert. In den männlichen Verläufen nimmt die Anfangsphase<br />

eine immer größere Portion des Gesamtverlaufs in Anspruch,<br />

während die langsame Endphase sehr spät einsetzt und kurz gehalten wird.<br />

In den abgebildeten weiblichen Dauergruppen zwischen 220 und<br />

280 ms beginnt F2 wieder nach unten zu verlaufen. Dieses Muster ist<br />

auch in den längeren ­¯ männlichen zu finden. Der Grund hierfür scheint<br />

hauptsächlich in einer präpausalen Zentralisierung und nicht etwa im<br />

früheren Eintreten von Transitionen zu nachfolgenden Konsonanten zu liegen.<br />

Die Anfangspunkte der F1-Verläufe ­¯ für liegen nah beieinander, um<br />

800 Hz für die weiblichen und 600 Hz für die männlichen Vokale. Lediglich<br />

der F1-Verlauf der weiblichen Dauergruppe 60–80 ms fängt etwas<br />

tiefer an. Der Verlauf von F1 bildet einen Bogen. Der höchste F1-Wert<br />

wird in der Anfangsphase erreicht und fängt nach etwa einem Drittel der<br />

gesamten Abschnittsdauer wieder an, kleiner zu werden, was auf eine Verkleinerung<br />

der Vokalenge schließen läßt. Bei beiden Sprechergruppen wird<br />

der erreichte Endpunkt von F1 mit steigender Dauer immer tiefer, die Endqualität<br />

­¯ des somit immer geschlossener. Bei den weiblichen Vokalen<br />

liegt der Endpunkt bei 640 Hz für die Dauergruppe 60–80 ms und bei<br />

430 Hz für die längste abgebildete Dauergruppe, 260–280 ms. Die männlichen<br />

F1-Endpunkte fallen ebenfalls nahezu monoton ab, mit 520 Hz für<br />

die kürzeste Dauergruppe und 400 Hz für die längste abgebildete Gruppe,<br />

240–260 ms.<br />

(Abb. 3.10) Für den Diphthong ­ã liegen die F2-Formantverläufe der<br />

­ã<br />

einzelnen Dauergruppen näher beieinander als ­¯ bei . Die weiblichen F2-<br />

Verläufe fangen zwischen 1400 und 1550 Hz an, die männlichen zwischen<br />

1100 und 1250 Hz. Sie haben somit eine ähnliche Ausgangslage wie beim<br />

­¯ Diphthong . Von dieser Ausgangslage sinkt F2 stets nach unten. Außer<br />

im längsten Verlauf des ­ã weiblichen weisen die unterschiedlichen Dauergruppen<br />

sehr homogene Verläufe auf. Bei 80 ms in Abb. 3.10a wird der<br />

Tiefpunkt des F2-Abfalls bei etwa 1100 Hz erreicht. In den zwei längsten<br />

weiblichen Verläufen wendet sich der F2-Verlauf wieder nach oben.<br />

Im Gegensatz zu einer präpausalen Zentralisierung, wie es ­¯ bei der Fall<br />

war, scheint diese Aufwärtsbewegung von F2 mit Transitionen zu einem


3.8 Akustische Ausprägung der Diphthonge 73<br />

4nachfolgenden<br />

Konsonanten zusammenzuhängen.<br />

Die männlichen F2-Verläufe zeigen ebenfalls eine abfallende Bewegung,<br />

sind jedoch nicht so sauber gebündelt, wie bei den ­ã weiblichen -<br />

Verläufen. Ein F2-Tiefpunkt, der ebenfalls bei 80 ms erreicht wird, liegt<br />

bei etwa 900 Hz. In den Dauergruppen ab 180–200 ms richtet sich der<br />

F2-Verlauf auch nach oben und erreicht ebenfalls bei zunehmender Dauer<br />

einen immer höheren Wert.<br />

Am auffälligsten in den weiblichen und männlichen F1-Verläufen von<br />

ist ihre Ähnlichkeit mit den F1-Verläufen von ­¯ . Die Form der Verläufe<br />

­ã<br />

sowie die Anfangspunkte und die Tiefe der Endpunkte bei zunehmender<br />

Dauer sind gleich. Die Anfangspunkte der weiblichen F1-Verläufe liegen<br />

geringfügig tiefer als die ­¯ für . Der höchste Punkt, den F1 im Verlauf<br />

erreicht, ist ebenfalls geringfügig niedriger und näher am Anfang des Vokalabschnitts<br />

gelegen.<br />

(Abb. 3.11) Von den drei Diphthongen ist $à am seltensten vertreten<br />

und eine Beschreibung nur bis zur Dauergruppe 180–200 ms möglich,<br />

$#à<br />

dennoch sind in den abgebildeten Verläufen deutliche Muster zu erkennen.<br />

Wie bei keinem anderen Diphthong liegen die Anfangspunkte der weiblichen<br />

und männlichen Formantverläufe eng beeinander. Der F2-Verlauf<br />

bildet einen Bogen, der nach etwa einem Drittel der gesamten Abschnittsdauer<br />

seinen tiefsten Punkt erreicht. Je länger der Vokalabschnitt, desto<br />

tiefer ist der erreichte F2-Wert. Er liegt bei 1050 Hz für die weibliche<br />

Dauergruppe 180–200 ms und bei 870 Hz für den männlichen Vokal. Der<br />

F2-Hochpunkt wird ebenfalls mit zunehmender Dauer des diphthongalen<br />

Abschnitts extremer und erreicht 1850 Hz beim weiblichen und 1650 Hz<br />

beim $#à männlichen .<br />

Die Form der F1-Verläufe $#à für ist nahezu identisch mit der für die anderen<br />

beiden Diphthonge. Lediglich die Position des F1-Verlaufs im akustischen<br />

Raum läßt auf die geschlossenere Anfangslage des Diphthongs<br />

schließen. Bei $#à<br />

weiblichem fängt der Vokal zwischen 570 und 670 Hz<br />

an, erreicht in der Bogenspitze einen Höchstwert um etwa 730 Hz und hört<br />

bei zunehmender Dauer mit einem immer niedrigeren Wert auf: 620 Hz in<br />

der Gruppe 80–100 ms, 500 Hz in der Gruppe 180–200 ms. Bei männlichem<br />

fängt der Verlauf bei etwa 500 bis 530 Hz an und erreicht eine<br />

$à<br />

Bogenspitze von etwa 580 Hz. Der Endpunkt des Verlaufs ist ebenfalls von<br />

der Dauer abhängig, so daß für die Gruppe 80–100 ms ein Tief von 530 Hz


74 Deutsche Vokale - spontan und gelesen<br />

5 erreicht wird, bei der Gruppe 180–200 ms von 400 Hz.<br />

Obwohl Gay (1968) ein anderes Meß- und Beschreibungsschema verwendete<br />

und nicht zuletzt die Diphthonge einer anderen germanischen<br />

Sprache untersuchte, weisen seine Ergebnisse große Ähnlichkeiten mit<br />

dieser Beschreibung auf. Bei abnehmender Vokaldauer rücken die Extremwerte<br />

von F1 und F2 näher zusammen, so daß die qualitativen Anfangsund<br />

Endpunkte eines Diphthongs bei abnehmender Dauer zentraler werden.<br />

Der wichtigste Teil eines diphthongalen Vokalabschnitts scheinen jedoch<br />

die Formantbewegungen zu sein, die in allen Dauergruppen zu finden<br />

sind. Auf die Phasen der langsamen Bewegung am Anfang und Ende des<br />

Diphthongs (Gays “Onset steady state” und “Offset steady state”) wird<br />

bei abnehmender Dauer verzichtet. Je länger ein Diphthong wird, desto<br />

länger wird vor allem die Anfangsphase, nicht aber die Geschwindigkeit<br />

der Gleitbewegung, die sich in der etwa gleichbleibenden Geschwindigkeit<br />

von F2 widerspiegelt.<br />

Die Ergebnisse der hiesigen Studie sprechen jedoch gegen die Ergebnisse<br />

der auditiven Experimente von Bladon (1985). Anhand von drei Experimenten<br />

will Bladon aufzeigen, daß die Bewegung eines Diphthongs<br />

nicht unwichtig ist, jedoch eine geringfügigere Rolle spielt als das Erreichen<br />

von qualitativen Zielen am Anfang und am Ende des Diphthongs.<br />

In den ersten beiden Experimenten werden trainierten Phonetikern einzelne<br />

Diphthongstimuli vorgespielt. Die Stimuli werden aus isoliert und monoton<br />

gesprochenen Diphthongen hergestellt, an denen schrittweise das<br />

Ende (Experiment 1) bzw. der Anfang (Experiment 2) zurückgeschnittten<br />

wird, so daß die erreichte Qualität (Experiment 1) eines schließenden Diphthongs<br />

immer offener bzw. die Anfangsqualität (Experiment 2) immer<br />

geschlossener wird. In einem dritten Experiment werden den Probanden<br />

manipulierte Versionen von Diphthongen, eingebettet in Sätzen, vorgespielt.<br />

Den Stimuli (z.B. how) wurde entweder die Gleitphase entnommen,<br />

so daß der Diphthong aus einem harten Übergang von Anfangs- zu Endqualität<br />

bestand, oder Anfangs- und Endphasen wurden herausgeschnitten,<br />

so daß nur die Gleitphase übrigblieb. Die Ergebnisse aus den drei Experimenten<br />

lieferten für Bladon den klaren Beweis, daß die Endqualitäten und<br />

nicht die Gleitphase für die Erkennung eines Diphthongs ausschlaggebend<br />

sind. In den ersten beiden Experimenten haben die phonetisch trainierten<br />

Hörer jeweils eine immer offenere Endqualität bzw. immer geschlossenere


3.8 Akustische Ausprägung der Diphthonge 75<br />

6<br />

Anfangsqualität wahrgenommen. Auf Grund der Gleitphase, die in ihrer<br />

Richtung und Geschwindigkeit immer gleich blieb, haben sie aber nicht<br />

den ursprünglichen Diphthong gehört. Im dritten Experiment wurden die<br />

Diphthonge, deren Gleitphase ausgeschnitten wurde, stets richtig erkannt.<br />

Die Stimuli, die nur noch eine Gleitphase besaßen, wurden hingegen mit<br />

unterschiedlichen Fehlerraten erkannt.<br />

Bladons Experimente sowie die Schlüsse, die er aus den Ergebnissen<br />

zieht, sind jedoch nur bedingt vergleichbar mit akustischen Beschreibungen,<br />

die die Gleitphase und nicht die Anfangs- und Endqualitäten in den<br />

Vordergrund rücken. Das erste und zweite Experiment haben nur indirekt<br />

mit einer Sprache zu tun. Phonetiker als Versuchspersonen mußten ihr trainiertes<br />

Gehör bei der Erkennung von isolierten Vokalstimuli einsetzen. Die<br />

Äußerungen mögen eine qualitative Ähnlichkeit mit denen von diphthongalen<br />

Abschnitten besitzen, wie sie in bestimmten Umgebungen in Äußerungen<br />

des Englischen auftreten, aber sie wurden monoton und isoliert<br />

produziert und nach Manipulation isoliert vorgespielt. Im dritten Experiment<br />

wurden Teile aus den Diphthongen herausgenommen ohne zeitlich<br />

zu kompensieren, d.h. die Dauern der Stimuli lagen weit unter der Dauer<br />

von diphthongalen Abschnitten, die in dieser Umgebung vorgekommen<br />

wären. Was das Gehör und der Wahrnehmungsapparat allgemein mit solchen<br />

natürlich nicht auftretenden Stimuli macht, bleibt noch unklar, es<br />

ist aber durchaus denkbar, daß bei einem harten Formantübergang eine<br />

Gleitphase perzeptorisch wiederhergestellt wird ebenso wie die notwendige<br />

Zeitspanne, die zur Verfügung hätte stehen müssen, um diese Bewegung<br />

vollbringen zu können. Bei den Stimuli, die nur aus einer Gleitphase bestanden,<br />

ist diese zeitliche Wiedergutmachung nicht notwendig, und das<br />

Ergebnis der Wahrnehmung ist ein Vokal, der in seiner Form für den Kontext<br />

zu kurz und unvollständig bleibt, um den entsprechenden Diphthong<br />

zu identifizieren. Denn bei Gay und bei den Ergebnissen hier ist eine unzertrennliche<br />

Beziehung zwischen der Dauer und den verschiedenen Elementen<br />

der Formantverläufe zu erkennen. Bis zu einer bestimmten Dauer wird<br />

ein Diphthong allein durch eine Gleitbewegung charakterisiert. Erst bei zunehmender<br />

Dauer ist zuerst eine Anfangs- dann eine Endphase zu erkennen.<br />

Würden Elemente der Verläufe an dauermäßig unpassenden Stellen<br />

auftreten bzw. fehlen, so würden sie nicht mehr der erwarteten Form ent-


76 Deutsche Vokale - spontan und gelesen<br />

5 sprechen und in passend hergestellten Stimuli zu Fehlerkennungen führen,<br />

was noch experimentell zu verifizieren wäre.<br />

3.9 Beziehungen zwischen Vokalqualität und<br />

Geschlecht, Dauer, lautlichem Kontext sowie<br />

Stil<br />

Im vorigen Abschnitt wurden Vokalsysteme von Sprechergruppen und<br />

Korpora durch Mittelwerte der ersten und zweiten Formanten charakterisiert.<br />

Die qualitative Streuung um diese Mittelwerte hat jedoch nicht nur<br />

mit der stochastischen Variation, die wir aus einem solchen komplexen<br />

System wie dem Artikulationsapparat erwarten würden, zu tun.<br />

Die größten Unterschiede in den Formantwerten der gleichen Vokalkategorie<br />

sind in den Unterschieden zwischen weiblichen und männlichen<br />

Stimmen zu finden. Im Durchschnitt haben Frauen kürzere Ansatzrohre<br />

als Männer. Der akustischen Theorie folgend (Fant 1960) stehen die<br />

Formantwerte einer bestimmten Ansatzrohrkonfiguration in umgekehrtem<br />

Verhältnis zur Länge des Ansatzrohres: je länger das Rohr, desto tiefer<br />

liegen die Formanten. Aber dieses einfache akustische Verhältnis reicht<br />

nicht aus, um eine ganze Reihe von akustischen Unterschieden zwischen<br />

den Stimmen von Frauen und Männern zu bewältigen. Obwohl weibliche<br />

Formanten im Schnitt höher liegen als männliche, ist an mehreren Stellen<br />

beobachtet worden, daß weibliche Vokalsysteme sich im akustischen<br />

Raum weiter ausbreiten als ein einfacher Umrechnungsfaktor vorhersagen<br />

würde. Mögliche Gründe hierfür reichen vom soziophonetischen zum akustischen.<br />

Für mehrere Sprachen findet Henton (1995) größere akustische<br />

Vokalräume für Frauen als für Männer, Unterschiede, die für sie soziophonetisch<br />

zu begründen sind. Frauen als Hauptüberträgerinnen des Sprachguts<br />

sind bemüht deutlicher zu sprechen als Männer, was sich u.a. in einem<br />

größeren, distinktiveren Vokalraum niederschlägt. Der größere Vokalraum<br />

kann aber auch mit der durchschnittlich höherliegenden Grundfrequenz<br />

von weiblichen Stimmen zusammenhängen (Diehl et al. 1996). Das etwa<br />

eine Oktave höher liegende weibliche F0 hat zur Folge, daß die Obertöne<br />

erheblich weiter auseinanderliegen, was zu einer schlechteren Abtastung<br />

des Ansatzrohrfilters führt. Ein Weg, die daraus resultierende schwächere<br />

Vokaldifferenzierung zu kompensieren, sind Ansatzrohrkonfigurationen


3.9 Vokalqualität und Geschlecht, Dauer, Kontext sowie Stil 77<br />

7<br />

für Vokale, die weiter voneinander entfernt sind, was akustisch gesehen<br />

zum größeren Vokalraum führt.<br />

Gruppen- und sprecherinterne Unterschiede in Vokalqualität sind auf<br />

mehrere Faktoren zurückzuführen, die als kontextuell im weitesten Sinne<br />

zusammengefaßt werden können. Als Einflußgrößen sind zu nennen:<br />

Dauer (Lindblom 1963; Stevens und House 1963; Stevens, House<br />

8<br />

und Paul 1966; Lindblom und Moon 1988; Son und Pols 1990);<br />

unmittelbare konsonantische und vokalische Umgebung (Lindblom<br />

8<br />

1963; Stevens und House 1963; Stevens, House und Paul 1966;<br />

Öhman 1966);<br />

Äußerungskontext (Nord 1975, 1986; Lindblom und Moon 1988;<br />

8<br />

Moon und Lindblom 1994);<br />

Akzentuierung (Nord 1975, 1986; Nord 1986; Engstrand 1988;<br />

8<br />

Brownlee 1996);<br />

Sprechstil (Koopmans-van Beinum 1980; Lindblom und Moon<br />

8<br />

1988; Moon 1991; Moon und Lindblom 1994; Brownlee 1996).<br />

Das Bild wird noch umso komplexer, da verschiedene Untersuchungen<br />

zu scheinbar entgegengesetzten Ergebnissen kommen: Gay (1978) und<br />

Engstrand (1988) finden keine Beziehung zwischen Vokalqualität und Vokaldauer;<br />

Lindblom (1963) stellt keine direkte Beziehung zwischen Qualität<br />

und Akzentuierung fest, während andere Untersuchungen Beziehungen<br />

zwischen Dauer (z.B. Lindblom 1963; Son und Pols 1990) und Qualität<br />

oder Akzentuierung finden (z.B. Nord 1986; Engstrand 1988).<br />

Die Beziehung zwischen Vokalqualität, Dauer und der unmittelbaren<br />

lautlichen Umgebung läßt sich anhand von zwei früheren Studien (Lindblom<br />

1963; Stevens und House 1963) exemplarisch erläutern. In Lindblom<br />

(1963) wurden die beobachten Formantwerte eines Vokalabschnitts<br />

als Funktion seiner Dauer, der Zielwerte des Vokals sowie der Formantwerte<br />

der prä- und postvokalischen Konsonanten modelliert. Es wurden<br />

schwedische Logatome mit einer einfachen C9 VC: -Struktur gebildet, in<br />

der C9 und C: gleich waren. Diese wurden an verschiedenen Stellen in<br />

drei Trägersätzen plaziert. Die Versuchsperson wurde gebeten, einen der<br />

Sätze mit unterschiedlicher Akzentuierung zu produzieren, so daß in einem<br />

Fall der Satzakzent auf das Logatom fiel, im anderen Fall nicht. Dies


78 Deutsche Vokale - spontan und gelesen<br />

ergab insgesamt vier Sätze, die mehrmals von einer Versuchsperson gesprochen<br />

wurden.<br />

In einer Untersuchung zu Vokalqualität und konsonantischem Kontext<br />

3<br />

verwendeten Stevens und House (1963) ebenfalls Logatommaterial. Zweisilbige<br />

Wörter mit der ;>²=< C9 VC: Struktur sowie Einzelvokale wurden isoliert<br />

produziert.<br />

Eine Zusammenfassung der Ergebnisse von Lindblom (1963) und Stevens<br />

und House (1963) ergibt folgende Regelmäßigkeiten im Verhalten<br />

von vokalischen F1 und F2 in verschiedenen Dauer- und lautlichen Kontexten:<br />

Umgeben von Konsonanten weisen die F2-Werte verschiedener Vokale<br />

auf eine zentralere Lage<br />

8<br />

hin.<br />

Unterhalb eines bestimmten Wertes (375 Hz für Lindbloms Sprecher)<br />

weicht F1 kaum von seinem Zielwert<br />

8<br />

ab.<br />

Bei vorderen Vokalen verändert sich F2 am wenigsten im velaren,<br />

8<br />

am meisten im labialen und koronalen 21 Kontext.<br />

Veränderungen an F2 bei den hinteren gerundeten Vokalen sind am<br />

8<br />

kleinsten im labialen, am größten im koronalen Kontext.<br />

F2 weicht bei den gespannten Vokale (außer ) weniger vom Ziel ab<br />

8<br />

als bei den ungespannten.<br />

Zusätzlich zu den zeitlichen und lautlichen Faktoren zählen die Variablen<br />

Stil und Akzent. Insbesondere der Variable Stil 22 wurde in den<br />

letzten Jahren wachsendes Interesse zuteil. Einige dieser Studien (Moon<br />

und Lindblom 1994; Brownlee 1996; Lindblom, Brownlee und Lindgren<br />

1996) sind bemüht, dem H&H-Ansatz (Lindblom und Moon 1988;<br />

21 Koronal umfaßt die Frikative > , ? , @ und A , die Plosive B und C sowie die Affrikate BED , CGF .<br />

Stevens und House (1963) verwenden hierfür postdental.<br />

22 Stil ist in sprachlichen Untersuchungen ein Begriff mit vielen Bedeutungen. Insbesondere<br />

wird er sehr leichtfertig mit Sprechgeschwindigkeit gleichgesetzt. Hier wird er verwendet<br />

um bestimmte linguistische Aktivitäten zu beschreiben, wie Spontansprache, Lesesprache,<br />

Zitierformsprache, deutliche Sprache. Diese Benennungen sollen aber nicht direkt mit bestimmten<br />

phonetischen Eigenschaften verbunden werden, denn es ist klar, daß eine Person in<br />

einem Aufnahmestudio, die zum Lesen oder zum Deutlichsprechen aufgefordert wird, dieser<br />

Forderung je nach Übung und Hemmungen unterschiedlich nachkommen wird. Aber wir<br />

können erwarten, daß sich bestimmte phonetische Unterschiede in der Produktion von Sprechergruppen<br />

feststellen lassen, die an verschiedenen linguistischen Aktivitäten teilnehmen.


3.9 Vokalqualität und Geschlecht, Dauer, Kontext sowie Stil 79<br />

H<br />

Lindblom 1990) eine empirische Grundlage zu liefern. Lindbloms Hyper-<br />

Hypo-Dimension sieht eine enge Beziehung zwischen Sprachproduktion,<br />

Sprachwahrnehmung und kommunikativer Situation. Die Wahrnehmung<br />

des sprachlichen Inhalts einer Äußerung besteht aus einer Kombination<br />

von signalinhärenten und signalexternen Informationen. Je nach der Stelle<br />

in einer Äußerung und der gemeinsamen Wissensbasis, die die Teilnehmer<br />

an einem Gespräch besitzen, dürfen die signalinhärenten und signalexternen<br />

Anteile unterschiedliche Größen annehmen. Wie andere biomechanische<br />

Systeme fährt der Sprachproduktionsmechanismus mit möglichst<br />

geringem Energieaufwand. Konkret auf Vokalqualität im akustischen Bereich<br />

angewendet, erwartet H&H eine zunehmende spektrale Annäherung<br />

der Vokale aneinander, je größer der Anteil an signalexterner Information<br />

ist.<br />

Es gibt zwei grundsätzliche Probleme bei der H&H-Theorie. Erstens<br />

ist eine Quantifizierbarkeit der signalexternen Information sehr schwer,<br />

denn sie beschränkt sich nicht nur auf die unmittelbare kommunikative<br />

Situation, sondern ist wahrscheinlich für jedes Wort einer Äußerung neu<br />

zu bestimmen. Das zweite Problem ist, daß die signalinhärente Information<br />

nicht weiter herabgesetzt wird, als es tatsächlich an bestimmten Stellen<br />

in der kommunikativen Situation geschieht.<br />

Es ist jedoch möglich, das Quantifizierungsproblem auf die grobe<br />

Klassifikation des Stils zu beschränken. Bei solchen Stilen, in denen die<br />

signalexternen Informationen allgemein höher liegen (z.B. in einem spontanen<br />

Dialog zwischen zwei Bekannten), ist eine größere Einebnung der<br />

signalinhärenten Information zu erwarten, als in einem Stil, in dem die signalexterne<br />

Information viel niedriger liegt, wie z.B. beim Vorlesen von<br />

kontextlosen Sätzen.<br />

Das gelesene und spontansprachliche Material dieser Studie bietet einige<br />

Möglichkeiten, Beziehungen zwischen Vokalqualität, Geschlecht, Dauer<br />

und unmittelbarer konsonantischer Umgebung in einem interstilistischen<br />

Vergleich zu untersuchen. Wie schon an einigen Stellen erwähnt,<br />

können die untersuchten Daten nicht immer die gewünschten Daten für<br />

einen bestimmten Kontext in ausreichenden Mengen liefern, wie sie in einer<br />

Laboruntersuchung gezielt elizitiert werden können. So gibt es in der<br />

Untersuchung von Qualität und konsonantischer Umgebung in 3.9.3 einige<br />

Datenlücken, weil eine Vokalkategorie mit zu wenig oder gar keinen<br />

Tokens in einem bestimmten Kontext vertreten ist.


80 Deutsche Vokale - spontan und gelesen<br />

In 3.9.1 wird die Beziehung zwischen Vokalqualität und Dauer untersucht,<br />

in 3.9.2 die Unterschiede zwischen den weiblichen und männlichen<br />

Vokalräumen, in 3.9.3 die Beziehung zwischen Vokalqualität und konsonantischer<br />

Umgebung. Diese drei Untersuchungsbereiche werden aber<br />

ständig von den Faktoren Geschlecht und Stil (Spontan- oder Lesesprache)<br />

durchquert, so daß ein Gesamtbild über die verschiedenen Faktoren,<br />

die zu akustischen Unterschieden der Vokalqualität im Kiel Corpus führen,<br />

aufgebaut wird 23 .<br />

3.9.1 Vokalqualität und Dauer<br />

Um einer möglichen Beziehung zwischen Vokalqualität und Dauer in<br />

den gelesenen und spontansprachlichen Korpora nachzugehen, werden die<br />

fünf häufigsten Lang-Kurz-Vokalpaare (I6± /¯ , ä± /á , ­B± /­ , æ± /$ , ± /ã ) in Inhaltswörtern<br />

in ihren F1/F2-Werten untersucht. In Tabelle 3.4 wird die Beziehung<br />

zwischen den Dauern der einzelnen Vokalabschnitte und ihren F1-<br />

und F2-Werten durch die Berechnung eines Spearman-Rangkorrelationskoeffizienten,<br />

GJ , ausgedrückt. Die obere Hälfte von Tabelle 3.4 enthält die<br />

Ergebnisse für die spontansprachlichen Vokale, die untere für die gelesenen<br />

Vokale.<br />

Zuerst werden die spontansprachlichen Vokale behandelt. Dies hat<br />

zwei Gründe. Erstens, weisen die Korrelationen in den spontansprachlichen<br />

Daten einige systematische Beziehungen zwischen Dauer und Formantwerten<br />

auf. Zweitens, sind die Tendenzen trotz unterschiedlicher<br />

Gruppengrößen bei den weiblichen und männlichen Sprechern in den meisten<br />

Fällen die gleichen. Bei den gelesenen Daten hingegen finden sich<br />

nur einige der Regelmäßigkeiten aus den spontansprachlichen Daten wieder,<br />

trotz der größeren Ausgewogenheit des Materials, was die Aufteilung<br />

in Geschlechtergruppen sowie das Material, das gelesen wurde, betrifft.<br />

Vokaldauer und -qualität in der Spontansprache<br />

Bei den meisten Vokalen in der oberen Hälfte von Tabelle 3.4 gibt es eine<br />

signifikante Korrelation zwischen der Dauer und den Formantwerten.<br />

23 Die Beziehung zwischen Vokalqualität und Akzent wird hier nur indirekt behandelt, indem<br />

eine Trennung zwischen Funktions- und Inhaltswörtern gemacht wird. Das Kiel Corpus<br />

wird zwar zur Zeit prosodisch etikettiert, aber ein Großteil des Korpus enthält lediglich Information<br />

zur lexikalischen Akzentuierung, nicht jedoch zur Akzentuierung auf Satzebene.


3.9 Vokalqualität und Dauer 81<br />

Tabelle 3.4: Korrelation von Dauer und Formantwerten für fünf<br />

Lang/Kurzvokalpaare in Inhaltswörtern. Die Spalte J enthält Spearman<br />

Rangkorrelationskoeffizienten mit Angabe der Signifikanz KL<br />

M#N MOMP<br />

(***<br />

, ** MQM#P RKS<br />

M#N M#P<br />

, * MN MP RKS<br />

M#N MQT<br />

, ns KVU<br />

MN M!T<br />

). Bei einer<br />

negativen Korrelation sinken Formantwerte mit zunehmender Dauer, bei<br />

einer positiven Korrelation werden steigende Formantwerte mit steigenden<br />

Dauern assoziert. Werte in der oberen Tabellenhälfte sind aus Spont-<br />

MN<br />

ansprache, in der unteren Hälfte aus Lesesprache.<br />

w<br />

m<br />

504<br />

813<br />

-0.058<br />

-0.033<br />

ns<br />

ns<br />

w<br />

m<br />

958<br />

1492<br />

0.100<br />

0.098<br />

***<br />

***<br />

Kategorie<br />

w 504 0.181 *** w 958 0.223 ***<br />

m 813 0.280 *** m 1492 0.171 ***<br />

w 746 -0.120 *** w 860 0.183 ***<br />

m 959 -0.204 *** m 1107 0.183 ***<br />

w 746 0.531 *** w 860 0.283 ***<br />

m 959 0.520 *** m 1107 0.214 ***<br />

w 1256 0.440 *** w 1124 0.377 ***<br />

m 1733 0.380 *** m 1844 0.270 ***<br />

w 1256 -0.270 *** w 1124 0.019 ns<br />

m 1733 -0.335 *** m 1844 0.149 ***<br />

w 308 0.055 ns w 483 0.265 ***<br />

m 406 0.197 *** m 662 0.230 ***<br />

w 308 -0.418 *** w 483 0.025 ns<br />

m 406 -0.382 *** m 662 -0.106 **<br />

w 369 -0.038 ns w 304 0.198 ***<br />

m 452 -0.081 ns m 569 0.111 **<br />

w 369 -0.463 *** w 304 -0.306 ***<br />

m 452 -0.462 *** m 569 -0.379 ***<br />

w<br />

m<br />

264<br />

259<br />

-0.253<br />

-0.019<br />

***<br />

ns<br />

w<br />

m<br />

638<br />

643<br />

0.115<br />

0.235<br />

**<br />

***<br />

w 264 0.036 ns w 638 0.084 *<br />

m 259 0.254 *** m 643 0.128 **<br />

w 301 -0.244 *** w 452 0.103 *<br />

m 305 0.214 *** m 450 0.300 ***<br />

w 301 0.237 *** w 452 0.005 ns<br />

m 305 0.287 *** m 450 0.246 ***<br />

w 318 -0.048 ns w 610 0.140 ***<br />

m 316 0.203 *** m 611 0.383 ***<br />

w 318 -0.256 *** w 610 -0.153 ***<br />

m 316 -0.050 ns m 611 0.052 ns<br />

w 178 -0.045 ns w 132 0.103 ns<br />

m 179 0.177 * m 132 0.422 ***<br />

w 178 -0.465 *** w 132 -0.189 *<br />

m 179 -0.585 *** m 132 -0.336 ***<br />

w 188 0.040 ns w 177 0.113 ns<br />

m 182 0.097 ns m 183 0.315 ***<br />

w 188 -0.671 *** w 177 -0.264 ***<br />

m 182 -0.719 *** m 183 -0.370 ***


82 Deutsche Vokale - spontan und gelesen<br />

900<br />

800<br />

gih (j )<br />

700<br />

F1 [Hz]<br />

600<br />

500<br />

kih (l )<br />

400<br />

300<br />

0 100 200 300 400 500<br />

Dauer [ms]<br />

2500<br />

2300<br />

(a)<br />

2100<br />

m (n )<br />

F2 [Hz]<br />

1900<br />

1700<br />

1500<br />

1300<br />

1100<br />

oip (q )<br />

900<br />

700<br />

500<br />

0 50 100 150 200 250 300 350<br />

Dauer [ms]<br />

(b)<br />

Abbildung 3.12: Gleitende Mediane (siehe Text) der Formantwerte geplottet<br />

als Funktion der Dauer für (a) F1 von weiblichem ­B± und männlichem<br />

ä± und (b) F2 von weiblichem á und männlichem ± . Die negativen Korrelationen<br />

von Dauer und F1 in ä± sowie Dauer und F2 bei ± zeigen sich<br />

in fallenden Formantwerten bei steigender Dauer, die positiven Korrelationen<br />

von Dauer und F1 bei ­B± sowie Dauer und F2 bei á sind in den<br />

steigenden Formantwerten bei steigender Dauer zu erkennen. Die Werte in<br />

beiden Diagrammen stammen aus der Spontansprache.


3.9 Vokalqualität und Dauer 83<br />

r<br />

In den Fällen, in denen einen negativen Wert aufweist, besteht eine negative<br />

Korrelation, d.h. bei zunehmender Dauer der Vokalabschnitte nehmen<br />

die Formantwerte ab. Bei einer positiven Korrelation (positives )<br />

J<br />

steigen die Formantwerte bei ebenfalls steigender Dauer. Dies läßt sich<br />

in Abb. 3.12 graphisch nachvollziehen. Dargestellt werden gleitende J Mittelwerte<br />

24 von F1 ­B± für weibliches ä± und männliches (3.12a) sowie von<br />

F2 á für weibliches und ± männliches (3.12b) als Funktion der Dauer.<br />

Die negativen Korrelationen für F1 von ä± männlichem sowie für F2 von<br />

<br />

± männlichem lassen sich am sinkenden Formantwert bei zunehmender<br />

Abschnittsdauer erkennen. Die positiven Korrelationen von Dauer und F1<br />

bzw. F2 bei weiblichem á und sind in den steigenden Formantwerten ­B± bei<br />

zunehmender Dauer zu sehen.<br />

Trotz der hohen Signifikanz der Korrelationen sind die Koeffizientenwerte<br />

dennoch meist klein. Dies weist darauf hin, daß neben der Dauer<br />

noch andere Faktoren eine Beziehung mit der Vokalqualität haben (Son<br />

und Pols 1990). In der Mehrheit der Fälle läßt sich sowohl die Richtung<br />

(positiv oder negativ) als auch das Fehlen einer signifikanten Korrelation<br />

erklären. Wie schon aus der obigen Diskussion klar wurde, erwarten<br />

wir für die verschiedenen Vokalkategorien auf Grund der unterschiedlichen<br />

Ziele, die angepeilt werden, unterschiedliche Auswirkungen auf die<br />

akustischen Parameter F1 und F2.<br />

Eine allgemeine Tendenz ist die Verlagerung der Vokalqualität auf eine<br />

zentralere Position im akustischen Raum bei abnehmender Dauer. Bei<br />

den I6± geschlossenen Vokalen ± und drückt sich diese Tendenz lediglich<br />

in F2 aus. F1 bleibt unberührt, denn als geschlossene Vokale haben beide<br />

F1-Werte (siehe Abb. 3.6), die nur unwesentlich höher liegen als die der<br />

benachbarten Konsonanten. Die am Rande des akustischen Raumes liegenden<br />

F2-Werte werden bei den geschlossenen Vokalen nicht erreicht. Bei<br />

abnehmender Dauer wird die vordere I6± Enge für nicht erreicht, F2 nimmt<br />

ab. ± Bei wird F2 mit abnehmender Dauer größer. Hier wird die notwendige<br />

Länge des Hohlraumes zwischen der dorso-velaren Enge und dem<br />

Mundausgang nicht erreicht. Wie schon auf S. 61 besprochen, kann ein<br />

höher liegender F2 bei gerundeten Vokalen zwei artikulatorische Gründe<br />

haben: (i) vorgezogene dorso-velare Vokalenge; (ii) unterschiedliche oder<br />

24 Die gleitenden Mittelwerte wurden wie folgt berechnet. Die Beobachtungen wurden nach<br />

der Variable Dauer aufsteigend sortiert. Ab der 15. Beobachtung wurde aus den 15 vorhergehenden<br />

und 15 nachfolgenden Formantwerten ein Median gebildet. Ein solcher Mittelwert<br />

wurde alle 5 Beobachtungen berechnet.


84 Deutsche Vokale - spontan und gelesen<br />

in<br />

s<br />

diesem Fall nicht erreichte Lippenrundung. Es kann hier nur vermutet<br />

werden, daß die Rundung nicht für die hohen F2-Werte verantwortlich ist,<br />

denn Rundung eines Vokalabschnitts erstreckt sich meist über prä- und<br />

postvokalisches Material, hat somit genügend Zeit sich aufzubauen, und<br />

die Lippen können unabhängig von der Zunge agieren 25 .<br />

Bei den restlichen Vokalkategorien, deren Zielqualität nicht geschlossen<br />

ist, besteht, außer ä± bei (siehe unten), eine positive Korrelation zwischen<br />

Dauer und F1, d.h. bei zunehmender Dauer steigt F1, was artikulatorisch<br />

auf eine immer offenere Zungenlage schließen läßt. Bei den nichtoffenen<br />

Vokalen ist die gleiche Tendenz in F2 zu einer zentralen Lage zu<br />

verzeichnen, wie bei den geschlossenen Vokalen, d.h. die hinteren Vokale<br />

, ã und $ zeigen negative Korrelationen, die vorderen ä± , ¯ und á positive<br />

æb±<br />

Korrelationen zwischen Dauer und F2.<br />

Bei dem offenen ­ /­B± Kurz-Lang-Paar gehen die Korrelationen in entgegengesetzten<br />

Richtungen. ­ Bei sind Dauer und F2, zumindest in der<br />

männlichen Gruppe, positiv korreliert, während ­B± für in beiden Gruppen<br />

eine negative Korrelation herrscht. Diese Unterschiede sind insofern interessant,<br />

als die Mediane der F1 und F2-Werte ­ für ­B± und zu einer nahezu<br />

identischen qualitativen Plazierung im akustischen Raum der spontansprachlichen<br />

Daten führen (siehe Abb. 3.6).<br />

Problematisch bleibt die negative Korrelation von Dauer und F1 beim<br />

ä± Vokal im Gegensatz zu den anderen halbgeschlossenen Vokalkategorien<br />

, æ± und ã , bei denen Dauer und F1 positiv korreliert sind.<br />

¯<br />

Vokaldauer und -qualität in der Lesesprache<br />

In der unteren Hälfte von Tabelle 3.4 finden sich die Korrelationsergebnisse<br />

für die gelesenen Daten. Obwohl die gelesenen Vokale, im Gegensatz zu<br />

den spontansprachlichen Vokalen, gleichmäßig über die Geschlechtergruppen<br />

und Korpora verteilt sind, ist das Bild der eventuellen Beziehungen<br />

zwischen Dauer und Vokalqualität unklarer. Bei bestimmten Kategorien<br />

finden sich signifikante Korrelationen für die weiblichen und männlichen<br />

Vokale, die den spontansprachlichen Daten ähnlich sind:<br />

Die hinteren gerundeten Vokale ± , ã , æ± und $ weisen bei den weiblichen<br />

und männlichen Daten alle eine negative Korrelation<br />

8<br />

zwischen<br />

25 Stevens und House (1963) sind anderer Meinung und machen unerreichte Lippenrundung<br />

für den höheren F2 verantwortlich.


3.9 Vokalqualität und Dauer 85<br />

Dauer und F2 auf.<br />

Die Korrelationen zwischen Dauer und F1 in der männlichen Gruppe<br />

sind auch denen der spontansprachlichen Daten ähnlich. Bei den<br />

8<br />

und ± ist keine Korrelation vorhanden, bei den restlichen<br />

nicht geschlossenen Kategorien ist die Dauer positiv mit F1<br />

geschlossenenI6±<br />

korreliert.<br />

Bei einigen Vokalkategorien bestehen jedoch Unterschiede zwischen<br />

den weiblichen und männlichen Daten, was das Vorhandsein einer signfikanten<br />

Korrelation zwischen Dauer und F1 oder F2 betrifft. Bei F1 von I6± ,<br />

­B± , æb± , $ und ã sowie bei F2 von I6± , ­B± , á und ­ ist in einer Geschlechtergruppe<br />

eine signifikante Korrelation vorhanden, in der anderen nicht. So findet<br />

sich z.B. beim weiblichen gelesenen ­B± eine signifikante positive Korrelation<br />

von Dauer und F2, beim männlichen ­B± nicht.<br />

Diese Unterschiede zwischen den Sprechergruppen und Korpora weisen<br />

einerseits auf unterschiedliches Verhalten in den unterschiedlichen linguistischen<br />

Aktivitäten, andererseits auf unterschiedliches Verhalten zwischen<br />

den weiblichen und männlichen Sprechergruppen bei der Ausübung<br />

der jeweiligen Aktivität. Ein Vergleich einiger Dauerparameter für die beiden<br />

Korpora in Tabellen 3.5 und 3.6 unterstützt diese Vermutung.<br />

Tabelle 3.5 enthält eine detaillierte Aufstellung der durchschnittlichen<br />

Dauern der zehn untersuchten Vokalkategorien, getrennt nach Korpus und<br />

Geschlecht. Es gibt systematische, hochsignifikante 26 Unterschiede zwischen<br />

den Dauern der Sprechergruppen und den Korpora. Erstens liegen<br />

die durchschnittlichen Dauern aller männlichen Vokalkategorien in<br />

Spontan- und Lesesprache tiefer als die der Frauen: ca. 11% kürzer in<br />

Spontan- und und Lesesprache. Zweitens, die Dauer-Mediane aller spontansprachlichen<br />

Vokalkategorien liegen tiefer als die der Lesesprache: ca.<br />

15% bei den weiblichen und 16% bei den männlichen Vokalen. Sämtliche<br />

Unterschiede zwischen den einzelnen Vokalkategorien sind in einer Richtung,<br />

d.h. die durchschnittlichen Dauern aller weiblichen Vokalkategorien<br />

sind größer als die der Männer.<br />

Tabelle 3.6 versucht, durch die Ermittlung anderer Dauerwerte, die<br />

unterschiedlichen Vokaldauern in Inhaltswörtern in Relation zu anderen<br />

zeitlichen Aspekten zu stellen. Dies hat interessante Folgen. Die Werte<br />

in Tabelle 3.6 enthalten die durchschnittlichen Dauern der Silben (t ) so-<br />

26 Alle Unterschiede wurden mit einem U-Test überprüft.


{<br />

w<br />

w<br />

86 Deutsche Vokale - spontan und gelesen<br />

Tabelle 3.5: Mediane (u v<br />

) in Millisekunden der Dauer der zehn Vokalkategorien<br />

aus Spontansprache (links) und Lesesprache (rechts). Alle Werte<br />

sind aus Inhaltswörtern. Die Anzahl der Beobachtungen pro Median sind<br />

in Klammern. Der U-Test ergibt hohe Signifikanz für alle Dauerunterschiede<br />

zwischen männlichen und weiblichen Vokalen der gleichen Kategorie.<br />

Spontansprache<br />

Lesesprache<br />

weiblich männlich weiblich männlich<br />

z|{<br />

}<br />

70 (504) 60 (813) 81 (264) 73 (259)<br />

50 (958) 46 (1492) 62 (638) 57 (643)<br />

u v<br />

xw<br />

u v<br />

xw<br />

u v<br />

xw<br />

u v<br />

yw<br />

{ ~<br />

<br />

87 (746) 75 (959) 109 (301) 92 (305)<br />

78 (860) 67 (1107) 85 (452) 78 (450)<br />

{ €<br />

€<br />

105 (1256) 96 (1733) 148 (318) 133 (316)<br />

79 (1124) 70 (1844) 86 (610) 79 (611)<br />

‚<br />

91 (308) 82 (406) 127 (178) 113 (179)<br />

75 (483) 68 (662) 83 (132) 70 (132)<br />

{ ƒ<br />

„<br />

83 (369) 77 (452) 85 (188) 80 (182)<br />

60 (304) 50 (569) 69 (177) 63 (183)<br />

Tabelle 3.6: Durchschnittliche Dauern in Millisekunden von Silben (t ),<br />

vokalischen (… ) und nichtvokalischen ( w … ) Elementen in Funktions- († )<br />

und Inhaltswörtern (‡ ) für Spontan- und Lesesprache.<br />

Gruppe tˆ tŠ‰<br />

spontan w 163 208 59 63 74 96<br />

spontan m 154 190 57 61 70 85<br />

gelesen w 158 227 52 63 71 102<br />

gelesen m 144 207 49 60 65 91<br />

…‹ˆ<br />

…‹‰ …‹ˆ …‹‰<br />

wie der vokalischen (… ) und nichtvokalischen ( w … ) Elemente getrennt nach<br />

Funktions- († ) und Inhaltswörtern (‡ ) sowie nach Geschlecht (w/m) und<br />

Korpus (spontan/gelesen). Alle Werte sind in Millisekunden. Die Dauern<br />

wurden lediglich aus Analysen der Wörter berechnet, andere Äußerungselemente,<br />

wie etwa Pausen, Atmung, usw., wurden nicht berücksichtigt.<br />

Die Silbenzahl eines Wortes wurde nach der Anzahl der Vokale in der ka-


3.9 Vokalqualität und Dauer 87<br />

nonischen 4 Transkription ermittelt, d.h. auch solche Silben wurden gezählt,<br />

in denen der Vokal während der Etikettierung als getilgt markiert wurde.<br />

Aus der Gesamtdauer der untersuchten Wörter geteilt durch die Gesamtzahl<br />

der Silben ergibt sich eine durchschnittliche Silbendauer. Um durchschnittliche<br />

Lautdauern zu erhalten, wurden die Gesamtdauern aller vokalischen<br />

und nichtvokalischen Elemente, die eine von Null verschiedene<br />

Dauer haben, aufsummiert und durch ihre jeweilige Gesamtzahl geteilt.<br />

Für eine detaillierte Untersuchung von Tempo sind die ermittelten Zahlen<br />

in Tabelle 3.6 viel zu grob, aber im Hinblick auf die Vokaldauer sind sie<br />

sehr aufschlußreich.<br />

Obwohl im Gegensatz zu Tabelle 3.5 sämtliche Vokalkategorien in<br />

die Durchschnittsbildung von Tabelle 3.6 eingingen, sind die Unterschiede,<br />

was die Inhaltswörter betrifft, zwischen den weiblichen und männlichen<br />

Dauern gleich geblieben, d.h. die männlichen Vokaldauern sind etwa<br />

11% kürzer als die weiblichen. Die Unterschiede zwischen den Korpora<br />

sind zwar kleiner geworden, aber die Verhältnisse sind gleich geblieben:<br />

die weiblichen und männlichen spontansprachlichen Vokale sind etwa 6%<br />

kürzer als die der Lesesprache. Interessant ist jedoch, daß die Verhältnisse<br />

sich nicht auf die restlichen Dauern projizieren lassen. Sämtliche weiblichen<br />

Dauern im jeweiligen Korpus sind größer als die entsprechenden<br />

männlichen Dauern, aber die Unterschiede sind teilweise sehr klein und die<br />

interkorporalen Unterschiede gehen manchmal in entgegengesetzte Richtung.<br />

Die männlichen Vokale der spontansprachlichen Funktionswörter sind<br />

etwa 5%, die der Lesesprache etwa 8% kürzer als die weiblichen, aber für<br />

beide Gruppen sind die Vokale der Funktionswörter jeweils länger als die<br />

der Lesesprache. Dies gilt ebenfalls für die durchschnittlichen Dauern der<br />

nichtvokalischen Elemente in den Funktionswörtern, die spontansprachlich<br />

länger sind als die der Lesesprache. Die Dauern der nichtvokalischen<br />

Elemente der Inhaltswörter bleiben für die jeweilige Sprechergruppe über<br />

beide Korpora etwa gleich, die männlichen Dauern etwas kürzer als die<br />

weiblichen. Die Verhältnisse finden sich in den durchschnittlichen Silbendauern<br />

wieder. Sämtliche männlichen Dauern sind kürzer als die weiblichen,<br />

die Funktionswortsilben der Spontansprache sind im Schnitt länger<br />

als die der Lesesprache, während sich für die Inhaltswörter das Verhaltnis<br />

umkehrt. Die Unterschiede zwischen männlichen und weiblichen Silbendauern<br />

von Inhaltswörtern liegen bei etwa 8,5% für beide Korpora, was aus<br />

den kleineren Unterschieden zwischen den Dauern der nichtvokalischen


88 Deutsche Vokale - spontan und gelesen<br />

<br />

Elemente zu erwarten ist.<br />

Die längeren durchschnittlichen Dauern der Funktionswörter in Spontansprache<br />

lassen sich relativ leicht erklären. Im gelesenen Material sind<br />

die Funktionswörter in der großen Mehrheit der Fälle nicht akzentuiert<br />

und somit rhythmisch und zeitlich unterdrückt. In den spontansprachlichen<br />

Daten werden gerade die Funktionswörter oft als “Häsitationsstellen” verwendet,<br />

eine Funktion, die u.a. durch Längung der konsonantischen und<br />

vokalischen Abschnitte erfüllt wird, und Funktionswörter treten nicht selten<br />

an akzentuierten Stellen auf, die auch mit längeren Dauern verbunden<br />

sind.<br />

Die Unterschiede zwischen den beiden Sprechergruppen und den beiden<br />

Korpora in Tabelle 3.5 zeigen einerseits, daß die Dauerunterschiede<br />

in Tabelle 3.6 ein Teil einer Reihe systematischer Dauerunterschiede sind.<br />

Andererseits ist es klar, daß die Unterschiede zwischen den weiblichen<br />

und männlichen Vokaldauern nicht auf eine allgemeine Veränderung der<br />

Sprechgeschwindigkeit zurückzuführen sind, denn die Dauer des nichtvokalischen<br />

Materials in Inhaltswörtern bleibt über beide Gruppen und Korpora<br />

etwa gleich. Wenn die erhöhten Dauern der weiblichen Vokale in Inhaltswörtern<br />

auf ein phonetisch explizites Verhalten hindeutet, so scheint<br />

dieses selektiv vorzugehen. Es wird allgemein mehr Zeit aufgewendet, jedoch<br />

wird dieser Mehraufwand unverhältnismäßig auf die Artikulation von<br />

Inhaltswörtern, insbesonders auf den Silbenkern und nicht den Silbenrandbereich<br />

konzentriert. Die zusätzliche Dauer mag zweifaches leisten, was<br />

beides zu den phonetischen Korrelaten einer deutlicheren Artikulationsweise<br />

führen kann:<br />

1. Die Zielenge einer vokalischen Artikulation wird ohne Undershoot<br />

erreicht.<br />

2. Die Zielengen der Vokale werden artikulatorisch und akustisch weiter<br />

auseinander gelegt, wodurch eine größere vokalische Distinktivität<br />

erreicht wird.<br />

Fehlende Korrelationen zwischen Dauer und F1 oder F2 in den weiblichen<br />

Lesedaten sprechen für 1. Um 2. nachzugehen, werden im nächsten<br />

Abschnitt die akustischen Vokalräume der Frauen und Männer miteinander<br />

verglichen.


3.9 Vokalräume, Geschlecht und Korpus 89<br />

Œ<br />

3.9.2<br />

Vokalräume, Geschlecht und Korpus<br />

Soziophonetische und soziophonologische Unterschiede im Sprachverhalten<br />

von Frauen und Männern bei der Ausübung der gleichen linguistischen<br />

Aktivität sind hinreichend dokumentiert, z.B. Trudgill (1974), Macaulay<br />

(1978), Romaine (1978), Local (1982) und Milroy und Milroy (1985),<br />

um nur ein paar Beispiele für verschiedene Arten des Britischen Englisch<br />

zu nennen. Ob die Unterschiede in weiblichen und männlichen Vokalräumen,<br />

die Henton (1995) in sieben Sprachen gefunden hat, allein<br />

einen soziophonetischen Hintergrund haben, ist jedoch nicht so eindeutig,<br />

wie Henton behauptet. Wie schon auf S. 76 beschrieben wurde, sind<br />

Gründe für phonetische Unterschiede zwischen weiblichen und männlichen<br />

Stimmen nicht immer im unterschiedlichen Sozialverhalten der Geschlechtergruppen<br />

zu finden. Neben den aufgeführten Folgen eines höheren<br />

F0 (Diehl et al. 1996) sind auch unterschiedliche Verhältnisse von<br />

Rachen- zu Mundraumlänge zu nennen (Fant 1966), die zu nicht einheitlichen<br />

Beziehungen zwischen den verschiedenen männlichen und weiblichen<br />

Vokalkategorien führen können.<br />

In diesem Abschnitt werden die weiblichen und männlichen Vokalräume<br />

verglichen und ein weiterer, biomechanischer, Grund für<br />

Vokalraum-Unterschiede vorgestellt, die sowohl im gelesenen als auch im<br />

spontansprachlichen Teil des Kiel Corpus zu finden sind.<br />

In Abb. 3.13 werden weibliche (Normalschrift) und männliche (umrissen)<br />

Vokalräume aus Spontan- (Abb. 3.13a) und Lesesprache (Abb 3.13b)<br />

miteinander verglichen. Der jeweilige Vokalraum wird durch die F1- und<br />

F2-Mediane der Randvokale Í ± , ä± , á , ­B± , $ , æ± und ± definiert. Um die Vokalräume<br />

von Männern und Frauen optisch besser vergleichen zu können,<br />

wurde eine einfache Normalisierung durchgeführt. Mit Beibehaltung seiner<br />

Dimensionen wird der männliche Vokalraum verschoben, so daß ± die<br />

Position des weiblichen ± einnimmt. Somit bildet ± einen Ankerpunkt<br />

für beide Vokalräume. Der Vokal ± wurde genommen, weil die Entfernung<br />

zwischen den absoluten Positionen des weiblichen und männlichen<br />

<br />

± von allen Vokalen am kürzesten ist, was in anderen Sprachen ebenfalls<br />

gefunden wurde (z.B. Fant 1975). Eine Verschiebung eines Vokalsystems,<br />

so daß das ± dieselbe Position im Vokalraum einnimmt, bietet eine einfache<br />

Normalisierung, die einen Vergleich sowohl der Vokalraumgrößen<br />

als auch der Unterschiede in den absoluten Entfernungen zwischen den<br />

restlichen Vokalkategorien erlaubt.


éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

û<br />

û<br />

ò<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ò<br />

¢<br />

¢<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

ï<br />

¡<br />

¡<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

90 Deutsche Vokale - spontan und gelesen<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

15<br />

14<br />

13<br />

12<br />

F2 [Bark]<br />

11 10<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ð í<br />

ìÉí<br />

¨ û<br />

ú û<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ø í<br />

ó í¥ û<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ý û<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ê í<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

2500 2000 1750 1500 1250 1000 750 600<br />

15<br />

14<br />

13<br />

12<br />

F2 [Hz]<br />

(a)<br />

F2 [Bark]<br />

11 10<br />

ð í éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ìÉí<br />

í<br />

ú û<br />

û ¨ ø éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ó í ¥ û<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

ý û<br />

í ê éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

éké8énékénékékénékénékékénékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékéné<br />

2500 2000 1750 1500 1250 1000 750 600<br />

F2 [Hz]<br />

(b)<br />

9<br />

9<br />

8<br />

8<br />

7<br />

7<br />

6<br />

6<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

6<br />

7<br />

8<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

Abbildung 3.13: Vergleich der weiblichen (normal) und männlichen (umrissen)<br />

Vokalräume in (a) Spontan- und (b) Lesesprache. Der Vergleich<br />

der Vokalräume wird durch eine einfache Normalisierung erleichtert: das<br />

männliche System wird so verschoben, daß männliches und weibliches ±<br />

die gleichen Koordinaten haben. Alle Vokale sind aus Inhaltswörtern.<br />

6<br />

7<br />

8


éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

û<br />

ò¢<br />

û<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

¢<br />

ò<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

¡<br />

¡<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

3.9 Vokalräume, Geschlecht und Korpus 91<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

15<br />

14<br />

13<br />

12<br />

F2 [Bark]<br />

11 10<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

ð í<br />

û ú<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

¨ û<br />

¥ û<br />

ø í<br />

ó í<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

ý û ê í<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

2500 2000 1750 1500 1250 1000 750 600<br />

15<br />

14<br />

13<br />

12<br />

F2 [Hz]<br />

(a)<br />

F2 [Bark]<br />

11 10<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

úüû<br />

ð í<br />

ø í<br />

ìüí<br />

û ¨<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké ¥ û<br />

ó í<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

ê í<br />

û ý é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

é8énékénékékénékénékékénékéné8ékénékékénékénékékénékénéké8énékékénékénékékénékénékékéné8ékénékénéké<br />

2500 2000 1750 1500 1250 1000 750 600<br />

F2 [Hz]<br />

(b)<br />

9<br />

ìüí<br />

9<br />

8<br />

8<br />

7<br />

7<br />

6<br />

6<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

6<br />

7<br />

8<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

Abbildung 3.14: Vergleich der spontan- (Normalschrift) und lesesprachlichen<br />

(umrissen) Vokalräume für (a) Frauen und (b) Männer. Alle Vokale<br />

sind aus Inhaltswörtern. Es wurde keine Normalisierung vorgenommen.<br />

6<br />

7<br />

8


92 Deutsche Vokale - spontan und gelesen<br />

Aus der einfachen Normalisierung des männlichen Vokalraumes werden<br />

deutliche Unterschiede in der räumlichen Ausbreitung der weiblichen<br />

und männlichen Systeme sowie Abweichungen in den Unterschieden zwischen<br />

den Vokalräumen für Spontan- und Lesesprache klar. Die Position<br />

des hinteren Vokals æ± steht in etwa im gleichen Vehältnis zum ± für<br />

die männlichen und weiblichen Räume. Bei allen anderen Vokalen breiten<br />

sich in beiden Korpora die weiblichen Systeme sowohl in der F1- als<br />

auch in der F2-Dimension weiter im akustischen Raum aus als die männlichen<br />

Systeme. Im gelesenen Korpus laufen die Linien von I6± nach ­B± über<br />

ä± und á fast parallel zueinander. Im spontansprachlichen Korpus ist der<br />

Unterschied jedoch komplizierter, denn der Abstand zwischen den weiblichen<br />

und männlichen Vokalen wächst mit zunehmendem Öffnungsgrad,<br />

d.h. während Í ± und ä± in Abb. 3.13a jeweils gleich weit auseinander liegen,<br />

wachsen die Abstände für á und ­B± . Dies bestätigt nicht nur Unterschiede<br />

zwischen dem weiblichen und männlichen Verhalten, sondern auch unterschiedliches<br />

Verhalten der Sprechergruppen in verschiedenen linguistischen<br />

Aktivitäten.<br />

Der Unterschied zwischen den Korpora wird in Abb. 3.14 deutlich gemacht.<br />

Hier werden die Vokalräume der Frauen (a) und Männer (b) aus den<br />

spontanen (normal) und gelesenen Korpora miteinander verglichen. Die<br />

verwendeten Werte sind die gleichen wie aus Abb. 3.13, es wurde aber in<br />

beiden Fällen keine Normalisierung vorgenommen. Ähnlich sind sich die<br />

weiblichen und männlichen Räume, was die Position der geschlossenen<br />

und halbgeschlossen Vokale I6± , ä± , æ± und ± betrifft: die spontansprachlichen<br />

Vokale sind bei beiden Sprechergruppen geringfügig offener, und<br />

die hinteren Vokale æ± und ± sind weiter vorn. Während die weiblichen<br />

Räume sonst etwa die gleiche Ausbreitung aufweisen, ist der männlichen<br />

Vokalraum des spontanen Korpus durch die Position des Vokals ­B± 27 in der<br />

F1-Dimension kleiner als der des gelesenen Korpus.<br />

Der zweite auf S. 88 gegebene Grund für die längeren Dauern der<br />

weiblichen Vokalabschnitte in Inhaltswörtern scheint sich durch den Vergleich<br />

der Vokalräume zu bestätigen: der durchschnittliche weibliche Vokalraum<br />

weist durch die größeren Abstände zwischen den einzelnen Vokalkategorien<br />

größere Distinktivität auf als ein durchschnittliches männliches<br />

System. Die höhere Vokaldauer ermöglicht das Erreichen der entfernteren<br />

Zielpositionen. Allerdings könnten durchschnittliche Dimensionsun-<br />

27 Wie aus Abb. 3.6b auf S. 60 ersichtlich ist, trifft dieses auch auf den Kurzvokal c zu.


z<br />

3.9 Vokalräume, Geschlecht und Korpus 93<br />

terschiede zwischen weiblichen und männlichen Ansatzrohren das Erreichen<br />

von entfernteren akustischen Vokalzielen noch weiter unterstützen.<br />

Aus der Tatsache, daß Frauen im Schnitt ein kleineres Ansatzrohr haben<br />

als Männer, folgt, daß gewisse artikulatorische Wege, die zu bestimmten<br />

auditiven Produkten führen, auch im Schnitt kürzer sind. Wenn man annimmt<br />

– und hier bleibt eine Verifikation u.a. durch artikulatorische Daten<br />

noch aus – daß die durchschnittlichen artikulatorischen Geschwindigkeiten<br />

für Männer und Frauen gleich sind, so kann eine Frau den Weg vom<br />

Ž<br />

geschlossenen zum Ž ‘ offenen in einer kürzeren Zeit überwinden als ein<br />

Mann, bzw. eine Frau kann bei gleicher oder gar größerer Vokaldauer ein<br />

entfernteres artikulatorisches Ziel erreichen.<br />

Die biomechanische Erklärung allein reicht jedoch nicht aus, um die<br />

beobachteten Unterschiede zwischen weiblichen und männlichen Vokalen<br />

zu bewältigen. Nach diesen Überlegungen müßten Frauen bei gleicher<br />

Vokaldauer einen größeren Vokalraum abstecken können, sie wenden<br />

aber mehr Zeit auf, und das gerade bei den Vokalen in Inhaltswörtern.<br />

Dies spricht wieder für unterschiedliches soziophonetisches Verhalten, d.h.<br />

Frauen sind in Ausübung der gleichen linguistischen Aktivität bemüht,<br />

deutlicher zu artikulieren, was sich u.a. in der erhöhten Distinktivität eines<br />

breiter abgesteckten Vokalraums sowie in längeren Vokaldauern niederschlägt.<br />

Konsequenzen haben die biomechanischen Überlegungen auch für<br />

Versuche, Transformationen zwischen weiblichen und männlichen Vokalen<br />

aufzustellen. Sowohl Fant (1966, 1975) als auch Bladon, Henton und<br />

Pickering (1983) und Henton (1995) müssen den nicht-uniformen Charakter<br />

der Transformationen zwischen den unterschiedlichen Vokalkategorien<br />

bewältigen, denn der akustische Abstand zwischen weiblichen und<br />

männlichen Vokalkategorien ist nicht mit einem konstanten Faktor für jeden<br />

Formanten zu erschlagen. Aus Abb. 3.15, in der die weiblichen (normal)<br />

und männlichen (umrissen) Lesedaten ohne Normalisierung verglichen<br />

werden, variieren die notwendigen Transformationen von männlichen<br />

zu weiblichen F1-Werten von etwa 10% I6± für bis 16% ä± für und<br />

von männlichen zu weiblichen F2-Werten von etwa 3% æ± für und ±<br />

bis 10% für ä± . Transformationen für schwedische und englische Vokale<br />

weisen ähnliche Unterschiede auf. Fant errechnet daher für jeden Vokal<br />

<br />

und Formanten einen Transformationsfaktor. Bladon, Henton und Pickering<br />

(1983) nehmen einen Unterschied von Frau zu Mann von einem Bark<br />

an und führen sämtliche Unterschiede, die ober- oder unterhalb von ei-


éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

û<br />

ò<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

¢<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

ï<br />

¡<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

éééééééééééééééééééééééééééééé<br />

94 Deutsche Vokale - spontan und gelesen<br />

250<br />

300<br />

350<br />

400<br />

450<br />

F1 500<br />

[Hz] 550<br />

600<br />

650<br />

700<br />

750<br />

800<br />

850<br />

900<br />

15<br />

14<br />

13<br />

12<br />

F2 [Bark]<br />

11 10<br />

ð énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

¨<br />

ú í<br />

û<br />

û<br />

ìÉí<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ø í<br />

ó í<br />

¥ û<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ý û<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

ê í<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

énékénéké8énékékénékénékékénékénékékékékékénékénékékénékénékékéné8ékénékénékékénékénékékénékéné8éké<br />

2500 2000 1750 1500 1250 1000 750 600<br />

F2 [Hz]<br />

9<br />

8<br />

7<br />

6<br />

5<br />

2<br />

3<br />

4<br />

5 F1<br />

[Bark]<br />

6<br />

7<br />

8<br />

Abbildung 3.15: Vergleich der weiblichen (normal) und männlichen (umrissen)<br />

Vokalräume in Lesesprache. Um die nicht-uniformen Unterschiede<br />

zwischen den Vokalen zu illustrieren, ist keine Normalisierung vorgenommen<br />

worden. Alle Vokale sind aus Inhaltswörtern.<br />

nem Bark liegen, auf soziophonetische Unterschiede zurück. Nimmt man<br />

jedoch von vornherein an, daß weibliche und männliche Vokale wegen unterschiedlicher<br />

artikulatorischer Entfernung unterschiedlich weit auseinander<br />

liegen müssen, sind gerade nicht-uniforme Beziehungen zwischen den<br />

akustischen Größen der einzelnen Vokalkategorien zu erwarten.<br />

3.9.3 Vokalqualität und konsonantische Umgebung<br />

Um Beziehungen zwischen Vokalqualität und der unmittelbaren konsonantischen<br />

Umgebung zu untersuchen, wurden Formantwerte getrennt nach<br />

bestimmten konsonantischen Kontexten betrachtet. Es wurden dieselben<br />

zehn Vokalkategorien wie im vorigen Abschnitt untersucht und weiterhin<br />

nur Vokale aus Inhaltswörtern analysiert. Die untersuchten Formantwerte<br />

der einzelnen Vokale sind ebenfalls dieselben, d.h. Formantwerte aus der<br />

Mitte des jeweiligen Vokals. Statt jeden Konsonanten einzeln zu behandeln<br />

wurde eine grobe Klassifizierung nach dem Artikulationsort vorgenommen<br />

(Stevens und House 1963). Drei Klassen wurden gebildet, LABIAL, CORO-<br />

NAL und DORSAL, die folgende Elemente enthalten:


3.9 Vokalqualität und konsonantische Umgebung 95<br />

2500<br />

2000<br />

PRÄ (spontan- )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

2500<br />

2000<br />

” •–“ — ˜–“ ˜ Z“ š ›–“ œ<br />

’“<br />

Vokal<br />

(a)<br />

PRÄ (spontan-¨¨ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

¡–Ÿ ¢ £–Ÿ £ ¤ZŸ ¥ ¦–Ÿ §<br />

žŸ<br />

Vokal<br />

(b)<br />

Abbildung 3.16: Mediane von F1 (untere Punkte) und F2 (obere Punkte)<br />

geplottet als Funktion der Vokalkategorie gruppiert nach dem vorangehenden<br />

konsonantischen Kontext für (a) weibliche, (b) männliche Sprecher.<br />

Fehlende Punkte sind auf w ª© zurückzuführen. Die Werte stammen aus<br />

Spontansprache.


96 Deutsche Vokale - spontan und gelesen<br />

2500<br />

2000<br />

POST (spontan-¸¸ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

2500<br />

2000<br />

­ ®¯¬ ° ±²¬ ± ³´¬ µ –¬ ·<br />

«¬<br />

Vokal<br />

(a)<br />

POST (spontan-ÃÃ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

» ¼¯º ½ ¾²º ¾ ¿´º À Á–º Â<br />

¹º<br />

Vokal<br />

(b)<br />

Abbildung 3.17: Mediane von F1 (untere Punkte) und F2 (obere Punkte)<br />

geplottet als Funktion der Vokalkategorie gruppiert nach dem nachfolgenden<br />

konsonantischen Kontext für (a) weibliche, (b) männliche Sprecher.<br />

Fehlende Punkte sind auf w ª© zurückzuführen. Die Werte stammen aus<br />

Spontansprache.


3.9 Vokalqualität und konsonantische Umgebung 97<br />

2500<br />

2000<br />

PRÄ (lese-ÎÎ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

2500<br />

2000<br />

Æ Ç–Å È É–Å É ÊZÅ Ë Ì–Å Í<br />

ÄÅ<br />

Vokal<br />

(a)<br />

PRÄ (lese-ÙÙ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

Ñ Ò¯Ð Ó Ô–Ð Ô Õ´Ð Ö ×–Ð Ø<br />

ÏÐ<br />

Vokal<br />

(b)<br />

Abbildung 3.18: Mediane von F1 (untere Punkte) und F2 (obere Punkte)<br />

geplottet als Funktion der Vokalkategorie gruppiert nach dem vorangehenden<br />

konsonantischen Kontext für (a) weibliche, (b) männliche Sprecher.<br />

Fehlende Punkte sind auf w ÛÚ zurückzuführen. Die Werte stammen aus<br />

Lesesprache.


98 Deutsche Vokale - spontan und gelesen<br />

2500<br />

2000<br />

POST (lese-ææ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

Þ ß–Ý à á–Ý á â´Ý ã ä–Ý å<br />

ÜÝ<br />

Vokal<br />

(a)<br />

2500<br />

2000<br />

POST (lese-ññ )<br />

coronal<br />

dorsal<br />

labial<br />

Formantwert [Hz]<br />

1500<br />

1000<br />

500<br />

0<br />

é ê–è ë ì–è ì í´è î ï–è ð<br />

çè<br />

Vokal<br />

(b)<br />

Abbildung 3.19: Mediane von F1 (untere Punkte) und F2 (obere Punkte)<br />

geplottet als Funktion der Vokalkategorie gruppiert nach dem nachfolgenden<br />

konsonantischen Kontext für (a) weibliche, (b) männliche Sprecher.<br />

Fehlende Punkte sind auf w ÛÚ zurückzuführen. Die Werte stammen aus<br />

Lesesprache.


3.9 Vokalqualität und konsonantische Umgebung 99<br />

LABIAL: ò , ó , ô , õ , ö ;<br />

CORONAL: ÷ , ø , ù , ú , û , ü , ù²û , ú#ü , ý ;<br />

DORSAL: þ , ÿ , , ¡ , ¢ .<br />

Nur solche Vokale wurden in diese Untersuchung aufgenommen, deren<br />

vorhergehende und nachfolgende Konsonanten auf eine der drei konsonantischen<br />

Kategorien paßten. Aus allen Kombinationen der drei präund<br />

postvokalischen konsonantischen Gruppierungen (LABIAL, CORO-<br />

NAL, DORSAL) ergeben sich für jede der zehn untersuchten Vokalkategorien<br />

neun mögliche Kontexte. Jedoch erlauben Lücken bei bestimmten<br />

Vokal-Kontext-Kombinationen keine systematische Untersuchung der Vokale<br />

getrennt nach prä- und postvokalischem Kontext. Systematisch sind<br />

die Lücken insofern, als sie in den weiblichen und männlichen Daten etwa<br />

gleich sind. So sind, z.B. in den spontansprachlichen Daten, beim prävokalischen<br />

Kontext CORONAL nahezu alle Vokalkategorien mit den drei postvokalischen<br />

Kontexten in ausreichendem Maße vertreten. Bei den restlichen<br />

Kombinationen sind zwischen drei und sechs der Vokalkategorien<br />

mit ausreichenden Tokens vorhanden. Von den ortssymmetrischen Kontexten<br />

LABIAL-LABIAL, CORONAL-CORONAL, DORSAL-DORSAL, die in<br />

anderen Studien verwendet wurden (Lindblom 1963; Stevens und House<br />

1963), ist lediglich CORONAL mit allen Vokalkategorien vertreten. In<br />

den verbleibenden beiden Kontexten sind nur in drei oder vier Vokalen<br />

hinreichend Tokens vertreten, aber auch wiederum von unterschiedlichen<br />

Vokalen in unterschiedlichen Kontexten.<br />

Auf Grund der beschriebenen Lücken wird eine umfassendere Gruppierung<br />

vorgenommen, in der Vokaltokens lediglich nach ihrem prä- oder<br />

postvokalischen Kontext klassifiziert werden. So werden z.B. alle £¥¤ -<br />

Tokens im postvokalischen DORSAL-Kontext zusammen behandelt sowie<br />

alle ¦§¤ -Tokens im prävokalischen CORONAL-Kontext. Auch bei dieser<br />

gröberen Klassifizierung sind bestimmte Vokale entweder gar nicht<br />

oder so schwach vertreten, daß eine Mittelwertbildung wenig sinnvoll gewesen<br />

wäre. Eine untere Grenze von sieben für Spontansprache wurde<br />

gewählt, um noch möglichst viele Kategorien aufnehmen zu können. Bei<br />

den gelesenen Daten ergibt sich sechs Tokens als Minimum, denn wenn<br />

ein Marburger oder Berliner Satz einen Vokal in einem bestimmten Kontext<br />

enthält, wurde dieses Beispiel von jeweils sechs Frauen und sechs


100 Deutsche Vokale - spontan und gelesen<br />

¨ Männern gesprochen. Ist jedoch bei der Lesung der kanonisch vorgesehene<br />

Vokal weggefallen oder durch eine andere Vokalkategorie vertreten,<br />

so können weniger als sechs Tokens vorhanden sein. Gleiches gilt für die<br />

konsonantischen Kontexte selbst, die ebenfalls unterschiedlichen Modifikationen<br />

unterliegen können.<br />

Vokalqualität und konsonantische Umgebung in der Spontansprache<br />

Abbildungen 3.16 und 3.17 enthalten Mediane von F1 und F2 geplottet<br />

als Funktion der Vokalkategorie gruppiert nach den drei prävokalischen<br />

(Abb. 3.16) und postvokalischen (Abb. 3.17) Kontexten. Die oberen Diagramme<br />

(a) enthalten die weiblichen Vokalwerte, die unteren (b) die männlichen.<br />

In allen vier Plots fällt die Engebündelung der Mediane für F1 in verschiedenen<br />

Kontexten über sämtliche Vokalkategorien auf, d.h. der erreichte<br />

Öffnungsgrad als wichtigstes artikulatorisches Korrelat von F1<br />

hängt nicht mit dem Artikulationsort des vorhergehenden oder des nachfolgenden<br />

Konsonanten zusammen. Die fehlende Beziehung zwischen vokalischem<br />

F1 und dem unmittelbaren konsonantischen Kontext folgt den<br />

Ergebnissen für die schwedischen Daten von Lindblom (1963) sowie für<br />

die englischen Daten von Stevens und House (1963).<br />

Bei F2 sieht die Situation anders aus. Im Gegensatz zu den F1-Werten<br />

liegen die F2-Mediane für eine bestimmte Vokalkategorie in den meisten<br />

Fällen über einen Bereich von 200 bis 300 Hz verteilt. Die F2-Mediane<br />

scheinen jedoch nicht beliebig zu streuen, denn die Reihenfolge für einen<br />

bestimmten Vokal für die beiden Sprechergruppen bleibt in allen Fällen<br />

gleich, es sei denn, es besteht ein solch geringfügiger Abstand zwischen<br />

zwei Medianen, daß sie als gleich behandelt werden können (z.B. F2-<br />

Mediane von ©¤ in Abb. 3.17). Bei beiden Sprechergruppen in beiden Kontextgruppen<br />

ist die Reihenfolge von CORONAL und DORSAL gleich. Die<br />

F2-Werte im CORONAL-Kontext bei den vorderen Vokalpaaren ¦§¤ , , ¤ , <br />

liegen stets tiefer als die von DORSAL, während bei den hinteren Vokalen<br />

, ¤ und 28 F2 im DORSAL-Kontext immer tiefer liegt. Diese akustischen<br />

Gegensätze lassen sich artikulatorisch erklären. Konsonanten vom<br />

Typ CORONAL erfordern die Zungenspitze oder Zungenblatt im alveolaren<br />

28 Der Vokal ist im DORSAL-Kontext ist im gesamten spontansprachlichen Korpus mit<br />

lediglich fünf Fällen vertreten.


3.9 Vokalqualität und konsonantische Umgebung 101<br />

<br />

oder postalveolaren Bereich, was zur Folge hat, daß F2 nach oben verlaufen<br />

muß, um das F2-Ziel eines vorderen Vokals zu erreichen, bzw. nach<br />

unten für den F2 eines hinteren gerundeten Vokals. Bei den Konsonanten<br />

vom Typ DORSAL wird der Artikulationsort des Konsonanten dem des Vokals<br />

angepaßt, am extremsten bei den dorso-palatalen bis dorso-uvularen<br />

Korrelaten von . Das hohe oder tiefe F2-Ziel eines Vokals wird von einem<br />

ähnlich hoch- oder tiefliegenden konsonantischen F2 begleitet.<br />

Während die F2-Mediane sich in prä- und postvokalischen CORONALund<br />

DORSAL-Kontexten sehr ähnlich verhalten, sind die F2-Mediane im<br />

prävokalischen LABIAL-Kontext anders als im postvokalischen Kontext<br />

eingeordnet. Dennoch sind die Unterschiede auch über beide Sprechergruppen<br />

die gleichen. Für LABIAL im prävokalischen Kontext liegen die<br />

F2-Werte im allgemeinen tiefer ¤ (cf. und ) als für CORONAL oder DOR-<br />

SAL. Im postvokalischen Kontext ist jedoch die Rangordnung von LABIAL<br />

zu CORONAL und DORSAL von Vokal zu Vokal verschieden. Diese Unterschiede<br />

können jedoch auf den gleichen artikulatorischen Grund zurückgeführt<br />

werden. Ein tiefliegender F2 ist typisch für labiale Artikulationen.<br />

Durch die Trägheit der Lippen im Vergleich zur Zungenspitze werden die<br />

akustischen Folgen eines prävokalischen labialen Konsonanten verhältnismäßig<br />

spät aufgehoben. Im postvokalischen Kontext hingegen macht<br />

sich die Lippenaktivität inmitten des Vokalabschnitts akustisch noch nicht<br />

bemerkbar.<br />

Vokalqualität und konsonantische Umgebung in Lesesprache<br />

Abbildungen 3.18 und 3.19 enthalten die kontextuellen Mediane von F1<br />

und F2 für Lesesprache. Wie bei den spontansprachlichen Daten sind<br />

die Aufzeichnungen aufgeteilt nach prä- (Abb. 3.18) und postvokalischen<br />

(Abb. 3.19) Kontexten sowie weiblichen (a) und männlichen (b) Werten.<br />

Die F1- und F2-Mediane haben bestimmte Gemeinsamkeiten mit ihren<br />

spontansprachlichen Gegenstücken. Bei F1 ist die enge Bündelung sämtlicher<br />

Mediane für eine Vokalkategorie zu sehen, was wieder auf eine geringe<br />

Beteiligung des Artikulationsortes am Erreichen des F1-Ziels des<br />

Vokals schließen läßt. Es gibt jedoch in den Mustern für die F2-Mediane<br />

bestimmte Unterschiede zu den spontansprachlichen Daten. Im prävokalischen<br />

Kontext (Abb. 3.18) weisen die Mediane für die einzelnen Vokale<br />

eine engere Bündelung gegenüber ihren spontansprachlichen Äquivalenten<br />

(Abb. 3.16) auf. Auch die Regelmäßigkeit in der Rangordnung der


102 Deutsche Vokale - spontan und gelesen<br />

F2-Mediane im DORSAL- und CORONAL-Kontext ist nur bedingt in den<br />

lesesprachlichen Daten zu finden. Lediglich bei den weiblichen vorderen<br />

Vokalen ¤ , und im prä- und postvokalischen Kontext (Abb. 3.18 &<br />

3.18a) sowie für die weiblichen hinteren Vokale ¤ , und im postvokalischen<br />

Kontext ist eine ähnliche Beziehung zu sehen, wie sie systematisch<br />

für beide Sprechergruppen in beiden Kontexten der spontansprachlichen<br />

Daten zu finden war.<br />

Die engere Bündelung der F2-Werte in den gelesenen Daten gegenüber<br />

den spontansprachlichen Daten hängt sicherlich mit begleitenden<br />

Dauerunterschieden zusammen. Steht einem Vokal genügend Zeit zur<br />

Verfügung, wird die Zielqualität erreicht, eine Qualität, die weitestgehend<br />

frei von konsonantischer Beteiligung ist.<br />

3.10 Ausblick<br />

Dieses Kapitel hat den deutschen Vokalismus von verschiedenen Seiten<br />

her untersucht. Die große Datenmenge, aufgeteilt in die beiden Geschlechtergruppen<br />

und zwei Stilebenen, konnte ein repräsentatives Gesamtbild<br />

liefern. Mit der Datenaufbereitung des Kiel Corpus und den<br />

Werkzeugen aus KielDat konnten umfangreiche Analysen und Aufstellungen<br />

der Ergebnisse weitestgehend automatisch ablaufen. Die Inhalte<br />

des Kiel Corpus haben besondere Anforderungen an die Messung gestellt.<br />

Vor allem die akustische Charakterisierung der Diphthonge erforderte eine<br />

Meßstrategie, die große Variation in der Dauer berücksichtigen konnte.<br />

Die Ergebnisse haben Anstöße zu weiteren Untersuchungen gegeben.<br />

Die Vermutung, daß Frauen, bei durchschnittlich kleineren Ansatzrohrdimensionen,<br />

akustische Ziele schneller erreichen können als Männer,<br />

ist noch mit weiteren Untersuchungen sowohl im akustischen als auch<br />

im artikulatorischen Bereich zu verfolgen. Die Vermutungen, die in der<br />

Diskussion zu den Diphthongen angestellt wurden, benötigen zu ihrer<br />

Unterstützung Hörexperimente, die bei der Manipulation der Stimuli<br />

sorgfältig auf Dauerfaktoren achten müssen.<br />

Im nächsten Kapitel wird eine Gruppe von Vokalabschnitten untersucht,<br />

die außer dem hier nicht berücksichtigt wurden: die -Vokale. In<br />

(Pätzold und Simpson 1997) wurden solche Vokalabschnitte als Tokens<br />

der entsprechenden Monophthonge behandelt. Hier wurden sie als stärkstes<br />

Beispiel einer zeitlichen Kombination der phonetischen Korrelate des


3.10 Ausblick 103<br />

V<br />

<br />

okals mit denen eines anderen Objektes, dem betrachtet. Diese Behandlung<br />

wird sich in der Beschreibung und im Versuch, die Lautmuster der<br />

-Vokale zu erklären, rechtfertigen.


104 Deutsche Vokale - spontan und gelesen


Kapitel 4<br />

Phonetik und Phonologie<br />

des deutschen <br />

4.1 Einleitung<br />

Im vorigen Kapitel wurden sowohl der Datenumfang als auch die Datenaufbereitung<br />

voll ausgenutzt, um automatische Formant- und Daueranalysen<br />

zu liefern. In diesem Kapitel wird einer der kompliziertesten Bereiche<br />

der deutschen Phonetik und Phonologie mit impressionistisch beschreibenden<br />

Methoden untersucht. Wegen des erheblich höheren menschlichen<br />

Aufwandes, den diese Methoden erfordern, wird im Vergleich zum vorigen<br />

Kapitel ein verhältnismäßig kleiner Teil des Kiel Corpus of Read Speech<br />

untersucht. Das Kiel Corpus dient als Datenquelle, und die Datenaufbereitung<br />

sowie KielDat werden lediglich verwendet, um relevante Äußerungsabschnitte<br />

zu orten und zusammenzuschneiden.<br />

Die Lautmuster, die mit dem deutschen verbunden werden, können<br />

in der Produktion eines Sprechstils eines einzelnen Sprechers von einem<br />

stimmlosen uvularen Frikativ in einem Wort wie trat ( !#" %$'& ) bis hin zum<br />

scheinbar vollständigen Schwund nach einem langen Vokal in einem Wort<br />

wie Bart ( ( )*!+", $& ) reichen. Wenn weitere Sprechstile des gleichen Sprechers<br />

sowie andere Arten des Deutschen hinzugenommen werden, steigt<br />

die Anzahl der konsonantischen und vokalischen Möglichkeiten steil an.<br />

So finden wir in Arten wie dem Sächsischen und Schwäbischen pharyn-<br />

105


106 Phonetik und Phonologie des deutschen <br />

- gale Realisierungen des , während in Varianten des Bairischen und Norddeutschen<br />

ein heller, apikaler Schlaglaut oder Approximant gefunden werden<br />

kann. Unterschiedliche Aussprachen des Wortes ( .#/¥0¥12& / 3#/¥0415& raus )<br />

vom selben Sprecher lassen sich wiederum auf stilistische Unterschiede<br />

zurückführen. Eine weitere Komplexität sind unterschiedliche Aussprachen<br />

eines Wortes wie spazieren, das sowohl eine ‘vokalische’ Aussprache<br />

657#/8'159§",:8;+& – – als auch eine ‘konsonantische’ Aussprache 657#/


4.2 Andere Studien zum 107<br />

A<br />

Abschnitt 4.3 eine Beschreibung der konsonantischen und vokalischen<br />

Korrelate des aus einem Teil des Kiel Corpus of Read Speech. In 4.4 wird<br />

dann versucht, die beschriebenen Lautmuster zu erklären. Hierzu werden<br />

Mechanismen aus verschiedenen phonetischen und phonologischen Analysen<br />

eingesetzt sowie bekannte Zusammenhänge zwischen dem akustischen<br />

Produkt des Ansatzrohrs und dem schallproduzierenden Artikulationsapparat<br />

verwendet. Als letzter Schritt wird in Abschnitt 4.5 der Versuch<br />

unternommen, gewisse Aspekte der Lautmuster zu reproduzieren, indem<br />

Teile aus 4.4 in einer Regelsynthese implementiert werden, um ein hörbares<br />

Produkt zu erzeugen.<br />

4.2 Andere Studien zum B<br />

Es ist nützlich, phonetische und phonologische Beschreibungen des in<br />

zwei Kategorien einzuteilen:<br />

1. qualitative Beschreibungen und<br />

2. quantitative Beschreibungen.<br />

4.2.1 Qualitative Beschreibungen<br />

Qualitative Beschreibungen des finden sich in Texten zur deutschen Phonetik<br />

sowie in deutschsprachigen Texten zur allgemeinen Phonetik. Die<br />

Beschreibungen der Lautmuster basieren auf impressionistischen, ohrenphonetischen<br />

Beobachtungen der eigenen Produktion sowie auf Beobachtungen<br />

von anderen Sprechern und Sprechergruppen.<br />

Beschreibungen des Deutschen seit dem Ende des 19. Jahrhunderts liefern<br />

ein sehr einheitliches Bild über die konsonantischen und vokalischen<br />

Korrelate des . Ein stimmhafter alveolarer oder uvularer Vibrant (auch als<br />

Schwing- oder Zitterlaut bezeichnet) wird in den meisten Studien (Bremer<br />

1893, 1918; Viëtor 1894, 1925; Sütterlin 1908; Forchhammer 1928; Essen<br />

1953; Wängler 1963; Zacher 1969; Meinhold 1973; MacCarthy 1975)<br />

als Kernkorrelat des betrachtet. Meinhold und Stock (1982) sowie Kohler<br />

(1995a) andererseits betrachten den uvularen Frikativ .+& als wichtigste Variante<br />

des hochdeutschen , die Vibranten werden nur noch als dialektale<br />

oder stilistische Varianten behandelt. In der generativen phonologischen


108 Phonetik und Phonologie des deutschen <br />

C Analyse des von Hall (1993) wird der stimmhafte uvulare Vibrant zugrundegelegt.<br />

Von den zwei Vibranten ist der alveolare im Deutschen länger vertreten<br />

als sein uvulares Gegenstück. Laut Viëtor (1925) wird der uvulare Vibrant<br />

gegen Ende des 18. Jahrhunderts aus dem Französischen eingeführt und<br />

nach anfänglicher Eroberung in den Städten zur häufigeren Variante des<br />

. Über die Zeit der Einführung herrscht jedoch Uneinigkeit, denn Sütterlin<br />

(1908) setzt 50 bis 100 Jahre früher an als Viëtor und de Boor, Moser<br />

<br />

und Winkler (1969) verzeichnen eine Verbreitung der uvularen Variante<br />

seit dem 17. Jahrhundert. Obwohl der alveolare Vibrant in der Siebs’schen<br />

Deutschen Bühnenaussprache noch präskriptiv bis zur 15. Auflage im Jahre<br />

1927 (Siebs 1927) aufrechterhalten wird, ist schon aus Bremers (1893)<br />

Beobachtungen die Übernahme einer uvularen Lautpalette im Standardgebrauch<br />

zu entnehmen.<br />

Die restlichen konsonantischen und vokalischen Korrelate des werden<br />

als Reduktionen Zungenspitzen- D & des Zäpfchen- 3+& oder behandelt,<br />

die entweder auf artikulatorische Energieeinsparung oder artikulatorische<br />

Vernachlässigung zurückzuführen ist:<br />

(EGFIH E FKJ¥L4M J<br />

FON FQP<br />

Aus dieser Kraftersparnis erklärt sich der so häufige Übergang<br />

eines Zitter- in ein reduziertes Reibegeräusch ; ;<br />

; ) (Bremer 1893: 82)<br />

Artikulatorische Vernachlässigung führt oft zum Schwinden<br />

der Flatterbewegung, die “Vibrans” wird zum Enge bzw. Reibelaut<br />

und schließlich zum Öffnungslaut . . .<br />

Besonders häufig unterliegt die uvulare Bildung, das sog.<br />

Zäpfchen-E , der Verkümmerung. Vielfach, wenn nicht schon<br />

meistens, wird es zum velar-postdorsalen Engelaut N . . .<br />

(Essen 1953: 76–77)<br />

Einerseits bewegt sich der hintere r-Laut auf die Klassenmerkmale<br />

der Reibelaute 2 zu. . .<br />

Geht man von der Bestimmung des sogenannten Zäpfchenr<br />

(“hinteres” r) als einem postdorsal-velaren stimmhaften<br />

Schwinglaut wie von einer Norm aus, so kann<br />

2 Emphase Wängler


4.2 Qualitative Beschreibungen 109<br />

man diese Gegebenheiten Reduktionserscheinungen 3 nennen.<br />

(Wängler 1963: 157–158)<br />

Den detaillierten Beobachtungen von Bremer (1893) zufolge im Vergleich<br />

mit neueren Studien (Wängler 1963; Kohler 1995a), scheint sich<br />

in mehr als einem Jahrhundert an den komplizierten Lautmustern des in<br />

verschiedenen Kontexten erstaunlich wenig geändert zu haben. In prävokalischer,<br />

silbeneinleitender Position werden lediglich konsonantische Vibranten<br />

bzw. Frikative gefunden. Postvokalisch werden die größeren Abschwächungen<br />

beobachtet. Postvokalisch ist jedoch zu unterscheiden zwischen<br />

Lang- und Kurzvokalen. Nach letzteren wird häufig noch ein Frikativ<br />

gefunden, der vor allem vor stimmlosen tautosilbischen Konsonanten<br />

selber stimmlos wird (Meyer-Eppler 1959).<br />

Die letzte Phase in der Reduktion ist die Vokalisierung des . Während<br />

die verschiedenen konsonantischen Korrelate eine relativ detaillierte Klassifikation<br />

erhalten, bereitet die Beschreibung der vokalischen Korrelate<br />

größere Probleme, nicht zuletzt weil die vokalischen Lautmuster des sich<br />

nur schwer in einem linearen phonetisch-phonologischen Rahmen unterbringen<br />

lassen. Bremer (1893, 1918) verwendet ä und a zur Symbolisierung<br />

vokalischer Varianten des alveolaren r, die er in Niedersachsen bzw.<br />

in der Mark Brandenburg beobachtet hat. MacCarthy (1975) verwendet die<br />

Symbolisierung R für den Gleitlaut der Vokalisierung und Viëtor (1925)<br />

warnt davor, r zum /8& - oder ?@& -ähnlichen schwachen Vokallaut herabsinken<br />

zu lassen. Essen (1953) beschreibt drei verschiedene Ausprägungen<br />

der -Vokalisierung:<br />

. . . der sich als a-ähnlich oder als Dehnung oder Verdumpfung<br />

des vorhergehenden Vokals noch zu erkennen gibt. (hört<br />

SUT<br />

V8WYX<br />

& , hart S[Z\<br />

X<br />

& , engl. here ]^ S_a`@\ & ). (Essen 1953: 76)<br />

<br />

Diese drei Möglichkeiten sind auch in Kohlers (1995a) Beschreibung<br />

des wiederzufinden. Aus seiner graphischen Darstellung der -<br />

Diphthonge (siehe Abb. 4.8 auf S. 129) (Kohler 1977) ist die Vokalisierung<br />

des nicht als bestimmte Vokalqualität zu sehen, sondern als eine<br />

qualitative Richtung auf einen zentralen, halboffenen Vokal :8& .<br />

3 Emphase Wängler


110 Phonetik und Phonologie des deutschen <br />

4.2.2 b<br />

Quantitative Beschreibungen<br />

Zu trennen von den qualitativen Studien sind die quantitativen Beschreibungen<br />

des . Diese Arbeiten sind nicht unbedingt weniger impressionistisch.<br />

Ulbrichs (1972) Kategorien sind allgemein phonetisch und seine<br />

Klassifikation erfolgt auf Grund von auditiven Urteilen. Aber auch Meyer-<br />

Epplers (1959) akustische Messungen an Sonagrammen sind impressionistische<br />

Interpretationen von instrumentellen Aufzeichnungen. Ausschlaggebend<br />

ist der Versuch, eine Quantifizierung der Lautmuster des zu unternehmen.<br />

Meyer-Eppler (1959) ist die erste spektrale Untersuchung der konsonantischen<br />

und vokalischen Allophone des deutschen . Eine nicht genannte<br />

Anzahl von Versuchspersonen wurde gebeten, eine Wortliste zu<br />

lesen, die an verschiedenen strukturellen Positionen enthielt. Spektrale<br />

Gemeinsamkeiten in den vibrantischen Allophonen D & und 3+& werden<br />

im schwach ausgeprägten dritten Formanten gefunden sowie in einem um<br />

400 Hz liegenden ersten Formanten. Das vokalische Allophon c& im Gegensatz<br />

zum vibrantischen Allophon besitzt einen starken dritten Formanten.<br />

Unterschiede in den konsonantischen und vokalischen Allophonen<br />

von werden in schematischen Darstellungen der Bewegungen der ersten<br />

zwei Formanten in Vokal- -Verbindungen verdeutlicht.<br />

Die bislang umfangreichste Studie des ist Ulbrich (1972). Besonders<br />

im Hinblick auf die in diesem Kapitel präsentierte Untersuchung werden<br />

Ulbrichs Vorgehensweise sowie die Probleme seiner Analyse eingehender<br />

diskutiert. Ulbrichs Ziel ist es, das breite Spektrum der artikulatorischen<br />

und akustischen Varianten des deutschen , wie sie von Sprechern<br />

des Standarddeutschen realisiert werden, darzustellen.<br />

Ulbrichs Datenbestand umfaßte ca. 11 000 deD*d -Allophone 4 , produziert<br />

von 40 Sprechern (25 Rundfunksprechern und 15 Schauspielern). Das gesprochene<br />

Material besteht ausschließlich aus vorgelesenen Texten: Nachrichten,<br />

Programmansagen, Wetterberichten und literarischen Texten.<br />

Die einzelnen Allophone werden nach auditiven und strukturellen Kriterien<br />

kategorisiert. Neun Kategorien werden zur Klassifikation der unterschiedlichen<br />

Kontexte zur Verfügung gestellt sowie fünf Oberkatgorien<br />

zur lautlichen Klassifikation “r-Vibrationslaute”, “r-Frikativlaute” “r-<br />

Vokallaute”, “r elidiert” und “r indifferent”. Die ersten drei lautlichen<br />

4 Die genaue Zahl ist nicht klar, denn eine Summierung der tabellierten Allophone im<br />

Anhang und die im Text angegebene Summe stimmen nicht überein.


l<br />

l<br />

4.2 Quantitative Beschreibungen 111<br />

f<br />

Oberkategorien werden wiederum in Subkategorien gegliedert, die die einzelnen<br />

konsonantischen und vokalischen Möglichkeiten näher erfassen. So<br />

wird die Oberkategorie “r-Frikativlaute” in die .hgji& Allophone k & , [g und<br />

weiter untergliedert.<br />

&<br />

Ulbrichs quantitative Ergebnisse im Hinblick auf die oben vorgestellte<br />

Stellung der alveolaren und uvularen Vibranten sind interessant, weil<br />

sie aufzeigen, daß bei Sprechern, die die Standardsprache verkörpern, der<br />

stimmhafte uvulare Frikativ die häufigste Variante ist, eine Tatsache, die<br />

Meinhold und Stock (1982) zur Definition deD*d ihres -Phonems .+& als führten.<br />

Problematisch in Ulbrichs Analyse ist seine Kategorisierung der vokalischen<br />

Korrelate des . Wie bei den qualitativen Beschreibungen werden<br />

die konsonantischen Korrelate in mehrere Kategorien aufgeteilt und akribisch<br />

klassifiziert. Die vokalischen Korrelate hingegen werden mit lediglich<br />

vier Kategorien abgefertigt, wovon eine (“indifferent”) eine negative<br />

Kategorie darstellt für Fälle, in denen keine Entscheidung über Vokalisierung<br />

bzw. Elidierung getroffen werden konnte. Die Kategorisierung der<br />

vokalischen Kategorien ist nicht allein wegen ihres kleinen Umfangs zu<br />

kritisieren. Die Kategoriendefinitionen erweisen sich als viel unschärfer als<br />

ihre konsonantischen Gegenstücke, und je näher man die Kategorie “elidiert”<br />

unter die Lupe nimmt, desto undeutlicher wird eine Beschreibung<br />

der Lauttypen, die sie umfassen soll.<br />

Ulbrichs konsonantische und vokalische Kategorien sind phonetisch<br />

zu verstehen, 4& d.h. ist für stimmmlose uvulare Frikative verwendet, unterscheidet<br />

sich in der Stellung der Stimmritze .+& von und in der Artikulationsstelle<br />

& von . Bei seiner Verwendung m & von :8& bzw. schließt Ulbrich<br />

jedoch eine große vokalische Qualitätspalette ein und beschreibt nicht nur<br />

einen Vokal von halboffener zentraler Qualität. Dies wird an ein paar Stellen<br />

im Text klar, wie z.B.:<br />

. . . durch zwischen no0:p*& und no0¥.op*& .<br />

( :


112 Phonetik und Phonologie des deutschen <br />

s Definition zu gelten: weder konsonantische Variante noch zeitlich trennbare<br />

vokalische Substituierung des /r/ ist vorhanden, aber sowohl qualitative<br />

als auch quantitative Unterschiede zu den einfachen, -losen Vokalen<br />

können vorhanden sein 5 . Diese Definition umschließt sowohl Essens<br />

(1953) Dehnung und Verdumpfung als auch solche Fälle, in denen keine<br />

erkennbaren phonetischen -Spuren vorhanden sind, wie z.B. im eingangs<br />

erwähnten Bart, das wie die Aussprache von bat sein mag.<br />

In den Tabellen 4.1 und 4.2 werden die Probleme der vokalischen Kategorisierung<br />

an Beispielen illustriert. Tabelle 4.1 enthält Beispiele der verschiedenen<br />

Kategorien aus Ulbrichs eigenem Datenmaterial. Die Kategorie<br />

“elidiert” ist in vier Subkategorien aufzuteilen, “andere Länge”, “andere<br />

Qualität”, “andere Qualität und Länge” und “elidiert”. Diese Kategorien<br />

beziehen sich jeweils auf die quantitativen und qualitativen Verhältnisse<br />

des -losen Vokals:<br />

“andere Länge” Die phonetischen Korrelate des schlagen sich lediglich<br />

in der Länge des Vokals nieder.<br />

“andere Qualität” Der Vokal enthält seine ursprüngliche Länge, aber sie<br />

erleidet qualitative Veränderungen<br />

“andere Länge und Qualität” Der Vokal ist sowohl in seiner Länge als<br />

auch in seiner Qualität vom geprägt.<br />

“elidiert” ist weder qualitativ noch in der Länge des Vokals vertreten.<br />

Tabelle 4.1 enthält Beispiele aus drei von diesen Kategorien. Um diese<br />

feine Kategorisierung hörbar zu machen, wurden die vokalischen -<br />

Realisierungen eines Sprechers (k03) aus dem Kiel Corpus of Read Speech<br />

auditiv untersucht. Tabelle 4.2 enthält Beispiele zu jedem der vokalischen<br />

Kategorien. Die feinere Kategorisierung kommt im vokalischen Bereich<br />

dem nahe, was Ulbrich für die konsonantischen Realisierungen ansetzt.<br />

Dennoch bleiben auch bei dieser Aufstellung Kategorisierungsprobleme:<br />

5 Bei Betrachtung des folgenden Auszuges ist aber auch diese Definition problematisch:<br />

Umgangsprachlich ist häufig zu beobachten, daß t uvt seine Quantität auf den<br />

vorangehenden Vokal überträgt, wenn es nicht elidiert wird. Langer offener<br />

Vokal für Kurzvokal und t uvt ist besonders in Norddeutschland festzustellen,<br />

z.B. in stark w xzy|{*} ~ '€ , lernen w ,‚2} ~ ƒ„2ƒY€ , Stirn w xzy§…,} ~ ƒY€ , dort w †Y‡5} ~ y§€ , kurz w eˆ*} ~ y|‰=€ .<br />

(Ulbrich, 1972: 96)


›<br />

›<br />

‹<br />

4.2 Quantitative Beschreibungen 113<br />

Tabelle 4.1: Beispiele aus Ulbrichs Daten, die die verschiedenen vokalischen<br />

Kategorien illustrieren.<br />

m'&<br />

:8&<br />

elidiert<br />

(#Š8" m8‹ Œa9=" ;+& Berlin<br />

<br />

qr;¥*Š


114 Phonetik und Phonologie des deutschen <br />

Tabelle 4.2: Eine Auswahl an Sätzen aus dem Berliner Satzkorpus gesprochen<br />

von Sprecher k03. Die Einteilung der Beispiele in die verschiedenen<br />

Kategorien basiert auf Ulbrichs (1972) Kategorisierung mit einer feineren<br />

Aufteilung der Kategorie “elidiert” (siehe Text).<br />

œ<br />

<br />

Heute ist schönes Frühlingswetter. (k03be001)<br />

Über die Felder weht ein Wind. (k03be004)<br />

Gestern stürmte es noch. (k03be005)<br />

œ<br />

Vž%<br />

Gleich hier sind die Nahrungsmittel. (k03be027)<br />

Gestern stürmte es noch. (k03be005)<br />

Die Fahrt war ja mächtig kurz. (k03be096)<br />

andere Qualität, Länge gleich<br />

Durch Wald und Feld führt unser Weg. (k03be057)<br />

Sonst wirst du leicht überfahren. (k03be024)<br />

Es gehört zu einer Feldscheune. (k03be094)<br />

Qualität gleich, andere Länge<br />

Ob ich Süßigkeiten kaufen darf? (k03be030)<br />

Dahinter liegt der Rosengarten. (k03be062)<br />

Löst doch die Fahrkarten am Schalter! (k03be078)<br />

andere Qualität, andere Länge<br />

Es ist acht Uhr morgens. (k03be010)<br />

In der Mitte steht der Brötchenkorb. (k03be015)<br />

Zum Schnitzel gibt es Erbsen. (k03be050)<br />

elidiert - Qualität und Länge gleich<br />

Dahinter liegt der Rosengarten. (k03be062)<br />

Muß der Zucker nicht dort drüben stehen? (k03be028)<br />

Die Kartoffeln gehören zum Mittagessen. (k03be049)


4.3 Phonetische Lautmuster des B<br />

4.3 Phonetische Lautmuster des 115<br />

Ÿ<br />

anderer. Im Gegensatz zu Ulbrich wird hier die feste Annahme gemacht,<br />

daß sowohl phonologisch als auch phonetisch in den Wörtern vorhanden<br />

ist, deren kanonische Transkriptionen ein r enthalten. Ob diese Annahme<br />

vertretbar ist, wird sich im Versuch zeigen, die Lautmuster phonetisch und<br />

phonologisch zu erklären.<br />

4.3.1 Daten und Methode<br />

In diesem Abschnitt werden die Lautmuster, die in Verbindung mit auftreten,<br />

anhand von impressionistischen und akustischen Aufzeichnungen<br />

von drei weiblichen und drei männlichen Sprechern des Kiel Corpus of<br />

Read Speech beschrieben. Es werden solche Wörter untersucht, die kanonisch<br />

entweder die konsonantische (r) oder die vokalische (6) Variante<br />

enthalten.<br />

Aus dem Kiel Corpus of Read Speech werden drei weibliche (k08, k10,<br />

k12) und drei männliche (k07, k09, k11) Sprecher 6 untersucht, die jeweils<br />

100 Marburger Sätze (siehe Anhang A.2, S. 187) gelesen haben. Diese<br />

Sprecherauswahl soll Aussagen über sowohl intra- als auch interindividuelle<br />

Unterschiede erlauben. Die Marburger Sätze sind auch für eine solche<br />

Untersuchung geeignet, denn eine kleine Menge von -Wörtern treten in<br />

den Sätzen mehr als einmal auf. Diese werden von derselben Person mehrmals<br />

produziert und geben somit Aufschluß über Variationen in wiederholter<br />

Produktion des gleichen Wortes.<br />

Es wurde KielDat eingesetzt, um -haltige Wörter in der Datenbank<br />

zu orten, Äußerungen desselben Wortes in einer Datei zusammenzuschneiden<br />

und so das Abhören der einzelnen -Tokens zu erleichtern. Zur leichten<br />

Orientierung in den neuen Signaldateien wurden auch Etikettierdateien<br />

erstellt, die den Anfang eines Signalabschnitts mit der entsprechenden<br />

Sprecher-Satz-Kennung annotierten. Ein Auszug aus einer solchen Signaldatei<br />

samt dieser Annotation ist in Abb. 4.1 dargestellt. Die Aufbereitung<br />

vereinfacht den Vergleich von mehrfachen Äußerungen des gleichen Wortes<br />

derselben Person sowie den Vergleich zwischen Äußerungen desselben<br />

Wortes von mehreren Sprechern. Die neue Etikettierung der Signale hält<br />

6 Persönliche Daten über Alter, sprachliche Herkunft der Sprecher sind in Anhang B.1 auf<br />

S. 195 zu finden.


116 Phonetik und Phonologie des deutschen <br />

Abbildung 4.1: Oszillogramm, Sonagramm und Annotation eines Auszugs<br />

aus den zusammengeschnittenen Äußerungen des Wortes fährt der<br />

Sprecherinnen k08 und k10 sowie des Sprechers k09. (Ref.: k08mr026,<br />

k08mr071, k09mr026, k09mr071, k10mr026, k10mr071)<br />

die Verbindung des Wortes zu seinem Herkunftssatz aufrecht, wenn das<br />

Wort in seinem ursprünglichen Kontext gebraucht wird.<br />

4.3.2 Konsonantische Korrelate des<br />

Die phonetischen Korrelate des lassen sich in einer ersten Grobklassifizierung<br />

in vokalische und konsonantische Korrelate aufteilen. Zuerst werden<br />

die konsonantischen Möglichkeiten und ihre Verteilung bei den Sprechern<br />

untersucht.<br />

Als Ausgangspunkt wurden alle Fälle erfaßt, in denen r in der kanonischen<br />

Transkription vorkommt. An diesen Stellen würde man bei einer<br />

idealisierten Aussprache des Einzelwortes eine konsonantische Artikula-


Stimmlose uvulare Friktion œ §<br />

›<br />

›<br />

4.3 Stimmlose uvulare Friktion ¡ ¢8£ 117<br />

¤<br />

tion als Korrelat des erwarten. In den 100 Marburger Sätzen gibt es 61<br />

verschiedene Wörter, deren kanonische Transkription r enthält. Von diesen<br />

Wörtern kommen 5 mehr als einmal vor (Doris: 4, unsere: 3, brauchen:<br />

4, drei: 3, ihre: 2). Dies ergibt eine Gesamtzahl von 72 Wörtern. Für<br />

die 6 untersuchten Sprecher kommen somit 432 potentielle konsonantische<br />

-Fälle in Frage. Aus einer Untersuchung der Etikettierungen dieser 432<br />

<br />

Wörter gibt es 17 Fälle, in denen ein vokalisches Korrelat des produziert<br />

wurde und nicht die kanonisch vorgesehene konsonantische Variante. Die<br />

17 vokalischen Fälle waren alle im ¥vYRj¦ Kontext zu finden (Erdbeeren: 3,<br />

Herren: 3, Motoren: 3, Türen: 4, fahren: 2, waren: 2). Die Etikettierungen<br />

wurden weiter auf das Einfügen des Etiketts r durchsucht, was auf eine<br />

konsonantische Artikulation in einem Kontext hinweist, der kanonisch als<br />

vokalisch vorgesehen war. Im untersuchten Subkorpus wurden keine solchen<br />

Fälle gefunden 7 .<br />

Bei den untersuchten Sprechern sind die konsonantischen Varianten des <br />

ausschließlich uvulare Artikulationen. Sie reichen von einem stimmhaften<br />

uvularen friktionslosen Approximanten bis hin zu einem stimmlosen uvularen<br />

Frikativ. In der akustischen Ausprägung werden diese Artikulationen<br />

durch einen tiefen F2 und einen hohen F3 charakterisiert. Dies stimmt weitestgehend<br />

mit der Beschreibung von Meyer-Eppler (1959) überein.<br />

In ihrer Verteilung läßt sich am einfachsten stimmlose uvulare Friktion von<br />

den restlichen Artikulationsmöglichkeiten abgrenzen. Sie tritt ausschließlich<br />

in silbeninitialen stimmlosen Konsonantengruppen auf:<br />

nach silbeninitialen stimmlosen Plosiven: vertragen/verträgt, Eintracht,<br />

Treffpunkt, kräftig, trinken, trockenes, Prinzip, Dietrich.<br />

nach silbeninitialen stimmlosen Frikativen: Frau, frei, freilich, Freitag,<br />

Freund, frisch(en), Anschrift, Schreiben, schreibt.<br />

Zusätzlich zur dorso-uvularen Friktion werden oft auch Bewegungen<br />

der Uvula beobachtet. Diese Bewegungen sind aber nicht mit denen eines<br />

gezielten stimmlosen Vibranten 3 ) & zu verwechseln, sondern scheinen<br />

7 Hierunter fallen vor allem postvokalische konsonantische Varianten in Wörtern wie dort,<br />

in denen kanonisch eine vokalische Realisierung des ¨ vorgesehen, aber bei manchen Sprechern<br />

mit bestimmten regionalen Eigenschaften als w †Y‡v©*y§€ zu finden ist.


Entstimmte und stimmhafte uvulare Strikturen œ ® ¯ , œ ® , œ ®°<br />

118 Phonetik und Phonologie des deutschen<br />

durch eine gehobene Vorderzunge verursacht zu werden. Bei uvularer<br />

Artikulation wird die Striktur zwischen der Hinterseite einer nach vorn<br />

eherª<br />

gezogenen Uvula und der Zungenfurche gebildet. Wird die Vorderzunge<br />

in die Vokalposition eines Schwas gebracht, wird die Engebildung zwischen<br />

Uvula und Zunge gespannter, was unter anderem ein aperiodisches<br />

Mitschwingen des Zäpfchens zur Folge haben kann.<br />

Die Konfiguration der Vorderzunge während der uvularen Friktion<br />

scheint der Hauptgrund für Unterschiede zwischen stimmloser uvularer<br />

Friktion als Korrelat von und uvularer Friktion als Korrelat « von zu sein.<br />

Die uvulare Friktion sowohl prä- als auch postvokalisch in der zweiten<br />

Silbe des Wortes Eintracht illustrieren diesen Unterschied. Abb. 4.2 zeigt<br />

Sonagramme der zweiten Silbe des Wortes Eintracht, produziert von einer<br />

Sprecherin (k08) und einem Sprecher (k07). Bei der Sprecherin k08 ist der<br />

Unterschied zwischen initialer und finaler Friktion am größten. Die prävokalische<br />

Friktion wird von Zäpfchenschwingungen begleitet. Das akustische<br />

Produkt dieser Schwingungen sind kurzlebige Energieanstiege in bestimmten<br />

Frequenzbereichen, die sich als Schwärzungen im Sonagramm<br />

(mit Pfeilen markiert) sichtbar machen. Bei Sprecher k07 hingegen wird<br />

die Friktion nicht von uvularer Schwingung begleitet.<br />

Bei allen Sprechern ist ein Unterschied in der vokalischen Qualität der<br />

prä- und postvokalischen Friktion zu finden, d.h. in der Konfiguration der<br />

Zunge vor der dorso-uvularen Enge. Die prävokalische Friktion hat eine<br />

Schwaqualität, die postvokalische eher !4& eine -Qualität, ein Unterschied,<br />

der a¬ ¥& mit =­ ¥& bzw. symbolisch zum Ausdruck gebracht werden kann 8 . Die<br />

zentralere Qualität der prävokalischen Friktion ist bei der Sprecherin k08<br />

in Abb. 4.2 deutlich zu sehen. Das Zentrum des zweiten Formanten liegt<br />

bei etwa 1450 Hz, und das des schwächeren F1 bei etwa 1050 Hz. Beim<br />

­ ¥& postvokalischen kommen F1 und F2 immer näher zusammen, so daß<br />

nur eine Resonanz mit einem Zentrum um 1300 Hz bleibt.<br />

Die restlichen konsonantischen Varianten des , die von entstimmter uvularer<br />

Friktion . )2& bis hin zu einem stimmhaften friktionslosen Approximanten<br />

.±& reichen, sind zusammen zu behandeln. Es gibt drei Dinge, die<br />

für diese gemeinsame Behandlung sprechen:<br />

8 Vgl. Boas (1911), S. 23: “The vocalic tinge of consonants is expressed by superior vowels<br />

following them: ²´³oµj· ”


›<br />

›<br />

›<br />

4.3 Stimmlose uvulare Friktion ¡ ¢8£ 119<br />

Abbildung 4.2: Oszillogramme und Sonagramme der zweiten Silbe des<br />

Wortes Eintracht für die Sprecher k08 (weiblich) und k07 (männlich). Die<br />

Pfeile zeigen auf die Schwärzungen, die vom aperiodischen Schwingen<br />

der Uvula stammen. (Ref: k08mr056, k07mr056)<br />

In der Produktion des gleichen Wortes von verschiedenen Sprechern<br />

kann mal . ) & , mal .+& , mal .± & auftreten.<br />

In mehrfachen Äußerungen des gleichen Wortes kann derselbe Sprecher<br />

mal . ) & , mal .+& , mal .± & produzieren.<br />

In der Produktion eines einzelnen Auftretens des werden komplexe<br />

artikulatorische Abfolgen gefunden, z.B. . )%.#. ) & .<br />

In Abschnitt 4.4 wird argumentiert, daß der wichtigste Unterschied<br />

zwischen diesen Varianten im komplexen Zusammenspiel zwischen der<br />

herrschenden Luftströmung und den beteiligten Artikulatoren ist.<br />

Variation bei verschiedenen Sprechern in der Produktion des gleichen<br />

Sprachmaterials läßt sich am besten an den Sprechern k07 und k08 illustrieren.<br />

Unter insgesamt 72 Wörtern pro Sprecher, in denen potentiell ein


120 Phonetik und Phonologie des deutschen<br />

¸ konsonantisches Korrelat von auftreten kann, werden etwa 20 mit den im<br />

vorigen Abschnitt beschriebenen stimmlosen Varianten gefunden. In den<br />

restlichen 52 tritt bei Sprecher . ) & k07 nur einmal im Wort Briketts auf,<br />

alle anderen haben stimmhafte dorso-uvulare Frikative oder Approximanten.<br />

Bei der Sprecherin k08 hingegen wird in den restlichen 52 Fällen 46<br />

. ) & Mal produziert. Die anderen Sprecher liegen zwischen diesen beiden<br />

Extremen.<br />

In mehrfachen Äußerungen des gleichen Wortes in verschiedenen Satzkontexten<br />

werden bei demselben Sprecher unterschiedliche Engen festgestellt.<br />

Der Vorname Doris tritt viermal in den Marburger Sätzen auf. Bei<br />

fünf der Sprecher wird in allen vier Fällen eine stimmhafte uvulare Enge<br />

vorgefunden, die entweder als Frikativ oder als friktionsloser Approximant<br />

zu kategorisieren ist, wobei auch innerhalb dieser Kategorisierung keine<br />

klare Abgrenzung zwischen den Kategorien Frikativ und Approximant zu<br />

definieren ist.<br />

Abb. 4.3 enthält Sonagramme von vier Äußerungen des Wortes Doris<br />

für die Sprecher k07 und k08, die sowohl die Variation zwischen Sprechern<br />

als auch innerhalb der Produktion eines einzelnen Sprechers illustrieren.<br />

An der akustischen Ausprägung der zwischenvokalischen Enge<br />

bei Sprecher k07 in Abb. 4.3a-d sind klare Unterschiede in der Größe<br />

der Enge zu sehen. Bei k07 wird dem Gehörseindruck und der akustischen<br />

Ausprägung nach die kleinste uvulare Enge in der zweiten Äußerung<br />

(Abb. 4.3b) erreicht. Im Oszillogramm ist die geringe Amplitude der<br />

einzelnen Schwingungen zu sehen. Im Sonagramm werden die Formanten<br />

schwächer, der dritte Formant ist kaum noch zu sehen und Unregelmäßigkeit<br />

in den darüberliegenden Resonanzen weisen auf Friktion hin. Im Gegensatz<br />

hierzu steht die Äußerung in Abb. 4.3c. Vom Gehörseindruck her<br />

sowie aus den Formantbewegungen (fallender F2, steigender F3) wird nur<br />

eine offene uvulare Enge erreicht. Die Formantverläufe schwächen nicht<br />

ab, und es ist keine Einbuchtung im Oszillogramm zu erkennen, wie sie<br />

in den restlichen Äußerungen des Wortes zu sehen sind. Bei der Sprecherin<br />

k08 sehen die intervokalischen Artikulationen deutlich anders aus. Bei<br />

drei der vier Äußerungen (Abb. 4.3f-h) setzt die Stimmhaftigkeit aus. Eine<br />

starke Resonanz um 1000 Hz sowie Energie oberhalb von 3 kHz charakterisieren<br />

die akustische Ausprägung des entstimmten Frikativs. In Abb. 4.3f<br />

weist eine Schwärzung bei 2250 ms über einen Frequenzbereich zwischen<br />

400 Hz und 1400 Hz auf einen einmaligen Schlag der Uvula hin. Lediglich<br />

in der ersten Äußerung des Wortes Doris (Abb. 4.3e) wird die uvulare


4.3 Vokalische Korrelate des 121<br />

¹<br />

Enge vollständig von Stimmhaftigkeit begleitet.<br />

Aus der mehrmaligen Produktion des gleichen Wortes von zwei Sprechern<br />

sind sowohl intra- als auch intersprecherische Variation demonstriert<br />

worden. In Plosiv- mehreren -Verbindungen des õo Typs º , »¥ und werden<br />

statt . )%& “einfachem” .+& , .± & oder komplexe Abfolgen dieser Artikulationen<br />

gefunden. In den schon beschriebenen Beispielen von Doris<br />

sind solche Abfolgen auch vorhanden. Bei der Sprecherin k08 sind kurze<br />

stimmhafte uvulare Engen sowohl vor als auch nach den entstimmten<br />

uvularen Engen (Abb. 4.3f-h) zu sehen, aber die Bewegung aus der vokalischen<br />

Striktur heraus in die entstimmte Enge hinein kann als Kontinuum<br />

betrachtet werden. An anderen Stellen läßt sich der konsonantische<br />

Komplex nicht so leicht erklären. In silbenanlautenden õo@¥<br />

Kombinationen<br />

º@¥ und werden einige Fälle beobachtet, in denen kräftige Glottisschwingung<br />

unmittelbar nach der Plosivlösung einsetzt, nach kurzer Zeit aber<br />

wieder schwächer wird und z.T. vollkommen aussetzt. Es entstehen also<br />

phonetische Abfolgen der ( )%.#. )%& Art n)'.#. )%& oder . Beispiele der akustischen<br />

Ausprägung einer bilabialen und apikalen Abfolge sind in Abb. 4.4 zu sehen.<br />

Vor allem bei brennen ist der auditive Eindruck der eines uvularen<br />

Schlaglautes, der auch als ein Schlag eines uvularen Vibranten gedeutet<br />

werden kann.<br />

In der silbenanlautenden ȴ Kombination (siehe Abb. 4.5) tritt eine<br />

weitere komplexe Abfolge auf, die sich von der õo@¥ für º+@¥ und unterscheidet.<br />

Abb. 4.5 zeigt Produktionen des Wortes begreifen der Sprecherinnen<br />

k08 und k12. Nach der Lösung des dorsalen Plosivs ist für etwa 30 ms<br />

keine Stimmhaftigkeit vorhanden. Die Frikativenge während dieser entstimmten<br />

Phase erstreckt sich von dorso-uvular bis dorso-velar. Danach<br />

setzt Stimmbandschwingung kurze Zeit ein, und die Enge wird lediglich<br />

dorso-uvular gebildet. Nach weiteren 20 bis 30 ms setzt die Stimmbandschwingung<br />

wieder aus, bevor sich Stimmhaftigkeit endgültig durchsetzen<br />

kann.<br />

4.3.3 Vokalische Korrelate des<br />

Wie bei den konsonantischen Korrelaten gilt die kanonische Transkription<br />

sowie die Etikettierungen der einzelnen Äußerungen als Ausgangspunkt<br />

der Untersuchung. Alle Fälle wurden herausgesucht, in denen das Symbol<br />

(] 6 IPA ) in der kanonischen Transkription vorkommt. An diesen<br />

Stellen wird für das Standarddeutsch, das als Modell für die kanonische


122 Phonetik und Phonologie des deutschen <br />

(a) (b) (c) (d)<br />

(e) (f) (g) (h)<br />

Abbildung 4.3: Sonagramme und Oszillogramme der vier Produktionen<br />

des Wortes Doris für die Sprecher k07 (a-d) und k08 (e-h). Pfeile zeigen etwa<br />

auf die Mitte der jeweligen uvularen Artikulation. (Refs. (a) k07mr026,<br />

(b) k07mr056, (c) k07mr074, (d) k07mr085, (e) k08mr026, (f) k08mr056,<br />

(g) k08mr074, (h) k08mr085)


4.3 Vokalische Korrelate des 123<br />

(a) (b) (c)<br />

Abbildung 4.4: Sonagramme und Oszillogramme des Wortes (a) brennen<br />

sowie zwei (b-c) Produktionen des Wortes drei, gesprochen von Sprecher<br />

k09. Die uvulare Strecke in jedem Wort ist im Sonagramm jeweils mit<br />

gekennzeichnet. In den ersten beiden Wörtern setzt Stimmhaftigkeit aus,<br />

während in der zweiten Produktion des Wortes drei Stimmhaftigkeit nur<br />

schwächer wird. (Ref.: (a) k09mr023, (b) k09mr076, (c) k09mr030)<br />

Transkription verwendet wird, eine vokalische Realisierung des erwartet.<br />

In den 100 Marburger Sätzen gibt es 125 solche Fälle. Wie schon in<br />

4.3.2 erwähnt wurde, ergab die Untersuchung der Etikettierungen 17 vokalische<br />

Fälle, in denen die Kanonik ein konsonantisches Korrelat vorsieht<br />

(Erdbeeren: 3, Herren: 3, Motoren: 3, Türen: 4, fahren: 2, waren: 2). Dies<br />

ergibt für die sechs untersuchten Sprecher eine Gesamtsumme von 767<br />

vokalische Realisierungen (¼ Sprecher ½O¾j¿¥ÀÂÁÃ¾Ä ). Hierbei wurden aus<br />

theoretischen Überlegungen heraus vier Fälle pro Sprecher aus der Untersuchung<br />

ausgeschlossen, in denen die kanonische Transkription 6 enthält.<br />

Alle Fälle kommen in den Personalpronomina unsere und unserer vor. Es<br />

ist für beide 6 in der zweiten Silbe postuliert worden. Es wird aus späteren<br />

Überlegungen deutlich, daß diese Analyse phonologisch inkonsistent ist.<br />

Die vokalischen Korrelate des sind komplizierter zu beschreiben als


124 Phonetik und Phonologie des deutschen <br />

›<br />

›<br />

(a)<br />

(b)<br />

Abbildung 4.5: Sonagramme und Oszillogramme des Wortes begreifen,<br />

gesprochen von zwei Sprecherinnen (a) k08 und (b) k12. Die uvulare<br />

Strecke in jedem Wort ist im Sonagramm jeweils mit gekennzeichnet.<br />

(Ref.: (a) k08mr027, (b) k12mr027)<br />

die konsonantischen. Hierfür sind zwei Gründe zu nennen:<br />

Im Gegensatz zu den konsonantischen Korrelaten ist in vielen Fällen<br />

kein zeitlicher Abschnitt vorhanden, den man ausschließlich der<br />

Phonetik des zuschreiben kann.<br />

Eine genaue Abgrenzung der zu beschreibenden Daten ist problematisch,<br />

denn in einigen Fällen ist es nicht klar, ob phonetisch oder<br />

phonologisch vorhanden ist.<br />

Die vokalischen Korrelate des manifestieren sich als eine Reihe von<br />

monophthongalen und diphthongalen Vokalqualitäten, die aus einer Verbindung<br />

der phonetischen Korrelate eines Vokals und des entstehen.


4.3 Vokalische Korrelate des 125<br />

Å<br />

Unbetonte<br />

Silbe Rj<br />

Das häufigste Vorkommen des vokalischen ist in unbetonten Silben, die<br />

kanonisch mit 6 transkribiert wurden und als der phonologische Komplex<br />

Rj zu behandeln sind. Im untersuchten Subkorpus gibt es 300 Rj Fälle, also<br />

39% der insgesamt 767 vokalischen Fälle. Hiervon ist wortfinale Position<br />

mit 78% der Rj -Fälle am meisten vertreten. In der Vorsilbe ver- befinden<br />

sich 16%, und die restlichen 6% der Fälle sind in den nichtfinalen Kontexten<br />

der Wörter Mitternacht, Selterswasser und Eltern zu finden. Die<br />

kanonische Kategorisierung der Vorsilbe ver- als 6 und somit als Rj wird<br />

weiter unten in Frage gestellt.<br />

Bei allen Sprechern werden für Rj ausschließlich Monophthonge beobachtet,<br />

deren Qualitäten eine große Fläche im Vokalraum eines Sprechers<br />

abdecken. Eine Vorstellung dieser Variationsbreite liefert die graphische<br />

Aufbereitung des ersten und zweiten Formanten der Einzelvokale für den<br />

Sprecher k11 in Abb. 4.6. Ausgenommen von der graphischen Aufbereitung<br />

sind hier aus dem genannten Grund Werte für Vokale in der Vorsilbe<br />

ver-. Diese finden sich in Abb. 4.7. Die Vokalformanten in den Abbildungen<br />

4.6 und 4.7 wurden mit der in Abschnitt 3.6.1 beschriebenen Methode<br />

gemessen. Aus der Darstellung in Abb. 4.6 sieht man, daß die Qualitäten<br />

von Rj einen zentralen Bereich des Vokalraums einnehmen und von halbgeschlossen<br />

bis offen reichen. Jedoch sind die weit auseinanderliegenden<br />

Qualitäten nicht willkürlich im Vokalraum verteilt, sondern werden vom<br />

Äußerungskontext sowie von der unmittelbaren Lautumgebung geprägt.<br />

In äußerungsfinaler Position wird eine offenere Vokalqualität im Rj -<br />

Vokalraum des Sprechers verwendet als in nichtfinaler Position. In nichtfinaler<br />

Position trägt die unmittelbare Lautumgebung entscheidend zur Vokalqualität<br />

bei. Dies hat zur Folge, daß das Vorfinden der phonetisch gleichen<br />

Vokalqualität in äußerungsfinaler und nichtfinaler Position nicht die<br />

gleiche Herkunft haben muß. Bei allen Sprechern wird in der finalen Silbe<br />

des Wortes unser in der Nominalphrase unser Haar eine ähnlich offene Vokalqualität<br />

produziert wie in der äußerungsfinalen Silbe des Wortes später.<br />

Der finale Vokal von unser in anderen Nominalphrasen (unser Doktor, unser<br />

Treffpunkt) ist jedoch geschlossener, was vermuten läßt, daß die offene<br />

Qualität der finalen Silbe von unser aus einer Harmonie mit der offenen<br />

Vokalqualität in Haar entsteht. Ähnliche harmonische Anpassung ist in<br />

den Produktionen des Wortes Kinder zu beobachten, das in den Kontexten<br />

Kinder machen und Kinder essen vorkommt. In der zweiten Silbe von


126 Phonetik und Phonologie des deutschen <br />

F2 [Hz]<br />

2100<br />

1900<br />

1700<br />

1500<br />

1300<br />

1100<br />

900<br />

700<br />

500<br />

200<br />

ÆaÇ<br />

É Ç<br />

300<br />

400<br />

500<br />

600<br />

F1 [Hz]<br />

700<br />

800<br />

È Ç<br />

900<br />

Abbildung 4.6: Werte für die ersten zwei Formanten des Vokals Rj<br />

(schwarze Vierecke), gemessen in der Mitte des Vokals. Formantwerte der<br />

Vokale aus den Wörtern Prinzip (¦§¤ ), Zug (¤ ) und Schlaf (£¥¤ ) sollen einen<br />

Eindruck über die relative Lage der R8 -Werte im Vokalraum des Sprechers<br />

vermitteln.<br />

Kinder in Kinder essen wird ein vorderer halboffener Vokal produziert, vor<br />

machen hingegen ein zentraler Vokal mittlerer bis halboffener Qualität.<br />

Vorsilbe ver-<br />

Obwohl die Vorsilbe ver- auch kanonisch 6 vorsieht, wird sie hier getrennt<br />

behandelt, denn in zwei anderen kanonischen Referenzen (DUDEN 1990;<br />

Krech et al. 1964) wird nicht Rj sondern ein Vollvokal angesetzt: eÊ bzw.<br />

r. Die phonetischen Beobachtungen, die an den sechs Sprechern hier gemacht<br />

werden, zeigen ein komplizierteres Bild, das womöglich beide Kategorisierungen<br />

für unterschiedliche Wörter rechtfertigt. Genauso wie bei<br />

den Fällen, die als Rj -Silben kategorisiert werden, wird eine große Variationsbreite<br />

in der Qualität festgestellt, und die Verteilung der Vokalqua-


4.3 Vokalische Korrelate des 127<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k07<br />

500<br />

200<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k08<br />

500<br />

200<br />

300<br />

300<br />

400<br />

400<br />

500<br />

600<br />

700<br />

F1 [Hz]<br />

500<br />

600<br />

700<br />

F1 [Hz]<br />

800<br />

800<br />

900<br />

900<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k09<br />

500<br />

200<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k10<br />

500<br />

200<br />

300<br />

300<br />

400<br />

400<br />

500<br />

600<br />

700<br />

F1 [Hz]<br />

500<br />

600<br />

700<br />

F1 [Hz]<br />

800<br />

800<br />

900<br />

900<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k11<br />

500<br />

200<br />

2000<br />

F2 [Hz]<br />

1500<br />

1000<br />

k12<br />

500<br />

200<br />

300<br />

300<br />

verdammtes<br />

verdienen<br />

verlassen<br />

verletzt<br />

verträgt<br />

vertragen<br />

Verkehrsampeln<br />

vergessen<br />

400<br />

500<br />

600<br />

700<br />

800<br />

900<br />

F1 [Hz]<br />

400<br />

500<br />

600<br />

700<br />

800<br />

900<br />

F1 [Hz]<br />

Abbildung 4.7: Formantwerte der ersten zwei Formanten für die Vorsilbe<br />

ver-. Sprecher k07, k09 und k11 links, Sprecherinnen k08, k10, k12 rechts.<br />

litäten im Vokalraum der Sprecher ist ebenfalls nicht willkürlich. Die Lage<br />

der Vokalqualitäten der ver-Silbe in den Wörtern verdammtes, verdienen,<br />

verlassen, verletzt, verträgt, vertragen, vergessen und Verkehrsampeln für<br />

die einzelnen Sprecher sind in Abb. 4.7 dargestellt. Bei allen Sprechern<br />

ist die Qualität des Vokals in verletzt weiter vorn als in verlassen. Bei<br />

fünf Sprechern (nicht k11) liegen die Qualitäten der Vokale im dorsalen<br />

Plosiv-Kontext im vorderen geschlossenen Bereich. Dies stimmt mit dem<br />

Gehörseindruck eines vorderen halbgeschlossenen Vokals überein.


128 Phonetik und Phonologie des deutschen <br />

Ë Ander e -Vokale<br />

Die restlichen 61% der vokalischen -Fälle sind in den Marburger Sätzen<br />

so verteilt, daß sich Aussagen über mehrfache Äußerungen des gleichen<br />

Wortes in unterschiedlichen Äußerungskontexten machen lassen sowie Beschreibungen<br />

der Ausprägung von vokalischem im Kontext unterschiedlicher<br />

Vokalkategorien. Die kanonische Kategorisierung der -Diphthonge<br />

sieht für jeden Vokal von kurzer oder langer Quantität auch einen solchen<br />

Vokal mit vokalischem vor. Aus anderen Beschreibungen des würde<br />

man bei nichtoffenen Vokalen eine Reihe von Diphthongen erwarten, die<br />

qualitativ ihren Anfang im Bereich des -losen Vokals und ihr Ende in<br />

Richtung auf den halboffenen ungerundeten zentralen Vokal :8& nehmen.<br />

Bei offenen Vokalen, wie etwa in Mark bzw. Korb würde man einen Monophthong<br />

offener Qualität bzw. einen Diphthong mit geringer Zungenbewegung<br />

in Richtung :8& erwarten. Abb. 4.8 zeigt eine graphische Darstellung<br />

dieser Beschreibung aus Kohler (1977). Die Punkte orten die Anfangsqualität<br />

des betreffenden -Vokals und die vom Punkt abgehende Linie die<br />

Richtung der diphthongalen Bewegung. Im Vergleich des quantitativ langen<br />

Vokals in mehr und des kurzen Vokals herrlich sollte der -Vokal von<br />

mehr im vorderen halbgeschlossenen Bereich beginnen und der von herrlich<br />

in der Nähe von ŠY& .<br />

Die Qualitäten der -Vokale im untersuchten Subkorpus stimmen in<br />

vielen Punkten mit Kohlers Beschreibung überein. Die Diphthonge in<br />

Wörtern wie Bier, Gewähr, Uhr und vor fangen bei allen Sprechern am<br />

Rande des Vokalraums an und sind nach ihrer Zungenhöhe geschlossen<br />

(Bier und Uhr) bzw. halbgeschlossen (Gewähr 9 und vor). Die Endposition<br />

des Diphthongs ist in der Zungenhöhe unterschiedlich, aber stets zentral<br />

und ungerundet, so daß das Ende des Diphthongs zwischen ÌY& und :


Ñ<br />

4.3 Vokalische Korrelate des 129<br />

Abbildung 4.8: Die Qualitäten der -Diphthonge im Deutschen (aus Kohler<br />

1977: 177).<br />

achtet, lediglich eine kleine Bewegung zum Zentrum und bei Morgen eine<br />

Entrundung zum Vokalende hin.<br />

Jedoch weichen die Qualitäten der -Vokale im untersuchten Subkorpus<br />

von Kohlers (1977, 1995a) Darstellung in einigen Punkten ab. Viele<br />

der nichtoffenen Vokale sind ebenfalls monophthongal. Im Wort wirklich<br />

wird lediglich bei den Sprechern k07 und k11 ein Diphthong des Ía?@& Typs<br />

beobachtet. Bei den restlichen Sprechern wird ein Monophthong produziert:<br />

bei k09 Î ‘& als , bei k08 und k12 ?@& als und bei der Sprecherin k10<br />

als zentrale halboffene gerundete Ï8& Qualität . Auch beim Wort natürlich<br />

wird nur bei der Sprecherin k08 ein Diphthong gefunden, bei den restlichen<br />

Sprechern ein Monopthong der zÐ & Qualität . In unbetonten Silben der<br />

Wörter nervös(e), erwartet sowie in nichtakzentuierten grammatikalischen<br />

Einheiten wie wer, er und gern überwiegen Monophthonge einer zentralisierten<br />

halboffenen ,Î ŠY& Qualität .<br />

Die große Anzahl von Monophthongen in diesem Subkorpus steht<br />

jedoch nicht im Widerspruch zu Kohlers Beschreibung, denn die Daten<br />

stammen aus unterschiedlichen linguistischen Aktivitäten. Kohlers Be-


130 Phonetik und Phonologie des deutschen<br />

ª schreibung basiert lediglich auf der Beobachtung von isoliert gesprochenen<br />

Wörtern. Die Vokalqualitäten aus diesem Korpus sind zum Teil das<br />

Produkt unterschiedlicher Äußerungskontexte. Ein Vergleich des Wortes<br />

vor in betonter äußerungsfinaler Position als Partikel (Deine Uhr geht vor.)<br />

und als unbetonte Präposition in nichtfinaler Position (Schlaf vor Mitternacht<br />

ist gesund.) machen diese Unterschiede klar. Die durchschnittliche<br />

Dauer der Vokale liegt bei 233 ms für äußerungsfinales vor gegenüber nur<br />

62 ms für die nichtfinale Präposition. Im ersten Fall ist die vollständige<br />

Entfaltung eines Diphthonges möglich, während im letzteren Fall diese<br />

Zeit nicht zur Verfügung steht und man eher einen Monophthong findet<br />

von zentralerer Qualität als der Anfang des äußerungsfinalen Vokals oder<br />

einen Diphthong mit nur geringer Bewegung.<br />

Solche Variationen in der Vokalqualität in der Aussprache eines Wortes<br />

treten jedoch nicht nur an Stellen auf, die mit Dauerunterschieden zusammengebracht<br />

werden können. Die Wörter vor, werden und fährt kommen<br />

mehrmals in den Marburger Sätzen vor. Die ersten beiden treten sowohl<br />

äußerungsfinal als auch äußerungsintern auf, fährt nur äußerungsintern.<br />

Zusätzlich zu den oben genannten Kontexten steht vor im Präposition-Artikel-Gefüge<br />

vor’m. Das Wort werden tritt zweimal satzfinal als Vollverb<br />

und einmal nichtfinal in der Funktion eines Hilfsverbs auf. In den Sätzen<br />

Doris fährt zu weit links. und Vorsicht, Zug fährt ab! haben die Vokale<br />

des Wortes fährt für alle Sprecher unterschiedliche Qualität, obwohl keine<br />

signifikanten Dauerunterschiede festgestellt wurden. Die zwei fährt-<br />

Tokens von den Sprecherinnen k08 und k10 sowie von Sprecher k09 sind<br />

in Abb. 4.1 dargestellt. Der Vokal des zweiten fährt wird von fünf der sechs<br />

Sprecher als halboffener Monophthong der ŠÒ@& Qualität , der gleiche Vokal<br />

im ersten Satz hingegen erscheint in fünf Fällen als Diphthong, dessen Anfang<br />

halbgeschlossen ist. Die offenere ŠÒY& Qualität kommt der Qualität des<br />

Wortes erst nahe, während der halbgeschlossene Diphthong dem Vokal des<br />

finalen Gewähr ähnelt.<br />

Bei nichtfinalem vor besteht ein ähnliches Qualitätsverhältnis zur finalen<br />

Position. Die Qualität des Vokals im nichtfinalen Kontext ist offener, in<br />

vielen Fällen monophthongal und könnte der gleichen Kategorie zugeordnet<br />

werden wie der vokalische Abschnitt der Wörter Morgen, Wort oder<br />

dort.<br />

Bei mehrfachen Produktionen des Wortes werden wird das Bild noch<br />

komplizierter. Bei Sprecher k09 sind die vokalischen Abschnitte der drei<br />

Äußerungen des Wortes hörbar unterschiedlich. Im ersten äußerungsfina-


4.3 Alternation zwischen vokalischen und konsonantischen Korrelaten131<br />

(a)<br />

(b)<br />

Abbildung 4.9: Sonagramme und Etikettierungen von (a) konsonantischen<br />

und (b) vokalischen Realisierungen des Wortes fahren von den Sprechern<br />

(a) k07 und (b) k11. (Ref.: (a) k07mr088, (b) k11mr088)<br />

len Beispiel wird ein Diphthong der ,Ð ‘?@& Qualität produziert. Im zweiten<br />

äußerungsfinalen Beispiel ist der Vokalabschnitt länger jedoch monophthongal<br />

mit der ŠÒ± & Qualität . Dieser Vokal ist offener und deutlich zentraler<br />

als der ebenfalls monophthongale Abschnitt des nichtfinalen werden<br />

des gleichen Sprechers.<br />

4.3.4 Alternation zwischen vokalischen und konsonantischen<br />

Korrelaten<br />

Neben vokalischen und konsonantischen Korrelaten des sind Alternationen<br />

zwischen den Korrelaten zu verzeichnen, die in ¥|YR¦<br />

wortfinalem gefunden<br />

wurden. Die Marburger Sätze enthalten Pluralformen von Substantiven<br />

(Erdbeeren, Herren, Motoren, Türen) sowie zwei Verbformen (fahren,<br />

waren), die diese Struktur aufweisen. Wie schon in 4.3.2 erwähnt wurde,<br />

entfielen von den insgesamt 36 (¼ Tokens ½Ó¼ Wörter Sprecher) etwa<br />

die Hälfte (17) auf eine vokalische Aussprache.<br />

Abb. 4.9 enthält Beispiele für die konsonantische (a) und vokalische<br />

(b) Realisierung des Wortes fahren gesprochen von den Sprechern (a) k07<br />

und (b) k11. Die beiden Realisierungen sind etwa gleich lang. In (a) ist<br />

der zwischenvokalische uvulare Frikativ deutlich an der Abschwächung in


132 Phonetik und Phonologie des deutschen <br />

¸ den Formanten zu erkennen. In (b) ist die gesamte Strecke zwischen dem<br />

labiodentalen Frikativ und dem Nasal vokalisch und monophthongal. Jedoch<br />

sind auch in der vokalischen Realisierung zwei Silben zu vernehmen,<br />

was dem Nasal zu verdanken ist. Er hat mit etwa 80 ms die gleiche Dauer<br />

wie die Gesamtstrecke für Vokal und Nasal ?e;& des -Abschnitts in (a).<br />

Die Wahl für die konsonantische oder vokalische Variante scheint jedoch<br />

nicht mit dem lautlichem oder rhythmischen Kontext zusammenzuhängen,<br />

sondern sprecherspezifisch zu sein. Zwei Sprecher (k07 und<br />

k09) sowie die Sprecherin k08 produzierten in den Wörtern fast ausschließlich<br />

das konsonantische Korrelate. Nur in der Aussprache von<br />

Türen produzierte k07 das vokalische Korrelat. Der Sprecher k11 und die<br />

Sprecher k12 prduzierten ausschließlich das vokalische Korrelat. Lediglich<br />

die Sprecherin k10 schwankte zwischen vokalischem und konsonantischem<br />

Korrelat. Interessanterweise kam das vokalische Korrelat in den<br />

Substantiven, das konsonantische in den Verben vor. Ob ihre Alternation<br />

mit den morphologischen Unterschieden, mit den offenen Vokalen in den<br />

Verben und den nichtoffenen Vokalen der Substantive oder mit etwas anderem<br />

zu tun hat, bleibt noch unklar.<br />

4.4 Phonetische und phonologische Erklärung<br />

der Lautmuster<br />

Der vorige Abschnitt liefert ein kompliziertes Bild über die Lautmuster<br />

des , wie sie in der gelesenen Sprache von drei Sprecherinnen und drei<br />

Sprechern beobachtet wurden. In diesem Abschnitt wird nun versucht, Erklärungen<br />

zu liefern sowie die notwendigen phonetischen und phonologischen<br />

Abstraktionen aufzustellen, die einen Teil dieser Muster erklären<br />

können. Die einfachste Lösung wäre, sämtliche beschriebenen Lautkomplexe<br />

des als unterschiedliche Allophone in verschiedenen strukturellen<br />

Positionen zu deklarieren. Aber diese Lösung ist nicht zufriedenstellend,<br />

weil die Unterschiede zwischen den Lautmustern nicht den gleichen Ursprung<br />

haben. So ist beispielsweise der Unterschied zwischen 4& und .+&<br />

anders zu erklären, als der zwischen konsonantischem ¥& und vokalischen<br />

:8& .<br />

Die phonetische und phonologische Linie, die hier verfolgt wird,<br />

kombiniert Elemente aus mehreren phonetischen und phonologischen<br />

Ansätzen, insbesondere der Firth’schen prosodischen Phonologie (Firth


4.4 Zeitliche Überlappung 133<br />

1948), der artikulatorischen Phonologie (Browman und Goldstein 1989,<br />

1992) sowie der deklarativen Phonologie (Coleman 1998).<br />

Die phonetischen Beobachtungen werden in einem ersten Schritt drei<br />

Bereichen zugeordnet, was aber nicht heißt, daß die Phonetik eines -<br />

Tokens mit einem einzigen Bereich zu erklären ist:<br />

Zeitliche Organisation Die phonetischen Korrelate von phonologischen<br />

Objekten sind zeitlich organisiert. Gewisse Unterschiede im beobachtbaren<br />

Produkt einer Äußerung können auf Unterschiede in<br />

der zeitlichen Organisation der phonetischen Zutaten zurückgeführt<br />

werden.<br />

Artikulatorisch-aerodynamisch Das feine Zusammenspiel zwischen<br />

dem Luftstrom und bestimmten artikulatorischen Konfigurationen,<br />

kann zu komplexen phonetischen Mustern führen.<br />

Phonologisch Elemente der beobachteten Phonetik, die nicht vorhersagbar<br />

sind, müssen aufgelistet werden.<br />

Diese Faktoren werden zuerst getrennt erläutert, jeweils anhand der<br />

lautlichen Aspekte, die sie erklären und in 4.4.4 werden solche Fälle besprochen,<br />

bei denen keine klare Entscheidung zu fällen ist.<br />

4.4.1 Zeitliche Überlappung<br />

Zeitliche Überlappung in der Form, wie sie hier verwendet wird, ist lediglich<br />

eine weitgefaßte Definition der Koartikulation (Menzerath und Lacerda<br />

1933), wie sie in vielen phonetischen und phonologischen Ansätzen<br />

und verschiedenen Termini zu finden ist. Sie ist gleichzusetzen mit dem<br />

“gestural overlap” der artikulatorischen Phonologie oder dem “temporal<br />

overlay” in deklarativen Ansätzen (Local 1992).<br />

Die große Mehrheit an phonetischer Variation in den Lautmustern des <br />

können Unterschieden in der zeitlichen Organisation zugeschrieben werden.<br />

Sämtliche vokalischen Muster, die beschrieben wurden, sowie die erweiterte<br />

Vokalkategorisierung von Ulbrichs Daten in 4.3 können auf diesem<br />

Wege einheitlich erklärt werden. Abb. 4.10 illustriert die beobachtbaren<br />

Folgen von Unterschieden in der zeitlichen Überlappung der Phonetik<br />

von mit der Phonetik von anderen vokalischen Elementen. Die phonetischen<br />

Korrelate des und der anderen Elemente werden durch verschiede-


134 Phonetik und Phonologie des deutschen <br />

Û<br />

Û<br />

Û<br />

(<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

(a)<br />

r<br />

y<br />

ε<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

ÜÖÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÕÜÖÜ<br />

ÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚÖÚÕÚÕÚÕÚÕÚÕÚÕÚÕÚ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

(b)<br />

r<br />

y<br />

ε<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

ÞÕÞÕÞÖÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞÕÞ<br />

ÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝÖÝÕÝÕÝÕÝÕÝÕÝÕÝÕÝ<br />

y<br />

ε<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

(c)<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

r(<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÕØÖØÕØ<br />

×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Õ×Ö×Õ×<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

w<br />

ε<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

(d)<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

r<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÕÙÖÙÕÙ<br />

ÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÕÔÖÔÕÔ<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

(e)<br />

α<br />

r<br />

àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß<br />

àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß<br />

àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß<br />

àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß<br />

àÕàÕàÕàÕàÕàÕàÖàÕàÕàÕàÕàÕàÕà<br />

ßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÕßÖßÕßÕßÕßÕßÕßÕßÕß<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

(f) α<br />

r<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

âÕâÕâÖâÕâÕâÕâÕâÕâÕâÕâÕâÕâÕâ<br />

áÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÕáÖáÕáÕáÕáÕáÕáÕáÕá<br />

Abbildung 4.10: Eine schematische Darstellung der Vermischung der phonetischen<br />

Korrelate verschiedener Vokale mit den Korrelaten des . Die<br />

Zeit läuft von links nach rechts. (a) und (b) sowie (e) und (f) zeigen die<br />

Folgen von unterschiedlicher zeitlicher Überlappung der Korrelate derselben<br />

Objekte. In Verbindung mit Vokalen von kurzer Quantität (c-d) wird<br />

die Phonetik von voll überlappend gezeigt, es enstehen Monophthongen.


4.4 Zeitliche Überlappung 135<br />

¸ne<br />

Schraffierungen dargestellt, die graphischen Muster repräsentieren die<br />

beobachtbare Phonetik. Die Zeit läuft von links nach rechts.<br />

In den Beispielen (a) und (b) wird die Phonetik des mit der Phonetik<br />

des quantitativ langen ã ä Vokals 10 kombiniert, wie er z.B. im Wort<br />

werden vorkommen kann (siehe S. 130). Aus der Vermischung der Schraffuren,<br />

die die zeitliche Überlappung der Phonetik der beiden Elementen<br />

darstellt, entsteht eines neues Muster, das Elemente aus beiden enthält. Je<br />

größer die zeitliche Überlappung wird, bzw. die räumliche Überlappung in<br />

der Abbildung, desto mehr überwiegt die qualitative Kombination. Phonetisch<br />

gesehen hat dies zwei Folgen. In Abb. 4.10a sind die Qualitäten des<br />

und die ã ä des noch weitestgehend zeitlich voneinander getrennt, und aus<br />

ihren unterschiedlichen Qualitäten ergibt sich graphisch ein Diphthong.<br />

Nimmt der Überlappungsgrad immer weiter zu, bis die Synchronisierung<br />

von 4.10b erreicht ist, sind gegenüber 4.10a zwei Änderungen eingetreten.<br />

Erstens, die Phonetik ¤ des und des sind zeitlich kaum voneinander zu<br />

trennen, d.h. ihre Phonetik tritt nur in qualitativer Kombination zu Tage.<br />

Zweitens, das Ergebnis einer fast vollständigen Überlappung ist ein Monophthong<br />

und kein Diphthong mehr.<br />

In Abb. 4.10c und d sind zwei -Vokale von kurzer Quantität dargestellt,<br />

wie in den Wörtern (ã#å ä Herr ) und (æçå ä Korb ). Die Phonetik der<br />

Vokale ist kürzer als bei den Langvokalen in (a-b) und (e-f), und die<br />

Ausdehnung des wird gleich gehalten, was in der Überlappung zu einer<br />

monophthongalen Qualität führt. In 4.10e und f sind zwei Überlappungsmöglichkeiten<br />

für die Phonetik des è Vokals mit dargestellt. Durch<br />

große Ähnlichkeit in der Qualität beider Elemente sind die qualitativen<br />

Folgen für die beobachtbaren Produkte verschiedener zeitlicher Überlappungen<br />

kaum voneinander zu unterscheiden.<br />

Die Darstellung in Abb. 4.10 ist an verschiedenen Punkten eine Vereinfachung.<br />

Die zeitliche Ausdehnung der Phonetik des wird nicht<br />

verändert, und die Dauer der kurzen -Vokale unterscheidet sich nicht vom<br />

einfachen Kurzvokal. Dennoch ist es möglich mit dieser einfachen Darstellung<br />

eine breite Qualitätspalette an -Vokalen zu erzeugen, von Diphthongen<br />

(a), in denen die Qualitäten des und des Vokals noch klar zu trennen<br />

sind, über Monophthonge (b-d), die einen qualitativen Mittelwert aus dem<br />

und dem Vokal darstellen, bis hin zu den Fällen, in denen abwesend zu<br />

<br />

sein scheint (e-f).<br />

10 Hier und an anderen Stellen wird die prosodische Vokalnotation von 3.2 verwendet.


136 Phonetik und Phonologie des deutschen <br />

(a)<br />

(c)<br />

Asp<br />

Asp<br />

(b)<br />

(d)<br />

Abbildung 4.11: Sonagramme und Etikettierungen der Frikative bzw. Frikativ-<br />

-Verbindungen aus den Wörtern (a) Bescheid, (b) Schreiben, (c) fahren<br />

und (d) Freitag der Sprecherin k10. Pfeile annotiert mit Asp markieren<br />

die Frikativaspiration. (Ref.: (a) k10mr007, (b) k10mr095, (c) k10mr088,<br />

(d) k10mr063.)<br />

Der stimmlose uvulare Frikativ 4& , der im Silbenanlaut nach stimmlosen<br />

Plosiven und Frikativen auftritt ist teilweise auch als Produkt der zeitlichen<br />

Überlappung zu behandeln. In der Überlagerung der Aspirationsphase<br />

nach der Lösung des silbeneinleitenden Plosivs mit der dorso-uvularen<br />

Enge entsteht § . Bei den Frikativ- -Gruppen greift jedoch diese einfache<br />

Erklärung nicht. Obwohl kurze Aspirationsphasen nach der Lösung von initialen<br />

stimmlosen Frikativengen beobachtet werden, ist die Dauer solcher<br />

Aspirationsphasen nicht so lang wie die Dauer der stimmlosen uvularen<br />

Friktion, die auf solche Frikativartikulationen folgen kann. Die Stimmlosigkeit<br />

scheint aber trotzdem zumindest teilweise ein Korrelat des Frikativs<br />

zu sein.


ê<br />

ê<br />

ê<br />

4.4 Artikulatorisch-aerodynamische Abläufe 137<br />

Abb. 4.11 enthält Sonagramme und Etikettierungen der Frikative bzw.<br />

Frikativ- -Verbindungen aus den Wörtern (a) Bescheid, (b) Schreiben, (c)<br />

fahren und (d) Freitag der Sprecherin k10. In der Annotation werden eventuelle<br />

Aspirationsphasen von Frikativen nicht getrennt markiert, sondern<br />

werden als Teil des Frikativs behandelt. In der Abbildung sind diese Aspirationsphasen<br />

angezeigt. Die zeitliche Auflösung der vier Sonagramme ist<br />

etwa gleich. Obwohl Äußerungsabschnitte von nur einer Sprecherin abgebildet<br />

sind, weisen analoge Äußerungen der restlichen Sprecher ähnliche<br />

Muster auf. In den beiden einfachen Frikativanlauten (4.11a und c) ist eine<br />

deutliche, wenn auch kurze Aspirationsphase von etwa 20 ms zu erkennen.<br />

Die Abschnitte von postalveolarer bzw. labiodentaler Friktion in Bescheid<br />

und fahren sind jeweils 95 und 70 ms lang. Die stimmlosen Strecken liegen<br />

somit bei 115 ms für Frikativ plus Aspirationsphase in Bescheid und<br />

bei 90 ms in fahren. In den Frikativ- -Verbindungen ist die Strecke der<br />

Stimmlosigkeit jeweils länger als in den einfachen Frikativanlauten: für<br />

Schreiben liegt sie bei etwa 180 ms, in Freitag bei 130 ms. Die anlautenden<br />

postalveolaren und labiodentalen Frikativabschnitte in den komplexen<br />

Anlauten sind jedoch kürzer. In Freitag ist š& 60 ms, für Schreiben ist 6e&<br />

nur 55 ms lang, etwa die Hälfte der Dauer des 6@& (ohne Aspiration) von<br />

Bescheid. Die Situation ist somit kompliziert, denn einerseits scheint 11 ein<br />

Teil der Stimmlosigkeit in der dorso-uvularen Enge auf Kosten des anlautenden<br />

Frikativs zu gehen, andererseits ist die gesamte stimmlose Strecke<br />

zu lang, um allein auf dem anlautenden Frikativ zu beruhen. Weitere Erklärungen,<br />

die in Kombination mit der zeitlichen Überlappung hier greifen<br />

könnten, sind sowohl artikulatorisch-aerodynamischer als auch phonologischer<br />

Natur.<br />

4.4.2 Artikulatorisch-aerodynamische Abläufe<br />

Die größte Komplexität in den Lautmustern des wurde in den anlautenden<br />

Verbindungen õ— , º und »¥ beobachtet (vgl. S. 118f ). In den Verbindungen<br />

õ— und º (siehe Abb. 4.4, S. 123) wird unmittelbar nach der<br />

Plosivlösung Stimmhaftigkeit beobachtet, die aber kurzfristig aussetzt, bis<br />

sie wieder für den Rest der dorso-uvularen Enge stimmhaft wird. Im »¥ -<br />

Anlaut (siehe Abb. 4.5, S. 124) hingegen tritt nach der Lösung zuerst eine<br />

11 Da das untersuchte Korpus nur eine kleine Anzahl von Wörtern mit<br />

é,ê<br />

silbenanlautenden<br />

ë , in rhythmisch vergleichbaren Positionen enthält, wurde nicht versucht, die Dauerverhältnisse<br />

statistisch zu untersuchen.<br />

, é ¨<br />

, ëz¨


138 Phonetik und Phonologie des deutschen <br />

ì kurze Strecke Stimmlosigkeit 12 ein, dann eine ebenfalls kurze stimmhafte<br />

Phase, wieder eine kurze Phase Stimmlosigkeit bis sich endgültig Stimmhaftigkeit<br />

durchsetzt.<br />

Diese Abläufe entstehen aus einer komplexen Interaktion zwischen<br />

dem Luftstrom und den Artikulatoren. In der Produktion eines oralen Frikativs<br />

strömt Luft durch eine supraglottale Konstriktion, und es kommt<br />

zu Turbulenzen, deren akustisches Produkt Rauschen ist. Um während der<br />

Produktion eines Frikativs Stimmbandschwingung zu erhalten, ist eine feine<br />

Abstimmung der glottalen Konfiguration und der supraglottalen Enge<br />

notwendig (Stevens 1987; Stevens 1989). Um Stimmhaftigkeit aufrechtzuerhalten,<br />

muß der Luftdruck zwischen der Glottis und der supraglottalen<br />

Enge stets niedriger liegen als der subglottale. Steigt der Luftdruck zwischen<br />

der Glottis und der supraglottalen Enge an, so daß das Druckgefälle<br />

über die Glottis zu klein wird, setzt die Stimmbandschwingung aus. Ist<br />

andererseits die supraglottale Enge weit genug, kann Stimmhaftigkeit aufrechterhalten<br />

werden, aber der Luftstrom reicht nicht mehr aus um Turbulenzen<br />

in der Enge zu erzeugen. In der Produktion eines uvularen Frikativs<br />

kommt eine weitere Komplikation hinzu. Während der Produktion von<br />

uvularen Konsonanten artikuliert das Zäpfchen, nach vorn gerichtet, in der<br />

Furche der Hinterzunge. Durch das leichte Gewicht und die große Flexibilität<br />

des Zäpfchens sind uvulare Friktionsengen empfindlich gegenüber<br />

kleinsten Veränderungen in den Luftströmungsverhältnisse. Vor allem der<br />

Bernoulli-Effekt, der in der Produktion von Stimmbandschwingung und<br />

Vibranten eine entscheidende Rolle spielt, scheint auch an der Größe der<br />

dorso-uvularen Friktionsenge mitzuwirken.<br />

Aus der komplexen Interaktion dieser verschiedenen Faktoren kommen<br />

in der Phase unmittelbar nach der Lösung eines anlautenden Lenis-<br />

Plosivs komplizierte Abläufe zustande. Im õo anlautenden º und , wie in<br />

Abb. 4.4, kann folgendes passieren. Während des Plosivverschlusses sowie<br />

unmittelbar nach der Lösung sind die Stimmbänder in einer stimmhaften<br />

Konfiguration, d.h. sie sind zur Stimmhaftigkeit bereit. Erst unmittelbar<br />

nach der Lösung fällt der supraglottale Druck ab, so daß kräftige Stimmbandschwingung<br />

zustandekommt. Die Fließgeschwindigkeit der Luft, die<br />

durch die dorso-uvulare Enge gezwängt wird, steigt, der Luftdruck senkrecht<br />

zur Strömung fällt ab (Bernoulli-Effekt), und das Zäpfchen wird wei-<br />

12 Stimmlosigkeit ist an dieser Stelle als Abwesenheit von Stimmbandschwingung und nicht<br />

als offene Glottis zu verstehen.


4.4 Artikulatorisch-aerodynamische Abläufe 139<br />

¤<br />

ter in die Zungenfurche hineingezogen. Die nun kleiner gewordene Enge<br />

bietet dem von unten kommenden Luftstrom mehr Widerstand, der Luftdruck<br />

zwischen der Glottis und der Enge steigt an. Das Druckgefälle über<br />

die Glottis wird immer kleiner, so daß die Amplitude der Stimmhaftigkeit<br />

immer schwächer wird oder, wie in den Fällen in Abb. 4.4a-b, die Glottisschwingung<br />

vollständig aussetzt. Kurz hiernach wird die dorso-uvulare<br />

Enge aufgelöst, der supraglottale Druck sinkt, und die Stimmbandschwingung<br />

wird wieder in Gang gesetzt.<br />

Die Abfolge » in (siehe Abb. 4.5, S. 124) scheint den Komplexen,<br />

die bei den anderen Plosiven beobachtet wurden, genau entgegengesetzt<br />

zu sein, aber auch hier kann man in dem Zusammenspiel der artikulatorischen<br />

und aerodynamischen Abläufe eine Erklärung finden. Während<br />

des Plosivverschlusses sowie nach der Lösung wird angenommen, daß die<br />

Stimmbänder zur Stimmhaftigkeit bereit sind. Im Gegensatz õo@¥ zu und<br />

Anlauten wird ein Verschluß mit dem Zungendorsum auch für den Plosiv<br />

benötigt. Die hohe Position des Zungenrückens hat zur Folge, daß das<br />

º@¥<br />

Zäpfchen fest in der Zungenfurche sitzt. Bei der für dorsale Plosive typischen<br />

trägen Verschlußlösung besteht eine lange Engebildung, die uvular<br />

anfängt und velar aufhört. Diese Enge bietet der Luftströmung einen<br />

solchen Widerstand, daß es nach der Lösung nicht zum notwendigen supraglottalen<br />

Luftdruckabfall kommt und die Stimmhaftigkeit ausbleibt, ein<br />

Phänomen, das auch bei »4¥ einfachen Anlauten mit anschließendem Vokal<br />

zu beobachten ist. Nachdem die dorso-velare Öffnung hinreichend groß<br />

geworden ist, fällt der Luftdruck zwischen Glottis und dorso-uvularer Enge<br />

soweit ab, daß Stimmbandschwingung zustandekommen kann. Bald nach<br />

dem Einsetzen der Stimmhaftigkeit wird die dorso-uvulare Enge durch den<br />

Bernoulli-Effekt kleiner, dem Luftstrom wird höherer Widerstand geboten,<br />

der supraglottale Druck steigt und die Stimmbandschwingung wird<br />

schwächer oder setzt vollkommen aus.<br />

Diese Erklärungen sind teilweise im Bereich von informierter Spekulation<br />

über das mögliche Verhalten des Zäpfchens und seine Interaktion<br />

mit einem Luftstrom, und es wird die Annahme gemacht, daß õ— in º , »¥ ,<br />

die glottale Konfiguration zur Phonation bereit ist.<br />

Die Größe der dorso-uvularen Enge und die Wirkung auf den supraglottalen<br />

Luftdruck mit anschließender Abschwächung oder völligem Aussetzen<br />

der Stimmbandschwingung ist in den mehrfachen Äußerungen des<br />

Wortes Doris in Abb. 4.3 illustriert. In allen Fällen wird wieder die Annahme<br />

gemacht, daß die Stimmbänder schwingen würden, wenn die Luft-


140 Phonetik und Phonologie des deutschen <br />

›<br />

í druckverhältnisse die richtigen sind, d.h. es wird nicht davon ausgegangen,<br />

daß die Stimmbänder vom Sprecher zur Entstimmung angesteuert werden.<br />

Eine weitere Erklärung für den stimmhaften Abschnitt unmittelbar<br />

nach der Plosivlösung könnte sein, daß Sprecher in Plosiv- gewissen -<br />

Verbindungen absichtlich einen Vokal zwischen Plosiv und uvularer Friktion<br />

produzieren. Zwei Dinge sprechen aber dagegen. Erstens wird in mehrfachen<br />

Äußerungen des gleichen Wortes ein vokalartiger Abschnitt nicht<br />

produziert. In diesem Subkorpus wird das Wort drei dreimal pro Sprecher<br />

gesprochen. In zwei Äußerungen des Wortes drei des Sprechers k09 ist die<br />

gesamte Frikativstrecke nach der Lösung stimmhaft. Zweitens, aus dem<br />

Vergleich der zwei Äußerungen des Wortes drei in Abb. 4.4b-c ist zu sehen,<br />

n) .#. ) & daß n) .+& und sich sonst nicht wesentlich unterscheiden. Die erkennbaren<br />

Formantverläufe sind nahezu gleich. Die Dauer des Abschnitts<br />

von der Plosivlösung bis zum Aussetzen der Friktionsenge, die am besten<br />

im Frequenzbereich oberhalb von 4,4 kHz zu erkennen ist, liegt in beiden<br />

Fällen zwischen 60 und 70 ms bei einer Wortdauer in beiden Fällen von<br />

etwa 200 ms.<br />

4.4.3 Phonologische Unterschiede<br />

In 4.4.1 und 4.4.2 wird deutlich, daß die eigentliche Phonetik des , d.h.<br />

seine unvorhersagbaren phonetischen Aspekte, gar nicht so kompliziert<br />

sind, wie die beobachtbare Vielfalt, die mit dem assoziert wird, auf den<br />

ersten Blick vermuten läßt. Von den beschriebenen Mustern bleiben lediglich<br />

zwei Bereiche unerklärt:<br />

1. der grundlegende Unterschied zwischen den konsonantischen und<br />

vokalischen Korrelaten und<br />

2. die Alternationen zwischen vokalischen und konsonantischen Korrelaten<br />

in bestimmten Wörtern, z.B. spazieren.<br />

Diese Aspekte sind auf der phonologischen Abstraktionsebene zu erklären.<br />

Der Unterschied zwischen den konsonantischen und vokalischen Korrelaten<br />

des ist ein struktureller und kann in zwei Aussagen gefaßt werden:<br />

im Silbenanlaut ist eine dorso-<br />

Das phonetische Korrelat von<br />

uvulare Enge.


›<br />

›<br />

›<br />

4.4 Unentschiedene Fälle 141<br />

Das phonetische Korrelat von im Silbenauslaut ist es eine halboffene<br />

zentrale Vokalqualität.<br />

Diese zwei Aussagen listen lediglich die phonetischen Elemente des auf,<br />

die willkürlich sind, d.h. sie sind nicht mit Mechanismen zu erklären, wie<br />

es in 4.4.1 und 4.4.2 gemacht wurde.<br />

Wenn Unterschiede zwischen den konsonantischen und vokalischen<br />

Korrelaten des strukturell sind, so sind die Alternationen zwischen konsonantischen<br />

und vokalischen Korrelaten in Wörtern wie spazieren oder<br />

waren in der Zuweisung von mal zum Silbenanlaut, mal zum Silbenauslaut<br />

zu suchen. Diese Unterschiede sind in den drei Strukturbäumen für das<br />

Wort fahren in Abb. 4.12 dargestellt. Für die konsonantische Aussprache<br />

|!#",.+?e;& sind zwei Möglichkeiten vorgesehen. Im ersten wird lediglich<br />

dem Silbenauslaut zugewiesen, im zweiten ist es sowohl dem Auslaut der<br />

ersten, als auch dem Anlaut der zweiten Silbe angegliedert.<br />

Aus der Verteilung dieser Alternation über die sechs Sprecher in 4.3.4<br />

blieb unklar, aus welchen Gründen, die eine oder andere Variante gewählt<br />

wird. Es könnte stilgebunden sein, d.h. die Sprecher, die die konsonantische<br />

Variante in der Lesesprache produziert haben, würden auf anderen<br />

Stilebenen die vokalische Variante verwenden. Es mag aber nur sprecherspezifisch<br />

sein, d.h. gerade wegen der strukturellen Unentschiedenheit bevorzugen<br />

Sprecher mal die eine, mal die andere Variante.<br />

4.4.4 Unentschiedene Fälle<br />

Die Erklärung der verschiedenen Lautmuster ist in drei Bereiche aufgeteilt<br />

worden, und eine Reihe der unterschiedlichen Muster konnte in diesem<br />

Rahmen untergebracht werden. Jedoch ist es möglich, zur selben Oberflächenphonetik<br />

zu gelangen mit unterschiedlichen Beiträgen aus den drei<br />

Bereichen. Dies trifft in mindestens zwei Fällen zu:<br />

Die verschiedenen Vokalqualitäten der Vorsilbe ver-.<br />

Die stimmlose Phase in anlautenden Frikativ- -Verbindungen.<br />

Das Problem der Vokalqualitäten in der Vorsilbe ver- läßt sich wie folgt<br />

umschreiben. Welcher Anteil der qualitativen Unterschiede ist der Phonologie<br />

zuzuschreiben, welcher der zeitlichen Überlappung und Extension<br />

der phonetischen Korrelate von anderen beteiligten phonologischen


142 Phonetik und Phonologie des deutschen <br />

(a) î ï2ðòñ=óõô+öø÷<br />

(b) î ï2ðùñ=óõôöõ÷<br />

e<br />

e<br />

e<br />

Silbe<br />

Silbe<br />

Anlaut<br />

Reim<br />

Anlaut<br />

Reim<br />

f<br />

Nukleus<br />

r<br />

Nukleus<br />

Auslaut<br />

α<br />

n<br />

Silbe<br />

Silbe<br />

Anlaut<br />

Reim<br />

Reim<br />

f<br />

Nukleus Aus−/Anlaut Nukleus Auslaut<br />

α<br />

r<br />

n<br />

Silbe<br />

Silbe<br />

Anlaut<br />

Reim<br />

Reim<br />

f<br />

Nukleus<br />

Auslaut<br />

Nukleus<br />

Auslaut<br />

α<br />

r<br />

n<br />

(c) î ï5ðùñzörú2÷<br />

Abbildung 4.12: Silbenstrukturen für die (a-b) konsonantische und (c) vokalische<br />

Aussprache des Wortes fahren. In der Aussprache mit konsonantischem<br />

Korrelat gibt es zwei Möglichkeiten, je nachdem ob allein im<br />

Anlaut der zweiten oder auch im Auslaut der ersten Silbe auftreten darf.


›<br />

›<br />

›<br />

›<br />

4.4 Unentschiedene Fälle 143<br />

¹<br />

Elementen? Dieses Aufteilungsproblem kann an den Unterschieden zwischen<br />

den Vokalen in verletzt und verlassen bei den Sprecherinnen k08,<br />

k10 und k12 erläutert werden. In Abb. 4.7 sieht man, daß die akustische<br />

Qualität des Vokals in der ersten Silbe von verletzt offener und weiter vorn<br />

liegt als die des ersten Vokals von verlassen. Der auditive Unterschied ist<br />

zwischen einem vorderen halboffenen Vokal in verletzt gegenüber einer<br />

Schwa-Qualität in verlassen. Diese Unterschiede können auf phonologische<br />

oder zeitliche Faktoren zurückgeführt werden:<br />

Der -Vokal von verletzt ist phonologisch ein anderer als der in verlassen,<br />

in verletzt R8 gegenüber in verlassen. Qualitative Unter-<br />

ã å ä <br />

schiede beruhen daher auf phonetischen Korrelaten von unterschiedlichen<br />

phonologischen Elementen.<br />

Die Vokale sind phonologisch gleich, ã—å ä% d.h. Rj oder . Qualitative<br />

Unterschiede sind in der zeitlichen Überlappung und Extension der<br />

phonetischen Korrelate der betonten Silbe des Verbstammes mit denen<br />

der ver-Silbe zu finden.<br />

Eine der Konsequenzen der ersten Lösung ist, daß jede ver-Vorsilbe<br />

einer getrennten phonologischen Klassifizierung bedarf, ã å ä% entweder oder<br />

, und die Klassifizierung wird möglicherweise sprecherspezifisch anders<br />

Rj<br />

ausfallen.<br />

In 4.4.1 wurde die zeitliche Überlappung der Aspirationsphase eines<br />

Plosivs mit der uvularen Enge ¥& für verantwortlich gemacht. Für die<br />

-Verbindungen konnte diese Lösung nur teilweise greifen, denn<br />

Frikativ-<br />

auch bei einer Verkürzung der anlautenden Frikativdauer unter Beibehaltung<br />

der stimmlosen Phase, war die Stimmlosigkeit û=@¥ in ü5@¥ bzw. Anlauten<br />

länger als in den û§¥ einfachen ü2¥ oder Anlauten. Hier bieten sich wieder zwei<br />

Alternativen an:<br />

Die längere stimmlose Strecke in û=@¥ und ü2@¥ Anlauten ist<br />

artikulatorisch-aerodynamisch zu begründen. Zu dem Zeitpunkt, an<br />

dem die Stimmbänder bereit zur Stimmhaftigkeit sind, ist der Luftdruck<br />

zwischen Glottis und der dorso-uvularen Enge noch zu hoch,<br />

um Stimmbandschwingung zu ermöglichen.<br />

Stimmlosigkeit ist ein phonetisches Korrelat des Silbenanlauts, d.h.<br />

Stimmlosigkeit legt sich über die Korrelate aller anderen Elemente<br />

des Anlautes.


144 Phonetik und Phonologie des deutschen <br />

ý Aus diesen zwei Möglichkeiten ist die erste am wahrscheinlichsten, denn<br />

bei phonologisch parallelen û=þz¥ Anlauten ü5þa¥ und wird zwar eine Phase von<br />

stimmloser Lateralität gefunden, die aber nicht die zeitliche Ausdehnung<br />

erreicht, wie û=@¥ in ü2@¥ und .<br />

4.4.5 Eigenschaften der phonetischen und phonologischen<br />

Analyse<br />

Die phonetische und phonologische Erklärung der Lautmuster, die in<br />

4.4.1–4.4.4 präsentiert wurden, enthält Elemente aus einigen phonetischen<br />

und phonologischen Ansätzen. Diese Vorgehensweise besitzt Eigenschaften,<br />

die sie von Ulbrichs (1972) Untersuchung sowie von einer generativen<br />

phonologischen Analyse (Hall 1993) distanzieren. In diesem Abschnitt<br />

werden die Probleme der generativen Phonologie sowie die Lösungsansätze,<br />

die in der deklarativen und artikulatorischen Phonologie zu finden<br />

sind, diskutiert.<br />

Sowohl in Ulbrichs beschreibendem Ansatz als auch in einer generativen<br />

phonologischen Analyse werden die Lautmuster prozeßorientiert<br />

erklärt. Die Kategorien von Ulbrich (“elidiert”, “vokalisiert”) sowie die<br />

Prozesse von Hall (z.B. “vocalisation”) gehen von einer zugrundeliegenden<br />

konsonantischen Variante des aus, die in verschiedenen strukturellen<br />

Kontexten durch phonologische und phonetische Prozesse verändert wird.<br />

In Ulbrichs Beschreibung sind die Prozesse lediglich in den Namen der<br />

Kategorien zu finden, in Halls Analyse der Lautmuster eines rheinländischen<br />

Dialekts werden die Prozesse expliziert. Jedes Wort im Lexikon,<br />

daß enthält, hat am Anfang der Derivation für das die gleiche Phonetik,<br />

die durch phonologische Merkmale ausgedrückt wird. Die Merkmale<br />

durchlaufen eine Reihe von kontextabhängigen Regeln, die die Werte der<br />

Merkmale verändern, neue hinzufügen, oder das gesamte Merkmalsbündel<br />

tilgen können, wenn es auf den Kontext einer Regel paßt. Generative Regeln<br />

haben die Form:<br />

¢¤£¦¥¨§<br />

oder<br />

ÿ ¢§£©<br />

(4.1)<br />

ÿ¡ © § ©<br />

Diese Regel ist zu lesen als wird zu , wenn sich im Kontext von<br />

und befindet. Hierbei ÿ kann jedes Element auch die leere Menge sein.<br />

ÿ §<br />

Ist oder £ leer, ist nur der nachfolgende (leeres ) bzw. der vorangehende<br />

(leeres ) Kontext © für die Anwendung der Regel notwendig. Ist leer<br />

ÿ<br />

§ © © §


4.4 Eigenschaften der phonetischen und phonologischen Analyse 145<br />

Nucleus<br />

Coda<br />

X<br />

X<br />

X<br />

ROOT<br />

[+cont] [+son] [−cons]<br />

Abbildung 4.13: Die -Vokalisierungsregel im Kontext eines Langvokals<br />

aus Hall (1993: 88). Die Regel ist in der graphischen Darstellung enthalten.<br />

Die Merkmale des sind unter dem ROOT-Knoten. Die gestrichelte Linie<br />

zwischen dem ROOT-Knoten und dem Merkmal [-cons] deutet sein Hinzufügen<br />

an. Die Änderung findet in der Coda nach einem langen Nukleus<br />

statt.<br />

so entsteht Material aus einem bestimmten Kontext; solche Regeln werden<br />

verwendet, um epenthetische Vokale und Konsonanten zu erzeugen,<br />

die z.B. zwischen Lateralen und Frikativen auftreten können (als: /


146 Phonetik und Phonologie des deutschen <br />

<br />

große Unterschiede in ihrer Oberflächenstruktur (z.B. passiv-aktiv) aufweisen,<br />

auf der syntaktischen Ebene erklären zu können. Aber das bekannteste<br />

Werk der generativen Phonologie (Chomsky und Halle 1968)<br />

zeigt, vor allem in der Herleitung synchroner Konsonanten- und Vokalmuster<br />

aus früheren Stadien des Englischen, daß der Formalismus der Ersetzungsregeln<br />

viel zu mächtig ist: es kann alles aus allem hergeleitet werden.<br />

Verschiedene Weiterentwicklungen der generativen Phonologie, (z.B. lexikalische<br />

Phonologie, Mohanan 1986; autosegmentelle Phonologie, Goldsmith<br />

1990) haben versucht, diese Mächtigkeit durch die Aufstellung von<br />

verschiedenen Restriktionen (“constraints”) zu bändigen. Coleman (1994,<br />

1998) zeigt jedoch, daß diese Restriktionen die Mächtigkeit nur scheinbar<br />

abschwächen.<br />

Zwei phonologische Ansätze vermeiden auf unterschiedliche Art und<br />

Weise diese Mächtigkeit. Die deklarative Phonologie (Coleman 1994,<br />

1998; Local 1992; Local und Ogden 1997) ist ein restriktionsbasierter<br />

Ansatz. Phonologische Strukturen sind in Form von Attribut-Wert-Paaren,<br />

und die einzige Regel ist die Unifikation von Strukturen. Einer der wichtigsten<br />

Unterschiede dieses Formalismus gegenüber dem generativen Ansatz<br />

für unsere Untersuchung ist, daß es nur möglich ist, Strukturen monoton<br />

zu verändern, d.h. die Unifikation von zwei Strukturen darf weder<br />

Information wegnehmen noch die Werte von schon vorhandenen Attributen<br />

verändern. Der Weg von den phonologischen Strukturen zur Phonetik<br />

ist auch ein anderer: die phonologische Struktur wird durch phonetische<br />

Aussagen, wie sie auf S. 140 zu finden sind, interpretiert. Diese klare Trennung<br />

zwischen der Phonologie und Phonetik sowie die Interpretation der<br />

phonologischen Struktur ist nicht neu und findet sich in der Firth’schen<br />

prosodischen Phonologie (Firth 1948) wieder.<br />

Es stellt sich sofort die Frage bei solchen Einschränkungen, wie scheinbar<br />

offensichtliche Fälle von Tilgung im deklarativen Ansatz erklärt werden<br />

können. Hier gibt es mehrere Möglichkeiten, von denen eine in dieser<br />

Untersuchung verwendet wurde: phonetische Parameter fallen gar nicht<br />

weg, sondern treten in einer Ausprägung auf, die in der beobachtbaren<br />

phonetischen Substanz nicht zu unterscheiden ist vom Fall, in dem die phonetischen<br />

Parameter von vornherein nicht vorhanden sind ] (Bart bat).<br />

Die artikulatorische Phonologie (Browman und Goldstein 1989, 1992)<br />

ist ein weiteres Beispiel für eine drastische Einschränkung in der Mächtigkeit<br />

auf der phonologischen Ebene. Wörter bestehen aus artikulatorischen<br />

Gesten. In der Produktion eines Wortes können keine Gesten weggenom-


›<br />

›<br />

4.5 Modellierung der Muster 147<br />

men<br />

und keine hinzugefügt werden; phonetische Variation in der Äußerung<br />

von Wörtern ist auf Unterschiede in der zeitlichen Organisation der Gesten<br />

und in ihren Amplituden zurückzuführen. Inhaltliche Modifikationen von<br />

Gesten sowie ihre Tilgung ist somit im Modell der artikulatorischen Phonologie<br />

auch untersagt. Die scheinbare Abwesenheit von phonetischem<br />

Material kann auch hier auf mehrfache Weise erklärt werden:<br />

Die Amplitude einer Geste geht gegen Null und ist somit nicht mehr<br />

zu sehen.<br />

Durch die zeitliche Überlappung zweier Gesten wird eine versteckt.<br />

Die Drosselung der generativen Mächtigkeit in den deklarativen und<br />

artikulatorischen Ansätzen hat interessante theoretische Folgen gehabt.<br />

Ohne Tilgung und andere Strukturmanipulationen wird man gezwungen,<br />

die phonetischen Daten anders zu interpretieren, sie nochmal anzuschauen<br />

bzw. das Phänomen mit anderen Mitteln zu untersuchen. Die -Vokale<br />

sind ein Beispiel für eine andere Interpretation der phonetischen Daten.<br />

Elektropalatographische Untersuchungen zu vermeintlichen Fällen von<br />

Assimilation haben aufgezeigt, daß alveolare Artikulationen in alveolarlabialen<br />

Abfolgen noch vorhanden sind, auch wenn sie von labialen Artikulationen<br />

verdeckt werden.<br />

4.5 Modellierung der Muster<br />

Nachdem die Lautmuster des für sechs Sprecher in 4.3 beschrieben wurden<br />

und der Versuch in 4.4 unternommen wurde, die Muster zu erklären,<br />

wird nun versucht gewisse Aspekte der Muster mit einer Regelsynthese<br />

zu reproduzieren. Die Implementierung ist in Form einer Regelsteuerung<br />

der Formantsynthese von Klatt (1980), die im nächsten Kapitel näher beschrieben<br />

wird. In 4.4.3 wurden die phonetischen Korrelate von an verschiedenen<br />

strukturellen Stellen im Wort formuliert, die allgemeinphonetische<br />

Kategorisierungen verwendet haben. In der Syntheseimplementierung<br />

werden die phonetischen Korrelate in Form von akustischen Parameterverläufe<br />

über der Zeit niedergelegt.<br />

Es werden zwei Aspekte aus 4.4 in der synthetischen Version implementiert.<br />

Erstens, an verschiedenen Stellen in der Silbenstruktur hat verschiedene<br />

phonetische Korrelate. Zweitens, die phonetischen Korrelate des<br />

erfahren unterschiedliche zeitliche Überlappung.


148 Phonetik und Phonologie des deutschen <br />

è å<br />

è<br />

å<br />

è<br />

å<br />

Tabelle 4.3: Synthetische Beispiele von unterschiedlichen -Vokalen und<br />

-losen Vokalen. In allen Fällen ist der phonetische Beitrag, den leistet,<br />

derselbe. Unterschiede beruhen lediglich auf der zeitlichen Überlappung<br />

der phonetischen Korrelate des mit denen der Vokale. Vokale sind in der<br />

prosodischen Notation aus 3.2.<br />

Stadt<br />

Staat<br />

Start<br />

bat<br />

Bart (kurz)<br />

Bart (lang)<br />

Tier<br />

Kur<br />

Kür<br />

Dirk (kurz)<br />

Dirk (lang)<br />

durch<br />

Storch<br />

è r<br />

r è<br />

r è<br />

r ã<br />

r æ<br />

r æhã<br />

å r ã<br />

r ã<br />

å r æ<br />

r ä<br />

æ å<br />

Die Implementierung dieser Aspekte läßt sich am besten an den verschiedenen<br />

-Vokalen illustrieren. Tabelle 4.3 enthält einige Beispiele von<br />

-Vokalen mit bestimmten -losen Vokalen zum Vergleich.<br />

Die vokalischen Abschnitte der -haltigen Wörter in Tabelle 4.3 variieren<br />

von monophthongaler oder leichter diphthongaler Qualität in Start,<br />

Bart, Dirk (kurz), durch und Storch zu Diphthongen in Tier, Dirk (lang),<br />

Kur und Kür. In allen Fällen überlappen die vokalischen Korrelate von<br />

mit denen des Vokals, aber durch Unterschiede in der zeitlichen Ausbreitung<br />

des Vokals fällt der Grad der Überlappung unterschiedlich aus,<br />

so daß teils Monophthonge teils Diphthonge zustandekommen. In allen<br />

Fällen ist, wie in Abb. 4.10 dargestellt, die Phonetik von die gleiche. Die<br />

unterschiedlichen Vokalqualitäten, die zu hören sind, entstehen lediglich<br />

in der Kombination mit der Phonetik von verschiedenen Vokalqualitäten.<br />

Auch wenn die Korrelate von mit den Korrelaten des Vokals überlappen,<br />

tragen die Korrelate des trotzdem zur längeren Dauer der Silbe,<br />

vor allem zu einem längeren Vokalabschnitt bei. Dies hat interessante Folgen<br />

vor allem für eine Worttriade mit offenen Vokalen wie Stadt, Staat


4.5 Modellierung der Muster 149<br />

und<br />

Start. Aus der Phonologie in der rechten Spalte von Tabelle 4.3 ist<br />

zu entnehmen, daß Stadt von Staat durch Quantität und von Start durch<br />

unterschieden wird. Auditiv ist zwischen Start und Staat jedoch lediglich<br />

ein leichter qualitativer Unterschied in den Vokalabschnitten zu erkennen,<br />

die Dauern der Vokalabschnitte in beiden Wörtern sind nahezu identisch.<br />

Obwohl Start mit quantativ kurzem Vokal angegeben wird, sind die Folgen<br />

der Anwesenheit des in der Dauer und Qualität des Vokalabschnitts zu<br />

finden. Die Korrelate von überlappen mit denen å è des , tragen aber auch<br />

zur Dauer des Abschnitts bei. Das Produkt ist ein synthetisches Start, das<br />

sich hörbar kaum von Staat unterscheidet, trotz erheblicher Unterschiede<br />

in den phonetischen Zutaten.<br />

Die Wörter Dirk und Bart erhalten zwei synthetische Versionen, die<br />

auf quantitative Unterschiede in ihren Vokalen zurückzuführen sind. Diese<br />

Alternation soll eine Möglichkeit darstellen, wie Dialekte sich in ihren<br />

-Realisierungen unterscheiden: es sind möglicherweise die gleichen Oppositionen<br />

vorhanden, aber sie sind über die Wörter anders verteilt. In an-<br />

<br />

deren Fällen können bestimmte Quantitätsoppositionen in den -Vokalen<br />

aufgelöst sein, so è daß in bat einem èh quantitätslosen in Bart oder Start<br />

gegenüber steht. Neben anderen phonetischen Korrelaten, die in der Einleitung<br />

erwähnt wurden, kann die zeitliche Organisation unter Beibehaltung<br />

der gleichen phonologischen Oppositionen und Verteilung für weitere dialektale<br />

Unterschiede sorgen. Der lange Vokalabschnitt, der aus der Phonetik<br />

eines kurzen Vokals und dem entsteht, wird auf den zeitlichen Beitrag<br />

des zurückgeführt. Nimmt jedoch die Phonetik des keine Zeit für sich<br />

in Anspruch, sondern tritt nur in Kombination mit der Phonetik der anderen<br />

Elemente auf, so entstehen -Vokale, die sich in ihrer Dauer nicht<br />

von -losen Kurzvokalen unterscheiden. Dies mag Unterschiede in Wortpaaren<br />

wie Sport und Spott aus Arten des Schwäbischen erklären, deren<br />

Vokalabschnitte auditiv 13 keine Längenunterschiede aufweisen; jedoch ist<br />

eine pharyngale Konstriktion über die gesamte Wortproduktion in Sport zu<br />

vernehmen.<br />

In den synthetischen Formen der Wörter Bart (kurz) und bat finden<br />

wir uns am Anfang des Kapitels (4.2.2) wieder, bei der Frage, ob ähnliche<br />

Aussprachen von Wörtern wie Bart und bat auf ihre phonetische und phonologische<br />

Identität hinweisen. Die phonetische und phonologische Analyse<br />

sowie die synthetische Reproduktion, die in diesem Kapitel vorge-<br />

13 Dieser Gehörseindruck wurde noch nicht instrumentell überprüft.


150 Phonetik und Phonologie des deutschen <br />

stellt wurden, zeigen, daß eine Analyse, die bemüht ist, die einheitlichste<br />

Lösung für beobachtbare Unterschiede zu suchen, diese Frage verneinen<br />

muß.


Kapitel 5<br />

Wissensbasierte<br />

Gewinnung von<br />

Steuerparametern für die<br />

Formantsynthese<br />

5.1 Einleitung<br />

Im vorigen Kapitel bildeten 600 Satzäußerungen gesprochen von sechs<br />

Sprechern die Datenbasis für eine phonetische und phonologische Analyse<br />

des . Am Ende des Kapitels wurden auf Grund der Beschreibung<br />

und der Ansätze zur Mustererklärung gewisse Aspekte der gefundenen vokalischen<br />

Muster mit einer regelgesteuerten Formantsynthese nachmodelliert.<br />

In diesem Kapitel wird nun die Form der Datenaufbereitung im Kiel<br />

Corpus ausgenutzt, um eine Formantsynthese mit den Ergebnissen einer<br />

gewöhnlichen akustischen Analyse zu steuern, d.h. um an Steuerparameter<br />

zu gelangen, die als phonetische Korrelate in einer regelgesteuerten<br />

Formantsynthese dienen können.<br />

Wie das vorige Kapitel gezeigt hat, bietet die automatische Generierung<br />

von Steuersignalen für eine Formantsynthese eine ausgezeichnete<br />

Methode, phonologische Modelle zu validieren, indem man ihr phoneti-<br />

151


152 Wissensbasierte Gewinnung von Steuerparametern<br />

sches Produkt in Form einer akustischen Ausgabe beobachten kann. Umso<br />

reizender wird diese Aufgabe durch die hohe Qualität der synthetischen<br />

Sprache, die die Formantsynthese erzeugen kann, wenn sie mit den richtigen<br />

Steuersignalen angetrieben wird.<br />

Die Formantsynthese von Klatt (1980) bietet eine große Anzahl von<br />

Steuerparametern, die eine adäquate Modellierung von vielen Aspekten<br />

des akustischen Produkts des Artikulationsapparats erlauben. Jedoch bleibt<br />

die Gewinnung der Steuerparameter, die als phonetische Korrelate der<br />

phonologischen Abstraktionen dienen, eine mühsame und zeitaufwendige<br />

Aufgabe. Forschungsergebnisse in Form von konkreten Zahlen, die zumindest<br />

als Ausgangswerte dienen können, werden nur selten angetroffen.<br />

Dies ist nicht verwunderlich, denn ein Großteil der Forschung in diesem<br />

Bereich ist anwendungsgebunden, wird von der Industrie finanziert und erklärt<br />

solche Werte somit zu Industriegeheimnissen. Ausnahmen sind Allen<br />

et al. (1987) sowie Kent und Read (1992). Sie präsentieren Werte für vokalische<br />

und konsonantische Allophone des amerikanischen Englischen. In<br />

Allen et al. (1987) sind die konsonantischen Allophone aus einem vorderen<br />

Vokalkontext, bei Kent und Read (1992) werden sie als mögliche Ausgangswerte<br />

beschrieben. In beiden Fällen sind die konsonantischen Werte<br />

für die Produktion eines Teils der entsprechenden akustischen Artikulation<br />

geeignet. Die Dynamik, d.h. die Veränderung der verschiedenen Parameter<br />

zueinander über die Zeit wird höchstens beispielhaft beschrieben, aber<br />

nicht für die einzelnen Allophone.<br />

Der benötigte Aufwand, dynamische Parametersätze zu gewinnen, läßt<br />

sich am Beispiel eines prävokalischen stimmlosen aspirierten alveolaren<br />

Plosivs illustrieren. Von den dynamischen Parametern (siehe 5.2), die in<br />

der Klatt-Formantsynthese eingestellbar sind, müssen etwa 13 über die<br />

Zeit kontrolliert und verändert werden. Der Abschnitt zwischen Plosivverschluß<br />

und dem stimmhaften Vokaleinsatz ist akustisch in drei unterschiedliche<br />

Phasen aufzuteilen. Die Verschlußlösung ist von kurzer Dauer<br />

und besteht aus einem Impuls. Darauf folgt ein Abschnitt alveolarer Friktion,<br />

der dann von Aspiration abgelöst wird. Eine Modellierung dieser Abfolge<br />

in der Formantsynthese bedeutet ein feines Zusammenspiel zwischen<br />

drei glottalen und supraglottalen Quellparametern sowie eine Kontrolle der<br />

Formanten, ihrer Bandbreiten und Amplituden.<br />

Eine interessante und aufschlußreiche Methode, dynamische Parametersätze<br />

für eine Sprache zu gewinnen, bietet die Copy-Synthese, d.h. die<br />

Steuersignale für die Formantsynthese werden aus den Ergebnissen ei-


5.1 Einleitung 153<br />

¸ner<br />

akustischen Analyse von natürlichen Äußerungen hergestellt. Es gibt<br />

jedoch zwei große Schwierigkeiten, die Ergebnisse einer gewöhnlichen<br />

akustischen Analyse in die Steuerparameter einer Formantsynthese zu<br />

überführen:<br />

1. Es besteht eine Diskrepanz zwischen der Information, die von einer<br />

akustischen Analyse geliefert wird und der hohen Anzahl an Steuerparametern,<br />

die die Formantsynthese für die Äußerungsmodellierung<br />

zur Verfügung stellt. So liefern die meisten Grundfrequenzanalysen,<br />

beispielsweise, nur eine Entscheidung ob ein Äußerungsabschnitt<br />

stimmhaft (F0 gefunden) oder stimmlos (F0 nicht gefunden)<br />

ist 1 . Für eine Formantsynthese kann diese Entscheidung nur zu einer<br />

quasiperiodischen (stimmhaften) bzw. einer aperiodischen (stimmlosen)<br />

Anregung der Resonatoren führen. Die Klatt-Synthese bietet<br />

jedoch vier dynamische Parameter zur Modellierung von glottalen<br />

und supraglottalen Quellen, zwei für aperiodische Quelle (glottal<br />

und supraglottal) sowie zwei für die periodische Quelle an der Glottis<br />

(Stimmhaftigkeit und ein Tiefpaßfilter für die Modellierung von<br />

Stimmhaftigkeit in Frikativen und oralen Verschlußlauten).<br />

2. Parametrische Information über komplexere Produkte des Ansatzrohres<br />

ist den Analysenergebnissen nur schwer zu entziehen. Stimmhafte<br />

Frikative bilden eine Gruppe solcher komplexerer Produkte.<br />

Der Frikativ & , z.B., verläßt eine akustische Analyse entweder als<br />

stimmloser Frikativ (F0 nicht gefunden) oder als stimmhafter Approximant<br />

(F0 gefunden). Obwohl der erste Ausgang für eine anschließende<br />

Synthese der günstigere wäre, erlauben beide Analyseausgänge<br />

keine adäquate Nachbildung des ursprünglichen Frikativs.<br />

Dieses Kapitel beschreibt eine wissensbasierte Methode, die beide Probleme<br />

überwindet. LACS (Label Assisted Copy Synthesis, Scheffers und<br />

Simpson 1995; Simpson und Scheffers 1996) kombiniert die symbolische<br />

Etikettierung einer Äußerung mit den Ergebnissen einer gewöhnlichen<br />

akustischen Analyse und erlaubt somit eine intelligente Überführung<br />

der Analysedaten in die Steuerparameter einer Formantsynthese. Einige<br />

phonetische Informationen können aus den Analysedaten allein gewonnen<br />

1 Die Grundfrequenzanalyse von Indefrey, Hess und Seeser (1985) erkennt zusätzlich<br />

Strecken von unregelmäßiger und tieffrequenter Stimmhaftigkeit als Knarrstimme


154 Wissensbasierte Gewinnung von Steuerparametern<br />

ª werden. Die Grundfrequenzanalyse identifiziert stimmhafte und stimmlose<br />

Äußerungsstrecken, die Energieverteilung im Kurzzeitspektrum läßt auf<br />

bestimmte Lauttypen schließen, z.B. Frikative gegenüber Vokalen. Kommt<br />

aber linguistische Information in Form einer symbolischen Etikettierung<br />

hinzu, können die Analysedaten von Anfang an den phonetischen Korrelaten<br />

bestimmter phonologischer Objekte zugewiesen und entsprechend behandelt<br />

werden. Durch Arbeiten wie Klatt (1980) oder Allen et al. (1987)<br />

sind die benötigten Parameter für die verschiedenen Lauttypen bekannt<br />

und die Analysedaten können zur Steuerung dieser Parameter verwendet<br />

werden.<br />

Die erfolgreiche Überführung von Analyseergebnissen in Steuerparameter<br />

wird am auditiven Vergleich zwischen der natürlichen und synthetischen<br />

Äußerung gemessen. Ist die Überführung gelungen, hört sich<br />

die synthetische Äußerung entsprechend natürlich an und die Synthesesteuersignale<br />

können die Grundlage für die Erarbeitung der eigentlichen<br />

akustisch-phonetischen Korrelate bilden. In phonologischen und phonetischen<br />

Ansätzen, wie sie im vorigen Kapitel verwendet wurden, müssen die<br />

phonetischen Korrelate so beschrieben sein, daß sie die zeitliche Kombination<br />

mit den Korrelaten anderer Objekte erlauben. In Abschnitt 5.5 wird<br />

gezeigt, wie die Korrelate für F2 eines prävokalischen Laterals in verschiedenen<br />

Vokalumgebungen unter Verwendung der modifizierten Locusgleichung<br />

(Allen et al. 1987) geschätzt werden können.<br />

5.2 Akustische Analysedaten und die Klatt-<br />

Formantsynthese<br />

Die Formantsynthese von Klatt (1980) bietet etwa 40 Parameter, das akustische<br />

Verhalten des Ansatzrohres zu modellieren (siehe Abb. 5.1). Etwa<br />

die Hälfte der Steuerparameter modelliert die Dynamik einer Äußerung<br />

und wird zeitlich verändert. Die andere Hälfte modelliert globale Aspekte<br />

einer Äußerung, die den Eigenschaften der modellierten Stimme zuzuschreiben<br />

sind. Die globalen Steuerparameter werden nicht mit der Zeit<br />

verändert und da es unser Ziel ist, phonetische Aspekte von Äußerungen<br />

und nicht von Sprechern zu modellieren, werden die globalen Parameter


5.2 Akustische Analysedaten und Formantsynthese 155<br />

Abbildung 5.1: Der Aufbau der Klatt-Formantsynthese (Klatt 1980: 975).<br />

nicht weiter diskutiert 2 .<br />

In Tabelle 5.1 finden sich die Syntheseparameter, die in der hiesigen<br />

Implementierung der Klatt-Synthese dynamisch gehalten werden 3 .<br />

Die Parameter F0, F1–F4, B1–B4, A2–A6 sind selbsterklärend. AH und<br />

AF setzen jeweils die Amplitude einer stochastischen glottalen bzw. supraglottalen<br />

Anregung fest. AV legt die Amplitude der quasiperiodischen<br />

stimmhaften Anregung fest. AVS steuert ein Tiefpaßfilter, das die Amplituden<br />

der oberen Frequenzen der stimmhaften Anregung stark dämpft, um<br />

den sinoidalen Charakter von Stimmhaftigkeit während supraglottaler Verschlüsse<br />

und Engen nachzuahmen. AB kontrolliert ein Bandpaßfilter, das<br />

eine adäquatere Modellierung der spektralen Eigenschaften von labialen<br />

und dentalen flachen Frikativen ( õgg—2g[gg8& ) erlaubt. Mit FNZ wird<br />

die Frequenz der nasalen Nullstelle festgelegt. Die Frequenz des nasalen<br />

Pols wird als globaler Parameter auf einem festen Wert gehalten. Solange<br />

Pol und Nullstelle die gleiche Frequenz haben, haben sie keine akustische<br />

Folgen, erst wenn die Frequenz von einem (in diesem Fall FNZ) verscho-<br />

2 Unten wird deutlich, daß Form und Verlauf der dynamischen Parameter einen erheblichen<br />

Teil der Sprechereigenschaften ausmachen, so daß die Trennung in sprecher- und<br />

sprachbezogenen Eigenschaften eine grobe Vereinfachung ist.<br />

3 Fortan werden die Synthese-Parameter in ihrer abgekürzten Form dargestellt und durch<br />

Fettdruck von gleichnamigen Analyse-Parametern unterschieden.


156 Wissensbasierte Gewinnung von Steuerparametern<br />

Tabelle 5.1: Die dynamischen Parameter der Klatt-Formantsynthese mit<br />

den Abkürzungen, die im Text verwendet werden.<br />

AV Amplitude der stimmhaften Anregung<br />

AVS Amplitude der sinoidalen Stimmhaftigkeit<br />

AH Amplitude der Aspiration<br />

AF Amplitude der Friktion<br />

AB Amplitude des Bandpasses<br />

F0 Grundfrequenz<br />

F1–F4 Frequenzen der ersten vier Formanten<br />

B1–B4 Bandbreiten der ersten vier Formanten<br />

A2–A6 Amplituden der Formanten 2 bis 6<br />

FNZ Frequenz des nasalen Zeros<br />

AN Amplitude des nasalen Pols<br />

ben wird, tritt ein zusätzlicher Pol und eine Nullstelle im Signal auf.<br />

Die Analyseparamter und die dynamischen Syntheseparameter werden<br />

in Abb. 5.2 nebeneinander dargestellt. Die Pfeile zeigen die Überführung<br />

der Analyseparameter in Syntheseparameter, wenn nur die Information aus<br />

der akustischen Analyse zur Verfügung steht. Aus dieser Darstellung werden<br />

die ungenützten Syntheseparameter offengelegt. Liefert die Grundfrequenzanalyse<br />

einen Wert größer als Null, so kann der Energieparameter<br />

RMS zur Festsetzung der Amplitude der Stimmhaftigkeit in der Synthese<br />

verwendet werden. Stellt die Grundfrequenzanalyse keine Stimmhaftigkeit<br />

fest, kann RMS in die Amplitude der aperiodischen Quelle AF überführt<br />

werden. Die anderen Quellparameter, die eine aperiodische Quelle an der<br />

Glottis – AH – modellieren sowie ein Tiefpaßfilter für die Modellierung<br />

der sinoidalen Stimmhaftigkeit – AVS – während supraglottaler Enge- und<br />

Verschlußbildungen, bleiben in beiden Fällen ungenutzt.<br />

Eine weitere Eigenschaft der Klattsynthese, die nur schwer ausgenutzt<br />

werden kann, wenn lediglich die Analyseparameter zur Verfügung stehen,<br />

ist die Möglichkeit, unterschiedliche Lauttypen durch eine unterschiedliche<br />

Synthese zu erzeugen, entweder<br />

kaskadisch: das Quellsignal wird durch die Filter, die die Resonanzen des<br />

Ansatzrohres nachbilden, nacheinander geschleust, oder


5.2 Akustische Analysedaten und Formantsynthese 157<br />

Abbildung 5.2: Gegenüberstellung der Parameter einer einfachen<br />

akustischen Analyse und der dynamischen Parameter der Klatt-<br />

Formantsynthese. Die Pfeile stellen die ungefähren Entsprechungen dar<br />

und machen das unausgewogene Verhältnis zwischen Analyse und Synthese<br />

deutlich.<br />

parallel: das Quellsignal wird parallel durch die Filter gesendet, und die<br />

Filterausgänge werden nachher summiert.<br />

Die kaskadische Filteranordnung eignet sich besonders gut für orale<br />

Lauttypen, bei denen die Anregungsquelle an der Glottis liegt, z.B. Vokale<br />

und glottale Frikative. Die Filter müssen lediglich durch die Angabe ihrer<br />

Zentralfrequenz und ihrer Bandbreite charakterisiert werden. Die parallele<br />

Filteranordnung eignet sich zur Nachbildung von Lauttypen, deren Quelle<br />

supraglottal erzeugt wird, z.B. sämtliche supraglottalen Frikative. Zusätzlich<br />

zur Zentralfrequenz und Bandbreite muß die Amplitude festgesetzt<br />

werden. Da eine gewöhnliche akustische Analyse die Information über die<br />

unterschiedliche Quelle nicht liefert, kann die Wahl zwischen kaskadisch


›<br />

›<br />

›<br />

›<br />

158 Wissensbasierte Gewinnung von Steuerparametern<br />

und parallel nur grob eingesetzt werden, d.h. bei Stimmhaftigkeit kann der<br />

Kaskadezweig, bei Stimmlosigkeit der parallele Zweig verwendet werden.<br />

5.3 Methode<br />

5.3.1 Signalanalyse und Formantsortierung<br />

Im ersten Schritt wird eine natürliche Äußerung einer LPC-Analyse und<br />

einer Grundfrequenzanalyse unterzogen. Es wird dieselbe Analyse verwendet,<br />

wie sie in Kapitel 3 beschrieben wurde. Alle fünf Millisekunden<br />

werden folgende Werte aus dem Signal gewonnen:<br />

zwei Schätzungen der Formantfrequenzen (s. 3.6.1);<br />

Formantbandbreiten und -amplituden;<br />

Grundfrequenz (F0);<br />

Kurzzeitenergie (RMS).<br />

Ungewöhnlich an diesen Analyseergebnisse ist allein die Berechnung<br />

von Formantamplituden, die für Lauttypen notwendig sind, die mit einer<br />

supraglottalen Anregung erzeugt und somit durch den Parallel-Zweig der<br />

Synthese geschickt werden.<br />

Die Schätzungen der Formantfrequenzen werden ebenfalls nach der in<br />

Kapitel 3 beschriebenen Methode durchgeführt. Im Gegensatz zu meist<br />

stimmhaften Vokalabschnitten, bei denen die Sortierung in den meisten<br />

Fällen richtig verläuft, bieten bestimmte Lauttypen eine Reihe von Schwierigkeiten<br />

für die Formantbestimmung. Eine solche Problemgruppe bilden<br />

die Frikative, deren Behandlung in 5.3.5 eingehend besprochen wird.<br />

5.3.2 Annotationsunterstützte Überführung der Analysedaten<br />

in Steuersignale<br />

Nach der Analyse einer Äußerung werden die einzelnen Analysesätze<br />

zeitlich mit ihrer Etikettierung verknüpft. Im einfachsten Fall wird jeder<br />

Analysesatz mit einem Label verbunden. Information über Glottalisierung<br />

($-q) und Nasalierung ($-˜) wird ebenfalls an dieser Stelle mitgenommen,<br />

so daß zu einem Zeitpunkt mehrere phonetische und phonologische


5.3 Glottale Aktivität 159<br />

<br />

Informationen zur Verfügung stehen können. Zusätzliche kontextuelle Information<br />

über benachbarte Abschnitte werden während des Überführungprozesses<br />

selbst gewonnen. Tabelle 5.2 enthält einen Ausschnit aus der<br />

Analyse des Wortes Mittagessen von Sprecher k03. Die Analysesätze sind<br />

mit Teilen der Etikettierung verbunden und die Formanten sind sortiert.<br />

Der Ausschnitt erstreckt sich vom Ende des velaren Plosivverschlusses (k)<br />

über die kurze Lösungsphase (-h) bis in den glottalisierten Vokalabschnitt<br />

("E-q) hinein.<br />

Die sortierte und annotierte Analyse bildet die Grundlage für die<br />

Überführung in synthetische Steuersignale. Als erster Schritt werden aus<br />

den Formantlücken (mit -99 gekennzeichnet) kontinuierliche Verläufe gemacht.<br />

Augenblicklich wird die Formantlücke durch die zweite Pisarenko-<br />

Schätzung gefüllt, und die Bandbreite und Amplitude werden aus linearen<br />

Interpolationen zwischen vorherigen und nachfolgenden Werten gebildet.<br />

Dieser Schritt ist ein einfacher Automatismus und wird zur Zeit nicht von<br />

Labelinformation gesteuert. Dies ist wünschenswert, denn die Formantsortierung,<br />

die auch ohne Zusatzinformation abläuft, ist bei bestimmten<br />

Äußerungsabschnitten besonders fehleranfällig. Nasalierte Abschnitte sowie<br />

stimmlose Frikative (siehe 5.3.5) sind zwei Beispiele, die aus unterschiedlichen<br />

Gründen Probleme bieten.<br />

In weiteren globalen Anpassungen werden alle RMS-Werte relativ zu<br />

einem Maximum von 60 dB korrigiert, um Übersteuerungen zu vermeiden.<br />

Alle Formantbandbreiten, die größer als 500 Hz sind, werden auf 500 Hz<br />

reduziert.<br />

Als letzter Schritt passiert die eigentliche annotationsgesteuerte Manipulation<br />

und Überführung in synthetische Steuersignale. Hauptsächlich<br />

auf Grund der mit dem Datensatz verbundenen Etikettierung werden Entscheidungen<br />

getroffen, welche synthetischen Quellparameter (AV, AH,<br />

AVS, AF) mit RMS zu steuern sind, ob Formantamplituden benötigt werden<br />

(bei Anregung mit AF) und ob Werte für bestimmte Parameter, z.B.<br />

durch Interpolation o.ä. hergestellt werden müssen. In den nachfolgenden<br />

Abschnitten werden einige Beispiele der Überführung beschrieben.<br />

5.3.3 Glottale Aktivität<br />

Die akustische Analyse eines Äußerungsabschnitts liefert lediglich Information<br />

über das Vorhandensein oder Fehlen von Stimmhaftigkeit. Dies<br />

steht in einem schlechten Verhältnis zur Anzahl der Glottisstellungen, die


160 Wissensbasierte Gewinnung von Steuerparametern<br />

Tabelle 5.2: Ausschnitt aus den sortierten und annotierten Analysedaten aus der Mitte des Wortes Mittagessen. Der<br />

Ausschnitt enthält einen Teil des velaren Plosivverschlusses (k), die Lösungsphase (-h) und einen Teil des nachfolgenden<br />

glottalisierten Vokals ("E-q). Die erste Spalte enthält das Label, die zweite den Gain-Faktor, der nicht<br />

weiter verwendet wird. Die dritte Spalte enthält Kurzzeitenergie (RMS) in Dezibel, die vierte die Grundfrequenz<br />

in Hertz. Die weiteren Spalten enthalten zwei Schätzungen der Formantfrequenzen (siehe 3.6.1) getrennt durch<br />

“/” sowie die Bandbreite und Amplitude. Aus Platzgründen sind nur die Schätzungen der ersten vier Formanten<br />

abgebildet. Insgesamt acht Formanten werden für eine männliche Stimme geschätzt. Die Zahl -99 wird verwendet,<br />

um leicht erkennbare Lücken zu füllen, die bei der Formantsortierung enstehen. Die Analysesätze werden in<br />

Abständen von 5 Millisekunden gewonnen. (Ref.: k03be049)<br />

Label G RMS F0 F1/P1 B1 A1 F2/P2 B2 A2 F3/P3 B3 A3 F4/P4 B4 A4<br />

k 33 17 0 411/411 999 0 1824/1738 614 39 -99/2540 -99 -99 3685/3660 628 35<br />

k 32 15 0 448/448 999 0 1236/1659 721 35 2259/2572 567 35 -99/3672 -99 -99<br />

k 41 30 0 572/545 397 64 1583/1513 431 59 2012/2010 166 63 -99/3385 -99 -99<br />

k 53 44 0 511/501 237 80 1585/1535 369 72 2022/2023 123 77 -99/3236 -99 -99<br />

-h 57 47 0 493/486 225 83 1639/1603 455 73 2046/2060 99 82 3320/3290 641 55<br />

-h 55 41 0 542/532 459 72 1852/1781 881 69 2067/2129 109 80 3314/3342 703 54<br />

-h 57 42 0 613/586 504 73 1891/1752 519 73 2205/2237 328 74 3804/3509 790 62<br />

"E-q 62 51 0 489/476 216 87 1862/1738 330 79 2224/2206 300 79 3797/3529 400 70<br />

"E-q 59 54 0 433/426 94 94 1825/1720 221 81 2167/2128 268 78 3721/3542 213 70<br />

"E-q 57 55 0 410/402 113 95 1767/1669 205 82 2124/2076 234 80 3721/3447 104 74<br />

"E-q 56 52 0 426/423 67 92 1775/1713 178 80 2106/2085 215 77 3721/3608 99 73<br />

"E-q 56 52 0 428/424 64 92 1857/1709 301 76 2107/2131 463 72 3675/3535 296 65<br />

"E-q 58 55 0 467/456 91 95 1888/1600 582 77 2117/2158 457 77 3656/3445 159 77<br />

"E-q 58 56 0 485/476 65 97 1848/1655 318 79 2212/2153 419 76 3664/3512 88 81


5.3 Glottale Aktivität 161<br />

behauchte<br />

Stimme<br />

Knarrstimme Stimmlosigkeit Stimmhaftigkeit<br />

Abbildung 5.3: Sonagramm und Etikettierung eines Teils der Äußerung<br />

Wir haben ein Abteil extra für uns, gesprochen von k03. In diesem kurzen<br />

Äußerungsabschnitt sind vier Glottisstellungen zu erkennen: Stimmhaftigkeit,<br />

Stimmlosigkeit, Knarrstimme und behauchte Stimme. Ein Pfeil deutet<br />

jeweils auf eine exemplarische Strecke. (Ref.: k03be085)<br />

in einer kurzen Äußerung auftreten können.<br />

Ein kurzer Ausschnitt aus dem Berliner Satz Wir haben ein Abteil extra<br />

für uns von Sprecher k03 enthält vier häufige Glottisstellungen: Stimmhaftigkeit,<br />

Stimmlosigkeit, Knarrstimme und behauchte Stimme. Knarrstimme<br />

oder Glottalisierung treten als Korrelate einiger phonologischer Objekte<br />

im Deutschen auf.<br />

In Begleitung eines Glottalverschlusses oder allein hat Glottalisierung<br />

eine abgrenzende Funktion in Silben mit initialen Vokalen (siehe Abb. 5.3).<br />

Sie kann auch eine Einbruchfunktion in Sequenzen von Lateralen und Nasalen<br />

erfüllen. In einer häufig auftretenden Aussprache des Wortes könnten<br />

wird der alveolare Verschluß und die velopharyngale Öffnung nach dem<br />

ersten Vokalabschnitt bis zum Ende des Wortes beibehalten. Während dieser<br />

nasalen Strecke jedoch wird ein Einbruch durch einen Glottalverschluß<br />

oder eine Glottalisierung hergestellt und somit ein Unterschied zu können<br />

geschaffen (Kohler 1994, 1995c). Eine weitere Funktion der Glottalisierung<br />

ist als Korrelat von Äußerungsfinalität, die sich über eine oder mehrere<br />

Silben am Ende eine Äußerung erstrecken kann.<br />

Behauchte Stimme ist das Hauptkorrelat von in zwischenvokali-


162 Wissensbasierte Gewinnung von Steuerparametern<br />

schem Kontext. Im Gegensatz zur normalen Stimmhaftigkeit, wird bei<br />

der behauchten Stimme während der Schwingungsphase kein Verschluß<br />

an den Stimmlippen erreicht, Luft strömt kontinuierlich durch die Glottis<br />

(Laver 1980; Buuren 1983). Behauchte Stimme ist auch als Korrelat von<br />

Äußerungsfinalität zu finden und kann zusammen mit Glottalisierung eine<br />

behauchte Knarrstimme bilden.<br />

Aus einer Kombination von akustischer Analyse und Etikettierung ist<br />

es möglich auf viele der verschiedenen Glottisstellungen zu schließen<br />

und die Analysedaten in die relevanten Quellparameter der Synthese zu<br />

überführen. Phonetische Zusätze in der Etikettierung des Kiel Corpus (siehe<br />

2.3.3 auf S. 21) weisen auf zwei der beschriebenen Glottalisierungstypen<br />

hin. Nur die äußerungsfinale Glottalisierung wird nicht markiert.<br />

Wird eine als glottalisiert markierte Strecke von der akustischen Analyse<br />

als niederfrequente Stimmhaftigkeit erkannt, so muß in der Parameterüberführung<br />

nichts gemacht werden. Die Strecke wird wie jede andere<br />

stimmhafte Strecke behandelt, RMS wird zur Festsetzung von AV verwendet.<br />

Die typischen Eigenschaften von Glottalisierung sind schwache, tieffrequente,<br />

unregelmäßige Schwingungen, die nicht selten als stimmlos von<br />

einer F0-Analyse deklariert werden. In solchen Fällen kann die Information<br />

über das Vorhandensein einer glottalisierten Strecke aus der Etikettierung<br />

zu einem gezielten Eingreifen bei der Überführung der Analysedaten<br />

in Syntheseparameter verwendet werden. Der glottalisierte Abschnitt wird<br />

bei der Überführung stimmhaft gemacht, indem die Synthese-F0 auf beliebige<br />

Werte zwischen 50 und 70 Hz über die betreffende Strecke gesetzt<br />

wird und RMS wird zur Festsetzung der Stimmhaftigkeit verwendet. So<br />

wird aus analytischer Stimmlosigkeit unregelmäßige, tieffrequente Stimmhaftigkeit.<br />

Eine ähnliche Strategie wird für vokalisch etikettierte Strecken verwendet,<br />

die ebenfalls von der F0-Analyse als stimmlos erklärt werden. In<br />

der Mehrheit der Fälle geschieht dies durch den verwendeten Algorithmus<br />

am Vokalrand oder in bestimmten, meist unbetonten Stellen, an denen<br />

Stimmhaftigkeit nur zwei oder drei Perioden lang ist. Ein typisches<br />

Beispiel ist die zweite Silbe des Wortes Süßigkeiten. Ein kurzer, nichtakzentuiert,<br />

hoher Vokal zwischen zwei Frikativen mag sich nur an seiner<br />

Stimmhaftigkeit zu erkennen geben. Eine Friktionsenge herrscht über<br />

die ganze Strecke hinweg, die somit häufig die F0-Analyse als stimmlos<br />

verläßt. Diese Stimmhaftigkeit wird ebenfalls bei der Überführung wieder<br />

hergestellt, indem eine Interpolationslinie zwischen dem letzten und dem


5.3 Glottale Aktivität 163<br />

Abbildung 5.4: Überführung der Analysedaten in die Syntheseparameter<br />

für Knarrstimme (links) und die verschiedenen Korrelate von (rechts).<br />

Tieffrequente, unregelmäßige Stimmhaftigkeit wird für Strecken hergestellt,<br />

die in der F0-Analyse als stimmlos deklariert, aber als glottalisiert<br />

etikettiert wurden. Die Synthese-F0 wird auf beliebige Werte zwischen 50<br />

und 70 Hz gesetzt. Für h, wenn F0 0, wird !"# angenommen, und RMS<br />

wird in die Syntheseparameter AV, AH and AVS übernommen. Bei F0 $<br />

0 wird ! %# angenommen, RMS wird lediglich in AH überführt; in beiden<br />

Fällen wird ausschließlich eine glottale Anregung angenommen, und nur<br />

der Kaskade-Zweig wird aktiviert.<br />

nächsten vorhandenen F0-Werten gespannt werden. Steht der analytisch<br />

stimmlose Vokalabschnitt am Äußerungsanfang bzw. -ende, wird aus den<br />

nachfolgenden bzw. vorhergehenden F0-Verlauf extrapoliert.<br />

Behauchte Stimmhaftigkeit wird jedoch nicht in der Etikettierung markiert,<br />

d.h. stimmlose und stimmhafte Korrelate von werden nicht in<br />

der Etikettierung unterschieden. Die phonetische Interpretation eines bestimmten<br />

Äußerungsabschnitts läßt sich aus einer Kombination der akustischen<br />

Analyse und der Etikettierung gewinnen. Wird eine Strecke mit <br />

etikettiert, ist eine glottale Anregung durch den Kaskade-Zweig der Synthese<br />

hindurchzuschicken. Ist diese Strecke aus der akustischen Analyse


164 Wissensbasierte Gewinnung von Steuerparametern<br />

als stimmhaft<br />

&<br />

(F0 0) erkannt, wird aus einer entsprechenden Mischung<br />

der drei dynamischen Parameter (AV, AH, AVS), die eine glottale Anregung<br />

bilden, behauchte Stimme modelliert. Wird die Strecke als stimmlos<br />

deklariert, so wird ! %'# angenommen, und RMS wird lediglich zur Festsetzung<br />

der glottalen aperiodischen Quelle AH verwendet.<br />

Da hier eine akustische Modellierung angestrebt wird, haben bestimmte<br />

artikulatorische Unterschiede die gleichen akustischen Folgen, z.B.<br />

führen die artikulatorischen Unterschiede zwischen einer offenen, verengten<br />

oder geschlossenen Glottis während eines Plosivverschlusses zum gleichen<br />

akustischen Produkt: Ruhe.<br />

5.3.4 Plosivlösungen<br />

Die Lösungsphasen von prävokalischen Plosiven in akzentuierten Silben<br />

weisen drei unterschiedliche Phasen auf. Die Lösung selbst wird durch<br />

eine energiereiche pulsartige Explosion charakterisiert. Darauf folgt örtliche<br />

Friktion, die je nach Artikulationsstelle unterschiedlich lang ist. Durch<br />

eine Vergrößerung der oralen Enge geht die örtliche Friktion in glottale<br />

Friktion über, deren Spektrum durch den supraglottalen Hohlraum geformt<br />

wird, d.h. in Aspiration im engen Sinne. Um diese Abfolge in Syntheseparameter<br />

umzusetzen, müssen die Analysedaten auf unterschiedliche<br />

Syntheseparameter, abhängig von der Zeit, abgebildet werden. Für die<br />

Plosivlösung sowie den Abschnitt unmittelbar danach wird RMS in AF<br />

überführt, und da es sich um eine supraglottale Anregung handelt, werden<br />

die Formantamplituden benötigt. Für die eigentliche Aspirationsphase<br />

wird RMS verwendet, um AH zu steuern; das Anregungssignal wird durch<br />

den Kaskade-Zweig der Synthese gesendet, der nur die Formantfrequenzen<br />

und ihre Bandbreiten benötigt.<br />

5.3.5 Frikative<br />

Frikativ stellen besondere Probleme für die Analyse und anschließende<br />

Überführung in Syntheseparameter dar. Stimmhafte Frikative, z.B. ! (¨# , ! )*# ,<br />

! +# , sind artikulatorisch komplex und erzeugen akustische Produkte, aus<br />

denen diese Komplexität wieder herzustellen ist. Im Gegensatz zu vielen<br />

anderen Lauttypen sind zwei Quellen vorhanden, eine glottale Schwingung<br />

und eine supraglottale Friktionsenge. In der Default-Überführung


5.3 Frikative 165<br />

,<br />

von Abb. 5.2 lassen die Ergebnisse einer F0-Analyse die Erzeugung eines<br />

stimmhaften friktionlosen Approximanten zu bei F0 0 bzw. eines<br />

stimmlosen Frikativs bei $ F0 0. In beiden Fällen geht ein Teil des akustischen<br />

Produktes verloren. Die Verbindung der akustischen Analyse mit der<br />

Etikettierung ermöglicht eine Identifizierung von stimmhaften Frikativen<br />

und erlaubt somit die Überführung der Analyseparameter in die entsprechenden<br />

Formantparameter.<br />

Abb.5.5 illustriert die Behandlung der enstimmten und stimmhaften<br />

Korrelate von - , d.h. ! )./# und ! )*# . Wird eine mit z etikettierten Strecke<br />

analytisch als stimmhaft erkannt, wird RMS verwendet, um die Parameter<br />

AV, AF und AVS zu steuern, die eine glottale und nichtglottale Anregung<br />

erzeugen. Wie bei der Herstellung von behauchter Stimme wird<br />

AVS verwendet, um hochfrequente Anteile der stimmhaften Anregung zu<br />

unterdrücken. Wird analytisch keine Stimmhaftigkeit gefunden (F0 $ 0),<br />

so wird ! ). # angenommen und RMS wird lediglich zur Steuerung von AF<br />

verwendet. Im stimmhaften und stimmlosen Fall wird der Parallel-Zweig<br />

angeregt, aber nur die Amplitude von F6 wird festgesetzt. Andere Formantamplituden<br />

werden auf 0 gesetzt.<br />

Eine fehlerhafte Verarbeitung des tatsächlich Produzierten kann diese<br />

beiden Alternativen aber nicht ausschließen, z.B. wenn ein stimmhafter<br />

Frikativ produziert, aber als stimmlos in der F0-Analyse deklariert worden<br />

ist. Diese Information ist auch nicht aus der Etikettierung zu holen, denn<br />

dort wird ein Unterschied zwischen ! ). # und ! )*# nicht annotiert.<br />

Ein weiteres Problem bei der Überführung von Frikativen ist die Identifizierung<br />

von geeigneten Formantwerten. Das Klatt’sche Synthesemodell<br />

fordert kontinuierliche Formantverläufe, auch wenn Formanten in bestimmten<br />

Äußerungsabschnitten nicht vorhanden sind. Vor allem in stimmlosen<br />

Frikativen, bei denen der Resonanzraum hinter der Friktionsenge nur<br />

eine untergeordnete Rolle spielt, werden die unteren Formanten nicht angeregt.<br />

Ein typisches Beispiel hierfür ist das stimmlose dorso-palatale Korrelat<br />

von 0 , ! 12# . Die vordere linguale Enge und die ungerundete Lippen<br />

führen zu spektraler Energie erst ab etwa 2,5 kHz, d.h. eine Anregungn ab<br />

dem dritten Formanten. Werte für den ersten und zweiten Formanten lassen<br />

sich aus den Formantverläufen vor bzw. nach der Friktionsenge mit dem<br />

Auge schätzen. Werte für die Frequenzen, Bandbreiten und Amplituden<br />

des dritten und vierten Formanten sowie Amplituden für den fünften und


166 Wissensbasierte Gewinnung von Steuerparametern<br />

Abbildung 5.5: Überführung der Analysedaten in Syntheseparameter für<br />

die verschiedenen Korrelate von - . Wird der Frikativ von der F0-Analyse<br />

als stimmhaft erklärt, dann wird ! )*# angenommen und RMS wird zur Festsetzung<br />

von AV, AF und AVS verwendet. Ist jedoch keine analytische<br />

Stimmhaftigkeit vorhanden wird ! ).3# angenommen und RMS wird lediglich<br />

verwendet, um die supraglottale Friktionsquelle AF zu steuern.<br />

sechsten 4 Formanten lassen sich über LPC-Spektren schätzen. Im Falle eines<br />

dorso-palatalen Frikativs werden die Analysedaten in der Überführung<br />

fast vollständig ignoriert; nur RMS wird verwendet um AF zu steuern.<br />

5.4 Ergebnisse von LACS<br />

Die beschriebene Methode der Copy-Synthese wurde entwickelt, um Werte<br />

für die Regelsynthese zu gewinnen, und orientierte sich hauptsächlich<br />

4 Die Frequenzen und Bandbreiten des fünften und sechsten Formanten werden global<br />

gehalten, lediglich die Amplituden werden dynamisch verändert.


5.4 Ergebnisse von LACS 167<br />

an<br />

4<br />

der Produktion eines männlichen Sprechers (k03) aus dem Kiel Corpus<br />

of Read Speech, der die Berliner Sätze produzierte. In der verwendeten<br />

Version der Formantsynthese eignet sich am ehesten eine männliche Stimme.<br />

Weiter berücksichtigt wurde eine Stimmqualität, die keine Besonderheiten<br />

aufwies, z.B. Diplophonie, übermäßige Behauchung, Pharyngalisierung<br />

usw. Diese Eigenschaften stellen unnötige und z.T. unüberwindbare<br />

Probleme für die Analyse und anschließende Überführung dar. Um den<br />

Überführungsprozeß bei anderen Stimmen auszuprobieren, wurden einige<br />

männliche Stimmen einer LACS-Behandlung unterzogen.<br />

Tabelle 5.3 enthält Beispielsätze aller männlichen Stimmen, die die<br />

Berliner und Marburger Sätze aus dem Kiel Corpus of Read Speech gelesen<br />

haben sowie zwei männliche Stimmen aus dem spontansprachlichen<br />

Korpus. Eine Auswahl von sieben Äußerungen des Sprechers k03 illustrieren<br />

die beschriebenen Manipulationen, die bei der Überführung gemacht<br />

werden. Der anschließende Hörvergleich besteht jeweils aus der Originaläußerung<br />

sowie der LACS-behandelten synthetischen Äußerung. Die<br />

Analyse- und Überführungsschritte laufen automatisch ab, und es ist keine<br />

manuelle Korrektur der Steuersignale vorgenommen worden.<br />

Aus den synthetischen Äußerungen sind Probleme in verschiedenen<br />

Bereichen zu erkennen. Den größten Störfaktor bilden die Stellen, an denen<br />

die Formantsortierung fehlerhaft verlaufen ist, so daß synthetische<br />

Formanten an der falschen Stelle zusammenkommen. Das erzeugt ein<br />

Knacken (z.B. Eltern in k09mr005, Eltern in k61mr005) oder in wenig gravierenden<br />

Fällen ein Summen (z.B. Unsere und Walzer in k11mr005). Die<br />

beschriebenen Probleme der Frikative sind am deutlichsten im postalveolaren<br />

Frikativ des Wortes schön im Satz k65be001 zu hören. Der Frikativ<br />

ist qualitativ richtig, aber viel zu stark gegenüber dem Rest der Äußerung.<br />

An den Sätzen von k03 sind sämtliche beschriebenen Manipulationen<br />

illustriert. Die stimmlosen und behauchten Korrelate von finden sich jeweils<br />

im ! %# von heute (k03be001) und im ! "'# von gehören (k03be049).<br />

Die Herstellung einer unregelmäßigen, tieffrequenten Stimmhaftigkeit,<br />

wenn die Grundfrequenzanalyse keine Stimmbandschwingung in einer<br />

als glottalisiert annotierten Strecke gefunden hat, ist am ! 56879# in eine von<br />

k03be053 illustriert. Die Wiederherstellung von Stimmhaftigkeit in anderen<br />

analytisch stimmlosen Vokalen ist in der dritten Silbe von Frühlingswetter<br />

sowie am geschlossenen Vokal von gibt in k03be031 zu finden.<br />

In Konserven von k03be031 wird der alveolare Frikativ durch den F0-<br />

Algorithmus als stimmhaft identifiziert, und es wird daher ! )*# modelliert.


168 Wissensbasierte Gewinnung von Steuerparametern<br />

Tabelle 5.3: Beispiele von LACS-behandelten männlichen Äußerungen<br />

aus den gelesenen und spontansprachlichen Korpora. Das gelesene Material<br />

stammt aus den Berliner (Infix “be”) und Marburger (Infix “mr”)<br />

Satzkorpora. Sieben weitere Äußerungen aus dem Berliner Korpus von<br />

Sprecher k03 illustrieren die verschiedenen Überführungsmanipulationen.<br />

Das spontansprachliche Material besteht aus Turns von zwei Sprechern,<br />

bei denen Analyse und Überführung mit geringen Fehlern gelingt.<br />

Gelesen - Berlin und Marburg<br />

k01be001 Heute ist schönes Frühlingswetter.<br />

k05be001 Heute ist schönes Frühlingswetter.<br />

k61be001 Heute ist schönes Frühlingswetter.<br />

k63be001 Heute ist schönes Frühlingswetter.<br />

k65be001 Heute ist schönes Frühlingswetter.<br />

k07mr005 Unsere Eltern tanzen Wiener Walzer.<br />

k09mr005 Unsere Eltern tanzen Wiener Walzer.<br />

k11mr005 Unsere Eltern tanzen Wiener Walzer.<br />

k61mr005 Unsere Eltern tanzen Wiener Walzer.<br />

k67mr005 Unsere Eltern tanzen Wiener Walzer.<br />

k69mr005 Unsere Eltern tanzen Wiener Walzer.<br />

Gelesen - Sprecher k03, Berlin<br />

k03be001 Heute ist schönes Frühlingswetter.<br />

k03be019 Wer möchte noch Milch?<br />

k03be031 Hier gibt es Konserven.<br />

k03be049 Die Kartoffeln gehören zum Mittagessen.<br />

k03be053 Danach tut eine Wanderung gut.<br />

k03be089 Die Rinder sind noch auf der Weide.<br />

k03be096 Die Fahrt war ja mächtig kurz.<br />

Spontan<br />

g071a000<br />

g111a000<br />

ja , guten Tag . dann fange ich einfach mal an und wollte Sie mal fragen<br />

, wie das aussieht/- : ähm; wir müßten also insgesamt drei: Z;<br />

Arbeitssitzungen festlegen . zwei davon müßten wir zweitägig machen .<br />

: ähm; wann hätten Sie denn dafür mal Zeit ?<br />

A;


5.4 Ergebnisse von LACS 169<br />

><br />

Die Lösungsphasen der stimmlosen Plosive in Konserven (k03be031),<br />

Kartoffeln (k03be049), tut (k03be053) und kurz (k03be096) sind alle Beispiele<br />

für den Versuch, mit den relevanten Syntheseparametern örtliche<br />

Friktion mit nachfolgender Aspiration zu modellieren. Die palatale Friktion<br />

der Wörter möchte und Milch in k03be019 sowie mächtig in k03be096<br />

illustrieren den vollständigen Ersatz von Analysewerten für einen Frikativ<br />

durch Werte, die aus einer früheren Analyse gewonnen wurden.<br />

Dialogbeitrag g071a000 illustriert ein Beispiel, in dem beide Strategien<br />

zur Herstellung von Stimmhaftigkeit interagieren. Abb. 5.6 zeigt (a)<br />

Oszillogramm, (b) Sonagramm und (d) Etikettierung der Wortabfolge mal<br />

an aus der synthetischen Version des Dialogbeitrages g071a000, zusammen<br />

mit einem Sonagramm (c) des natürlichen Äußerungsabschnitts zum<br />

Vergleich. Zwischen der Lösung des initialen Nasals in mal und dem Verschluß<br />

des Nasals in an ist ein durchgehender Vokalabschnitt. Der kanonisch<br />

vorgesehene Lateral von mal ist als getilgt markiert, und der Vokal<br />

von an ist als glottalisiert ($-q) gekennzeichnet. Unter dem Oszillogramm<br />

ist die Strecke von tieffrequenter, unregelmäßiger Stimmhaftigkeit markiert,<br />

die die Grundfrequenzanalyse als stimmlos identifiziert hat. Durch<br />

die LACS-Behandlung wird das Ende des vokalischen Abschnitts aus mal<br />

durch Interpolation stimmhaft gemacht, und die als glottalisiert markierte<br />

Strecke in an mit einem tieffrequenten, unregelmäßigen F0-Verlauf aufgefüllt.<br />

Der Erfolg der Wiederherstellung von Stimmhafthaftigkeit über<br />

eine Strecke von mehr als 100 ms ist im visuellen Vergleich der beiden<br />

Sonagrammen zu sehen und im auditiven Vergleich der natürlichen und<br />

synthetischen Äußerungsabschnitte zu hören.<br />

LACS bietet ein interessantes Versuchsfeld, die Modellierung von verschiedenen<br />

Lauttypen auszuprobieren. Neben den erwünschten und erwarteten<br />

Produkten werden aber auch solche Lauttypen erzeugt, die nicht geplant<br />

waren. Der uvulare Vibrant ist ein solcher Fall. Im gesamten Kiel<br />

Corpus tritt er nur gelegentlich auf. Sprecher k03 produziert vor allem<br />

wortinitial einen uvularen Vibranten. Rinder aus k03be089 in Tabelle 5.3<br />

ist ein solches Beispiel. Die Behandlung durch LACS trägt nichts Gesondertes<br />

zur Herstellung dieses Vibranten bei. Der dennoch überzeugende<br />

Gehörseindruck in der synthetischen Äußerung ist auf zwei kurzfristige,<br />

4 dB große Schwankungen des Parameters AV zurückzuführen. Da die Pe-


170 Wissensbasierte Gewinnung von Steuerparametern<br />

(a)<br />

F0 = 0<br />

(b)<br />

(c)<br />

(d)<br />

Abbildung 5.6: Die Wiederherstellung von Stimmhaftigkeit, illustriert an<br />

der Wortabfolge mal an aus dem Dialogbeitrag g071a000. Das Oszillogramm<br />

(a) und das obere Sonagramm (b) sind aus der LACS-behandelten<br />

synthetischen Äußerung, das untere Sonagramm (c) aus dem gleichen Abschnitt<br />

der natürlichen Äußerung. In (d) ist die Etikettierung. Unterhalb des<br />

Oszillogramms in (a) ist die Strecke markiert, die in der Grundfrequenzanalyse<br />

als stimmlos deklariert wird.


5.5 Lateral F2 171<br />

?<br />

riode der Vibranten-Schwingung in Rinder etwa 50 ($ ms 20 Hz 5 ) lang ist<br />

und die Frequenz der Parametersätze der Analyse- und Synthesedaten bei<br />

200 Hz liegt, werden diese Energieschwankungen mehr als hinreichend<br />

modelliert.<br />

5.5 Lateral F2<br />

Das prävokalische Korrelat von standarddeutschem @ ist ein heller alveolarer<br />

lateraler Approximant. Unter näherer akustischer Betrachtung läßt sich<br />

diese Beschreibung nicht in einen starren Satz von Formantwerten übersetzen,<br />

denn die akustische Ausprägung dieser hellen Resonanz ist relativ zur<br />

vokalischen Umgebung zu sehen. Ein Lateral im Kontext eines hinteren<br />

gerundeten Vokals (z.B. Luft) ist dunkler als ein Lateral vor einem vorderen<br />

ungerundeten Vokal (z.B. liegt). Die vokalische Färbung drückt sich<br />

besonders im zweiten Formanten aus. Für einen hellen männlichen Lateral<br />

wird ein F2 von etwa 1500 Hz erwartet, für den dunklen, velarisierten<br />

Lateral vieler Arten des Englischen ist ein F2 um 1000 Hz (Lehiste 1964;<br />

Sproat und Fujimura 1993) zu finden.<br />

In Abb. 5.7 sind vier LPC-Sonagramme 6 aus den Wörtern (a) links, (b)<br />

länger, (c) lacht und (d) Luft dargestellt. F2-Werte jeweils aus der Mitte<br />

des lateralen Abschnitts sowie aus dem darauffolgenden Vokal sind im<br />

jeweiligen Sonagramm ebenfalls angezeigt. Obwohl es sich in allen vier<br />

Fällen um einen hellen lateralen Approximanten handelt, zeigen die F2-<br />

Werte eine Variationsbreite von 440 Hz zwischen einem hinteren gerundeten<br />

! AB# in Luft und dem vorderen ungerundeten ! 7C# in links.<br />

Nach der Diskussion des vorigen Kapitels wird deutlich, daß solche<br />

Lautmuster auf unterschiedliche Art und Weise zu erklären sind, je nachdem<br />

in welchem phonetischen und phonologischen Rahmen sie untergebracht<br />

werden sollen. Geht man in diesem Fall von einem klassischen<br />

Allophonansatz aus, könnten die akustisch unterschiedlichen Laterale als<br />

unabhängige Allophone aufgenommen werden, so daß ein unterschiedliches<br />

Allophon für den jeweiligen Kontext eingesetzt wird. Eine andere<br />

Möglichkeit ist die Resonanz des Laterals vokalabhängig zu machen, d.h.<br />

5 Dies stimmt mit Werten für Vibranten aus anderen Sprachen überein (Ladefoged und<br />

Maddieson 1996: 218f)<br />

6 Die Verwendung von LPC-Sonagrammen in den Abbildungen 5.7 und 5.9 läßt die Formantverläufe<br />

besser erkennen.


172 Wissensbasierte Gewinnung von Steuerparametern<br />

1780 2030<br />

1530<br />

1875<br />

(a)<br />

(b)<br />

1440 1320<br />

1340<br />

900<br />

(c)<br />

(d)<br />

Abbildung 5.7: LPC-Sonagramme von prävokalischen Lateralen in verschieden<br />

Vokalkontexten. Die Zahlen sind F2-Werte in Hz aus der Mitte<br />

des lateralen Abschnitts sowie aus dem nachfolgenden Vokalabschnitt.<br />

Ausschnitte sind aus den Wörtern (a) links, (b) länger, (c) lacht, (d) Luft.<br />

(Ref.: (a) k03be098, (b) k03be012, (c) k03be002, (d) k03be007)<br />

es gibt keinen Lateral losgelöst von einer vokalischen Umgebung. Stattdessen<br />

ist die Resonanz des Laterals als Funktion seiner inhärenten Resonanz<br />

in Verbindung mit der des Vokals zu betrachten, Koartikulation im engsten<br />

Sinne. Unterstützung für die zweite Lösung ergibt sich aus der Darstellung<br />

in Abb. 5.8, in der die F2-Werte sämtlicher prävokalischer Laterale des


5.5 Lateral F2 173<br />

2000<br />

1750<br />

Lateral-F2 [Hz]<br />

1500<br />

LateralF2 = 0.324 x VokalF2 + 992<br />

1250<br />

1000<br />

750 1000 1250 1500 1750 2000 2250<br />

Vokal-F2 [Hz]<br />

Abbildung 5.8: F2-Werte von prävokalischen Lateralen als Funktion der<br />

F2-Werte der darauffolgenden Vokalabschnitte geplottet. Die Linie ist eine<br />

lineare Regressionslinie, definiert durch die dargestellte Gleichung.<br />

Sprechers k03 als Funktion der F2-Werte der darauffolgenden Vokale geplottet<br />

sind. Es besteht eine starke Korrelation zwischen den Wertepaaren,<br />

die sich durch eine einfache lineare Regressionslinie approximieren läßt.<br />

Die abgebildete Gleichung der Regressionslinie könnte als F2-Korrelat des<br />

Laterals dienen, aber sie ist aus theoretischen Gründen unpassend, weil<br />

der F2-Wert nicht als Maß für die inhärente Resonanz des Laterals dienen<br />

kann. Hierzu ist eine Locusgleichung passender (Klatt 1980; Allen et al.<br />

1987). Diese Gleichung hat folgende allgemeine Form:<br />

$HG G ESR<br />

DFE EJILKKNM/OFEQP<br />

ist der resultierende G E<br />

Formantwert. ist der inhärente<br />

DFE<br />

Formantwert,<br />

der aus dem Mittelwert der empirisch vorgefundenen Formantwerte<br />

gebildet wird. ist der Formantwert des Vokals und der Koartikulationskoeffizient,<br />

d.h. die Steigung der Regressionslinie in Abb. 5.8. Je<br />

größer der Koartikulationskoeffizient ist, desto größer ist die Annäherung<br />

KK OFE


174 Wissensbasierte Gewinnung von Steuerparametern<br />

1720 2170<br />

1350 1120<br />

(a)<br />

(b)<br />

1300 1030<br />

1250 870<br />

(c)<br />

(d)<br />

Abbildung 5.9: LPC-Sonagramme von synthetischen Äußerungen mit<br />

prävokalischen Lateralen in verschieden Vokalkontexten. Die Zahlen sind<br />

F2-Werte in Hz aus der Mitte des lateralen Abschnitts sowie aus dem nachfolgenden<br />

Vokalabschnitt. Synthetische Wörter sind (a) Lied, (b) laut, (c)<br />

Leut’, (d) lud.<br />

des konsonantischen F2 an die vokalische Umgebung. Im Falle der Werte<br />

in Abb. 5.8 läßt sich für prävokalische Laterale folgende Locusgleichung<br />

berechnen:<br />

T D'UWVYXZD[]\_^ $a`cb'd¨e Igfh i'^ b M]jkBKFD[3\_^lP `cb'd¨e R<br />

Diese Gleichung wird üblicherweise eingesetzt, um Formantfrequenzen<br />

in der Übergangsphase von Konsonant zu Vokal kurz nach einer Plosivlösung<br />

zu berechnen. Der konstante Formantwert in der Gleichung ist<br />

der Locus, d.h. der Ursprung oder Anfangspunkt für sämtliche Bewegungen<br />

in verschiedene Vokalqualitäten hinein 7 . Hier wird der Formantwert<br />

als inhärente Resonanz des Laterals betrachtet, der in Kombination mit der<br />

Vokalqualität die tatsächliche vokalische Resonanz des Laterals bestimmt.<br />

7 Klatt (1980) setzt für Allophone eines Konsonanten in verschiedenen Vokalumgebungen<br />

(vorn-hinten, gerundet-ungerundet) verschiedene Locuspunkte an.


5.6 Weiterentwicklungen 175<br />

Die synthetischen Äußerungen in Abb. 5.9 gehen über die Parametergewinnung<br />

hinaus, zeigen den Einsatz in der Regelsynthese. Die Sonagramme<br />

zeigen anlautende Laterale in verschiedenen Vokalumgebungen.<br />

Die akustischen Korrelate des Laterals sind in jedem Fall gleich, d.h. das<br />

F2-Korrelat des Laterals ist unsere Locusgleichung. Die tatsächliche Resonanz<br />

des Laterals tritt in Kombination mit der Resonanz des Vokals zu<br />

Tage.<br />

5.6 Weiterentwicklungen<br />

Dieses Kapitel hat nur einen Einsatz für LACS gezeigt, nämlich die Gewinnung<br />

von Steuerparametern, die als Korrelate von phonologischen Elementen<br />

in einer Regelsynthese dienen können. Eine automatische wissensbasierte<br />

Überführung von Analyseparametern in Syntheseparameter<br />

öffnet eine Reihe weiterer Einsatzmöglichkeiten. Aus dem Vergleich der<br />

natürlichen und synthetischen Äußerungen in Tabelle 5.3 wird deutlich,<br />

daß die individuelle Stimmqualität beibehalten wird. Oft nach der erfolgreichen<br />

Überführung einer Äußerung ist der subjektive Gehörseindruck einer<br />

natürlichen Äußerung aufgekommen. Eine weitere Aufgabe wird es<br />

sein, diese subjektiven Urteile anhand von formalisierten Testverfahren zu<br />

quantifizieren. Auf jeden Fall bieten solche synthetischen Äußerungen ein<br />

ideales Versuchsfeld, um die akustischen Parameter sowie die Beziehungen<br />

zwischen den einzelnen Parametern zu untersuchen, die die individuellen<br />

Stimmeigenschaften im akustischen Sprachsignal zum Ausdruck<br />

bringen. Allgemein bietet LACS eine ausgezeichnete Methode synthetisches<br />

Ausgangsmaterial für experimentelle Stimuli schnell und in großem<br />

Umfang zu erzeugen. Dabei kann schon bei der Überführung von Analysein<br />

Syntheseparameter eine Reihe von gezielten Manipulationen vorgenommen<br />

werden.


176 Wissensbasierte Gewinnung von Steuerparametern


Kapitel 6<br />

Zusammenfassende<br />

Diskussion und Ausblick<br />

Am Anfang dieser Studie (1.1) stand die Frage, ob gesprochene Sprachdatenbanken,<br />

die für andere Zwecke erhoben wurden, sich für Fragestellungen<br />

in der phonetischen Grundlagenforschung eignen. Die Antwort auf<br />

diese Frage war nicht nur, daß man die bekannten Fragen überwinden<br />

könnte, weil es sonst schade wäre, so viele Daten unbeachtet zu lassen,<br />

sondern daß es uns obliegt, die Probleme zu überwinden, weil sie teilweise<br />

dieselben Probleme sind, die die häufigste linguistische Aktivität bereitet,<br />

nämlich die Spontansprache.<br />

Nach der Beschreibung des Inhalts und der Form des Kiel Corpus, wurden<br />

drei Untersuchungen präsentiert, in denen eine Datenbank zur Beantwortung<br />

phonetischer Fragestellungen auf unterschiedliche Weise eingesetzt<br />

wurde. In Kapitel 3 wurden sowohl der Datenumfang als auch die<br />

Form der Datenaufbereitung des Kiel Corpus voll ausgenutzt, um eine<br />

automatische Analyse der deutschen Monophthonge und Diphthonge zu<br />

liefern. Im Gegensatz hierzu stand die Untersuchung des m in Kapitel 4.<br />

Obwohl eine nicht unerhebliche Datenmenge die Grundlage (6 Sprecher,<br />

600 Sätze) für die Untersuchung bildete, war es dennoch nur ein Bruchteil<br />

des verfügbaren Datenumfangs des Kiel Corpus. Außer zwei kleineren automatischen<br />

Vokaluntersuchungen in 4.3.3 wurden die Datenaufbereitung<br />

und KielDat lediglich eingesetzt, um relevante Wörter zu orten und die<br />

177


178 Zusammenfassende Diskussion und Ausblick<br />

zugehörigen Signalstücke zusammenzuschneiden, um die anschließende<br />

“manuelle” Untersuchung mit impressionistischen Methoden zu erleichtern.<br />

In Kapitel 5 wurde schließlich die linguistische und phonetische Information<br />

der symbolischen Datenaufbereitung bis ins Detail ausgenutzt,<br />

um aus den Ergebnissen einer gewöhnlichen akustischen Analyse, Steuerparameter<br />

für eine Formantsynthese zu gewinnen, die als phonetische Korrelate<br />

von phonologischen Objekten einer Regelsynthese dienen können.<br />

In Kapitel 1 wurden die Nachteile beschrieben, die sich sowohl bei der<br />

Verwendung von Datenbankmaterial, als auch in der Analyse von spontansprachlichen<br />

Daten ergeben. Diese Nachteile haben sich weitestgehend<br />

bestätigt. Am häufigsten sind fehlende Vergleichbarkeit und lückenhafte<br />

Abdeckung eines bestimmten Phänomens zu beklagen. In der Suche nach<br />

möglichen Beziehungen zwischen der Vokalqualität und der Artikulationsstelle<br />

von benachbarten Konsonanten in 3.9.3 auf S. 94ff konnten trotz einer<br />

großen Datenmenge und einer gröberen Klassifikation, als Stevens und<br />

House (1963) verwendet haben, bestimmte Lücken nicht aufgefüllt werden.<br />

Aussagen zu den Formantverläufen der drei Diphthonge nBo , nqp , rcs in<br />

3.8.2 auf S. 64ff waren durch fehlende Daten in bestimmten Dauergruppen<br />

nicht möglich. Ein statistischer Vergleich der Dauer der stimmlosen Strekken<br />

in einfachen Frikativ-Anlauten gegenüber Frikativ-m -Verbindungen in<br />

4.4.1 auf S. 133 war wegen mangelnder rhythmischer Vergleichbarkeit unter<br />

den Tokens nicht möglich.<br />

Datenbankmaterial und Spontansprache, auch wenn sie unter Laborbedingungen<br />

und den besonderen Anforderungen der Dialogsteuerung elizitiert<br />

wird, weisen jedoch einige Vorteile gegenüber gezielter Datenerhebung<br />

auf. Durch Vorgaben an die Erhebung des spontansprachlichen Teils<br />

des Kiel Corpus (Pätzold und Simpson 1994) ist die Sprache sämtlicher<br />

Dialogteilnehmer auf ein Terminplanungsspiel gerichtet. Im Vergleich der<br />

Häufigkeitsverteilungen der einzelnen Vokalkategorien (3.7, S. 52ff ) sind<br />

die Ähnlichkeiten zwischen dem untersuchten Teil des gelesenen Korpus<br />

(Berliner und Marburger Sätze), das nach sprachrepräsentativen Gesichtspunkten<br />

konstruiert wurde, und dem spontansprachlichen Korpus groß.<br />

Die Unterschiede waren vor allem in den häufigsten Kategorien wie n¨t zu<br />

finden, konnten auf Eigenschaften der Spontansprache allgemein zurückgeführt<br />

werden, nicht aber auf Besonderheiten der Erhebung selbst. Auch<br />

wenn die Daten nicht dafür gezielt gesammelt wurden, weist die Vokaluntersuchung<br />

gegenüber früheren Studien einige Vorzüge auf:


u<br />

179<br />

Eine große Anzahl an Sprechern aus beiden Geschlechtergruppen<br />

u<br />

(25 weiblich und 29 männlich).<br />

Überwiegend “normale” Sprecher des Deutschen, d.h. nur zwei<br />

Sprecher mit einer phonetischen Ausbildung sind im gelesenen Teil<br />

des gelesenen Korpus vorhanden. Es gibt immer die Gefahr, daß Ansichten<br />

über die Phonetik einer Sprache einen starken Einfluß auf die<br />

Sprachproduktion nehmen könnten.<br />

u<br />

Große, wenn auch unterschiedliche Datenmengen pro Sprecher.<br />

Als einziges Problem ist eine fehlende Vergleichbarkeit der Produktion<br />

von Sprechern im Kiel Corpus of Spontaneous Speech zu nennen. Die kontrollierte<br />

Elizitation des Kiel Corpus of Spontaneous Speech liefert mehrmalige<br />

Äußerungen desselben Wortes (z.B. neunzehnten), aber mehrfache<br />

Äußerungen desselben Satzes, wie im gelesenen Teil des Kiel Corpus, sind<br />

nicht vorhanden.<br />

Der Vorteil der gezielten Datenerhebung ist offensichtlich: in der Erforschung<br />

eines bestimmten Phänomens können gerade die Daten in ausreichendem<br />

Umfang erhoben werden, die für die Erarbeitung der Fragestellung<br />

notwendig sind. Jedoch verbirgt sich gerade in dieser Vorgehensweise<br />

eine gewisse analytische Arroganz, denn man kann eigentlich nie<br />

wissen, welche Daten die Erforschung eines Phänomens erfordert. Bei<br />

einer Datenbank bleibt dieses Problem erhalten, aber die Datenwillkür<br />

kommt ihm ein wenig entgegen, indem relevante Tokens eines Phänomens<br />

vorhanden sind, die man in der gezielten Erhebung womöglich nicht<br />

berücksichtigt hätte, dafür aber neue unerwartete Muster zu Tage treiben.<br />

Die Datenwillkür füllt somit Lücken auf, von denen man in der gezielten<br />

Erhebung erst gar nichts wissen konnte. Die unterschiedlichen Vokalqualitäten<br />

der zwei fährt-Tokens pro Sprecher auf S. 130 (siehe auch<br />

Abb. 4.1, S. 116) sind ein Beispiel. Die Vokale wiesen für fünf der sechs<br />

untersuchten Sprecher systematische Unterschiede auf. Eine Alternation<br />

dieser Form war unerwartet und wurde in der hiesigen Analyse lediglich<br />

beschrieben, wenn auch nicht erklärt. Dennoch ist die Alternation gerade<br />

durch die Datenwillkür aufgefallen, und mögliche Erklärungen für die<br />

Unterschiede können die Grundlage bilden für eine Suche nach weiteren<br />

ähnlichen Fällen oder gar für eine gezielte Erhebung, die solchen Alternationen<br />

nachgeht. Wichtig ist jedoch, daß eine gezielte Untersuchung von


w<br />

180 Zusammenfassende Diskussion und Ausblick<br />

-V v okalen diese Alternation nicht hätte berücksichtigen können und genauso<br />

zufällig daraufgekommen wäre.<br />

m<br />

Die wichtigste Eigenschaft des Kiel Corpus ist die zeitliche Verknüpfung<br />

von abstrakter phonetischer und linguistischer Information mit<br />

dem Sprachsignal. Dies erlaubt die Analyse und Manipulation von Sprachsignalen,<br />

kontrolliert durch metasprachliche Information. Jedoch ist die<br />

Annotation in bestimmten linguistischen und extralinguistischen Bereichen<br />

für viele phonetische Fragestellungen noch unzureichend. In den<br />

letzten drei Jahren ist die Annotation von Intonation, Satzakzentuierung<br />

und Tempo im Kiel Corpus begonnen worden (Kohler 1995b). Information<br />

zu syntaktischen, morphologischen und semantischen Aspekten sowie<br />

zur Gesprächstruktur im spontansprachlichen Korpus, wie sie beispielsweise<br />

im Map Task Corpus (Anderson et al. 1991) annotiert wurde, ist<br />

jedoch nur in rudimentärster Form vorhanden. Untersuchungen beispielsweise<br />

zur phonetischen Ausprägung der Mechanismen, die Teilnehmer eines<br />

Gespräches einsetzen (Local, Wells und Sebba 1986; Local und Kelly<br />

1986; Local, Kelly und Wells 1986), um bestimmte interaktive Funktionen<br />

zu erfüllen, brauchen solche Information.<br />

Neben weiteren Annotationen auf anderen linguistischen Ebenen ist<br />

auch an Erweiterungen des Kiel Corpus selbst zu denken. Jedoch sollten<br />

diese Erweiterungen ergänzend sein. Die Vokaluntersuchung hat systematische<br />

Unterschiede zwischen der Lese- und Spontansprache des Kiel<br />

Corpus aufgezeigt, aber vor allem die geforderte Dialogsteuerung hat eine<br />

normale Gesprächsführung fast unmöglich gemacht. Dialogaufnahmen im<br />

Terminplanungsszenario ohne diese unnatürlichen Auflagen sind im Vorfeld<br />

zu den Verbmobil-Aufnahmen gemacht worden und werden zur Zeit<br />

in gewohnter Weise für das Kiel Corpus aufbereitet. An die Erhebung von<br />

weiteren Lesedaten ist auch zu denken. Es sind lediglich zwei Sprecherinnen,<br />

die sowohl im gelesenen als auch im spontansprachlichen Korpus<br />

auftreten. Hätte man gelesene Daten von mehr Sprechern aus dem spontansprachlichen<br />

Korpus, könnte der Interkorpusvergleich von Kapitel 3 auf<br />

die Unterschiede zwischen den Korpora auf Sprecherebene eingehen.<br />

Die einzelnen Untersuchungen haben Fragen aufgeworfen, die teils experimentell,<br />

teils durch das Heranziehen von anderem Datenbankmaterial<br />

zu beantworten sein werden. Artikulatorische Daten, wie sie für das Englische<br />

mit dem Röntgen-microbeam-Verfahren (Westbury 1994; URL 6)<br />

gesammelt wurden, können Fragen zu möglichen Unterschieden in der<br />

artikulatorischen Geschwindigkeit von Frauen und Männern klären. Die


x<br />

Frage,<br />

181<br />

ob Frauen das gleiche auditive Ziel schneller erreichen können,<br />

kann jedoch an Daten aus dem Kiel Corpus weiter verfolgt werden. Ebenfalls<br />

in Kapitel 3 hat die Diskussion über die wichtigsten Elemente von<br />

Diphthongverläufen Hörexperimente gefordert, die die Schwächen von<br />

Bladons (1985) Experimenten berücksichtigen sollte. Am meisten müßte<br />

ein solches Experiment die enge Beziehung eines Diphthongs mit seiner<br />

Dauer berücksichtigen, eine Beziehung, die in Bladons Experimenten vernachlässigt<br />

wird.<br />

Kapitel 4 hat nur einen der deutschen Liquiden analysiert. Die phonologische<br />

Gruppierung der m mit @ basiert hauptsächlich auf ihrer phonologischen<br />

Verteilung im Deutschen, denn gerade im Standarddeutschen<br />

scheinen die konsonantischen Korrelate des m und die des @ wenig gemeinsam<br />

zu haben. Spektrale Untersuchungen der kontextuellen Unterschiede<br />

in den Korrelaten an unterschiedlichen Stellen in Wort- und Silbenstruktur<br />

weisen jedoch große Ähnlichkeiten im phonetischen Verhalten auf. Die<br />

Phonetik des silbenauslautenden @ hat, wie silbenauslautenden m , vokalähnliche<br />

Struktur (Kohler, Pätzold und Simpson 1995: 47–48). Eine systematische<br />

Untersuchung der Ähnlichkeiten und Unterschiede im phonetischen<br />

Verhalten des @ am Kiel Corpus ist geplant.<br />

Weitere Einsätze für die Ergebnisse von LACS wurden in 5.6 angedeutet.<br />

Die Verwendung einer frühen Version der Klatt-Formantsynthese lag<br />

an ihrer freien Verfügbarkeit. Diese Implementierung hat jedoch bekannte<br />

Probleme, die sie u.a. für die Synthese von weiblichen Stimmen nicht<br />

eignen. Weiterentwicklungen (Klatt und Klatt 1990; Stevens und Bickley<br />

1991) bieten interessante Einsatzmöglichkeiten für LACS in Verbindung<br />

mit dem Kiel Corpus. Vor allem die high-level synthesis von Stevens und<br />

Bickley (1991) ist ein höchst interessantes Erprobungsfeld. Als pseudoartikulatorische<br />

Synthese (Bickley, Stevens und Williams 1997) stehen die<br />

Eingabeparameter von HLsyn in einer sehr indirekten Beziehung zu den<br />

Ergebnissen einer akustischen Analyse. In einer LACS-Implementierung,<br />

die die Steuerparameter für HLsyn erzeugte, würde die Analyse einer<br />

Äußerung eher eine unterstützende Rolle spielen und nur in Einzelfällen<br />

direkt einsetzbare Daten liefern können, z.B. F0. Umso wichtiger wird<br />

dafür die Rolle einer annotierten Datenbank wie das Kiel Corpus in ihrer<br />

Verknüpfung mit phonetischem und linguistischem Wissen.


182 Zusammenfassende Diskussion und Ausblick


š<br />

±<br />

š<br />

<br />

š<br />

ˆ<br />

Anhang A<br />

Texte zum untersuchten<br />

Teil des Kiel Corpus<br />

In A.1 und A.2 sind die 100 Berliner und 100 Marburger Sätze aus dem<br />

Kiel Corpus of Read Speech, die jeweils von 12 Sprechern (6 weiblich,<br />

6 männlich) produziert wurden. Neben der orthographischen Represäntation<br />

der Sätze steht die kanonische IPA-Transkription der Sätze, die in<br />

SAMPA-Format, die Grundlage für die Segmentation und Etikettierung<br />

der Sätze bildete. In A.3 steht die Transliteration eines Beispieldialogs aus<br />

dem Kiel Corpus of Spontaneous Speech.<br />

A.1 Berliner Sätze<br />

1. Heute ist schönes Frühlingswetter.<br />

2. Die Sonne cš<br />

lacht.<br />

y'z{}|Z~3l€‚„ƒ/~†…‚z‡8ˆ ‰Y‚ƒ‹Š9Œ‚zYˆ Ž ‘ƒ]’q“”•~—–¦˜<br />

3. Am blauen Himmel ziehen die<br />

Wolken.<br />

4. Über die Felder weht ein Wind.<br />

5. Gestern stürmte es ±<br />

noch.<br />

zž2Ÿ ~¡˜ ˆ›8z{}‰YœŽ<br />

¢¨}Ž©~ªƒWz ˆ ‚‰<br />

€•ž2¢¤£‘Ž¥zžY¦*‚‰§yqz<br />

’Bz{—Ž «c•‰¬˜<br />

š<br />

€‚Yˆ £Y–<br />

cš<br />

6. Montag war es uns zu regnerisch.<br />

ˆFŠ/z”WŽ<br />

–­’Bz®•ˆ ~¨€•ž2 ‰¯’Bz ‰ ~°˜<br />

z”•ƒ/~ª–•‰_…3~‚z|²–2¢³~]€2”‚ƒ´‰Z{}Ÿ¦˜<br />

7. Riecht ihr nicht die frische Luft?<br />

¢­zµ8ˆ ‰ ~ªž‘ˆ «’2ž ˆ –·€2”‚ƒ¸€c¦2‰Yƒ¹~]ƒ/ºBˆ<br />

Œ‚z®2ˆ<br />

‰Y–8Œ] …°˜<br />

ˆ »}~¨€ ˆ –l‰Y »W~ Œ‚z<br />

ˆ'Š Œ•z …3¼Ž z¦•Š ~¼½<br />

š<br />

183


±<br />

<br />

±<br />

±<br />

±<br />

<br />

š<br />

z<br />

š<br />

±<br />

±<br />

<br />

<br />

š<br />

z<br />

š<br />

<br />

<br />

<br />

±<br />

š<br />

<br />

š<br />

±<br />

<br />

<br />

±<br />

ˆ<br />

<br />

š<br />

±<br />

±<br />

<br />

±<br />

<br />

<br />

ˆ<br />

184 A Texte zum untersuchten Teil des Kiel Corpus<br />

8. Die Nacht haben Maiers gut geschlafen.<br />

9. Jetzt sitzen sie beim Á<br />

Frühstück.<br />

ˆQ‰'zž2Ÿ ~¾yZž8ˆ £YW‰¿¢lzž2„–*ƒ<br />

zºBˆ ~<br />

cš<br />

<br />

10. Es ist acht Uhr morgens.<br />

11. Vater hat den Tisch gedeckt.<br />

12. Mutter konnte länger schlafen.<br />

13. Der Kaffee dampft in den Tassen.<br />

~Å€ zºBˆ –­¢lz{W– ‚‰Bƒ¡˜<br />

€2”•ƒÄ€‚„ƒ/~œ€czž2Ÿ<br />

~ª–°yZž2~ ®•ˆ ‰~•z … z”}«Y~°˜<br />

Š3zž8ˆ<br />

]…ÀŽ zžcˆ Š9•‰¬˜<br />

z”W~ªƒ/~›8z ~]ƒ3W‰Ã›<br />

ˆ£Yž2 ¢¸Š Œ•zYˆ…/~•“|²«©˜<br />

¢­z¦2~]–°«‘{}‰ ~]¼Ž¥z”‚c–¼…ÀŽ zž ˆ Š9‚‰Æ˜<br />

±<br />

14. Messer und Gabel liegen neben<br />

dem Teller.<br />

15. In der Mitte steht der Brötchenkorb.<br />

16. Wer möchte keinen Kuchen?<br />

17. Hans ißt so gerne Wurst.<br />

18. Gib mir bitte die Butter!<br />

¢­z”•ƒ3–°€c¦•‰c~<br />

¢¹~•z”}Ž„–_˜ ®•ˆ<br />

ˆ £YWŽŽ z<br />

š<br />

ˆ<br />

±<br />

‚‰‰Z®•ˆ £YW‰ zž<br />

‰ ®•ˆ –Ê¢­z ~]Ë…/~•z®•ˆ ~<br />

€‚<br />

ˆ ~]»W‚‰Y«'“{W–8ÈƘ £YŒ‚z‡<br />

’8®•ˆ –°¢¨ÌÄ»}~]œ«qzž• ‰Z‚‰¦«¨zºBˆ Ÿ ‚‰Í½<br />

®•ˆ –<br />

®•ˆ –Ç«¨zž2Š9®2ˆ<br />

zž•¢¨ÈYŠ9~É€‚ ‰<br />

®2ˆ ‰<br />

~•zž*ƒ/W‰¬˜<br />

y'zž2‰Yƒ¨€ z„ƒ3~³›Wµ ˆ<br />

19. Wer möchte noch Milch?<br />

20. Bald ist der Hunger gestillt.<br />

21. Günther muß noch einkaufen gehen.<br />

22. Achte auf die Autos!<br />

23. Überquere die Straße vorsichtig!<br />

š ’8®•ˆ –°¢¨ÌÄ»}~]¨‰Z{}Ÿ­¢lz Ž„»l½ <br />

~¼€W„ƒ3~ ®•ˆ –lyqz¦2c– ]…3~‚z Ž ~l˜<br />

£'zž•Ž<br />

‰‘«'“ž²¦*Š9•‰<br />

z|Y‰c~]–Ï¢l¦*ƒÐ‰Z{}ŸÑ€czž2<br />

W‰©˜ z®•ˆ<br />

€czž2Ÿ ~]­€•ž‘¦2Š<br />

ˆ€czžY¦2~]µ‘ˆ ƒlÎ<br />

cš<br />

z”•–2‰‘¡’¨z¦2–*ƒ/~­˜<br />

ˆ È¢<br />

ˆ –l£'z ~]<br />

ˆ£'z¦2~]–¯Î<br />

24. Sonst wirst du leicht überfahren.<br />

€‚Yˆ £Z–•«Y’qz®2ˆ Œ]<br />

š<br />

…/~]Œ‚zž ˆ ƒ/<br />

Š3zµ8ˆ –*›} »}~ª »_Î<br />

Á<br />

25. Radfahrer sausen vorbei.<br />

26. Im Geschäft stehen viele Leute.<br />

27. Gleich hier sind die Nahrungsmittel.<br />

28. Muß der Zucker nicht dort<br />

drüben stehen?<br />

29. Jetzt suche ich das Weißbrot.<br />

ˆ ~]Š/“žcˆ Œª–Ò› zž‘¦*›}W‰JŠ9µ ˆ –2£qzž*˜<br />

Œ•zž<br />

¢ ]…‚z”‚Š ~´…3~‚z®•ˆ W‰¦Š/z ˆ Ž ÅŽ z{}|Z~3¯˜<br />

€‚<br />

» y'z ˆ – ›} ‰ ~<br />

Ž¥zž2<br />

ˆ Œ‚¦2‘ƒ]¢Ò“ ~]‚ŽÂ˜ ‰'zž<br />

¢­¦*ƒ<br />

®•ˆ –¤~]ƒWz¦•«‘–Ó‰Y„»}~<br />

cš<br />

z{‚–•~<br />

› z{}‰Yƒ3~ ’c –*ƒ3~<br />

ºBˆ<br />

Ž¥zž2„»}~<br />

€‚Yˆ £Z–2Š3zžcˆ Œ]•‰Æ˜<br />

30. Ob ich Süßigkeiten kaufen darf?<br />

Œ‚zZˆ £Y‚‰_…3~‚z®•ˆ W‰Q½<br />

z”W~ªƒ/~›8zºBˆ Ÿc­€‚ »<br />

ž2ƒÄ’¨zž•„ƒ3£²Œ‚“µcˆ ~l˜<br />

31. Hier gibt es Konserven.<br />

32. Öl fehlte wohl auch.<br />

33. Zum Schluß an die Kasse.<br />

34. Nun schnell nach Hause.<br />

35. Vater will sich eine Pfeife<br />

anzünden.<br />

ƒ3 »}«8ž*9~]•‰Ó«¨zžY¦•Š •‰<br />

€•{}ÈÓ€W„»Ô›8zYˆ<br />

ž*–2ŠN½<br />

<br />

ˆ – ˆ È‘~¡€2”‚ƒ†«‘{}‰Z›8z”•–*’‘•‰¬˜<br />

y'z<br />

ˆ ŽÕŠ/z®2ˆŽ ~3l’8µ8ˆ ŽN€‚žY¦2ŸÃ˜<br />

€cz‡<br />

z¦*ƒ¨€•ž2‰<br />

š<br />

ˆq«¨zž*ƒ3_˜<br />

~ªƒW¦2¢L…ÀŽ<br />

‰l…3‰qz”WŽÕ‰Zž ˆ ŸÒyqzžY¦*›}_˜<br />

‰cº²ˆ<br />

Š3zž8ˆ ~ª–Ö’ Ž¤›}„»×€•ž2 ‰‘ØÈ‘Š/zž2 Š <br />

•‰¬˜<br />

€czž2‰ ~ªƒW“|B‰


š<br />

z<br />

Î<br />

š<br />

ˆ<br />

±<br />

›<br />

š<br />

’<br />

±<br />

<br />

’<br />

±<br />

Î<br />

š<br />

š<br />

<br />

š<br />

±<br />

<br />

<br />

š<br />

±<br />

š<br />

z<br />

š<br />

<br />

<br />

±<br />

<br />

±<br />

<br />

<br />

<br />

š<br />

±<br />

<br />

±<br />

<br />

š<br />

<br />

A.1 Berliner Sätze 185<br />

36. Seine Frau macht ein trauriges<br />

Gesicht.<br />

37. Du solltest weniger <br />

rauchen.<br />

‰‘¨Š Œ•zž‘¦Å¢­zž2Ÿ ~‹€‚ž2 ‰_~]Œ‚zžY¦•Œ] ±<br />

2ƒ<br />

›Wž2<br />

‚› z »W~°˜<br />

±<br />

38. Die Ärzte sind damit gar nicht<br />

einverstanden.<br />

39. Gib mir bitte mal die ±<br />

Zeitung!<br />

ˆB€cz”•–2~]ƒ/~]³›} ‰ ~<br />

ž•¢­z„~<br />

zž ˆ –œ‰‘„»}~<br />

º²ˆ›‚{—Ž ~]‚ƒ/~œ’Bz®•ˆ ‰Y ±<br />

–Œ‚zžY¦2Ÿ ‚‰Æ˜<br />

cš<br />

€czž2 ‰YŠC–•…/~2“ž*‰<br />

‚‰Æ˜<br />

<br />

40. Aber Schönes steht wohl nicht<br />

drin.<br />

41. Wer muß noch Schularbeiten<br />

machen?<br />

42. Ich müßte lesen und rechnen.<br />

43. Sieglinde zeichnet eine Figur.<br />

44. Was macht denn dein verstauchter<br />

Fuß?<br />

45. Ich spüre ihn nicht mehr.<br />

46. Wir wollen heute spazieren gehen.<br />

47. Da möchte ich gerne mit.<br />

ˆ £Z–…‚z‡ ˆ ‰‘‚ƒÙ…/~•z®•ˆ ~Ù’8µ ˆ Ž¹‰‘„»}~<br />

€•ž<br />

Œ‚z ‰Í˜<br />

<br />

–Ú¢­¦2ƒÉ‰Z{}Ÿ¿…‚zºBˆŽ9€‘“ž8–8£²ž8„~ª‚‰<br />

’8®•ˆ<br />

¢­zž•ŸcW‰Í½<br />

z®•ˆ ›}W‰Í€c¦2‰ ~‹Œ‚z”•»}‰YW‰¬˜<br />

€‚„»³¢¨|²ƒ/~3¼Ž<br />

œ~]ƒ‚zž•„»}‰²•~Ä€•ž2 ‰‘œŠ zº²ˆ –_˜<br />

Ž¥z„‰<br />

~ ’•ž*ƒÃ¢­zž2Ÿ<br />

ƒ³½ Š/zºBˆ<br />

”‚‰<br />

ž2 ‰¾Š9–}…/~•zž‘¦*Ÿ‘~ª–<br />

Œ]­€ ˆ ‰¯‰‘„»}~¢­z®•ˆ –˜<br />

€‚„»´…3ÈqzZˆ<br />

–Ó’c{—Ž W‰Ëy'z{}|Z~3Û…/ÈZž2~]ƒ‚z ˆ Œª‚‰<br />

ˆ<br />

ˆ ȯ¢<br />

ˆ –l£qz ~]¡¢lzž ˆ Ž<br />

cš<br />

ˆ~]ƒ‚zž2 ~•¦8<br />

48. Zuvor müssen wir uns stärken.<br />

z®•ˆ W‰¬˜<br />

ž8ˆ¢¨ÌÄ»}~]¡€‚„»<br />

z”‚–2‰Y°¢­z ~Ř<br />

49. Die Kartoffeln gehören zum Mittagessen.<br />

50. Zum Schnitzel gibt es Erbsen.<br />

51. Dazu essen wir den <br />

Salat.<br />

ˆÜ«2ž*–2~‚z{}ŠCWŽ ‰<br />

¢­z ~ªž ˆ«B€Y“”•ƒ3•‰Æ˜ cš<br />

Wy'z‡ ˆ Œ3•‰~]ƒW¦2¢<br />

~]ƒ‚¦•Š3zµ8ˆ – ¢¨|Zƒ3W‰ ’<br />

ˆ –<br />

€c¦•‰Zƒ<br />

…3~‚z”•–‚«‘W‰Æ˜<br />

~]ƒ‚¦•¢Ý…3‰qz ~ªƒ/WŽ<br />

gut. <br />

52. Wer trinkt einen Kaffee?<br />

53. Danach tut eine Wanderung<br />

ˆ È‘~´€2”•ƒÞ€cz”•–•ÈZƒ]‚‰¦˜<br />

ž•~ªƒWzºBŜ€cz”‚ƒ3W‰¯’<br />

ˆ –<br />

®•ˆ ‰›‚ž‚Ž zž ˆ ~°˜<br />

’8®•ˆ –¡~]Œ‚z 8«‘~Å€•ž• ‰Y‚‰¦«¨zž2Š9®•ˆß½<br />

54. Können wir nicht Tante Erna besuchen?<br />

55. Zieht vielleicht die festen Schuhe<br />

an!<br />

56. Zurück geht’s mit der Bahn.<br />

57. Durch Wald und Feld führt unser<br />

Weg.<br />

58. Wir hören den plätschernden<br />

Bach.<br />

59. Hasen verschwinden im<br />

Dickicht.<br />

š<br />

ˆ –㉑„»}~Ã~•zž2‰ ~3ã€cz”•–2‰Yž‘ˆ<br />

«‘Ì´‰YW‰â’<br />

Ÿ‘‚‰Í½ £Y‚›8zºBˆ<br />

ˆ ~‹Š9 Ž zž2 »W~ ~]ƒ‚z<br />

š<br />

ˆ'Š/z”•ƒ/~]W‰…‚zºBˆ °€czž2‰<br />

<br />

z®•ˆ ~ªƒÂ¢œ ~ ®•ˆ –°£'zž ˆ ‰©˜<br />

~]ƒ‚¦•Œ•z|Y«<br />

~³€ ¦2‰ ~´Š/z”WŽ ~äŠ/zYˆ –2~€c¦2‰Y›W–<br />

¦2–*»Â’Bzž•Ž<br />

«Q˜ ’Bz®•ˆ<br />

–åyqz‡ ˆ Œ3‚‰ ˆ<br />

£'zž•ŸJ˜<br />

›}‚‰¦ŠC–—…3’Bz ‰ y'zž8ˆ<br />

®•ˆ ‰ÑÈ‘Ž z”W~ …3–*‰<br />

‚‰©€‚ ¢<br />

‚‰<br />

z «c »‚~°˜<br />

ž•‰'zž ˆ Ÿà~‚zºBˆ ~ပž• ‰YÐ’Bzž2‰<br />

–8Œ•¦8<br />

zºBˆ ~Ř


š<br />

’<br />

½<br />

<br />

š<br />

’<br />

ˆ<br />

±<br />

<br />

±<br />

±<br />

š<br />

±<br />

<br />

±<br />

±<br />

<br />

<br />

±<br />

Á<br />

<br />

<br />

<br />

š<br />

±<br />

±<br />

<br />

<br />

š<br />

š<br />

š<br />

<br />

<br />

±<br />

±<br />

±<br />

š<br />

š<br />

š<br />

±<br />

<br />

186 A Texte zum untersuchten Teil des Kiel Corpus<br />

60. Voller Glück sind wir am Ziel.<br />

61. Die Tante bewohnt ein nettes<br />

Häuschen.<br />

62. Dahinter liegt der <br />

Rosengarten.<br />

– Ž z|‘«J›} ‰ ~Â’ ˆ –€•ž2¢¹~]ƒ‚z ˆ ŽÄ˜<br />

Š3z{—Ž<br />

ˆ­~‚zž2‰ ~]g£‘‚’Bzµ ˆ ‰‘~=€‚ž2 ‰æ‰qz”‚~3‚ƒ<br />

cš<br />

y'z{}|²ƒ3»W‚‰Æ˜<br />

63. Manche Obstbäume blühen<br />

prächtig.<br />

64. Am Zaun steht eine Regentonne.<br />

zµ ˆ ÈZƒ3~]£F“{W|B¢¼è£‘Ž¥zZˆ •‰<br />

¢­zž2‰Y»Wç€<br />

»_˜ ÈYŒ‚z”•»}~]<br />

ž2yqz ‰Y~]–<br />

z<br />

š<br />

ˆ «c~ Ž<br />

®•ˆ –<br />

Œ•zµ ˆ ›WW‰<br />

“ž –*~ª‚‰Æ˜<br />

65. Der gelbe Küchenofen sorgt für<br />

Wärme.<br />

66. Im Topf kocht das Wasser.<br />

67. Ein Sofa steht an der Wand.<br />

68. Aus dem Radio klingt Musik.<br />

– z”}Ž £‘Í«¨z|²»}W‰¨€Y“µ‘ˆ Š9•‰=›8z{W–•«c~<br />

®•ˆ<br />

–¡’Bz”•–2¢œ_˜ Š9Yˆ<br />

¢¾~‚z{WÈ‘ŠÞ«¨z{}Ÿc~ ž*ƒ´’Bzž*ƒ3–¦˜<br />

€‚<br />

‰­› zµ8ˆ Š9ž Ŷ…3~‚z®•ˆ ~´€•ž2‰ ®•ˆ –³’¨zž•‰c~‹˜<br />

€•ž2<br />

€•ž2¢ ~ªƒWzžY¦•‰ …3~‚z®•ˆ ~ €•ž2 ‰‘<br />

Œ•z®•ˆ<br />

W‰‘~‚“{‚‰Y¯˜<br />

cš<br />

69. Frische Gardinen hängen am<br />

Fenster.<br />

70. Auf dem Brett leuchten bunte<br />

Tulpen.<br />

71. Rückt die Stühle an den Tisch!<br />

72. Wie wär’s mit ’nem kleinen<br />

Skat?<br />

73. Die drei Männer sind begeistert.<br />

…/ ž*– Š9Œ‚z<br />

Š3z”W‰Zƒ/~ª–¯˜<br />

š<br />

ˆ ‰²•‰éy'z”W ‚‰ê€•ž•¢ z<br />

®•ˆ ¢É£YŒ‚z”‚~¡Ž z{}|²»}~]•‰Ý£'z¦2‰ ~3<br />

€•žY¦2Š<br />

ÈY‚‰Æ˜ ~•z¦‚Ž<br />

cš<br />

ˆ²…3~‚zZˆŽ €•ž2‰ ®•ˆ ‰_~‚z …¨Î<br />

Œ•z|Y«c~<br />

–2ƒ´¢¨ ~ä‰YW¢â« Ž¥zž2„‰²•‰¯ƒÀ«qzž8ˆ ~<br />

ˆ¨’‘”*ˆ<br />

€•žY¦*ƒ<br />

®•ˆ ¢<br />

Œ‚zž ˆ<br />

•Á<br />

µcˆ « Ž z c~<br />

¢³º²ˆ ›8z<br />

ˆ «©˜<br />

74. Vater mischt gleich die Karten.<br />

75. Er gewinnt sechs Spiele nacheinander.<br />

76. Ist es nicht Zeit zum Aufbruch?<br />

~ª–°¢­z …/~ Ž zž2 »<br />

cš<br />

ˆ«¨zž*–•~]‚‰Æ˜<br />

Š3zž8ˆ<br />

– W’Bz„‰‘~É›8z”W«‘ƒ¹…3Èqz ˆ Ž„‰Zž2ë<br />

€•®•ˆ<br />

Ÿ‘ž• ‰'zž8‰<br />

–J˜<br />

Œ•zž2Þ¢­z”‚‰Y–­›} ‰ ~Ä£‘<br />

zž* ƒ3~—–*~­˜<br />

77. Der Bahnhof liegt sieben Minuten<br />

entfernt.<br />

78. Löst doch die Fahrkarten am<br />

Schalter!<br />

79. Wir gehen auf den Bahnsteig.<br />

80. Da läuft der Zug <br />

ein.<br />

–Ë£'zž ˆ ‰‘y“µ‘ˆ ŠîŽ¥z ˆ «c~ç›8z ˆ £‘•‰<br />

®•ˆ<br />

‰qzºBˆ ~3•‰Í€•”‚‰ ~]Š/z”‚– ‰c~­˜<br />

¢¨<br />

z‡ ˆ ƒ/~ {}Ÿ Ž<br />

~ª–¦Î …‚zž•Ž<br />

ˆlŠ/zž ˆ –•«¨“ž –*~ª‚‰a€•ž•¢<br />

cš<br />

€‚„ƒ/~Ê€2”‚ƒË‰‘„»}~ì~]ƒ‚zž• ~í~]ƒ‚¦•¢<br />

€czžY¦2Š £ZŒ‚“ ¦8ŸÃ½<br />

ˆ –<br />

z®•ˆ W‰¯€•žY¦•Š<br />

81. Die Bremsen quietschen<br />

gräßlich.<br />

82. Die Station wird cš<br />

angesagt.<br />

ˆ ~À…3•‰ ˆ'£‘Œ•z”W¢¼›}W‰¦«c’¨z<br />

Œ‚z”•ƒÀŽ 9»Ò˜<br />

®•ˆ ‰­£qzž ˆ ‰8…3~•“ž*„«J˜<br />

ž ˆqŽ z{}|ZŠ ~<br />

®•ˆ –¡~ªƒWzºBˆ«Ã€ zž2 ‰¬˜<br />

cš<br />

cš<br />

84. Nun sind wir gleich im Wagen.<br />

83. Die Eiligen steigen schnell aus.<br />

ˆ²…/~ªž2~]ƒ<br />

zµcˆ ‰¦’c –2~¨€czž2‰<br />

•› “ž‘ˆ «Y~l˜<br />

ˆ'€czž2 Ž„ ±<br />

•‰…3~‚zž2 ±<br />

‚‰Ò…3‰qz”WŽÕ€ zžY¦*ƒ¼˜<br />

‰cº²ˆ ‰¡›} ‰ ~Þ’<br />

ˆ –<br />

zž• »³€‚ ¢=’Bzž ˆ ‚‰¯˜ Ž


92. Daneben grünt schon Wintersaat. <br />

z<br />

±<br />

’<br />

<br />

<br />

<br />

<br />

š<br />

<br />

Á<br />

±<br />

<br />

Á<br />

<br />

<br />

±<br />

±<br />

Á<br />

<br />

š<br />

±<br />

±<br />

š<br />

š<br />

<br />

±<br />

š<br />

±<br />

<br />

<br />

<br />

A.2 Marburger Sätze 187<br />

85. Wir haben ein Abteil extra für<br />

uns.<br />

86. Der junge Zugbegleiter pfeift zur<br />

Abfahrt.<br />

87. Leise rollen wir aus dem Bahnhof.<br />

88. Draußen fliegt die Landschaft<br />

vorbei.<br />

89. Die Rinder sind noch auf der<br />

Weide.<br />

90. Ein Bauer arbeitet auf seinem<br />

Acker.<br />

91. Der Pflug zieht tiefe <br />

Furchen.<br />

ˆ – yZž ˆ £YW‰ €‚ž2 ‰ €•ž2È‘~•zž*„Ž<br />

€cz”W«‘ƒ/~]Œ]ž‘ˆŠ Zˆ –€c¦•‰ZƒÅ˜ š<br />

– z¦2 ¦~]ƒ‚zº²ˆ «c£Z ®•ˆ<br />

–8~°˜ ~ªƒW¦*–­€czž2È‘Š3“žcˆ<br />

zž2„›}ÏŒ•z{—Ž W‰Ó’ Ž<br />

ˆ ‰‘y“µ‘ˆ Šœ˜ £'zž<br />

z Œ‚zžY¦*ƒ3•‰ïŠ„Ž<br />

–2£'zž*˜ ŠCµ8ˆ<br />

ˆ¦Œ‚z ‰<br />

’¨zž• cš _˜ <br />

š<br />

ˆ «‘~<br />

Ž/“ž* ~ª–ÍÈYŠ/zž2 Š9~<br />

š<br />

ˆ –žY¦2ƒ<br />

®2ˆ ¢<br />

cš<br />

ˆåŽ zž•‰c~¥…ªž*Š9~<br />

–a›} ‰ ~܉Z{}ŸÐ€‚žY¦2Š<br />

®•ˆ –<br />

‰ £'zžY¦2– €czž*–•£Zž8„~ª‚~ð€‚žY¦2Š<br />

€•ž2<br />

‰YW¢§€czž‚«Y–¯˜ ›‚ž•<br />

ˆ Š ¡Š3z¦2–*»}W‰Æ˜<br />

®•ˆ –¡ÈYŠ„Ž zº²ˆ «¦~]ƒ‚z<br />

ˆ ~‹~•z<br />

Œ‚zZˆ ‰‘~ …]µ ˆ ‰<br />

93. Hier richten Zimmerleute ein<br />

Dach.<br />

94. Es gehört zu einer Feldscheune.<br />

ˆ –Œ‚z„»}~]W‰ñ~ªƒWz ¢¼–2Ž “{W|²~ª¿€•ž• ‰<br />

y'z<br />

zž2ŸÃ˜<br />

ž2‰qz®2ˆ £Y2‰<br />

’¨z ‰c~]–8› “žcˆ ~°˜<br />

Wy'z‡cˆ –8~ ~]ƒ/ºBˆ €‚ž2 ‰Z–<br />

95. Schon bald sind wir zu Hause.<br />

€2”•ƒ<br />

Š3z”}Ž ~¥…‚“{}|B‰²_˜<br />

96. Die Fahrt war ja mächtig cš kurz.<br />

97. Zug endet hier! verkündet die<br />

Ansage.<br />

98. Alle eilen gleich links ins Freie.<br />

z<br />

…]µ ˆ ‰_£qzž•Ž ~œ›} ‰ ~Ä’<br />

ˆ –­~]ƒ/ºBˆ'y'zžY¦2›}˜<br />

ˆBŠ3zž8ˆ –2~´’•ž ˆ –<br />

«ò€ z”‚‰ ~ªƒWzºBˆ<br />

ˆ€czž2‰Y›8“žYˆ<br />

cš<br />

€czž•Ž a€czž2 Ž •‰<br />

ž Ẑ¢­z”‚»}~]„»‹«¨z¦*–2~]ƒ¨˜<br />

ˆ –LδŠ9–•«¨z|Z‰ •~Qyqz<br />

˜<br />

Ž zž2 »¸Ž z 8«Yƒ¹€‚ ‰Yƒ<br />

‚~<br />

99. In der Dämmerung kommen wir<br />

heim.<br />

100. Das war jetzt aber ein schöner<br />

Tag.<br />

‰ ®2ˆ – €‚<br />

¢Ù˜ y'zž2<br />

ž*ƒ³’2ž ˆ –<br />

z”‚¢¨–2Œ‚¦*Ü«¨z{W¢œW‰=’<br />

š<br />

ˆ –<br />

z”W~ªƒ/~¡€•ž8ˆ £Z–J€•ž2 ‰¯…‚z‡8ˆ ‰Z–<br />

Š9Œ‚zž2 _˜<br />

~•zž ˆ«Q˜<br />

A.2 Marburger Sätze<br />

1. Geld allein macht nicht glücklich.<br />

2. Böse Menschen verdienen ihre<br />

Strafe.<br />

3. Mittwoch kommt uns Besuch<br />

passend.<br />

4. Ich bin nicht naß geworden.<br />

z”WŽ ~³€•ž•Ž¥zž*9‰¢­zž•Ÿc~´‰Y„»}~<br />

›}É¢­z”W‰8…/‚‰ÚŠ9– £'z‡8ˆ<br />

ˆ Š _˜ …3~3Œ‚zž<br />

Ž¥z|Y«‘Ž 9»­˜<br />

š<br />

ˆ ‰²‚‰¤€<br />

š<br />

ˆ Œ3 z<br />

~]’c{}Ÿì«¨z{}¢³~Ó€c¦•‰ZƒÛ£Y‚›8zºBˆ Ÿ<br />

¢­z<br />

È'zž2ƒ3W‰c~­˜<br />

W’c{‚–<br />

•‰Æ˜<br />

€‚„»³£Y ‰_‰‘„»}~‰'zž*ƒ


±<br />

’<br />

<br />

±<br />

Î<br />

š<br />

z<br />

š<br />

±<br />

<br />

±<br />

±<br />

<br />

<br />

<br />

<br />

±<br />

±<br />

<br />

<br />

<br />

Á<br />

<br />

<br />

<br />

ˆ<br />

š<br />

š<br />

Á<br />

š<br />

±<br />

ó<br />

<br />

±<br />

±<br />

š<br />

š<br />

±<br />

±<br />

±<br />

<br />

š<br />

188 A Texte zum untersuchten Teil des Kiel Corpus<br />

5. Unsere Eltern tanzen Wiener<br />

Walzer.<br />

6. Lärmt nicht, Jung’s, Vater<br />

schreibt!<br />

7. Wer weiß dort genau Bescheid?<br />

8. Er geht links, sie rechts.<br />

9. Leider ist dies Haus teuer.<br />

10. Dienstag wieder frisch gebrannte<br />

Mandeln.<br />

11. Heute jeder Platz: Eins fünfzig.<br />

~]–2‰¸~•zž2‰ ~]ƒ3‚‰¸’¨z<br />

š<br />

ˆ ‰Z–<br />

€c¦2‰Y›‚–•ŒªL€cz”}Ž<br />

~]ƒª–J˜ ’¨zž‚Ž<br />

Ž z”•–•¢³~³‰Y »W~¡ó<br />

z¦•‘ƒ¡óZŠ/zž ˆ ~]–Å…/Œ•zž2 ÈZ~<br />

–°’Bzž2 ƒ z{‚–•~ W‰qzžZ¦£Y]…‚zž•„~Ž<br />

’8®•ˆ<br />

– z®•ˆ ~ÄŽ¥z 8«Zƒ°óZ› ˆ'Œ‚z”•»}~ªƒ¼˜<br />

€•®•ˆ<br />

zž2 <br />

–¯€‚„ƒ/~<br />

cš<br />

ˆ ƒÄy'zžY¦2ƒ³~‚z{}|²–¯˜<br />

Ž<br />

‰Zƒ]~]ž‘ˆ «à’ –ÙŠ Œ‚z … W£YŒ‚zž*‰‘~]<br />

ˆ<br />

¢­zž2‰<br />

WŽ ‰Æ˜<br />

±<br />

12. Nervöse Menschen brauchen<br />

viel Ruhe.<br />

13. Unser Treffpunkt: Zwei Uhr am<br />

Neumarkt.<br />

14. Gegen Abend wird’s kühl.<br />

›‚âlz”‚‰8…/W‰ô£‘Œ•zžY¦•Ÿ‘‚‰ãŠ/z<br />

‰²”•–•’¨z‡cˆ<br />

˜ Œ•zº²ˆ<br />

«Z~


š<br />

z<br />

’ ±<br />

š<br />

š<br />

’<br />

š<br />

›<br />

±<br />

š<br />

’<br />

š<br />

›<br />

±<br />

Î<br />

<br />

<br />

<br />

š<br />

<br />

Á<br />

±<br />

<br />

<br />

±<br />

<br />

<br />

±<br />

<br />

<br />

ˆ<br />

š<br />

š<br />

<br />

š<br />

±<br />

<br />

±<br />

<br />

±<br />

<br />

<br />

<br />

š<br />

<br />

A.2 Marburger Sätze 189<br />

<br />

29. Nichts verletzt mehr als Spott.<br />

30. Dietrich erwartet Dich um drei.<br />

31. Öfen brauchen Kohlen und Briketts.<br />

32. Heute jeder Strauß Blumen zwei<br />

Mark.<br />

33. Du begrüßt erst Deinen Gast.<br />

ˆ Š9W‰¤£‘Œ•zž‘¦2Ÿc2‰Ñ«¨zµ ˆ Ž •‰Û€c¦2‰ ~<br />

€cz‡<br />

«¨z”‚~ªƒ°˜ £YŒ3<br />

y'z{}|Z~3<br />

z®•ˆ<br />

–É…/~]Œ‚zžY¦*ƒ¡£cŽ zº²ˆ ¢¼‚‰<br />

‰'z »W~]ƒÂŠ9–•Ž z”W~ªƒ3~œ¢lz®2ˆ –Ò€•ž•Ž ƒ´…/È'z{}~¼˜<br />

ˆ ~3Œ] »‹€•”•–2’Bzž8–*~ª‚~<br />

»†€c¦2¢<br />

Œ•zž•˜<br />

~]ƒ3’Bzž2ߢlzž*–•«Í˜<br />

<br />

34. Wir werden Euch nie vergessen.<br />

35. Darf ich Deine Schleife binden?<br />

º²ˆÙ£Y<br />

Œ•zZˆ ƒ]~ö€cz®•ˆ –2ƒ]~<br />

ž2 ‰Y‚‰<br />

zž*ƒ/~°˜<br />

ˆ –°’8®•ˆ –<br />

ˆŠ9– •‰Í€‚{W|Z»¨‰'z<br />

36. Wir spielen alle Tage.<br />

37. Schlaf vor Mitternacht ist gesund.<br />

38. Deine Uhr steht drei <br />

Minuten.<br />

–¨…3Èqz ˆ Ž„‚‰Í€czž‚Ž ¡~•zž8ˆ ˜<br />

ˆ<br />

ˆ Š Š9µ ˆ – ¢lz ~ª–•‰“ž8Ÿ‘~ €‚„ƒ/~<br />

…/Ž¥zž<br />

‚› z¦•‰ ~­˜<br />

±<br />

z”•ƒ/•‰¬˜<br />

ž2–2Š†€‚„»<br />

ž2 ‰‘œ…/Ž zž• ŠC°£'z ‰<br />

•‰Í½<br />

39. Sie ißt kein salziges Gericht.<br />

40. Sechs Mädchen wollen Schwester<br />

werden.<br />

41. Guten Morgen, meine Damen<br />

und Herren!<br />

42. Du darfst dich wieder <br />

setzen.<br />

ƒ3~«¨zž2 ‰Ã›8zž•Ž ~ªƒ/ ±<br />

•ƒ WŒ‚z„»}~l˜<br />

ˆF€cz<br />

~]»}W‰Ø’c{—Ž W‰ç…3’Bz”•ƒ/~]–<br />

›8z”W«‘ƒÏ¢lz”*ˆ<br />

– •‰¬˜ ’8®•ˆ<br />

~3W‰­¢lz{‚– zºBˆ<br />

‚‰¦ó•¢¼ž2 ‰Y<br />

zž ˆ ¢¨‚‰<br />

ž• ‰Y €czº²ˆ – …/~•z®•ˆ ~<br />

Œ•zž2<br />

¢¨ ‰'zºBˆ ~3‚‰Æ˜<br />

43. Freilich, trockenes Wetter brauchen<br />

wir.<br />

44. Sie sollte Medizin nehmen.<br />

45. Gut Ding will Weile ±<br />

haben.<br />

Œ•zž• Ž 9»ló8~3Œ‚z{}«cW‰Z•ƒ´’Bz”‚~]–¼£YŒ‚zžY¦2Ÿc‚‰<br />

Š<br />

–˜ ˆ<br />

€c¦•‰c~Âyqz”‚Œ3W‰¬Î<br />

º²ˆ<br />

ž*–2Š9ƒ/~<br />

„»œ’<br />

–Ò›8z”‚~]ƒ/‚‰©˜<br />

ˆ'›W{—Ž ~3Å¢¼®•ˆ<br />

~ªƒ‚z<br />

46. Vor’m Essen Deine Hände waschen!<br />

47. Mach Dir’s bequem, alter<br />

Freund!<br />

48. Abends lieber zeitig schlafen gehen.<br />

49. Schnupfen stört uns natürlich<br />

sehr.<br />

50. Lange nicht geseh’n, mein Lieber.<br />

51. Motoren brauchen Benzin, Öl<br />

und Wasser.<br />

52. Unser Doktor besucht Vater<br />

täglich.<br />

Š9µ ˆ –2¢H€cz”‚ƒ3W‰<br />

ž2 ‰Y³y'z”W‰<br />

³’Bzž}…/W‰<br />

cš<br />

ˆ –*ƒa£Y}«c’Bz®*ˆ ¢ ó


Á<br />

<br />

Á<br />

±<br />

±<br />

<br />

<br />

<br />

<br />

<br />

±<br />

<br />

š<br />

<br />

š<br />

<br />

±<br />

<br />

š<br />

<br />

Á<br />

±<br />

±<br />

š<br />

±<br />

±<br />

<br />

±<br />

<br />

š<br />

±<br />

±<br />

<br />

<br />

<br />

±<br />

<br />

<br />

z<br />

š<br />

<br />

190 A Texte zum untersuchten Teil des Kiel Corpus<br />

53. Ich bin dreißig Jahre alt.<br />

54. Er schüttelt kräftig Deine Hand.<br />

55. Jungen lieben Streit, Mädchen<br />

Eintracht.<br />

56. Doris will ihre Suppe <br />

essen.<br />

‰ Œ‚zž2„ƒ3 » zž ˆ Œ]l€czž‚Ž ~°˜<br />

€‚„»œ£‘<br />

–³…‚z|Z~3}Ž„~«‘Œ‚z”‚Š ~3 » ž2 ‰Y¡y'zž2‰ ~Ř<br />

€•®•ˆ<br />

‚‰LŽ z ˆ £Y‚‰g…3~3Œ‚zž2 ~÷ó´¢­z”2ˆ ~]»WW‰<br />

z¦•<br />

57. Nüsse muß man gut kauen.<br />

€czž2 ‰ ~ªŒ‚“ž8Ÿ‘~°˜<br />

zµ ˆ Œ3„ƒ³’c ŽS€<br />

ˆ Œ3¡›8z¦2ÈYl€ z”•ƒ/‚‰©˜<br />

‰'z|²ƒ/Å¢­¦2ƒÄ¢¼ž2‰<br />

<br />

59. Allzu lebhafte Kinder machen<br />

nervös.<br />

58. Deine Uhr geht vor.<br />

60. Edith möchte gern Haushalt lernen.<br />

61. Alle Kinder essen gern Eis.<br />

62. Unsere beiden Hunde haben<br />

Durst.<br />

63. Jeden Freitag gibt’s frischen<br />

Fisch.<br />

64. Kein gutes Wetter, wenig Gäste.<br />

~]ƒ]ºBˆŽ z®•ˆ È‘yBž*ŠC~3°«¨z ‰ €czž•Ž<br />

ƒl˜ ‰²”•–•’¨z‡cˆ<br />

„~Ý¢¼Ì´»W~3 €cz®•ˆ<br />

z”•–•‰Y‚‰Æ˜ Ž<br />

–¢­zž•ŸcW‰<br />

z”•–•‰¸yqzžY¦*ƒ/yF“ž*Ž ~<br />

Å«¨z ‰ –¯€cz”•ƒ/W‰ z”•–•‰Ã€czž•„ƒ°˜<br />

€czž•Ž<br />

<br />

‚‰Ly'z¦2‰


86. Dort muß jedes Auto bremsen. <br />

<br />

ó<br />

Î<br />

±<br />

š<br />

<br />

±<br />

Á<br />

Á<br />

<br />

<br />

<br />

±<br />

<br />

<br />

<br />

<br />

š<br />

±<br />

<br />

±<br />

š<br />

<br />

Á<br />

<br />

<br />

±<br />

<br />

<br />

±<br />

š<br />

±<br />

±<br />

š<br />

A.2 Marburger Sätze 191<br />

<br />

79. Adler fliegen tausend Meter<br />

hoch.<br />

80. Diese Gegend nennt man<br />

Sandwüste.<br />

81. Alle Jungen spielen Fußball.<br />

82. Keiner darf diesen Raum verlassen.<br />

83. Verkehrsampeln leuchten grün,<br />

gelb, rot.<br />

84. Was kostet ein Glas Selterswasser?<br />

85. Doris will draußen Schnee fegen.<br />

ˆ Ž9–¸Š„Ž z €czž<br />

ˆ ŸQ˜ y'zµ<br />

ˆ<br />

±<br />

‚‰Ð~•zž‘¦*›}W‰Y~=¢­z®•ˆ ~]–<br />

š<br />

ˆ ›W z®•ˆ W‰Y~ ‰qz”‚‰ ~ ¢¼ž2‰<br />

› zž•‰c~3’B“Bˆ ƒ3~ª˜ cš<br />

z¦2 W‰_…/È'z ˆŽ„•‰¦Š3zº²ˆ ƒ/£'“ž2Ž‹˜<br />

€czž•Ž<br />

‰²– ž*–2Š<br />

š<br />

ˆ ›}W‰ Œ•zžY¦•¢<br />

«qzž•<br />

zž*ƒ3•‰Æ˜ ŠC–‚Ž<br />

– ƒ—€‘“ž8¢¼ÈY‚Ž ‰÷Ž z{}|²»}~]‚‰<br />

ŠC–‚«qz®•ˆ<br />

ȬóYŒ‚zµ ˆ ~Ř z”WŽ<br />

«qz{Wƒ/~]W~ €•ž2 ‰<br />

’2ž*ƒ<br />

Œ‚zYˆ ‰<br />

Ž zž8ˆ ƒ<br />

› z”}Ž ~]–*ƒ]’¨“ž8ƒª–¯½<br />

zµ ˆ Œ3 ƒÂ’ Ž<br />

Œ‚zžY¦*ƒ3•‰…3‰qz®2ˆ'Š/z®•ˆ<br />

W‰¬˜<br />

87. Steigt Dein Drachen sehr hoch?<br />

88. Einige Busse fahren heute später.<br />

…3~‚zž2 «‘~<br />

ž2 ‰<br />

Œ‚zž2Ÿ ‚‰J› z®•ˆ –¡y'zµ8ˆ Ÿ¯½<br />

z{W–2~<br />

¢­¦2ƒ<br />

z®•ˆ<br />

‚ƒ<br />

€czžY¦•~ªµcˆ<br />

£YŒ‚z”‚¢¼›}W‰Æ˜<br />

89. Sonntags trinken viele Männer<br />

Bier.<br />

90. Danach kannst Du Dich wirklich<br />

richten.<br />

91. Diese zarten Blumen welken<br />

rasch.<br />

92. Öffnet doch gleich beide Türen!<br />

z{}‰ ~]ž ˆ «²ƒ¡~3Œ‚z 8«‘‚‰ñŠ3z<br />

š<br />

ˆ Ž Ù¢­z”W‰Z–<br />

›<br />

ˆ –¦˜ £'z<br />

ˆ ‰Yžcˆ ŸH«*ž•‰Zƒ/~ zž<br />

Œ•z„»}~3W‰¬˜<br />

ºBˆ<br />

„»


192 A Texte zum untersuchten Teil des Kiel Corpus<br />

A.3 û<br />

Dialog aus dem Kiel Corpus of Spontaneous<br />

Speech<br />

;Dialog: G373A<br />

;Zuletzt bearbeitet am: 07.08.97<br />

MEH000: $I $A $A , da reicht ein Tag . mehr wollen wir da<br />

nicht sehen . wie ist es am/-<br />

also , da h"atte ich Zeit vom<br />

elften bis zum vierzehnten .<br />

ARK001: ich zw"olften bis sechz<br />

MEH002: gut . %denn nehmen wir den zw"olften , ja ?<br />

ARK003: esch<br />

MEH004: nehmen wir den zw"olften , ja <br />

ARK007: ja , das w"ar’ der <br />

f"unfzehnte bis achtzehnte . so<br />

lang brauchen wir da wahrscheinlich gar nicht<br />

. also f"unfzehnter , sechzehnter , sagen wir .<br />

MEH008: gut , f"unfzehnter , sechzehnter<br />

. wir m"ussen nat"urlich jetzt aufpassen ,<br />

wir brauchen noch ein Wochenendseminar . aber<br />

wir werden wohl


A.3 Dialog aus dem Kiel Corpus of Spontaneous Speech 193<br />

richtiges Wochenende . also f"unfzehnter ,<br />

sechzehnter .<br />

ARK009: a , f"unfzehnter , sechzehnter <br />

. Montag ,<br />

sechzehnten , siebzehnten , mit dem<br />

Besprechungstermin gehen , dann k"onnten wir<br />

das Wochenendseminar unmittelbar vorher<br />

abhalt<br />

MEH010: nicht , weil ich<br />

am vierzehnten nicht kann . +/%der<br />

l=/+ bei mir ist noch frei im September , die<br />

ganze Zeit vom neunzehnten bis zum<br />

drei"sigsten . finden wir da ’n Wochenende<br />

?<br />

ARK011: ab siebenundzwanzigs<br />

ARK012: ist kein richtiges Wochenende<br />

, nicht ? ist kein Sonntag dabei . <br />

dann wie w"ar’ es denn/- <br />

also dann hab’ ich noch mal ganz frei vom<br />

f"unfzehnten bis zum<br />

vierundzwanzigsten und danach ja ,<br />

f"unfzehnten bis vierundzwanzigsten .<br />

ARK014: welcher Monat jetzt ?<br />

ARK015: welcher Monat ?<br />

MEH016: ktober .<br />

ARK017: f"unfzehnter bis vierun=/- <br />

wir haben ja schon am f"unfzehnten , sechzehnten<br />

Besprechungstermi<br />

MEH018: ja<br />

MEH019: also , das w"are dann das Wochenende<br />

einundzwanzigster , zweiundzwanzigster .<br />

ARK020:


194 A Texte zum untersuchten Teil des Kiel Corpus<br />

MEH021: ich seh’ das schon kommen . also ich mu"s da<br />

’n Treffen wahrscheinlich absagen , nicht<br />

? wie ist es denn am achtundzwanzigsten ,<br />

neunundzwanzigsten Oktober ?<br />

ARK022: auch belegt bei mir +/bis/+ <br />

bis Ende , bis einunddrei"sigsten . wie ist<br />

es denn mit dem Septemberanfang , erster ,<br />

+/z=/+ zweiter , dritter ?<br />

MEH023:


Anhang B<br />

Daten der Sprecher im Kiel<br />

Corpus<br />

Die Tabellen in B.1 und B.2 stellen einige Daten über die Sprecher des<br />

Kiel Corpus of Read/Spontaneous Speech bereit. Die Aufstellungen enthalten<br />

Sprecherkürzel, Geschlecht, Alter zur Zeit der Aufnahme, das vom<br />

Sprecher angegebene Sprachgebiet sowie Nummer der CD-ROM (1: IPDS<br />

(1994); 2: IPDS (1995); 3: IPDS (1996); 4: IPDS (1997a)), auf der sich die<br />

jeweiligen Daten befinden. In B.1 ist das vom Sprecher gelesene Material<br />

(be: Berliner Sätze, mr: Marburger Sätze; bu: Buttergeschichte; no: Nordwind<br />

und Sonne; *: alles) angegeben sowie in B.2 das Kürzel der Dialogsitzung,<br />

wonach die Sprecher auch sortiert sind. Sprecher, die in dieser Studie<br />

nicht untersucht wurden, sind durch einen * nach dem Sprecherkürzel<br />

gekennzeichnet.<br />

B.1 Sprecher des Kiel Corpus of Read Speech<br />

Sprecher Geschl. Alter Sprachgebiet Korpus CD#<br />

k01 m 25 Schleswig- be 1<br />

Holstein<br />

k02 w 25 Kiel be 1<br />

k03 m 28 Schleswig-<br />

Holstein<br />

be 1<br />

195


196 B Daten der Sprecher im Kiel Corpus<br />

Sprecher Geschl. Alter Sprachgebiet Korpus CD#<br />

k04 w 26 Schleswig- be 1<br />

Holstein<br />

k05 m 28 Schleswig- be 1<br />

Holstein<br />

k06 w 23 Rheinland-Pfalz be 1<br />

k07 m 23 Schleswig- mr 1<br />

Holstein<br />

k08 w 24 Schleswig- mr 1<br />

Holstein<br />

k09 m 27 Schleswig- mr 1<br />

Holstein<br />

k10 w 24 Schleswig- mr 1<br />

Holstein<br />

k11 m 24 Schleswig- mr 1<br />

Holstein<br />

k12 w 22 Schleswig- mr 1<br />

Holstein<br />

k13* m 25 Schleswig- no 1<br />

Holstein<br />

k14* w 26 Ostholstein (Fehmarn)<br />

no 1<br />

k15* m 25 Schleswig- no 1<br />

Holstein<br />

k16* w 23 Schleswig- no 1<br />

Holstein<br />

k17* m 27 Schleswig- no 1<br />

Holstein<br />

k18* w 28 Nordrhein- no 1<br />

Westfalen<br />

k19* m 27 Schleswig- no 1<br />

Holstein<br />

k20* w 24 Rheinland no 1<br />

k21* m 26 Schleswig- no 1<br />

Holstein<br />

k22* w 26 Schleswig-<br />

Holstein<br />

bu 1


197<br />

Sprecher Geschl. Alter Sprachgebiet Korpus CD#<br />

k23* m 24 Schleswig- bu 1<br />

Holstein<br />

k24* w 20 Schleswig- bu 1<br />

Holstein<br />

k25* m 27 Schleswig- bu 1<br />

Holstein<br />

k26* w 23 Niedersachsen bu 1<br />

k27* m 30 Schleswig- bu 1<br />

Holstein<br />

k28* w 25 Göttingen bu 1<br />

k29* m 28 Schleswig- bu 1<br />

Holstein<br />

k30* w 24 Hannover bu 1<br />

k61 m 55 Halle, Karlsruhe, * 1<br />

Kiel<br />

k62 w 33 Niedersachsen, * 1<br />

Schleswig-<br />

Holstein<br />

k63 m 33 Schleswig- be 1<br />

Holstein<br />

k64 w 50 Schleswig- be 1<br />

Holstein<br />

k65 m 34 Bayern be 1<br />

k66 w 39 Sachsen-Anhalt, be 1<br />

Mecklenburg<br />

k67 m 35 Pfalz mr 1<br />

k68 w 50 Braunschweig mr 1<br />

k69 m 49 Süd-, Norddeutsch<br />

mr 1<br />

k70 w 46 Schleswig- mr 1<br />

Holstein<br />

k71* m 38 Cuxhaven, Kiel no 1<br />

k72* w 46 Niedersachsen no 1<br />

k73* m 47 Kiel no 1<br />

k74* w 56 Schleswig-<br />

Holstein<br />

no 1


198 B Daten der Sprecher im Kiel Corpus<br />

Sprecher Geschl. Alter Sprachgebiet Korpus CD#<br />

k75* m 52 Norddeutsch no 1<br />

k76* w 30 Kiel bu 1<br />

k77* m 48 Norddeutsch bu 1<br />

k78* w 47 Kiel bu 1<br />

k79* m 42 Schleswig- bu 1<br />

Holstein<br />

k80* w 48 Kiel bu 1<br />

B.2 Sprecher des Kiel Corpus of Spontaneous<br />

Speech<br />

Sprecher Geschl. Dialog Alter Sprachgebiet CD#<br />

HAH m g07a 25 Schleswig- 2<br />

Holstein<br />

TIS m g07a 27 Niedersachsen 2<br />

KAK m g08a 26 Schleswig- 2<br />

Holstein<br />

THS m g08a 27 Schleswig- 2<br />

Holstein<br />

ANS w g09a 26 Niedersachsen 2<br />

FRS w g09a 29 Niedersachsen 2<br />

NAR w g10a 26 Nordrhein-<br />

3<br />

Westfalen<br />

UTB w g10a 26 Schleswig- 3<br />

Holstein<br />

JAK m g11a 22 Niedersachsen 3<br />

REK m g11a 26 Schleswig- 3<br />

Holstein<br />

KAP w g12a 28 Niedersachsen 3<br />

OLV m g12a 35 Schleswig- 3<br />

Holstein<br />

SOK m g14a 24 Schleswig- 2/3<br />

Holstein<br />

BAC m g14a 25 Schleswig-<br />

Holstein<br />

2/3


199<br />

Sprecher Geschl. Dialog Alter Sprachgebiet CD#<br />

SAR w g19a 20 Norddeutsch 2/3<br />

KAE w g19a 22 Norddeutsch 2/3<br />

BLA* m g20a 27 Mittelholstein 2<br />

PRB* m g20a 27 Ostholstein 2<br />

CHD m g21a 26 Norddeutsch 2/3<br />

ANL m g21a 26 Schleswig- 2/3<br />

Holstein<br />

WEM w g25a 21 Berlin 2/3<br />

SIK w g25a 21 Norddeutsch 2/3<br />

SOV* w g27a 24 Schleswig- 2<br />

Holstein<br />

SIH* w g27a 25 Norddeutsch 2<br />

MAK* m g28a 26 Norddeutsch 2<br />

BEK* m g28a 37 Pfalz 2<br />

THP* m g29a 29 Norddeutsch 2<br />

MAL* m g29a 35 Norddeutsch 2<br />

ANM* w g30a 21 Hamburg 2<br />

MAB* w g30a 22 Hamburg 2<br />

AME m g31a 20 Schleswig- 2/3<br />

Holstein<br />

SVA m g31a 20 Schleswig- 2/3<br />

Holstein<br />

JUM w g36a 52 Schleswig- 4<br />

Holstein<br />

URG w g36a 56 Hamburg 4<br />

ARK m g37a 55 vermischt 4<br />

MEH m g37a 60 vermischt 4<br />

FRA w g38a 45 Norddeutsch 4<br />

HEL m g38a 54 Hessen 4<br />

MLG w g41a 50 Schleswig- 4<br />

Holstein<br />

HEE w g41a 57 Niedersachsen 4<br />

GEP m g42a 59 Niedersachsen 4<br />

MAW m g42a 60 Schleswig-<br />

Holstein<br />

4


200 B Daten der Sprecher im Kiel Corpus<br />

Sprecher Geschl. Dialog Alter Sprachgebiet<br />

CD#


Anhang C<br />

KielDat-Skript zur<br />

automatischen<br />

Vokalmessung<br />

Das folgende KielDat-Skript führt die in Abschnitt 3.6 auf S. 47ff<br />

beschriebenen Schritte zur Formantmessung bei den Vokalen durch.<br />

Das KielDat-Skript ist eigentlich ein awk-Skript mit dem Zusatz<br />

von #include-Statements, mit denen vorgefertigte KielDat-spezifische<br />

Funktionen und vordefinierte Variablen verwendet werden können. Im vorliegenden<br />

Skript sind alle mit # präfigierten Zeilen Kommentare, außer den<br />

am Anfang befindlichen #include-Statements.<br />

#include "lib/initDB"<br />

#include "lib/extractLabelTimeDuration"<br />

#include "lib/isRDiphthong"<br />

#include "lib/isDiphthong"<br />

#include "lib/isVowel"<br />

#include "lib/isRegularWord"<br />

#include "lib/math/round"<br />

#include "lib/isProsodicLabel"<br />

#include "lib/isSentenceInitialLabel"<br />

#include "lib/isPunctuation"<br />

#include "lib/isFunctionWord"<br />

201


ý<br />

202 C KielDat-Skript zur automatischen Vokalmessung<br />

# Fuer jede Funktion aus der KielDat-Bibliothek muss eine<br />

# include-Statement vorhanden sein.<br />

TRUE = 1<br />

FALSE = 0<br />

#<br />

# isConsonant ueberprueft, ob ein Label ein Konsonant ist<br />

#<br />

isConsonant(label)ü<br />

function<br />

if(label ˜ /[BCDFGHJKLMNPQRSTVXZ]/) return<br />

ý<br />

TRUE<br />

#<br />

# getContext versucht einen vorhergehenden und nachfolgenden<br />

# Kontext fuer den aktuellen Vokal herzustellen. Die<br />

# fortlaufende Variantentranskription wird in beiden<br />

# Richtungen abgesucht, bis ein Label mit einer Dauer > 0<br />

# gefunden wird. Ein Etikett wird der Variable preContext<br />

# bzw. postContext angehaengt, wenn es nicht ein<br />

# prosodisches Etikett, ein Satzzeichen oder die<br />

# Satzanfangsmarkierung ist. Wird ein Label mit einer Dauer<br />

# > 0 gefunden, so wird die Suche abgebrochen. Wird kein<br />

# Label gefunden mit Dauer > 0, dann wird fuer den<br />

# Praekontext der Aeusserungsanfang, fuer den Postkontext<br />

# das Aeusserungende angenommen, und es wird "UttBegin" der<br />

# Variable preContext bzw. "UttEnd" der Variable<br />

# postContext angehaengt.<br />

#<br />

getContext(pos)ü<br />

function<br />

preContext = postContext = ""<br />

for(fn_i = pos-1; fn_i >= fn_i--)ü<br />

1;<br />

if(!isProsodicLabel(varTrans["label",fn_i]) &&<br />

!isPunctuation(varTrans["label",fn_i]) &&<br />

!isSentenceInitialLabel(varTrans["label",fn_i]))ü<br />

preContext = ( "_" preContext )<br />

if(varTrans["dur",fn_i])ü<br />

fn_i = 0<br />

preContextNeeded =<br />

ý<br />

FALSE<br />

ý<br />

if(preContextNeeded && fn_i


ý<br />

ý<br />

203<br />

preContextNeeded = FALSE<br />

ý<br />

for(fn_i = pos+1; fn_i


ý<br />

204 C KielDat-Skript zur automatischen Vokalmessung<br />

mPt[fn_i+1] = startTime + 0.02 + fn_i * stepDur<br />

return stepCnt + 1<br />

#<br />

# Fuer Monophthonge und Diphthonge < 60 ms wird ein<br />

# Messpunkt inmitten des Vokalabschnitts benoetigt.<br />

#<br />

elseü<br />

mPt[1] = startTime + duration / 2<br />

return<br />

ý<br />

1<br />

ý<br />

#<br />

# prepareSignal erstellt den Namen der Signaldatei, die<br />

# zu analysieren ist. Die Datenbank enthaelt lediglich<br />

# den vollen Namen der Etikettierdatei.<br />

#<br />

prepareSignal()ü<br />

function<br />

signalFN = $(FILE)<br />

if($(FILE) ˜ /ph9/)<br />

gsub(/\.s1h/, ".16", signalFN)<br />

else<br />

gsub(/\.s1h/, ".?16", signalFN)<br />

system("cp " signalFN " tmp.dd")<br />

system("chmod u+w tmp.dd")<br />

#<br />

# Fuer jeden Satz aus dem gelesenen Korpus bzw. fuer jeden<br />

# Dialogbeitrag aus dem spontansprachlichen Korpus wird eine<br />

# fortlaufende Transkription aus den einzelnen Labels der<br />

# Varianteneintraege in der Datenbank hergestellt. Dies<br />

# ermoeglicht die Bestimmung eines prae- bzw.<br />

# postvokalischen Kontexts. Wenn der Anfang eines neuen<br />

# Satzes bzw. Dialogbeitrages erreicht wird und der letzte<br />

# Vokal noch keinen postvokalischen Kontext erhalten hat,<br />

# weil er am Ende des vorhergehenden Satzes bzw.<br />

# Dialogbeitrags stand, wird "_UttEnd" ausgedruckt und<br />

# ergaenzt somit den Datensatz.<br />

#<br />

nl = extractLabelTimeDuration(labels, times, durations)ü<br />

if($(ORTHOPOS) == 0)ü<br />

running = FALSE


ý<br />

ý<br />

205<br />

if(postContextNeeded)ü<br />

print "_UttEnd" >> spkrfn; close(spkrfn)<br />

postContextNeeded =<br />

ý<br />

FALSE<br />

ý<br />

for(i = 1; i > spkrfn; close(spkrfn)<br />

if(durations[i])ü<br />

print "" >> spkrfn<br />

close(spkrfn)<br />

postContextNeeded =<br />

ý<br />

FALSE<br />

ý<br />

# Der Hauptteil des Programms.<br />

#<br />

# Fuer jedes regulaere Wort (nicht abgebrochen, usw.) werden<br />

# die Frequenzen und die Bandbreiten der Vokale bestimmt<br />

# sowie einige andere Informationen zur Versuchsperson<br />

# (Sprecherkuerzel und Geschlecht), zum Dialog (Kennung),<br />

# zum Vokalabschnitt (Label, Datensatznummer, Dauer,<br />

# Grundfrequenz zum Messzeitpunkt) zum Kontext (Wort,<br />

# prae- und postvokalischer Kontext) in einer Datei<br />

# pro Sprecher gesammelt.<br />

#<br />

isRegularWord($(ORTHO))ü<br />

#<br />

# Die Anzahl der Formanten, die zu bestimmen sind, haengt vom<br />

# Geschlecht ab; bei Maennern werden 8, bei Frauen 7<br />

# Formanten bestimmt.<br />

#<br />

numFormants = ( $(GENDER) == "f" ? 7 : 8 )<br />

#<br />

# Ein Array wird mit den Labels, ihren Zeiten und Dauern<br />

# aufgefuellt.<br />

#<br />

nl = extractLabelTimeDuration(labels, times, durations)


206 C KielDat-Skript zur automatischen Vokalmessung<br />

for(lblCnt = 1; lblCnt 0 haben.<br />

#<br />

if(isVowel(labels[lblCnt]) &&<br />

!isRDiphthong(labels[lblCnt]) durations[lblCnt])ü<br />

&&<br />

#<br />

# Um Funktionswoerter abzusondern, wird ein Pluszeichnen an<br />

# die orthographische Darstellung angehaengt.<br />

#<br />

word = (isFunctionWord($(CANON))?$(ORTHO)"+":$(ORTHO))<br />

#<br />

# Der Bedarf nach prae- und postvokalischem Kontext wird<br />

# angezeigt<br />

#<br />

preContextNeeded = postContextNeeded = TRUE<br />

#<br />

# Erstelle den prae- und postvokalischen Kontext<br />

#<br />

getContext(running-nl+lblCnt)<br />

#<br />

# Erstelle den Namen der Signaldatei<br />

#<br />

prepareSignal()<br />

#<br />

# Das Kommandostring fuer die Formantsortierung wird<br />

# hergestellt. Die Formantsortierung wird durch das<br />

# Programm ksort erledigt, das die Ergebnisse der<br />

# Formantbestimmung durch klara verarbeitet. Je<br />

# nach Geschlecht wird eine unterschiedliche<br />

# Referenztabelle fuer die Defaultwerte der Formanten<br />

# benoetigt (siehe Text). In beiden Faellen werden<br />

# nur die unteren drei Formanten und ihre Bandbreiten<br />

# ausgegeben.<br />

#<br />

if($(GENDER) == "f")<br />

ksort = ( "ksort -rf -om=3 -od tmp.kla" )<br />

else<br />

ksort = ( "ksort -om=3 -od tmp.kla" )<br />

#<br />

# Berechne die Anzahl und Zeiten der Messpunkte im<br />

# Vokalabschnitt.<br />

#<br />

mp = getMeasurementTimes(labels[lblCnt], \<br />

durations[lblCnt], times[lblCnt])


for(mCnt = 1; mCnt > spkrfn<br />

close(spkrfn)<br />

#<br />

# Der ksort-Befehl wird ausgefuehrt und die Ergebnisse der<br />

# Sortierung im Array tempStr aufgehoben.<br />

#<br />

j = 1; while( ksort | getline tempStr[j++] > 0) ;<br />

close(ksort)<br />

#<br />

# Formanten mit zu grossen Bandbreiten (> 500 Hz) sowie bei<br />

# der Sortierung entstandene Luecken in den<br />

# Formantfrequenzen werden durch den Wert der zweiten<br />

# Formantschaetzung ersetzt bzw. aufgefuellt.


ý<br />

ý<br />

ý<br />

ý<br />

208 C KielDat-Skript zur automatischen Vokalmessung<br />

#<br />

split(tempStr[7], arr, " ")<br />

for(k = 6; k 500 || arr[k-1] ˜ /-99/)<br />

sub(/.+\//, "", arr[k-1])<br />

else<br />

sub(/\/.+/, "",<br />

ý<br />

arr[k-1])<br />

#<br />

# Grundfrequenz, Frequenzen und Bandbreiten von F1-F3 sowie<br />

# kontextuelle Information werden in Datei gedruckt.<br />

#<br />

printf("%8s %4s %4s%4s %4s%4s %4s%4s",<br />

arr[1], arr[4], arr[5], arr[6], arr[8],<br />

arr[9], arr[11], arr[12]) >> spkrfn<br />

close(spkrfn)<br />

if(mCnt == mp)ü<br />

printf(" %s %s___%s", word, preContext, \<br />

postContext) >> spkrfn<br />

close(spkrfn)<br />

ý<br />

elseü print "" >> spkrfn; close(spkrfn) ý<br />

ý


Anhang D<br />

Vokalhäufigkeiten im Kiel<br />

Corpus of Spontaneous<br />

Speech<br />

Tabelle D.1 enthält die absoluten Häufigkeiten der Vokale bei den einzelnen Sprechern<br />

im spontansprachlichen Korpus. Reihe Gesamt enthält die Anzahl der Vokaltokens<br />

einer Vokalkategorie über alle Sprecher, die Spalte Gesamt die Anzahl von<br />

Vokaltokens pro Sprecher/in. Die Spalten sind nach der Größe der Mediane der<br />

relativen Häufigkeiten in absteigender Reihenfolge geordnet (siehe Tabelle D.2).<br />

Die Reihen sind nach der absoluten Häufigkeit der Vokaltokens pro Sprecher/in in<br />

aufsteigender Reihenfolge geordnet. Eine graphische Aufbereitung der absoluten<br />

Vokalhäufigkeiten pro Sprecher/in befindet sich in Abb. 3.4 auf S. 55.<br />

Tabelle D.2 enthält die relativen Häufigkeiten der Vokale bei den einzelnen Sprechern<br />

im spontansprachlichen Korpus. Reihe Gesamt bezieht sich auf die relativen<br />

Häufigkeiten der Vokale bezogen auf ihre Gesamthäufigkeit. Die Medianwerte beziehen<br />

sich auf die Häufigkeiten der Einzelsprecher. Maximum und Minimum beziehen<br />

sich jeweils auf die größte und kleinste relative Häufigkeit eines Vokals, die<br />

bei einem der Sprecher gefunden wurde. Die Spalten sind nach der Größe der Mediane<br />

der relativen Häufigkeiten in absteigender Reihenfolge geordnet. Die Reihen<br />

sind nach der absoluten Häufigkeit der Vokaltokens pro Sprecher/in in aufsteigender<br />

Reihenfolge geordnet. Ein graphische Darstellung der Mediane, Maxima und<br />

Minima befindet sich in Abb. 3.3 auf S. 54.<br />

209


£<br />

210 D Vokalhäufigkeiten im Kiel Corpus of Spontaneous Speech<br />

Tabelle D.1: Absolute Vokalhäufigkeiten bei den einzelnen Sprechern im spontansprachlichen Korpus<br />

SOK 87 66 36 56 57 21 29 30 24 25 22 19 9 13 0 4 1 1 0 0 500<br />

AME 91 50 68 31 36 19 38 40 19 20 18 17 23 25 4 2 2 2 1 0 506<br />

FRA 105 86 63 31 39 39 19 30 26 21 20 32 5 14 5 11 4 0 2 3 555<br />

SVA 109 96 78 41 71 48 34 40 36 32 39 26 11 18 10 6 0 1 4 0 700<br />

BAC 111 109 90 66 58 21 45 49 47 44 44 20 11 18 8 4 7 7 0 3 762<br />

URG 99 105 94 72 78 63 51 39 37 29 40 42 21 13 11 10 5 4 5 1 819<br />

THS 122 116 51 79 63 52 59 55 44 44 55 21 12 18 9 23 4 2 1 0 830<br />

FRS 122 136 95 119 73 62 60 64 41 30 39 18 23 22 11 9 4 4 3 6 941<br />

SAR 158 124 158 53 71 55 59 41 51 46 33 61 17 21 9 12 4 4 3 5 985<br />

JUM 180 125 111 87 123 75 56 35 60 63 35 35 20 13 16 5 6 3 3 1 1052<br />

ARK 176 156 79 104 94 68 68 47 74 17 42 41 19 14 24 11 4 4 7 4 1053<br />

CHD 148 128 141 116 110 85 59 65 32 42 45 28 30 23 5 15 6 3 3 0 1084<br />

SIK 171 172 91 70 83 65 68 57 54 71 56 38 41 20 14 28 5 2 3 1 1110<br />

KAP 154 162 162 61 82 66 55 65 53 68 46 50 39 28 11 17 4 6 0 0 1129<br />

HEL 169 143 127 128 89 72 66 67 47 50 45 31 25 27 18 4 5 4 11 6 1134<br />

WEM 157 188 128 102 99 93 76 75 64 52 79 30 39 28 17 22 11 2 5 4 1271<br />

KAE 191 162 175 93 136 70 67 57 50 71 44 41 25 51 12 26 4 6 0 4 1285<br />

REK 196 192 127 119 85 66 62 87 81 75 69 52 22 39 29 10 10 15 1 8 1345<br />

KAK 211 190 102 170 130 86 84 89 69 53 99 35 19 34 18 25 10 2 5 6 1437<br />

GEP 216 228 136 114 131 98 69 79 69 68 94 44 40 24 32 12 21 9 1 3 1488<br />

MEH 250 229 130 135 107 90 88 61 85 74 73 49 21 24 27 14 13 1 15 10 1496<br />

MLG 175 188 152 150 128 90 121 104 94 68 78 60 40 47 10 22 10 10 11 4 1562<br />

ANL 208 242 190 130 164 121 71 95 61 85 75 51 37 27 13 13 5 9 12 7 1616<br />

ANS 230 202 115 177 132 94 115 122 83 63 88 35 44 50 21 12 18 4 8 5 1618<br />

NAR 270 264 171 184 142 97 120 116 76 90 92 56 47 40 19 17 8 6 12 3 1830<br />

UTB 226 239 147 197 162 120 143 127 79 108 68 53 37 41 26 31 18 10 7 7 1846<br />

HAH 286 265 214 134 174 94 119 113 84 75 125 58 57 41 20 17 7 12 17 6 1918<br />

JAK 298 295 224 215 140 103 137 104 85 117 86 104 41 39 22 14 15 11 6 25 2081<br />

TIS 342 254 267 213 166 88 123 137 81 114 70 92 45 37 19 26 4 10 5 2 2095<br />

OLV 331 288 269 170 205 178 147 222 115 108 108 111 90 64 30 20 19 17 10 8 2510<br />

HEE 348 349 260 215 194 125 187 127 132 110 112 99 86 57 19 36 12 15 11 23 2517<br />

MAW 543 456 366 282 282 202 154 200 159 171 179 140 98 55 55 35 14 13 14 11 3429<br />

Gesamt 6480 6005 4617 3914 3704 2626 2649 2639 2112 2104 2118 1589 1094 985 544 513 260 199 186 166 44504<br />

þ<br />

ÿ<br />

þ<br />

¡<br />

ÿþ<br />

¢<br />

£<br />

¤<br />

¥<br />

¦<br />

§<br />

¨<br />

§þ<br />

©<br />

<br />

<br />

¦<br />

<br />

<br />

Gesamt


211<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

SOK 17.4 13.2 7.2 11.2 11.4 4.2 5.8 6 4.8 5 4.4 3.8 1.8 2.6 0 0.8 0.2 0.2 0 0<br />

AME 18 9.9 13.4 6.1 7.1 3.8 7.5 7.9 3.8 4 3.6 3.4 4.5 4.9 0.8 0.4 0.4 0.4 0.2 0<br />

FRA 18.9 15.5 11.4 5.6 7 7 3.4 5.4 4.7 3.8 3.6 5.8 0.9 2.5 0.9 2 0.7 0 0.4 0.5<br />

SVA 15.6 13.7 11.1 5.9 10.1 6.9 4.9 5.7 5.1 4.6 5.6 3.7 1.6 2.6 1.4 0.9 0 0.1 0.6 0<br />

BAC 14.6 14.3 11.8 8.7 7.6 2.8 5.9 6.4 6.2 5.8 5.8 2.6 1.4 2.4 1 0.5 0.9 0.9 0 0.4<br />

URG 12.1 12.8 11.5 8.8 9.5 7.7 6.2 4.8 4.5 3.5 4.9 5.1 2.6 1.6 1.3 1.2 0.6 0.5 0.6 0.1<br />

THS 14.7 14 6.1 9.5 7.6 6.3 7.1 6.6 5.3 5.3 6.6 2.5 1.4 2.2 1.1 2.8 0.5 0.2 0.1 0<br />

FRS 13 14.5 10.1 12.6 7.8 6.6 6.4 6.8 4.4 3.2 4.1 1.9 2.4 2.3 1.2 1 0.4 0.4 0.3 0.6<br />

SAR 16 12.6 16 5.4 7.2 5.6 6 4.2 5.2 4.7 3.4 6.2 1.7 2.1 0.9 1.2 0.4 0.4 0.3 0.5<br />

JUM 17.1 11.9 10.6 8.3 11.7 7.1 5.3 3.3 5.7 6 3.3 3.3 1.9 1.2 1.5 0.5 0.6 0.3 0.3 0.1<br />

ARK 16.7 14.8 7.5 9.9 8.9 6.5 6.5 4.5 7 1.6 4 3.9 1.8 1.3 2.3 1 0.4 0.4 0.7 0.4<br />

CHD 13.7 11.8 13 10.7 10.1 7.8 5.4 6 3 3.9 4.2 2.6 2.8 2.1 0.5 1.4 0.6 0.3 0.3 0<br />

SIK 15.4 15.5 8.2 6.3 7.5 5.9 6.1 5.1 4.9 6.4 5 3.4 3.7 1.8 1.3 2.5 0.5 0.2 0.3 0.1<br />

KAP 13.6 14.3 14.3 5.4 7.3 5.8 4.9 5.8 4.7 6 4.1 4.4 3.5 2.5 1 1.5 0.4 0.5 0 0<br />

HEL 14.9 12.6 11.2 11.3 7.8 6.3 5.8 5.9 4.1 4.4 4 2.7 2.2 2.4 1.6 0.4 0.4 0.4 1 0.5<br />

WEM 12.4 14.8 10.1 8 7.8 7.3 6 5.9 5 4.1 6.2 2.4 3.1 2.2 1.3 1.7 0.9 0.2 0.4 0.3<br />

KAE 14.9 12.6 13.6 7.2 10.6 5.4 5.2 4.4 3.9 5.5 3.4 3.2 1.9 4 0.9 2 0.3 0.5 0 0.3<br />

REK 14.6 14.3 9.4 8.8 6.3 4.9 4.6 6.5 6 5.6 5.1 3.9 1.6 2.9 2.2 0.7 0.7 1.1 0.1 0.6<br />

KAK 14.7 13.2 7.1 11.8 9 6 5.8 6.2 4.8 3.7 6.9 2.4 1.3 2.4 1.3 1.7 0.7 0.1 0.3 0.4<br />

GEP 14.5 15.3 9.1 7.7 8.8 6.6 4.6 5.3 4.6 4.6 6.3 3 2.7 1.6 2.2 0.8 1.4 0.6 0.1 0.2<br />

MEH 16.7 15.3 8.7 9 7.2 6 5.9 4.1 5.7 4.9 4.9 3.3 1.4 1.6 1.8 0.9 0.9 0.1 1 0.7<br />

MLG 11.2 12 9.7 9.6 8.2 5.8 7.7 6.7 6 4.4 5 3.8 2.6 3 0.6 1.4 0.6 0.6 0.7 0.3<br />

ANL 12.9 15 11.8 8 10.1 7.5 4.4 5.9 3.8 5.3 4.6 3.2 2.3 1.7 0.8 0.8 0.3 0.6 0.7 0.4<br />

ANS 14.2 12.5 7.1 10.9 8.2 5.8 7.1 7.5 5.1 3.9 5.4 2.2 2.7 3.1 1.3 0.7 1.1 0.2 0.5 0.3<br />

NAR 14.8 14.4 9.3 10.1 7.8 5.3 6.6 6.3 4.2 4.9 5 3.1 2.6 2.2 1 0.9 0.4 0.3 0.7 0.2<br />

UTB 12.2 12.9 8 10.7 8.8 6.5 7.7 6.9 4.3 5.9 3.7 2.9 2 2.2 1.4 1.7 1 0.5 0.4 0.4<br />

HAH 14.9 13.8 11.2 7 9.1 4.9 6.2 5.9 4.4 3.9 6.5 3 3 2.1 1 0.9 0.4 0.6 0.9 0.3<br />

JAK 14.3 14.2 10.8 10.3 6.7 4.9 6.6 5 4.1 5.6 4.1 5 2 1.9 1.1 0.7 0.7 0.5 0.3 1.2<br />

TIS 16.3 12.1 12.7 10.2 7.9 4.2 5.9 6.5 3.9 5.4 3.3 4.4 2.1 1.8 0.9 1.2 0.2 0.5 0.2 0.1<br />

OLV 13.2 11.5 10.7 6.8 8.2 7.1 5.9 8.8 4.6 4.3 4.3 4.4 3.6 2.5 1.2 0.8 0.8 0.7 0.4 0.3<br />

HEE 13.8 13.9 10.3 8.5 7.7 5 7.4 5 5.2 4.4 4.4 3.9 3.4 2.3 0.8 1.4 0.5 0.6 0.4 0.9<br />

MAW 15.8 13.3 10.7 8.2 8.2 5.9 4.5 5.8 4.6 5 5.2 4.1 2.9 1.6 1.6 1 0.4 0.4 0.4 0.3<br />

Gesamt 14.6 13.5 10.4 8.8 8.3 5.9 6 5.9 4.7 4.7 4.8 3.6 2.5 2.2 1.2 1.2 0.6 0.4 0.4 0.4<br />

Median 14.7 13.8 10.7 8.8 8.1 6.0 5.9 5.9 4.7 4.7 4.5 3.4 2.3 2.2 1.2 1.0 0.5 0.4 0.4 0.3<br />

Maximum 18.9 15.5 16.0 12.6 11.7 7.8 7.7 8.8 7.0 6.4 6.9 6.2 4.5 4.9 2.3 2.8 1.4 1.1 1.0 1.2<br />

Minimum 11.2 9.9 6.1 5.4 6.3 2.8 3.4 3.3 3.0 1.6 3.3 1.9 0.9 1.2 0.0 0.4 0.0 0.0 0.0 0.0<br />

Tabelle D.2: Relative Vokalhäufigkeiten bei den einzelnen Sprechern im spontansprachlichen Korpus


,<br />

199 202 185 192 441 0.4 0.4 1.2 1.1 1.3<br />

212 D Vokalhäufigkeiten im Kiel Corpus of Spontaneous Speech<br />

Tabelle D.3: Die absoluten und relativen Gesamthäufigkeiten der Einzelvokale aus Spontan- und Lesesprache.<br />

Die Spalten Gemessen und Kanonisch beziehen sich auf die unterschiedliche Zählung der Vokale. Die gemessene<br />

Zählung bezieht sich auf die Anzahl der Vokalabschnitte, die in die akustische Messung von Kapitel 3 eingegangen<br />

sind, die kanonische Zählung auf die Anzahl der Vokale in den kanonischen Formen. Die Spalten Meier enthalten<br />

jeweils die absoluten und relativen Häufigkeiten aus der Zählung von 100 000 Lauten aus Prosa und Poesie<br />

von Meier (1967). Die Vokale sind nach ihrer Gesamthäufigkeit in der ‘gemessenen’ Spontansprache angeordnet,<br />

häufigste oben, seltenste unten. Eine graphische Aufbereitung der relativen Werte findet sich in Kapitel 3 auf<br />

Seite 57.<br />

Gesamt 44504 52432 16032 17712 33405<br />

-<br />

166 181 157 168 2260.4 0.3 1.0 0.9 0.7<br />

"186 444 32 72 2420.4 0.8 0.2 0.4 0.7<br />

*'260 260 252 240 3250.6 0.5 1.6 1.4 1.0<br />

+513 512 96 96 1021.2 1.0 0.6 0.5 0.3<br />

*544 559 196 192 2971.2 1.1 1.2 1.1 0.9<br />

)985 1043 533 540 9802.2 2.0 3.3 3.0 2.9<br />

%1094 1083 552 540 8522.5 2.1 3.4 3.0 2.6<br />

(1589 1673 428 432 9713.6 3.2 2.7 2.4 2.9<br />

'2104 2118 444 444 12884.7 4.0 2.8 2.5 3.9<br />

&2112 2126 1263 1236--- 4.7 4.1 7.9 7.0 ---<br />

%2118 2409 782 792 21094.8 4.6 4.9 4.5 6.3<br />

$2626 2628 743 720 11495.9 5.0 4.6 4.1 3.4<br />

#2639 2769 1106 1104 24495.9 5.3 6.9 6.2 7.3<br />

"2649 2982 988 1008 24646.0 5.7 6.2 5.7 7.4<br />

3704 3824 1355 1344 24588.3 7.3 8.5 7.6 7.4<br />

!3914 9935 2668 4308 86668.8 18.9 16.6 24.3 25.9<br />

4617 4745 776 804 156810.4 9.0 4.8 4.5 4.7<br />

6005 6342 1991 2016 396213.5 12.1 12.4 11.4 11.9<br />

Vokal Gemessen (s) Kanonisch (s) Gemessen (l) Kanonisch (l) Gemessen (s) Kanonisch (s) Gemessen (l) Kanonisch (l) Meier Meier<br />

6480 6597 1485 1464 285614.6 12.6 9.3 8.3 8.5<br />

Absolut Relativ<br />

Spontan Gelesen Spontan<br />

Gelesen


Anhang E<br />

Formantwerte der<br />

Monophthonge<br />

Tabellen E.1–E.4 enthalten Formantwerte für die einzelnen weiblichen<br />

(E.1 / E.2) und männlichen (E.3 / E.4) Vokalkategorien aus Inhaltswörtern<br />

in Lese- (E.1 / E.3) und Spontansprache (E.2 / E.4). Pro Vokal werden für<br />

die ersten drei Formanten die<br />

/<br />

Mediane ( ) und Quartile ( / ) in Hertz<br />

angegeben sowie die Anzahl der Tokens .<br />

).<br />

043 021 (5<br />

213


5<br />

214 E Formantwerte der Einzelvokale<br />

Tabelle E.1: Weibliche Formantwerte aus der Lesesprache<br />

. / 0267043 . 026 043 . / 026 083<br />

/<br />

9;:<br />

<<br />

: =<br />

><br />

F1 F2 F3<br />

Vokal<br />

316 289 354 2293 2090 2484 2792 2652 2975 264<br />

415 373 459 2095 1845 2292 2824 2637 3002 638<br />

345 324 369 1636 1457 1848 2577 2404 2677 87<br />

423 384 483 1600 1463 1747 2549 2434 2716 81<br />

: ?<br />

@<br />

413 381 451 2379 2210 2547 2900 2706 3064 301<br />

595 535 660 1964 1799 2113 2822 2621 2973 452<br />

: A<br />

B<br />

419 382 459 1672 1586 1765 2505 2384 2605 80<br />

588 544 675 1500 1481 1711 2712 2559 2865 12<br />

:<br />

512 471 551 2210 2130 2420 2933 2709 3036 17<br />

@<br />

:<br />

790 681 881 1342 1253 1427 2709 2534 2871 318<br />

C<br />

765 665 847 1451 1339 1579 2750 2559 2925 610<br />

C<br />

:<br />

445 412 478 882 784 1025 2805 2644 2968 178<br />

D<br />

624 555 692 1191 1104 1294 2716 2567 2869 132<br />

E<br />

:<br />

361 333 393 962 859 1115 2721 2588 2862 188<br />

F<br />

469 419 506 1116 1004 1210 2655 2527 2883 177<br />

G<br />

438 389 497 1702 1507 1884 2743 2583 2912 1080<br />

H<br />

607 522 691 1579 1395 1725 2745 2568 2916 520<br />

I


5<br />

215<br />

Tabelle E.2: Weibliche Formantwerte aus der Spontansprache<br />

. / 0267043 . 026 043 . / 026 043<br />

/<br />

9J:<br />

<<br />

: =<br />

><br />

F1 F2 F3<br />

Vokal<br />

330 301 376 2371 2171 2497 2868 2714 3044 504<br />

418 361 479 2093 1886 2310 2850 2696 2994 958<br />

385 345 428 1694 1484 1933 2666 2538 2867 65<br />

462 414 521 1460 1346 1670 2640 2485 2799 145<br />

: ?<br />

@<br />

438 394 490 2267 2083 2423 2880 2721 3010 746<br />

621 554 683 1987 1829 2148 2828 2696 2969 860<br />

: A<br />

B<br />

442 407 477 1768 1633 1875 2644 2564 2732 67<br />

586 547 637 1533 1470 1620 2590 2498 2659 57<br />

:<br />

460 384 517 2375 2268 2475 2912 2829 3056 18<br />

@<br />

:<br />

791 714 866 1495 1379 1629 2646 2493 2814 1256<br />

C<br />

789 707 879 1524 1397 1682 2706 2556 2879 1124<br />

C<br />

:<br />

467 429 529 1013 858 1203 2760 2612 2935 308<br />

D<br />

688 622 760 1202 1077 1304 2716 2567 2858 483<br />

E<br />

:<br />

394 357 450 1043 909 1194 2737 2580 2874 369<br />

F<br />

499 440 593 1259 1113 1452 2729 2523 2931 304<br />

G<br />

470 410 548 1779 1543 1984 2797 2639 2938 1125<br />

H<br />

681 601 761 1598 1412 1769 2736 2579 2894 649<br />

I


5<br />

217<br />

Tabelle E.4: Männliche Formantwerte aus der Spontansprache<br />

. / 0267043 . 026 043 . / 026 043<br />

/<br />

9J:<br />

<<br />

: =<br />

><br />

F1 F2 F3<br />

Vokal<br />

309 284 340 2039 1886 2177 2571 2420 2757 813<br />

353 321 402 1801 1633 1974 2484 2374 2610 1492<br />

326 293 368 1628 1514 1761 2261 2181 2327 109<br />

403 351 438 1323 1196 1416 2299 2204 2380 253<br />

:<br />

371 339 416 1940 1770 2079 2538 2426 2666 959<br />

?<br />

490 448 536 1667 1536 1786 2462 2354 2553 1107<br />

@<br />

: A<br />

B<br />

399 376 433 1514 1460 1643 2188 2080 2303 99<br />

477 450 503 1337 1269 1392 2251 2175 2346 65<br />

:<br />

398 362 427 1913 1787 2001 2503 2412 2628 31<br />

@<br />

:<br />

606 534 674 1278 1183 1381 2336 2216 2435 1733<br />

C<br />

617 546 686 1305 1198 1390 2418 2295 2529 1844<br />

C<br />

:<br />

419 383 484 881 771 1007 2457 2352 2590 406<br />

D<br />

538 493 586 1017 936 1101 2366 2252 2481 662<br />

E<br />

:<br />

358 325 412 962 849 1090 2365 2250 2515 452<br />

F<br />

440 393 489 1106 993 1243 2438 2274 2595 569<br />

G<br />

405 364 455 1540 1371 1683 2429 2315 2534 1715<br />

H<br />

522 472 594 1350 1213 1463 2414 2304 2521 885<br />

I


218 Literatur


Literatur<br />

Allen, J., M. S. Hunnicutt und D. H. Klatt (1987). From text to speech:<br />

The MITalk system. Cambridge: Cambridge University Press.<br />

Anderson, A., M. Bader, E. Bard, E. Boyle, G. Doherty, S. Garrod,<br />

S. Isard, J. Kowtko, J. McAllister, J. Miller, C. Sotillo, H. Thompson<br />

und R. Weinert (1991). The HCRC map task corpus. Language<br />

and Speech 34, 351–366.<br />

Barczinski, L. und E. Thienhaus (1935). Klangspektren und Lautstärke<br />

deutscher Sprachlaute. Achives néerlandaises de phonétique<br />

expérimentale 11, 47–68.<br />

Barry, W. J. (1995). Schwa vs. schwa + /r/ in German. Phonetica 52,<br />

228–235.<br />

Barry, W. J. und A. J. Fourcin (1992). Levels of labelling. Computer<br />

Speech and Language 6, 1–14.<br />

Bickley, C., K. N. Stevens und D. R. Williams (1997). A framework<br />

for synthesis of segments based on pseudoarticulatory parameters.<br />

In J. P. H. v. Santen, R. W. Sproat, J. P. Olive und J. Hirschberg<br />

(Hrsg.), Progress in Speech Synthesis, pp. 211–220. Berlin/Heidelberg/New<br />

York/Tokyo: Springer.<br />

Black, A. und N. Campbell (1995). Optimising selection of units from<br />

speech databases for concatenative synthesis. In Proc. of the 5th<br />

European Conference of Speech Communication and Technology,<br />

Volume 1, Madrid, pp. 581–584.<br />

Black, A. und P. Taylor (1994). CHATR: a generic speech synthesis<br />

system. In Proceedings of COLING-94, Volume 2, Kyoto, pp. 983–<br />

986.<br />

219


220 Literatur<br />

K<br />

Bladon, R., G. Henton und J. Pickering (1983). Towards an auditory<br />

theory of speaker normalization. Language and Communication 4,<br />

59–69.<br />

Bladon, R. A. W. (1985). Diphthongs: a case study of dynamic auditory<br />

processing. Speech Communication 4, 145–154.<br />

Bloomfield, L. (1930). LNMPOQ R8S QUTWVXSYL[Z . Le Maˆıtre Phonétique III 29,<br />

27–28.<br />

Boas, F. (1911). Handbook of American Indian Languages Part 1. Bureau<br />

of American Ethnology Bulletin 40. Washington: Government<br />

Printing Office.<br />

Boor, H. d., H. Moser und C. Winkler (Hrsg.) (1969). Siebs Deutsche<br />

Aussprache: Reine und gemäßigte Hochlautung mit Aussprachewörterbuch.<br />

Berlin: Walter de Gruyter.<br />

Bremer, O. (1893). Deutsche Phonetik. Leipzig: Breitkopf & Härtel.<br />

Bremer, O. (1918). Deutsche Lautlehre. Leipzig: Quelle & Meyer.<br />

Browman, C. P. und L. M. Goldstein (1989). Articulatory gestures as<br />

phonological units. Phonology 6, 201–251.<br />

Browman, C. P. und L. M. Goldstein (1992). Articulatory phonology:<br />

an overview. Phonetica 49, 155–180.<br />

Brownlee, S. A. (1996). The role of sentence stress in vowel reduction<br />

and formant undershoot: A study of lab speech and informal spontaneous<br />

speech. Ph. D. thesis, University of Texas at Austin.<br />

Buuren, Luc, v. (1983). Observations on phonation. Journal of the International<br />

Phonetic Association 13, 13–23.<br />

Catford, J. (1977). Fundamental Problems in Phonetics. Edinburgh:<br />

Edinburgh University Press.<br />

Catford, J. (1988). A Practical Introduction to Phonetics. Oxford: Clarendon<br />

Press.<br />

Chomsky, N. und M. Halle (1968). The Sound Pattern of English. New<br />

York: Harper and Row.<br />

Coleman, J. S. (1994). Polysyllabic words in the YorkTalk synthesis system.<br />

In P. A. Keating (Hrsg.), Phonological Structure and Phonetic<br />

Form: Papers in Laboratory Phonology III, pp. 293–324. Cambridge:<br />

Cambridge University Press.


221<br />

Coleman, J. S. (1998). Phonological Representations: Their names,<br />

forms and powers. Cambridge: Cambridge University Press.<br />

Collier, R., F. Bell-Berti und L. J. Raphael (1982). Some acoustic<br />

and physiological observations on diphthongs. Language and<br />

Speech 25, 305–323.<br />

Crothers, J. (1978). Typology and universals of vowel systems. In<br />

J. Greenberg, C. A. Ferguson und E. Moravcsik (Hrsg.), Universals<br />

of Human Language. Vol. 2, Phonology, pp. 93–152. Stanford:<br />

Stanford University Press.<br />

Crystal, T. H. und A. S. House (1982). Segmental durations in<br />

connected-speech signals: Preliminary results. Journal of the Acoustical<br />

Society of America 72, 705–716.<br />

Crystal, T. H. und A. S. House (1988a). Segmental durations in<br />

connected-speech signals: Current results. Journal of the Acoustical<br />

Society of America 83, 1553–1573.<br />

Crystal, T. H. und A. S. House (1988b). Segmental durations in<br />

connected-speech signals: Syllabic stress. Journal of the Acoustical<br />

Society of America 83, 1574–1585.<br />

Crystal, T. H. und A. S. House (1990). Articulation rate and the duration<br />

of syllables and stress groups in connected speech. Journal of the<br />

Acoustical Society of America 88, 101–112.<br />

Delattre, P. (1965). Comparing the phonetic features of English, German,<br />

Spanish and French. Heidelberg: Julius Groos Verlag.<br />

Diehl, R. L., B. Lindblom, K. A. Hoemeke und R. P. Fahey (1996). On<br />

explaining certain male-female differences in the phonetic realization<br />

of vowel categories. Journal of Phonetics 24, 187–208.<br />

DUDEN (1990). Das Aussprachewörterbuch (3 Aufl.). Mannheim: Dudenverlag.<br />

Engstrand, O. (1988). Articulatory correlates of stress and speaking rate<br />

in Swedish utterances. Journal of the Acoustical Society of America<br />

83, 1863–1875.<br />

Essen, O. v. (1953). Allgemeine und angewandte Phonetik. Berlin: Akademie<br />

Verlag.


222 Literatur<br />

\<br />

Fant, G. (1960). Acoustic Theory of Speech Production. The Hague:<br />

Mouton.<br />

Fant, G. (1966). A note on vocal tract size factors and non-uniform F-<br />

pattern scalings. STL-QPSR 4, 22–30.<br />

Fant, G. (1975). Non-uniform vowel normalization. STL-QPSR 2–3, 1–<br />

19.<br />

Firth, J. R. (1948). Sounds and prosodies. Transactions of the Philological<br />

Society, 127–152.<br />

Fischer-Jørgensen, E. (1964). Sound duration and place of articulation.<br />

Zeitschrift für Sprachwissenschaft und Kommunikationsforschung<br />

17, 175–207.<br />

Forchhammer, J. (1928). Kurze Einführung in die deutsche und allgemeine<br />

Lautlehre. Indogermanische Bibliothek Bd. 10. Heidelberg:<br />

Carl Winter.<br />

Gay, T. (1968). Effect of speaking rate on diphthong formant movements.<br />

Journal of the Acoustical Society of America 44, 1570–1573.<br />

Gay, T. (1978). Effect of speaking rate on vowel formant movements.<br />

Journal of the Acoustical Society of America 63, 223–230.<br />

Gibbon, D., R. Moore und R. Winski (Hrsg.) (1997). Handbook of Standards<br />

and Resources for Spoken Language Systems. Berlin/New<br />

York: Mouton de Gruyter.<br />

Godfrey, J. J., E. C. Holliman und J. McDaniel (1992). SWITCH-<br />

BOARD: Telephone speech corpus for research and development.<br />

In Proceedings IEEE Conference on Acoustics, Speech and Signal<br />

Processing, Volume 1, San Francisco, pp. 517–520.<br />

Goldsmith, J. (1990). Autosegmental and Metrical Phonology. Oxford:<br />

Blackwell.<br />

Grützmacher, M. (1927). Eine neue Methode der Klanganalyse. Elektrische<br />

Nachrichtentechnik 4, 533.<br />

Hall, T. A. (1993). The phonology of German ]_^`] . Phonology 10, 83–<br />

105.<br />

Heid, S., M.-B. Wesenick und C. Draxler (1995). Phonetic analysis of<br />

vowel segments in the PhonDat data base of spoken German. In<br />

Proc. XIIIth ICPhS, Volume 4, Stockholm, pp. 416–419.


223<br />

Hemphill, C. T., J. J. Godfrey und G. R. Doddington (1990). The ATIS<br />

spoken language systems pilot corpus. In Proc. of the Speech and<br />

Natural Language Workshop, Hidden Valley, PA, pp. 96–101.<br />

Henton, G. (1995). Cross-language variation in the vowels of female<br />

and male speakers. In Proc. XIIIth ICPhS, Volume 4, Stockholm,<br />

pp. 420–423.<br />

Hillenbrand, J., L. A. Getty, M. J. Clark und K. Wheeler (1995). Acoustic<br />

characteristics of American English vowels. Journal of the<br />

Acoustical Society of America 97, 3099–3111.<br />

Holbrook, A. und G. Fairbanks (1962). Diphthong formants and their<br />

movements. Journal of Speech and Hearing Research 5, 33–58.<br />

Iivonen, A. (1970). Experimente zur Erklärung der spektralen Variation<br />

deutscher Phonemrealisationen. Commentationes Humanarum<br />

Litterarum, Volume 45. Helsinki: Societas Scientiarum Fennica.<br />

Iivonen, A. (1979). Zum Studium deutscher Vokale: Formantmessungen<br />

und auditive Simulierung des Vokalspektrums. In K. Ezawa,<br />

K. Rensch und W. Bethge (Hrsg.), Sprache und Sprechen. Festschrift<br />

für Eberhard Zwirner zum 80. Geburtstag. Niemeyer.<br />

Iivonen, A. (1983). Zur Frage der regionalen Variation der hochdeutschen<br />

betonten Monophthonge. Neuphilologische Mitteilungen 84,<br />

45–52.<br />

Iivonen, A. (1984). Die hochdeutschen und schweizerhochdeutschen<br />

betonten Monophthonge. In Proc. Xth ICPhS, Volume IIB,<br />

Dordrecht, pp. 191–196. Foris.<br />

Iivonen, A. (1987a). Monophthonge des gehobenen Wienerdeutsch. Folia<br />

Linguistica 21, 293–336.<br />

Iivonen, A. (1987b). Regional differences in the realization of Standard<br />

German vowels. In Proc. XIth ICPhS, Volume 4, Tallinn, pp. 161–<br />

164.<br />

Iivonen, A. (1993). Hochsprachliche Realisierung auf alemannischem<br />

Hintergrund. In M. Bonner, E. Braun und H. Fix (Hrsg.), Thematische<br />

und systematische Festschrift zum 70. Geburtstag von Max<br />

Mangold, pp. 168–183. Saarbrücken: Saarbrücker Druckerei und<br />

Verlag.


224 Literatur<br />

a<br />

Indefrey, H., W.-J. Hess und G. Seeser (1985). Design and evaluation<br />

of double-transform pitch determination algorithms with nonlinear<br />

distortion in the frequency domain - preliminary results. In Proc.<br />

IEEE Int. Conf. ASSP-85, Paper 635.<br />

IPDS (1994). The Kiel Corpus of Read Speech, Volume 1, CD-ROM#1.<br />

Kiel: Institut für Phonetik und digitale Sprachverarbeitung.<br />

IPDS (1995). The Kiel Corpus of Spontaneous Speech, Volume 1, CD-<br />

ROM#2. Kiel: Institut für Phonetik und digitale Sprachverarbeitung.<br />

IPDS (1996). The Kiel Corpus of Spontaneous Speech, Volume 2, CD-<br />

ROM#3. Kiel: Institut für Phonetik und digitale Sprachverarbeitung.<br />

IPDS (1997a). The Kiel Corpus of Spontaneous Speech, Volume 3,<br />

CD-ROM#4. Kiel: Institut für Phonetik und digitale Sprachverarbeitung.<br />

IPDS (1997b). xassp User’s Manual (Advanced Speech Signal Processor<br />

under the X Window System). In A. P. Simpson, K. J. Kohler<br />

und T. Rettstadt (Hrsg.), The Kiel Corpus of Read/Spontaneous<br />

Speech — Acoustic data base, processing tools and analysis results,<br />

<strong>AIPUK</strong> 32, pp. 31–115.<br />

Jakobson, R., G. Fant und M. Halle (1952). Preliminaries to Speech<br />

Analysis. Cambridge: MIT Press.<br />

Jones, D. (1917). English Pronouncing Dictionary. London: Dent.<br />

Jones, D. (1967). The Phoneme: Its Nature and Use (3 Aufl.). Cambridge:<br />

Heffer.<br />

Jørgensen, H. (1969). Die gespannten und ungespannten Vokale in der<br />

norddeutschen Hochsprache mit einer spezifischen Untersuchung<br />

der Struktur ihrer Formantfrequenzen. Phonetica 19, 217–245.<br />

Karger, R. und W. Wahlster (1994). VERBMOBIL Handbuch. Verbmobil<br />

Technisches Dokument Nr. 17. Saarbrücken: DFKI.<br />

Kent, R. D. und C. Read (1992). The Acoustic Analysis of Speech. San<br />

Diego/London: Singular.<br />

Klatt, D. H. (1980). Software for a cascade/parallel synthesizer. Journal<br />

of the Acoustical Society of America 67, 971–995.


225<br />

Klatt, D. H. und L. C. Klatt (1990). Analysis, synthesis, and perception<br />

of voice quality variations among female and male talkers. Journal<br />

of the Acoustical Society of America 87, 820–857.<br />

Knowles, G. und P. Alderson (1995). Working with speech: The computational<br />

analysis of formal British English speech. London: Longmans.<br />

Kohler, K. J. (1977). Einführung in die Phonetik des Deutschen. Berlin:<br />

Erich Schmidt.<br />

Kohler, K. J. (1992a). Automatische Generierung der kanonischen<br />

Transkription und des Aussprachelexikons. In K. J. Kohler (Hrsg.),<br />

Phonetisch-akustische Datenbasis des Hochdeutschen: Kieler Arbeiten<br />

zu den PHONDAT-Projekten 1989–1992, <strong>AIPUK</strong> 26, pp.<br />

175–196.<br />

Kohler, K. J. (Hrsg.) (1992b). Phonetisch-akustische Datenbasis des<br />

Hochdeutschen: Kieler Arbeiten zu den PHONDAT-Projekten<br />

1989–1992. <strong>AIPUK</strong> 26.<br />

Kohler, K. J. (1994). Glottal stops and glottalization in German. Data<br />

and theory of connected speech processes. Phonetica 51, 38–51.<br />

Kohler, K. J. (1995a). Einführung in die Phonetik des Deutschen (2<br />

Aufl.). Berlin: Erich Schmidt.<br />

Kohler, K. J. (1995b). PROLAB - the Kiel system of prosodic labelling.<br />

In Proc. XIIIth ICPhS, Volume 3, Stockholm, pp. 162–165.<br />

Kohler, K. J. (1995c). The realization of plosives in nasal/lateral environments<br />

in spontaneous speech in German. In Proc. XIIIth ICPhS,<br />

Volume 2, Stockholm, pp. 210–213.<br />

Kohler, K. J., G. Lex, M. Pätzold, M. T. M. Scheffers, A. P. Simpson und<br />

W. Thon (1994). Handbuch zur Datenaufnahme und Transliteration<br />

in TP14 von Verbmobil - 3.0. Verbmobil Technisches Dokument<br />

Nr. 11.<br />

Kohler, K. J., M. Pätzold und A. P. Simpson (1995). From scenario to<br />

segment: the controlled elicitation, transcription, segmentation and<br />

labelling of spontaneous speech. <strong>AIPUK</strong> 29.<br />

Kohler, K. J., M. Pätzold und A. P. Simpson (1997). Von der akustischen<br />

Datensammlung zu einer etikettierten Sprachdatenbasis für<br />

das gesprochene Standarddeutsch. <strong>AIPUK</strong> 32a.


226 Literatur<br />

b<br />

Koopmans-van Beinum, F. J. (1980). Vowel Contrast Reduction: an<br />

Acoustic and Perceptual Study of Dutch Vowels in Various Speech<br />

Conditions. Amsterdam: Academische Pers B.V.<br />

Krech, H., E.-M. Krech, E. Kurka, H. Stelzig, E. Stock, U. Stötzer und<br />

R. Teske (Hrsg.) (1964). Wörterbuch der deutschen Aussprache (2<br />

Aufl.). Leipzig: VEB Verlag Enzyklopädie Leipzig.<br />

Ladefoged, P. (1996). Elements of Acoustic Phonetics. Chicago: The<br />

University of Chicago Press.<br />

Ladefoged, P. und I. Maddieson (1996). The Sounds of the World’s Languages.<br />

Oxford: Basil Blackwell.<br />

Lamel, L., R. Kassel und S. Seneff (1986). Speech database development:<br />

design and analysis of the acoustic-phonetic corpus. In<br />

Proc. DARPA Speech Recognition Workshop, pp. 100–109.<br />

Lass, R. (1984). Phonology. An Introduction to Basic Concepts. Cambridge:<br />

Cambridge University Press.<br />

Laver, J. (1980). The phonetic description of voice quality. Cambridge:<br />

Cambridge University Press.<br />

Lee, K.-F., H.-W. Hon und R. Reddy (1990). An overview of the<br />

SPHINX speech recognition system. In A. Waibel und K.-F. Lee<br />

(Hrsg.), Readings in Speech Recognition, pp. 600–610. San Mateo,<br />

CA: Kaufmann.<br />

Lehiste, I. (1964). Acoustical characteristics of some English consonants.<br />

The Hague: Mouton.<br />

Lehiste, I. und G. E. Peterson (1961). Transitions, glides and diphthongs.<br />

Journal of the Acoustical Society of America 33, 268–<br />

277.<br />

Lindblom, B. (1963). Spectrographic study of vowel reduction. Journal<br />

of the Acoustical Society of America 35, 1773–1781.<br />

Lindblom, B. (1990). Explaining phonetic variation: a sketch of the H<br />

and H theory. In W. J. Hardcastle und A. Marchal (Hrsg.), Speech<br />

production and speech modeling., pp. 403–439. Dordrecht: Kluwer<br />

Academic Publishers.<br />

Lindblom, B., S. A. Brownlee und R. Lindgren (1996). Formant undershoot<br />

and speaking styles: An attempt to resolve some controversial


227<br />

issues. In A. P. Simpson und M. Pätzold (Hrsg.), Sound Patterns<br />

of Connected Speech: Description, Models, and Explanation, AI-<br />

PUK 31, pp. 119–130.<br />

Lindblom, B. und S.-J. Moon (1988). Formant undershoot in clear and<br />

citation-form speech. Perilus VIII, 21–33.<br />

Local, J. K. (1982). Modelling intonational variability in children’s<br />

speech. In S. Romaine (Hrsg.), Sociolinguistic Variation in Speech<br />

Communities. London: Edward Arnold.<br />

Local, J. K. (1992). Modeling assimilation in nonsegmental, rule-free<br />

synthesis. In G. Docherty und D. R. Ladd (Hrsg.), Papers in Laboratory<br />

Phonology II: Gesture, Segment, Prosody, pp. 190–223.<br />

Cambridge: Cambridge University Press.<br />

Local, J. K. und J. Kelly (1986). Projection and ‘silences’: notes on<br />

phonetic detail and conversational structure. Human Studies 9, 185–<br />

204.<br />

Local, J. K., J. Kelly und W. H. G. Wells (1986). Some phonetic aspects<br />

of turn-delimitation in the speech of Urban Tynesiders. Journal of<br />

Linguistics 22, 411–437.<br />

Local, J. K. und R. Ogden (1997). A model of timing for nonsegmental<br />

phonological structure. In J. P. H. v. Santen, R. W. Sproat, J. P. Olive<br />

und J. Hirschberg (Hrsg.), Progress in Speech Synthesis, pp. 109–<br />

121. Berlin/Heidelberg/New York/Tokyo: Springer.<br />

Local, J. K., W. H. G. Wells und M. Sebba (1986). Phonetic aspects<br />

of turn delimitation in London Jamaican. Journal of Pragmatics 9,<br />

309–330.<br />

Macaulay, R. K. S. (1978). Variation and consistency in Glaswegian<br />

English. In P. Trudgill (Hrsg.), Sociolinguistic Patterns in British<br />

English, pp. 132–143. Edward Arnold.<br />

MacCarthy, P. (1975). The Pronunciation of German. London: Oxford<br />

University Press.<br />

Maurer, D., N. Cook, T. Landis und C. D’Heureuse (1992). Are measured<br />

differences between the formants of men, women and children<br />

due to Fc differences? Journal of the International Phonetic Association<br />

21, 66–79.


228 Literatur<br />

d<br />

Meier, H. (1967). Deutsche Sprachstatistik (2 Aufl.), Volume 1. Hildesheim:<br />

Georg Olms.<br />

Meinhold, G. (1973). Deutsche Standardaussprache. Lautschwächungen<br />

und Formstufen. Jena: Friedrich-Schiller-Universität.<br />

Meinhold, G. (1989). Das problematische [e ]. In Slembek (Hrsg.), Von<br />

Lauten und Leuten. Festschrift für Peter Martens zum 70. Geburtstag<br />

(Sprache und Sprechen 21), pp. 119–125. Frankfurt am Main:<br />

Scriptor Verlag.<br />

Meinhold, G. und E. Stock (1982). Phonologie der deutschen Gegenwartssprache<br />

(2 Aufl.). Leipzig: VEB Bibliographisches Institut<br />

Leipzig.<br />

Menzerath, P. und A. d. Lacerda (1933). Koartikulation, Steuerung und<br />

Lautabgrenzung. Phonetische Studien 1. Berlin/Bonn: Dümmlers.<br />

Meyer-Eppler, W. (1959). Zur Spektralstruktur der /r/-Allophone des<br />

Deutschen. Akustica 9, 246–250.<br />

Milroy, J. und L. Milroy (1985). Linguistic change, social network and<br />

speaker innovation. Journal of Linguistics 21, 339–384.<br />

Mohanan, K. P. (1986). The Theory of Lexical Phonology. Dordrecht:<br />

Reidel.<br />

Moon, S.-J. (1991). An acoustic and perceptual study of undershoot in<br />

clear and citation-form speech. Ph. D. thesis, University of Texas at<br />

Austin.<br />

Moon, S.-J. und B. Lindblom (1994). Interaction between duration,<br />

context, and speaking style in English stressed vowels. Journal of<br />

the Acoustical Society of America 96, 40–55.<br />

Moulton, W. G. (1947). Juncture in Modern Standard German. Language<br />

23, 212–226.<br />

Narahara, Y. und H. Shimoda (1977). Akustisch-phonetische Studie<br />

über die deutschen Vokale. In Y. Narahara, T. Okamoto und H. Shimoda<br />

(Hrsg.), Beiträge zur Phonetik des Deutschen, Forum Phoneticum<br />

14, pp. 1–43. Hamburg: Buske.<br />

Narahara, Y., H. Shimoda und T. Okamoto (1977). Akustischphonetische<br />

Studie über die deutschen Diphthonge. In Y. Narahara,<br />

T. Okamoto und H. Shimoda (Hrsg.), Beiträge zur Phonetik des<br />

Deutschen, Forum Phoneticum 14, pp. 44–85. Hamburg: Buske.


229<br />

Nord, L. (1975). Vowel reduction — centralization or contextual assimilation?<br />

In G. Fant (Hrsg.), Proceedings of the Speech Communication<br />

Seminar, Stockholm, pp. 149–154. Almqvist & Wiksell.<br />

Nord, L. (1986). Acoustic studies of vowel reduction in Swedish. STL-<br />

QPSR 4/1986, 19–36.<br />

Öhman, S. E. G. (1966). Coarticulation in VCV utterances: Spectrographic<br />

measurements. Journal of the Acoustical Society of America<br />

39, 151–168.<br />

Pätzold, M. (1997). KielDat – data bank utilities for the Kiel Corpus. In<br />

A. P. Simpson, K. J. Kohler und T. Rettstadt (Hrsg.), The Kiel Corpus<br />

of Read/Spontaneous Speech — Acoustic data base, processing<br />

tools and analysis results, <strong>AIPUK</strong> 32, pp. 117–126.<br />

Pätzold, M., M. Scheffers, A. P. Simpson und W. Thon (1995). Controlled<br />

elicitation and processing of spontaneous speech in Verbmobil.<br />

In Proc. XIIIth ICPhS, Volume 3, Stockholm, pp. 314–317.<br />

Pätzold, M. und A. P. Simpson (1994). Das Kieler Szenario zur Terminabsprache.<br />

Verbmobil Memo Nr. 53.<br />

Pätzold, M. und A. P. Simpson (1997). Acoustic analysis of German<br />

vowels in the Kiel Corpus of Read Speech. In A. P. Simpson, K. J.<br />

Kohler und T. Rettstadt (Hrsg.), The Kiel Corpus of Read/Spontaneous<br />

Speech — Acoustic data base, processing tools and analysis<br />

results, <strong>AIPUK</strong> 32, pp. 215–247.<br />

Peterson, G. und H. Barney (1952). Control methods used in the study<br />

of vowels. Journal of the Acoustical Society of America 24, 175–<br />

184.<br />

Peterson, G. und I. Lehiste (1960). Duration of syllable nuclei in English.<br />

Journal of the Acoustical Society of America 32, 693–703.<br />

Pike, K. L. (1943). Phonetics. A critical analysisof phonetic theory and<br />

a technic for the practical description of sounds. Ann Arbor: The<br />

University of Michigan Press.<br />

Pompino-Marschall, B. (1995). Einführung in die Phonetik. Berlin/New<br />

York: Walter de Gruyter.<br />

Potter, R. K., G. A. Kopp und H. G. Kopp (1966). Visible Speech. New<br />

York: Dover Publications.


230 Literatur<br />

f<br />

Ramers, K. H. (1988). Vokalquantität und -qualität im Deutschen. Linguistische<br />

Arbeiten 213. Tübingen: Niemeyer.<br />

Rausch, A. (1972). Untersuchungen zur Vokalartikulation im Deutschen.<br />

In H. Kelz und A. Rausch (Hrsg.), Beiträge zur Phonetik.<br />

IPK-Forschungsberichte, Volume 30.<br />

Roach, P. J., G. O. Knowles, T. Varadi und S. C. Arnfield (1994). MAR-<br />

SEC: A MAchine-Readable Spoken English Corpus. Journal of the<br />

International Phonetic Association 23(2), 47–54.<br />

Rodgers, J. E. J., P. Helgason und K. J. Kohler (1997). Segment deletion<br />

in the Kiel Corpus of Spontaneous Speech. In A. P. Simpson, K. J.<br />

Kohler und T. Rettstadt (Hrsg.), The Kiel Corpus of Read/Spontaneous<br />

Speech — Acoustic data base, processing tools and analysis<br />

results, <strong>AIPUK</strong> 32, pp. 127–176.<br />

Romaine, S. (1978). Postvocalic /r/ in Scottish English: sound change in<br />

progress? In P. Trudgill (Hrsg.), Sociolinguistic Patterns in British<br />

English, pp. 144–157. Edward Arnold.<br />

Saito, S. und K. Nakata (1985). Fundamentals of speech signal processing.<br />

Tokyo/Orlando/London: Academic Press.<br />

Schäfer-Vincent, K. (1982). Significant points: Pitch period detection<br />

as a problem of segmentation. Phonetica 39, 241–253.<br />

Schäfer-Vincent, K. (1983). Pitch period detection and chaining: Method<br />

and evaluation. Phonetica 40, 177–202.<br />

Scheffers, M. T. M. und A. P. Simpson (1995). LACS: Label assisted<br />

copy synthesis. In Proc. XIIIth ICPhS, Volume 2, Stockholm, pp.<br />

346–349.<br />

Sendlmeier, W. (1982). Der Einfluß von Qualität und Quantität auf die<br />

Perzeption betonter Vokale des Deutschen. Phonetica 38, 291–308.<br />

Seneff, S., J. Glass, D. Goddeau, D. Goodine, L. Hirschman, H. Leung,<br />

M. Philips, J. Polifroni und V. Zue (1991). Development and preliminary<br />

evaluation of the MIT ATIS system. In Proc. of the Speech<br />

and Natural Language Workshop, Pacific Grove, CA, pp. 88–93.<br />

Shockey, L. (1974). Phonetic and Phonological Properties of Connected<br />

Speech. Ph. D. thesis, Ohio State University, Ohio.<br />

Siebs, T. (1927). Deutsche Bühnenaussprache. Berlin: Ahn & Simrock.


231<br />

Simpson, A. P. (1991). Writing phonological statements from naturally<br />

occurring talk: an experiment in method. Ph. D. thesis, University<br />

of York.<br />

Simpson, A. P. (1992). Casual speech rules and what the phonology of<br />

connected speech rules might really be like. Linguistics 30, 535–<br />

548.<br />

Simpson, A. P. und M. T. M. Scheffers (1996). Knowledge-based copy<br />

synthesis as a tool in connected speech research. In A. P. Simpson<br />

und M. Pätzold (Hrsg.), Sound Patterns of Connected Speech: Description,<br />

Models, and Explanation, <strong>AIPUK</strong> 31, pp. 165–172.<br />

Son, R. J. J. H. v. und L. C. W. Pols (1990). Formant frequencies of<br />

Dutch vowels in a text, read at normal and fast rate. Journal of the<br />

Acoustical Society of America 88(4), 1683–1693.<br />

Sotschek, J. (1976a). Methoden zur Messung der Sprachgüte I: Verfahren<br />

zur Bestimmung der Satz- und Wortverständlichkeit. Der Fernmeldeingenieur<br />

30(10), 1–31.<br />

Sotschek, J. (1976b). Methoden zur Messung der Sprachgüte II: Verfahren<br />

zur Bestimmung der Satz- und Wortverständlichkeit. Der Fernmeldeingenieur<br />

30(12), 1–33.<br />

Sovijärvi, A. (1965). Der mokschamordvinische g -Vokal im Lichte der<br />

Sonagramme. In Publicationes instituti phonetici universitatis Helsingiensis,<br />

Volume 20, Helsinki.<br />

Sproat, R. und O. Fujimura (1993). Allophonic variation in English /l/<br />

and its implications for phonetic implementation. Journal of Phonetics<br />

21, 291–311.<br />

Stevens, K. N. (1987). Interaction between acoustic sources and vocaltract<br />

configurations for consonants. In Proc. XIth ICPhS, Volume 3,<br />

Tallinn, pp. 385–389.<br />

Stevens, K. N. (1989). On the quantal nature of speech. Journal of Phonetics<br />

17, 3–45.<br />

Stevens, K. N. und C. A. Bickley (1991). Constraints among parameters<br />

simplify control of Klatt formant synthesizer. Journal of Phonetics<br />

19, 161–174.


232 Literatur<br />

h<br />

Stevens, K. N. und A. S. House (1963). Perturbation of vowel articulations<br />

by consonantal context: An acoustical study. Journal of Speech<br />

and Hearing Research 6, 111–128.<br />

Stevens, K. N., A. S. House und A. P. Paul (1966). Acoustical description<br />

of syllabic nuclei: An interpretation in terms of a dynamic model<br />

of articulation. Journal of the Acoustical Society of America 40,<br />

123–132.<br />

Sütterlin, L. (1908). Die Lehre von der Lautbildung. Leipzig: Quelle &<br />

Meyer.<br />

Sweet, H. (1877). Handbook of Phonetics. Oxford: Clarendon Press.<br />

Sweet, H. (1890). A Primer of Phonetics. Oxford: Clarendon Press.<br />

Swerts, M. und R. Collier (1992). On the controlled elicitation of spontaneous<br />

speech. Speech Communication 11, 463–468.<br />

Thon, W. und W. v. Dommelen (1992). PHONDAT90: Rechnerverarbeitbare<br />

Sprachaufnahmen eines umfangreichen Korpus des Deutschen.<br />

In K. J. Kohler (Hrsg.), Phonetisch-akustische Datenbasis<br />

des Hochdeutschen: Kieler Arbeiten zu den PHONDAT-Projekten<br />

1989–1992, <strong>AIPUK</strong> 26, pp. 41–79.<br />

Tillmann, H. G., C. Draxler, K. Kotten und F. Schiel (1995). The phonetic<br />

goals of the new Bavarian Archive for Speech Signals. In Proc.<br />

XIIIth ICPhS, Volume 4, Stockholm, pp. 550–553.<br />

Traunmüller, H. (1990). Analytical expressions for the tonotopic sensory<br />

scale. Journal of the Acoustical Society of America 88, 97–100.<br />

Trubetzkoy, N. S. (1939). Grundzüge der Phonologie. Travaux du cercle<br />

linguistique de Prague 7. Prague.<br />

Trudgill, P. (1974). The Social Differentiation of English in Norwich.<br />

Cambridge: Cambridge University Press.<br />

Ulbrich, H. (1972). Instrumentalphonetisch-auditive R-<br />

Untersuchungen im Deutschen. Schriften zur Phonetik und<br />

Kommunikationsforschung Nr. 13. Berlin: Akademie Verlag.<br />

URL (1). http://andosl.anu.edu.au/andosl/ANDOSLhome.html. Australian<br />

National Database of Spoken Language.<br />

URL (2). http://www.phonetik.uni-muenchen.de/Bas/BasHomeeng.html.<br />

Bavarian Archive for Speech Signals.


URL (3). http://www.cstr.ed.ac.uk/artic/accor.html. EUR-ACCOR.<br />

URL (4). http://www.ldc.upenn.edu/. Linguistic Data Consortium.<br />

233<br />

URL (5). http://www.ldc.upenn.edu/ldc/catalog/html/speech html/scr.html.<br />

Linguistic Data Consortium.<br />

URL (6). http://www.biostat.wisc.edu/ubeam/xray.html. University of<br />

Wisconsin.<br />

Viëtor, W. (1894). Elemente der Phonetik des Deutschen, Englischen<br />

und Französischen. Leipzig: Reisland.<br />

Viëtor, W. (1925). Die Aussprache des Schriftdeutschen (11 Aufl.).<br />

Leipzig: Reisland.<br />

Vogten, L. M. (1983). Analyse, zuinige codering en resynthese van<br />

spraakgeluid. Ph. D. thesis, Eindhoven University of Technology.<br />

Wängler, H.-H. (1963). Grundriß einer Phonetik des Deutschen (mit<br />

einer allgemeinen Einführung in die Phonetik). Marburg: Elwert.<br />

Wells, J. C., W. J. Barry und A. J. Fourcin (1989). Transcription, labelling<br />

and reference. In A. J. Fourcin, G. Harland, W. J. Barry und<br />

V. Hazan (Hrsg.), Speech Technology Assessment. Towards Standards<br />

and Methods for the EUROPEAN COMMUNITY, pp. 141–<br />

159. Chichester: Ellis Horwood.<br />

Westbury, J. R. (1994). X-ray microbeam speech production database<br />

user’s handbook, version 1.0. Madison WI.<br />

Willems, L. F. (1987). Robust formant analysis for speech synthesis. In<br />

Proc. of European Conference of Speech Technology, Volume 1, pp.<br />

250–253.<br />

Zacher, O. (1969). Deutsche Phonetik. Leningrad: Verlag Bildung.<br />

Zwicker, E. und H. Fastl (1990). Psychoacoustics. Facts and Models.<br />

Berlin: Springer.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!