Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi

Inhaltsverzeichnis 

Kann man mit dem Bauch reden? 

Eine physikalische Untersuchung 

Jörg Metzner, Marcel Schmittfull 

März 2005 

1 Einleitung 1 

2 Lautentstehung beim Menschen 1 

2.1 Stimmhafte Anregung durch die Glottis . . . . . . . . . . . . . . . . . . . . . . . . 1 

2.2 Filterfunktion des Vokaltrakts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt . . . . . . . . . . 2 

2.4 Formanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.5 Bauchreden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

3 Vokaltraktmodelle 4 

3.1 Einfaches Röhrenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

3.1.1 Kurzbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

3.1.2 Berechnung der Übertragungsfunktion . . . . . . . . . . . . . . . . . . . . . 4 

3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren . . . . . . . . . . . 7 

3.2 3D Modell nach Birkholz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

4 Modellgestützte Simulation der Ersatzlaute 8 

4.1 Die Plosivlaute [b] und [p] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

4.2 Der Nasal [m] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

4.3 Die Frikative [f] und [w] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

5 Lautsimulation im realen Experiment mit Hilfe eines Gipsmodells 13 

6 Analyse von Bauchredner-Aufnahmen 13 

6.1 Die Lautübergänge [ba] mit Lippen und [b’a] ohne Lippen . . . . . . . . . . . . . . 13 

6.2 Die Lautübergänge [pa] mit Lippen und [p’a] ohne Lippen . . . . . . . . . . . . . . 14 

6.3 Vergleich mit modellerzeugten Lautübergängen und Fehleranalyse . . . . . . . . . 14 

7 Schlussbemerkung und Ausblick 14 

A Phonetik 17 

B Abbildungen 18

2 LAUTENTSTEHUNG BEIM MENSCHEN 1 

1 Einleitung 

2 Lautentstehung beim Menschen 

Bei der Lauterzeugung muss zwischen der Schallerzeugung an den Stimmbändern und der Schallmodifikation 

des restlichen Vokaltrakts unterschieden werden. 

2.1 Stimmhafte Anregung durch die Glottis 

Aus der Lunge strömt Luft nach oben in Richtung der Stimmbänder. Der dadurch aufgebaute 

Druck wird so groß, dass er eine kurzzeitige Öffnung der Stimmbänder und somit der Glottis 

1 bewirkt. Während der Öffnung entweicht die Luft in den Vokaltrakt und der Druck auf die 

Stimmbänder verringert sich, so dass sich die Glottis wieder schließt – bis der Druck erneut für 

eine Öffnung ausreicht. So entsteht ein periodisches Öffnen und Schließen der Glottis, welches zu 

einem Schallsignal führt. Oftmals werden die beiden Stimmbänder durch ein Zwei-Massen-Modell 

simuliert, da diese das Öffnen und Schließen der Stimmbänder in Abhängigkeit des auf sie wirkenden 

Drucks gut beschreiben können. Das gleiche Phänomen ist auch beim Entweichen von Luft 

aus einem Luftballon, dessen Öffnung auseinander gezogen wird, zu beobachten. Der entstehende 

Grundlaut muss im Vokaltrakt nun noch zu einem vollständigen Laut umgeformt werden. 

2.2 Filterfunktion des Vokaltrakts 

Die verschiedenen Artikulatoren (Zunge, Velum, Kiefer, Lippe) bestimmen die Geometrie des Vokaltrakts. 

Von dieser Geometrie ist die weitere Entwicklung des aus der Glottis kommenden Schallsignals 

abhängig. Um den Einfluss der Vokaltraktgeometrie auf die Lautbildung herauszufinden, 

können verschiedene Modelle betrachtet werden. In den Kapiteln 3.1 und 3.2 werden wir insbesondere 

auf das einfache Röhrenmodell und das von Birkholz weiterentwickelte Mermelstein-Modell 

eingehen. 

2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt 

Fasst man die Anregungsfunktion der Glottis als Quelle, die Übertragungsfunktion des Vokaltrakts 

als Filter auf, so entsteht das in Abb. 4 gezeigte Quelle-Filter-Modell für die Lautbildung. 

Glottis 

Die durch das periodische Öffnen und Schließen der Glottis entstehenden Schallwellen haben einen 

Schalldruck p, der die lokale Veränderung des Luftdrucks gegenüber dem Normaldruck beschreibt. 

Neben dem Schalldruck kann die Schallwelle auch durch eine Schallschnelle v dargestellt werden, 

die die Oszillation der einzelnen Luftteilchen angibt. Multipliziert man die Schallschnelle v mit 

der Querschnittsfläche A des Rohrs, so erhält man den Volumenstrom oder Schallfluss u = v · A. 

Der Quotient aus Schalldruck und Volumenstrom wird als akustische Impedanz p 

u bezeichnet. 

Vokaltrakt 

Von der Glottis kommt nun ein Signal x(t) in den Vokaltrakt. Dieses Eingangssignal kann durch 

Linearkombinationen von Diracimpulsen δ(t) beschrieben werden. Die Modifikation dieser Impulsfunktion 

im Vokaltrakt wird als Impulsantwort h(t) des Systems bezeichnet. Das schließliche 

Ausgangssignal y(t) erhält man mathematisch betrachtet aus der Faltung y(t) = x(t)∗h(t) des Eingangssignals 

mit der Impulsantwort (vgl. [16]). Wichtig ist insbesondere, dass die Impulsantwort 

das akustische System des Vokaltrakts vollständig beschreibt. 

Während die Impulsantwort das Endsignal y(t) im Zeitbereich liefert, vermag die sog. Übertragungsfunktion 

H(ω) angewandt auf das Eingangssignal X(ω) das Endsignal Y (ω) im Frequenzbereich, 

d.h. in Abhängigkeit der ω anzugeben. Zur Analyse am Computer muss das zeitkontinuierliche 

Endsignal y(t) mit einer bestimmten Abtastfrequenz fA abgetastet werden, d.h. y(t) wird 

1 Als Glottis bezeichnet man den Hohlraum zwischen den beiden Stimmbändern.


zu einer diskreten Funktion mit Werten an Zeitpunkten mit dem Abstand TA = 1 . Nach dem 

fA 

Abtasttheorem (vgl. [11], [16]) muss die Abtastfrequenz den doppelten Wert der höchsten in dem 

zu analysierenden Signal vorkommenden Frequenz haben, um die Eindeutigkeit der Frequenzen zu 

gewährleisten. Bei einer Abtastrate von z.B. 44100 Hz (CD-Qualität) kommen also nur Frequenzen 

bis maximal 22050 Hz vor. 

Zur Analyse eines Signals wird üblicherweise die frequenzabhängige Darstellung X(ω) betrachtet. 

Diese Darstellung wird als das Spektrum des Endsignals bezeichnet, da es anschaulich 

gesprochen für die Stärke des Vorliegens einzelner Frequenzen in dem Signal steht. Formal läuft 

dies darauf hinaus, dass ein periodisches Signal x(t) als Fourier-Reihe 

x(t) = 

∞ 

k=−∞ 

αke jkω0t 

mit der Grundfrequenz ω0 dargestellt wird. Die Menge der Harmonischen e jkω0t = cos kω0t + 

j sin kω0t bildet hierbei ein vollständiges Orthogonalsystem. Für die Koeffizienten αi in (2.1) erhält 

man (vgl. [9], [7]) 

αk = 1 

T 

T 

0 

(2.1) 

x(t)e −jkω0t dt, (2.2) 

wobei die untere Grenze des Integrals beliebig ist, solange über das Intervall einer Periode T = 2π 

ω0 

integriert wird. Die Phase der komplexen αk beschreibt die möglichen Phasenverschiebungen der 

Basen ejkωt in (2.1), während die Beträge |αk| für die Amplitude stehen. In einem Linienspektrum 

werden eben diese Beträge |αk|, meist in der logarithmischen Skalierung Dezibel, gegen die 

einzelnen ω aufgetragen. 

Um auch eine Transformation für aperiodische Funktionen x(t) vom Zeit- in den Frequenzbereich 

durchführen zu können, lässt man die Periode T in (2.2) gegen unendlich gehen T → ∞. Der 

Abstand zweier Linien im Frequenzenspektrum beträgt ω0 = ∆ω = 2π 1 , für T → ∞ wird also 

∆ω → dω und k∆ω → ω. Setzt man für das Integral in (2.2) die untere Integrationsgrenze bei − T 

und die obere bei T 

2 

, so wird beim Grenzübergang T → ∞ Gleichung (2.2) mit 1 

T 

αk = ∆ω 

2π 

∞ 

−∞ 

x(t)e −jωt dt 

 

X(ω) 

= ∆ω 

2π 

T 

= ∆ω 

2π zu 

dω 

· X(ω) → · X(ω). (2.3) 

2π 

In der Fourier-Reihe (2.1) wird die Summe zum Integral und kω0 → ω. Setzt man (2.3) in (2.1) 

ein folgt also mit ∆ω → dω 

IFT: x(t) = 1 

2π 

∞ 

−∞ 

X(ω)e jωt dω. (2.4) 

Diese Transformation der X(ω) zu x(t) nennt man Fourier-Synthese bzw. inverse Fourier-Transformation 

(IFT). Die umgekehrte Transformation vom Zeitbereich x(t) in den Frequenzbereich X(ω) wird 

als Fourier-Transformation (FT) 

FT: X(ω) = 

∞ 

−∞ 

x(t)e −jωt dt. (2.5) 

bezeichnet. Für eine tiefergehende Diskussion der Fourier-Transformation sei auf [8] und [7] verwiesen. 

Überblick und Darstellung 

Zur besseren Übersicht fassen wir noch einmal zusammen: Der Vokaltrakteinfluss auf das Eingangssignal 

x(t) im Zeitbereich wird durch die Impulsantwort h(t) vollständig beschrieben. Das 

2


Endsignal wird im Zeitbereich durch eine i.A. aperiodische Funktion x(t) dargestellt. Durch eine 

Fourier-Transformation gelangt man zum Frequenzbereich, in dem der Vokaltrakteinfluss durch die 

Übertragungsfunktion H(ω) und das Endsignal durch das Spektrum X(ω) beschrieben werden. 

Zeitbereich: x(t) 

h(t) 

−→ x(t) 

↓ FT ↓ ↓ ↓ 

Frequenzbereich: X(ω) H(ω) 

−→ X(ω). 

Eine beide Beschreibungsformen vereinigende Darstellungsmöglichkeit bietet das Spektrogramm, 

in dem in einem Diagramm mit Zeit- und Frequenzachse der Betrag |αi(t)| für die Frequenz ω zum 

Zeitpunkt t mittels Färbung gekennzeichnet ist. 2 Dadurch lassen sich v.a. zeitliche Änderungen 

der Formanten gut darstellen, was insbesondere für instationäre Laute sehr wichtig ist. 

2.4 Formanten 

Eine sehr wichtige Rolle für die Phonetik spielen die Formanten eines Lautes. Als Formanten 

bezeichnet man die Maximumstellen der Einhüllenden der Übertragungsfunktion H(ω), die den 

Einfluss des Vokaltrakts auf den Eingangslaut im Frequenzbereich beschreibt. Die Formanten 

geben also Frequenzen an, die besonders stark vom Vokaltrakt verstärkt werden. Diese auch als 

Resonanzen bezeichneten Frequenzen sind maßgeblich für die Lauterkennung verantwortlich. 

Es wurde oft experimentell gezeigt, dass für die Lauterkennung nur die ersten beiden Formanten 

entscheidend sind. Ab dem dritten Formanten wird die Lautcharakteristik für die Lautunterscheidung 

nur noch unwesentlich verändert, ein [u] in ” rutschen“ und in ” Buch“ wäre ein Beispiel, wo 

die ersten Formanten praktisch gleich bleiben und sich nur die hinteren Formanten verschieben. 

Eine mögliche Erklärung liegt unserer Meinung nach darin, dass die menschliche Gehörschnecke 

lediglich im Abschnitt für Frequenzen bis ca. 1 Kilohertz eine anatomisch lineare Struktur aufweist 

und die Frequenzverteilung darüber logarithmisch ist, vgl. Abb. im Anhang. 

2.5 Bauchreden 

Beim Bauchreden ist es wichtig Ersatzlaute für die labialen Laute zu finden, deren ersten beiden 

Formanten möglichst genau mit denen der zu ersetzenden Laute übereinstimmen. Die Formanten 

der zu ersetzenden Laute sind nun zwar aus der Literatur bekannt [13], jedoch ist nicht möglich von 

diesen auf den Vokaltrakt zu schließen (vgl. [10], [11]). D.h. von dem Spektrum ausgehend kann 

nicht eindeutig auf die einzelnen Vokaltraktparameter geschlossen werden. Früher wurde versucht 

den Einfluss von Verengungen an bestimmen Stellen auf die Formanten durch Formantverschieber 

zu beschreiben (z.B. Tillmann [10]), jedoch zeigen neuere Erkenntnisse, dass dies häufig eine 

Vereinfachung darstellt. 

Die für uns einzige Möglichkeit die Stellung des Vokaltrakts für die Ersatzlaute zu finden besteht 

also darin, mithilfe von Bauchrednerbüchern (z.B. [15] und [2]) und Hinweisen von Bauchrednern 

zu ihrer Technik die Geometrie des Vokaltrakts mit der Hand am Computer nachzubilden. Dabei 

wird darauf geachtet, dass die Formanten des zu ersetzenden Lautes möglichst optimal angenähert 

werden. Um also die Substitutionslaute für die kritischen Laute mit labialen Verengungen bzw. 

Verschlüssen modellhaft nachbilden zu können, haben wir auf die Software tractsyn zurückgegriffen, 

vgl. Abschnitt 4. 

Im nächsten Kapitel soll nun zunächst formal gezeigt werden, dass die Nachbildung der ersten 

beiden Formanten trotz unterschiedlicher Artikulatorstellungen möglich ist. Dies geschieht mithilfe 

eines einfachen Röhrenmodells. 

2 In den unten folgenden Spektrogrammen wird die Zeitachse horizontal, die Frequenzachse vertikal verlaufen; je 

größer der Rotanteil der Farbe ist, desto höher ist |α|.

3 VOKALTRAKTMODELLE 4 

3 Vokaltraktmodelle 

3.1 Einfaches Röhrenmodell 

3.1.1 Kurzbeschreibung 

Die Geometrie und somit die Übertragungsfunktion des Vokaltrakts wird durch eine Aneinanderreihung 

diskreter als verlustfrei angenommener Zylinderabschnitte mit variierendem Durchmesser 

angenähert. Wird in dieses angenäherte Rohr nun ein durch eine Anregungsfunktion beschriebenes 

Signal geschickt, so wird dieses Signal entsprechend der angenäherten Übertragungsfunktion modifiziert. 

Wählt man die Anzahl der diskreten Zylinder sehr groß, so entsteht also ein Laut, dessen 

Resonanzen dem des kontinuierlichen Vokaltrakts sehr nahe kommen. Die angenommene Verlustfreiheit 

beeinträchtigt das Ergebnis nur gering und ermöglicht es v.a. die Übertragungsfunktion 

für eine bestimmte Rohrkonfiguration explizit zu berechnen. Dies soll im folgenden Kapitel gezeigt 

werden. 

3.1.2 Berechnung der Übertragungsfunktion 

Der Vokaltrakt sei durch eine Aneinanderreihung von N Zylindern mit Querschnittsflächen Ai 

angenähert. Gesucht ist nun die Übertragungsfunktion H(ω) mit der das Ausgangssignal aus dem 

Rohr Y (ω) = X(ω) · H(ω) berechnet werden kann. 

Während innerhalb eines Zylinders Zi mit konstanter Querschnittsfläche Ai keine Modifikation 

der Schallwelle auftritt, führt eine Querschnittssprungstelle zwischen zwei Zylindern Zi und 

Zi+1 mit unterschiedlichen Querschnittsflächen Ai = Ai+1 zu einer Aufspaltung der Schallwelle in 

einen transmittierten und einen reflektierten Teil. Das führt dazu, dass sich in dem Rohr Schallwellen 

in der ursprünglichen Richtung (Einheitsvektor e + ) und in der entgegengesetzten Richtung 

(Einheitsvektor e − ) ausbreiten. 

Betrachten wir also einen Querschnittssprung zwischen den Zylindern Zi und Zi+1. Nimmt 

man die Änderung des Drucks pi → pi+1 und die Änderung des Schallflusses ui → ui+1 als stetig 

an (Kontinuitätsannahme vgl. [6], so ist in den diskreten Zylindern pi bzw. ui am rechten Rand 

von Zi gleich pi+1 bzw. ui+1 am linken Rand von Zi+1: 

pi = pi+1 bzw. p + i + p− i = p+ i+1 + p− i+1 , (3.1) 

ui = ui+1 bzw. u + i + u− i = u+ i+1 + u− i+1 , (3.2) 

Auf der rechten Seite von Gleichung (3.1) wird dabei der Gesamtdruck durch p = p + + p − , d.h. 

als Summe des Schalldrucks der in + Richtung laufenden Welle und des Schalldrucks der in − 

Richtung laufenden Welle ausgedrückt. Der Gesamtfluss beträgt analog u = u + + u − . Schreibt 

man die Flüsse als u + = u + · e + und u − = u − · e − , so wird (3.2) mit e + = −e − zu 

u + i − u− i = u+ i+1 − u− i+1 . (3.3) 

Um Gleichung (3.3) in Abhängigkeit der Drucke p und der Querschnittsflächen A auszudrücken, 

wird die Schallschnelle v ± = v ± · e ± in u ± = v ± A ⇒ u ± = v ± A durch den sog. Schallkennwiderstand 

(vgl. [12]) mit dem Druck p in Beziehung gesetzt: 

p + 

v 

+ = p− 

= ϱc, (3.4) 

v− wobei ϱ die Dichte des Mediums und c die Schallgeschwindigkeit in diesem Medium bedeutet, z.B. 

cLuft,37◦C ≈ 350 m s . Stellt man (3.4) nach der Schallschnelle v um und setzt u = vA ein, so ergibt 

sich 

u + = p+ A 

ϱc , u− = p−A ϱc 

und Gleichung (3.3) wird zu 

p + i Ai 

ϱc − p− i Ai 

ϱc 

= p+ i+1 Ai+1 

ϱc 

− p− i+1 Ai+1 

ϱc 

⇔ Ai(p + i − p− i ) = Ai+1(p + i+1 − p− i+1 ) (3.5)


Löst man nun (3.1) nach p − i 

auf, so erhält man 

p − i = p+ i+1 + p− i+1 − p+ i . 

Auflösen von (3.5) nach p + i+1 und Einsetzen liefert nach Vereinfachen 

p − i = Ai − Ai+1 

p 

Ai + Ai+1 

+ i 

2Ai+1 

+ p 

Ai + Ai+1 

− i+1 . (3.6) 

Ohne einen Querschnittssprung würde sich in Zi eine Welle mit p + i in + Richtung und in Zi+1 

eine Welle mit p − i+1 − Richtung bewegen, sodass in Zi für den Druck in − Richtung p − i = p− i+1 

gelten würde. Sei die Welle p − i+1 als einlaufende Welle betrachtet, dann sagt Gleichung (3.6) jedoch 

aus, dass nur ein gewisser Teil des Drucks p − i+1 der in − Richtung verlaufenden Welle in p− i noch 

enthalten ist, d.h. nur ein Teil dieser Welle wird transmittiert. Gleichzeitig ist in (3.6) ein Teil des 

Drucks p + i der in + Richtung verlaufenden Welle enthalten, d.h. ein Teil dieser in + Richtung 

verlaufenden Welle wird in − Richtung reflektiert. Die Faktoren für Transmission in der in − 

Richtung verlaufenden Welle und Reflexion der in + Richtung verlaufenden Welle sind nach (3.6) 

Reflexionsfaktor R + = Ai − Ai+1 

, (3.7) 

Ai + Ai+1 

Transmissionsfaktor T − = 

2Ai+1 

Ai + Ai+1 

Stellt man die Gleichungen (3.1) und (3.5) nach p + i+1 statt wie oben nach p− i 

p + i+1 = Ai+1 − Ai 

p 

Ai + Ai+1 

− i+1 + 

p − i 

2Ai 

p 

Ai + Ai+1 

+ i 

= R − p − i+1 + T + p + i 

= −R + p − i+1 + (1 + R+ )p + i . 

= 1 − R + . (3.8) 

so erhält man 

Die Gleichungen (3.6) und (3.9) lassen sich mit R = R + kompakt schreiben als 

+ 

p i+1 −R 

= 

1 − R 

− 

1 + R pi+1 . 

R 

(3.10) 

Um die Wellengrößen pi in Abhängigkeit der pi+1 auszudrücken, wird (3.10) noch vereinfacht zu 

+ 

p i 

p − 

= 

i 

1 

+ 

1 R p i+1 

1 + R R 1 p − 

i+1 

Da die Schallwelle die Zeit τ 

2 

p + i 

(3.9) 

(3.11) 

= d 

c benötigt3 , um den Weg des Abstands d zwischen zwei Quer- 

schnittssprungstellen zurückzulegen, sind die Wellen an den verschiedenen Querschnittssprungstellen 

zueinander verschoben. Da aus (2.4) folgt, dass 

x(t) 

x(t ± τ) 

F T 

= 

F T 

= 

1 

2π 

∞ 

−∞ 

∞ 

1 

 

2π 

−∞ 

X(ω)e jωt dω 

X(ω)e jω(t±τ) dω = 1 

2π 

∞ 

−∞ 

e ±jωτ · X(ω)e jωt dω 

gilt, entspricht eine Verschiebung x(t) → x(t ± τ 

2 ) im Zeitbereich der Operation X(ω) → X(ω) · 

τ 

±jω e 2 im Frequenzbereich. Um deutlich zu machen, dass im Frequenzbereich operiert wird, verwenden 

wir im Folgenden P anstelle von p. In (3.10) wird der Vektor (P + 

− 

, P 

berechnet, d.h. in (P + 

i+1 

− 

i , Pi )T aus (P + 

− 

, Pi+1 )T muss die sich nach rechts4 bewegende + Welle P + 

i+1 

i+1 

i+1 )T 

um τ 

2 nach 

3 Die Zeitverschiebung wird als τ 

2 gewählt, um später in Gleichung (3.12) e 1 2 jωt ausklammern und die Matrix 

umformen zu können. 

4 

” Rechts“ entspricht der + Richtung, die wiederum der Richtung aufsteigender Zylinderindizes Zi → Zi+1 entspricht.


links verschoben werden, P + 

i+1 

Welle P − + − 

i+1 in (P i+1 , Pi+1 )T um τ 

2 

+ 

P i+1 

P − 

 

i+1 

→ 

 

P + 1 

i+1 · e+ 2 jωt 

P − 

i+1 

· e− 1 

2 jωt 

Aus Gleichung (3.11) wird also 

+ 

P i 

P − 

 

i 

+ 1 

→ P i+1 · e+ 2 jωt . Analog muss die sich nach links ausbreitende − 

 

nach rechts verschoben werden, d.h. P − 

i+1 

= e 1 

= e 1 

= 

 

e 1 

2 jωt 0 

1 

− 0 e 2 jωt 

P + 

i+1 

P − 

i+1 

 

− 1 

→ Pi+1 · e− 2 jωt . Somit 

= e 1 

2 jωt 

 

1 0 

0 e−jωτ + 

P i+1 

P − 

 

. 

i+1 

2 jωτ 

1 R 1 0 

1 + R R 1 0 e−jωτ + 

P i+1 

P − 

 

i+1 

2 jωτ 

1 Re−jωτ 1 + R R e−jωτ + 

P i+1 

P − 

 

. (3.12) 

i+1 

Bestehe nun das gesamte Rohrmodell aus N Zylindern Zi, i = 1..N. Mit Ri, i = 1..N identifiziere 

man den Reflexionsfaktor am Querschnittssprung zwischen den Zylindern Zi und Zi+1, wobei 

am rechten Rand des Gesamtrohrs RN+1 ≈ −0.95 gesetzt wird, da es hier bis auf kleine Verluste 

an den Lippen nahezu zu einer vollständigen Transmission in den Außenbereich kommt, der relativ 

zu den Vokaltraktflächen als groß angenommen werden kann. Nimmt man die Zylinderlängen di 

als gleichlang an (di = const. ⇒ τi di = 

τ 

2 c = 2 = const.), so erhält man den Schalldruck P1 aus 

PN+1 bzw. analog ein Signal X1 aus XN+1 durch Multiplizieren der Matrizen in (3.12) wie folgt 

+ 

X 1 

X − 1 

Die Terme 1 

i e 2 jωτ = e N 

2 jωτ und 

i 

= 

1 

1+Ri 

N 

 

1 Rie 

i=1 

−jωτ 

Ri e−jωτ + 

X 

· N+1 

X 

 

− 

 

N+1 

Mi 

(3.13) 

aus (3.12) können dabei zunächst einmal unberücksich- 

ohne Betragsänderung (|e N 

2 jωτ | = 

tigt bleiben, da sie lediglich eine Gesamtzeitverschiebung um Nτ 

2 

1) und eine Gesamtverstärkung (lauter bzw. leiser) um den Faktor 1 

i darstellen, die beide 

1+Ri 

keine Auswirkungen auf das Frequenzenspektrum bzw. die Formanten haben. In (3.13) ist 

i Mi 

eine 2 × 2 Matrix der Form 

N 

 

M 11 M 12 

Mi = M = 

M 21 M 22 

 

. (3.14) 

Mit X − 

N+1 = RN+1 · X + 

N+1 folgt aus (3.13) und (3.14) für X+ 1 also 

i=1 

X + 1 = M 11 X + 

N+1 + RN+1 · M 12 X + 

N+1 . (3.15) 

Aus X + 

N+1 (ω) = H(ω) · X+ 1 (ω) folgt für die Übertragungsfunktion H(ω) somit 

H(ω) = X+ 

N+1 (ω) 

X + = 

1 (ω) 

1 

M 11 . (3.16) 

+ RN+1 · M 12 

3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren 

Beim Bauchreden müssen die Vokaltraktstellungen kritischer Laute mit labialem Verschluss oder 

labialer Verengung durch Ersatzstellungen nachgebildet werden, d.h. voneinander verschiedene 

Vokaltraktgeometrien müssen gleiche bzw. für das menschliche Gehör ähnlich klingende Laute erzeugen 

können. In diesem Abschnitt soll nun an einem Beispiel ein physikalischer Beleg für die 

Möglichkeit geliefert werden, dass zwei voneinander verschiedene Röhren A und B zwei Laute erzeugen 

können, die sich für das menschliche Gehör nahezu gleich anhören, d.h. deren ersten beiden 

Formanten (vgl. Abschnitt 2.4) nahezu identisch sind. Die Lage der ersten beiden Formanten kann 

durch Berechnung der Übertragungsfunktion mit Hilfe von Gleichung (3.16) bestimmt werden. 

Die Konfiguration von zwei unterschiedlichen aber ähnliche Laute erzeugenden Röhren A und 

B kann mittels eines Optimierungsalgorithmus oder sogar explizit rechnerisch ermittelt werden. Da


für den Beweis der Existenz zweier solcher Röhren A und B jedoch lediglich ein einziges Beispiel gefunden 

werden muss, werden der Einfachheit halber zwei Rohre mit ähnlichen Klangeigenschaften 

per Hand bestimmt. 

Seien die beiden Rohre A und B durch folgende Querschnittsflächen Ai und Bi bestimmt (vgl. 

auch Abb. B). 

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 

0.003 0.079 0.549 1.053 0.693 0.276 0.198 0.453 0.063 3.0 

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 

0.003 0.124 0.538 3.254 0.950 0.331 1.141 0.120 0.235 4.695 

Die Einheiten der Querschnittsflächen können dabei vernachlässigt werden, da sie keinen Einfluss 

auf die Reflexionsfaktoren haben. Zur Berechnung der beiden Übertragungsfunktionen wird nun 

Gleichung (3.16) schrittweise angewandt, d.h. in Pseudocode 

1. (3.7) R1[i] = Ai − Ai+1 

, R2[i] = 

Ai + Ai+1 

Bi 

2. (3.13) 

− Bi+1 

mit i = 1..9 

Bi + Bi+1 

 

1 R1[i]e−jωτ M1[i](ω) = 

R1[i] e−jωτ 

 

1 

, M2[i](ω) = 

R2[i] 

R2[i]e−jωτ e−jωτ 

, i = 1..8, τ = 1.0 

3. (3.14) 

8 

8 

N1(ω) = M1[i](ω), N2(ω) = M2[i](ω) 

4. (3.16) H1(ω) = 

i=1 

Wählt man die Schrittweite ∆ω = π 

i=1 

1 

N111 (ω) + R1[9] · N112 , H2(ω) = 

(ω) 

1 

N211 (ω) + R2[9] · N212 , ω = 0..π. 

(ω) 

und skaliert die Amplituden von H1 und H2 mit Dezibel, 

500 

d.h. H1 ′ = 20 · log H1 und H2 ′ = 20 · log H2, so erhält man mit Maple die beiden in Abb. 6 

geplotteten Übertragungsfunktionen H1 ′ (ω ′ ) und H2 ′ (ω ′ ). Dabei sind die ω ′ = ωτ so normiert, 

dass in 17cm langen Rohr mit 10 Zylindern ω ′ = π etwa ω = 10 kHz entspricht. 

Man sieht aus Abb. 6, dass die ersten beiden lokalen Maxima bzw. Formanten von H1 ′ und 

H2 ′ nahezu identisch zueinander sind. Die Verschiebung der ersten beiden Formanten ist mit dem 

menschlichen Gehör kaum wahrnehmbar. Die Verschiebung des dritten Formanten liegt bereits 

etwas höher, hat jedoch wie oben erklärt wurde kaum Auswirkungen auf die Lautwahrnehmung 

beim Menschen. 

Somit wurde gezeigt, dass die beiden obigen Röhren trotz unterschiedlicher Geometrien Laute 

erzeugen, die das menschliche Gehör nur äußerst schwer bzw. gar nicht voneinander unterscheiden 

kann. Beim Bauchreden werden nun ebenfalls Ersatzstellungen für die kritischen Laute gesucht, die 

die nachzubildenden Laute möglichst gut annähern. Bedingung für die Ersatzvokaltraktgeometrie 

ist dabei, dass auf einen labialen Verschluss verzichtet wird. 

3.2 3D Modell nach Birkholz 

Im Folgenden soll überprüft werden, ob sich die vom Bauchredner gebildeten Substitutionslaute 

durch ein physikalisches Modell des Vokaltrakts beschreiben lassen. Hierzu wird ein von Peter 

Birkholz in [1] beschriebenes Artikulatormodell verwendet, das in der Simulationssoftware tractsyn 

umgesetzt ist. Vorteile von tractsyn sind v.a. die einfache Bedienbarkeit und Flexibilität, sowie 

insbesondere die Einbindung des Nasaltrakts, der für die Bildung von Nasallauten wie [m] und [n] 

unverzichtbar ist. 

Bei dem Modell von Birkholz handelt es sich um eine Weiterentwicklung des Modells von 

Mermelstein. Der Vokaltrakt wird in drei Flächengittern dreidimensional modelliert: jeweils ein 

Gitter für Ober- und Unterseite des Vokaltrakts und ein Zungengitter (vgl. Abb. B (a)). Die 

Geometrie dieser Gitter wurde dabei aus Röntgenaufnahmen bestimmt, z.B. von Fant und neueren 

Aufnahmen. 

Das Programm berechnet nun in Abhängigkeit der eingestellten Parameter, die die Geometrie 

der Gitter bestimmen, die Querschnittsflächen an jeder Stelle des diskretisierten (in Gitter

4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 8 

unterteilten) Vokaltrakts. Durch das Zusammensetzen der einzelnen Querschnitte entsteht vereinfachend 

ein Röhrenmodell mit variierendem Durchmesser, wobei die Röhre des Nasaltrakts mit der 

Röhre des Vokaltrakts über das Velum verbunden ist (vgl Abb. B (b)). Für dieses Röhrensystem 

kann dann der entstehende Laut im Prinzip ähnlich wie in Abschnitt 3.1 berechnet und über einen 

Lautsprecher ausgegeben werden. 

4 Modellgestützte Simulation der Ersatzlaute 

Bei der Nachbildung von Frikativen mit labiodentaler Verengung ([f], [v]) kann ein Bauchredner 

laut [15] aus zwei Varianten auswählen. Die erste und am häufigsten verwendete Möglichkeit besteht 

darin, dass die Laute [f] und [w] nach einiger Übung ohne sichtbare Lippenbewegung gebildet 

werden können, sodass für sie kein besonderer Ersatzlaut benötigt wird. Alternativ dazu kann man 

auch einen Ersatzlaut verwenden, der einem [d] mit einer sehr kurzzeitigen alveoren Verengung 

recht nahe kommt. Wegen der Möglichkeit der Nachbildung von [f] und [v] ohne Ersatzlaute und 

den Schwierigkeiten bei der Simulation von Frikativen wird auf diese beiden Laute nach derzeitigem 

Stand der Arbeit nicht weiter eingegangen werden, vgl. Abschnitt 7. 

Insbesondere die Plosive und Nasale mit bilabialer Verschließung ([b], [p], [m]) sind von herausragender 

Bedeutung für das Bauchreden, da für sie ohne Verwendung von Ersatzlauten eine 

Schließung der Lippen unumgänglich ist. Auf diese kritischen Laute [b], [p] und [m] und die dazugehörigen 

Ersatzlaute soll deshalb im Folgenden speziell eingegangen werden. 

4.1 Die Plosivlaute [b] und [p] 

Laut [3] sind die Vokaltraktstellungen bei einem [p] und [b] so ähnlich, dass auf den MRT- 

Aufnahmen, die auch der Simulation zu Grunde liegen, keine Unterschiede festgestellt werden 

konnten. Die einzigen Unterschiede von [p] und [b] bestehen darin, dass zum einen das [p] stimmlos 

und das [b] stimmhaft ausgesprochen werden, d.h. dass die Anregung an den Stimmbändern 

unterschiedlich ist. Zum anderen muss beim [p] zunächst mehr Druck als beim weicheren [b] aufgebaut 

werden. Da diese beiden Unterschiede unabhängig von der Vokaltraktgeometrie sind, kann 

ein Bauchredner den Ersatzlaut [b’] für das [b] ohne weiteres durch eine stimmhafte Anregung 

auch zum Ersetzen von [p] verwenden. Im Folgenden wird deshalb nur noch auf den Ersatzlaut 

für das [b] eingegangen. 5 

[b] normal 

Das normale [b] ist ein Plosivlaut mit bilabialer Verschließung, d.h. die Luft wird durch anfängliches 

Schließen der Lippen angestaut und anschließend durch ruckartiges Öffnen entlassen. Da es sich 

also um einen instationären Laut handelt, muss in tractsyn ein sogenannter phone chain“ mit dem 

” 

geschlossenen Mund zu Beginn ([b]) und dem darauf folgenden ruckartigen Öffnen zu z.B. einem 

[a] erzeugt werden. Mit Hilfe der groben Vorgabe des Rohrmodells und der Lage der Formanten 

für die Laute [b] und [a] aus [10] bzw. [13] wurden das [b] und das [a] in tractsyn so eingestellt, 

dass ein [ba] Laut entstand. 

Für den Anfangszustand [b] des Vokaltrakts mit geschlossenen Lippen (siehe Abb. 8(a), ergeben 

sich die in Abb. 8(c) abgebildeten Formanten. Die besonders wichtigen ersten beiden Formanten 

liegen etwa bei F [b] 

[b] 

1 = 450 Hz und F 2 = 1050 Hz, wobei im Optimalfall laut [10] der erste Formant 

geringfügig über dem zweiten Formanten liegen sollte. 

Der von tractsyn ausgegebene Laut wurde aufgenommen und in Matlab an Hand eines Spektrogramms 

analysiert, d.h. das Signal wurde für jeden Zeitschritt einer Fourier-Transformation 

unterzogen, so dass man das Frequenzspektrum zu jedem Zeitpunkt erhält. In Abb. 10(a) ist das 

Spektrogramm für das aufgenommene [ba] abgebildet, wobei die Zeitachse nach rechts und die 

Frequenzachse nach oben verläuft; die Farbe gibt die Amplitude der jeweils vorkommenden Frequenzen 

an. In den ersten 0.05 Zeiteinheiten liegen die ersten Formanten (dunkle Färbung) etwa 

bei 0.5 kHz, 1.0 kHz, 2.25 kHz und 4.0 kHz. Bei etwa 0.05 Zeiteinheiten springen“ die ersten drei 

” 

5 Auch die Analysen der Spektrogramme in Abschnitt 6 zeigen, dass die Ersatzlaute von [ba] und [pa] sehr genau 

miteinander übereinstimmen, also nahezu identisch sind.


Formanten zu einer etwas höheren Frequenz. Dieses Ergebnis stimmt mit den von [10] in Abb. 

10(d) angegebenen Formantsprüngen überein. 

[b’] substituiert 

Das Schließen der Lippen versucht ein Bauchredner durch einen Ersatzlaut [b’] zu umgehen. Um 

die explosive Charakteristik zu ersetzen, wird die Zungenspitze zunächst ähnlich wie beim [d] 

an die vorderen Zähne gepresst (vgl. Abb. 11), bis die Zunge mit einer plötzlichen Bewegung 

zurückschnellt [15]. Der ansonsten dem [b] ähnelnde Sprachtrakt wird somit um den Abstand von 

der Lippe bis zu den Zähnen verkürzt, siehe Abb. 9(a). Dies führt wie in Abb. 9(c) zu sehen ist zu 

einer sehr guten Annäherung der ersten beiden Formanten, die wieder bei ca. F [b′ ] 

1 = 500 Hz und 

F [b′ ] 

2 

= 1100 Hz liegen, wobei die zweite deutlich unterhalb der ersten Formante anzutreffen ist. 

Das Spektrogramm für [b’a] ist in Abb. 10(b) gezeigt. Die ersten beiden Formanten liegen etwa 

in den ersten 0.06 Zeiteinheiten bei den im Spektrum ebenfalls errechneten 500 Hz bzw. 1000 Hz. 

Bei ca. 0.06 Zeiteinheiten verschieben sich die Formanten zu etwas höheren Frequenzen und bilden 

ebenfalls die in Abb. 10(d) gezeigte typische Formantenverschiebung. Im Gegensatz zu [ba] weicht 

der dritte Formant von [b’a] jedoch von dem Muster in Abb. 10(d), nach dem eigentlich ein Knick 

nach oben statt nach unten erfolgen müsste. Da perzeptiv kaum ein Unterschied zwischen [ba] und 

[b’a] auszumachen ist, lässt sich bestätigen, dass für die Lauterkennung mit dem menschlichen 

Gehör lediglich der untere Spektralbereich wesentlich ist. 

Vergleich von [b’a] mit [ba] 

Die beiden Formantenbilder Abb. 9(c) und Abb. 8(c) für die Ausgangsstellungen von [b] und [b’] 

weisen große Ähnlichkeiten miteinander auf. Die ersten beiden Formanten haben nahezu die gleiche 

Ausprägung und Position, denn F [b′ ] [b] 

1 − F 1 = 50 Hz und F [b′ ] 

2 − 2[b] 1 = 50 Hz. Auch über den 

Zeitverlauf betrachtet sind die ersten beiden Formanten von [b’a] und [ba] zueinander nahezu identisch, 

da sie in den Spektrogrammen beide etwa an der selben Stelle eine gleich stark ausgeprägte 

Sprungstelle nach oben aufweisen und somit beide die Eigenschaften eines [ba] Lautes aufweisen. 

Der Ersatzlaut [b’a] bzw. [b’] unterscheidet sich also lediglich im dritten Formanten wesentlich vom 

nachzubildenden [ba] bzw. [b]. Da für die Lauterkennung jedoch nahezu ausschließlich die ersten 

beiden Formanten entscheidend sind und dritte und spätere Formanten kaum eine Rolle spielen 

(vgl. Abschnitt 2.4), werden [b’a] und [ba] als nahezu identische, vom menschlichen Gehör nicht 

mehr unterscheidbare Laute wahrgenommen. D.h. es konnte an Hand des Modells tatsächlich der 

von Bauchrednern verwendete Ersatzlaut für das [b] nachgebildet und als authentisch nachgewiesen 

werden. 

Vergleich von [b’a] mit [da] 

Abb. 11 für die Stellungen von [b’] und [d] laut [15], sowie die Vokaltraktstellung für [b’] in Abb. 

9(a) könnten den Verdacht entstehen lassen, dass [b’] schlichtweg einem normalen [d] entspräche. 

Um dies zu widerlegen wurde mit tractsyn und Matlab ein [da] mit zugehörigem Spektrogramm 

erzeugt, vgl. Abb. 10(c). Die Formanten stimmen in etwa mit den von [10] in Abb. 10(e) ermittelten 

Formanten für ein [da] überein. Während sich [da] und [b’a] beim ersten Formanten noch ähneln, 

vollzieht [da] nach ca. 0.05 Zeiteinheiten beim zweiten und dritten Formant einen deutlichen Knick 

nach unten, während beim [b’a] der zweite Formant einen Knick nach oben (wie [ba]) und der dritte 

einen Knick nach unten besitzt. Da dem zweiten Formant eine sehr viel größere Bedeutung für die 

Lautcharakteristik zukommt, ähnelt [b’a] einem [ba] also sicherlich wesentlich mehr als einem [da]. 

4.2 Der Nasal [m] 

Beim [m] handelt es sich um einen Nasal mit bilabialem Verschluss, d.h. die Lippen müssen geschlossen 

sein und der Ton entweicht im Gegensatz zu den Plosivlauten durch den Nasaltrakt, in 

den die Luft durch das geöffnete Velum gelangt. Das Schließen der Lippen versucht ein Bauchredner 

durch einen Ersatzlaut zu umgehen. Für diese Ersatzlaute sind für das [m] in [15] zwei


Varianten angegeben. In der ersten Variante, im Folgenden [m’] genannt, wird die Lippenschließung 

dadurch ersetzt, dass die Zunge zunächst kurzzeitig möglichst nahe an die vorderen Zähne 

gepresst wird, so dass die Schallwellen ausschließlich durch den Nasaltrakt entweichen können. 

Anschließend wird die Zunge wieder von den Zähnen gelöst. (Vgl. Abb. 11(c)) 

Die zweite Variante [m”] besteht darin, den hinteren Teil der Zunge gegen das Velum zu drücken 

und somit die Schallwellen ausschließlich in den Nasaltrakt zu zwingen (vgl. Abb. 11(d)). 

Der Mundbereich wird bei Nasallauten als Resonanzkörper benutzt. Nun unterscheiden sich 

[m] und [n] in der Größe (insbesondere Länge) dieses Resonanzkörpers. Schallwellen, die von der 

Glottis kommen, gelangen zu einem Teil direkt in den Nasaltrakt und zu einem anderen Teil in den 

Resonanzraum, wo sie reflektiert und zurückgestrahlt werden. Treffen sie auf das Velum, wo sich 

Nasal- und Mundraum trennen, so kommt es zu einer Überlagerung (vgl. Modell in Abb. B). Dies 

erkennt man daran, dass es im Spektrum sogenannte Nullstellen, auch Antiresonanzen genannt 

gibt, d.h. dass bestimmte Frequenzen in dem Signal kaum auftreten. Bei den Wellenlängen, die den 

Frequenzen dieser Nullstellen entsprechen, kommt es also zu einer destruktiven Interferenz. Dies 

bedeutet, dass die zurückgestrahlte Welle gegenphasig schwingt. Auf der anderen Seite kommt es 

auch zu konstruktiver Interferenz, wenn sich die Wellen positiv überlagern. Es gilt hierbei für die 

Wellenlänge λ: 

λ = c 

. (4.1) 

f 

Man muss also zwei Faktoren beachten, die das Spektrum von Nasallauten bestimmen. Auf 

der einen Seite die Geometrie des Vokaltrakts von der Glottis bis zum Velum und dem Nasaltrakt 

und auf der anderen Seite die Länge des Resonanzkörpers. Die genaue Geometrie des als 

Resonanzkörper fungierenden Mundraums ist dabei vernachlässigbar, da die für die Lautbildung 

wesentliche Reflexion erst am Verschluss des Mundraums entsteht und somit nur der Länge des 

Mundraums eine entscheidende Bedeutung zukommt. Auch durch die Nasennebenhöhlen entstehen 

Antiformanten, 6 die aufgrund ihrer geringeren Länge jedoch nur die höheren Frequenzen betreffen 

und bei allen Lauten gleich auftreten. Es wird deshalb nun lediglich die Länge des Mundraums als 

Resonanzkörper betrachtet. 

Die Länge des Resonanzkörpers ergibt sich aus der Differenz der gesamten Vokaltraktlänge und 

dem Abstand zwischen Glottis und Velum, der laut denen für die Simulation verwendeten Daten 

von [3] ungefähr 8 cm beträgt. Aus den Daten für die gesamte Länge des Vokaltrakts, die aus der 

Simulation hervorgehen (vgl. Abb. 13(c) und 14(c)), lässt sich nun berechnen: 

lm = 15, 53 cm − 8 cm = 7, 53 cm 

l ′ m = 14, 89 cm − 8 cm = 6, 89 cm 

Bei m ′′ ist die Angabe von l ′′ m irrelevant, da der Abschluss bereits direkt am Velum erfolgt. Die 

Ähnlichkeit mit dem zu ersetzenden Laut [m] kann hier nur rein perzeptiv über die Sprachausgabe 

bestätigt werden. Da die Welle in den beiden anderen Fällen zurückreflektiert wird, hat sie die 

doppelte Weglänge zurückzulegen, wo durch sich als Voraussetzung für eine Nullstelle folgendes 

ergibt: 

Durch (4.1) ergibt sich daraus 

1 + 2n 

· λ 

2 

= l, n ∈ N (4.2) 

1 + 2n 

· λ 

2 

= 2 · lm, n ∈ N (4.3) 

1 + 2n 

2 

· c 

f = 2 · lm, n ∈ N 

f = 

(1 + 2n) · c 

, n ∈ N (4.4) 

4 · lm 

Es lässt sich nun die ungefähre Frequenzlage der Antiresonanzen von [m] und [m’] berechnen: 

f [m] = {1160, 3480, 5800, . . . } Hz, f [m ′ ] = {1270, 3700, 6240, . . . } Hz. 

6 Dies erkennt man daran, dass man beim phonetisch korrekten Aussprechen von Nasallauten ein Vibrieren fest- 

stellen kann, wenn man eine Hand auf den Kopf legt.


Das Spektrum des Artikulatormodells für [m] in Abb. 14(c) zeigt, dass die ersten beiden Antiresonanzen 

für [m] bei etwa 1000 Hz und 3500 Hz liegen, d.h. für die erste Antiresonanz liegt die 

berechnete Frequenz leicht über der Frequenz des Modells, die zweite Antiresonanz stimmt in der 

Rechnung und im Modell nahezu exakt überein. 

Die ersten beiden Antiresonanzen für [m’] (Abb. 13(c)) liegen bei etwa 1250 Hz und 2600 Hz, 

d.h. die erste Antiresonanz ist nahezu identisch mit der Rechnung, die zweite ist jedoch stark 

verschoben. Dieser Fehler bei der Lage der zweiten Antiresonanz lässt sich möglicherweise darauf 

zurückführen, dass Antiresonanzen aufgrund der Überlagerungen mit den Antiresonanzen aus dem 

Nasaltrakt und den Formanten schwer zu erkennen sind und somit durchaus verschoben auftreten 

können. Ein anderer Grund für die verschobene Lage der zweiten Antiresonanz könnte in der 

Ungenauigkeit der Länge des Vokaltrakts für [m’] liegen. Die Lage der ersten Antiresonanz hingegen 

stimmt in dem Modell sehr gut mit der Rechnung überein. Untersuchungen an Testsprechern in 

beispielsweise [5] zeigen für die erste Antiresonanz, dass diese für [m] je nach Testsprecher zwischen 

750 Hz und 1250 Hz liegen sollte, für [n] dagegen zwischen 1500 Hz und 2200 Hz. Da die erste 

Antiresonanz von [m’] bei ca. 1250 Hz liegt, folgt also, dass der Substitutionslaut [m’] deutlich 

ähnlicher einem [m] als einem [n] ist. D.h. bei [m’] handelt es sich um einen neu gefundenen Laut, 

der zwar eine Ähnlichkeit zur Vokaltraktstellung des [n] aufweist, dessen Lautcharakteristik jedoch 

sehr viel mehr einem [m] als einem [n] nahe kommt. Ein Hörtest von [m’] bestätigt dies ebenfalls 

sehr deutlich. 

Die Verifizierung der Ähnlichkeit von [m”] mit [m] erfolgt in erster Linie durch die sehr ähnliche 

Wahrnehmung zu einem [m] mit dem menschlichen Gehör. Dies könnte daran liegen, dass durch 

den sehr frühen Verschluss der Laut sehr ” nasal“ klingt und durch den Menschen deshalb als [m] 

wahrgenommen wird. Eine genauere Analyse von [m”] gestaltet sich recht schwer, da analytische 

Berechnungen wegen mangelnder Kenntnis der Vokaltraktlänge kaum möglich sind. Dennoch kann 

man am Spektrum in Abb. 15(c) immerhin erkennen, dass die erste Antiresonanz wie bei [m’] ca. 

bei 1250 Hz liegt, d.h. der Bereich für die erste Antiresonanz des [m] nach [5] wird eingehalten und 

[m”] ähnelt wie [m’] bereits eher einem [m] als einem [n]. 

4.3 Die Frikative [f] und [w] 

Nach [b], [p] und [m] betrachten wir nun die problematischen Frikative (Reibelaute) [f] und [w], 

deren Verengung ähnlich dem [b] weiter ins Mundinnere verlagert werden muss. Um prinzipiell 

mit einem artikulatorischen Synthesemodell Firkative erzeugen zu können, ist es notwendig eine 

Rauschanregung mitzusimulieren, die durch Turbulenzen verursacht wird. In der neuesten Version 

von tractsyn ist dies von Peter Birkholz implementiert und zeigt für z.B. [s] bereits sehr gute 

Resultate, die wir auf [f] und den Substitutionslaut [f’] ausweiten konnten. Analog zu [b] und [p] 

unterscheidet sich [w] von [f] dadurch, dass es im Gegensatz zu [f] stimmhaft ausgesprochen wird, 

d.h. die folgenden Analysen für [f] und [f’] lassen sich auf [w] und [w’] übertragen. 

[f] normal 

Da es sich bei [f] um einen Frikativ mit dentaler Verengung handelt, wird in tractsyn der Übergang 

[fa] betrachtet. Passt man die Resonanzen für [f] an Literaturwerte [13] und die aus dem Sprachgebrauch 

gewohnte perzeptive Wahrnehmung von [f] an, so erhält man das in Abb. 16(c) gezeigte 

Spektrum durch die Vokaltraktgeometrie in Abb. 16(a). Wie man erkennen kann befinden sich die 

ersten drei Resonanzen bei etwa 400, 1550 und 2650 Hz. 

Im Übergang zum [a] erhält man das in Abb. 18(a) gezeigte Spektrogramm für [fa]. Im linken 

Teil des Diagramms befindet der Frikativ [f], etwa in der Mitte der x-Achse erfolgt der Übergang 

zum [a]. 

[f’] substituiert 

Der Substitutionslaut [f’] ähnelt dem englischen [th] wie z.B. in ” the“, wobei die Zunge jedoch 

etwas weiter im Mundesinneren aufliegt. Das Zischen wird durch Luftturbulenzen erzeugt, bei 

[f] im Spalt zwischen Schneidezähnen und Unterlippe, bei [f’] in einem kleinen Spalt zwischen 

Zunge und Mundhöhle. Die Vokaltraktgeometrie für [f’] in Abb. 17(a) wurde entsprechend der

6 ANALYSE VON BAUCHREDNER-AUFNAHMEN 12 

Resonanzen von [f] angepasst, so dass sich das in Abb. 17(c) gezeigte Spektrum für [f’] ergibt. 

Die ersten drei Resonanzen liegen bei ca. 400, 1550 und 3550 Hz. Die Abweichung von [f’] zu [f] 

ist demnach bei den wichtigen ersten beiden Resonanzen nahezu 0, bei der dritten Resonanz wie 

schon bei den oben betrachteten Lauten mit 900 Hz sehr groß. 

Das Spektrogramm von [f’a] in Abb. 18(b) weist offensichtlich eine sehr hohe Ähnlichkeit mit 

dem Spektrogramm von [fa] auf, da die Spektrogramme weder in der linken Hälfte für [f] bzw. [f’], 

noch beim Übergang zum [a] einen erkennbaren Unterschied zeigen. Da der Übergang zu einem 

Vokal bei Frikativen von besonderer Bedeutung für die Lautwahrnehmung ist, bestätigt dies die 

große perzeptive Ähnlichkeit von [f’a] mit [fa]. 

5 Lautsimulation im realen Experiment mit Hilfe eines Gipsmodells 

Zu einer Überprüfung des in den vorhergehenden Abschnitten verwendeten Röhrenmodelle wurde 

ein reales Modell gebaut, welches das Röhrenmodell für Vokaltraktgeometrien bestimmter Laute 

nachbildet. Das Positiv des Modells wurde hierbei aus handelsüblicher Knete geformt, wobei die 

Geometrie den aus MRT-Aufnahmen gewonnenen Querschnittsflächen des Vokaltrakts für ein [m] 

(vgl. [3]) entspricht. Das Modell an sich (Negativ) wurde aus mehreren Lagen Gips gegossen. Der 

Vokaltrakt lässt sich durch das Einsetzen von Barrieren und einer Verkleinerung des Mundresonanzraumes 

verändern und neben [m] an die Vokaltraktgeometrien von [m’], [m”] und [n] anpassen. 

Das schwierigste Problem bei der Auswertung des Modells stellte die Anregung dar. Normalerweise 

sollte ein Luftballon eine recht gute Approximation der Stimmlippen sein, doch ist hier das 

Problem, dass das direkte ” Primärgeräusch“ des Luftballons das auskommende Signal überdeckt 

und eine qualitative Auswertung unmöglich macht. 

?? HIER NEUER TEXT, residualsignal mit vielen peaks, zwei nullstellen, bilder von poster, 

maxima einkringeln 

Das könnte durch eine schallfeste Abdichtung des Luftballons behoben werden oder durch eine 

andere Anregung. Eine Alternative wäre ein professioneller Speechsynthesizer, den auch Sprachbehinderte 

benutzen, die an Kehlkopfkrebs oder ähnlichen Krankheiten leiden. 

6 Analyse von Bauchredner-Aufnahmen 

Die Analyse real gesprochener Ersatzlaute von Bauchrednern ermöglicht den Vergleich der modellerzeugten 

Ersatzlaute mit real gesprochenen Lauten. Wir haben versucht Aufnahmen aus dem 

Internet zu analysieren, die aber leider qualitativ nicht gut genug für eine Auswertung waren. Eine 

weitere Schwierigkeit bestand darin, dass viele Bauchredner ihre Bauchrednerstimme verstellen 

um einen Dialog mit ihrer Puppe führen zu können. Oft wird dabei in eine höhere Stimmlage 

als gewöhnlich gewechselt, weil dort das menschliche Hörempfinden nicht mehr so deutlich ist. 

Desweiteren findet bei natürlicher Sprache der interessante Übergang von Plosivlaut (z.B. [b]) 

zu Vokal (z.B. [a]) sehr schnell statt, während die verwendeten Analysemethoden eigentlich von 

stationären Lauten ausgehen. Diese Punkte machen das Erkennen von Formantabbiegungen im 

Spektrum einer Originalaufnahme wesentlich schwieriger, als bei den Modellaufnahmen. 

Die einzige Möglichkeit bestand deshalb darin, eigene Aufnahmen der reinen und der Ersatzlaute 

eines möglichst guten Bauchredners anzufertigen. Der Bauchredner Patrick Martin, der seit 

etwa zehn Jahren hauptberuflich als professioneller Bauchredner auftritt, hat uns gestattet eine 

Reihe an Testlauten und -sätzen mit einem hochwertigen Kondensatormikrophon aufzunehmen. 

Mit den Aufnahmen war es möglich für einzelne Lautübergänge ein Spektrogramm zu erstellen. 

Nach rechts ist die Frequenz angetragen, nach oben die Amplitude in dB. Die verschiedenen Kurven 

stellen das Spektrum zu aufeinander folgenden Zeitpunkten dar. Die x-Achse mit den Frequenzen 

wurde von dem verwendeten Programm Matlab auf 300 normiert, was automatisch die höchste 

aufgenommene Frequenz angibt. Diese leitet sich aus der Abtastrate bei der Aufnahme ab und 

beträgt bei unseren Aufnahmen 11025 Hz. 7 Per Hand wurden dann die ungefähren Verläufe der 

7 Nach dem Aabtasttheorem beträgt die aufgenommene Frequenzbreite die halbe Abtastrate, die von der verwendeten 

Aufnahmesoftware audacity auf 22050 Hz vorgegeben wurde; 300 entspricht also 11025 Hz.

7 SCHLUSSBEMERKUNG UND AUSBLICK 13 

Formanten eingetragen, wobei die erste erkennbare Resonanz kein Formant des Sprechtrakts ist, 

sondern von der Anregung stammt. 

6.1 Die Lautübergänge [ba] mit Lippen und [b’a] ohne Lippen 

Man erkennt den Anstieg der ersten beiden für die Lauterkennung wichtigen Formanten sowohl bei 

[ba], als auch bei [b’a]. D.h. die Lautwahrnehmung von [b’a] entspricht der von [ba], was sich neben 

dem Spektrum auch durch die Sprachwiedergabe eindeutig bestätigt. Der Bauchredner schafft es 

jedoch nicht nur die ersten beiden Formanten zu optimieren, auch die restlichen Formantverläufe 

sind sich bis ungefähr 3000 Hz sehr ähnlich. Dass es sich hierbei aber keineswegs um die gleiche 

Vokaltraktgeometrie handelt, wird besonders bei der Betrachtung der höheren Formanten deutlich. 

Beim Lippenlaut kommt der dritte Formant etwas weiter von oben. Weitaus deutlicher werden die 

Unterschiede beim fünften Formanten, der beim Ersatzlaut deutlich weiter von oben kommt und 

sich sogar in zwei unabhängige Formanten zu teilen scheint. Die beiden nächsten Formanten sind 

sich dann wieder recht ähnlich. In den höher liegenden Frequenzen können dann jedoch kaum noch 

Parallelen festgestellt werden. (Dies zeigt, dass die Vokaltraktgeometrien beim aufgenommenen 

Laut unterschiedlich eingestellt waren, dies sich jedoch kaum im Bereich der Lautcharakteristik 

bemerkbar macht.) 

6.2 Die Lautübergänge [pa] mit Lippen und [p’a] ohne Lippen 

Auch hier fällt auf, dass der Verlauf der ersten drei Formanten in beiden Spektrogrammen ähnlich 

ist. Die Formantabbiegung beim vierten Formanten ist dann jedoch beim Ersatzlaut wesentlich 

größer als beim Lippenlaut. Danach erkennt man jedoch Parallelen zwischen dem fünften und 

siebten Formanten, deren Verlauf fast identisch ist. Der dazwischenliegende sechste Formant biegt 

beim Lippenlaut im Gegensatz zum Ersatzlaut nach oben ab. Der Bereich oberhalb des siebten 

Formanten weist dann kaum noch Ähnlichkeiten auf. Zwar wird auch bei diesem Laut eindeutig 

ein [pa] wahrgenommen, die Beeinträchtigungen in der Lautcharakteristik sollte hier allerdings 

zumindest theoretisch etwas ausgeprägter sein, was sich perzeptiv jedoch kaum wahrnehmen lässt. 

Da es in unserer Simulation nur gelungen war die ersten beiden Formanten, was einem Bereich 

bis ca. 2,5 kHz entspricht, zu optimieren, kann auch hier festgestellt werden, dass die Qualität der 

Bauchredner-Ersatzlaute über die der Simulations-Ersatzlaute hinausgeht. 

6.3 Vergleich mit modellerzeugten Lautübergängen und Fehleranalyse 

Die obigen Analysen der aufgenommenen Sprachsignale bestätigen zusammenfassend den Grundsatz, 

dass sich die unteren Formanten von Ersatzlauten und normalen Lauten ähneln, aber die 

oberen Formanten zum Teil große Abweichungen aufweisen. Die Ausprägungen der Abweichungen 

und ab welchem Formanten es zu einer Abweichung kommt, ist unterschiedlich ausgeprägt bei der 

Simulation und den Sprachaufnahmen. 

Hier ist zu bedenken, dass die Sprachaufnahmen einerseits auch vom jeweiligen Sprecher 

abhängig sind und dass sich andererseits die Bauchrednertechniken leicht voneinander unterscheiden 

können. Beispielsweise könnten Bauchredner kleine Grübchen in den Backen bilden oder bestimmte 

Detailstellungen der Zunge trainieren. Ein weiterer Grund für die Abweichung könnte 

auch in den bereits angesprochenen Schwierigkeiten durch die sehr schnellen Plosiv-Vokal-Übergange 

und das Sprechen mit hoher Grundfrequenz. Zudem könnte ein möglicher, jedoch betont 

sehr vager Grund für die Abweichung der real aufgenommenen Laute auch darin liegen, dass der 

Sprecher Patrick Martin zum Zeitpunkt der Aufnahmen eine leichte Erkältung hatte und somit 

die Vokaltraktgeometrie von der im Modell verwendeten durchschnittlichen Vokaltraktgeometrie 

stärker abwich. 

7 Schlussbemerkung und Ausblick 

Es wurde bewiesen, dass es generell möglich ist ein perzeptiv gleiches Signal durch eine unterschiedliche 

Anordnung an Röhren zu erzeugen, was das Bauchreden zunächst einmal physikalisch 

erklärbar und möglich macht. Im Folgenden wurde gezeigt, dass der labiale Laut [b] auch ohne

LITERATUR 14 

Benutzung der Lippen im Modell perzeptiv fast identisch nachgebildet werden konnte. Daraus 

folgt, dass auch der Laut [p] ersetzt werden kann, da das Aussprechen eines [p] sich vom Aussprechen 

eines [b] nur durch die später einsetzende stimmhafte Anregung unterscheidet, welche 

wiederum ausschließlich von den Stimmbändern hervorgerufen wird. Auch der Nasallaut [m] kann 

vom Bauchredner auf zwei Arten substituiert werden, wobei die Vokaltraktstellung einmal in etwa 

dem [n] ähnelt, jedoch die Zunge an die Zähne geschoben wird. Die andere Möglichkeit besteht 

darin, dass der Sprecher das Velum an die Mundoberseite drückt. Dass auch der Nasallaut [m] 

vom Bauchredner simuliert werden kann, konnte durch eine Abschätzung der Lage der Antiformanten 

gezeigt werden. Hierbei muss der Bauchredner seine Zunge möglichst nahe an die Zähne 

drücken, so dass der Resonanzraum maximal groß wird. Auch die Laute [f] und [w] können vom 

Bauchredner durch den oben beschriebenen Subsitutionslaut [f’] ersetzt werden. 

Durch die anschauliche Darstellung der Substitutionslaute in der Simulationssoftware wäre 

es denkbar, dass man angehenden Bauchrednern, die Bildung der Substitutionslaute beibringt. 

Durch die Analysemethode wird es dann ebenfalls möglich die Qualität der Aussprache objektiv 

zu bewerten. 

Medizinische Untersuchungen 8 zeigen, dass an Dysarthrie leidende Menschen, die bestimmte 

Artikulatoren im Vokaltrakt nicht bewegen können, selbstständig zur besseren Verständlichkeit 

ihre Aussprache durch artikulatorische Substitutionslaute verbessern, d.h. z.B. bei einer eingeschränkten 

Fähigkeit die Lippen zu bewegen werden Ersatzlaute mit den übrigen Artikulatoren 

wie z.B. der Zunge gebildet. Auch diese Menschen könnten von den Untersuchungen und den Vokaltraktmodellen 

für Ersatzlaute profitieren, indem sie bereits in frühen Stadien ihrer Krankheit 

wegen des langsamen Krankheitsverlaufs die Substitutionslaute erlernen und somit ihre Problemlaute 

ersetzen können. 

Danksagung 

Wir möchten uns bedanken beim Institut für Angewandte Physik der Goethe-Universität in Frankfurt 

am Main für die Bereitstellung der Räumlichkeiten und die technische Unterstützung bei der 

Durchführung unserer Versuche, dem Institut für Phonetik für die geduldige Beantwortung all unserer 

Fragen, dem Senckenberg-Museum für die Bereitstellung des Spezial-Gips und der Beratung 

für das Gipsmodell, sowie der Informatikbibliothek Frankfurt und der FH-Bibliothek Schweinfurt. 

Insbesondere gilt der Dank unserem Betreuer Dr. Karl Schnell und der Arbeitsgruppe Digitale 

Systeme, Sprachsynthese und Signalprozessoren von Professor Lacroix. 

Literatur 

[1] Birkholz, Peter: Entwicklung eines dreidimensionalen Artikulatormodells für die Sprachsynthese. 

http://wwwicg.informatik.uni-rostock.de/ piet/speak main.html, 2002. 

[2] Bockamp, Elke: Bauchreden - spielend lernen. Edition Aragon, Moers, 1995. 

[3] B. Story, I. Titze: Vocal tract area functions from magnetic resonance imaging. 1996. 

[4] Gloria J. Borden, Katherine S. Harris: Speech Science Primer. Waverly Press, Baltimore, MD, 

1984. 

[5] J. R. Deller, J. G. Proakis, J. Hansen: Discrete-Time Processing of Speech Signals. New York 

1993. 

[6] L. Rabiner, R. Schafer: Digital Processing of Speech Signals. Prentice-Hall, London 1978. 

[7] Mildenberger, Otto: Informationstechnik kompakt. Vieweg, 1999. 

[8] Oppenheim, A. V.: Signale und Systeme. Prentice-Hall, Cambridge, MA, 1989. 

[9] Peters, Thomas: Fourier-Reihen. www.mathe-seiten.de, 2004. 

8 Prof. Kröger von der Uni-Klinik Aachen berichtete uns von einem Patienten, der auf Grund mangelnder Beweglichkeit 

des Vokaltraktmittelteils ” artikulatorisch-phonetische Kompensationslaute“ mit den Lippen und den 

restlichen noch funktionsfähigen Artikulatoren bildete. Leider konnte er jedoch nicht auf die weiteren Details der 

Ersatzlaute eingehen, da eine Untersuchung des Patienten nur beschränkt möglich war. Prinzipiell kann diese Dysarthrie 

auch so vorliegen, dass an Stelle des Vokaltraktmittelteils nur der Vokalktraktvorderteil (Lippen) unbeweglich 

ist.

LITERATUR 15 

[10] Pompino-Marschall, Bernd: Einführung in die Phonetik. Berlin, 1995. 

[11] P. Vary, U. Heute, W. Hess: Digitale Sprachsignalverarbeitung. B.G. Teubner, Stuttgart, 1998. 

[12] Schnell, Karl: Sprachsynthese mit erweiterten Rohrmodellen. Diplomarbeit, Frankfurt am Main, 

1996. 

[13] Schnell, Karl: Parameterbestimmung für Rohrmodelle aus Sprachsignalen für die Sprachproduktion. 

Dissertation, Frankfurt am Main, 2003. 

[14] Stevens, Kenneth N.: Acoustic Phonetics. MIT Press, Cambridge, MA, 1998. 

[15] Vox, Valentine: I can see your lips moving. Retonios Magic, Casino, Schweiz. 

[16] Werner, Martin: Signale und Systeme. Vieweg und Sohn, Braunschweig, 2000.

A PHONETIK 16 

A Phonetik 

In der Phonetik werden Verengungsstellen des Vokaltrakts an bestimmten Stellen wie in Abb. A bezeichnet 

(vgl. z.B. [14]). Somit kann eine Einteilung der Konsonanten der deutschen Sprache vorgenommen werden. 

(a) (b) 

Abb. 1: a) Auswahl an Engstellenbezeichnungen im Vokaltrakt (vgl. [13]). b) Gehörschnecke nach 

[4], zu Abschnitt 2.4. 

Diese Einteilung wird durch die IPA-Konsonantentafel vorgenommen, vgl. Abb. 2. Vokale können zum 

Abb. 2: IPA-Konsonanten-Tafel (Stand 1993). 

einen durch ihre Bildung im Vokaltrakt anhand eines Vokalvierecks unterschieden werden. Zum anderen 

kann durch Analyse der ersten beiden Formanten eine Unterscheidung erfolgen, vgl. Abb. 3

B ABBILDUNGEN 17 

(a) (b) 

Abb. 3: (a) IPA-Vokal-Viereck (Stand 1993). (b) Lage der ersten beiden Formanten F1 und F2 

für die deutschen Kurz- (links) und Langvokale (rechts), ermittelt durch Sprachanalyse an 16 

Testpersonen (vgl. [11]). 

B Abbildungen 

Abb. 4: Quelle-Filter-Modell nach [10]. 

(a) Rohr A (b) Rohr B 

Abb. 5: Die beiden Röhren A (a) und B (b).


dB 

30 

20 

10 

0 

–10 

–20 

Rohr A 

1 2 3 

omega 

Abb. 6: Übertragungsfunktionen H1 ′ (ω) für Röhre A (hell) und H2 ′ (ω) für Röhre B (dunkel). 

Maple Plot für ∆ω = π 

500 , τ = 1.0 und Ai, Bi wie in der Tabelle beschrieben. Die ersten beiden 

Formanten (lokale Maxima) sind nahezu identisch. 

(a) (b) 

Abb. 7: Modell von Birkholz: (a) Vernetzung des Vokaltrakts mit Gittern für Ober- und Unterseite, 

sowie für die Zunge. (b) Röhrenmodell mit Nasaltrakt. 

(a) Vokaltrakt (b) Rohrmodell 

(c) Formanten 

Abb. 8: Modellierung des Lautes [b]. Im Vokaltrakt bilden die Lippen einen Verschluss. Die ersten 

beiden Formanten liegen bei ca. F [b] 

[b] 

1 = 450 Hz und F 2 = 1050 Hz.



(c) Formanten 

Abb. 9: Modellierung des Lautes [b’]. Der Verschluss wird im Vokaltrakt durch die nach oben 

gepresste Zunge erzeugt. Die ersten beiden Formanten liegen bei ca. F [b′ ] 

1 = 500 Hz und F [b′ ] 

2 = 

1100 Hz.


(a) ba Spektrogramm (b) b’a Spektrogramm 

(c) da Spektrogramm (d) ba 

(e) da 

Abb. 10: (a-c) Spektrogramme für die in tractysn modellierten instationären Laute [ba], [b’a] 

und [da]. Zeitachse nach rechts, Frequenzachse nach oben verlaufend. (d) und (e) Theoretischer 

zeitlicher Verlauf der ersten drei Formanten für die Laute [ba], [da] nach [10].


(a) b’ (b) d (c) m’ (d) m” 

Abb. 11: Vokaltraktstellungen für Bauchredner nach [15]: (a) Substitutionslaut [b’] ohne Lippenschließung, 

(b) zum Vergleich ein normal gesprochenes [d]. (c) Substitutionslaut [m’], ähnlich 

einem [n] mit Verschluss durch die Zunge, (d) Substitutionslaut [m”], ähnlich [ng] mit uvularem 

Verschluss, v.a. Nasaltrakt dient als Resonanzkörper. 

Abb. 12: Drei-Wege-Modell für die Lauterzeugung von Nasallauten. 


(c) Spektrum 

Abb. 13: Der Laut [m]. (a) Der Vokaltrakt endet mit einem Verschluss der Lippen. Das Velum ist 

geöffnet, sodass Schallwellen in den Nasaltrakt gelangen. (b) Röhrenmodell. (c) Durch die Öffnung 

des Velums kommt es beim Spektrum zu Nullstellen bzw. Antiresonanzen bei etwa 1000 Hz und 

3500 Hz.



(c) Spektrum 

Abb. 14: Der Ersatzlaut [m’]. (a) Der Vokaltrakt ähnelt einem [n], da der Verschluss durch die Zunge 

anstelle der Lippen erfolgt. Das Velum ist wie beim [m] geöffnet. Röhrenmodell. Das Spektrum 

verfügt über Antiresonanzen bzw. Nullstellen. 


(c) Spektrum 

Abb. 15: Der Laut [m”]. (a) Der Verschluss erfolgt bereits uvular, ähnlich einem [ng]. (b) Rohrmodell. 

(c) Das Spektrum weist wiederum Nullstellen auf.



(c) Spektrum 

Abb. 16: Der Laut [f]. (a) Die Verengung erfolgt dental, die Zunge ist bereits im Übergang zum 

[a]. (b) Rohrmodell. (c) Spektrum mit Resonanzen bei 400, 1550 und 2650 Hz. 


(c) Spektrum 

Abb. 17: Der Substitutionslaut [f’]. (a) Der Verengung erfolgt etwas weiter im Mundinneren als 

beim [f]. (b) Rohrmodell. (c) Spektrum mit Resonanzen bei 400, 1550 und 3550 Hz.


(a) fa Spektrogramm (b) f’a Spektrogramm 

Abb. 18: Spektrogramme für die in tractysn modellierten instationären Laute [fa], [f’a]. Zeitachse 

nach rechts, Frequenzachse nach oben verlaufend. 

(c) 

pa 

mit 

Lippen 

(a) ba mit Lippen (b) ba ohne Lippen 

(d) pa ohne Lippen 

Abb. 19: Spektren der vom Bauchredner Patrick Martin aufgenommenen Lautübergänge [ba] und 

[pa] mit und ohne Lippen in Abhängigkeit von der Zeit. Nach rechts ist die Frequenz angetragen, 

nach oben die Amplitude in dB. Die verschiedenen Kurven stellen die Einhüllenden der Spektren 

zu aufeinander folgenden Zeitpunkten dar.

Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?