11.08.2013 Aufrufe

Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi

Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi

Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Inhaltsverzeichnis<br />

<strong>Kann</strong> <strong>man</strong> <strong>mit</strong> <strong>dem</strong> <strong>Bauch</strong> <strong>reden</strong>?<br />

<strong>Eine</strong> <strong>physikalische</strong> Untersuchung<br />

Jörg Metzner, Marcel Sch<strong>mit</strong>tfull<br />

März 2005<br />

1 Einleitung 1<br />

2 Lautentstehung beim Menschen 1<br />

2.1 Stimmhafte Anregung durch die Glottis . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

2.2 Filterfunktion des Vokaltrakts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt . . . . . . . . . . 2<br />

2.4 For<strong>man</strong>ten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2.5 <strong>Bauch</strong><strong>reden</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

3 Vokaltraktmodelle 4<br />

3.1 Einfaches Röhrenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

3.1.1 Kurzbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

3.1.2 Berechnung der Übertragungsfunktion . . . . . . . . . . . . . . . . . . . . . 4<br />

3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren . . . . . . . . . . . 7<br />

3.2 3D Modell nach Birkholz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

4 Modellgestützte Simulation der Ersatzlaute 8<br />

4.1 Die Plosivlaute [b] und [p] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

4.2 Der Nasal [m] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

4.3 Die Frikative [f] und [w] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

5 Lautsimulation im realen Experiment <strong>mit</strong> Hilfe eines Gipsmodells 13<br />

6 Analyse von <strong>Bauch</strong>redner-Aufnahmen 13<br />

6.1 Die Lautübergänge [ba] <strong>mit</strong> Lippen und [b’a] ohne Lippen . . . . . . . . . . . . . . 13<br />

6.2 Die Lautübergänge [pa] <strong>mit</strong> Lippen und [p’a] ohne Lippen . . . . . . . . . . . . . . 14<br />

6.3 Vergleich <strong>mit</strong> modellerzeugten Lautübergängen und Fehleranalyse . . . . . . . . . 14<br />

7 Schlussbemerkung und Ausblick 14<br />

A Phonetik 17<br />

B Abbildungen 18


2 LAUTENTSTEHUNG BEIM MENSCHEN 1<br />

1 Einleitung<br />

2 Lautentstehung beim Menschen<br />

Bei der Lauterzeugung muss zwischen der Schallerzeugung an den Stimmbändern und der Schallmodifikation<br />

des restlichen Vokaltrakts unterschieden werden.<br />

2.1 Stimmhafte Anregung durch die Glottis<br />

Aus der Lunge strömt Luft nach oben in Richtung der Stimmbänder. Der dadurch aufgebaute<br />

Druck wird so groß, dass er eine kurzzeitige Öffnung der Stimmbänder und so<strong>mit</strong> der Glottis<br />

1 bewirkt. Während der Öffnung entweicht die Luft in den Vokaltrakt und der Druck auf die<br />

Stimmbänder verringert sich, so dass sich die Glottis wieder schließt – bis der Druck erneut für<br />

eine Öffnung ausreicht. So entsteht ein periodisches Öffnen und Schließen der Glottis, welches zu<br />

einem Schallsignal führt. Oftmals werden die beiden Stimmbänder durch ein Zwei-Massen-Modell<br />

simuliert, da diese das Öffnen und Schließen der Stimmbänder in Abhängigkeit des auf sie wirkenden<br />

Drucks gut beschreiben können. Das gleiche Phänomen ist auch beim Entweichen von Luft<br />

aus einem Luftballon, dessen Öffnung auseinander gezogen wird, zu beobachten. Der entstehende<br />

Grundlaut muss im Vokaltrakt nun noch zu einem vollständigen Laut umgeformt werden.<br />

2.2 Filterfunktion des Vokaltrakts<br />

Die verschiedenen Artikulatoren (Zunge, Velum, Kiefer, Lippe) bestimmen die Geometrie des Vokaltrakts.<br />

Von dieser Geometrie ist die weitere Entwicklung des aus der Glottis kommenden Schallsignals<br />

abhängig. Um den Einfluss der Vokaltraktgeometrie auf die Lautbildung herauszufinden,<br />

können verschiedene Modelle betrachtet werden. In den Kapiteln 3.1 und 3.2 werden wir insbesondere<br />

auf das einfache Röhrenmodell und das von Birkholz weiterentwickelte Mermelstein-Modell<br />

eingehen.<br />

2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt<br />

Fasst <strong>man</strong> die Anregungsfunktion der Glottis als Quelle, die Übertragungsfunktion des Vokaltrakts<br />

als Filter auf, so entsteht das in Abb. 4 gezeigte Quelle-Filter-Modell für die Lautbildung.<br />

Glottis<br />

Die durch das periodische Öffnen und Schließen der Glottis entstehenden Schallwellen haben einen<br />

Schalldruck p, der die lokale Veränderung des Luftdrucks gegenüber <strong>dem</strong> Normaldruck beschreibt.<br />

Neben <strong>dem</strong> Schalldruck kann die Schallwelle auch durch eine Schallschnelle v dargestellt werden,<br />

die die Oszillation der einzelnen Luftteilchen angibt. Multipliziert <strong>man</strong> die Schallschnelle v <strong>mit</strong><br />

der Querschnittsfläche A des Rohrs, so erhält <strong>man</strong> den Volumenstrom oder Schallfluss u = v · A.<br />

Der Quotient aus Schalldruck und Volumenstrom wird als akustische Impedanz p<br />

u bezeichnet.<br />

Vokaltrakt<br />

Von der Glottis kommt nun ein Signal x(t) in den Vokaltrakt. Dieses Eingangssignal kann durch<br />

Linearkombinationen von Diracimpulsen δ(t) beschrieben werden. Die Modifikation dieser Impulsfunktion<br />

im Vokaltrakt wird als Impulsantwort h(t) des Systems bezeichnet. Das schließliche<br />

Ausgangssignal y(t) erhält <strong>man</strong> mathematisch betrachtet aus der Faltung y(t) = x(t)∗h(t) des Eingangssignals<br />

<strong>mit</strong> der Impulsantwort (vgl. [16]). Wichtig ist insbesondere, dass die Impulsantwort<br />

das akustische System des Vokaltrakts vollständig beschreibt.<br />

Während die Impulsantwort das Endsignal y(t) im Zeitbereich liefert, vermag die sog. Übertragungsfunktion<br />

H(ω) angewandt auf das Eingangssignal X(ω) das Endsignal Y (ω) im Frequenzbereich,<br />

d.h. in Abhängigkeit der ω anzugeben. Zur Analyse am Computer muss das zeitkontinuierliche<br />

Endsignal y(t) <strong>mit</strong> einer bestimmten Abtastfrequenz fA abgetastet werden, d.h. y(t) wird<br />

1 Als Glottis bezeichnet <strong>man</strong> den Hohlraum zwischen den beiden Stimmbändern.


2 LAUTENTSTEHUNG BEIM MENSCHEN 2<br />

zu einer diskreten Funktion <strong>mit</strong> Werten an Zeitpunkten <strong>mit</strong> <strong>dem</strong> Abstand TA = 1 . Nach <strong>dem</strong><br />

fA<br />

Abtasttheorem (vgl. [11], [16]) muss die Abtastfrequenz den doppelten Wert der höchsten in <strong>dem</strong><br />

zu analysierenden Signal vorkommenden Frequenz haben, um die Eindeutigkeit der Frequenzen zu<br />

gewährleisten. Bei einer Abtastrate von z.B. 44100 Hz (CD-Qualität) kommen also nur Frequenzen<br />

bis maximal 22050 Hz vor.<br />

Zur Analyse eines Signals wird üblicherweise die frequenzabhängige Darstellung X(ω) betrachtet.<br />

Diese Darstellung wird als das Spektrum des Endsignals bezeichnet, da es anschaulich<br />

gesprochen für die Stärke des Vorliegens einzelner Frequenzen in <strong>dem</strong> Signal steht. Formal läuft<br />

dies darauf hinaus, dass ein periodisches Signal x(t) als Fourier-Reihe<br />

x(t) =<br />

∞<br />

k=−∞<br />

αke jkω0t<br />

<strong>mit</strong> der Grundfrequenz ω0 dargestellt wird. Die Menge der Harmonischen e jkω0t = cos kω0t +<br />

j sin kω0t bildet hierbei ein vollständiges Orthogonalsystem. Für die Koeffizienten αi in (2.1) erhält<br />

<strong>man</strong> (vgl. [9], [7])<br />

αk = 1<br />

T<br />

T<br />

0<br />

(2.1)<br />

x(t)e −jkω0t dt, (2.2)<br />

wobei die untere Grenze des Integrals beliebig ist, solange über das Intervall einer Periode T = 2π<br />

ω0<br />

integriert wird. Die Phase der komplexen αk beschreibt die möglichen Phasenverschiebungen der<br />

Basen ejkωt in (2.1), während die Beträge |αk| für die Amplitude stehen. In einem Linienspektrum<br />

werden eben diese Beträge |αk|, meist in der logarithmischen Skalierung Dezibel, gegen die<br />

einzelnen ω aufgetragen.<br />

Um auch eine Transformation für aperiodische Funktionen x(t) vom Zeit- in den Frequenzbereich<br />

durchführen zu können, lässt <strong>man</strong> die Periode T in (2.2) gegen unendlich gehen T → ∞. Der<br />

Abstand zweier Linien im Frequenzenspektrum beträgt ω0 = ∆ω = 2π 1 , für T → ∞ wird also<br />

∆ω → dω und k∆ω → ω. Setzt <strong>man</strong> für das Integral in (2.2) die untere Integrationsgrenze bei − T<br />

und die obere bei T<br />

2<br />

, so wird beim Grenzübergang T → ∞ Gleichung (2.2) <strong>mit</strong> 1<br />

T<br />

αk = ∆ω<br />

2π<br />

∞<br />

−∞<br />

x(t)e −jωt dt<br />

<br />

X(ω)<br />

= ∆ω<br />

2π<br />

T<br />

= ∆ω<br />

2π zu<br />

dω<br />

· X(ω) → · X(ω). (2.3)<br />

2π<br />

In der Fourier-Reihe (2.1) wird die Summe zum Integral und kω0 → ω. Setzt <strong>man</strong> (2.3) in (2.1)<br />

ein folgt also <strong>mit</strong> ∆ω → dω<br />

IFT: x(t) = 1<br />

2π<br />

∞<br />

−∞<br />

X(ω)e jωt dω. (2.4)<br />

Diese Transformation der X(ω) zu x(t) nennt <strong>man</strong> Fourier-Synthese bzw. inverse Fourier-Transformation<br />

(IFT). Die umgekehrte Transformation vom Zeitbereich x(t) in den Frequenzbereich X(ω) wird<br />

als Fourier-Transformation (FT)<br />

FT: X(ω) =<br />

∞<br />

−∞<br />

x(t)e −jωt dt. (2.5)<br />

bezeichnet. Für eine tiefergehende Diskussion der Fourier-Transformation sei auf [8] und [7] verwiesen.<br />

Überblick und Darstellung<br />

Zur besseren Übersicht fassen wir noch einmal zusammen: Der Vokaltrakteinfluss auf das Eingangssignal<br />

x(t) im Zeitbereich wird durch die Impulsantwort h(t) vollständig beschrieben. Das<br />

2


2 LAUTENTSTEHUNG BEIM MENSCHEN 3<br />

Endsignal wird im Zeitbereich durch eine i.A. aperiodische Funktion x(t) dargestellt. Durch eine<br />

Fourier-Transformation gelangt <strong>man</strong> zum Frequenzbereich, in <strong>dem</strong> der Vokaltrakteinfluss durch die<br />

Übertragungsfunktion H(ω) und das Endsignal durch das Spektrum X(ω) beschrieben werden.<br />

Zeitbereich: x(t)<br />

h(t)<br />

−→ x(t)<br />

↓ FT ↓ ↓ ↓<br />

Frequenzbereich: X(ω) H(ω)<br />

−→ X(ω).<br />

<strong>Eine</strong> beide Beschreibungsformen vereinigende Darstellungsmöglichkeit bietet das Spektrogramm,<br />

in <strong>dem</strong> in einem Diagramm <strong>mit</strong> Zeit- und Frequenzachse der Betrag |αi(t)| für die Frequenz ω zum<br />

Zeitpunkt t <strong>mit</strong>tels Färbung gekennzeichnet ist. 2 Dadurch lassen sich v.a. zeitliche Änderungen<br />

der For<strong>man</strong>ten gut darstellen, was insbesondere für instationäre Laute sehr wichtig ist.<br />

2.4 For<strong>man</strong>ten<br />

<strong>Eine</strong> sehr wichtige Rolle für die Phonetik spielen die For<strong>man</strong>ten eines Lautes. Als For<strong>man</strong>ten<br />

bezeichnet <strong>man</strong> die Maximumstellen der Einhüllenden der Übertragungsfunktion H(ω), die den<br />

Einfluss des Vokaltrakts auf den Eingangslaut im Frequenzbereich beschreibt. Die For<strong>man</strong>ten<br />

geben also Frequenzen an, die besonders stark vom Vokaltrakt verstärkt werden. Diese auch als<br />

Resonanzen bezeichneten Frequenzen sind maßgeblich für die Lauterkennung verantwortlich.<br />

Es wurde oft experimentell gezeigt, dass für die Lauterkennung nur die ersten beiden For<strong>man</strong>ten<br />

entscheidend sind. Ab <strong>dem</strong> dritten For<strong>man</strong>ten wird die Lautcharakteristik für die Lautunterscheidung<br />

nur noch unwesentlich verändert, ein [u] in ” rutschen“ und in ” Buch“ wäre ein Beispiel, wo<br />

die ersten For<strong>man</strong>ten praktisch gleich bleiben und sich nur die hinteren For<strong>man</strong>ten verschieben.<br />

<strong>Eine</strong> mögliche Erklärung liegt unserer Meinung nach darin, dass die menschliche Gehörschnecke<br />

lediglich im Abschnitt für Frequenzen bis ca. 1 Kilohertz eine anatomisch lineare Struktur aufweist<br />

und die Frequenzverteilung darüber logarithmisch ist, vgl. Abb. im Anhang.<br />

2.5 <strong>Bauch</strong><strong>reden</strong><br />

Beim <strong>Bauch</strong><strong>reden</strong> ist es wichtig Ersatzlaute für die labialen Laute zu finden, deren ersten beiden<br />

For<strong>man</strong>ten möglichst genau <strong>mit</strong> denen der zu ersetzenden Laute übereinstimmen. Die For<strong>man</strong>ten<br />

der zu ersetzenden Laute sind nun zwar aus der Literatur bekannt [13], jedoch ist nicht möglich von<br />

diesen auf den Vokaltrakt zu schließen (vgl. [10], [11]). D.h. von <strong>dem</strong> Spektrum ausgehend kann<br />

nicht eindeutig auf die einzelnen Vokaltraktparameter geschlossen werden. Früher wurde versucht<br />

den Einfluss von Verengungen an bestimmen Stellen auf die For<strong>man</strong>ten durch For<strong>man</strong>tverschieber<br />

zu beschreiben (z.B. Till<strong>man</strong>n [10]), jedoch zeigen neuere Erkenntnisse, dass dies häufig eine<br />

Vereinfachung darstellt.<br />

Die für uns einzige Möglichkeit die Stellung des Vokaltrakts für die Ersatzlaute zu finden besteht<br />

also darin, <strong>mit</strong>hilfe von <strong>Bauch</strong>rednerbüchern (z.B. [15] und [2]) und Hinweisen von <strong>Bauch</strong>rednern<br />

zu ihrer Technik die Geometrie des Vokaltrakts <strong>mit</strong> der Hand am Computer nachzubilden. Dabei<br />

wird darauf geachtet, dass die For<strong>man</strong>ten des zu ersetzenden Lautes möglichst optimal angenähert<br />

werden. Um also die Substitutionslaute für die kritischen Laute <strong>mit</strong> labialen Verengungen bzw.<br />

Verschlüssen modellhaft nachbilden zu können, haben wir auf die Software tractsyn zurückgegriffen,<br />

vgl. Abschnitt 4.<br />

Im nächsten Kapitel soll nun zunächst formal gezeigt werden, dass die Nachbildung der ersten<br />

beiden For<strong>man</strong>ten trotz unterschiedlicher Artikulatorstellungen möglich ist. Dies geschieht <strong>mit</strong>hilfe<br />

eines einfachen Röhrenmodells.<br />

2 In den unten folgenden Spektrogrammen wird die Zeitachse horizontal, die Frequenzachse vertikal verlaufen; je<br />

größer der Rotanteil der Farbe ist, desto höher ist |α|.


3 VOKALTRAKTMODELLE 4<br />

3 Vokaltraktmodelle<br />

3.1 Einfaches Röhrenmodell<br />

3.1.1 Kurzbeschreibung<br />

Die Geometrie und so<strong>mit</strong> die Übertragungsfunktion des Vokaltrakts wird durch eine Aneinanderreihung<br />

diskreter als verlustfrei angenommener Zylinderabschnitte <strong>mit</strong> variieren<strong>dem</strong> Durchmesser<br />

angenähert. Wird in dieses angenäherte Rohr nun ein durch eine Anregungsfunktion beschriebenes<br />

Signal geschickt, so wird dieses Signal entsprechend der angenäherten Übertragungsfunktion modifiziert.<br />

Wählt <strong>man</strong> die Anzahl der diskreten Zylinder sehr groß, so entsteht also ein Laut, dessen<br />

Resonanzen <strong>dem</strong> des kontinuierlichen Vokaltrakts sehr nahe kommen. Die angenommene Verlustfreiheit<br />

beeinträchtigt das Ergebnis nur gering und ermöglicht es v.a. die Übertragungsfunktion<br />

für eine bestimmte Rohrkonfiguration explizit zu berechnen. Dies soll im folgenden Kapitel gezeigt<br />

werden.<br />

3.1.2 Berechnung der Übertragungsfunktion<br />

Der Vokaltrakt sei durch eine Aneinanderreihung von N Zylindern <strong>mit</strong> Querschnittsflächen Ai<br />

angenähert. Gesucht ist nun die Übertragungsfunktion H(ω) <strong>mit</strong> der das Ausgangssignal aus <strong>dem</strong><br />

Rohr Y (ω) = X(ω) · H(ω) berechnet werden kann.<br />

Während innerhalb eines Zylinders Zi <strong>mit</strong> konstanter Querschnittsfläche Ai keine Modifikation<br />

der Schallwelle auftritt, führt eine Querschnittssprungstelle zwischen zwei Zylindern Zi und<br />

Zi+1 <strong>mit</strong> unterschiedlichen Querschnittsflächen Ai = Ai+1 zu einer Aufspaltung der Schallwelle in<br />

einen trans<strong>mit</strong>tierten und einen reflektierten Teil. Das führt dazu, dass sich in <strong>dem</strong> Rohr Schallwellen<br />

in der ursprünglichen Richtung (Einheitsvektor e + ) und in der entgegengesetzten Richtung<br />

(Einheitsvektor e − ) ausbreiten.<br />

Betrachten wir also einen Querschnittssprung zwischen den Zylindern Zi und Zi+1. Nimmt<br />

<strong>man</strong> die Änderung des Drucks pi → pi+1 und die Änderung des Schallflusses ui → ui+1 als stetig<br />

an (Kontinuitätsannahme vgl. [6], so ist in den diskreten Zylindern pi bzw. ui am rechten Rand<br />

von Zi gleich pi+1 bzw. ui+1 am linken Rand von Zi+1:<br />

pi = pi+1 bzw. p + i + p− i = p+ i+1 + p− i+1 , (3.1)<br />

ui = ui+1 bzw. u + i + u− i = u+ i+1 + u− i+1 , (3.2)<br />

Auf der rechten Seite von Gleichung (3.1) wird dabei der Gesamtdruck durch p = p + + p − , d.h.<br />

als Summe des Schalldrucks der in + Richtung laufenden Welle und des Schalldrucks der in −<br />

Richtung laufenden Welle ausgedrückt. Der Gesamtfluss beträgt analog u = u + + u − . Schreibt<br />

<strong>man</strong> die Flüsse als u + = u + · e + und u − = u − · e − , so wird (3.2) <strong>mit</strong> e + = −e − zu<br />

u + i − u− i = u+ i+1 − u− i+1 . (3.3)<br />

Um Gleichung (3.3) in Abhängigkeit der Drucke p und der Querschnittsflächen A auszudrücken,<br />

wird die Schallschnelle v ± = v ± · e ± in u ± = v ± A ⇒ u ± = v ± A durch den sog. Schallkennwiderstand<br />

(vgl. [12]) <strong>mit</strong> <strong>dem</strong> Druck p in Beziehung gesetzt:<br />

p +<br />

v<br />

+ = p−<br />

= ϱc, (3.4)<br />

v− wobei ϱ die Dichte des Mediums und c die Schallgeschwindigkeit in diesem Medium bedeutet, z.B.<br />

cLuft,37◦C ≈ 350 m s . Stellt <strong>man</strong> (3.4) nach der Schallschnelle v um und setzt u = vA ein, so ergibt<br />

sich<br />

u + = p+ A<br />

ϱc , u− = p−A ϱc<br />

und Gleichung (3.3) wird zu<br />

p + i Ai<br />

ϱc − p− i Ai<br />

ϱc<br />

= p+ i+1 Ai+1<br />

ϱc<br />

− p− i+1 Ai+1<br />

ϱc<br />

⇔ Ai(p + i − p− i ) = Ai+1(p + i+1 − p− i+1 ) (3.5)


3 VOKALTRAKTMODELLE 5<br />

Löst <strong>man</strong> nun (3.1) nach p − i<br />

auf, so erhält <strong>man</strong><br />

p − i = p+ i+1 + p− i+1 − p+ i .<br />

Auflösen von (3.5) nach p + i+1 und Einsetzen liefert nach Vereinfachen<br />

p − i = Ai − Ai+1<br />

p<br />

Ai + Ai+1<br />

+ i<br />

2Ai+1<br />

+ p<br />

Ai + Ai+1<br />

− i+1 . (3.6)<br />

Ohne einen Querschnittssprung würde sich in Zi eine Welle <strong>mit</strong> p + i in + Richtung und in Zi+1<br />

eine Welle <strong>mit</strong> p − i+1 − Richtung bewegen, sodass in Zi für den Druck in − Richtung p − i = p− i+1<br />

gelten würde. Sei die Welle p − i+1 als einlaufende Welle betrachtet, dann sagt Gleichung (3.6) jedoch<br />

aus, dass nur ein gewisser Teil des Drucks p − i+1 der in − Richtung verlaufenden Welle in p− i noch<br />

enthalten ist, d.h. nur ein Teil dieser Welle wird trans<strong>mit</strong>tiert. Gleichzeitig ist in (3.6) ein Teil des<br />

Drucks p + i der in + Richtung verlaufenden Welle enthalten, d.h. ein Teil dieser in + Richtung<br />

verlaufenden Welle wird in − Richtung reflektiert. Die Faktoren für Transmission in der in −<br />

Richtung verlaufenden Welle und Reflexion der in + Richtung verlaufenden Welle sind nach (3.6)<br />

Reflexionsfaktor R + = Ai − Ai+1<br />

, (3.7)<br />

Ai + Ai+1<br />

Transmissionsfaktor T − =<br />

2Ai+1<br />

Ai + Ai+1<br />

Stellt <strong>man</strong> die Gleichungen (3.1) und (3.5) nach p + i+1 statt wie oben nach p− i<br />

p + i+1 = Ai+1 − Ai<br />

p<br />

Ai + Ai+1<br />

− i+1 +<br />

p − i<br />

2Ai<br />

p<br />

Ai + Ai+1<br />

+ i<br />

= R − p − i+1 + T + p + i<br />

= −R + p − i+1 + (1 + R+ )p + i .<br />

= 1 − R + . (3.8)<br />

so erhält <strong>man</strong><br />

Die Gleichungen (3.6) und (3.9) lassen sich <strong>mit</strong> R = R + kompakt schreiben als<br />

+<br />

p i+1 −R<br />

=<br />

1 − R<br />

−<br />

1 + R pi+1 .<br />

R<br />

(3.10)<br />

Um die Wellengrößen pi in Abhängigkeit der pi+1 auszudrücken, wird (3.10) noch vereinfacht zu<br />

+<br />

p i<br />

p − <br />

=<br />

i<br />

1<br />

+<br />

1 R p i+1<br />

1 + R R 1 p − <br />

i+1<br />

Da die Schallwelle die Zeit τ<br />

2<br />

p + i<br />

(3.9)<br />

(3.11)<br />

= d<br />

c benötigt3 , um den Weg des Abstands d zwischen zwei Quer-<br />

schnittssprungstellen zurückzulegen, sind die Wellen an den verschiedenen Querschnittssprungstellen<br />

zueinander verschoben. Da aus (2.4) folgt, dass<br />

x(t)<br />

x(t ± τ)<br />

F T<br />

=<br />

F T<br />

=<br />

1<br />

2π<br />

∞<br />

−∞<br />

∞<br />

1<br />

<br />

2π<br />

−∞<br />

X(ω)e jωt dω<br />

X(ω)e jω(t±τ) dω = 1<br />

2π<br />

∞<br />

−∞<br />

e ±jωτ · X(ω)e jωt dω<br />

gilt, entspricht eine Verschiebung x(t) → x(t ± τ<br />

2 ) im Zeitbereich der Operation X(ω) → X(ω) ·<br />

τ<br />

±jω e 2 im Frequenzbereich. Um deutlich zu machen, dass im Frequenzbereich operiert wird, verwenden<br />

wir im Folgenden P anstelle von p. In (3.10) wird der Vektor (P +<br />

−<br />

, P<br />

berechnet, d.h. in (P +<br />

i+1<br />

−<br />

i , Pi )T aus (P +<br />

−<br />

, Pi+1 )T muss die sich nach rechts4 bewegende + Welle P +<br />

i+1<br />

i+1<br />

i+1 )T<br />

um τ<br />

2 nach<br />

3 Die Zeitverschiebung wird als τ<br />

2 gewählt, um später in Gleichung (3.12) e 1 2 jωt ausklammern und die Matrix<br />

umformen zu können.<br />

4<br />

” Rechts“ entspricht der + Richtung, die wiederum der Richtung aufsteigender Zylinderindizes Zi → Zi+1 entspricht.


3 VOKALTRAKTMODELLE 6<br />

links verschoben werden, P +<br />

i+1<br />

Welle P − + −<br />

i+1 in (P i+1 , Pi+1 )T um τ<br />

2<br />

+<br />

P i+1<br />

P −<br />

<br />

i+1<br />

→<br />

<br />

P + 1<br />

i+1 · e+ 2 jωt<br />

P −<br />

i+1<br />

· e− 1<br />

2 jωt<br />

Aus Gleichung (3.11) wird also<br />

+<br />

P i<br />

P −<br />

<br />

i<br />

+ 1<br />

→ P i+1 · e+ 2 jωt . Analog muss die sich nach links ausbreitende −<br />

<br />

nach rechts verschoben werden, d.h. P −<br />

i+1<br />

= e 1<br />

= e 1<br />

=<br />

<br />

e 1<br />

2 jωt 0<br />

1<br />

− 0 e 2 jωt<br />

P +<br />

i+1<br />

P −<br />

i+1<br />

<br />

− 1<br />

→ Pi+1 · e− 2 jωt . So<strong>mit</strong><br />

= e 1<br />

2 jωt<br />

<br />

1 0<br />

0 e−jωτ +<br />

P i+1<br />

P −<br />

<br />

.<br />

i+1<br />

2 jωτ <br />

1 R 1 0<br />

1 + R R 1 0 e−jωτ +<br />

P i+1<br />

P −<br />

<br />

i+1<br />

2 jωτ <br />

1 Re−jωτ 1 + R R e−jωτ +<br />

P i+1<br />

P −<br />

<br />

. (3.12)<br />

i+1<br />

Bestehe nun das gesamte Rohrmodell aus N Zylindern Zi, i = 1..N. Mit Ri, i = 1..N identifiziere<br />

<strong>man</strong> den Reflexionsfaktor am Querschnittssprung zwischen den Zylindern Zi und Zi+1, wobei<br />

am rechten Rand des Gesamtrohrs RN+1 ≈ −0.95 gesetzt wird, da es hier bis auf kleine Verluste<br />

an den Lippen nahezu zu einer vollständigen Transmission in den Außenbereich kommt, der relativ<br />

zu den Vokaltraktflächen als groß angenommen werden kann. Nimmt <strong>man</strong> die Zylinderlängen di<br />

als gleichlang an (di = const. ⇒ τi di =<br />

τ<br />

2 c = 2 = const.), so erhält <strong>man</strong> den Schalldruck P1 aus<br />

PN+1 bzw. analog ein Signal X1 aus XN+1 durch Multiplizieren der Matrizen in (3.12) wie folgt<br />

+<br />

X 1<br />

X − 1<br />

Die Terme 1<br />

i e 2 jωτ = e N<br />

2 jωτ und <br />

i<br />

=<br />

1<br />

1+Ri<br />

N<br />

<br />

1 Rie<br />

i=1<br />

−jωτ<br />

Ri e−jωτ +<br />

X<br />

· N+1<br />

X<br />

<br />

−<br />

<br />

N+1<br />

Mi<br />

(3.13)<br />

aus (3.12) können dabei zunächst einmal unberücksich-<br />

ohne Betragsänderung (|e N<br />

2 jωτ | =<br />

tigt bleiben, da sie lediglich eine Gesamtzeitverschiebung um Nτ<br />

2<br />

1) und eine Gesamtverstärkung (lauter bzw. leiser) um den Faktor 1<br />

i darstellen, die beide<br />

1+Ri<br />

keine Auswirkungen auf das Frequenzenspektrum bzw. die For<strong>man</strong>ten haben. In (3.13) ist <br />

i Mi<br />

eine 2 × 2 Matrix der Form<br />

N<br />

<br />

M 11 M 12<br />

Mi = M =<br />

M 21 M 22<br />

<br />

. (3.14)<br />

Mit X −<br />

N+1 = RN+1 · X +<br />

N+1 folgt aus (3.13) und (3.14) für X+ 1 also<br />

i=1<br />

X + 1 = M 11 X +<br />

N+1 + RN+1 · M 12 X +<br />

N+1 . (3.15)<br />

Aus X +<br />

N+1 (ω) = H(ω) · X+ 1 (ω) folgt für die Übertragungsfunktion H(ω) so<strong>mit</strong><br />

H(ω) = X+<br />

N+1 (ω)<br />

X + =<br />

1 (ω)<br />

1<br />

M 11 . (3.16)<br />

+ RN+1 · M 12<br />

3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren<br />

Beim <strong>Bauch</strong><strong>reden</strong> müssen die Vokaltraktstellungen kritischer Laute <strong>mit</strong> labialem Verschluss oder<br />

labialer Verengung durch Ersatzstellungen nachgebildet werden, d.h. voneinander verschiedene<br />

Vokaltraktgeometrien müssen gleiche bzw. für das menschliche Gehör ähnlich klingende Laute erzeugen<br />

können. In diesem Abschnitt soll nun an einem Beispiel ein <strong>physikalische</strong>r Beleg für die<br />

Möglichkeit geliefert werden, dass zwei voneinander verschiedene Röhren A und B zwei Laute erzeugen<br />

können, die sich für das menschliche Gehör nahezu gleich anhören, d.h. deren ersten beiden<br />

For<strong>man</strong>ten (vgl. Abschnitt 2.4) nahezu identisch sind. Die Lage der ersten beiden For<strong>man</strong>ten kann<br />

durch Berechnung der Übertragungsfunktion <strong>mit</strong> Hilfe von Gleichung (3.16) bestimmt werden.<br />

Die Konfiguration von zwei unterschiedlichen aber ähnliche Laute erzeugenden Röhren A und<br />

B kann <strong>mit</strong>tels eines Optimierungsalgorithmus oder sogar explizit rechnerisch er<strong>mit</strong>telt werden. Da


3 VOKALTRAKTMODELLE 7<br />

für den Beweis der Existenz zweier solcher Röhren A und B jedoch lediglich ein einziges Beispiel gefunden<br />

werden muss, werden der Einfachheit halber zwei Rohre <strong>mit</strong> ähnlichen Klangeigenschaften<br />

per Hand bestimmt.<br />

Seien die beiden Rohre A und B durch folgende Querschnittsflächen Ai und Bi bestimmt (vgl.<br />

auch Abb. B).<br />

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10<br />

0.003 0.079 0.549 1.053 0.693 0.276 0.198 0.453 0.063 3.0<br />

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10<br />

0.003 0.124 0.538 3.254 0.950 0.331 1.141 0.120 0.235 4.695<br />

Die Einheiten der Querschnittsflächen können dabei vernachlässigt werden, da sie keinen Einfluss<br />

auf die Reflexionsfaktoren haben. Zur Berechnung der beiden Übertragungsfunktionen wird nun<br />

Gleichung (3.16) schrittweise angewandt, d.h. in Pseudocode<br />

1. (3.7) R1[i] = Ai − Ai+1<br />

, R2[i] =<br />

Ai + Ai+1<br />

Bi<br />

2. (3.13)<br />

− Bi+1<br />

<strong>mit</strong> i = 1..9<br />

Bi + Bi+1<br />

<br />

1 R1[i]e−jωτ M1[i](ω) =<br />

R1[i] e−jωτ <br />

<br />

1<br />

, M2[i](ω) =<br />

R2[i]<br />

R2[i]e−jωτ e−jωτ <br />

, i = 1..8, τ = 1.0<br />

3. (3.14)<br />

8<br />

8<br />

N1(ω) = M1[i](ω), N2(ω) = M2[i](ω)<br />

4. (3.16) H1(ω) =<br />

i=1<br />

Wählt <strong>man</strong> die Schrittweite ∆ω = π<br />

i=1<br />

1<br />

N111 (ω) + R1[9] · N112 , H2(ω) =<br />

(ω)<br />

1<br />

N211 (ω) + R2[9] · N212 , ω = 0..π.<br />

(ω)<br />

und skaliert die Amplituden von H1 und H2 <strong>mit</strong> Dezibel,<br />

500<br />

d.h. H1 ′ = 20 · log H1 und H2 ′ = 20 · log H2, so erhält <strong>man</strong> <strong>mit</strong> Maple die beiden in Abb. 6<br />

geplotteten Übertragungsfunktionen H1 ′ (ω ′ ) und H2 ′ (ω ′ ). Dabei sind die ω ′ = ωτ so normiert,<br />

dass in 17cm langen Rohr <strong>mit</strong> 10 Zylindern ω ′ = π etwa ω = 10 kHz entspricht.<br />

Man sieht aus Abb. 6, dass die ersten beiden lokalen Maxima bzw. For<strong>man</strong>ten von H1 ′ und<br />

H2 ′ nahezu identisch zueinander sind. Die Verschiebung der ersten beiden For<strong>man</strong>ten ist <strong>mit</strong> <strong>dem</strong><br />

menschlichen Gehör kaum wahrnehmbar. Die Verschiebung des dritten For<strong>man</strong>ten liegt bereits<br />

etwas höher, hat jedoch wie oben erklärt wurde kaum Auswirkungen auf die Lautwahrnehmung<br />

beim Menschen.<br />

So<strong>mit</strong> wurde gezeigt, dass die beiden obigen Röhren trotz unterschiedlicher Geometrien Laute<br />

erzeugen, die das menschliche Gehör nur äußerst schwer bzw. gar nicht voneinander unterscheiden<br />

kann. Beim <strong>Bauch</strong><strong>reden</strong> werden nun ebenfalls Ersatzstellungen für die kritischen Laute gesucht, die<br />

die nachzubildenden Laute möglichst gut annähern. Bedingung für die Ersatzvokaltraktgeometrie<br />

ist dabei, dass auf einen labialen Verschluss verzichtet wird.<br />

3.2 3D Modell nach Birkholz<br />

Im Folgenden soll überprüft werden, ob sich die vom <strong>Bauch</strong>redner gebildeten Substitutionslaute<br />

durch ein <strong>physikalische</strong>s Modell des Vokaltrakts beschreiben lassen. Hierzu wird ein von Peter<br />

Birkholz in [1] beschriebenes Artikulatormodell verwendet, das in der Simulationssoftware tractsyn<br />

umgesetzt ist. Vorteile von tractsyn sind v.a. die einfache Bedienbarkeit und Flexibilität, sowie<br />

insbesondere die Einbindung des Nasaltrakts, der für die Bildung von Nasallauten wie [m] und [n]<br />

unverzichtbar ist.<br />

Bei <strong>dem</strong> Modell von Birkholz handelt es sich um eine Weiterentwicklung des Modells von<br />

Mermelstein. Der Vokaltrakt wird in drei Flächengittern dreidimensional modelliert: jeweils ein<br />

Gitter für Ober- und Unterseite des Vokaltrakts und ein Zungengitter (vgl. Abb. B (a)). Die<br />

Geometrie dieser Gitter wurde dabei aus Röntgenaufnahmen bestimmt, z.B. von Fant und neueren<br />

Aufnahmen.<br />

Das Programm berechnet nun in Abhängigkeit der eingestellten Parameter, die die Geometrie<br />

der Gitter bestimmen, die Querschnittsflächen an jeder Stelle des diskretisierten (in Gitter


4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 8<br />

unterteilten) Vokaltrakts. Durch das Zusammensetzen der einzelnen Querschnitte entsteht vereinfachend<br />

ein Röhrenmodell <strong>mit</strong> variieren<strong>dem</strong> Durchmesser, wobei die Röhre des Nasaltrakts <strong>mit</strong> der<br />

Röhre des Vokaltrakts über das Velum verbunden ist (vgl Abb. B (b)). Für dieses Röhrensystem<br />

kann dann der entstehende Laut im Prinzip ähnlich wie in Abschnitt 3.1 berechnet und über einen<br />

Lautsprecher ausgegeben werden.<br />

4 Modellgestützte Simulation der Ersatzlaute<br />

Bei der Nachbildung von Frikativen <strong>mit</strong> labiodentaler Verengung ([f], [v]) kann ein <strong>Bauch</strong>redner<br />

laut [15] aus zwei Varianten auswählen. Die erste und am häufigsten verwendete Möglichkeit besteht<br />

darin, dass die Laute [f] und [w] nach einiger Übung ohne sichtbare Lippenbewegung gebildet<br />

werden können, sodass für sie kein besonderer Ersatzlaut benötigt wird. Alternativ dazu kann <strong>man</strong><br />

auch einen Ersatzlaut verwenden, der einem [d] <strong>mit</strong> einer sehr kurzzeitigen alveoren Verengung<br />

recht nahe kommt. Wegen der Möglichkeit der Nachbildung von [f] und [v] ohne Ersatzlaute und<br />

den Schwierigkeiten bei der Simulation von Frikativen wird auf diese beiden Laute nach derzeitigem<br />

Stand der Arbeit nicht weiter eingegangen werden, vgl. Abschnitt 7.<br />

Insbesondere die Plosive und Nasale <strong>mit</strong> bilabialer Verschließung ([b], [p], [m]) sind von herausragender<br />

Bedeutung für das <strong>Bauch</strong><strong>reden</strong>, da für sie ohne Verwendung von Ersatzlauten eine<br />

Schließung der Lippen unumgänglich ist. Auf diese kritischen Laute [b], [p] und [m] und die dazugehörigen<br />

Ersatzlaute soll deshalb im Folgenden speziell eingegangen werden.<br />

4.1 Die Plosivlaute [b] und [p]<br />

Laut [3] sind die Vokaltraktstellungen bei einem [p] und [b] so ähnlich, dass auf den MRT-<br />

Aufnahmen, die auch der Simulation zu Grunde liegen, keine Unterschiede festgestellt werden<br />

konnten. Die einzigen Unterschiede von [p] und [b] bestehen darin, dass zum einen das [p] stimmlos<br />

und das [b] stimmhaft ausgesprochen werden, d.h. dass die Anregung an den Stimmbändern<br />

unterschiedlich ist. Zum anderen muss beim [p] zunächst mehr Druck als beim weicheren [b] aufgebaut<br />

werden. Da diese beiden Unterschiede unabhängig von der Vokaltraktgeometrie sind, kann<br />

ein <strong>Bauch</strong>redner den Ersatzlaut [b’] für das [b] ohne weiteres durch eine stimmhafte Anregung<br />

auch zum Ersetzen von [p] verwenden. Im Folgenden wird deshalb nur noch auf den Ersatzlaut<br />

für das [b] eingegangen. 5<br />

[b] normal<br />

Das normale [b] ist ein Plosivlaut <strong>mit</strong> bilabialer Verschließung, d.h. die Luft wird durch anfängliches<br />

Schließen der Lippen angestaut und anschließend durch ruckartiges Öffnen entlassen. Da es sich<br />

also um einen instationären Laut handelt, muss in tractsyn ein sogenannter phone chain“ <strong>mit</strong> <strong>dem</strong><br />

”<br />

geschlossenen Mund zu Beginn ([b]) und <strong>dem</strong> darauf folgenden ruckartigen Öffnen zu z.B. einem<br />

[a] erzeugt werden. Mit Hilfe der groben Vorgabe des Rohrmodells und der Lage der For<strong>man</strong>ten<br />

für die Laute [b] und [a] aus [10] bzw. [13] wurden das [b] und das [a] in tractsyn so eingestellt,<br />

dass ein [ba] Laut entstand.<br />

Für den Anfangszustand [b] des Vokaltrakts <strong>mit</strong> geschlossenen Lippen (siehe Abb. 8(a), ergeben<br />

sich die in Abb. 8(c) abgebildeten For<strong>man</strong>ten. Die besonders wichtigen ersten beiden For<strong>man</strong>ten<br />

liegen etwa bei F [b]<br />

[b]<br />

1 = 450 Hz und F 2 = 1050 Hz, wobei im Optimalfall laut [10] der erste For<strong>man</strong>t<br />

geringfügig über <strong>dem</strong> zweiten For<strong>man</strong>ten liegen sollte.<br />

Der von tractsyn ausgegebene Laut wurde aufgenommen und in Matlab an Hand eines Spektrogramms<br />

analysiert, d.h. das Signal wurde für jeden Zeitschritt einer Fourier-Transformation<br />

unterzogen, so dass <strong>man</strong> das Frequenzspektrum zu je<strong>dem</strong> Zeitpunkt erhält. In Abb. 10(a) ist das<br />

Spektrogramm für das aufgenommene [ba] abgebildet, wobei die Zeitachse nach rechts und die<br />

Frequenzachse nach oben verläuft; die Farbe gibt die Amplitude der jeweils vorkommenden Frequenzen<br />

an. In den ersten 0.05 Zeiteinheiten liegen die ersten For<strong>man</strong>ten (dunkle Färbung) etwa<br />

bei 0.5 kHz, 1.0 kHz, 2.25 kHz und 4.0 kHz. Bei etwa 0.05 Zeiteinheiten springen“ die ersten drei<br />

”<br />

5 Auch die Analysen der Spektrogramme in Abschnitt 6 zeigen, dass die Ersatzlaute von [ba] und [pa] sehr genau<br />

<strong>mit</strong>einander übereinstimmen, also nahezu identisch sind.


4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 9<br />

For<strong>man</strong>ten zu einer etwas höheren Frequenz. Dieses Ergebnis stimmt <strong>mit</strong> den von [10] in Abb.<br />

10(d) angegebenen For<strong>man</strong>tsprüngen überein.<br />

[b’] substituiert<br />

Das Schließen der Lippen versucht ein <strong>Bauch</strong>redner durch einen Ersatzlaut [b’] zu umgehen. Um<br />

die explosive Charakteristik zu ersetzen, wird die Zungenspitze zunächst ähnlich wie beim [d]<br />

an die vorderen Zähne gepresst (vgl. Abb. 11), bis die Zunge <strong>mit</strong> einer plötzlichen Bewegung<br />

zurückschnellt [15]. Der ansonsten <strong>dem</strong> [b] ähnelnde Sprachtrakt wird so<strong>mit</strong> um den Abstand von<br />

der Lippe bis zu den Zähnen verkürzt, siehe Abb. 9(a). Dies führt wie in Abb. 9(c) zu sehen ist zu<br />

einer sehr guten Annäherung der ersten beiden For<strong>man</strong>ten, die wieder bei ca. F [b′ ]<br />

1 = 500 Hz und<br />

F [b′ ]<br />

2<br />

= 1100 Hz liegen, wobei die zweite deutlich unterhalb der ersten For<strong>man</strong>te anzutreffen ist.<br />

Das Spektrogramm für [b’a] ist in Abb. 10(b) gezeigt. Die ersten beiden For<strong>man</strong>ten liegen etwa<br />

in den ersten 0.06 Zeiteinheiten bei den im Spektrum ebenfalls errechneten 500 Hz bzw. 1000 Hz.<br />

Bei ca. 0.06 Zeiteinheiten verschieben sich die For<strong>man</strong>ten zu etwas höheren Frequenzen und bilden<br />

ebenfalls die in Abb. 10(d) gezeigte typische For<strong>man</strong>tenverschiebung. Im Gegensatz zu [ba] weicht<br />

der dritte For<strong>man</strong>t von [b’a] jedoch von <strong>dem</strong> Muster in Abb. 10(d), nach <strong>dem</strong> eigentlich ein Knick<br />

nach oben statt nach unten erfolgen müsste. Da perzeptiv kaum ein Unterschied zwischen [ba] und<br />

[b’a] auszumachen ist, lässt sich bestätigen, dass für die Lauterkennung <strong>mit</strong> <strong>dem</strong> menschlichen<br />

Gehör lediglich der untere Spektralbereich wesentlich ist.<br />

Vergleich von [b’a] <strong>mit</strong> [ba]<br />

Die beiden For<strong>man</strong>tenbilder Abb. 9(c) und Abb. 8(c) für die Ausgangsstellungen von [b] und [b’]<br />

weisen große Ähnlichkeiten <strong>mit</strong>einander auf. Die ersten beiden For<strong>man</strong>ten haben nahezu die gleiche<br />

Ausprägung und Position, denn F [b′ ] [b]<br />

1 − F 1 = 50 Hz und F [b′ ]<br />

2 − 2[b] 1 = 50 Hz. Auch über den<br />

Zeitverlauf betrachtet sind die ersten beiden For<strong>man</strong>ten von [b’a] und [ba] zueinander nahezu identisch,<br />

da sie in den Spektrogrammen beide etwa an der selben Stelle eine gleich stark ausgeprägte<br />

Sprungstelle nach oben aufweisen und so<strong>mit</strong> beide die Eigenschaften eines [ba] Lautes aufweisen.<br />

Der Ersatzlaut [b’a] bzw. [b’] unterscheidet sich also lediglich im dritten For<strong>man</strong>ten wesentlich vom<br />

nachzubildenden [ba] bzw. [b]. Da für die Lauterkennung jedoch nahezu ausschließlich die ersten<br />

beiden For<strong>man</strong>ten entscheidend sind und dritte und spätere For<strong>man</strong>ten kaum eine Rolle spielen<br />

(vgl. Abschnitt 2.4), werden [b’a] und [ba] als nahezu identische, vom menschlichen Gehör nicht<br />

mehr unterscheidbare Laute wahrgenommen. D.h. es konnte an Hand des Modells tatsächlich der<br />

von <strong>Bauch</strong>rednern verwendete Ersatzlaut für das [b] nachgebildet und als authentisch nachgewiesen<br />

werden.<br />

Vergleich von [b’a] <strong>mit</strong> [da]<br />

Abb. 11 für die Stellungen von [b’] und [d] laut [15], sowie die Vokaltraktstellung für [b’] in Abb.<br />

9(a) könnten den Verdacht entstehen lassen, dass [b’] schlichtweg einem normalen [d] entspräche.<br />

Um dies zu widerlegen wurde <strong>mit</strong> tractsyn und Matlab ein [da] <strong>mit</strong> zugehörigem Spektrogramm<br />

erzeugt, vgl. Abb. 10(c). Die For<strong>man</strong>ten stimmen in etwa <strong>mit</strong> den von [10] in Abb. 10(e) er<strong>mit</strong>telten<br />

For<strong>man</strong>ten für ein [da] überein. Während sich [da] und [b’a] beim ersten For<strong>man</strong>ten noch ähneln,<br />

vollzieht [da] nach ca. 0.05 Zeiteinheiten beim zweiten und dritten For<strong>man</strong>t einen deutlichen Knick<br />

nach unten, während beim [b’a] der zweite For<strong>man</strong>t einen Knick nach oben (wie [ba]) und der dritte<br />

einen Knick nach unten besitzt. Da <strong>dem</strong> zweiten For<strong>man</strong>t eine sehr viel größere Bedeutung für die<br />

Lautcharakteristik zukommt, ähnelt [b’a] einem [ba] also sicherlich wesentlich mehr als einem [da].<br />

4.2 Der Nasal [m]<br />

Beim [m] handelt es sich um einen Nasal <strong>mit</strong> bilabialem Verschluss, d.h. die Lippen müssen geschlossen<br />

sein und der Ton entweicht im Gegensatz zu den Plosivlauten durch den Nasaltrakt, in<br />

den die Luft durch das geöffnete Velum gelangt. Das Schließen der Lippen versucht ein <strong>Bauch</strong>redner<br />

durch einen Ersatzlaut zu umgehen. Für diese Ersatzlaute sind für das [m] in [15] zwei


4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 10<br />

Varianten angegeben. In der ersten Variante, im Folgenden [m’] genannt, wird die Lippenschließung<br />

dadurch ersetzt, dass die Zunge zunächst kurzzeitig möglichst nahe an die vorderen Zähne<br />

gepresst wird, so dass die Schallwellen ausschließlich durch den Nasaltrakt entweichen können.<br />

Anschließend wird die Zunge wieder von den Zähnen gelöst. (Vgl. Abb. 11(c))<br />

Die zweite Variante [m”] besteht darin, den hinteren Teil der Zunge gegen das Velum zu drücken<br />

und so<strong>mit</strong> die Schallwellen ausschließlich in den Nasaltrakt zu zwingen (vgl. Abb. 11(d)).<br />

Der Mundbereich wird bei Nasallauten als Resonanzkörper benutzt. Nun unterscheiden sich<br />

[m] und [n] in der Größe (insbesondere Länge) dieses Resonanzkörpers. Schallwellen, die von der<br />

Glottis kommen, gelangen zu einem Teil direkt in den Nasaltrakt und zu einem anderen Teil in den<br />

Resonanzraum, wo sie reflektiert und zurückgestrahlt werden. Treffen sie auf das Velum, wo sich<br />

Nasal- und Mundraum trennen, so kommt es zu einer Überlagerung (vgl. Modell in Abb. B). Dies<br />

erkennt <strong>man</strong> daran, dass es im Spektrum sogenannte Nullstellen, auch Antiresonanzen genannt<br />

gibt, d.h. dass bestimmte Frequenzen in <strong>dem</strong> Signal kaum auftreten. Bei den Wellenlängen, die den<br />

Frequenzen dieser Nullstellen entsprechen, kommt es also zu einer destruktiven Interferenz. Dies<br />

bedeutet, dass die zurückgestrahlte Welle gegenphasig schwingt. Auf der anderen Seite kommt es<br />

auch zu konstruktiver Interferenz, wenn sich die Wellen positiv überlagern. Es gilt hierbei für die<br />

Wellenlänge λ:<br />

λ = c<br />

. (4.1)<br />

f<br />

Man muss also zwei Faktoren beachten, die das Spektrum von Nasallauten bestimmen. Auf<br />

der einen Seite die Geometrie des Vokaltrakts von der Glottis bis zum Velum und <strong>dem</strong> Nasaltrakt<br />

und auf der anderen Seite die Länge des Resonanzkörpers. Die genaue Geometrie des als<br />

Resonanzkörper fungierenden Mundraums ist dabei vernachlässigbar, da die für die Lautbildung<br />

wesentliche Reflexion erst am Verschluss des Mundraums entsteht und so<strong>mit</strong> nur der Länge des<br />

Mundraums eine entscheidende Bedeutung zukommt. Auch durch die Nasennebenhöhlen entstehen<br />

Antifor<strong>man</strong>ten, 6 die aufgrund ihrer geringeren Länge jedoch nur die höheren Frequenzen betreffen<br />

und bei allen Lauten gleich auftreten. Es wird deshalb nun lediglich die Länge des Mundraums als<br />

Resonanzkörper betrachtet.<br />

Die Länge des Resonanzkörpers ergibt sich aus der Differenz der gesamten Vokaltraktlänge und<br />

<strong>dem</strong> Abstand zwischen Glottis und Velum, der laut denen für die Simulation verwendeten Daten<br />

von [3] ungefähr 8 cm beträgt. Aus den Daten für die gesamte Länge des Vokaltrakts, die aus der<br />

Simulation hervorgehen (vgl. Abb. 13(c) und 14(c)), lässt sich nun berechnen:<br />

lm = 15, 53 cm − 8 cm = 7, 53 cm<br />

l ′ m = 14, 89 cm − 8 cm = 6, 89 cm<br />

Bei m ′′ ist die Angabe von l ′′ m irrelevant, da der Abschluss bereits direkt am Velum erfolgt. Die<br />

Ähnlichkeit <strong>mit</strong> <strong>dem</strong> zu ersetzenden Laut [m] kann hier nur rein perzeptiv über die Sprachausgabe<br />

bestätigt werden. Da die Welle in den beiden anderen Fällen zurückreflektiert wird, hat sie die<br />

doppelte Weglänge zurückzulegen, wo durch sich als Voraussetzung für eine Nullstelle folgendes<br />

ergibt:<br />

Durch (4.1) ergibt sich daraus<br />

1 + 2n<br />

· λ<br />

2<br />

= l, n ∈ N (4.2)<br />

1 + 2n<br />

· λ<br />

2<br />

= 2 · lm, n ∈ N (4.3)<br />

1 + 2n<br />

2<br />

· c<br />

f = 2 · lm, n ∈ N<br />

f =<br />

(1 + 2n) · c<br />

, n ∈ N (4.4)<br />

4 · lm<br />

Es lässt sich nun die ungefähre Frequenzlage der Antiresonanzen von [m] und [m’] berechnen:<br />

f [m] = {1160, 3480, 5800, . . . } Hz, f [m ′ ] = {1270, 3700, 6240, . . . } Hz.<br />

6 Dies erkennt <strong>man</strong> daran, dass <strong>man</strong> beim phonetisch korrekten Aussprechen von Nasallauten ein Vibrieren fest-<br />

stellen kann, wenn <strong>man</strong> eine Hand auf den Kopf legt.


4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 11<br />

Das Spektrum des Artikulatormodells für [m] in Abb. 14(c) zeigt, dass die ersten beiden Antiresonanzen<br />

für [m] bei etwa 1000 Hz und 3500 Hz liegen, d.h. für die erste Antiresonanz liegt die<br />

berechnete Frequenz leicht über der Frequenz des Modells, die zweite Antiresonanz stimmt in der<br />

Rechnung und im Modell nahezu exakt überein.<br />

Die ersten beiden Antiresonanzen für [m’] (Abb. 13(c)) liegen bei etwa 1250 Hz und 2600 Hz,<br />

d.h. die erste Antiresonanz ist nahezu identisch <strong>mit</strong> der Rechnung, die zweite ist jedoch stark<br />

verschoben. Dieser Fehler bei der Lage der zweiten Antiresonanz lässt sich möglicherweise darauf<br />

zurückführen, dass Antiresonanzen aufgrund der Überlagerungen <strong>mit</strong> den Antiresonanzen aus <strong>dem</strong><br />

Nasaltrakt und den For<strong>man</strong>ten schwer zu erkennen sind und so<strong>mit</strong> durchaus verschoben auftreten<br />

können. Ein anderer Grund für die verschobene Lage der zweiten Antiresonanz könnte in der<br />

Ungenauigkeit der Länge des Vokaltrakts für [m’] liegen. Die Lage der ersten Antiresonanz hingegen<br />

stimmt in <strong>dem</strong> Modell sehr gut <strong>mit</strong> der Rechnung überein. Untersuchungen an Testsprechern in<br />

beispielsweise [5] zeigen für die erste Antiresonanz, dass diese für [m] je nach Testsprecher zwischen<br />

750 Hz und 1250 Hz liegen sollte, für [n] dagegen zwischen 1500 Hz und 2200 Hz. Da die erste<br />

Antiresonanz von [m’] bei ca. 1250 Hz liegt, folgt also, dass der Substitutionslaut [m’] deutlich<br />

ähnlicher einem [m] als einem [n] ist. D.h. bei [m’] handelt es sich um einen neu gefundenen Laut,<br />

der zwar eine Ähnlichkeit zur Vokaltraktstellung des [n] aufweist, dessen Lautcharakteristik jedoch<br />

sehr viel mehr einem [m] als einem [n] nahe kommt. Ein Hörtest von [m’] bestätigt dies ebenfalls<br />

sehr deutlich.<br />

Die Verifizierung der Ähnlichkeit von [m”] <strong>mit</strong> [m] erfolgt in erster Linie durch die sehr ähnliche<br />

Wahrnehmung zu einem [m] <strong>mit</strong> <strong>dem</strong> menschlichen Gehör. Dies könnte daran liegen, dass durch<br />

den sehr frühen Verschluss der Laut sehr ” nasal“ klingt und durch den Menschen deshalb als [m]<br />

wahrgenommen wird. <strong>Eine</strong> genauere Analyse von [m”] gestaltet sich recht schwer, da analytische<br />

Berechnungen wegen <strong>man</strong>gelnder Kenntnis der Vokaltraktlänge kaum möglich sind. Dennoch kann<br />

<strong>man</strong> am Spektrum in Abb. 15(c) immerhin erkennen, dass die erste Antiresonanz wie bei [m’] ca.<br />

bei 1250 Hz liegt, d.h. der Bereich für die erste Antiresonanz des [m] nach [5] wird eingehalten und<br />

[m”] ähnelt wie [m’] bereits eher einem [m] als einem [n].<br />

4.3 Die Frikative [f] und [w]<br />

Nach [b], [p] und [m] betrachten wir nun die problematischen Frikative (Reibelaute) [f] und [w],<br />

deren Verengung ähnlich <strong>dem</strong> [b] weiter ins Mundinnere verlagert werden muss. Um prinzipiell<br />

<strong>mit</strong> einem artikulatorischen Synthesemodell Firkative erzeugen zu können, ist es notwendig eine<br />

Rauschanregung <strong>mit</strong>zusimulieren, die durch Turbulenzen verursacht wird. In der neuesten Version<br />

von tractsyn ist dies von Peter Birkholz implementiert und zeigt für z.B. [s] bereits sehr gute<br />

Resultate, die wir auf [f] und den Substitutionslaut [f’] ausweiten konnten. Analog zu [b] und [p]<br />

unterscheidet sich [w] von [f] dadurch, dass es im Gegensatz zu [f] stimmhaft ausgesprochen wird,<br />

d.h. die folgenden Analysen für [f] und [f’] lassen sich auf [w] und [w’] übertragen.<br />

[f] normal<br />

Da es sich bei [f] um einen Frikativ <strong>mit</strong> dentaler Verengung handelt, wird in tractsyn der Übergang<br />

[fa] betrachtet. Passt <strong>man</strong> die Resonanzen für [f] an Literaturwerte [13] und die aus <strong>dem</strong> Sprachgebrauch<br />

gewohnte perzeptive Wahrnehmung von [f] an, so erhält <strong>man</strong> das in Abb. 16(c) gezeigte<br />

Spektrum durch die Vokaltraktgeometrie in Abb. 16(a). Wie <strong>man</strong> erkennen kann befinden sich die<br />

ersten drei Resonanzen bei etwa 400, 1550 und 2650 Hz.<br />

Im Übergang zum [a] erhält <strong>man</strong> das in Abb. 18(a) gezeigte Spektrogramm für [fa]. Im linken<br />

Teil des Diagramms befindet der Frikativ [f], etwa in der Mitte der x-Achse erfolgt der Übergang<br />

zum [a].<br />

[f’] substituiert<br />

Der Substitutionslaut [f’] ähnelt <strong>dem</strong> englischen [th] wie z.B. in ” the“, wobei die Zunge jedoch<br />

etwas weiter im Mundesinneren aufliegt. Das Zischen wird durch Luftturbulenzen erzeugt, bei<br />

[f] im Spalt zwischen Schneidezähnen und Unterlippe, bei [f’] in einem kleinen Spalt zwischen<br />

Zunge und Mundhöhle. Die Vokaltraktgeometrie für [f’] in Abb. 17(a) wurde entsprechend der


6 ANALYSE VON BAUCHREDNER-AUFNAHMEN 12<br />

Resonanzen von [f] angepasst, so dass sich das in Abb. 17(c) gezeigte Spektrum für [f’] ergibt.<br />

Die ersten drei Resonanzen liegen bei ca. 400, 1550 und 3550 Hz. Die Abweichung von [f’] zu [f]<br />

ist <strong>dem</strong>nach bei den wichtigen ersten beiden Resonanzen nahezu 0, bei der dritten Resonanz wie<br />

schon bei den oben betrachteten Lauten <strong>mit</strong> 900 Hz sehr groß.<br />

Das Spektrogramm von [f’a] in Abb. 18(b) weist offensichtlich eine sehr hohe Ähnlichkeit <strong>mit</strong><br />

<strong>dem</strong> Spektrogramm von [fa] auf, da die Spektrogramme weder in der linken Hälfte für [f] bzw. [f’],<br />

noch beim Übergang zum [a] einen erkennbaren Unterschied zeigen. Da der Übergang zu einem<br />

Vokal bei Frikativen von besonderer Bedeutung für die Lautwahrnehmung ist, bestätigt dies die<br />

große perzeptive Ähnlichkeit von [f’a] <strong>mit</strong> [fa].<br />

5 Lautsimulation im realen Experiment <strong>mit</strong> Hilfe eines Gipsmodells<br />

Zu einer Überprüfung des in den vorhergehenden Abschnitten verwendeten Röhrenmodelle wurde<br />

ein reales Modell gebaut, welches das Röhrenmodell für Vokaltraktgeometrien bestimmter Laute<br />

nachbildet. Das Positiv des Modells wurde hierbei aus handelsüblicher Knete geformt, wobei die<br />

Geometrie den aus MRT-Aufnahmen gewonnenen Querschnittsflächen des Vokaltrakts für ein [m]<br />

(vgl. [3]) entspricht. Das Modell an sich (Negativ) wurde aus mehreren Lagen Gips gegossen. Der<br />

Vokaltrakt lässt sich durch das Einsetzen von Barrieren und einer Verkleinerung des Mundresonanzraumes<br />

verändern und neben [m] an die Vokaltraktgeometrien von [m’], [m”] und [n] anpassen.<br />

Das schwierigste Problem bei der Auswertung des Modells stellte die Anregung dar. Normalerweise<br />

sollte ein Luftballon eine recht gute Approximation der Stimmlippen sein, doch ist hier das<br />

Problem, dass das direkte ” Primärgeräusch“ des Luftballons das auskommende Signal überdeckt<br />

und eine qualitative Auswertung unmöglich macht.<br />

?? HIER NEUER TEXT, residualsignal <strong>mit</strong> vielen peaks, zwei nullstellen, bilder von poster,<br />

maxima einkringeln<br />

Das könnte durch eine schallfeste Abdichtung des Luftballons behoben werden oder durch eine<br />

andere Anregung. <strong>Eine</strong> Alternative wäre ein professioneller Speechsynthesizer, den auch Sprachbehinderte<br />

benutzen, die an Kehlkopfkrebs oder ähnlichen Krankheiten leiden.<br />

6 Analyse von <strong>Bauch</strong>redner-Aufnahmen<br />

Die Analyse real gesprochener Ersatzlaute von <strong>Bauch</strong>rednern ermöglicht den Vergleich der modellerzeugten<br />

Ersatzlaute <strong>mit</strong> real gesprochenen Lauten. Wir haben versucht Aufnahmen aus <strong>dem</strong><br />

Internet zu analysieren, die aber leider qualitativ nicht gut genug für eine Auswertung waren. <strong>Eine</strong><br />

weitere Schwierigkeit bestand darin, dass viele <strong>Bauch</strong>redner ihre <strong>Bauch</strong>rednerstimme verstellen<br />

um einen Dialog <strong>mit</strong> ihrer Puppe führen zu können. Oft wird dabei in eine höhere Stimmlage<br />

als gewöhnlich gewechselt, weil dort das menschliche Hörempfinden nicht mehr so deutlich ist.<br />

Desweiteren findet bei natürlicher Sprache der interessante Übergang von Plosivlaut (z.B. [b])<br />

zu Vokal (z.B. [a]) sehr schnell statt, während die verwendeten Analysemethoden eigentlich von<br />

stationären Lauten ausgehen. Diese Punkte machen das Erkennen von For<strong>man</strong>tabbiegungen im<br />

Spektrum einer Originalaufnahme wesentlich schwieriger, als bei den Modellaufnahmen.<br />

Die einzige Möglichkeit bestand deshalb darin, eigene Aufnahmen der reinen und der Ersatzlaute<br />

eines möglichst guten <strong>Bauch</strong>redners anzufertigen. Der <strong>Bauch</strong>redner Patrick Martin, der seit<br />

etwa zehn Jahren hauptberuflich als professioneller <strong>Bauch</strong>redner auftritt, hat uns gestattet eine<br />

Reihe an Testlauten und -sätzen <strong>mit</strong> einem hochwertigen Kondensatormikrophon aufzunehmen.<br />

Mit den Aufnahmen war es möglich für einzelne Lautübergänge ein Spektrogramm zu erstellen.<br />

Nach rechts ist die Frequenz angetragen, nach oben die Amplitude in dB. Die verschiedenen Kurven<br />

stellen das Spektrum zu aufeinander folgenden Zeitpunkten dar. Die x-Achse <strong>mit</strong> den Frequenzen<br />

wurde von <strong>dem</strong> verwendeten Programm Matlab auf 300 normiert, was automatisch die höchste<br />

aufgenommene Frequenz angibt. Diese leitet sich aus der Abtastrate bei der Aufnahme ab und<br />

beträgt bei unseren Aufnahmen 11025 Hz. 7 Per Hand wurden dann die ungefähren Verläufe der<br />

7 Nach <strong>dem</strong> Aabtasttheorem beträgt die aufgenommene Frequenzbreite die halbe Abtastrate, die von der verwendeten<br />

Aufnahmesoftware audacity auf 22050 Hz vorgegeben wurde; 300 entspricht also 11025 Hz.


7 SCHLUSSBEMERKUNG UND AUSBLICK 13<br />

For<strong>man</strong>ten eingetragen, wobei die erste erkennbare Resonanz kein For<strong>man</strong>t des Sprechtrakts ist,<br />

sondern von der Anregung stammt.<br />

6.1 Die Lautübergänge [ba] <strong>mit</strong> Lippen und [b’a] ohne Lippen<br />

Man erkennt den Anstieg der ersten beiden für die Lauterkennung wichtigen For<strong>man</strong>ten sowohl bei<br />

[ba], als auch bei [b’a]. D.h. die Lautwahrnehmung von [b’a] entspricht der von [ba], was sich neben<br />

<strong>dem</strong> Spektrum auch durch die Sprachwiedergabe eindeutig bestätigt. Der <strong>Bauch</strong>redner schafft es<br />

jedoch nicht nur die ersten beiden For<strong>man</strong>ten zu optimieren, auch die restlichen For<strong>man</strong>tverläufe<br />

sind sich bis ungefähr 3000 Hz sehr ähnlich. Dass es sich hierbei aber keineswegs um die gleiche<br />

Vokaltraktgeometrie handelt, wird besonders bei der Betrachtung der höheren For<strong>man</strong>ten deutlich.<br />

Beim Lippenlaut kommt der dritte For<strong>man</strong>t etwas weiter von oben. Weitaus deutlicher werden die<br />

Unterschiede beim fünften For<strong>man</strong>ten, der beim Ersatzlaut deutlich weiter von oben kommt und<br />

sich sogar in zwei unabhängige For<strong>man</strong>ten zu teilen scheint. Die beiden nächsten For<strong>man</strong>ten sind<br />

sich dann wieder recht ähnlich. In den höher liegenden Frequenzen können dann jedoch kaum noch<br />

Parallelen festgestellt werden. (Dies zeigt, dass die Vokaltraktgeometrien beim aufgenommenen<br />

Laut unterschiedlich eingestellt waren, dies sich jedoch kaum im Bereich der Lautcharakteristik<br />

bemerkbar macht.)<br />

6.2 Die Lautübergänge [pa] <strong>mit</strong> Lippen und [p’a] ohne Lippen<br />

Auch hier fällt auf, dass der Verlauf der ersten drei For<strong>man</strong>ten in beiden Spektrogrammen ähnlich<br />

ist. Die For<strong>man</strong>tabbiegung beim vierten For<strong>man</strong>ten ist dann jedoch beim Ersatzlaut wesentlich<br />

größer als beim Lippenlaut. Danach erkennt <strong>man</strong> jedoch Parallelen zwischen <strong>dem</strong> fünften und<br />

siebten For<strong>man</strong>ten, deren Verlauf fast identisch ist. Der dazwischenliegende sechste For<strong>man</strong>t biegt<br />

beim Lippenlaut im Gegensatz zum Ersatzlaut nach oben ab. Der Bereich oberhalb des siebten<br />

For<strong>man</strong>ten weist dann kaum noch Ähnlichkeiten auf. Zwar wird auch bei diesem Laut eindeutig<br />

ein [pa] wahrgenommen, die Beeinträchtigungen in der Lautcharakteristik sollte hier allerdings<br />

zumindest theoretisch etwas ausgeprägter sein, was sich perzeptiv jedoch kaum wahrnehmen lässt.<br />

Da es in unserer Simulation nur gelungen war die ersten beiden For<strong>man</strong>ten, was einem Bereich<br />

bis ca. 2,5 kHz entspricht, zu optimieren, kann auch hier festgestellt werden, dass die Qualität der<br />

<strong>Bauch</strong>redner-Ersatzlaute über die der Simulations-Ersatzlaute hinausgeht.<br />

6.3 Vergleich <strong>mit</strong> modellerzeugten Lautübergängen und Fehleranalyse<br />

Die obigen Analysen der aufgenommenen Sprachsignale bestätigen zusammenfassend den Grundsatz,<br />

dass sich die unteren For<strong>man</strong>ten von Ersatzlauten und normalen Lauten ähneln, aber die<br />

oberen For<strong>man</strong>ten zum Teil große Abweichungen aufweisen. Die Ausprägungen der Abweichungen<br />

und ab welchem For<strong>man</strong>ten es zu einer Abweichung kommt, ist unterschiedlich ausgeprägt bei der<br />

Simulation und den Sprachaufnahmen.<br />

Hier ist zu bedenken, dass die Sprachaufnahmen einerseits auch vom jeweiligen Sprecher<br />

abhängig sind und dass sich andererseits die <strong>Bauch</strong>rednertechniken leicht voneinander unterscheiden<br />

können. Beispielsweise könnten <strong>Bauch</strong>redner kleine Grübchen in den Backen bilden oder bestimmte<br />

Detailstellungen der Zunge trainieren. Ein weiterer Grund für die Abweichung könnte<br />

auch in den bereits angesprochenen Schwierigkeiten durch die sehr schnellen Plosiv-Vokal-Übergange<br />

und das Sprechen <strong>mit</strong> hoher Grundfrequenz. Zu<strong>dem</strong> könnte ein möglicher, jedoch betont<br />

sehr vager Grund für die Abweichung der real aufgenommenen Laute auch darin liegen, dass der<br />

Sprecher Patrick Martin zum Zeitpunkt der Aufnahmen eine leichte Erkältung hatte und so<strong>mit</strong><br />

die Vokaltraktgeometrie von der im Modell verwendeten durchschnittlichen Vokaltraktgeometrie<br />

stärker abwich.<br />

7 Schlussbemerkung und Ausblick<br />

Es wurde bewiesen, dass es generell möglich ist ein perzeptiv gleiches Signal durch eine unterschiedliche<br />

Anordnung an Röhren zu erzeugen, was das <strong>Bauch</strong><strong>reden</strong> zunächst einmal physikalisch<br />

erklärbar und möglich macht. Im Folgenden wurde gezeigt, dass der labiale Laut [b] auch ohne


LITERATUR 14<br />

Benutzung der Lippen im Modell perzeptiv fast identisch nachgebildet werden konnte. Daraus<br />

folgt, dass auch der Laut [p] ersetzt werden kann, da das Aussprechen eines [p] sich vom Aussprechen<br />

eines [b] nur durch die später einsetzende stimmhafte Anregung unterscheidet, welche<br />

wiederum ausschließlich von den Stimmbändern hervorgerufen wird. Auch der Nasallaut [m] kann<br />

vom <strong>Bauch</strong>redner auf zwei Arten substituiert werden, wobei die Vokaltraktstellung einmal in etwa<br />

<strong>dem</strong> [n] ähnelt, jedoch die Zunge an die Zähne geschoben wird. Die andere Möglichkeit besteht<br />

darin, dass der Sprecher das Velum an die Mundoberseite drückt. Dass auch der Nasallaut [m]<br />

vom <strong>Bauch</strong>redner simuliert werden kann, konnte durch eine Abschätzung der Lage der Antifor<strong>man</strong>ten<br />

gezeigt werden. Hierbei muss der <strong>Bauch</strong>redner seine Zunge möglichst nahe an die Zähne<br />

drücken, so dass der Resonanzraum maximal groß wird. Auch die Laute [f] und [w] können vom<br />

<strong>Bauch</strong>redner durch den oben beschriebenen Subsitutionslaut [f’] ersetzt werden.<br />

Durch die anschauliche Darstellung der Substitutionslaute in der Simulationssoftware wäre<br />

es denkbar, dass <strong>man</strong> angehenden <strong>Bauch</strong>rednern, die Bildung der Substitutionslaute beibringt.<br />

Durch die Analysemethode wird es dann ebenfalls möglich die Qualität der Aussprache objektiv<br />

zu bewerten.<br />

Medizinische Untersuchungen 8 zeigen, dass an Dysarthrie leidende Menschen, die bestimmte<br />

Artikulatoren im Vokaltrakt nicht bewegen können, selbstständig zur besseren Verständlichkeit<br />

ihre Aussprache durch artikulatorische Substitutionslaute verbessern, d.h. z.B. bei einer eingeschränkten<br />

Fähigkeit die Lippen zu bewegen werden Ersatzlaute <strong>mit</strong> den übrigen Artikulatoren<br />

wie z.B. der Zunge gebildet. Auch diese Menschen könnten von den Untersuchungen und den Vokaltraktmodellen<br />

für Ersatzlaute profitieren, in<strong>dem</strong> sie bereits in frühen Stadien ihrer Krankheit<br />

wegen des langsamen Krankheitsverlaufs die Substitutionslaute erlernen und so<strong>mit</strong> ihre Problemlaute<br />

ersetzen können.<br />

Danksagung<br />

Wir möchten uns bedanken beim Institut für Angewandte Physik der Goethe-Universität in Frankfurt<br />

am Main für die Bereitstellung der Räumlichkeiten und die technische Unterstützung bei der<br />

Durchführung unserer Versuche, <strong>dem</strong> Institut für Phonetik für die geduldige Beantwortung all unserer<br />

Fragen, <strong>dem</strong> Senckenberg-Museum für die Bereitstellung des Spezial-Gips und der Beratung<br />

für das Gipsmodell, sowie der Informatikbibliothek Frankfurt und der FH-Bibliothek Schweinfurt.<br />

Insbesondere gilt der Dank unserem Betreuer Dr. Karl Schnell und der Arbeitsgruppe Digitale<br />

Systeme, Sprachsynthese und Signalprozessoren von Professor Lacroix.<br />

Literatur<br />

[1] Birkholz, Peter: Entwicklung eines dreidimensionalen Artikulatormodells für die Sprachsynthese.<br />

http://wwwicg.informatik.uni-rostock.de/ piet/speak main.html, 2002.<br />

[2] Bockamp, Elke: <strong>Bauch</strong><strong>reden</strong> - spielend lernen. Edition Aragon, Moers, 1995.<br />

[3] B. Story, I. Titze: Vocal tract area functions from magnetic resonance imaging. 1996.<br />

[4] Gloria J. Borden, Katherine S. Harris: Speech Science Primer. Waverly Press, Baltimore, MD,<br />

1984.<br />

[5] J. R. Deller, J. G. Proakis, J. Hansen: Discrete-Time Processing of Speech Signals. New York<br />

1993.<br />

[6] L. Rabiner, R. Schafer: Digital Processing of Speech Signals. Prentice-Hall, London 1978.<br />

[7] Mildenberger, Otto: Informationstechnik kompakt. Vieweg, 1999.<br />

[8] Oppenheim, A. V.: Signale und Systeme. Prentice-Hall, Cambridge, MA, 1989.<br />

[9] Peters, Thomas: Fourier-Reihen. www.mathe-seiten.de, 2004.<br />

8 Prof. Kröger von der Uni-Klinik Aachen berichtete uns von einem Patienten, der auf Grund <strong>man</strong>gelnder Beweglichkeit<br />

des Vokaltrakt<strong>mit</strong>telteils ” artikulatorisch-phonetische Kompensationslaute“ <strong>mit</strong> den Lippen und den<br />

restlichen noch funktionsfähigen Artikulatoren bildete. Leider konnte er jedoch nicht auf die weiteren Details der<br />

Ersatzlaute eingehen, da eine Untersuchung des Patienten nur beschränkt möglich war. Prinzipiell kann diese Dysarthrie<br />

auch so vorliegen, dass an Stelle des Vokaltrakt<strong>mit</strong>telteils nur der Vokalktraktvorderteil (Lippen) unbeweglich<br />

ist.


LITERATUR 15<br />

[10] Pompino-Marschall, Bernd: Einführung in die Phonetik. Berlin, 1995.<br />

[11] P. Vary, U. Heute, W. Hess: Digitale Sprachsignalverarbeitung. B.G. Teubner, Stuttgart, 1998.<br />

[12] Schnell, Karl: Sprachsynthese <strong>mit</strong> erweiterten Rohrmodellen. Diplomarbeit, Frankfurt am Main,<br />

1996.<br />

[13] Schnell, Karl: Parameterbestimmung für Rohrmodelle aus Sprachsignalen für die Sprachproduktion.<br />

Dissertation, Frankfurt am Main, 2003.<br />

[14] Stevens, Kenneth N.: Acoustic Phonetics. MIT Press, Cambridge, MA, 1998.<br />

[15] Vox, Valentine: I can see your lips moving. Retonios Magic, Casino, Schweiz.<br />

[16] Werner, Martin: Signale und Systeme. Vieweg und Sohn, Braunschweig, 2000.


A PHONETIK 16<br />

A Phonetik<br />

In der Phonetik werden Verengungsstellen des Vokaltrakts an bestimmten Stellen wie in Abb. A bezeichnet<br />

(vgl. z.B. [14]). So<strong>mit</strong> kann eine Einteilung der Konsonanten der deutschen Sprache vorgenommen werden.<br />

(a) (b)<br />

Abb. 1: a) Auswahl an Engstellenbezeichnungen im Vokaltrakt (vgl. [13]). b) Gehörschnecke nach<br />

[4], zu Abschnitt 2.4.<br />

Diese Einteilung wird durch die IPA-Konsonantentafel vorgenommen, vgl. Abb. 2. Vokale können zum<br />

Abb. 2: IPA-Konsonanten-Tafel (Stand 1993).<br />

einen durch ihre Bildung im Vokaltrakt anhand eines Vokalvierecks unterschieden werden. Zum anderen<br />

kann durch Analyse der ersten beiden For<strong>man</strong>ten eine Unterscheidung erfolgen, vgl. Abb. 3


B ABBILDUNGEN 17<br />

(a) (b)<br />

Abb. 3: (a) IPA-Vokal-Viereck (Stand 1993). (b) Lage der ersten beiden For<strong>man</strong>ten F1 und F2<br />

für die deutschen Kurz- (links) und Langvokale (rechts), er<strong>mit</strong>telt durch Sprachanalyse an 16<br />

Testpersonen (vgl. [11]).<br />

B Abbildungen<br />

Abb. 4: Quelle-Filter-Modell nach [10].<br />

(a) Rohr A (b) Rohr B<br />

Abb. 5: Die beiden Röhren A (a) und B (b).


B ABBILDUNGEN 18<br />

dB<br />

30<br />

20<br />

10<br />

0<br />

–10<br />

–20<br />

Rohr A<br />

1 2 3<br />

omega<br />

Abb. 6: Übertragungsfunktionen H1 ′ (ω) für Röhre A (hell) und H2 ′ (ω) für Röhre B (dunkel).<br />

Maple Plot für ∆ω = π<br />

500 , τ = 1.0 und Ai, Bi wie in der Tabelle beschrieben. Die ersten beiden<br />

For<strong>man</strong>ten (lokale Maxima) sind nahezu identisch.<br />

(a) (b)<br />

Abb. 7: Modell von Birkholz: (a) Vernetzung des Vokaltrakts <strong>mit</strong> Gittern für Ober- und Unterseite,<br />

sowie für die Zunge. (b) Röhrenmodell <strong>mit</strong> Nasaltrakt.<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) For<strong>man</strong>ten<br />

Abb. 8: Modellierung des Lautes [b]. Im Vokaltrakt bilden die Lippen einen Verschluss. Die ersten<br />

beiden For<strong>man</strong>ten liegen bei ca. F [b]<br />

[b]<br />

1 = 450 Hz und F 2 = 1050 Hz.


B ABBILDUNGEN 19<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) For<strong>man</strong>ten<br />

Abb. 9: Modellierung des Lautes [b’]. Der Verschluss wird im Vokaltrakt durch die nach oben<br />

gepresste Zunge erzeugt. Die ersten beiden For<strong>man</strong>ten liegen bei ca. F [b′ ]<br />

1 = 500 Hz und F [b′ ]<br />

2 =<br />

1100 Hz.


B ABBILDUNGEN 20<br />

(a) ba Spektrogramm (b) b’a Spektrogramm<br />

(c) da Spektrogramm (d) ba<br />

(e) da<br />

Abb. 10: (a-c) Spektrogramme für die in tractysn modellierten instationären Laute [ba], [b’a]<br />

und [da]. Zeitachse nach rechts, Frequenzachse nach oben verlaufend. (d) und (e) Theoretischer<br />

zeitlicher Verlauf der ersten drei For<strong>man</strong>ten für die Laute [ba], [da] nach [10].


B ABBILDUNGEN 21<br />

(a) b’ (b) d (c) m’ (d) m”<br />

Abb. 11: Vokaltraktstellungen für <strong>Bauch</strong>redner nach [15]: (a) Substitutionslaut [b’] ohne Lippenschließung,<br />

(b) zum Vergleich ein normal gesprochenes [d]. (c) Substitutionslaut [m’], ähnlich<br />

einem [n] <strong>mit</strong> Verschluss durch die Zunge, (d) Substitutionslaut [m”], ähnlich [ng] <strong>mit</strong> uvularem<br />

Verschluss, v.a. Nasaltrakt dient als Resonanzkörper.<br />

Abb. 12: Drei-Wege-Modell für die Lauterzeugung von Nasallauten.<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) Spektrum<br />

Abb. 13: Der Laut [m]. (a) Der Vokaltrakt endet <strong>mit</strong> einem Verschluss der Lippen. Das Velum ist<br />

geöffnet, sodass Schallwellen in den Nasaltrakt gelangen. (b) Röhrenmodell. (c) Durch die Öffnung<br />

des Velums kommt es beim Spektrum zu Nullstellen bzw. Antiresonanzen bei etwa 1000 Hz und<br />

3500 Hz.


B ABBILDUNGEN 22<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) Spektrum<br />

Abb. 14: Der Ersatzlaut [m’]. (a) Der Vokaltrakt ähnelt einem [n], da der Verschluss durch die Zunge<br />

anstelle der Lippen erfolgt. Das Velum ist wie beim [m] geöffnet. Röhrenmodell. Das Spektrum<br />

verfügt über Antiresonanzen bzw. Nullstellen.<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) Spektrum<br />

Abb. 15: Der Laut [m”]. (a) Der Verschluss erfolgt bereits uvular, ähnlich einem [ng]. (b) Rohrmodell.<br />

(c) Das Spektrum weist wiederum Nullstellen auf.


B ABBILDUNGEN 23<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) Spektrum<br />

Abb. 16: Der Laut [f]. (a) Die Verengung erfolgt dental, die Zunge ist bereits im Übergang zum<br />

[a]. (b) Rohrmodell. (c) Spektrum <strong>mit</strong> Resonanzen bei 400, 1550 und 2650 Hz.<br />

(a) Vokaltrakt (b) Rohrmodell<br />

(c) Spektrum<br />

Abb. 17: Der Substitutionslaut [f’]. (a) Der Verengung erfolgt etwas weiter im Mundinneren als<br />

beim [f]. (b) Rohrmodell. (c) Spektrum <strong>mit</strong> Resonanzen bei 400, 1550 und 3550 Hz.


B ABBILDUNGEN 24<br />

(a) fa Spektrogramm (b) f’a Spektrogramm<br />

Abb. 18: Spektrogramme für die in tractysn modellierten instationären Laute [fa], [f’a]. Zeitachse<br />

nach rechts, Frequenzachse nach oben verlaufend.<br />

(c)<br />

pa<br />

<strong>mit</strong><br />

Lippen<br />

(a) ba <strong>mit</strong> Lippen (b) ba ohne Lippen<br />

(d) pa ohne Lippen<br />

Abb. 19: Spektren der vom <strong>Bauch</strong>redner Patrick Martin aufgenommenen Lautübergänge [ba] und<br />

[pa] <strong>mit</strong> und ohne Lippen in Abhängigkeit von der Zeit. Nach rechts ist die Frequenz angetragen,<br />

nach oben die Amplitude in dB. Die verschiedenen Kurven stellen die Einhüllenden der Spektren<br />

zu aufeinander folgenden Zeitpunkten dar.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!