Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi
Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi
Kann man mit dem Bauch reden? Eine physikalische ... - JavaPsi
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Inhaltsverzeichnis<br />
<strong>Kann</strong> <strong>man</strong> <strong>mit</strong> <strong>dem</strong> <strong>Bauch</strong> <strong>reden</strong>?<br />
<strong>Eine</strong> <strong>physikalische</strong> Untersuchung<br />
Jörg Metzner, Marcel Sch<strong>mit</strong>tfull<br />
März 2005<br />
1 Einleitung 1<br />
2 Lautentstehung beim Menschen 1<br />
2.1 Stimmhafte Anregung durch die Glottis . . . . . . . . . . . . . . . . . . . . . . . . 1<br />
2.2 Filterfunktion des Vokaltrakts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />
2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt . . . . . . . . . . 2<br />
2.4 For<strong>man</strong>ten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />
2.5 <strong>Bauch</strong><strong>reden</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
3 Vokaltraktmodelle 4<br />
3.1 Einfaches Röhrenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
3.1.1 Kurzbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
3.1.2 Berechnung der Übertragungsfunktion . . . . . . . . . . . . . . . . . . . . . 4<br />
3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren . . . . . . . . . . . 7<br />
3.2 3D Modell nach Birkholz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
4 Modellgestützte Simulation der Ersatzlaute 8<br />
4.1 Die Plosivlaute [b] und [p] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
4.2 Der Nasal [m] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
4.3 Die Frikative [f] und [w] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
5 Lautsimulation im realen Experiment <strong>mit</strong> Hilfe eines Gipsmodells 13<br />
6 Analyse von <strong>Bauch</strong>redner-Aufnahmen 13<br />
6.1 Die Lautübergänge [ba] <strong>mit</strong> Lippen und [b’a] ohne Lippen . . . . . . . . . . . . . . 13<br />
6.2 Die Lautübergänge [pa] <strong>mit</strong> Lippen und [p’a] ohne Lippen . . . . . . . . . . . . . . 14<br />
6.3 Vergleich <strong>mit</strong> modellerzeugten Lautübergängen und Fehleranalyse . . . . . . . . . 14<br />
7 Schlussbemerkung und Ausblick 14<br />
A Phonetik 17<br />
B Abbildungen 18
2 LAUTENTSTEHUNG BEIM MENSCHEN 1<br />
1 Einleitung<br />
2 Lautentstehung beim Menschen<br />
Bei der Lauterzeugung muss zwischen der Schallerzeugung an den Stimmbändern und der Schallmodifikation<br />
des restlichen Vokaltrakts unterschieden werden.<br />
2.1 Stimmhafte Anregung durch die Glottis<br />
Aus der Lunge strömt Luft nach oben in Richtung der Stimmbänder. Der dadurch aufgebaute<br />
Druck wird so groß, dass er eine kurzzeitige Öffnung der Stimmbänder und so<strong>mit</strong> der Glottis<br />
1 bewirkt. Während der Öffnung entweicht die Luft in den Vokaltrakt und der Druck auf die<br />
Stimmbänder verringert sich, so dass sich die Glottis wieder schließt – bis der Druck erneut für<br />
eine Öffnung ausreicht. So entsteht ein periodisches Öffnen und Schließen der Glottis, welches zu<br />
einem Schallsignal führt. Oftmals werden die beiden Stimmbänder durch ein Zwei-Massen-Modell<br />
simuliert, da diese das Öffnen und Schließen der Stimmbänder in Abhängigkeit des auf sie wirkenden<br />
Drucks gut beschreiben können. Das gleiche Phänomen ist auch beim Entweichen von Luft<br />
aus einem Luftballon, dessen Öffnung auseinander gezogen wird, zu beobachten. Der entstehende<br />
Grundlaut muss im Vokaltrakt nun noch zu einem vollständigen Laut umgeformt werden.<br />
2.2 Filterfunktion des Vokaltrakts<br />
Die verschiedenen Artikulatoren (Zunge, Velum, Kiefer, Lippe) bestimmen die Geometrie des Vokaltrakts.<br />
Von dieser Geometrie ist die weitere Entwicklung des aus der Glottis kommenden Schallsignals<br />
abhängig. Um den Einfluss der Vokaltraktgeometrie auf die Lautbildung herauszufinden,<br />
können verschiedene Modelle betrachtet werden. In den Kapiteln 3.1 und 3.2 werden wir insbesondere<br />
auf das einfache Röhrenmodell und das von Birkholz weiterentwickelte Mermelstein-Modell<br />
eingehen.<br />
2.3 Physikalisch-akustische Beschreibung von Glottis und Vokaltrakt<br />
Fasst <strong>man</strong> die Anregungsfunktion der Glottis als Quelle, die Übertragungsfunktion des Vokaltrakts<br />
als Filter auf, so entsteht das in Abb. 4 gezeigte Quelle-Filter-Modell für die Lautbildung.<br />
Glottis<br />
Die durch das periodische Öffnen und Schließen der Glottis entstehenden Schallwellen haben einen<br />
Schalldruck p, der die lokale Veränderung des Luftdrucks gegenüber <strong>dem</strong> Normaldruck beschreibt.<br />
Neben <strong>dem</strong> Schalldruck kann die Schallwelle auch durch eine Schallschnelle v dargestellt werden,<br />
die die Oszillation der einzelnen Luftteilchen angibt. Multipliziert <strong>man</strong> die Schallschnelle v <strong>mit</strong><br />
der Querschnittsfläche A des Rohrs, so erhält <strong>man</strong> den Volumenstrom oder Schallfluss u = v · A.<br />
Der Quotient aus Schalldruck und Volumenstrom wird als akustische Impedanz p<br />
u bezeichnet.<br />
Vokaltrakt<br />
Von der Glottis kommt nun ein Signal x(t) in den Vokaltrakt. Dieses Eingangssignal kann durch<br />
Linearkombinationen von Diracimpulsen δ(t) beschrieben werden. Die Modifikation dieser Impulsfunktion<br />
im Vokaltrakt wird als Impulsantwort h(t) des Systems bezeichnet. Das schließliche<br />
Ausgangssignal y(t) erhält <strong>man</strong> mathematisch betrachtet aus der Faltung y(t) = x(t)∗h(t) des Eingangssignals<br />
<strong>mit</strong> der Impulsantwort (vgl. [16]). Wichtig ist insbesondere, dass die Impulsantwort<br />
das akustische System des Vokaltrakts vollständig beschreibt.<br />
Während die Impulsantwort das Endsignal y(t) im Zeitbereich liefert, vermag die sog. Übertragungsfunktion<br />
H(ω) angewandt auf das Eingangssignal X(ω) das Endsignal Y (ω) im Frequenzbereich,<br />
d.h. in Abhängigkeit der ω anzugeben. Zur Analyse am Computer muss das zeitkontinuierliche<br />
Endsignal y(t) <strong>mit</strong> einer bestimmten Abtastfrequenz fA abgetastet werden, d.h. y(t) wird<br />
1 Als Glottis bezeichnet <strong>man</strong> den Hohlraum zwischen den beiden Stimmbändern.
2 LAUTENTSTEHUNG BEIM MENSCHEN 2<br />
zu einer diskreten Funktion <strong>mit</strong> Werten an Zeitpunkten <strong>mit</strong> <strong>dem</strong> Abstand TA = 1 . Nach <strong>dem</strong><br />
fA<br />
Abtasttheorem (vgl. [11], [16]) muss die Abtastfrequenz den doppelten Wert der höchsten in <strong>dem</strong><br />
zu analysierenden Signal vorkommenden Frequenz haben, um die Eindeutigkeit der Frequenzen zu<br />
gewährleisten. Bei einer Abtastrate von z.B. 44100 Hz (CD-Qualität) kommen also nur Frequenzen<br />
bis maximal 22050 Hz vor.<br />
Zur Analyse eines Signals wird üblicherweise die frequenzabhängige Darstellung X(ω) betrachtet.<br />
Diese Darstellung wird als das Spektrum des Endsignals bezeichnet, da es anschaulich<br />
gesprochen für die Stärke des Vorliegens einzelner Frequenzen in <strong>dem</strong> Signal steht. Formal läuft<br />
dies darauf hinaus, dass ein periodisches Signal x(t) als Fourier-Reihe<br />
x(t) =<br />
∞<br />
k=−∞<br />
αke jkω0t<br />
<strong>mit</strong> der Grundfrequenz ω0 dargestellt wird. Die Menge der Harmonischen e jkω0t = cos kω0t +<br />
j sin kω0t bildet hierbei ein vollständiges Orthogonalsystem. Für die Koeffizienten αi in (2.1) erhält<br />
<strong>man</strong> (vgl. [9], [7])<br />
αk = 1<br />
T<br />
T<br />
0<br />
(2.1)<br />
x(t)e −jkω0t dt, (2.2)<br />
wobei die untere Grenze des Integrals beliebig ist, solange über das Intervall einer Periode T = 2π<br />
ω0<br />
integriert wird. Die Phase der komplexen αk beschreibt die möglichen Phasenverschiebungen der<br />
Basen ejkωt in (2.1), während die Beträge |αk| für die Amplitude stehen. In einem Linienspektrum<br />
werden eben diese Beträge |αk|, meist in der logarithmischen Skalierung Dezibel, gegen die<br />
einzelnen ω aufgetragen.<br />
Um auch eine Transformation für aperiodische Funktionen x(t) vom Zeit- in den Frequenzbereich<br />
durchführen zu können, lässt <strong>man</strong> die Periode T in (2.2) gegen unendlich gehen T → ∞. Der<br />
Abstand zweier Linien im Frequenzenspektrum beträgt ω0 = ∆ω = 2π 1 , für T → ∞ wird also<br />
∆ω → dω und k∆ω → ω. Setzt <strong>man</strong> für das Integral in (2.2) die untere Integrationsgrenze bei − T<br />
und die obere bei T<br />
2<br />
, so wird beim Grenzübergang T → ∞ Gleichung (2.2) <strong>mit</strong> 1<br />
T<br />
αk = ∆ω<br />
2π<br />
∞<br />
−∞<br />
x(t)e −jωt dt<br />
<br />
X(ω)<br />
= ∆ω<br />
2π<br />
T<br />
= ∆ω<br />
2π zu<br />
dω<br />
· X(ω) → · X(ω). (2.3)<br />
2π<br />
In der Fourier-Reihe (2.1) wird die Summe zum Integral und kω0 → ω. Setzt <strong>man</strong> (2.3) in (2.1)<br />
ein folgt also <strong>mit</strong> ∆ω → dω<br />
IFT: x(t) = 1<br />
2π<br />
∞<br />
−∞<br />
X(ω)e jωt dω. (2.4)<br />
Diese Transformation der X(ω) zu x(t) nennt <strong>man</strong> Fourier-Synthese bzw. inverse Fourier-Transformation<br />
(IFT). Die umgekehrte Transformation vom Zeitbereich x(t) in den Frequenzbereich X(ω) wird<br />
als Fourier-Transformation (FT)<br />
FT: X(ω) =<br />
∞<br />
−∞<br />
x(t)e −jωt dt. (2.5)<br />
bezeichnet. Für eine tiefergehende Diskussion der Fourier-Transformation sei auf [8] und [7] verwiesen.<br />
Überblick und Darstellung<br />
Zur besseren Übersicht fassen wir noch einmal zusammen: Der Vokaltrakteinfluss auf das Eingangssignal<br />
x(t) im Zeitbereich wird durch die Impulsantwort h(t) vollständig beschrieben. Das<br />
2
2 LAUTENTSTEHUNG BEIM MENSCHEN 3<br />
Endsignal wird im Zeitbereich durch eine i.A. aperiodische Funktion x(t) dargestellt. Durch eine<br />
Fourier-Transformation gelangt <strong>man</strong> zum Frequenzbereich, in <strong>dem</strong> der Vokaltrakteinfluss durch die<br />
Übertragungsfunktion H(ω) und das Endsignal durch das Spektrum X(ω) beschrieben werden.<br />
Zeitbereich: x(t)<br />
h(t)<br />
−→ x(t)<br />
↓ FT ↓ ↓ ↓<br />
Frequenzbereich: X(ω) H(ω)<br />
−→ X(ω).<br />
<strong>Eine</strong> beide Beschreibungsformen vereinigende Darstellungsmöglichkeit bietet das Spektrogramm,<br />
in <strong>dem</strong> in einem Diagramm <strong>mit</strong> Zeit- und Frequenzachse der Betrag |αi(t)| für die Frequenz ω zum<br />
Zeitpunkt t <strong>mit</strong>tels Färbung gekennzeichnet ist. 2 Dadurch lassen sich v.a. zeitliche Änderungen<br />
der For<strong>man</strong>ten gut darstellen, was insbesondere für instationäre Laute sehr wichtig ist.<br />
2.4 For<strong>man</strong>ten<br />
<strong>Eine</strong> sehr wichtige Rolle für die Phonetik spielen die For<strong>man</strong>ten eines Lautes. Als For<strong>man</strong>ten<br />
bezeichnet <strong>man</strong> die Maximumstellen der Einhüllenden der Übertragungsfunktion H(ω), die den<br />
Einfluss des Vokaltrakts auf den Eingangslaut im Frequenzbereich beschreibt. Die For<strong>man</strong>ten<br />
geben also Frequenzen an, die besonders stark vom Vokaltrakt verstärkt werden. Diese auch als<br />
Resonanzen bezeichneten Frequenzen sind maßgeblich für die Lauterkennung verantwortlich.<br />
Es wurde oft experimentell gezeigt, dass für die Lauterkennung nur die ersten beiden For<strong>man</strong>ten<br />
entscheidend sind. Ab <strong>dem</strong> dritten For<strong>man</strong>ten wird die Lautcharakteristik für die Lautunterscheidung<br />
nur noch unwesentlich verändert, ein [u] in ” rutschen“ und in ” Buch“ wäre ein Beispiel, wo<br />
die ersten For<strong>man</strong>ten praktisch gleich bleiben und sich nur die hinteren For<strong>man</strong>ten verschieben.<br />
<strong>Eine</strong> mögliche Erklärung liegt unserer Meinung nach darin, dass die menschliche Gehörschnecke<br />
lediglich im Abschnitt für Frequenzen bis ca. 1 Kilohertz eine anatomisch lineare Struktur aufweist<br />
und die Frequenzverteilung darüber logarithmisch ist, vgl. Abb. im Anhang.<br />
2.5 <strong>Bauch</strong><strong>reden</strong><br />
Beim <strong>Bauch</strong><strong>reden</strong> ist es wichtig Ersatzlaute für die labialen Laute zu finden, deren ersten beiden<br />
For<strong>man</strong>ten möglichst genau <strong>mit</strong> denen der zu ersetzenden Laute übereinstimmen. Die For<strong>man</strong>ten<br />
der zu ersetzenden Laute sind nun zwar aus der Literatur bekannt [13], jedoch ist nicht möglich von<br />
diesen auf den Vokaltrakt zu schließen (vgl. [10], [11]). D.h. von <strong>dem</strong> Spektrum ausgehend kann<br />
nicht eindeutig auf die einzelnen Vokaltraktparameter geschlossen werden. Früher wurde versucht<br />
den Einfluss von Verengungen an bestimmen Stellen auf die For<strong>man</strong>ten durch For<strong>man</strong>tverschieber<br />
zu beschreiben (z.B. Till<strong>man</strong>n [10]), jedoch zeigen neuere Erkenntnisse, dass dies häufig eine<br />
Vereinfachung darstellt.<br />
Die für uns einzige Möglichkeit die Stellung des Vokaltrakts für die Ersatzlaute zu finden besteht<br />
also darin, <strong>mit</strong>hilfe von <strong>Bauch</strong>rednerbüchern (z.B. [15] und [2]) und Hinweisen von <strong>Bauch</strong>rednern<br />
zu ihrer Technik die Geometrie des Vokaltrakts <strong>mit</strong> der Hand am Computer nachzubilden. Dabei<br />
wird darauf geachtet, dass die For<strong>man</strong>ten des zu ersetzenden Lautes möglichst optimal angenähert<br />
werden. Um also die Substitutionslaute für die kritischen Laute <strong>mit</strong> labialen Verengungen bzw.<br />
Verschlüssen modellhaft nachbilden zu können, haben wir auf die Software tractsyn zurückgegriffen,<br />
vgl. Abschnitt 4.<br />
Im nächsten Kapitel soll nun zunächst formal gezeigt werden, dass die Nachbildung der ersten<br />
beiden For<strong>man</strong>ten trotz unterschiedlicher Artikulatorstellungen möglich ist. Dies geschieht <strong>mit</strong>hilfe<br />
eines einfachen Röhrenmodells.<br />
2 In den unten folgenden Spektrogrammen wird die Zeitachse horizontal, die Frequenzachse vertikal verlaufen; je<br />
größer der Rotanteil der Farbe ist, desto höher ist |α|.
3 VOKALTRAKTMODELLE 4<br />
3 Vokaltraktmodelle<br />
3.1 Einfaches Röhrenmodell<br />
3.1.1 Kurzbeschreibung<br />
Die Geometrie und so<strong>mit</strong> die Übertragungsfunktion des Vokaltrakts wird durch eine Aneinanderreihung<br />
diskreter als verlustfrei angenommener Zylinderabschnitte <strong>mit</strong> variieren<strong>dem</strong> Durchmesser<br />
angenähert. Wird in dieses angenäherte Rohr nun ein durch eine Anregungsfunktion beschriebenes<br />
Signal geschickt, so wird dieses Signal entsprechend der angenäherten Übertragungsfunktion modifiziert.<br />
Wählt <strong>man</strong> die Anzahl der diskreten Zylinder sehr groß, so entsteht also ein Laut, dessen<br />
Resonanzen <strong>dem</strong> des kontinuierlichen Vokaltrakts sehr nahe kommen. Die angenommene Verlustfreiheit<br />
beeinträchtigt das Ergebnis nur gering und ermöglicht es v.a. die Übertragungsfunktion<br />
für eine bestimmte Rohrkonfiguration explizit zu berechnen. Dies soll im folgenden Kapitel gezeigt<br />
werden.<br />
3.1.2 Berechnung der Übertragungsfunktion<br />
Der Vokaltrakt sei durch eine Aneinanderreihung von N Zylindern <strong>mit</strong> Querschnittsflächen Ai<br />
angenähert. Gesucht ist nun die Übertragungsfunktion H(ω) <strong>mit</strong> der das Ausgangssignal aus <strong>dem</strong><br />
Rohr Y (ω) = X(ω) · H(ω) berechnet werden kann.<br />
Während innerhalb eines Zylinders Zi <strong>mit</strong> konstanter Querschnittsfläche Ai keine Modifikation<br />
der Schallwelle auftritt, führt eine Querschnittssprungstelle zwischen zwei Zylindern Zi und<br />
Zi+1 <strong>mit</strong> unterschiedlichen Querschnittsflächen Ai = Ai+1 zu einer Aufspaltung der Schallwelle in<br />
einen trans<strong>mit</strong>tierten und einen reflektierten Teil. Das führt dazu, dass sich in <strong>dem</strong> Rohr Schallwellen<br />
in der ursprünglichen Richtung (Einheitsvektor e + ) und in der entgegengesetzten Richtung<br />
(Einheitsvektor e − ) ausbreiten.<br />
Betrachten wir also einen Querschnittssprung zwischen den Zylindern Zi und Zi+1. Nimmt<br />
<strong>man</strong> die Änderung des Drucks pi → pi+1 und die Änderung des Schallflusses ui → ui+1 als stetig<br />
an (Kontinuitätsannahme vgl. [6], so ist in den diskreten Zylindern pi bzw. ui am rechten Rand<br />
von Zi gleich pi+1 bzw. ui+1 am linken Rand von Zi+1:<br />
pi = pi+1 bzw. p + i + p− i = p+ i+1 + p− i+1 , (3.1)<br />
ui = ui+1 bzw. u + i + u− i = u+ i+1 + u− i+1 , (3.2)<br />
Auf der rechten Seite von Gleichung (3.1) wird dabei der Gesamtdruck durch p = p + + p − , d.h.<br />
als Summe des Schalldrucks der in + Richtung laufenden Welle und des Schalldrucks der in −<br />
Richtung laufenden Welle ausgedrückt. Der Gesamtfluss beträgt analog u = u + + u − . Schreibt<br />
<strong>man</strong> die Flüsse als u + = u + · e + und u − = u − · e − , so wird (3.2) <strong>mit</strong> e + = −e − zu<br />
u + i − u− i = u+ i+1 − u− i+1 . (3.3)<br />
Um Gleichung (3.3) in Abhängigkeit der Drucke p und der Querschnittsflächen A auszudrücken,<br />
wird die Schallschnelle v ± = v ± · e ± in u ± = v ± A ⇒ u ± = v ± A durch den sog. Schallkennwiderstand<br />
(vgl. [12]) <strong>mit</strong> <strong>dem</strong> Druck p in Beziehung gesetzt:<br />
p +<br />
v<br />
+ = p−<br />
= ϱc, (3.4)<br />
v− wobei ϱ die Dichte des Mediums und c die Schallgeschwindigkeit in diesem Medium bedeutet, z.B.<br />
cLuft,37◦C ≈ 350 m s . Stellt <strong>man</strong> (3.4) nach der Schallschnelle v um und setzt u = vA ein, so ergibt<br />
sich<br />
u + = p+ A<br />
ϱc , u− = p−A ϱc<br />
und Gleichung (3.3) wird zu<br />
p + i Ai<br />
ϱc − p− i Ai<br />
ϱc<br />
= p+ i+1 Ai+1<br />
ϱc<br />
− p− i+1 Ai+1<br />
ϱc<br />
⇔ Ai(p + i − p− i ) = Ai+1(p + i+1 − p− i+1 ) (3.5)
3 VOKALTRAKTMODELLE 5<br />
Löst <strong>man</strong> nun (3.1) nach p − i<br />
auf, so erhält <strong>man</strong><br />
p − i = p+ i+1 + p− i+1 − p+ i .<br />
Auflösen von (3.5) nach p + i+1 und Einsetzen liefert nach Vereinfachen<br />
p − i = Ai − Ai+1<br />
p<br />
Ai + Ai+1<br />
+ i<br />
2Ai+1<br />
+ p<br />
Ai + Ai+1<br />
− i+1 . (3.6)<br />
Ohne einen Querschnittssprung würde sich in Zi eine Welle <strong>mit</strong> p + i in + Richtung und in Zi+1<br />
eine Welle <strong>mit</strong> p − i+1 − Richtung bewegen, sodass in Zi für den Druck in − Richtung p − i = p− i+1<br />
gelten würde. Sei die Welle p − i+1 als einlaufende Welle betrachtet, dann sagt Gleichung (3.6) jedoch<br />
aus, dass nur ein gewisser Teil des Drucks p − i+1 der in − Richtung verlaufenden Welle in p− i noch<br />
enthalten ist, d.h. nur ein Teil dieser Welle wird trans<strong>mit</strong>tiert. Gleichzeitig ist in (3.6) ein Teil des<br />
Drucks p + i der in + Richtung verlaufenden Welle enthalten, d.h. ein Teil dieser in + Richtung<br />
verlaufenden Welle wird in − Richtung reflektiert. Die Faktoren für Transmission in der in −<br />
Richtung verlaufenden Welle und Reflexion der in + Richtung verlaufenden Welle sind nach (3.6)<br />
Reflexionsfaktor R + = Ai − Ai+1<br />
, (3.7)<br />
Ai + Ai+1<br />
Transmissionsfaktor T − =<br />
2Ai+1<br />
Ai + Ai+1<br />
Stellt <strong>man</strong> die Gleichungen (3.1) und (3.5) nach p + i+1 statt wie oben nach p− i<br />
p + i+1 = Ai+1 − Ai<br />
p<br />
Ai + Ai+1<br />
− i+1 +<br />
p − i<br />
2Ai<br />
p<br />
Ai + Ai+1<br />
+ i<br />
= R − p − i+1 + T + p + i<br />
= −R + p − i+1 + (1 + R+ )p + i .<br />
= 1 − R + . (3.8)<br />
so erhält <strong>man</strong><br />
Die Gleichungen (3.6) und (3.9) lassen sich <strong>mit</strong> R = R + kompakt schreiben als<br />
+<br />
p i+1 −R<br />
=<br />
1 − R<br />
−<br />
1 + R pi+1 .<br />
R<br />
(3.10)<br />
Um die Wellengrößen pi in Abhängigkeit der pi+1 auszudrücken, wird (3.10) noch vereinfacht zu<br />
+<br />
p i<br />
p − <br />
=<br />
i<br />
1<br />
+<br />
1 R p i+1<br />
1 + R R 1 p − <br />
i+1<br />
Da die Schallwelle die Zeit τ<br />
2<br />
p + i<br />
(3.9)<br />
(3.11)<br />
= d<br />
c benötigt3 , um den Weg des Abstands d zwischen zwei Quer-<br />
schnittssprungstellen zurückzulegen, sind die Wellen an den verschiedenen Querschnittssprungstellen<br />
zueinander verschoben. Da aus (2.4) folgt, dass<br />
x(t)<br />
x(t ± τ)<br />
F T<br />
=<br />
F T<br />
=<br />
1<br />
2π<br />
∞<br />
−∞<br />
∞<br />
1<br />
<br />
2π<br />
−∞<br />
X(ω)e jωt dω<br />
X(ω)e jω(t±τ) dω = 1<br />
2π<br />
∞<br />
−∞<br />
e ±jωτ · X(ω)e jωt dω<br />
gilt, entspricht eine Verschiebung x(t) → x(t ± τ<br />
2 ) im Zeitbereich der Operation X(ω) → X(ω) ·<br />
τ<br />
±jω e 2 im Frequenzbereich. Um deutlich zu machen, dass im Frequenzbereich operiert wird, verwenden<br />
wir im Folgenden P anstelle von p. In (3.10) wird der Vektor (P +<br />
−<br />
, P<br />
berechnet, d.h. in (P +<br />
i+1<br />
−<br />
i , Pi )T aus (P +<br />
−<br />
, Pi+1 )T muss die sich nach rechts4 bewegende + Welle P +<br />
i+1<br />
i+1<br />
i+1 )T<br />
um τ<br />
2 nach<br />
3 Die Zeitverschiebung wird als τ<br />
2 gewählt, um später in Gleichung (3.12) e 1 2 jωt ausklammern und die Matrix<br />
umformen zu können.<br />
4<br />
” Rechts“ entspricht der + Richtung, die wiederum der Richtung aufsteigender Zylinderindizes Zi → Zi+1 entspricht.
3 VOKALTRAKTMODELLE 6<br />
links verschoben werden, P +<br />
i+1<br />
Welle P − + −<br />
i+1 in (P i+1 , Pi+1 )T um τ<br />
2<br />
+<br />
P i+1<br />
P −<br />
<br />
i+1<br />
→<br />
<br />
P + 1<br />
i+1 · e+ 2 jωt<br />
P −<br />
i+1<br />
· e− 1<br />
2 jωt<br />
Aus Gleichung (3.11) wird also<br />
+<br />
P i<br />
P −<br />
<br />
i<br />
+ 1<br />
→ P i+1 · e+ 2 jωt . Analog muss die sich nach links ausbreitende −<br />
<br />
nach rechts verschoben werden, d.h. P −<br />
i+1<br />
= e 1<br />
= e 1<br />
=<br />
<br />
e 1<br />
2 jωt 0<br />
1<br />
− 0 e 2 jωt<br />
P +<br />
i+1<br />
P −<br />
i+1<br />
<br />
− 1<br />
→ Pi+1 · e− 2 jωt . So<strong>mit</strong><br />
= e 1<br />
2 jωt<br />
<br />
1 0<br />
0 e−jωτ +<br />
P i+1<br />
P −<br />
<br />
.<br />
i+1<br />
2 jωτ <br />
1 R 1 0<br />
1 + R R 1 0 e−jωτ +<br />
P i+1<br />
P −<br />
<br />
i+1<br />
2 jωτ <br />
1 Re−jωτ 1 + R R e−jωτ +<br />
P i+1<br />
P −<br />
<br />
. (3.12)<br />
i+1<br />
Bestehe nun das gesamte Rohrmodell aus N Zylindern Zi, i = 1..N. Mit Ri, i = 1..N identifiziere<br />
<strong>man</strong> den Reflexionsfaktor am Querschnittssprung zwischen den Zylindern Zi und Zi+1, wobei<br />
am rechten Rand des Gesamtrohrs RN+1 ≈ −0.95 gesetzt wird, da es hier bis auf kleine Verluste<br />
an den Lippen nahezu zu einer vollständigen Transmission in den Außenbereich kommt, der relativ<br />
zu den Vokaltraktflächen als groß angenommen werden kann. Nimmt <strong>man</strong> die Zylinderlängen di<br />
als gleichlang an (di = const. ⇒ τi di =<br />
τ<br />
2 c = 2 = const.), so erhält <strong>man</strong> den Schalldruck P1 aus<br />
PN+1 bzw. analog ein Signal X1 aus XN+1 durch Multiplizieren der Matrizen in (3.12) wie folgt<br />
+<br />
X 1<br />
X − 1<br />
Die Terme 1<br />
i e 2 jωτ = e N<br />
2 jωτ und <br />
i<br />
=<br />
1<br />
1+Ri<br />
N<br />
<br />
1 Rie<br />
i=1<br />
−jωτ<br />
Ri e−jωτ +<br />
X<br />
· N+1<br />
X<br />
<br />
−<br />
<br />
N+1<br />
Mi<br />
(3.13)<br />
aus (3.12) können dabei zunächst einmal unberücksich-<br />
ohne Betragsänderung (|e N<br />
2 jωτ | =<br />
tigt bleiben, da sie lediglich eine Gesamtzeitverschiebung um Nτ<br />
2<br />
1) und eine Gesamtverstärkung (lauter bzw. leiser) um den Faktor 1<br />
i darstellen, die beide<br />
1+Ri<br />
keine Auswirkungen auf das Frequenzenspektrum bzw. die For<strong>man</strong>ten haben. In (3.13) ist <br />
i Mi<br />
eine 2 × 2 Matrix der Form<br />
N<br />
<br />
M 11 M 12<br />
Mi = M =<br />
M 21 M 22<br />
<br />
. (3.14)<br />
Mit X −<br />
N+1 = RN+1 · X +<br />
N+1 folgt aus (3.13) und (3.14) für X+ 1 also<br />
i=1<br />
X + 1 = M 11 X +<br />
N+1 + RN+1 · M 12 X +<br />
N+1 . (3.15)<br />
Aus X +<br />
N+1 (ω) = H(ω) · X+ 1 (ω) folgt für die Übertragungsfunktion H(ω) so<strong>mit</strong><br />
H(ω) = X+<br />
N+1 (ω)<br />
X + =<br />
1 (ω)<br />
1<br />
M 11 . (3.16)<br />
+ RN+1 · M 12<br />
3.1.3 Nicht unterscheidbare Laute in unterschiedlichen Röhren<br />
Beim <strong>Bauch</strong><strong>reden</strong> müssen die Vokaltraktstellungen kritischer Laute <strong>mit</strong> labialem Verschluss oder<br />
labialer Verengung durch Ersatzstellungen nachgebildet werden, d.h. voneinander verschiedene<br />
Vokaltraktgeometrien müssen gleiche bzw. für das menschliche Gehör ähnlich klingende Laute erzeugen<br />
können. In diesem Abschnitt soll nun an einem Beispiel ein <strong>physikalische</strong>r Beleg für die<br />
Möglichkeit geliefert werden, dass zwei voneinander verschiedene Röhren A und B zwei Laute erzeugen<br />
können, die sich für das menschliche Gehör nahezu gleich anhören, d.h. deren ersten beiden<br />
For<strong>man</strong>ten (vgl. Abschnitt 2.4) nahezu identisch sind. Die Lage der ersten beiden For<strong>man</strong>ten kann<br />
durch Berechnung der Übertragungsfunktion <strong>mit</strong> Hilfe von Gleichung (3.16) bestimmt werden.<br />
Die Konfiguration von zwei unterschiedlichen aber ähnliche Laute erzeugenden Röhren A und<br />
B kann <strong>mit</strong>tels eines Optimierungsalgorithmus oder sogar explizit rechnerisch er<strong>mit</strong>telt werden. Da
3 VOKALTRAKTMODELLE 7<br />
für den Beweis der Existenz zweier solcher Röhren A und B jedoch lediglich ein einziges Beispiel gefunden<br />
werden muss, werden der Einfachheit halber zwei Rohre <strong>mit</strong> ähnlichen Klangeigenschaften<br />
per Hand bestimmt.<br />
Seien die beiden Rohre A und B durch folgende Querschnittsflächen Ai und Bi bestimmt (vgl.<br />
auch Abb. B).<br />
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10<br />
0.003 0.079 0.549 1.053 0.693 0.276 0.198 0.453 0.063 3.0<br />
B1 B2 B3 B4 B5 B6 B7 B8 B9 B10<br />
0.003 0.124 0.538 3.254 0.950 0.331 1.141 0.120 0.235 4.695<br />
Die Einheiten der Querschnittsflächen können dabei vernachlässigt werden, da sie keinen Einfluss<br />
auf die Reflexionsfaktoren haben. Zur Berechnung der beiden Übertragungsfunktionen wird nun<br />
Gleichung (3.16) schrittweise angewandt, d.h. in Pseudocode<br />
1. (3.7) R1[i] = Ai − Ai+1<br />
, R2[i] =<br />
Ai + Ai+1<br />
Bi<br />
2. (3.13)<br />
− Bi+1<br />
<strong>mit</strong> i = 1..9<br />
Bi + Bi+1<br />
<br />
1 R1[i]e−jωτ M1[i](ω) =<br />
R1[i] e−jωτ <br />
<br />
1<br />
, M2[i](ω) =<br />
R2[i]<br />
R2[i]e−jωτ e−jωτ <br />
, i = 1..8, τ = 1.0<br />
3. (3.14)<br />
8<br />
8<br />
N1(ω) = M1[i](ω), N2(ω) = M2[i](ω)<br />
4. (3.16) H1(ω) =<br />
i=1<br />
Wählt <strong>man</strong> die Schrittweite ∆ω = π<br />
i=1<br />
1<br />
N111 (ω) + R1[9] · N112 , H2(ω) =<br />
(ω)<br />
1<br />
N211 (ω) + R2[9] · N212 , ω = 0..π.<br />
(ω)<br />
und skaliert die Amplituden von H1 und H2 <strong>mit</strong> Dezibel,<br />
500<br />
d.h. H1 ′ = 20 · log H1 und H2 ′ = 20 · log H2, so erhält <strong>man</strong> <strong>mit</strong> Maple die beiden in Abb. 6<br />
geplotteten Übertragungsfunktionen H1 ′ (ω ′ ) und H2 ′ (ω ′ ). Dabei sind die ω ′ = ωτ so normiert,<br />
dass in 17cm langen Rohr <strong>mit</strong> 10 Zylindern ω ′ = π etwa ω = 10 kHz entspricht.<br />
Man sieht aus Abb. 6, dass die ersten beiden lokalen Maxima bzw. For<strong>man</strong>ten von H1 ′ und<br />
H2 ′ nahezu identisch zueinander sind. Die Verschiebung der ersten beiden For<strong>man</strong>ten ist <strong>mit</strong> <strong>dem</strong><br />
menschlichen Gehör kaum wahrnehmbar. Die Verschiebung des dritten For<strong>man</strong>ten liegt bereits<br />
etwas höher, hat jedoch wie oben erklärt wurde kaum Auswirkungen auf die Lautwahrnehmung<br />
beim Menschen.<br />
So<strong>mit</strong> wurde gezeigt, dass die beiden obigen Röhren trotz unterschiedlicher Geometrien Laute<br />
erzeugen, die das menschliche Gehör nur äußerst schwer bzw. gar nicht voneinander unterscheiden<br />
kann. Beim <strong>Bauch</strong><strong>reden</strong> werden nun ebenfalls Ersatzstellungen für die kritischen Laute gesucht, die<br />
die nachzubildenden Laute möglichst gut annähern. Bedingung für die Ersatzvokaltraktgeometrie<br />
ist dabei, dass auf einen labialen Verschluss verzichtet wird.<br />
3.2 3D Modell nach Birkholz<br />
Im Folgenden soll überprüft werden, ob sich die vom <strong>Bauch</strong>redner gebildeten Substitutionslaute<br />
durch ein <strong>physikalische</strong>s Modell des Vokaltrakts beschreiben lassen. Hierzu wird ein von Peter<br />
Birkholz in [1] beschriebenes Artikulatormodell verwendet, das in der Simulationssoftware tractsyn<br />
umgesetzt ist. Vorteile von tractsyn sind v.a. die einfache Bedienbarkeit und Flexibilität, sowie<br />
insbesondere die Einbindung des Nasaltrakts, der für die Bildung von Nasallauten wie [m] und [n]<br />
unverzichtbar ist.<br />
Bei <strong>dem</strong> Modell von Birkholz handelt es sich um eine Weiterentwicklung des Modells von<br />
Mermelstein. Der Vokaltrakt wird in drei Flächengittern dreidimensional modelliert: jeweils ein<br />
Gitter für Ober- und Unterseite des Vokaltrakts und ein Zungengitter (vgl. Abb. B (a)). Die<br />
Geometrie dieser Gitter wurde dabei aus Röntgenaufnahmen bestimmt, z.B. von Fant und neueren<br />
Aufnahmen.<br />
Das Programm berechnet nun in Abhängigkeit der eingestellten Parameter, die die Geometrie<br />
der Gitter bestimmen, die Querschnittsflächen an jeder Stelle des diskretisierten (in Gitter
4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 8<br />
unterteilten) Vokaltrakts. Durch das Zusammensetzen der einzelnen Querschnitte entsteht vereinfachend<br />
ein Röhrenmodell <strong>mit</strong> variieren<strong>dem</strong> Durchmesser, wobei die Röhre des Nasaltrakts <strong>mit</strong> der<br />
Röhre des Vokaltrakts über das Velum verbunden ist (vgl Abb. B (b)). Für dieses Röhrensystem<br />
kann dann der entstehende Laut im Prinzip ähnlich wie in Abschnitt 3.1 berechnet und über einen<br />
Lautsprecher ausgegeben werden.<br />
4 Modellgestützte Simulation der Ersatzlaute<br />
Bei der Nachbildung von Frikativen <strong>mit</strong> labiodentaler Verengung ([f], [v]) kann ein <strong>Bauch</strong>redner<br />
laut [15] aus zwei Varianten auswählen. Die erste und am häufigsten verwendete Möglichkeit besteht<br />
darin, dass die Laute [f] und [w] nach einiger Übung ohne sichtbare Lippenbewegung gebildet<br />
werden können, sodass für sie kein besonderer Ersatzlaut benötigt wird. Alternativ dazu kann <strong>man</strong><br />
auch einen Ersatzlaut verwenden, der einem [d] <strong>mit</strong> einer sehr kurzzeitigen alveoren Verengung<br />
recht nahe kommt. Wegen der Möglichkeit der Nachbildung von [f] und [v] ohne Ersatzlaute und<br />
den Schwierigkeiten bei der Simulation von Frikativen wird auf diese beiden Laute nach derzeitigem<br />
Stand der Arbeit nicht weiter eingegangen werden, vgl. Abschnitt 7.<br />
Insbesondere die Plosive und Nasale <strong>mit</strong> bilabialer Verschließung ([b], [p], [m]) sind von herausragender<br />
Bedeutung für das <strong>Bauch</strong><strong>reden</strong>, da für sie ohne Verwendung von Ersatzlauten eine<br />
Schließung der Lippen unumgänglich ist. Auf diese kritischen Laute [b], [p] und [m] und die dazugehörigen<br />
Ersatzlaute soll deshalb im Folgenden speziell eingegangen werden.<br />
4.1 Die Plosivlaute [b] und [p]<br />
Laut [3] sind die Vokaltraktstellungen bei einem [p] und [b] so ähnlich, dass auf den MRT-<br />
Aufnahmen, die auch der Simulation zu Grunde liegen, keine Unterschiede festgestellt werden<br />
konnten. Die einzigen Unterschiede von [p] und [b] bestehen darin, dass zum einen das [p] stimmlos<br />
und das [b] stimmhaft ausgesprochen werden, d.h. dass die Anregung an den Stimmbändern<br />
unterschiedlich ist. Zum anderen muss beim [p] zunächst mehr Druck als beim weicheren [b] aufgebaut<br />
werden. Da diese beiden Unterschiede unabhängig von der Vokaltraktgeometrie sind, kann<br />
ein <strong>Bauch</strong>redner den Ersatzlaut [b’] für das [b] ohne weiteres durch eine stimmhafte Anregung<br />
auch zum Ersetzen von [p] verwenden. Im Folgenden wird deshalb nur noch auf den Ersatzlaut<br />
für das [b] eingegangen. 5<br />
[b] normal<br />
Das normale [b] ist ein Plosivlaut <strong>mit</strong> bilabialer Verschließung, d.h. die Luft wird durch anfängliches<br />
Schließen der Lippen angestaut und anschließend durch ruckartiges Öffnen entlassen. Da es sich<br />
also um einen instationären Laut handelt, muss in tractsyn ein sogenannter phone chain“ <strong>mit</strong> <strong>dem</strong><br />
”<br />
geschlossenen Mund zu Beginn ([b]) und <strong>dem</strong> darauf folgenden ruckartigen Öffnen zu z.B. einem<br />
[a] erzeugt werden. Mit Hilfe der groben Vorgabe des Rohrmodells und der Lage der For<strong>man</strong>ten<br />
für die Laute [b] und [a] aus [10] bzw. [13] wurden das [b] und das [a] in tractsyn so eingestellt,<br />
dass ein [ba] Laut entstand.<br />
Für den Anfangszustand [b] des Vokaltrakts <strong>mit</strong> geschlossenen Lippen (siehe Abb. 8(a), ergeben<br />
sich die in Abb. 8(c) abgebildeten For<strong>man</strong>ten. Die besonders wichtigen ersten beiden For<strong>man</strong>ten<br />
liegen etwa bei F [b]<br />
[b]<br />
1 = 450 Hz und F 2 = 1050 Hz, wobei im Optimalfall laut [10] der erste For<strong>man</strong>t<br />
geringfügig über <strong>dem</strong> zweiten For<strong>man</strong>ten liegen sollte.<br />
Der von tractsyn ausgegebene Laut wurde aufgenommen und in Matlab an Hand eines Spektrogramms<br />
analysiert, d.h. das Signal wurde für jeden Zeitschritt einer Fourier-Transformation<br />
unterzogen, so dass <strong>man</strong> das Frequenzspektrum zu je<strong>dem</strong> Zeitpunkt erhält. In Abb. 10(a) ist das<br />
Spektrogramm für das aufgenommene [ba] abgebildet, wobei die Zeitachse nach rechts und die<br />
Frequenzachse nach oben verläuft; die Farbe gibt die Amplitude der jeweils vorkommenden Frequenzen<br />
an. In den ersten 0.05 Zeiteinheiten liegen die ersten For<strong>man</strong>ten (dunkle Färbung) etwa<br />
bei 0.5 kHz, 1.0 kHz, 2.25 kHz und 4.0 kHz. Bei etwa 0.05 Zeiteinheiten springen“ die ersten drei<br />
”<br />
5 Auch die Analysen der Spektrogramme in Abschnitt 6 zeigen, dass die Ersatzlaute von [ba] und [pa] sehr genau<br />
<strong>mit</strong>einander übereinstimmen, also nahezu identisch sind.
4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 9<br />
For<strong>man</strong>ten zu einer etwas höheren Frequenz. Dieses Ergebnis stimmt <strong>mit</strong> den von [10] in Abb.<br />
10(d) angegebenen For<strong>man</strong>tsprüngen überein.<br />
[b’] substituiert<br />
Das Schließen der Lippen versucht ein <strong>Bauch</strong>redner durch einen Ersatzlaut [b’] zu umgehen. Um<br />
die explosive Charakteristik zu ersetzen, wird die Zungenspitze zunächst ähnlich wie beim [d]<br />
an die vorderen Zähne gepresst (vgl. Abb. 11), bis die Zunge <strong>mit</strong> einer plötzlichen Bewegung<br />
zurückschnellt [15]. Der ansonsten <strong>dem</strong> [b] ähnelnde Sprachtrakt wird so<strong>mit</strong> um den Abstand von<br />
der Lippe bis zu den Zähnen verkürzt, siehe Abb. 9(a). Dies führt wie in Abb. 9(c) zu sehen ist zu<br />
einer sehr guten Annäherung der ersten beiden For<strong>man</strong>ten, die wieder bei ca. F [b′ ]<br />
1 = 500 Hz und<br />
F [b′ ]<br />
2<br />
= 1100 Hz liegen, wobei die zweite deutlich unterhalb der ersten For<strong>man</strong>te anzutreffen ist.<br />
Das Spektrogramm für [b’a] ist in Abb. 10(b) gezeigt. Die ersten beiden For<strong>man</strong>ten liegen etwa<br />
in den ersten 0.06 Zeiteinheiten bei den im Spektrum ebenfalls errechneten 500 Hz bzw. 1000 Hz.<br />
Bei ca. 0.06 Zeiteinheiten verschieben sich die For<strong>man</strong>ten zu etwas höheren Frequenzen und bilden<br />
ebenfalls die in Abb. 10(d) gezeigte typische For<strong>man</strong>tenverschiebung. Im Gegensatz zu [ba] weicht<br />
der dritte For<strong>man</strong>t von [b’a] jedoch von <strong>dem</strong> Muster in Abb. 10(d), nach <strong>dem</strong> eigentlich ein Knick<br />
nach oben statt nach unten erfolgen müsste. Da perzeptiv kaum ein Unterschied zwischen [ba] und<br />
[b’a] auszumachen ist, lässt sich bestätigen, dass für die Lauterkennung <strong>mit</strong> <strong>dem</strong> menschlichen<br />
Gehör lediglich der untere Spektralbereich wesentlich ist.<br />
Vergleich von [b’a] <strong>mit</strong> [ba]<br />
Die beiden For<strong>man</strong>tenbilder Abb. 9(c) und Abb. 8(c) für die Ausgangsstellungen von [b] und [b’]<br />
weisen große Ähnlichkeiten <strong>mit</strong>einander auf. Die ersten beiden For<strong>man</strong>ten haben nahezu die gleiche<br />
Ausprägung und Position, denn F [b′ ] [b]<br />
1 − F 1 = 50 Hz und F [b′ ]<br />
2 − 2[b] 1 = 50 Hz. Auch über den<br />
Zeitverlauf betrachtet sind die ersten beiden For<strong>man</strong>ten von [b’a] und [ba] zueinander nahezu identisch,<br />
da sie in den Spektrogrammen beide etwa an der selben Stelle eine gleich stark ausgeprägte<br />
Sprungstelle nach oben aufweisen und so<strong>mit</strong> beide die Eigenschaften eines [ba] Lautes aufweisen.<br />
Der Ersatzlaut [b’a] bzw. [b’] unterscheidet sich also lediglich im dritten For<strong>man</strong>ten wesentlich vom<br />
nachzubildenden [ba] bzw. [b]. Da für die Lauterkennung jedoch nahezu ausschließlich die ersten<br />
beiden For<strong>man</strong>ten entscheidend sind und dritte und spätere For<strong>man</strong>ten kaum eine Rolle spielen<br />
(vgl. Abschnitt 2.4), werden [b’a] und [ba] als nahezu identische, vom menschlichen Gehör nicht<br />
mehr unterscheidbare Laute wahrgenommen. D.h. es konnte an Hand des Modells tatsächlich der<br />
von <strong>Bauch</strong>rednern verwendete Ersatzlaut für das [b] nachgebildet und als authentisch nachgewiesen<br />
werden.<br />
Vergleich von [b’a] <strong>mit</strong> [da]<br />
Abb. 11 für die Stellungen von [b’] und [d] laut [15], sowie die Vokaltraktstellung für [b’] in Abb.<br />
9(a) könnten den Verdacht entstehen lassen, dass [b’] schlichtweg einem normalen [d] entspräche.<br />
Um dies zu widerlegen wurde <strong>mit</strong> tractsyn und Matlab ein [da] <strong>mit</strong> zugehörigem Spektrogramm<br />
erzeugt, vgl. Abb. 10(c). Die For<strong>man</strong>ten stimmen in etwa <strong>mit</strong> den von [10] in Abb. 10(e) er<strong>mit</strong>telten<br />
For<strong>man</strong>ten für ein [da] überein. Während sich [da] und [b’a] beim ersten For<strong>man</strong>ten noch ähneln,<br />
vollzieht [da] nach ca. 0.05 Zeiteinheiten beim zweiten und dritten For<strong>man</strong>t einen deutlichen Knick<br />
nach unten, während beim [b’a] der zweite For<strong>man</strong>t einen Knick nach oben (wie [ba]) und der dritte<br />
einen Knick nach unten besitzt. Da <strong>dem</strong> zweiten For<strong>man</strong>t eine sehr viel größere Bedeutung für die<br />
Lautcharakteristik zukommt, ähnelt [b’a] einem [ba] also sicherlich wesentlich mehr als einem [da].<br />
4.2 Der Nasal [m]<br />
Beim [m] handelt es sich um einen Nasal <strong>mit</strong> bilabialem Verschluss, d.h. die Lippen müssen geschlossen<br />
sein und der Ton entweicht im Gegensatz zu den Plosivlauten durch den Nasaltrakt, in<br />
den die Luft durch das geöffnete Velum gelangt. Das Schließen der Lippen versucht ein <strong>Bauch</strong>redner<br />
durch einen Ersatzlaut zu umgehen. Für diese Ersatzlaute sind für das [m] in [15] zwei
4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 10<br />
Varianten angegeben. In der ersten Variante, im Folgenden [m’] genannt, wird die Lippenschließung<br />
dadurch ersetzt, dass die Zunge zunächst kurzzeitig möglichst nahe an die vorderen Zähne<br />
gepresst wird, so dass die Schallwellen ausschließlich durch den Nasaltrakt entweichen können.<br />
Anschließend wird die Zunge wieder von den Zähnen gelöst. (Vgl. Abb. 11(c))<br />
Die zweite Variante [m”] besteht darin, den hinteren Teil der Zunge gegen das Velum zu drücken<br />
und so<strong>mit</strong> die Schallwellen ausschließlich in den Nasaltrakt zu zwingen (vgl. Abb. 11(d)).<br />
Der Mundbereich wird bei Nasallauten als Resonanzkörper benutzt. Nun unterscheiden sich<br />
[m] und [n] in der Größe (insbesondere Länge) dieses Resonanzkörpers. Schallwellen, die von der<br />
Glottis kommen, gelangen zu einem Teil direkt in den Nasaltrakt und zu einem anderen Teil in den<br />
Resonanzraum, wo sie reflektiert und zurückgestrahlt werden. Treffen sie auf das Velum, wo sich<br />
Nasal- und Mundraum trennen, so kommt es zu einer Überlagerung (vgl. Modell in Abb. B). Dies<br />
erkennt <strong>man</strong> daran, dass es im Spektrum sogenannte Nullstellen, auch Antiresonanzen genannt<br />
gibt, d.h. dass bestimmte Frequenzen in <strong>dem</strong> Signal kaum auftreten. Bei den Wellenlängen, die den<br />
Frequenzen dieser Nullstellen entsprechen, kommt es also zu einer destruktiven Interferenz. Dies<br />
bedeutet, dass die zurückgestrahlte Welle gegenphasig schwingt. Auf der anderen Seite kommt es<br />
auch zu konstruktiver Interferenz, wenn sich die Wellen positiv überlagern. Es gilt hierbei für die<br />
Wellenlänge λ:<br />
λ = c<br />
. (4.1)<br />
f<br />
Man muss also zwei Faktoren beachten, die das Spektrum von Nasallauten bestimmen. Auf<br />
der einen Seite die Geometrie des Vokaltrakts von der Glottis bis zum Velum und <strong>dem</strong> Nasaltrakt<br />
und auf der anderen Seite die Länge des Resonanzkörpers. Die genaue Geometrie des als<br />
Resonanzkörper fungierenden Mundraums ist dabei vernachlässigbar, da die für die Lautbildung<br />
wesentliche Reflexion erst am Verschluss des Mundraums entsteht und so<strong>mit</strong> nur der Länge des<br />
Mundraums eine entscheidende Bedeutung zukommt. Auch durch die Nasennebenhöhlen entstehen<br />
Antifor<strong>man</strong>ten, 6 die aufgrund ihrer geringeren Länge jedoch nur die höheren Frequenzen betreffen<br />
und bei allen Lauten gleich auftreten. Es wird deshalb nun lediglich die Länge des Mundraums als<br />
Resonanzkörper betrachtet.<br />
Die Länge des Resonanzkörpers ergibt sich aus der Differenz der gesamten Vokaltraktlänge und<br />
<strong>dem</strong> Abstand zwischen Glottis und Velum, der laut denen für die Simulation verwendeten Daten<br />
von [3] ungefähr 8 cm beträgt. Aus den Daten für die gesamte Länge des Vokaltrakts, die aus der<br />
Simulation hervorgehen (vgl. Abb. 13(c) und 14(c)), lässt sich nun berechnen:<br />
lm = 15, 53 cm − 8 cm = 7, 53 cm<br />
l ′ m = 14, 89 cm − 8 cm = 6, 89 cm<br />
Bei m ′′ ist die Angabe von l ′′ m irrelevant, da der Abschluss bereits direkt am Velum erfolgt. Die<br />
Ähnlichkeit <strong>mit</strong> <strong>dem</strong> zu ersetzenden Laut [m] kann hier nur rein perzeptiv über die Sprachausgabe<br />
bestätigt werden. Da die Welle in den beiden anderen Fällen zurückreflektiert wird, hat sie die<br />
doppelte Weglänge zurückzulegen, wo durch sich als Voraussetzung für eine Nullstelle folgendes<br />
ergibt:<br />
Durch (4.1) ergibt sich daraus<br />
1 + 2n<br />
· λ<br />
2<br />
= l, n ∈ N (4.2)<br />
1 + 2n<br />
· λ<br />
2<br />
= 2 · lm, n ∈ N (4.3)<br />
1 + 2n<br />
2<br />
· c<br />
f = 2 · lm, n ∈ N<br />
f =<br />
(1 + 2n) · c<br />
, n ∈ N (4.4)<br />
4 · lm<br />
Es lässt sich nun die ungefähre Frequenzlage der Antiresonanzen von [m] und [m’] berechnen:<br />
f [m] = {1160, 3480, 5800, . . . } Hz, f [m ′ ] = {1270, 3700, 6240, . . . } Hz.<br />
6 Dies erkennt <strong>man</strong> daran, dass <strong>man</strong> beim phonetisch korrekten Aussprechen von Nasallauten ein Vibrieren fest-<br />
stellen kann, wenn <strong>man</strong> eine Hand auf den Kopf legt.
4 MODELLGESTÜTZTE SIMULATION DER ERSATZLAUTE 11<br />
Das Spektrum des Artikulatormodells für [m] in Abb. 14(c) zeigt, dass die ersten beiden Antiresonanzen<br />
für [m] bei etwa 1000 Hz und 3500 Hz liegen, d.h. für die erste Antiresonanz liegt die<br />
berechnete Frequenz leicht über der Frequenz des Modells, die zweite Antiresonanz stimmt in der<br />
Rechnung und im Modell nahezu exakt überein.<br />
Die ersten beiden Antiresonanzen für [m’] (Abb. 13(c)) liegen bei etwa 1250 Hz und 2600 Hz,<br />
d.h. die erste Antiresonanz ist nahezu identisch <strong>mit</strong> der Rechnung, die zweite ist jedoch stark<br />
verschoben. Dieser Fehler bei der Lage der zweiten Antiresonanz lässt sich möglicherweise darauf<br />
zurückführen, dass Antiresonanzen aufgrund der Überlagerungen <strong>mit</strong> den Antiresonanzen aus <strong>dem</strong><br />
Nasaltrakt und den For<strong>man</strong>ten schwer zu erkennen sind und so<strong>mit</strong> durchaus verschoben auftreten<br />
können. Ein anderer Grund für die verschobene Lage der zweiten Antiresonanz könnte in der<br />
Ungenauigkeit der Länge des Vokaltrakts für [m’] liegen. Die Lage der ersten Antiresonanz hingegen<br />
stimmt in <strong>dem</strong> Modell sehr gut <strong>mit</strong> der Rechnung überein. Untersuchungen an Testsprechern in<br />
beispielsweise [5] zeigen für die erste Antiresonanz, dass diese für [m] je nach Testsprecher zwischen<br />
750 Hz und 1250 Hz liegen sollte, für [n] dagegen zwischen 1500 Hz und 2200 Hz. Da die erste<br />
Antiresonanz von [m’] bei ca. 1250 Hz liegt, folgt also, dass der Substitutionslaut [m’] deutlich<br />
ähnlicher einem [m] als einem [n] ist. D.h. bei [m’] handelt es sich um einen neu gefundenen Laut,<br />
der zwar eine Ähnlichkeit zur Vokaltraktstellung des [n] aufweist, dessen Lautcharakteristik jedoch<br />
sehr viel mehr einem [m] als einem [n] nahe kommt. Ein Hörtest von [m’] bestätigt dies ebenfalls<br />
sehr deutlich.<br />
Die Verifizierung der Ähnlichkeit von [m”] <strong>mit</strong> [m] erfolgt in erster Linie durch die sehr ähnliche<br />
Wahrnehmung zu einem [m] <strong>mit</strong> <strong>dem</strong> menschlichen Gehör. Dies könnte daran liegen, dass durch<br />
den sehr frühen Verschluss der Laut sehr ” nasal“ klingt und durch den Menschen deshalb als [m]<br />
wahrgenommen wird. <strong>Eine</strong> genauere Analyse von [m”] gestaltet sich recht schwer, da analytische<br />
Berechnungen wegen <strong>man</strong>gelnder Kenntnis der Vokaltraktlänge kaum möglich sind. Dennoch kann<br />
<strong>man</strong> am Spektrum in Abb. 15(c) immerhin erkennen, dass die erste Antiresonanz wie bei [m’] ca.<br />
bei 1250 Hz liegt, d.h. der Bereich für die erste Antiresonanz des [m] nach [5] wird eingehalten und<br />
[m”] ähnelt wie [m’] bereits eher einem [m] als einem [n].<br />
4.3 Die Frikative [f] und [w]<br />
Nach [b], [p] und [m] betrachten wir nun die problematischen Frikative (Reibelaute) [f] und [w],<br />
deren Verengung ähnlich <strong>dem</strong> [b] weiter ins Mundinnere verlagert werden muss. Um prinzipiell<br />
<strong>mit</strong> einem artikulatorischen Synthesemodell Firkative erzeugen zu können, ist es notwendig eine<br />
Rauschanregung <strong>mit</strong>zusimulieren, die durch Turbulenzen verursacht wird. In der neuesten Version<br />
von tractsyn ist dies von Peter Birkholz implementiert und zeigt für z.B. [s] bereits sehr gute<br />
Resultate, die wir auf [f] und den Substitutionslaut [f’] ausweiten konnten. Analog zu [b] und [p]<br />
unterscheidet sich [w] von [f] dadurch, dass es im Gegensatz zu [f] stimmhaft ausgesprochen wird,<br />
d.h. die folgenden Analysen für [f] und [f’] lassen sich auf [w] und [w’] übertragen.<br />
[f] normal<br />
Da es sich bei [f] um einen Frikativ <strong>mit</strong> dentaler Verengung handelt, wird in tractsyn der Übergang<br />
[fa] betrachtet. Passt <strong>man</strong> die Resonanzen für [f] an Literaturwerte [13] und die aus <strong>dem</strong> Sprachgebrauch<br />
gewohnte perzeptive Wahrnehmung von [f] an, so erhält <strong>man</strong> das in Abb. 16(c) gezeigte<br />
Spektrum durch die Vokaltraktgeometrie in Abb. 16(a). Wie <strong>man</strong> erkennen kann befinden sich die<br />
ersten drei Resonanzen bei etwa 400, 1550 und 2650 Hz.<br />
Im Übergang zum [a] erhält <strong>man</strong> das in Abb. 18(a) gezeigte Spektrogramm für [fa]. Im linken<br />
Teil des Diagramms befindet der Frikativ [f], etwa in der Mitte der x-Achse erfolgt der Übergang<br />
zum [a].<br />
[f’] substituiert<br />
Der Substitutionslaut [f’] ähnelt <strong>dem</strong> englischen [th] wie z.B. in ” the“, wobei die Zunge jedoch<br />
etwas weiter im Mundesinneren aufliegt. Das Zischen wird durch Luftturbulenzen erzeugt, bei<br />
[f] im Spalt zwischen Schneidezähnen und Unterlippe, bei [f’] in einem kleinen Spalt zwischen<br />
Zunge und Mundhöhle. Die Vokaltraktgeometrie für [f’] in Abb. 17(a) wurde entsprechend der
6 ANALYSE VON BAUCHREDNER-AUFNAHMEN 12<br />
Resonanzen von [f] angepasst, so dass sich das in Abb. 17(c) gezeigte Spektrum für [f’] ergibt.<br />
Die ersten drei Resonanzen liegen bei ca. 400, 1550 und 3550 Hz. Die Abweichung von [f’] zu [f]<br />
ist <strong>dem</strong>nach bei den wichtigen ersten beiden Resonanzen nahezu 0, bei der dritten Resonanz wie<br />
schon bei den oben betrachteten Lauten <strong>mit</strong> 900 Hz sehr groß.<br />
Das Spektrogramm von [f’a] in Abb. 18(b) weist offensichtlich eine sehr hohe Ähnlichkeit <strong>mit</strong><br />
<strong>dem</strong> Spektrogramm von [fa] auf, da die Spektrogramme weder in der linken Hälfte für [f] bzw. [f’],<br />
noch beim Übergang zum [a] einen erkennbaren Unterschied zeigen. Da der Übergang zu einem<br />
Vokal bei Frikativen von besonderer Bedeutung für die Lautwahrnehmung ist, bestätigt dies die<br />
große perzeptive Ähnlichkeit von [f’a] <strong>mit</strong> [fa].<br />
5 Lautsimulation im realen Experiment <strong>mit</strong> Hilfe eines Gipsmodells<br />
Zu einer Überprüfung des in den vorhergehenden Abschnitten verwendeten Röhrenmodelle wurde<br />
ein reales Modell gebaut, welches das Röhrenmodell für Vokaltraktgeometrien bestimmter Laute<br />
nachbildet. Das Positiv des Modells wurde hierbei aus handelsüblicher Knete geformt, wobei die<br />
Geometrie den aus MRT-Aufnahmen gewonnenen Querschnittsflächen des Vokaltrakts für ein [m]<br />
(vgl. [3]) entspricht. Das Modell an sich (Negativ) wurde aus mehreren Lagen Gips gegossen. Der<br />
Vokaltrakt lässt sich durch das Einsetzen von Barrieren und einer Verkleinerung des Mundresonanzraumes<br />
verändern und neben [m] an die Vokaltraktgeometrien von [m’], [m”] und [n] anpassen.<br />
Das schwierigste Problem bei der Auswertung des Modells stellte die Anregung dar. Normalerweise<br />
sollte ein Luftballon eine recht gute Approximation der Stimmlippen sein, doch ist hier das<br />
Problem, dass das direkte ” Primärgeräusch“ des Luftballons das auskommende Signal überdeckt<br />
und eine qualitative Auswertung unmöglich macht.<br />
?? HIER NEUER TEXT, residualsignal <strong>mit</strong> vielen peaks, zwei nullstellen, bilder von poster,<br />
maxima einkringeln<br />
Das könnte durch eine schallfeste Abdichtung des Luftballons behoben werden oder durch eine<br />
andere Anregung. <strong>Eine</strong> Alternative wäre ein professioneller Speechsynthesizer, den auch Sprachbehinderte<br />
benutzen, die an Kehlkopfkrebs oder ähnlichen Krankheiten leiden.<br />
6 Analyse von <strong>Bauch</strong>redner-Aufnahmen<br />
Die Analyse real gesprochener Ersatzlaute von <strong>Bauch</strong>rednern ermöglicht den Vergleich der modellerzeugten<br />
Ersatzlaute <strong>mit</strong> real gesprochenen Lauten. Wir haben versucht Aufnahmen aus <strong>dem</strong><br />
Internet zu analysieren, die aber leider qualitativ nicht gut genug für eine Auswertung waren. <strong>Eine</strong><br />
weitere Schwierigkeit bestand darin, dass viele <strong>Bauch</strong>redner ihre <strong>Bauch</strong>rednerstimme verstellen<br />
um einen Dialog <strong>mit</strong> ihrer Puppe führen zu können. Oft wird dabei in eine höhere Stimmlage<br />
als gewöhnlich gewechselt, weil dort das menschliche Hörempfinden nicht mehr so deutlich ist.<br />
Desweiteren findet bei natürlicher Sprache der interessante Übergang von Plosivlaut (z.B. [b])<br />
zu Vokal (z.B. [a]) sehr schnell statt, während die verwendeten Analysemethoden eigentlich von<br />
stationären Lauten ausgehen. Diese Punkte machen das Erkennen von For<strong>man</strong>tabbiegungen im<br />
Spektrum einer Originalaufnahme wesentlich schwieriger, als bei den Modellaufnahmen.<br />
Die einzige Möglichkeit bestand deshalb darin, eigene Aufnahmen der reinen und der Ersatzlaute<br />
eines möglichst guten <strong>Bauch</strong>redners anzufertigen. Der <strong>Bauch</strong>redner Patrick Martin, der seit<br />
etwa zehn Jahren hauptberuflich als professioneller <strong>Bauch</strong>redner auftritt, hat uns gestattet eine<br />
Reihe an Testlauten und -sätzen <strong>mit</strong> einem hochwertigen Kondensatormikrophon aufzunehmen.<br />
Mit den Aufnahmen war es möglich für einzelne Lautübergänge ein Spektrogramm zu erstellen.<br />
Nach rechts ist die Frequenz angetragen, nach oben die Amplitude in dB. Die verschiedenen Kurven<br />
stellen das Spektrum zu aufeinander folgenden Zeitpunkten dar. Die x-Achse <strong>mit</strong> den Frequenzen<br />
wurde von <strong>dem</strong> verwendeten Programm Matlab auf 300 normiert, was automatisch die höchste<br />
aufgenommene Frequenz angibt. Diese leitet sich aus der Abtastrate bei der Aufnahme ab und<br />
beträgt bei unseren Aufnahmen 11025 Hz. 7 Per Hand wurden dann die ungefähren Verläufe der<br />
7 Nach <strong>dem</strong> Aabtasttheorem beträgt die aufgenommene Frequenzbreite die halbe Abtastrate, die von der verwendeten<br />
Aufnahmesoftware audacity auf 22050 Hz vorgegeben wurde; 300 entspricht also 11025 Hz.
7 SCHLUSSBEMERKUNG UND AUSBLICK 13<br />
For<strong>man</strong>ten eingetragen, wobei die erste erkennbare Resonanz kein For<strong>man</strong>t des Sprechtrakts ist,<br />
sondern von der Anregung stammt.<br />
6.1 Die Lautübergänge [ba] <strong>mit</strong> Lippen und [b’a] ohne Lippen<br />
Man erkennt den Anstieg der ersten beiden für die Lauterkennung wichtigen For<strong>man</strong>ten sowohl bei<br />
[ba], als auch bei [b’a]. D.h. die Lautwahrnehmung von [b’a] entspricht der von [ba], was sich neben<br />
<strong>dem</strong> Spektrum auch durch die Sprachwiedergabe eindeutig bestätigt. Der <strong>Bauch</strong>redner schafft es<br />
jedoch nicht nur die ersten beiden For<strong>man</strong>ten zu optimieren, auch die restlichen For<strong>man</strong>tverläufe<br />
sind sich bis ungefähr 3000 Hz sehr ähnlich. Dass es sich hierbei aber keineswegs um die gleiche<br />
Vokaltraktgeometrie handelt, wird besonders bei der Betrachtung der höheren For<strong>man</strong>ten deutlich.<br />
Beim Lippenlaut kommt der dritte For<strong>man</strong>t etwas weiter von oben. Weitaus deutlicher werden die<br />
Unterschiede beim fünften For<strong>man</strong>ten, der beim Ersatzlaut deutlich weiter von oben kommt und<br />
sich sogar in zwei unabhängige For<strong>man</strong>ten zu teilen scheint. Die beiden nächsten For<strong>man</strong>ten sind<br />
sich dann wieder recht ähnlich. In den höher liegenden Frequenzen können dann jedoch kaum noch<br />
Parallelen festgestellt werden. (Dies zeigt, dass die Vokaltraktgeometrien beim aufgenommenen<br />
Laut unterschiedlich eingestellt waren, dies sich jedoch kaum im Bereich der Lautcharakteristik<br />
bemerkbar macht.)<br />
6.2 Die Lautübergänge [pa] <strong>mit</strong> Lippen und [p’a] ohne Lippen<br />
Auch hier fällt auf, dass der Verlauf der ersten drei For<strong>man</strong>ten in beiden Spektrogrammen ähnlich<br />
ist. Die For<strong>man</strong>tabbiegung beim vierten For<strong>man</strong>ten ist dann jedoch beim Ersatzlaut wesentlich<br />
größer als beim Lippenlaut. Danach erkennt <strong>man</strong> jedoch Parallelen zwischen <strong>dem</strong> fünften und<br />
siebten For<strong>man</strong>ten, deren Verlauf fast identisch ist. Der dazwischenliegende sechste For<strong>man</strong>t biegt<br />
beim Lippenlaut im Gegensatz zum Ersatzlaut nach oben ab. Der Bereich oberhalb des siebten<br />
For<strong>man</strong>ten weist dann kaum noch Ähnlichkeiten auf. Zwar wird auch bei diesem Laut eindeutig<br />
ein [pa] wahrgenommen, die Beeinträchtigungen in der Lautcharakteristik sollte hier allerdings<br />
zumindest theoretisch etwas ausgeprägter sein, was sich perzeptiv jedoch kaum wahrnehmen lässt.<br />
Da es in unserer Simulation nur gelungen war die ersten beiden For<strong>man</strong>ten, was einem Bereich<br />
bis ca. 2,5 kHz entspricht, zu optimieren, kann auch hier festgestellt werden, dass die Qualität der<br />
<strong>Bauch</strong>redner-Ersatzlaute über die der Simulations-Ersatzlaute hinausgeht.<br />
6.3 Vergleich <strong>mit</strong> modellerzeugten Lautübergängen und Fehleranalyse<br />
Die obigen Analysen der aufgenommenen Sprachsignale bestätigen zusammenfassend den Grundsatz,<br />
dass sich die unteren For<strong>man</strong>ten von Ersatzlauten und normalen Lauten ähneln, aber die<br />
oberen For<strong>man</strong>ten zum Teil große Abweichungen aufweisen. Die Ausprägungen der Abweichungen<br />
und ab welchem For<strong>man</strong>ten es zu einer Abweichung kommt, ist unterschiedlich ausgeprägt bei der<br />
Simulation und den Sprachaufnahmen.<br />
Hier ist zu bedenken, dass die Sprachaufnahmen einerseits auch vom jeweiligen Sprecher<br />
abhängig sind und dass sich andererseits die <strong>Bauch</strong>rednertechniken leicht voneinander unterscheiden<br />
können. Beispielsweise könnten <strong>Bauch</strong>redner kleine Grübchen in den Backen bilden oder bestimmte<br />
Detailstellungen der Zunge trainieren. Ein weiterer Grund für die Abweichung könnte<br />
auch in den bereits angesprochenen Schwierigkeiten durch die sehr schnellen Plosiv-Vokal-Übergange<br />
und das Sprechen <strong>mit</strong> hoher Grundfrequenz. Zu<strong>dem</strong> könnte ein möglicher, jedoch betont<br />
sehr vager Grund für die Abweichung der real aufgenommenen Laute auch darin liegen, dass der<br />
Sprecher Patrick Martin zum Zeitpunkt der Aufnahmen eine leichte Erkältung hatte und so<strong>mit</strong><br />
die Vokaltraktgeometrie von der im Modell verwendeten durchschnittlichen Vokaltraktgeometrie<br />
stärker abwich.<br />
7 Schlussbemerkung und Ausblick<br />
Es wurde bewiesen, dass es generell möglich ist ein perzeptiv gleiches Signal durch eine unterschiedliche<br />
Anordnung an Röhren zu erzeugen, was das <strong>Bauch</strong><strong>reden</strong> zunächst einmal physikalisch<br />
erklärbar und möglich macht. Im Folgenden wurde gezeigt, dass der labiale Laut [b] auch ohne
LITERATUR 14<br />
Benutzung der Lippen im Modell perzeptiv fast identisch nachgebildet werden konnte. Daraus<br />
folgt, dass auch der Laut [p] ersetzt werden kann, da das Aussprechen eines [p] sich vom Aussprechen<br />
eines [b] nur durch die später einsetzende stimmhafte Anregung unterscheidet, welche<br />
wiederum ausschließlich von den Stimmbändern hervorgerufen wird. Auch der Nasallaut [m] kann<br />
vom <strong>Bauch</strong>redner auf zwei Arten substituiert werden, wobei die Vokaltraktstellung einmal in etwa<br />
<strong>dem</strong> [n] ähnelt, jedoch die Zunge an die Zähne geschoben wird. Die andere Möglichkeit besteht<br />
darin, dass der Sprecher das Velum an die Mundoberseite drückt. Dass auch der Nasallaut [m]<br />
vom <strong>Bauch</strong>redner simuliert werden kann, konnte durch eine Abschätzung der Lage der Antifor<strong>man</strong>ten<br />
gezeigt werden. Hierbei muss der <strong>Bauch</strong>redner seine Zunge möglichst nahe an die Zähne<br />
drücken, so dass der Resonanzraum maximal groß wird. Auch die Laute [f] und [w] können vom<br />
<strong>Bauch</strong>redner durch den oben beschriebenen Subsitutionslaut [f’] ersetzt werden.<br />
Durch die anschauliche Darstellung der Substitutionslaute in der Simulationssoftware wäre<br />
es denkbar, dass <strong>man</strong> angehenden <strong>Bauch</strong>rednern, die Bildung der Substitutionslaute beibringt.<br />
Durch die Analysemethode wird es dann ebenfalls möglich die Qualität der Aussprache objektiv<br />
zu bewerten.<br />
Medizinische Untersuchungen 8 zeigen, dass an Dysarthrie leidende Menschen, die bestimmte<br />
Artikulatoren im Vokaltrakt nicht bewegen können, selbstständig zur besseren Verständlichkeit<br />
ihre Aussprache durch artikulatorische Substitutionslaute verbessern, d.h. z.B. bei einer eingeschränkten<br />
Fähigkeit die Lippen zu bewegen werden Ersatzlaute <strong>mit</strong> den übrigen Artikulatoren<br />
wie z.B. der Zunge gebildet. Auch diese Menschen könnten von den Untersuchungen und den Vokaltraktmodellen<br />
für Ersatzlaute profitieren, in<strong>dem</strong> sie bereits in frühen Stadien ihrer Krankheit<br />
wegen des langsamen Krankheitsverlaufs die Substitutionslaute erlernen und so<strong>mit</strong> ihre Problemlaute<br />
ersetzen können.<br />
Danksagung<br />
Wir möchten uns bedanken beim Institut für Angewandte Physik der Goethe-Universität in Frankfurt<br />
am Main für die Bereitstellung der Räumlichkeiten und die technische Unterstützung bei der<br />
Durchführung unserer Versuche, <strong>dem</strong> Institut für Phonetik für die geduldige Beantwortung all unserer<br />
Fragen, <strong>dem</strong> Senckenberg-Museum für die Bereitstellung des Spezial-Gips und der Beratung<br />
für das Gipsmodell, sowie der Informatikbibliothek Frankfurt und der FH-Bibliothek Schweinfurt.<br />
Insbesondere gilt der Dank unserem Betreuer Dr. Karl Schnell und der Arbeitsgruppe Digitale<br />
Systeme, Sprachsynthese und Signalprozessoren von Professor Lacroix.<br />
Literatur<br />
[1] Birkholz, Peter: Entwicklung eines dreidimensionalen Artikulatormodells für die Sprachsynthese.<br />
http://wwwicg.informatik.uni-rostock.de/ piet/speak main.html, 2002.<br />
[2] Bockamp, Elke: <strong>Bauch</strong><strong>reden</strong> - spielend lernen. Edition Aragon, Moers, 1995.<br />
[3] B. Story, I. Titze: Vocal tract area functions from magnetic resonance imaging. 1996.<br />
[4] Gloria J. Borden, Katherine S. Harris: Speech Science Primer. Waverly Press, Baltimore, MD,<br />
1984.<br />
[5] J. R. Deller, J. G. Proakis, J. Hansen: Discrete-Time Processing of Speech Signals. New York<br />
1993.<br />
[6] L. Rabiner, R. Schafer: Digital Processing of Speech Signals. Prentice-Hall, London 1978.<br />
[7] Mildenberger, Otto: Informationstechnik kompakt. Vieweg, 1999.<br />
[8] Oppenheim, A. V.: Signale und Systeme. Prentice-Hall, Cambridge, MA, 1989.<br />
[9] Peters, Thomas: Fourier-Reihen. www.mathe-seiten.de, 2004.<br />
8 Prof. Kröger von der Uni-Klinik Aachen berichtete uns von einem Patienten, der auf Grund <strong>man</strong>gelnder Beweglichkeit<br />
des Vokaltrakt<strong>mit</strong>telteils ” artikulatorisch-phonetische Kompensationslaute“ <strong>mit</strong> den Lippen und den<br />
restlichen noch funktionsfähigen Artikulatoren bildete. Leider konnte er jedoch nicht auf die weiteren Details der<br />
Ersatzlaute eingehen, da eine Untersuchung des Patienten nur beschränkt möglich war. Prinzipiell kann diese Dysarthrie<br />
auch so vorliegen, dass an Stelle des Vokaltrakt<strong>mit</strong>telteils nur der Vokalktraktvorderteil (Lippen) unbeweglich<br />
ist.
LITERATUR 15<br />
[10] Pompino-Marschall, Bernd: Einführung in die Phonetik. Berlin, 1995.<br />
[11] P. Vary, U. Heute, W. Hess: Digitale Sprachsignalverarbeitung. B.G. Teubner, Stuttgart, 1998.<br />
[12] Schnell, Karl: Sprachsynthese <strong>mit</strong> erweiterten Rohrmodellen. Diplomarbeit, Frankfurt am Main,<br />
1996.<br />
[13] Schnell, Karl: Parameterbestimmung für Rohrmodelle aus Sprachsignalen für die Sprachproduktion.<br />
Dissertation, Frankfurt am Main, 2003.<br />
[14] Stevens, Kenneth N.: Acoustic Phonetics. MIT Press, Cambridge, MA, 1998.<br />
[15] Vox, Valentine: I can see your lips moving. Retonios Magic, Casino, Schweiz.<br />
[16] Werner, Martin: Signale und Systeme. Vieweg und Sohn, Braunschweig, 2000.
A PHONETIK 16<br />
A Phonetik<br />
In der Phonetik werden Verengungsstellen des Vokaltrakts an bestimmten Stellen wie in Abb. A bezeichnet<br />
(vgl. z.B. [14]). So<strong>mit</strong> kann eine Einteilung der Konsonanten der deutschen Sprache vorgenommen werden.<br />
(a) (b)<br />
Abb. 1: a) Auswahl an Engstellenbezeichnungen im Vokaltrakt (vgl. [13]). b) Gehörschnecke nach<br />
[4], zu Abschnitt 2.4.<br />
Diese Einteilung wird durch die IPA-Konsonantentafel vorgenommen, vgl. Abb. 2. Vokale können zum<br />
Abb. 2: IPA-Konsonanten-Tafel (Stand 1993).<br />
einen durch ihre Bildung im Vokaltrakt anhand eines Vokalvierecks unterschieden werden. Zum anderen<br />
kann durch Analyse der ersten beiden For<strong>man</strong>ten eine Unterscheidung erfolgen, vgl. Abb. 3
B ABBILDUNGEN 17<br />
(a) (b)<br />
Abb. 3: (a) IPA-Vokal-Viereck (Stand 1993). (b) Lage der ersten beiden For<strong>man</strong>ten F1 und F2<br />
für die deutschen Kurz- (links) und Langvokale (rechts), er<strong>mit</strong>telt durch Sprachanalyse an 16<br />
Testpersonen (vgl. [11]).<br />
B Abbildungen<br />
Abb. 4: Quelle-Filter-Modell nach [10].<br />
(a) Rohr A (b) Rohr B<br />
Abb. 5: Die beiden Röhren A (a) und B (b).
B ABBILDUNGEN 18<br />
dB<br />
30<br />
20<br />
10<br />
0<br />
–10<br />
–20<br />
Rohr A<br />
1 2 3<br />
omega<br />
Abb. 6: Übertragungsfunktionen H1 ′ (ω) für Röhre A (hell) und H2 ′ (ω) für Röhre B (dunkel).<br />
Maple Plot für ∆ω = π<br />
500 , τ = 1.0 und Ai, Bi wie in der Tabelle beschrieben. Die ersten beiden<br />
For<strong>man</strong>ten (lokale Maxima) sind nahezu identisch.<br />
(a) (b)<br />
Abb. 7: Modell von Birkholz: (a) Vernetzung des Vokaltrakts <strong>mit</strong> Gittern für Ober- und Unterseite,<br />
sowie für die Zunge. (b) Röhrenmodell <strong>mit</strong> Nasaltrakt.<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) For<strong>man</strong>ten<br />
Abb. 8: Modellierung des Lautes [b]. Im Vokaltrakt bilden die Lippen einen Verschluss. Die ersten<br />
beiden For<strong>man</strong>ten liegen bei ca. F [b]<br />
[b]<br />
1 = 450 Hz und F 2 = 1050 Hz.
B ABBILDUNGEN 19<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) For<strong>man</strong>ten<br />
Abb. 9: Modellierung des Lautes [b’]. Der Verschluss wird im Vokaltrakt durch die nach oben<br />
gepresste Zunge erzeugt. Die ersten beiden For<strong>man</strong>ten liegen bei ca. F [b′ ]<br />
1 = 500 Hz und F [b′ ]<br />
2 =<br />
1100 Hz.
B ABBILDUNGEN 20<br />
(a) ba Spektrogramm (b) b’a Spektrogramm<br />
(c) da Spektrogramm (d) ba<br />
(e) da<br />
Abb. 10: (a-c) Spektrogramme für die in tractysn modellierten instationären Laute [ba], [b’a]<br />
und [da]. Zeitachse nach rechts, Frequenzachse nach oben verlaufend. (d) und (e) Theoretischer<br />
zeitlicher Verlauf der ersten drei For<strong>man</strong>ten für die Laute [ba], [da] nach [10].
B ABBILDUNGEN 21<br />
(a) b’ (b) d (c) m’ (d) m”<br />
Abb. 11: Vokaltraktstellungen für <strong>Bauch</strong>redner nach [15]: (a) Substitutionslaut [b’] ohne Lippenschließung,<br />
(b) zum Vergleich ein normal gesprochenes [d]. (c) Substitutionslaut [m’], ähnlich<br />
einem [n] <strong>mit</strong> Verschluss durch die Zunge, (d) Substitutionslaut [m”], ähnlich [ng] <strong>mit</strong> uvularem<br />
Verschluss, v.a. Nasaltrakt dient als Resonanzkörper.<br />
Abb. 12: Drei-Wege-Modell für die Lauterzeugung von Nasallauten.<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) Spektrum<br />
Abb. 13: Der Laut [m]. (a) Der Vokaltrakt endet <strong>mit</strong> einem Verschluss der Lippen. Das Velum ist<br />
geöffnet, sodass Schallwellen in den Nasaltrakt gelangen. (b) Röhrenmodell. (c) Durch die Öffnung<br />
des Velums kommt es beim Spektrum zu Nullstellen bzw. Antiresonanzen bei etwa 1000 Hz und<br />
3500 Hz.
B ABBILDUNGEN 22<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) Spektrum<br />
Abb. 14: Der Ersatzlaut [m’]. (a) Der Vokaltrakt ähnelt einem [n], da der Verschluss durch die Zunge<br />
anstelle der Lippen erfolgt. Das Velum ist wie beim [m] geöffnet. Röhrenmodell. Das Spektrum<br />
verfügt über Antiresonanzen bzw. Nullstellen.<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) Spektrum<br />
Abb. 15: Der Laut [m”]. (a) Der Verschluss erfolgt bereits uvular, ähnlich einem [ng]. (b) Rohrmodell.<br />
(c) Das Spektrum weist wiederum Nullstellen auf.
B ABBILDUNGEN 23<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) Spektrum<br />
Abb. 16: Der Laut [f]. (a) Die Verengung erfolgt dental, die Zunge ist bereits im Übergang zum<br />
[a]. (b) Rohrmodell. (c) Spektrum <strong>mit</strong> Resonanzen bei 400, 1550 und 2650 Hz.<br />
(a) Vokaltrakt (b) Rohrmodell<br />
(c) Spektrum<br />
Abb. 17: Der Substitutionslaut [f’]. (a) Der Verengung erfolgt etwas weiter im Mundinneren als<br />
beim [f]. (b) Rohrmodell. (c) Spektrum <strong>mit</strong> Resonanzen bei 400, 1550 und 3550 Hz.
B ABBILDUNGEN 24<br />
(a) fa Spektrogramm (b) f’a Spektrogramm<br />
Abb. 18: Spektrogramme für die in tractysn modellierten instationären Laute [fa], [f’a]. Zeitachse<br />
nach rechts, Frequenzachse nach oben verlaufend.<br />
(c)<br />
pa<br />
<strong>mit</strong><br />
Lippen<br />
(a) ba <strong>mit</strong> Lippen (b) ba ohne Lippen<br />
(d) pa ohne Lippen<br />
Abb. 19: Spektren der vom <strong>Bauch</strong>redner Patrick Martin aufgenommenen Lautübergänge [ba] und<br />
[pa] <strong>mit</strong> und ohne Lippen in Abhängigkeit von der Zeit. Nach rechts ist die Frequenz angetragen,<br />
nach oben die Amplitude in dB. Die verschiedenen Kurven stellen die Einhüllenden der Spektren<br />
zu aufeinander folgenden Zeitpunkten dar.