Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

24 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE schiedlichster Laute fähig, da hier viele Organe zusammenwirken. Mund-, Rachen- und Nasenraum sind die Hauptresonatoren. Sie sind willentlich in ihrer Größe veränderbar. Zu den Nebenresonatoren zählen Luftröhre, die Bronchien, der Kehlkopf und die Nasennebenhöhlen. Die Nebenresonatoren sind praktisch nicht willentlich veränderbar, sie führen deshalb zu sprechertypischen Merkmalen. Die Nebenresonatoren werden beispielsweise bei Atemwegserkrankungen in Mitleidenschaft gezogen, weshalb sich die Stimme in diesem Fall verändert. Die Resonanzeigenschaften des Vokaltrakts haben einen Einfluß auf das Spektrum des Anregungssignals. Aufgrund dieser Tatsache wird der Vokaltrakt auch als Artikulationstrakt bezeichnet. Bestimmte Frequenzbereiche werden durchgelassen, während andere Frequenzbereiche unterdrückt werden. Erstere werden Formantfrequenzen (Formanten) genannt. Sie treten besonders deutlich bei der Bildung von Vokalen auf. 2.2.3 Sprachlaute Ein Laut ist jede hörbare Äußerung eines Lebewesens. Laute entstehen durch die koordinierte Bewegung der Sprechorgane. Nur eine kleine Untermenge der vom Menschen erzeugbaren Laute werden für die Sprachverständigung genutzt. Diese werden als Sprachlaute oder Phoneme bezeichnet. Phoneme sind kürzeste Teile von Lautereignissen, die die Funktion der Bedeutungsunterscheidung erfüllen. Sie sind von der Sprache und vom Kulturkreis abhängig, jedoch setzen sich fast alle Sprachen aus etwa 30 bis 50 unterschiedlichen Phonemen zusammen. Phoneme selbst haben keine Bedeutung, bedeutungstragende Elemente ergeben sich erst durch die Zusammensetzung von Phonemen. Die Lautschrift ist eine Möglichkeit zur Darstellung von Phonemen. Sprachlaute lassen sich in zwei Kategorien unterteilen: Vokale und Konsonanten. Vokale tragen weitgehend zur Bildung der Satzmelodie bei. Sie spielen bei der Betonung von Silben innerhalb eines Wortes, der Dauer von Silben und der Tonhöhenänderung bei Aussprache eines Satzes eine Rolle. Alle anderen Laute sind Konsonanten. Ein weiteres Unterscheidungmerkmal ergibt sich dahingehend, ob die Lauterzeugung stimmhaft oder stimmlos erfolgte. Zudem interessiert man sich für die Artikulationsart und den Artikulationsort. Allen Vokalen ist die stimmhafte Anregung gemeinsam. Da nur stimmhafte Laute eine periodische Grundfrequenz besitzen, ergibt sich aus der Grundfrequenz die Tonhöhe der Sprache. Die Gestalt des Artikulationstrakts bestimmt maßgeblich die Klangfarbe der Vokale. Die Resonanzeigenschaften des Artikulationstrakts führen zur Ausbildung der Formanten. Akustisch ist ein Vokal allein von der Lage und Ausprägung dieser Formanten abhängig und ist damit unabhängig von der Tonhöhe. Konsonanten werden durch die Engstellen, die Artikulationsstellen, im Luftstrom gebildet. Neben dem Artikulationsort ist auch die Artikulationsart für die Bildung von Konsonanten verantwortlich. Hierdurch können Verschlußlaute (Explosivlaute), Reibelaute (Frikativlaute), Nasallaute, Seitenlaute (Laterale) und Schwinglaute (Vibranten) unterschieden werden. Strenggenommen müssen die meisten Konsonanten als Geräusch und nicht als Ton bezeichnet werden, da sie keine periodischen Schwingungen sind. Sie können nicht durch einige Formanten be-
2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 25 Anregungsquelle Vokaltrakt Impulsgenerator Rauschgenerator stimmhaft stimmlos Verstärkungsfaktor Filter Sprachsignal Abbildung 2.5: Blockschaltbild eines einfachen technischen Systems für die Sprachsynthese schrieben werden, wie dies bei Vokalen geschieht. Trotzdem sind bei Konsonaten in höheren Frequenzbereichen bestimmte Frequenzbänder stärker vertreten, die ähnlich wie Formanten wirken. Bei stimmhaften Konsonanten tritt auch die Grundfrequenz auf, allerdings ist sie gegenüber den Frequenzanteilen des Rauschens vergleichsweise schwach ausgeprägt. 2.2.4 Modellvorstellung der Spracherzeugung Die vorangegangenen Abschnitte beschrieben den physiologischen Aufbau des menschlichen Sprechapparates und der Lautbildung. Es wurde deutlich, daß sowohl der Sprechvorgang als auch der Aufbau des Sprechapparats sehr komplex ist. Zur Sprachverarbeitung ist es sinnvoll, die Spracherzeugung durch ein physikalisches Modell zu beschreiben. Hierzu muß ein vereinfachtes Modell gefunden werden, das technisch nachgebildet werden kann. Ein Modell, das Quelle- Filter-Modell, wird kurz vorgestellt. Die Lautanregung geschieht durch den Kehlkopf und die Stimmbänder. Sie erzeugen im Falle eines stimmhaften Lauts ein periodisches Signal und bei stimmlosen Lauten ein rauschähnliches Signal. Dieser Teil kann deshalb als Signalquelle, dargestellt durch einen Impulsgenerator, angesehen werden. Der Vokaltrakt verändert durch seine Widerstands- und Resonanzeigenschaften das Anregungssignal. Auch die Mundabstrahlung hat Einfluß auf das Anregungssignal und trägt zu den Eigenschaften des Sprachsignals bei. Diese Beeinflussung des Anregungssignals kann durch ein variables, akustisches Filter dargestellt werden. Dieses Filter dämpft bestimmte Frequenzen und verstärkt andere durch Resonanz, abhängig vom gesprochenen Laut. Das Quelle-Filter-Modell besteht im wesentlichen aus der Anregungsquelle und dem akustischen Filter. Der Einfluß der Mundabstrahlung wird durch einen Verstärker und durch die Eigenschaften des Filters nachgebildet (vergleiche Abbildung 2.5). Die Anregungsquelle dient der Erzeugung stimmhafter sowie stimmloser Laute. Da stimmlose Laute rauschähnliche Signale sind, werden diese durch einen Rauschgenerator erzeugt. Im Fall stimmhafter Laute wird ein Signalgenerator eingesetzt, der ein periodisches, sägezahnförmiges Signal erzeugt. Ein Spracherzeugungssystem enthält je eine Quelle für stimmhafte und für stimmlose Laute. Es gibt aber Laute, die gleichzeitig stimmhafte wie stimmlose Anregung erfahren. Um diese erzeugen zu
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13: 12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71: Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 74 und 75:
74 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89:
88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91:
90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93:
92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95:
94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97:
96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99:
98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101:
100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?