28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

ALBERT-LUDWIGS-UNIVERSITÄT<br />

FREIBURG<br />

INSTITUT FÜR INFORMATIK<br />

LEHRSTUHL FÜR ALGORITHMEN UND DATENSTRUKTUREN,<br />

MULTIMEDIA, TELETEACHING UND<br />

ELEKTRONISCHES PUBLIZIEREN<br />

DIPLOMARBEIT<br />

Analyse und Indizierung von Audio-Dateien <strong>für</strong> das<br />

Information Retrieval in Multimedia-Dokumenten.<br />

Vorgelegt von: Betreuer:<br />

<strong>Jürgen</strong> <strong>Dick</strong> Prof. Dr. Thomas Ottmann<br />

Matrikelnr.: 8951939 Dipl.-Inform. Wolfgang Hürst<br />

Freiburg, den 4. April 2000


Erklärung<br />

Hiermit erkläre ich, daß die vorliegende Arbeit von mir selbständig und nur unter Verwendung<br />

der aufgeführten Hilfsmittel erstellt wurde. Die Arbeit wurde nicht, auch nicht auszugsweise,<br />

bereits <strong>für</strong> eine andere Prüfung angefertigt.<br />

Freiburg, den 4. April 2000


Vorwort<br />

Ich möchte mich bei Prof. Dr. Thomas Ottmann bedanken, der diese Diplomarbeit und auch<br />

meine Studienarbeit ermöglicht hat. Mein besonderer Dank gilt Dipl.-Inform. Wolfgang Hürst<br />

<strong>für</strong> die umfassende und sehr gute Betreuung dieser Arbeit.<br />

Weiterhin möchte ich mich bei Dipl.-Bibl. (FH) Rolf Hermkes, Cosima Bolanz und Alexander<br />

Wollmann bedanken, die mir bei der Korrektur behilflich waren, sowie all denen, die mich bei<br />

dieser Arbeit und im Laufe meines Studiums unterstützt haben.<br />

Insbesondere möchte ich mich bei meiner Mutter bedanken, die über all die Jahre an mich geglaubt<br />

und mir dieses Studium ermöglicht hat.


Inhaltsverzeichnis<br />

1 Einleitung, Motivation 11<br />

1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

1.1.1 Das Problem: Suche in Audio-Dateien . . . . . . . . . . . . . . . . . . . 12<br />

1.1.2 Arbeiten mit ähnlichem Thema . . . . . . . . . . . . . . . . . . . . . . 13<br />

1.2 Ziel dieser Diplomarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.3 Inhaltlicher Aufbau dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

1.4 Die Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

1.5 Zusammenfasssung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2 Grundlagen der Sprachanalyse 20<br />

2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.2 Erzeugung der menschlichen Sprache . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.2.1 Aufbau des menschlichen Sprachapparates . . . . . . . . . . . . . . . . 22<br />

2.2.2 Lautbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.2.3 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.2.4 Modellvorstellung der Spracherzeugung . . . . . . . . . . . . . . . . . . 25<br />

2.3 Konzepte und Notationen der digitalen Signalverarbeitung . . . . . . . . . . . . 26<br />

2.3.1 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.3.2 Das Abtasttheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.3.3 Klassifikation von Signalen . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.3.4 Zeitdiskrete Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

2.3.5 Fourier-Transformationen und verwandte Konzepte . . . . . . . . . . . . 35<br />

2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

5


6 INHALTSVERZEICHNIS<br />

3 Extraktion von Audio-Features 40<br />

3.1 Windowing / Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

3.1.1 Windowing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

3.1.2 Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.1.3 Extraktion von Audio-Features . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.2 Short-term energy und short-term power . . . . . . . . . . . . . . . . . . . . . . 47<br />

3.3 Short-term zero crossing rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

3.4 Fundamentalfrequenz (Pitch) ¢¡<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation . . . . . . . . . . . . . . . 55<br />

3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference<br />

Function (AMDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums . . . . . . . . . . . . . 65<br />

3.4.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br />

4 Segmentierungsverfahren 70<br />

4.1 Pausenbasierte Segmentierung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . 70<br />

4.1.1 Der Pausen-Detektions-Algorithmus . . . . . . . . . . . . . . . . . . . . 71<br />

4.2 Emphasis-Detection-basierte Segmentierung (EDBS) . . . . . . . . . . . . . . . 77<br />

4.2.1 Der Emphasis-Detection-Algorithmus . . . . . . . . . . . . . . . . . . . 78<br />

4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus . . . . 81<br />

5 Evaluation 85<br />

5.1 Messgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

5.2 Pausenbasierte Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

5.2.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

5.2.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

5.3 Emphasis-Detection-basierte Segmentierung . . . . . . . . . . . . . . . . . . . . 95<br />

5.3.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

5.3.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

6 Zusammenfassung und Ausblick 104<br />

A Beispiel einer Text-Transkription 106


INHALTSVERZEICHNIS 7<br />

B Segmentierung am Beispiel einer Radio-Nachrichtensendung 110<br />

B.1 Radio-Nachrichtensendung 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110<br />

B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung . . . . 110<br />

B.1.2 Auswertungstabelle (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

B.1.3 Auswertungstabelle (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

B.2 Radio-Nachrichtensendung 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />

B.2.1 Auswertung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />

B.2.2 Auswertung (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115


Abbildungsverzeichnis<br />

1.1 Story Segmentation, Topic Detection und Topic Tracking . . . . . . . . . . . . . . . . 14<br />

2.1 Allgemeines System zur technischen Sprachverarbeitung [12] . . . . . . . . . . . . . 20<br />

2.2 Anwendungsgebiete der Sprachverarbeitung . . . . . . . . . . . . . . . . . . . . . 21<br />

2.3 Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12] . . . . . . . 23<br />

2.4 Periodisches Anregungssignal bei stimmhaften Lauten . . . . . . . . . . . . . . . . . 23<br />

2.5 Blockschaltbild eines einfachen technischen Systems <strong>für</strong> die Sprachsynthese . . . . . . 25<br />

2.6 Ein typisches digitales Signalverarbeitungssystem. . . . . . . . . . . . . . . . . . . . 27<br />

2.7 Blockschaltbild-Darstellung eines zeitdiskreten Systems . . . . . . . . . . . . . . . . 30<br />

2.8 Impulsantwort eines LTI-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.9 Impulsantworten eines FIR- und eines IIR-Filters . . . . . . . . . . . . . . . . . . . 34<br />

2.10 Äquivalente Beschreibungen digitaler Filter . . . . . . . . . . . . . . . . . . . . . . 38<br />

3.1 Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit<br />

einem Rechteck-Fenster multipliziert. . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

3.2 Amplitudenspektrum eines Rechteck-Fensters . . . . . . . . . . . . . . . . . . . . . 43<br />

£<br />

¢¡<br />

£<br />

¤¢¡ ¥¡§¦©¨© ¤¢¡<br />

3.3 Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren<br />

dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar.<br />

entspricht der digitalen Frequenz , entspricht der Frequenz . . . . . 45<br />

3.4 Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame-<br />

Länge = 10 ms, Time-Shift = 10 ms) . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

3.5 Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms,<br />

Time-Shift = 10ms ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

3.6 System zur Pitch-Detektion [12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

3.7 Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten<br />

(a) bis (c) sind männlich, (d) ist weiblich. . . . . . . . . . . . . . . . . . . . . . . . 54<br />

8


ABBILDUNGSVERZEICHNIS 9<br />

3.8 "Gefenstertes" Sinus-Signal und dessen AKF . . . . . . . . . . . . . . . . . . . . . 56<br />

3.9 Effiziente Berechnung der AKF mittels FFT . . . . . . . . . . . . . . . . . . . . . . 57<br />

3.10 Blockdiagramm des AUTOC Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 58<br />

3.11 Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde. . . . . 59<br />

3.12 Blockdiagramm des PDAs nach BOERSMA [5] . . . . . . . . . . . . . . . . . . . . . 60<br />

3.13 Blockdiagramm des ModifiedACF-PDAs. . . . . . . . . . . . . . . . . . . . . . . . 61<br />

3.14 Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing,<br />

(b) mit Postprocessing erzeugt wurden. . . . . . . . . . . . . . . . . . . . . . . 64<br />

3.15 Blockdiagramm eines AMDF Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 65<br />

3.16 Ein Ausschnitt eines Sprachsignals und die Cepstra <strong>für</strong> (a) ein stimmhaftes Segment, (b)<br />

ein stimmloses Segment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

3.17 Berechnung der stRC mittels DFT . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br />

3.18 Blockdiagramm eines CEP Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . . 69<br />

4.1 Schematische Darstellung des pausenbasierten Segmentierungsverfahrens . . . . . . . . 72<br />

4.2 Energie-Histogramme <strong>für</strong> verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 73<br />

4.3 ¢¡¤£¦¥ -Histogramme <strong>für</strong> verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 74<br />

4.4 Beispiel <strong>für</strong> den Ablauf der PBS (Teil 1) . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

4.5 Beispiel <strong>für</strong> den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache) . . . . . . . . . . . . . 76<br />

4.6 Pitch-Histogramme <strong>für</strong> Dozenten (a) männlichen, (b) weiblichen Geschlechts . . . . . . 79<br />

4.7 Berechnung der Pitch-Aktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

4.8 Ausgabe des EDBS-Algorithmus <strong>für</strong> einen 15-minütigen Ausschnitt aus einer Sprachdatei. 81<br />

4.9 Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 1) . . . . . . . . . . . . . . . . 82<br />

4.10 Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 2) . . . . . . . . . . . . . . . . 83<br />

5.1 Beispiele <strong>für</strong> die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis-<br />

Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von §©¨ ¡ und im<br />

Diagramm (b) eine Länge von §¨ ¡§¦ . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

5.2 Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen<br />

Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden. . . . . . . . . . 93<br />

5.3 Recall/Presision-Diagramme <strong>für</strong> die Ergebnisse aus Kapitel 5.3.1 . . . . . . . . . . . . 101


Tabellenverzeichnis<br />

3.1 Mathematische Definiton verschiedener Fensterfunktionen . . . . . . . . . . . . . . . 43<br />

5.1 Beispiele <strong>für</strong> Segmentierungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 86<br />

5.2 Auszug aus einer manuellen Segmentierung . . . . . . . . . . . . . . . . . . . . . . 87<br />

5.3 Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben<br />

der Segmentierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

5.4 Klassifikationsvorschrift <strong>für</strong> das EDBS . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

A.1 Auswertungstabelle <strong>für</strong> die Datei ga300_15m,.aif . . . . . . . . . . . . . . . . . . . 109<br />

B.1 Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die<br />

Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden<br />

Pause, SW=Schwellwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

B.2 Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die<br />

Abkürzung SZ steht <strong>für</strong> Startzeitpunkt. . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

B.3 Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . . 115<br />

B.4 Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . 115<br />

10


Kapitel 1<br />

Einleitung, Motivation<br />

Per Definition stellen Multimedia-Dokumente eine Kombination von zeitunabhängigen- und<br />

zeitabhängigen Medien dar, wobei zu einem echten Multimedia-Dokument immer mindestens<br />

ein zeitunabhängiges- und ein zeitabhängiges Medium gehört [34]. Zu den zeitunabhängigen<br />

Medien zählen beispielsweise Text, Zeichnungen (Vektorgrafik) und Pixel-Bilder. Zeitabhängige<br />

Medien sind zum Beispiel Audio- und Videoströme und Animationen. Als Datenbasis <strong>für</strong><br />

diese Arbeit wird nur ein zeitabhängiges Medium betrachtet: der Audiostrom eines Multimedia-<br />

Dokuments. Es wird angenommen, daß die Audio-Daten nicht in Echtzeit zu verarbeiten sind,<br />

der Audiostrom liegt als Audio-Datei vor. Das Speicherformat spielt hierbei prinzipiell keine<br />

Rolle, auch wenn auf die einzelnen Daten innerhalb der Datei beliebiger Zugriff möglich sein<br />

muß.<br />

Um gewisse Informationen aus einem Satz von Daten zu extrahieren, muß zunächst eine<br />

Analyse der Daten erfolgen. Im Fall von Audiosignalen werden diverse Eigenschaften des<br />

Signals bestimmt, von denen man annimmt, daß sie <strong>für</strong> die Problemlösung relevant sein<br />

könnten. Solche Eigenschaften eines Audiosignals können beispielsweise der zeitliche Verlauf<br />

der Energie, der Nulldurchgangsrate, des Frequenzspektrums oder im speziellen Fall von Sprachsignalen<br />

der Fundamentalfrequenz sein. Die einzelnen, berechneten Audio-Features<br />

werden verwendet, um Informationen auf einer höheren Ebene zu gewinnen. Die ermittelten<br />

Indizien 1 sind beispielsweise Sprechpausen und Betonungen eines Sprechers. Sie können zur<br />

Indizierung der Audio-Datei genutzt werden.<br />

Ziel der Analyse und Indizierung von Audioströmen, insbesondere von Audio-Dateien aus AOF-<br />

Dokumenten (siehe Kapitel 1.4), ist die Informationssuche (Information Retrieval) in diesen<br />

Audio-Dateien. Im allgemeinen verbindet man Informationssuche mit der Suche nach Wörtern<br />

oder Sätzen in einem Text. Dies kann beispielsweise die Suche nach bestimmten Begriffen in<br />

einer Literaturdatenbank sein oder die Suche im World-Wide-Web mit Hilfe von Suchmaschinen,<br />

die die indizierten HTML-Dokumente nach den gewünschten Begriffen absuchen. Für dieses<br />

1 Indizien [lat. zu index „Anzeiger”], Tatsachen, aus denen das Vorliegen eines bestimmten Sachverhalts geschlossen<br />

werden kann, ... . (Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.)<br />

11


12 KAPITEL 1. EINLEITUNG, MOTIVATION<br />

Anwendungsgebiet gibt es mächtige <strong>Algorithmen</strong>, die aber <strong>für</strong> die Suche in Audio-Dateien und<br />

Multimedia-Dokumenten im allgemeinen nicht anwendbar sind. Des weiteren könnte versuchen<br />

werden, die untersuchte Audio-Datei anhand der oben genannten Indizien zu segmentieren, so<br />

daß beispielweise ein schnelles Navigieren innerhalb des Dokuments erleichtert wird.<br />

Diese einleitenden Worte verdeutlichen, aus welchen Begriffen sich der Titel dieser Arbeit zusammensetzt<br />

und in welchem Kontext sie zu sehen sind.<br />

1.1 Einleitung<br />

1.1.1 Das Problem: Suche in Audio-Dateien<br />

Das Problem der Suche in Audio-Dateien ist jedem bekannt, der einen Anrufbeantworter sein<br />

Eigen nennt. Wurde er eine längere Zeit nicht abgehört, so finden sich (möglicherweise) eine<br />

Vielzahl von Nachrichten auf dem Band. Viele davon sind unwichtig. Trotzdem müssen alle<br />

Nachrichten angehört werden und wenn man Pech hat, ist erst die letzte Nachricht auf dem Band<br />

die einzig wichtige. Angenehm wäre eine Art Suchmaschine, wie sie es <strong>für</strong> Textdokumente im<br />

WWW gibt. Dies ist Ziel verschiedener Forschungsarbeiten, auf die im nächsten Abschnitt kurz<br />

eingegangen wird.<br />

Das klassische Informationssuche-Problem besteht in der Auffindung eines Textdokuments,<br />

indem eine Suchanfrage, bestehend aus einem oder mehreren Schlüsselwörtern, an eine<br />

Menge von Textdokumenten gestellt wird. In der Regel werden die relevanten Dokumente<br />

dadurch gefunden, daß die Schlüsselwörter innerhalb dieser Textdokumente lokalisiert werden.<br />

Ein Dokument, in dem die Schlüsselwörter häufiger vorkommen als in anderen Dokumenten,<br />

wird dann als relevanter angesehen. Die Textdokumente können dem Benutzer daraufhin<br />

bezüglich ihrer Relevanz sortiert präsentiert werden. Die Informationssuche-<strong>Algorithmen</strong> <strong>für</strong><br />

Textdokumente basieren auf Pattern-Matching. Wenn man davon ausgeht, daß es keine Text-<br />

Transkription einer Sprachdatei 2 durch ein Spracherkennungssystem gibt, so läßt sich der Pattern-<br />

Matching-Ansatz nicht so einfach auf diese Art von Dateien übertragen. Dies liegt am Fehlen von<br />

identifizierbaren Wörtern oder vergleichbaren Einheiten in der Sprachdatei. Noch schwieriger<br />

wird das Problem, wenn die Audio-Dateien außer Sprache beispielsweise Musik enthalten.<br />

Bislang wurde die Verarbeitung und die Problematik von Suchanfragen betrachtet. Auch das<br />

Navigieren und das schnelle Browsen in Audio-Dateien ist ungleich problematischer als in<br />

reinen Text-Dateien. Audio-Dateien müssen vollständig durchgehört werden, wenn man sicher<br />

gehen will, daß alle wichtigen Informationen gefunden werden. Dies liegt an der Linearität von<br />

Audioströmen. Allerdings benötigt das Abhören von Audio-Dateien unter Umständen sehr viel<br />

Zeit. Die Text-Transkription einer minutenlangen Nachricht kann hingegen mit dem Auge in<br />

wenigen Sekunden überflogen werden.<br />

2 Der Begriff Sprachdatei steht <strong>für</strong> eine Audio-Datei, die nur Sprache enthält.


1.1. EINLEITUNG 13<br />

1.1.2 Arbeiten mit ähnlichem Thema<br />

Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen<br />

Zielen:<br />

Suche nach bestimmten Wörtern in Audio-Dokumenten.<br />

Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es<br />

im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von<br />

sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition)<br />

werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann<br />

anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt,<br />

Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen<br />

durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen<br />

(HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter<br />

werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den<br />

trainierten HMMs existieren effiziente <strong>Algorithmen</strong>, um die wahrscheinlichste Modell-<br />

Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die<br />

begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis<br />

¡£¢£¤<br />

über<br />

reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei<br />

sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt,<br />

daß Text-Transkriptionen sehr hilfreich <strong>für</strong> die Informationssuche sein können, auch wenn<br />

Erkennungsraten von nur ¥<br />

¢ –¦<br />

¢§¤<br />

erreicht werden [14].<br />

Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht<br />

man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen<br />

Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov-<br />

Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt.<br />

Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise<br />

in Stille, Sprache, Musik und sonstige Geräusche.<br />

Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter<br />

anderem Sprecheridentifikation [19], Szenenklassifikation <strong>für</strong> das Video-Indexing [21][25]<br />

[33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der<br />

Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise<br />

Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften<br />

werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen<br />

werden.<br />

Story Segmentation / Topic Detection / Topic Tracking.<br />

Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens<br />

neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein<br />

Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten.<br />

Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research<br />

Projects Agency), NSF (National Science Foundation) und NIST (National <strong>Institut</strong>e


14 KAPITEL 1. EINLEITUNG, MOTIVATION<br />

¡ ¡ ¢¡¢¡¢<br />

¢¡¢¡¢ ¡ ¡<br />

Story Segmentation<br />

disjunkte, homogene Bereiche (Stories)<br />

Topic Identification<br />

neues Ereignis<br />

Topic Tracking<br />

£¡£¡£ ¤¡¤¡¤<br />

¥¡¥¡¥<br />

¦¡¦<br />

§¡§<br />

¦¡¦<br />

§¡§ ¨¡¨<br />

¨¡¨<br />

¥¡¥¡¥<br />

¤¡¤¡¤ £¡£¡£<br />

mehr Stories zum<br />

vorhergehenden Ereignis<br />

Abbildung 1.1: Story Segmentation, Topic Detection und Topic Tracking<br />

of Standards and Technology) unterstützt. Hierbei gibt es drei verschiedene Aufgaben zu<br />

lösen [10][37] (vergleiche Abbildung 1.1):<br />

Story Segmentation Der Datenstrom muß in einzelne Stories zerlegt werden und kann<br />

sowohl ein Audiosignal als auch ein Textdokument sein. Im Falle eines Audiostroms<br />

kann die Segmentierung direkt auf dem Signal ausgeführt werden, sie kann aber auch<br />

über eine Text-Transkription ermittelt werden.<br />

Topic Identification Die Topic Identification-Aufgabe ist definiert als die Aufgabe der<br />

Erkennung und Weiterverfolgung von Topics, die dem System noch nicht bekannt<br />

sind. Das System hat noch kein Wissen darüber, was das Topic ist. Es muß also ein<br />

Verständnis davon haben, was ein Topic ausmacht und dieses Verständnis muß unabhängig<br />

von spezifischen Topics sein.<br />

Topic Tracking Neue Stories müssen bekannten Topics zugeordnet werden. Ein Topic<br />

ist bekannt durch die Assoziationen mit Stories, die dieses Topic diskutieren. Die<br />

Aufgabe besteht also in der Klassifikation aller neuen Stories, dahingehend ob sie ein<br />

bekanntes Topic diskutieren oder nicht.<br />

Es existieren zudem Systeme, die die angesprochenen Teilgebiete vereinen. Hierzu gehören das<br />

in den AT&T-Labs entwickelte Sprach-Retrieval-System SCAN (Spoken Content-Based Audio<br />

Navigation) [8] und MAESTRO (Multimedia Annotation and Enhancement via a Synergy<br />

of Technologies and Reviewing Operators) [29].<br />

1.2 Ziel dieser Diplomarbeit<br />

Im vorangehenden Abschnitt wurden verschiedene Möglichkeiten zur Informationssuche in<br />

Audio-Dokumenten vorgestellt. Die vorliegende Diplomarbeit beschäftigt sich mit der


1.2. ZIEL DIESER DIPLOMARBEIT 15<br />

Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen<br />

von Informatik-Vorlesungen (siehe Kapitel 1.4).<br />

Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man<br />

ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren,<br />

daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der<br />

Dozent liest die Transkription durch und markiert die Stellen im Text, die er <strong>für</strong> einen Anfang<br />

eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben.<br />

Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der<br />

Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu<br />

navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis<br />

anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle<br />

in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile:<br />

Es muß eine Text-Transkription der Aufzeichnung erstellt werden.<br />

Die Transkription muß (manuell) gegliedert werden.<br />

Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden.<br />

Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung<br />

automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst<br />

genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben<br />

würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch<br />

die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich<br />

der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt<br />

sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet.<br />

Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität<br />

des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem<br />

erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen<br />

Gliederung ist ein offenes Problem.<br />

Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das<br />

gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen.<br />

Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst<br />

nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten<br />

eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise<br />

aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden,<br />

diese mit der Gliederung der Audio-Datei abzugleichen.<br />

In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl<br />

von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen<br />

Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig<br />

trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren


16 KAPITEL 1. EINLEITUNG, MOTIVATION<br />

<strong>für</strong> diese Diplomarbeit ausgesucht, die nicht auf statistischen Modellen basieren. Das erste vorzustellende<br />

Verfahren verwendet die Dauer von Sprechpausen zur Voraussage einer möglichen<br />

Gliederung. Der zweite Algorithmus versucht Betonungen des Sprechers zu ermitteln, die anschließend<br />

Hinweise auf die Gliederung des Gesprochenen liefern sollen. Über die Hintergründe<br />

dieser Ansätze klären die Einleitungen der Kapitel 4.1 und 4.2 auf. Ziel war es nun, die angesprochenen<br />

<strong>Algorithmen</strong> auf ihre Verwendbarkeit zu überprüfen, insbesondere im Hinblick auf<br />

die speziellen Daten, die dieser Untersuchung zugrunde liegen.<br />

1.3 Inhaltlicher Aufbau dieser Arbeit<br />

Die Arbeit gliedert sich in sechs Teile:<br />

Nachdem im vorliegenden Kapitel bereits eine Einführung in die Motivationen und Ziele<br />

dieser Arbeit gegeben wurde, sowie eine Vorstellung von Arbeiten mit ähnlichem Thema<br />

erfolgt ist, wird im Rest des Kapitels die verwendete Datenbasis erläutert.<br />

Das Kapitel Grundlagen der Sprachanalyse erläutert die wichtigsten Konzepte und<br />

Begriffe der Sprachanalyse. Es gliedert sich wiederum in drei Unterkapitel. Im ersten<br />

Teil Einführung wird ein kurzer Überblick über die Sprachverarbeitung im allgemeinen<br />

gegeben. Der zweite Abschnitt beschäftigt sich mit der Erzeugung der menschlichen<br />

Sprache, und im dritten Teil werden Konzepte und Notation der digitalen Signalverarbeitung<br />

erläutert. Dieses Kapitel ist <strong>für</strong> denjenigen Leser gedacht, der sich bislang noch<br />

nicht mit dieser Materie beschäftigt hat, aber auch nicht zu tief in das Themengebiet einsteigen<br />

will. Es ersetzt nicht das Studium einschlägiger Literatur, wenn ein tieferes Verständnis<br />

erwünscht ist. Die Begriffe werden in den meisten Fällen informell erklärt, so<br />

daß auch die später folgenden Kapitel ohne tiefgreifendes Studium der digitalen Signalund<br />

Sprachverarbeitung verstanden werden können. Der Leser mit Kenntnissen auf diesen<br />

Gebieten kann das Kapitel überspringen.<br />

Das dritte Kapitel Extraktion von Audio-Features erläutert die low level-Eigenschaften,<br />

die von den in Kapitel 4 vorgestellten Verfahren verwendet werden, und wie sie aus dem<br />

Audiosignal extrahiert werden können.<br />

Im vierten Kapitel Segmentierung/Emphasis-Detection werden Verfahren vorgestellt,<br />

die daraufhin untersucht werden sollen, in wie weit sie sich zur Segmentierung bzw. zur<br />

Suche in Sprachdateien eignen. Der erste Teil dieses Kapitels stellt ein Verfahren vor,<br />

das versucht, Sprechpausen zur Berechnung einer Segmentierung heranzuziehen. Bei der<br />

Emphasis-Detection geht es darum, besonders betonte Stellen in einem Vortrag zu finden.<br />

Diese erlauben eventuell Rückschlüsse auf eine mögliche Gliederung des Vortrages.<br />

Das fünfte Kapitel Evaluation beschäftigt sich mit der Aus- und Bewertung der <strong>Algorithmen</strong><br />

bezüglich ihrer Nutzbarkeit im Rahmen des AOF-Projekts [1]. In Kapitel 1.4 wird


1.4. DIE DATENBASIS 17<br />

erläutert, welche Sprachdateien im einzelnen <strong>für</strong> diese Arbeit zur Evaluation herangezogen<br />

wurden.<br />

Im letzten Kapitel werden die Ergebnisse dieser Arbeit zusammengefaßt und bewertet.<br />

1.4 Die Datenbasis<br />

Diese Arbeit beschäftigt sich ausschließlich mit der Informationssuche in aufgezeichneten Audio-<br />

Dateien. Es ist also keine Echtzeitverarbeitung nötig, da sie off-line bearbeitet werden. Allgemein<br />

können Audio-Dateien Sprache, Musik und andere Geräusche enthalten. Hier soll mit Dateien<br />

gearbeitet werden, die ausschließlich Sprache enthalten. Sprachdateien können vielseitiger Natur<br />

sein; sie können beispielsweise von aufgezeichneten Meetings, Vorlesungen, Vorträgen, Telefongesprächen<br />

oder Nachrichtensendungen stammen. Dementsprechend sind auch die Ziele einer<br />

Suche in diesen Dateien sehr unterschiedlich. Im Falle von Meetings könnten die verschiedenen<br />

Sprecher ermittelt werden, während in aufgezeichneten Telefongesprächen nach bestimmten verwendeten<br />

Begriffen gesucht werden könnte. Im Falle von Vorlesungen oder Vorträgen ist man<br />

möglicherweise daran interessiert, besonders wichtige Stellen im Vortrag zu ermitteln, so daß<br />

später leicht auf diese Stellen zugegriffen werden kann.<br />

Aufgezeichnete Vorlesungen dienen in dieser Arbeit als Beobachtungsgrundlage. Sie haben die<br />

folgenden Eigenschaften:<br />

plus0.5exSie sind typischerweise Monologe. (Allerdings sind Zuhörer anwesend, die möglicherweise<br />

Zwischenfragen stellen. Die untersuchten Sprachdateien enthielten aber nur in<br />

einem Fall Zwischenbemerkungen der Zuhörer, die aber aufgrund ihrer niedrigen Lautstärke<br />

nur noch sehr schwer herauszuhören waren. Sie wurden deshalb vernachlässigt.)<br />

Vorlesungen sind bzw. sollten strukturiert sein.<br />

Der erste Punkt hat den Vorteil, daß keine Sprecheridentifikation nötig ist. Eine gute Strukturierung<br />

während des Vortrags läßt darauf hoffen, daß eine Segmentierung relativ einfach möglich<br />

ist.<br />

Die Aufzeichnungen wurden im Sommersemester 1999 im Rahmen einer Vorlesungsreihe zum<br />

Thema Geometrische <strong>Algorithmen</strong> erstellt [24]. Diese Veranstaltungen wurden mit Hilfe der<br />

Authoring-on-the-fly (AOF)-Tools aufgezeichnet, die in der Abteilung <strong>Algorithmen</strong> und <strong>Datenstrukturen</strong>,<br />

Multimedia, Teleteaching und Elektronisches Publizieren am <strong>Institut</strong> <strong>für</strong> Informatik<br />

der Albert-Ludwigs-Universität Freiburg unter der Leitung von Prof. Dr. Thomas Ottman entwickelt<br />

wurden. Die zugrundeliegende Idee ist,<br />

„. . . auf den ersten Blick so verschiedene Tätigkeiten, wie das Halten einer Vorlesung<br />

im Hörsaal, das Teleteaching und das Erstellen multimedialer, <strong>für</strong> Unterrichtszwecke<br />

geeigneter Dokumente, zusammenwachsen zu lassen. Die in Freiburg


18 KAPITEL 1. EINLEITUNG, MOTIVATION<br />

dazu entwickelte Methode und Software liefert off-line nutzbare Dokumente<br />

(AOF-Dokumente), die in multimedialen Lehr -und Lernumgebungen Studenten zugänglich<br />

gemacht werden und mit Hilfe von offenen Hypermediasystemen mit vielfältigem<br />

Material (Texten, Simulationen, Animationen, Tests usw.) verknüpft<br />

werden können.“ [1]<br />

Insgesamt vier Vorträge von drei verschiedenen, männlichen Dozenten wurden <strong>für</strong> die<br />

Evaluation ausgewählt. Durch die Auswahl von unterschiedlichen Vortragenden läßt sich bestimmen,<br />

ob die untersuchten Segmentierungsverfahren in irgendeiner Weise vom Sprecher abhängige<br />

Ergebnisse liefern. Zudem sind die Aufzeichnungen von unterschiedlicher Audio-<br />

Qualität, so daß auch festgestellt werden kann, inwiefern die Verfahren von der Aufzeichnungsqualität<br />

abhängen. Außerdem wurden zu Vergleichszwecken zwei Radio-Nachrichtensendungen<br />

aufgenommen. In Anhang B befindet sich die Auswertung <strong>für</strong> diese Aufnahmen. Um die in<br />

Kapitel 3.4 vorgestellten Pitch-Detektions-<strong>Algorithmen</strong> zu testen, wurden zudem Sprachdateien<br />

verwendet, die der CD zum Buch Prinzipien des <strong>Algorithmen</strong>entwurfs entstammen [23].<br />

Die Sprachdateien wurden auf eine Länge von 15 Minuten gekürzt und enthalten jeweils die<br />

ersten 15 Minuten des entsprechenden Vortrags. Bei der Aufnahme waren die Dozenten mit<br />

einem Ansteck-Funkmikrofon ausgestattet. Das Mikrofonsignal lief über ein Mischpult in eine<br />

SGI-Workstation, die das Signal aufzeichnete. Prinzipbedingt schleichen sich hier die größten<br />

Fehler ein:<br />

1. Der Abstand vom Mund zum Mikrofon ist nicht konstant, so daß die Amplitude des Signals<br />

sehr stark schwankt. Eine gute Aussteuerung ist deshalb nur schwer möglich.<br />

2. Das Signal muß im Mischpult <strong>für</strong> jeden Dozenten neu ausgesteuert werden. Geschieht<br />

dies nicht, so können beispielweise Übersteuerungen die Folge sein. Die Folge sind hörbare<br />

Beeinträchtigungen des Signals, die sich durch sogenannte Klicks und Verzerrungen<br />

bemerkbar machen. Eine andere mögliche Folge von schlechter Aussteuerung ist, daß das<br />

Sprachsignal zu schwach und durch die Technik bedingtes Rauschen im Vergleich zum<br />

Nutzsignal zu stark ist.<br />

Das Gleiche gilt <strong>für</strong> die Aussteuerung im Rechner. Dieses Problem läßt sich aber einfach<br />

umgehen.<br />

Die <strong>für</strong> die Evaluation herangezogenen Sprachdateien sind also alles andere als ideal. Schwierigkeiten<br />

hieraus ergeben sich hauptsächlich bei der Bestimmung der Fundamentalfrequenzverläufe<br />

(siehe Kapitel 3.4) und der Unterscheidung von Sprache und Stille.<br />

1.5 Zusammenfasssung<br />

Dieses Kapitel lieferte einen Einblick in die Möglichkeiten, die sich <strong>für</strong> die Infomationsssuche<br />

in Sprachdateien ergeben. Verschiedene Ansätze wurden vorgestellt, der Rahmen, die zugrundeliegende<br />

Datenbasis und das Ziel der vorliegenden Diplomarbeit wurden umrissen.


1.5. ZUSAMMENFASSSUNG 19<br />

Das folgende Kapitel 2 erläutert Grundlagen der Sprachanalyse. Der Leser bekommt eine Vorstellung<br />

davon, wie man sich die Spracherzeugung beim Menschen vorstellen kann. Darüber<br />

hinaus werden einige Grundbegriffe der digitalen Signalverarbeitung erläutert, die <strong>für</strong> das Verständnis<br />

der technischen Seite von Bedeutung sind. Leser mit Kenntnissen auf diesem Gebiet<br />

und Leser, die sich nicht <strong>für</strong> die theoretischen Grundlagen interessieren, können diesen Abschnitt<br />

überspringen.


Kapitel 2<br />

Grundlagen der Sprachanalyse<br />

2.1 Einführung<br />

Sprache dient zur Kommunikation und kann auf zwei verschiedene Arten dargestellt werden:<br />

durch ihren Informationsgehalt oder durch das physikalische Sprachsignal, das als Träger der<br />

Information dient. Die Repräsentation der Sprache durch ihren Informationsgehalt wird <strong>für</strong><br />

Berechnungen auf dem Gebiet der Informationsverarbeitung verwendet. Für die automatische<br />

Sprachverarbeitung ist das Sprachsignal von größerer Bedeutung. Dieses wird entweder analog,<br />

digitalisiert durch die Signalform oder durch seine charakteristischen Parameter dargestellt.<br />

Allgemeines System der technischen Signalverarbeitung<br />

Das Sprachsignal wird (meistens) vom Menschen (Informationsquelle) erzeugt und durch<br />

Schallwellen oder als elektrisches Signal (physikalischer Träger) transportiert. Die erste Aufgabe<br />

der Sprachanalyse besteht darin, das Signal in die <strong>für</strong> die weitere Verarbeitung geeignete<br />

Form (Signalrepräsentation) zu bringen. Dies kann zum Beispiel durch Digitalisierung geschehen.<br />

Das durch diesen Prozeß entstandene Signal kann nun in andere Formen transformiert<br />

(Signaltransformation) und weiter be- und verarbeitet werden. Abbildung 2.1 zeigt den gerade<br />

erläuterten Ablauf im Blockschaltbild.<br />

Sprachsignal auf Signal-<br />

Informationsquelle<br />

physikalischem<br />

repräsentation<br />

z.B. Mensch Träger<br />

in techn. Form<br />

Signaltransformation<br />

Abbildung 2.1: Allgemeines System zur technischen Sprachverarbeitung [12]<br />

20<br />

Verarbeitung<br />

der Information


2.1. EINFÜHRUNG 21<br />

Anwendungsgebiete der Sprachverarbeitung<br />

Zu den ersten Anwendungen gehörte die Kodierung von Sprache mit möglichst geringer Bitrate.<br />

Vor allem in der Übertragungstechnik ist man stark an einer Komprimierung der anfallenden<br />

Datenmenge interessiert. Als Beispiele <strong>für</strong> mögliche Anwendungen im Bereich der Übertragungstechnik<br />

seien hier Satellitensysteme und Mobilfunk genannt. Derzeit aktuell ist das Thema Datenreduktion<br />

auch in der Unterhaltungselektronik bzw. der Übertragung von Musik via Internet.<br />

Der Begriff MP3 ist momentan in aller Munde und stellt einen Standard zur verlustbehafteten<br />

Speicherung und Übertragung von Audiodaten mit guter Qualität dar. Ein weiteres Gebiet der<br />

Sprachverarbeitung ist die Sprechererkennung, deren Aufgabe es ist, Personen anhand ihrer<br />

Stimme eindeutig zu erkennen (Sprecheridentifikation) oder zu entscheiden, ob ein<br />

Sprecher zu einem bestimmten Personenkreis gehört (Sprecherverifikation). Als Einsatzgebiet<br />

der Sprecheridentifikation könnte man sich vorstellen, automatisch zu einer gegebenen<br />

Menge von Audio-Dateien, z.B. aufgezeichnete Vorlesungen, den bzw. die Sprecher zu bestimmen,<br />

so daß eine einfache Suche nach einem bestimmten Sprecher in einer Menge der Audio-<br />

Dateien möglich ist. Mit dem Begriff der Spracherkennung verbindet man im allgemeinen die<br />

Transformation des akustischen Sprachsignals in geschriebenen Text. Schon seit geraumer Zeit<br />

existieren Systeme, die dies mit zufriedenstellenden Ergebnissen bewerkstelligen, wenn<br />

bestimmte Randbedingungen erfüllt sind. Die Spracherkennung kann aber auch zur Steuerung<br />

von und Kommunikation mit Maschinen eingesetzt werden. Sprachsynthese dient der Ausgabe<br />

von Meldungen an den Bediener technischer Einrichtungen und der Mensch-Maschine-<br />

Kommunikation bei computergesteuerten Dialogsystemen. Ein weiteres wichtiges Gebiet der<br />

Sprachverarbeitung ist die Verbesserung der Sprachqualität. Leider werden bei der Übertragung<br />

von Sprache die Signale verändert, verzerrt oder gehen verloren. Als Beispiele der<br />

Verbesserung der Sprachqualität sei die Verbesserung des Signal-Rausch-Verhältnisses oder die<br />

Wiedergewinnung verlorener Sprachsegmente genannt. Die bislang aufgeführten Anwendungsgebiete<br />

stellen klassische Beispiele der Sprachverarbeitung dar. Ein Gebiet, daß noch nicht erwähnte<br />

wurde, ist die Informationssuche in Audio-, Video- und Sprachdateien. In<br />

Kapitel 1.1.2 wurde dieses Gebiet kurz vorgestellt. Die vorliegende Arbeit beschäftigt sich ausschließlich<br />

mit der Informationssuche in aufgezeichneten Sprachdateien. Aus den physikalischen<br />

Eigenschaften des aufgezeichneten Signals sollen Informationen extrahiert werden, die die automatische<br />

Strukturierung von Multimedia-Dokumenten unterstützen. Abbildung 2.2 faßt die besprochenen<br />

Anwendungsgebiete noch einmal zusammen.<br />

Sprachkodie- Sprecherer-<br />

rung <strong>für</strong> Übertragung<br />

und<br />

Speicherung<br />

kennung und<br />

-verifizierung<br />

Anwendungen der Sprachverarbeitung<br />

Spracherkennung<br />

Sprach-<br />

synthese<br />

Verbesserung Informations-<br />

der Sprachsuche in<br />

qualität Audio- und<br />

Videodateien<br />

Abbildung 2.2: Anwendungsgebiete der Sprachverarbeitung


22 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

2.2 Erzeugung der menschlichen Sprache<br />

In diesem Kapitel werden die wichtigsten Begriffe und Konzepte erläutert, die den Aufbau und<br />

die Arbeitsweise des menschlichen Sprachapparates betreffen. Kenntnisse über die Arbeitsweise<br />

des Sprachapparats und der Bildung von Sprachlauten sind wichtig <strong>für</strong> das Verständnis der<br />

Vorgänge bei der Sprachanalyse, insbesondere bei der Bestimmung der Grundfrequenzverläufe<br />

und der Sprechpausen, die im Rahmen dieser Arbeit von besonderem Interesse sind. Die Erläuterungen<br />

in diesem Kapitel basieren im wesentlichen auf den Büchern von<br />

EPPINGER/HERTER [12] und PAULUS [26].<br />

Das Kapitel 2.2.1 beschäftigt sich mit dem Aufbau des menschlichen Sprachtraktes, die Lautbildung<br />

wird in Kapitel 2.2.2 erklärt. Das darauf folgende Kapitel 2.2.3 erläutert die unterschiedlichen<br />

Sprachlaute und ihre Eigenschaften, während in Kapitel 2.2.4 ein gängiges Modell der<br />

Spracherzeugung vorgestellt wird, das auch <strong>für</strong> die Sprachanalyse von Bedeutung ist.<br />

2.2.1 Aufbau des menschlichen Sprachapparates<br />

Der menschliche Sprachapparat ist ein sehr komplexes Gebilde. Die Stimmbildung kommt durch<br />

ein sehr vielschichtiges und fein abgestimmtes Zusammenspiel aller Sprechorgane zustande.<br />

Abbildung 2.3 zeigt eine schematische Darstellung des menschlichen Stimmapparates. Der Kehlkopf<br />

(Larynx) mit Stimmritze (Glottis) und Stimmbändern liegt zwischen Rachenraum und der<br />

Luftröhre (Trachea) und wird häufig als maßgebliches Organ <strong>für</strong> die Erzeugung von Sprache<br />

angesehen. Er ist aber nicht alleine in der Lage, diese Aufgabe auszuführen. Die Stimmbildung<br />

ist nur eine Sekundärfunktion des Kehlkopfes, seine eigentliche Aufgabe besteht darin, keine<br />

festen oder flüssigen Partikel in die Lunge eindringen zu lassen. Mund-, Rachen- und Nasenraum<br />

werden als Vokaltrakt bezeichnet. Das wahrnehmbare Klangbild des abgestrahlten Sprachschalls<br />

wird wesentlich von der Geometrie des Mund- und Rachenraumes und fallweise auch<br />

dem Nasenraum (Nasaltrakt) mitbestimmt. Die Geometrie dieser Hohlräume bestimmt maßgeblich<br />

die Eigenschaften der Schallübertragung. Die Hohlraumgeometrie wird vom Sprecher<br />

durch die Positionierung der Lippen, des Unterkiefers und der Zunge kontrolliert. Die Stellung<br />

des Gaumensegels bestimmt den Grad der Mitwirkung des Nasaltrakts an der Schallübertragung.<br />

Lippen, Unterkiefer, Zunge und Gaumensegel werden Artikulatoren genannt.<br />

2.2.2 Lautbildung<br />

Die Stimmbildung ist ähnlich der Tonerzeugung bei Blasinstrumenten. Die Lunge liefert einen<br />

Luftstrom, der im Kehlkopf durch die Strimmritze gezwungen wird. Beim Sprechen werden<br />

die Stimmbänder derart gespannt, daß sich die Stimmritze schließt, sobald der Druck der auszuatmenden<br />

Luft unter einen bestimmten Wert sinkt, und wieder öffnet, wenn der Druck über<br />

einen bestimmten Wert hinausgeht. Der Verschluß der Stimmritze führt also zu einem Druckanstieg,<br />

die Öffnung der Stimmritze führt zu einem Druckabfall und damit zu einem neuerlichen<br />

Verschluß. Es ergibt sich somit eine Schwingung der Stimmbänder, bei der die Stimmritze


2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 23<br />

Lunge<br />

Vokaltrakt<br />

Nasenraum<br />

Rachenraum Mundraum<br />

Kehlkopf<br />

Stimmbänder<br />

Luftröhre<br />

Nasenabstrahlung<br />

Mundabstrahlung<br />

Abbildung 2.3: Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12]<br />

periodisch geschlossen und wieder geöffnet wird. Der daraus resultiernde Luftstrom der ausgeatmeten<br />

Luft wird als Schallschwingung wirksam. Dieser Vorgang wird mit Phonation bezeichnet.<br />

Die Frequenz der Schwingungen, die Sprachgrundfrequenz, auch Grundfrequenz,<br />

Fundamentalfrequenz oder Pitch genannt 1 , kann vom Sprecher willkürlich verändert werden.<br />

Der Hörer nimmt den Verlauf der Pitch als Sprechmelodie wahr. Die Pitch liegt im Bereich<br />

von 80 Hz bis 350 Hz. Die Grenzen des Schwankungsbereichs kennzeichnen die Stimmlage des<br />

Sprechers und stellen ein wichtiges individuelles Sprechermerkmal dar. Kinder haben im<br />

Mittel eine höhere Stimmlage als Frauen und diese wiederum eine höhere als Männer. Die Lautstärke<br />

hängt von der Amplitude der Stimmbandschwingungen ab. Stimmhafte Laute,<br />

Vokale genannt, werden auf die oben beschriebene Weise gebildet. Abbildung 2.4 zeigt ein<br />

Beispiel <strong>für</strong> das Anregungssignal bei stimmhaften Lauten.<br />

Anregungssignal<br />

10ms<br />

Abbildung 2.4: Periodisches Anregungssignal bei stimmhaften Lauten<br />

Anders sieht die Lautbildung bei stimmlosen Lauten, Konsonanten genannt, aus. Die Stimmbänder<br />

sind weit auseinander und der Luftstrom fließt kontinuierlich. Dieser Luftstrom wird von<br />

den Stimmbändern zu Schwingungen und Turbulenzen angeregt, wodurch ein unregelmäßiges<br />

Signal entsteht, dessen Frequenzspektrum sich relativ gleichmäßig über den hörbaren Bereich erstreckt.<br />

Dieses rauschförmige Signal dient als Anregungsfunktion <strong>für</strong> stimmlose Laute. Das Anregungssignal<br />

durchläuft nun den Vokaltrakt. Dieser Hohlraumresonator ist zur Erzeugung unter-<br />

1 im weiteren Verlauf dieser Arbeit wird <strong>für</strong> die Sprachgrundfrequenz der englische Begriff Pitch verwendet.<br />

t


24 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

schiedlichster Laute fähig, da hier viele Organe zusammenwirken. Mund-, Rachen- und Nasenraum<br />

sind die Hauptresonatoren. Sie sind willentlich in ihrer Größe veränderbar. Zu den Nebenresonatoren<br />

zählen Luftröhre, die Bronchien, der Kehlkopf und die Nasennebenhöhlen. Die<br />

Nebenresonatoren sind praktisch nicht willentlich veränderbar, sie führen deshalb zu sprechertypischen<br />

Merkmalen. Die Nebenresonatoren werden beispielsweise bei Atemwegserkrankungen<br />

in Mitleidenschaft gezogen, weshalb sich die Stimme in diesem Fall verändert. Die Resonanzeigenschaften<br />

des Vokaltrakts haben einen Einfluß auf das Spektrum des Anregungssignals. Aufgrund<br />

dieser Tatsache wird der Vokaltrakt auch als Artikulationstrakt bezeichnet. Bestimmte<br />

Frequenzbereiche werden durchgelassen, während andere Frequenzbereiche unterdrückt werden.<br />

Erstere werden Formantfrequenzen (Formanten) genannt. Sie treten besonders deutlich bei der<br />

Bildung von Vokalen auf.<br />

2.2.3 Sprachlaute<br />

Ein Laut ist jede hörbare Äußerung eines Lebewesens. Laute entstehen durch die koordinierte<br />

Bewegung der Sprechorgane. Nur eine kleine Untermenge der vom Menschen erzeugbaren<br />

Laute werden <strong>für</strong> die Sprachverständigung genutzt. Diese werden als Sprachlaute oder<br />

Phoneme bezeichnet. Phoneme sind kürzeste Teile von Lautereignissen, die die Funktion der<br />

Bedeutungsunterscheidung erfüllen. Sie sind von der Sprache und vom Kulturkreis abhängig, jedoch<br />

setzen sich fast alle Sprachen aus etwa 30 bis 50 unterschiedlichen Phonemen zusammen.<br />

Phoneme selbst haben keine Bedeutung, bedeutungstragende Elemente ergeben sich erst durch<br />

die Zusammensetzung von Phonemen. Die Lautschrift ist eine Möglichkeit zur Darstellung von<br />

Phonemen.<br />

Sprachlaute lassen sich in zwei Kategorien unterteilen: Vokale und Konsonanten. Vokale tragen<br />

weitgehend zur Bildung der Satzmelodie bei. Sie spielen bei der Betonung von Silben innerhalb<br />

eines Wortes, der Dauer von Silben und der Tonhöhenänderung bei Aussprache eines Satzes eine<br />

Rolle. Alle anderen Laute sind Konsonanten. Ein weiteres Unterscheidungmerkmal ergibt sich<br />

dahingehend, ob die Lauterzeugung stimmhaft oder stimmlos erfolgte. Zudem interessiert man<br />

sich <strong>für</strong> die Artikulationsart und den Artikulationsort.<br />

Allen Vokalen ist die stimmhafte Anregung gemeinsam. Da nur stimmhafte Laute eine<br />

periodische Grundfrequenz besitzen, ergibt sich aus der Grundfrequenz die Tonhöhe der<br />

Sprache. Die Gestalt des Artikulationstrakts bestimmt maßgeblich die Klangfarbe der Vokale.<br />

Die Resonanzeigenschaften des Artikulationstrakts führen zur Ausbildung der Formanten. Akustisch<br />

ist ein Vokal allein von der Lage und Ausprägung dieser Formanten abhängig und ist damit<br />

unabhängig von der Tonhöhe.<br />

Konsonanten werden durch die Engstellen, die Artikulationsstellen, im Luftstrom gebildet.<br />

Neben dem Artikulationsort ist auch die Artikulationsart <strong>für</strong> die Bildung von Konsonanten verantwortlich.<br />

Hierdurch können Verschlußlaute (Explosivlaute), Reibelaute (Frikativlaute),<br />

Nasallaute, Seitenlaute (Laterale) und Schwinglaute (Vibranten) unterschieden werden. Strenggenommen<br />

müssen die meisten Konsonanten als Geräusch und nicht als Ton bezeichnet werden,<br />

da sie keine periodischen Schwingungen sind. Sie können nicht durch einige Formanten be-


2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 25<br />

Anregungsquelle Vokaltrakt<br />

Impulsgenerator<br />

Rauschgenerator<br />

stimmhaft<br />

stimmlos<br />

Verstärkungsfaktor<br />

Filter Sprachsignal<br />

Abbildung 2.5: Blockschaltbild eines einfachen technischen Systems <strong>für</strong> die Sprachsynthese<br />

schrieben werden, wie dies bei Vokalen geschieht. Trotzdem sind bei Konsonaten in höheren<br />

Frequenzbereichen bestimmte Frequenzbänder stärker vertreten, die ähnlich wie Formanten wirken.<br />

Bei stimmhaften Konsonanten tritt auch die Grundfrequenz auf, allerdings ist sie gegenüber<br />

den Frequenzanteilen des Rauschens vergleichsweise schwach ausgeprägt.<br />

2.2.4 Modellvorstellung der Spracherzeugung<br />

Die vorangegangenen Abschnitte beschrieben den physiologischen Aufbau des menschlichen<br />

Sprechapparates und der Lautbildung. Es wurde deutlich, daß sowohl der Sprechvorgang als<br />

auch der Aufbau des Sprechapparats sehr komplex ist. Zur Sprachverarbeitung ist es sinnvoll, die<br />

Spracherzeugung durch ein physikalisches Modell zu beschreiben. Hierzu muß ein vereinfachtes<br />

Modell gefunden werden, das technisch nachgebildet werden kann. Ein Modell, das Quelle-<br />

Filter-Modell, wird kurz vorgestellt.<br />

Die Lautanregung geschieht durch den Kehlkopf und die Stimmbänder. Sie erzeugen im Falle<br />

eines stimmhaften Lauts ein periodisches Signal und bei stimmlosen Lauten ein rauschähnliches<br />

Signal. Dieser Teil kann deshalb als Signalquelle, dargestellt durch einen Impulsgenerator, angesehen<br />

werden. Der Vokaltrakt verändert durch seine Widerstands- und Resonanzeigenschaften<br />

das Anregungssignal. Auch die Mundabstrahlung hat Einfluß auf das Anregungssignal und trägt<br />

zu den Eigenschaften des Sprachsignals bei. Diese Beeinflussung des Anregungssignals kann<br />

durch ein variables, akustisches Filter dargestellt werden. Dieses Filter dämpft bestimmte<br />

Frequenzen und verstärkt andere durch Resonanz, abhängig vom gesprochenen Laut.<br />

Das Quelle-Filter-Modell besteht im wesentlichen aus der Anregungsquelle und dem<br />

akustischen Filter. Der Einfluß der Mundabstrahlung wird durch einen Verstärker und durch<br />

die Eigenschaften des Filters nachgebildet (vergleiche Abbildung 2.5). Die Anregungsquelle<br />

dient der Erzeugung stimmhafter sowie stimmloser Laute. Da stimmlose Laute rauschähnliche<br />

Signale sind, werden diese durch einen Rauschgenerator erzeugt. Im Fall stimmhafter Laute<br />

wird ein Signalgenerator eingesetzt, der ein periodisches, sägezahnförmiges Signal erzeugt. Ein<br />

Spracherzeugungssystem enthält je eine Quelle <strong>für</strong> stimmhafte und <strong>für</strong> stimmlose Laute. Es gibt<br />

aber Laute, die gleichzeitig stimmhafte wie stimmlose Anregung erfahren. Um diese erzeugen zu


26 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

können, muß der Umschalter durch einen Mischer ersetzt werden, der den Anteil der jeweiligen<br />

Quelle variabel einstellt. Einfachen Systemen genügt der Umschalter. Soll hochwertige Sprache<br />

erzeugt werden, so ist diese einfache Unterscheidung zwischen stimmhafter und stimmloser Anregung<br />

nicht mehr ausreichend. Deshalb wurden weitergehende Modelle entwickelt, auf die hier<br />

aber nicht eingegangen werden soll.<br />

Das Quelle-Filter Modell gibt den tatsächlichen Vorgang nur teilweise wieder. Die Rückkopplung<br />

des Sprachsignals über das Gehirn zum Gehör wird beispielsweise nicht berücksichtigt. Auch<br />

die Kopplung zwischen Quelle und Filter, das heißt Lautanregung und Resonanzraum, wird nicht<br />

modelliert. Trotz dieser Mängel ist das Quelle-Filter-Modell von großem theoretischen und praktischen<br />

Wert und dient als Basis <strong>für</strong> viele Sprachsynthesesysteme.<br />

2.3 Konzepte und Notationen der digitalen Signalverarbeitung<br />

Sprachverarbeitung ist ein Anwendungsgebiet der digitalen Signalverarbeitung, so daß hierbei<br />

auf Konzepte und Methoden dieser Disziplin zurückgegriffen wird. Die <strong>für</strong> diese Arbeit<br />

notwendigen Begriffe und Konzepte werden in diesem Kapitel kurz erläutert. Eine ausführliche<br />

Einführung in das Gebiet der digitalen Signalverarbeitung bieten u.a. die Lehrbücher von<br />

ORFANIDIS [22], PROAKIS/MANOLAKIS [27] und DELLER/PROAKIS/HANSEN [9].<br />

Zunächst wird das allgemeine Vorgehen bei der digitalen Signalverarbeitung erläutert, siehe<br />

Kapitel 2.3.1. Eine sehr wichtige Rolle in der digitalen Signalverarbeitung spielt das Abtasttheorem,<br />

da es sowohl <strong>für</strong> die Qualität der Digitalisierung als auch <strong>für</strong> die anfallende Datenmenge<br />

entscheidend ist. Dieses fundamentale Theorem wird in Kapitel 2.3.2 vorgestellt. Für die Bestimmung<br />

von Audio-Features wird in Kapitel 3 das Windowing-Konzept eingeführt. Hier<strong>für</strong> ist es<br />

wichtig zu wissen, auf welcher Art von Signalen operiert wird. Die <strong>für</strong> dieses Konzept notwendige<br />

Klassifikation von Signalen behandelt das Kapitel 2.3.3. Das daran anschließende Kapitel<br />

2.3.4 befaßt sich mit zeitdiskreten Systemen, die Grundlage digitaler Signalverabeitungsalgorithmen<br />

sind. Abschließend stellt das Kapitel 2.3.5 die Fourier- und hierzu verwandte Transformationen<br />

vor. Auch <strong>für</strong> diesen Grundlagenteil gilt, daß die vorgestellten Konzepte nur einen groben<br />

Überblick über das <strong>für</strong> diese Diplomarbeit zu erarbeitende Themengebiet geben.<br />

2.3.1 Digitale Signalverarbeitung<br />

Die digitale Signalverarbeitung (DSP) eines analogen Signals erfolgt in drei Schritten (vergleiche<br />

Abbildung 2.6):<br />

1. Das analoge Signal wird digitalisiert; es wird abgetastet und jeder Abtastwert (Sample)<br />

wird bezüglich einer endlichen Anzahl an Bits quantisiert. Dieser Prozeß wird<br />

A/D-Wandlung genannt.<br />

2. Die digitalisierten Samples werden durch einen digitalen Signalprozessor verarbeitet.


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 27<br />

3. Die resultierenden Ausgabe-Samples werden durch einen analogen Rekonstruktor in eine<br />

analoge Form zurückgewandelt (D/A-Wandlung).<br />

¢¡¤£¦¥¨§<br />

©¡£¥¨§ ©£¥¨§<br />

¤£¥¨§ <br />

<br />

analoge<br />

Sampler und<br />

Quantisierer<br />

(A/D-Wandlung) digitale<br />

digitaler<br />

Signalprozessor<br />

digitale<br />

analoger<br />

Rekonstruktor<br />

(D/A-Wandlung) analoge<br />

Eingabe Eingabe<br />

Ausgabe<br />

Ausgabe<br />

Abbildung 2.6: Ein typisches digitales Signalverarbeitungssystem.<br />

Der digitale Signalprozessor kann so programmiert werden, daß er eine Vielzahl von Signalverarbeitungsoperationen<br />

ausführen kann, wie zum Beispiel Filterung, Spektrumsschätzung, und<br />

andere DSP-<strong>Algorithmen</strong>. In Abhängigkeit von der Geschwindigkeit und den Anforderungen<br />

der Applikation kann der digitale Signalprozessor durch einen üblichen Rechner, einen Minicomputer,<br />

einen speziellen DSP-Chip oder andere digitale Hardware realisiert werden, die dazu<br />

geeignet ist, Signalverarbeitungsaufgaben zu erfüllen.<br />

2.3.2 Das Abtasttheorem<br />

Der erste Schritt bei der digitalen Signalverarbeitung besteht in der A/D-Wandlung eines<br />

Eingangssignals. Hierzu muß das Signal abgetastet werden. Wichtig bei diesem Prozeß ist die<br />

Anzahl der Abtastungen pro Sekunde und die Quantisierung. Beides hat nicht nur einen entscheidenden<br />

Einfluß auf die Qualität des digitalisierten Signals, sondern auch auf die anfallende<br />

Datenmenge. In der Regel steigt die Qualität mit der Anzahl der Abtastungen pro Sekunde und<br />

der Anzahl der Bits, die zur Verfügung gestellt werden. Allerdings vergrößert sich im gleichen<br />

Maß die Datenmenge. Es muß also je nach Anwendungszweck ein geeigneter Kompromiß<br />

zwischen Qualität und Datenmenge gefunden werden. Das Abtasttheorem gibt vor, wie hoch<br />

die Anzahl der Abtastungen pro Sekunde sein muß und wie das Eingangssignal beschaffen sein<br />

muß, damit es fehlerfrei digitalisiert und im Anschluß an die Verarbeitung wieder rekonstruiert<br />

werden kann.<br />

Es gibt viele Arten ein analoges Signal abzutasten. Periodisches bzw. uniformes Abtasten wird<br />

in der Praxis am häufigsten eingesetzt. Diese Form der Abtastung wird durch die Beziehung<br />

¤ <br />

ausgedrückt, wobei das zeitdiskrete Signal darstellt, welches durch das Abtasten des<br />

analogen Signals alle Sekunden entsteht. Das Zeitintervall nennt <br />

man Abtastrate oder<br />

<br />

Abtastfrequenz.<br />

wird Abtastperiode oder<br />

Abtastintervall genannt. Die Umkehrung<br />

(2.1)


28 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

Die Abtastwerte repräsentieren exakt das Signal , wenn die Bedingungen des Abtasttheorems<br />

erfüllt sind, welches besagt:<br />

Theorem 2.1 (Abtasttheorem) Wenn die höchste<br />

<br />

Frequenz in einem Signal gleich<br />

ist und das Signal mit einer ¡ © Abtastrate<br />

abgetastet ¡<br />

wird, dann<br />

kann £¢ ¥¥¤§¦ ©©¨ ¦¢ exakt aus seinen Abtastwerten mittels der Interpolationsfunktion<br />

<br />

<br />

<br />

zurückgewonnen werden.<br />

¦¢ ¦¢ kann wie folgt ausgedrückt werden:<br />

wobei <br />

¨<br />

<br />

<br />

<br />

<br />

<br />

die Samples von<br />

<br />

sind.<br />

¥<br />

¥ <br />

¥ <br />

<br />

<br />

Die ¡ © Abtastrate heißt Nyquistrate, das Intervall<br />

heißt Nyquist-<br />

<br />

intervall.<br />

<br />

In anderen Worten, um das Signal<br />

¦¢ ¦ <br />

exakt aus seinen Abtastwerten rekonstruieren zu können,<br />

muß das Signal bandbegrenzt ¥ sein, und die Abtastrate muß mindestens doppelt so hoch<br />

sein, wie die<br />

© höchste vorkommende Frequenz . ¡<br />

2.3.3 Klassifikation von Signalen<br />

Ein zeitdiskretes Signal kann auf verschiedene Art klassifiziert werden. Eine Möglichkeit der<br />

Klassifikation ist die Unterscheidung in Energie- und Leistungssignale, die im Zusammenhang<br />

mit dem Windowing und der short-term Analyse von Sprachsignalen wichtig ist, welche in<br />

Kapitel 3 vorgestellt werden.<br />

Definition 2.1 Energie © Die eines zeitdiskreten<br />

<br />

Signals<br />

Ein Signal heißt Energiesignal, wenn ¢ <br />

©¨ <br />

Definition 2.2 Die Leistung©eines zeitdiskreten Signals <br />

<br />

©<br />

¦ <br />

Ein Leistungssignal hat endliche Leistung, es gilt ¢ <br />

<br />

ist definiert als<br />

(2.2)<br />

(2.3)<br />

(2.4)<br />

© <br />

.<br />

<br />

<br />

©<br />

<br />

<br />

.<br />

ist definiert durch<br />

(2.5)


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 29<br />

Ein Signal kann nicht gleichzeitig ein Leistungs- und ein Energiesignal Wenn © <br />

sein.<br />

ist© ¢¡<br />

dann Ein Signal kann aber weder Energie- noch Leistungssignal wenn © ¢<br />

sein,<br />

<br />

. Energie kann mit zwei Klassen von Signalen assoziiert werden:<br />

oder©<br />

Transienten, Signale die (üblicherweise exponentiell) mit der Zeit abklingen.<br />

Beispiel:<br />

wobei ¤ <br />

¦<br />

¨§ ¢<br />

¢<br />

<br />

¢ . <br />

£¢¥¤ ¢<br />

(2.6)<br />

Endliche Signalfolgen, Signale die außerhalb einer endlichen Zeitdauer Null sind.<br />

Beispiel:<br />

£©¤ <br />

¤ ¦¥ ¦ <br />

Während Energiesignale entweder hinreichend schnell abklingen oder vollständig verschwinden,<br />

klingen Leistungssignale nicht ab, ihre Hüllkurve vergrößert sich aber auch nicht. Leistungssignale<br />

können mit drei großen Klassen von Signalen assoziiert werden:<br />

Konstante Signale, beispielsweise<br />

Periodische Signale, <strong>für</strong> die<br />

<br />

gilt<br />

Beispiel:<br />

<br />

<br />

£¢ <br />

¢ ¢ <br />

<strong>für</strong> ein endliches und <strong>für</strong> alle <br />

<br />

¡<br />

¢ <br />

<br />

Realisierungen von stationären, ergodischen stochastischen Prozessen.<br />

Signale, die in keine der obengenannten Kategorien fallen, sind entweder Nullfolgen oder solche,<br />

die mit der Zeit immer größer werden.<br />

In Kapitel 3 werden Verfahren zur Pitch-Detektion vorgestellt, die alle auf der Annahme<br />

basieren, daß das Sprachsignal innerhalb eines kurzen Zeitfensters als stationäres Signal angesehen<br />

werden kann. Stationär bedeutet, daß sich die statistischen Eigenschaften des Signals<br />

nicht mit der Zeit ändern. Periodische Signale sind stationäre Signale. In Kapitel 2.2 wurde deutlich,<br />

daß das Anregungssignal <strong>für</strong> Vokale ein periodisches Signal ist. Dessen Frequenz soll durch<br />

einen Pitch-Detektions-Algorithmus bestimmt werden. Bei der Pitch-Detektion werden also periodische<br />

Signale betrachtet, die in die Klasse der Leistungssignale fallen.<br />

,<br />

(2.7)<br />

(2.8)<br />

(2.9)


30 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

2.3.4 Zeitdiskrete Systeme<br />

Bei vielen Anwendungen der digitalen Signalverarbeitung, beispielsweise der Sprachanalyse,<br />

soll ein Algorithmus entworfen werden, der eine vorgeschriebene Operation auf einem zeitdiskreten<br />

Signal ausführt. Ein Algorithmus, der diese Operation ausführt, heißt zeitdiskretes<br />

System. Da im Rahmen dieser Arbeit keine Implementierung in Hardware beschrieben wird,<br />

sondern eine Implementierung durch Software, werden durch Hardware realisierte zeitdiskrete<br />

Systeme nicht weiter erwähnt.<br />

Ein zeitdiskretes System ist ein Algorithmus, der eine Eingabefolge zeitdiskreter Samples ,<br />

die Eingabe bzw. Anregung, in eine Ausgabefolge von<br />

<br />

Samples , die Ausgabe bzw.<br />

Antwort, gemäß einer wohldefinierten Ein-/Ausgaberegel transformiert. Die Ein-/Ausgaberegel<br />

gibt vor, wie die<br />

<br />

Ausgabefolge aus dem Wissen über die<br />

<br />

Eingabefolge berechnet<br />

werden soll. Die Ein-/Ausgaberegel bildet den Eingabevektor <br />

in den Ausgabevektor<br />

<br />

bezüg-<br />

<br />

(vergleiche Abbildung 2.7).<br />

<br />

lich einer funktionalen Abbildung ¡ ab: ¡<br />

...<br />

©£¦¥¨§<br />

zeitdiskretes<br />

System<br />

<br />

Abbildung 2.7: Blockschaltbild-Darstellung eines zeitdiskreten Systems<br />

Ein Beispiel <strong>für</strong> den Einsatz zeitdiskreter Systeme sind sogenannte Filter, die das Frequenzspektrum<br />

eines Signals verändern. Manche Pitch-Detektions-<strong>Algorithmen</strong> beschränken das Frequenzspektrum<br />

des Sprachsignals, um eventuell störende Frequenzen zu eliminieren, die das Ergebnis<br />

des Pitch-Detektors negativ beeinflussen könnten. Auch die Bestimmung anderer Audio-<br />

Features, die in Kapitel 3 vorgestellt werden, geschieht durch zeitdiskrete Systeme.<br />

Klassifikation von zeitdiskreten Systemen<br />

Zeitdiskrete Systeme können durch bestimmte Eigenschaften klassifiziert werden. Diese müssen<br />

<strong>für</strong> jede mögliche Eingabe in das System gelten. Zeitdiskrete Systeme lassen sich hinsichtlich<br />

ihrer allgemeinen Eigenschaften in folgende Klassen einteilen:<br />

1. Statische versus dynamische Systeme.<br />

Ein zeitdiskretes System heißt statisch oder speicherlos, wenn seine Ausgabe zu jedem<br />

Zeitpunkt höchstens von dem Eingangswert zu diesem Zeitpunkt abhängt, aber nicht<br />

von zurückliegenden oder noch kommenden Samples der Eingabe. Andernfalls wird das<br />

System dynamisch genannt.<br />

¢¤£¦¥¨§<br />

...


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 31<br />

2. Zeitinvariante versus zeitvariante Systeme.<br />

Ein System <br />

heißt zeitinvariant, wenn sich seine Ein-/Ausgabecharakteristik nicht mit<br />

der Zeit ändert, das heißt<br />

¡ £¢ <br />

<br />

impliziert<br />

¥¤ ¦ £¢ ¥¤ <br />

<br />

(2.10)<br />

3. Lineare versus nichtlineare Systeme.<br />

Das Superpositionsprinzip erfordert, daß die Antwort eines Systems <br />

auf eine gewichtete<br />

Summe von Signalen gleich der entsprechenden gewichteten Summe der Antworten des<br />

Systems auf jedes individuelle Eingangssignal ist.<br />

¢¨§ ©§<br />

¢ ¢§ ©§ ¢ <br />

<br />

(2.11)<br />

Erfüllt ein System das Superpositionsprinzip, so heißt es linear. Andernfalls handelt es<br />

sich um ein nichtlineares System.<br />

4. Kausale versus nichtkausale Systeme.<br />

Ein System heißt kausal, wenn die Ausgabe des Systems zu jedem Zeitpunkt nur von<br />

gegenwärtigen und zurückliegenden Eingaben abhängt, nicht aber von noch kommenden<br />

Eingaben. Das heißt, die Antwort eines kausalen Systems erfüllt eine Gleichung der Form<br />

¤ <br />

<br />

¤ ¦ <br />

(2.12)<br />

wobei eine beliebige Funktion darstellt. Andernfalls heißt das System nichtkausal.<br />

In Echtzeitanwendungen können natürlich nicht Signalwerte beobachtet werden, die in der<br />

Zukunft liegen. Ein nichtkausales System ist physikalisch also nicht realisierbar. Ist das<br />

Signal aber aufgezeichnet, so daß die Verarbeitung off-line stattfinden kann, ist es möglich,<br />

ein nichtkausales System zu implementieren.<br />

5. Stabile versus instabile Systeme.<br />

Ein System heißt stabil, wenn es auf jede beschränkte Eingangsfolge mit einer beschränkten<br />

Ausgangsfolge reagiert,<br />

©<br />

<br />

impliziert <br />

<br />

<br />

<br />

<strong>für</strong> alle <br />

, wobei <br />

endliche Zahlen sind. Wenn <strong>für</strong> eine beschränkte Eingangsfolge<br />

©<br />

die Ausgabe unbeschränkt ist, dann wird das System als instabil klassifiziert.<br />

Stabilität ist eine wichtige Eigenschaft, die in jeder praktischen Anwendung eines Systems<br />

betrachtet werden muß. Instabile Systeme zeigen fehlerhaftes und extremes Verhalten und<br />

verursachen Überläufe in jeder praktischen Implementation.<br />

<br />

(2.13)


32 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

¡<br />

¥¨§ £ ¥¨§ £ £¦¥¨§ £<br />

¥<br />

Impuls<br />

Impulsantwort<br />

Abbildung 2.8: Impulsantwort eines LTI-Systems<br />

Lineare, zeitinvariante Systeme und ihre Impulsantworten<br />

Ein lineares, zeitinvariantes System (LTI-System) ist nach der obigen Definition ein zeitdiskretes<br />

System, dessen Ein-/Ausgabecharakteristik sich nicht mit der Zeit verändert und das Superpositionsprinzip<br />

erfüllt. Digitale Filter, die das Frequenzspektrum eines Signals verändern, sind<br />

ein Beispiel <strong>für</strong> ein LTI-System. Solche Filter werden beispielsweise bei der A/D- und D/A-<br />

Wandlung eingesetzt, um das Frequenzspektrum des zu verarbeitenden Signals so zu beschränken,<br />

daß die Bedingungen des Abtasttheorems erfüllt werden. Digitale Filter werden aber auch bei der<br />

Sprachverarbeitung eingesetzt. Dies kann beispielsweise in Form einer Filterbank zur<br />

Analyse des Sprachsignals im Frequenzbereich geschehen. Eine andere Anwendung ist die Vorverarbeitung<br />

des Sprachsignals, so daß das Sprachsignal vor der eigentlichen Analyse von Störgeräuschen<br />

befreit wird. Manche der in Kapitel 3.4 vorgestellten Verfahren zur Bestimmung der<br />

Pitch setzen Tiefpaßfilter zur Verbesserung der Analyse ein. Es wurden deshalb verschiedene Varianten<br />

digitaler Filter im Rahmen der <strong>für</strong> die Diplomarbeit entstandenen C++-Klassenbibiliothek<br />

implementiert. Ein (idealer) Tiefpaßfilter unterdrückt oberhalb einer bestimmten Frequenz, der<br />

sogenannten Grenzfrequenz des Filters, alle Frequenzanteile. Eine wichtige Anwendung von<br />

digitalen Filtern bei der Sprachanalyse stellt das Windowing dar (vergleiche Kapitel 3.1).<br />

Lineare, zeitinvariante Systeme werden eindeutig durch ihre ¤<br />

<br />

Impulsantwortfolge<br />

charakterisiert, die als Antwort des Systems auf einen Einheitsimpuls2 ¥ definiert ist (ver-<br />

<br />

gleiche Abbildung 2.8):<br />

§¦ ¢ ¤ ¥<br />

<br />

¢<br />

£ £¦¥¨§<br />

¥<br />

(2.14)<br />

Im allgemeinen kann man sich eine beliebige ¨<br />

¢ ¤ <br />

<br />

¤ ¦¤ ©<br />

Eingabefolge als Linearkombination<br />

von zeitlich versetzten und gewichteten Einheitsimpulsen vorstellen:<br />

¢ ¥ <br />

¥ <br />

¥ ¦<br />

<br />

¦ <br />

Linearität und Zeitinvarianz implizieren dann, daß die entsprechende Ausgabefolge durch Ersetzen<br />

jedes verzögerten Einheitsimpulses durch die entsprechende verzögerte Impulsantwort<br />

erzielt werden kann,<br />

<br />

¢ <br />

<br />

<br />

<br />

<br />

¤<br />

¤<br />

2 Der Einheitsimpuls £¦¥¨§ ist definiert als £ ¥¨§<br />

<br />

<br />

¦<br />

¤<br />

¡ ¥ ¢<br />

¢ ¥ ¢ .<br />

<br />

¦<br />

<br />

<br />

<br />

(2.15)<br />

(2.16)


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 33<br />

oder kürzer<br />

<br />

¡<br />

Die Gleichung (2.17) kann auch in einer alternativen Art (direkte Form) dargestellt werden, bei<br />

der der Index der Summation vertauscht ist:<br />

¡<br />

<br />

<br />

<br />

¤ ¡<br />

<br />

¤<br />

¢ LTI Form <br />

¡ ¢ direkte Form <br />

(2.17)<br />

(2.18)<br />

Die obigen Gleichungen liefern die<br />

<br />

Antwort eines LTI-Systems als eine Funktion des Eingabesignals<br />

und der ¤<br />

<br />

Impulsantwort und werden Faltungssummen (convolutional sum)<br />

genannt. Die Eingabe wird mit der ¤<br />

<br />

Impulsantwort gefaltet, um die<br />

<br />

Ausgabe<br />

zu erhalten.<br />

Systeme mit endlicher (FIR) oder unendlicher (IIR) Impulsantwort<br />

Bislang wurde ein LTI-System durch seine ¤<br />

Impulsantwort<br />

können nun weiter in zwei Klassen unterteilt werden.<br />

charakterisiert. LTI-Systeme<br />

Die erste Klasse besitzt eine Impulsantwort mit endlicher Dauer (finite impulse<br />

response, FIR). Die Werte der Impulsantwort sind in diesem Fall Null außerhalb eines<br />

endlichen Intervalls. Ohne Beschränkung der Allgemeinheit werden im folgenden kausale<br />

FIR-Systeme betrachtet, <strong>für</strong> die gilt:<br />

¢ ¢ und ¨§ <br />

¤<br />

Die Faltungssumme <strong>für</strong> ein solches System reduziert sich zu<br />

<br />

§<br />

¤¡<br />

£<br />

¤<br />

¤ ¢ ¥¤ FIR Filter Gleichung <br />

(2.19)<br />

¤ <br />

<br />

<br />

¦¤ <br />

<br />

<br />

Eine nützliche Interpretation dieses Ausdrucks erhält man durch die Beobachtung, daß<br />

die Ausgabe zu jedem Zeitpunkt eine gewichtete Linearkombination der Samples des<br />

Eingangssignals ist. Das System gewichtet<br />

die letzten <br />

<br />

<br />

<br />

¤ <strong>für</strong> ¤ ¤ ¢ <br />

<br />

<br />

Samples durch die Werte der Impulsantwort<br />

und summiert die resultierenden <br />

Produkte auf. Es agiert also als Fenster, das nur die<br />

letzten <br />

Samples des Eingabesignals <strong>für</strong> die Ausgabe betrachtet (siehe Abbildung 2.9).<br />

Ein FIR-System hat demnach einen endlichen Speicher der Länge <br />

. Die Realisierung<br />

von FIR-Systemen beinhaltet Additionen, Multiplikationen und einen endlichen Speicher,<br />

so daß solche Systeme gemäß (2.19) direkt implementiert werden können. Das in Kapitel<br />

3.1 vorgestellte Windowing kann auch als FIR-Filter aufgefasst werden.


34 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

FIR £¨£ ¥¨§ £ £¦¥¨§ IIR<br />

0 1 2 . . . . M<br />

0 1 2 . . . .<br />

. . .<br />

¥ ¥<br />

Abbildung 2.9: Impulsantworten eines FIR- und eines IIR-Filters<br />

Die zweite Klasse besitzt eine Impulsantwort mit unendlicher Dauer (infinite impulse<br />

response, IIR). Die Ausgabe eines kausalen IIR-Systems ist<br />

<br />

¤¡ ¤<br />

<br />

¤ ¢ ¤ IIR Filter Gleichung <br />

(2.20)<br />

Die Systemausgabe ist eine gewichtete Linearkombination der Samples des Eingangs-<br />

<br />

<br />

¤ <br />

¦ <br />

signals . Da die gewichtete Summe sowohl die gegenwärtigen<br />

¤<br />

als auch alle zurückliegenden Samples verrechnet, hat das System einen unendlichen<br />

Speicher. Hier stellt sich die Frage, ob solche Systeme überhaupt realisierbar sind, da dies<br />

unendlich viele Additionen, Multiplikationen und unendlichen Speicher benötigen würde.<br />

Glücklicherweise gibt es eine praktikable und berechenbare Möglichkeit der Realisierung,<br />

wenn man sich auf eine Subklasse der IIR-Systeme beschränkt. Bei dieser<br />

¡<br />

Subklasse werden<br />

die ¨ ¤ ¤<br />

§¤ ©<br />

¤<br />

unendlich vielen Filterkoeffizienten nicht beliebig gewählt, sondern<br />

durch lineare Differenzengleichungen mit konstanten Koeffizienten miteinander verkoppelt.<br />

Für diese Subklasse kann die Gleichung (2.20) so zu einer Differenzengleichung<br />

umgestellt werden, daß hiermit eine effiziente rekursive<br />

<br />

Berechnung der Ausgabe<br />

ermöglicht wird.<br />

Beiden Systemen gemeinsam ist die Tatsache, daß ihre Anwendung zu einer Verzögerung des<br />

Signals führen. FIR-Filter können so konstruiert werden, daß diese Verzögerung <strong>für</strong> alle<br />

Frequenzen konstant bleibt, <strong>für</strong> IIR-Filter gilt dies nicht. Die unterschiedliche Verzögerung <strong>für</strong><br />

verschiedene Frequenzen kann zu hörbaren Beeinträchtigungen führen. FIR-Systeme haben<br />

gegenüber den IIR-Systemen einen weiteren Vorteil, daß sie immer stabile Systeme sind. Dies<br />

folgt aus ihrer Definition. IIR-Systeme müssen sehr sorgfältig entworfen werden, damit das Stabilitätskriterium<br />

erfüllt wird. Ihr Vorteil ist, daß hiermit sehr effiziente, rekursive Berechnungen<br />

möglich sind. FIR-Systeme lassen sich bei direkter Implementierung über die Faltungssummen<br />

nicht effizient implementieren. Ab einer bestimmten Filterlänge bietet es sich deshalb an, Eingangssignal<br />

und Impulsantwort mittels der diskreten Fourier-Transformation (DFT) in den<br />

Frequenzbereich zu transformieren, dort zu multiplizieren, und dann wieder mittels inverser DFT<br />

in den Zeitbereich zurückzutransformieren. Dies ist aufgrund der Faltungseigenschaft der DFT<br />

möglich. Das folgende Kapitel erklärt diese und verwandte Transformationen und deren Zusammenhänge.


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 35<br />

2.3.5 Fourier-Transformationen und verwandte Konzepte<br />

Zeitdiskrete Fouriertransformation<br />

Definition 2.3 Die zeitdiskrete Fouriertransformation (DTFT) der Folge <br />

<br />

Die inverse DTFT ( IDTFT) ist gegeben durch<br />

<br />

¦<br />

¥§¦<br />

¦<br />

©¢¡¤£ DTFT <br />

© ¡¤£©¨ IDTFT <br />

ist definiert als<br />

(2.21)<br />

(2.22)<br />

Die Existenz der DTFT ist keine triviale Angelegenheit. Ein hinreichendes Kriterium ist die<br />

absolute Summierbarkeit: <br />

Eine absolut summierbare Folge ist notwendigerweise ein Energiesignal (siehe Definition 2.1).<br />

Es gibt jedoch Energiesignale, die nicht absolut summierbar sind. Diese Energiesignale besitzen<br />

weiterhin eine DTFT, deren Folgen aber in einem schwächeren Sinne konvergieren. Die DTFT<br />

ist sehr nützlich <strong>für</strong> theoretische spektrale Analysen, sie ist aber nicht in einem Computer berechenbar,<br />

weil sie eine Funktion eines kontinuierlichen Arguments ist.<br />

Diskrete Fouriertransformation<br />

<br />

(2.23)<br />

Beschränkt man sich auf die praktische Situation, in der eine Folge endlicher Länge untersucht<br />

wird, dann liefert die diskrete Fouriertransformation eine Abbildung zwischen der Sequenz<br />

¤ ¢ <br />

<br />

¦ <br />

und einer diskreten Menge von Frequenzdomänen-Samples.<br />

<br />

Definition 2.4 Die diskrete Fouriertransformation (DFT) einer<br />

<br />

Folge<br />

<br />

<br />

¤ <br />

§ ¡<br />

<br />

©¢¡ £¦§ ¤ ¤<br />

¢ <br />

¢ <br />

<br />

Die inverse DFT (IDFT) ist gegeben durch<br />

<br />

<br />

<br />

<br />

<br />

§<br />

¤¡<br />

<br />

¤ © ¡ £¦<br />

§ ¤<br />

¢ <br />

¢ <br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

ist gegeben durch<br />

DFT <br />

IDTF <br />

(2.24)<br />

(2.25)


36 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

Die DFT repräsentiert exakt die Samples der DTFT einer endliche<br />

<br />

Folge an<br />

äquidistanten Frequenzen <br />

¦¤ ¤ <br />

<strong>für</strong> ¤¡ ¢ <br />

<br />

<br />

. Wird die DFT zur Kurzzeit-<br />

Analyse verwendet, muß man sich die Frage stellen, ob es wichtig ist, zu welchem Zeitpunkt<br />

der betrachtete Frame auftritt. Wenn dem so ist, kommt die short-term DFT (siehe Gleichung<br />

(2.26)) zum Einsatz. Andernfalls wird die DFT auf dem üblichen Weg verwendet. Die DFT ist<br />

<strong>für</strong> eine Folge definiert, <strong>für</strong> die angenommen wird, daß sie im Bereich<br />

<br />

<br />

¢ <br />

<br />

nicht Null ist. Vor der Berechnung der DFT einer Folge der Länge , wird die Folge in diesen<br />

Zeitbereich verschoben. Dadurch geht die zu dieser Zeitverschiebung korrespondierende Phaseninformation<br />

verloren. Durch die Invertierung der DFT mit der üblichen IDFT erhält man wieder<br />

die Folge im Bereich<br />

<br />

<br />

¢ <br />

. Dies ist von geringer praktischer Bedeutung, da sich<br />

der Benutzer des Algorithmus über diese Zeitverschiebung im Klaren ist. Die Unterschlagung<br />

der korrekten Verzögerung hat keinen Effekt auf das Amplitudenspektrum und keine praktische<br />

Auswirkung auf das Phasenspektrum. Für die Berechnung der diskreten Fouriertransformation,<br />

bei der die korrekte Verzögerung erhalten bleibt, verwendet man<br />

<br />

¡<br />

<br />

¥<br />

¢ ©§¦<br />

§<br />

<br />

£¦<br />

¤ ¢ <br />

<br />

<br />

<br />

stDFT<br />

¤<br />

¤£ (2.26)<br />

¢ <br />

<br />

die short-term DFT (stDFT)<br />

¤<br />

genannt wird.<br />

¡ <br />

§ ¥ stellt<br />

<br />

einen Frame der dar, der<br />

zum Zeitpunkt endet. Das Frame-Konzept wird in<br />

<br />

Kapitel 3.1 genauer erläutert. Die Inverse<br />

Länge<br />

zur short-term DFT erhält man durch<br />

<br />

<br />

<br />

¥<br />

<br />

§<br />

¤¡<br />

<br />

<br />

und heißt short-term IDFT (stIDFT).<br />

Diskrete Fourierreihe<br />

¢<br />

¢ ¤<br />

¦¨£¦ § © ¤<br />

<br />

andere <br />

<br />

<br />

stIDFT <br />

(2.27)<br />

Die diskrete Fourierreihe (DFS) ist bezüglich der Berechnung eng verwandt zur DFT, wird<br />

aber völlig anders interpretiert. Die DFS wird dazu benutzt, periodische Periode<br />

Folgen der<br />

darzustellen, indem eine Menge von Basisfunktionen © ¡ § £¦<br />

<strong>für</strong> ¤ ¤ ¢ <br />

verwendet<br />

<br />

wird. Diese Menge die repräsentiert harmonischen Frequenzen, die das Signal darstellen. Für<br />

eine periodische<br />

<br />

Folge ist die Expansion gegeben durch<br />

<br />

wobei die Koeffizienten durch<br />

berechnet werden.<br />

<br />

¨<br />

§<br />

¤¡©¨<br />

¤ <br />

¤ © ¡ £¦§ ¤<br />

§ ¡ <br />

DFS <br />

(2.28)<br />

©¢¡ £¦§ <br />

(2.29)<br />

¤


2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 37<br />

z-Transformation<br />

Die (zweiseitige) z-Transformation ist die letzte Transformation, die vorgestellt werden soll. Sie<br />

ist ein wichtiges Werkzeug <strong>für</strong> die Analyse, den Entwurf und die Implementation digitaler Filter.<br />

Definition 2.5 Die (zweiseitige) z-Transformation <strong>für</strong> ein zeitdiskretes Signal <br />

als<br />

¡ <br />

¢<br />

wobei eine komplexe Zahl ist, <strong>für</strong> die gilt <br />

<br />

<br />

<br />

£<br />

£ ¢ £ £ <br />

ZT <br />

ist definiert<br />

(2.30)<br />

(2.31)<br />

Definition 2.6 Der Konvergenzradius (region of convergence) ROC der<br />

¡ <br />

z-Transformation<br />

ist definiert als die Teilmenge der komplexen ¤ z-Ebene , <strong>für</strong> die (2.30) konvergiert,<br />

Region Of Convergence <br />

¥<br />

¤ <br />

¦<br />

<br />

<br />

©¨ §<br />

(2.32)<br />

Der Konvergenzradius ist ein wichtiges Konzept, er erlaubt die eindeutige Umkehrung der<br />

z-Transformation und liefert praktische Charakterisierungen der Kausalitäts- und Stabilitätseigenschaften<br />

eines Signals oder Systems. Die z-Transformation und ihr ROC sind eindeutig<br />

durch das Zeitsignal bestimmt. Abhängig vom Zeitsignal kann der ROC das Innere eines<br />

Kreises, das Äußere eines Kreises oder ein<br />

<br />

Kreisring der ¥ Form sein, wobei<br />

Null und ¥ unendlich sein kann. Da es möglich ist, daß zwei verschiedene Zeitsignale die<br />

gleiche z-Transformation besitzen, können solche Signale nur durch die Konvergenzbereich ihrer<br />

z-Transformationen unterschieden werden.<br />

¡ ¡<br />

Es gibt bei der z-Transformation so viele Terme, die nicht Null sind, wie es Signalwerte gibt.<br />

Die Terme können als Platzhalter <strong>für</strong> die Werte angesehen werden. Wenn das Signal<br />

<br />

kausal ist, kommen nur negative Exponenten in der Expansion vor. Ist<br />

<br />

strikt antikausal<br />

<br />

und nicht Null <strong>für</strong> <br />

, dann erscheinen nur positive Exponenten in der Expansion. Ist<br />

<br />

<br />

sowohl kausal als auch antikausal, dann erscheinen sowohl negative als positive Exponenten in<br />

der Expansion.<br />

Definition 2.7 Die inverse z-Transformation wird formal durch Kontour-Integration<br />

<br />

<br />

¦<br />

¡ ¢ §<br />

¨ <br />

IZT<br />

(2.33)<br />

definiert, wobei ¨ eine entgegen dem Uhrzeigersinn verlaufende, geschlossene Kontour durch<br />

den ROC ist, die den Ursprung der z-Ebene enthält.


38 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />

£§<br />

Impulsantwort ¢<br />

I/O Differenzengleichung<br />

I/O Faltungsgleichung<br />

Transferfunktion<br />

¦<br />

£¡ §<br />

Filterentwurfsmethode<br />

Frequenzantwort<br />

¦<br />

£ £§<br />

Pol/Nullstellen-<br />

Diagramm<br />

Blockdiagramm-<br />

Realisierung<br />

Abbildung 2.10: Äquivalente Beschreibungen digitaler Filter<br />

Die Berechnung der inversen z-Transformation kann beispielsweise mittels Partialbruchzerlegung<br />

erfolgen.<br />

Die Definition 2.5 kann auch auf die ¤<br />

Impulsantwort<br />

werden.<br />

Definition 2.8 Die z-Transformation der ¤<br />

Impulsantwort<br />

Transferfunktion genannt und ist definiert als<br />

<br />

¤ <br />

eines digitalen Filters angewendet<br />

<br />

eines digitalen Filters wird<br />

¦ §<br />

(2.34)<br />

¡<br />

Die Transferfunktion ist sehr wichtig, weil aus ihr (a) die ¤<br />

<br />

Impulsantwort , (b) die Differenzengleichung,<br />

die durch die Impulsantwort erfüllt wird, (c) die I/O Differenzengleichung, die die<br />

<br />

<br />

Ausgabe mit<br />

<br />

Eingabe in Beziehung setzt, (d) die Blockdiagramm-Realisierung eines<br />

<br />

Filters, (e) der Sample-by-sample-Verarbeitungsalgorithmus, (f) das Pol/Nullstellen-Diagramm<br />

und (g) ¡ <br />

die Frequenzantwort abgeleitet werden kann. Dies gilt auch in umgekehrter<br />

Richtung. Abbildung 2.10 verdeutlicht den Zusammenhang.<br />

Beziehungen zwischen den Transformationen<br />

Nachdem die wichtigsten Transformationen vorgestellt worden sind, besteht nun noch die<br />

Frage, in welcher Beziehung diese Transformationen zueinander stehen. Aus den Definitionen<br />

der beiden Fouriertransformationen und der z-Transformation folgt<br />

¤£<br />

<br />

<br />

¨<br />

© ¡ £ <br />

(2.35)


2.4. ZUSAMMENFASSUNG 39<br />

<strong>für</strong> jedes so daß die DTFT an der Frequenz durch Auswertung der z-Transformation am<br />

Winkel <br />

auf dem Einheitskreis in der z-Ebene erhalten werden kann. Dies gilt natürlich nur,<br />

wenn der ROC der z-Transformation den Einheitskreis der z-Ebene enthält3 . Da die DFT die<br />

Samples der DTFT an Frequenzen mit ¤ ¢ <br />

<br />

¤ <br />

darstellt, erhält man sie durch<br />

Auswertung der z-Transformation an Winkeln mit gleichbleibendem Abstand auf dem Einheitskreis<br />

der z-Ebene:<br />

<br />

¤£<br />

<br />

¤ ¤£<br />

2.4 Zusammenfassung<br />

¡ <br />

<br />

¤ ¤ ¦<br />

¨<br />

© ¡ £¦ <br />

§<br />

¤¢¡<br />

(2.36)<br />

Das Kapitel 2 führte in die theoretischen Grundlagen der Sprachverarbeitung ein. Es wurde ein<br />

Einblick in den menschlichen Sprachapparat (Kapitel 2.2.1) und die Bildung von Sprachlauten<br />

(Kapitel 2.2.2 und 2.2.3) gegeben. Wichtige Erkenntnis hierbei ist, daß Vokale als Signale mit<br />

periodischer Wellenform angesehen werden können. Konsonanten sind in der Regel rauschförmige<br />

Signale. In Kapitel 4.2 wird ein Segmentierungsverfahren vorgestellt, <strong>für</strong> das Pitch-<br />

Verläufe aus der Sprachdatei ermittelt werden müssen. Die Berechnung der Pitch-Werte<br />

geschieht ausschließlich auf der Grundlage von auftretenden Vokalen und damit auf der Detektion<br />

von periodischen Anteilen im Signal. Die Pitch-Detektions-<strong>Algorithmen</strong>, die in Kapitel 3.4<br />

vorgestellt werden, ermitteln die Perioden- und somit die Pitch-Werte <strong>für</strong> die Dauer des Vokals.<br />

Darüber hinaus wurde in Kapitel 2.2.4 ein einfaches Modell zur Realisierung der künstlichen<br />

Spracherzeugung basierend auf diesen Grundlagen vorgestellt. Dieses Modell wird oftmals auch<br />

zur Sprachanalyse herangezogen. Das Kapitel 2.3.1 beschäftigte sich mit den wichtigsten Konzepten<br />

der digitalen Signalverarbeitung, die die theoretische Basis <strong>für</strong> die digitale Sprachverarbeitung<br />

liefern. Auf den eben genannten Grundlagen aufbauend werden in Kapitel 3 Konzepte<br />

zur Analyse von Audio-Dateien vorgestellt.<br />

3 Der ROC enthält den Einheitskreis genau dann, wenn © £ ¥¨§ absolut summierbar ist.


Kapitel 3<br />

Extraktion von Audio-Features<br />

Auf den ersten Blick beinhalten Audiosignale nur eine Information: die Amplitude über die<br />

Zeit (die Wellenform des Signals). Es gibt aber noch eine Vielzahl von anderen Eigenschaften,<br />

die sich aus dem zeitlichen Verlauf des Signals ermitteln lassen. Hierzu gehören beispielsweise<br />

der Verlauf der Energie und der Nulldurchgangsrate, das Frequenzspektrum sowie im Falle von<br />

Sprachsignalen der Pitch-Verlauf.<br />

Zunächst wird in Kapitel 3.1 das sogenannte Windowing eingeführt. Dieses Konzept ist<br />

elementar und Voraussetzung <strong>für</strong> alle Analysetechniken, die in diesem Kapitel verwendet<br />

werden. Die Kapitel 3.2, 3.3 und 3.4 stellen drei sogenannte Audio-Features des Audiosignals<br />

vor, die extrahiert werden können, um hiermit high level-Informationen zu erzeugen. Die ersten<br />

zwei Signaleigenschaften, short-term energy und short-term zero crossing rate, sind sehr einfach<br />

zu ermittelnde Features, während die dritte Eigenschaft, Pitch (Fundamentalfrequenz), einen<br />

höheren Aufwand erfordert. Die einzelnen, mittels Windowing, extrahierten Audio-Features<br />

werden dann geeignet kombiniert, um Informationen auf höherem Level zu generieren.<br />

3.1 Windowing / Frames<br />

In allen praktischen Signalverarbeitungsanwendungen muß mit kurzen Ausschnitten des zu verarbeitenden<br />

Signals gearbeitet werden. Dies trifft vor allen Dingen dann zu, wenn herkömmliche<br />

Analysetechniken auf nichtstationäre Signale angewendet werden sollen. Beispielsweise sind<br />

Sprachsignale solche nichtstationären Signale. In diesem Fall muß ein Teil des Signals ausgewählt<br />

werden, der berechtigterweise als stationär angenommen werden kann.<br />

3.1.1 Windowing<br />

Ein Fenster (engl.:<br />

<br />

Window) ist eine reelle, endliche Folge, die benutzt wird, um einen<br />

gewünschten Ausschnitt aus dem Originalsignal auszuwählen. Dies geschieht durch eine<br />

40


3.1. WINDOWING / FRAMES 41<br />

einfache Multiplikation des Signals mit<br />

<strong>für</strong> ein Hanning- und ein Rechteck-Fenster.<br />

. Abbildung 3.1 verdeutlicht diesen Vorgang<br />

<br />

Länge<br />

¢<br />

<strong>für</strong><br />

<br />

Ein Window der ist eine kausale Folge, es gilt also<br />

¢<br />

und<br />

<br />

§<br />

<br />

wenn Die meisten verwendeten Windows sind symmetrisch um den Zeitpunkt ¦,<br />

wobei dieser Zeitpunkt in der Mitte zwischen zwei Abtastpunkten liegt, gerade ist.<br />

Windows lassen sich als symmetrische FIR-Filter auffassen (vergleiche Kapitel 2.3.4).<br />

Der Windowing-Prozeß hat im allgemeinen zwei Haupteffekte:<br />

1. Der Windowing-Prozeß reduziert die Frequenzauflösung des berechneten Spektrums. Der<br />

kleinste auflösbare Frequenzunterschied ist durch die Länge des Datensatzes beschränkt,<br />

somit gilt ¥¢¡ §<br />

<br />

§<br />

<br />

, wobei die Länge des Fensters und <br />

das Abtastintervall<br />

repräsentieren. Dies nennt man das uncertainty principle.<br />

2. Der Windowing-Prozeß addiert zusätzliche hohe Frequenzkomponenten zum Spektrum<br />

hinzu, die durch das scharfe Clipping des Signals am linken und rechten Rand<br />

eines Windows erzeugt werden. Dieser Effekt ist als frequency leakage bekannt.<br />

¤£<br />

Anhand eines Rechteck-Fensters sollen nun einige wichtige Begriffe geklärt werden, die in<br />

Abbildung 3.2 verdeutlicht sind. Bei dieser Abbildung ist zu beachten, daß das Spektrum aus<br />

Symmetriegründen nur <strong>für</strong> positive Frequenzen dargestellt ist. Das Amplitudenspektrum des<br />

Rechteck-Fensters besteht aus dem sogenannten Höhe<br />

<br />

mainlobe der dessen Breite durch<br />

die Länge des Fensters mit gegeben ist und der sein Zentrum bei besitzt,<br />

¢<br />

und<br />

kleineren sogenannten sidelobes. Der mainlobe-Peak bei (DC) dominiert das<br />

¢<br />

Spektrum,<br />

da<br />

<br />

die Fensterfunktion auf<br />

¢ <br />

dem<br />

<br />

Bereich ein DC-Signal 1 ist. Die höheren<br />

Frequenzkomponenten stellen die scharfen<br />

<br />

Übergänge von an ihren Endpunkten dar. Die<br />

mainlobe-Breite ¥¢¡ bestimmt<br />

<br />

die Frequenzauflösung des "gefensterten" Spektrums.<br />

Wenn größer gewählt wird, wächst die Höhe des mainlobes und die Breite nimmt ab. Jedoch<br />

steigt auch die Höhe der sidelobes relativ zur Höhe des mainlobes und bleibt in etwa dB tiefer.<br />

Die sidelobes bestimmen das Ausmaß der ungewünschten Artefakte des Windowing-Prozesses.<br />

Sie müssen so gut als möglich unterdrückt werden. Aus dem gerade beschriebenen lassen sich<br />

zwei gewünschte Eigenschaften <strong>für</strong> das Spektrum der Fensterfunktion ableiten:<br />

¥<br />

1. Die Breite des mainlobes sollte möglichst gering sein.<br />

2. Die Abschwächung der sidelobes sollte möglichst groß sein.<br />

Vorteil des Rechteck-Fensters ist, daß es die zeitlichen Eigenschaften des Signals erhält. Allerdings<br />

ist die Abschwächung der sidelobes eher gering. Eine Standardtechnik zur Unterdrückung<br />

der sidelobes ist die Benutzung eines nicht-rechteckigen Fensters. Die mathematischen<br />

Definitionen von vier Alternativen werden in Tabelle 3.1 vorgestellt. Diese Windows schneiden<br />

1 Der Begiff DC-Signal steht <strong>für</strong> eine konstantes Signal. In der Elektrotechnik werden konstante, analoge Signal<br />

als Gleichspannungssignale bezeichnet.


42 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Amplitude<br />

Amplitude<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

0 50 100 150 200 250 300 350 400 450 500<br />

Zeit (Samples)<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−0.1<br />

−0.2<br />

−0.3<br />

−0.4<br />

Amplitude<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−0.1<br />

−0.2<br />

−0.3<br />

−0.4<br />

(b) Hanning-Fenster<br />

50 100 150 200 250 300 350 400 450 500<br />

Zeit (Samples)<br />

(d) Sprachsignal mit Hanning-<br />

Window multipliziert<br />

50 100 150 200 250 300 350 400 450 500<br />

Zeit (Samples)<br />

(a) Sprachsignal<br />

Amplitude<br />

Amplitude<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

0 50 100 150 200 250 300 350 400 450 500<br />

Zeit (Samples)<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−0.1<br />

−0.2<br />

−0.3<br />

−0.4<br />

(c) Rechteck-Fenster<br />

50 100 150 200 250 300 350 400 450 500<br />

Zeit (Samples)<br />

(e) Sprachsignal mit Rechteck-<br />

Window multipliziert<br />

Abbildung 3.1: Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit<br />

einem Rechteck-Fenster multipliziert.


3.1. WINDOWING / FRAMES 43<br />

¡¢ £<br />

£§¡<br />

0 ¦ <br />

mainlobe<br />

<br />

relative<br />

sidelobe level<br />

R=13 dB<br />

sidelobes<br />

£<br />

¦<br />

Abbildung 3.2: Amplitudenspektrum eines Rechteck-Fensters<br />

Name Zeitbereichsfolge<br />

Rechteck £¥¤§¦©¨¡<br />

Hamming £¥¤§¦©¨¡<br />

Hanning £¥¤§¦©¨¡<br />

Kaiser £¤§¦©¨¡<br />

£ <br />

£ ¦ <br />

£¨ £ <br />

¦<br />

§ ¦ £ ¦ <br />

£ ¦ <br />

£ ¦<br />

¦ § £ ¦ <br />

£¨<br />

¤ £ ¨¤ £ ¨ ¤ £ <br />

<br />

<br />

¡<br />

£ ¦<br />

¡<br />

Tabelle 3.1: Mathematische Definiton verschiedener Fensterfunktionen<br />

<br />

¤¡© ¤<br />

¨ £ ¦ <br />

mit


44 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

das Signal nicht so abrupt ab wie das Rechteck-Fenster, sondern verwenden einen sanfteren<br />

Übergang zu Null. Die spektralen Eigenschaften dieser Windows werden in Abbildung 3.3 verdeutlicht<br />

und können allgemein so beschrieben werden:<br />

Für gegebenes haben alle einen breiteren mainlobe als das Rechteck-Fenster. Auch hier<br />

gilt, daß die Breite abnimmt, wenn vergrößert wird.<br />

Alle besitzen eine bessere Abschwächung der sidelobes, typischerweise <br />

¢ ¦<br />

¢ dB besser.<br />

Bei der Analyse von nichtstationären Signalen wie Sprache, müssen folgende Überlegungen angestellt<br />

werden: Aus der obigen Diskussion folgt, daß eine Verlängerung der Fensterfolge unabhängig<br />

vom Typ nur positive Konsequenzen hat. Wenn ein Fenster jedoch dazu benutzt wird, um<br />

sequentiell Teile aus dem nichtstationären Signal auszuschneiden, in dem es zeitlich verschoben<br />

wird, benötigt ein längeres Fenster eine längere Periode um über Grenzübergänge im Signal<br />

hinwegzugehen. Ereignisse aus verschiedenen quasi-stationären Bereichen verschwimmen dann<br />

eher miteinander, als bei kurzen Fenstern. Ein Trade-Off betrifft also die Fensterlänge. Ein langes<br />

Fenster produziert ein besseres spektrales Bild des Signals, während ein kurzes Fenster die<br />

zeitlichen Ereignisse im Signal besser auflöst. Dieser Trade-Off wird auch spectral temporal<br />

resolution trade-off genannt.<br />

3.1.2 Frames<br />

Ein Frame stellt einen Ausschnitt aus einem Sprachsignal dar, der mittels Windowing erzeugt<br />

wird. Formal ist er eine neue Sequenz bezüglich <br />

, deren Werte Null sind außerhalb des Intervalls<br />

<br />

<br />

<br />

. Der durch diesen Prozeß entstandene Frame hängt auch von der Zeit<br />

ab, so daß er ein zweites Argument erhält (und ein implizites Argument ).<br />

<br />

Definition 3.1 Einen Frame ¥ ©<br />

endet, erhält man durch <br />

wobei<br />

<br />

© <br />

¥<br />

ein Window darstellt.<br />

<br />

3.1.3 Extraktion von Audio-Features<br />

eines Signals der Länge , der zum Zeitpunkt<br />

<br />

Auf den beschriebenen Konzepten Windowing und Frames aufbauend soll nun die Extraktion<br />

von Audio-Features formalisiert ¥ werden. Angenommen, sei eine Langzeit-Eigenschaft, die<br />

helfen soll, ein Problem zu lösen. Im allgemeinen kann es eine ganze Familie von Eigenschaften<br />

geben, von denen jede von ¡ einem Index abhängt. Die allgemeine Langzeit-Eigenschaft der<br />

Folge wird im folgenden ¥<br />

¡ <br />

mit bezeichnet. Eine weitere Annahme besteht darin,<br />

<br />

daß<br />

¡ <br />

sich<br />

<br />

aus ¥<br />

durch<br />

¥<br />

¡ ¢<br />

£ ¡ <br />

¨<br />

© ¥¤ ¨<br />

£ ¡ <br />

¨<br />

© ©<br />

(3.1)<br />

(3.2)


3.1. WINDOWING / FRAMES 45<br />

Amplitude [dB]<br />

Amplitude [dB]<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

−5<br />

−10<br />

0 50 100 150 200 250<br />

Amplitude<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

DFT eines Rechteck−Fensters der Länge 64<br />

(b) Amplitudenspektrum eines<br />

Rechteck-Fensters<br />

40<br />

20<br />

0<br />

−20<br />

−40<br />

−60<br />

−80<br />

−100<br />

−120<br />

DFT eines Hanning−Fensters der Länge 64<br />

−140<br />

0 50 100 150 200 250<br />

(d) Amplitudenspektrum eines<br />

Hanning-Fensters<br />

0<br />

Rechteck<br />

Hanning<br />

Hamming<br />

Kaiser<br />

10 20 30<br />

Zeit (Samples)<br />

40 50 60<br />

(a) Verschiedene Fensterfolgen im<br />

Vergleich<br />

Amplitude [dB]<br />

Amplitude [dB]<br />

40<br />

20<br />

0<br />

−20<br />

−40<br />

−60<br />

−80<br />

DFT eines Hamming−Fensters der Länge 64<br />

−100<br />

0 50 100 150 200 250<br />

(c) Amplitudenspektrum eines<br />

Hamming-Fensters<br />

40<br />

20<br />

0<br />

−20<br />

−40<br />

−60<br />

DFT eines Kaiser−Fensters der Länge 64 und alpha=4<br />

−80<br />

0 50 100 150 200 250<br />

(e) Amplitudenspektrum eines<br />

Kaiser-Fensters<br />

£<br />

¡<br />

£<br />

¤¢¡ ¡§¦©¨© ¤¢¡<br />

Abbildung 3.3: Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren<br />

dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar. entspricht der<br />

digitalen Frequenz , entspricht der Frequenz .


46 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

berechnen läßt, wobei ¢<br />

£ ¡ eine Operation ist, die im allgemeinen nichtlinear und abhängig von<br />

¡ ist. ¤ steht <strong>für</strong> einen Langzeit-Mittelwert<br />

¤ ¨<br />

©¡ ¥ <br />

£¢ <br />

¦ <br />

Für die gebräuchlichsten Langzeit-Eigenschaften hat sich gezeigt, daß ¢<br />

¢<br />

£ ¡ ¥¤¥¤ £ ¡ <br />

<br />

¨ <br />

£ ¡ <br />

zerlegt werden kann, wobei eine Operation ist, die eine neue Folge bezüglich <br />

produziert und ¤ ¥ ¡ <br />

<br />

<strong>für</strong> ¥<br />

einen kurzen Zeitraum ¡ der zeitliche Mittelwertoperator ist. Für die Berechnung einer<br />

" "-Eigenschaft <br />

kann<br />

<br />

das folgende Konstruktionsprinzip verwendet werden [9]:<br />

©<br />

£ ¡ <br />

1. Wähle einen gewünschten Frame Länge der mit Hilfe eines Windows<br />

Signal aus,<br />

<br />

<br />

2. Wende eine “ ¢ ¡ <br />

”-Operation ¢ ¦ ¡ <br />

auf diesen Frame an:<br />

£<br />

¥<br />

¡<br />

¥ <br />

wobei angenommen wird, daß ¢<br />

¦ ¡ <br />

<br />

¢ ¡ ¦ <br />

<br />

¨ <br />

<br />

<br />

<br />

<br />

in<br />

¦<br />

¦ <br />

¢ ¡ ¢ <br />

zerlegt werden kann, wie ¢<br />

£ ¡ ¤§¤ £ ¡ <br />

¡ <br />

¡ <br />

<br />

¤ <br />

¢ <br />

¢ ©<br />

¨<br />

¨<br />

<br />

¥ ©<br />

¦ ¡ <br />

im Langzeit-Fall.<br />

¢ ©<br />

in<br />

(3.3)<br />

(3.4)<br />

aus dem<br />

Es ist zu bemerken, daß ¦ ¡ <br />

oftmals dieselbe Operation wie<br />

£ ¡ <br />

ist. Wir beschränken uns nun<br />

<br />

auf solche Fälle <br />

¥<br />

¡<br />

<br />

£ ¡ <br />

¨<br />

<br />

¢ ©<br />

Mit Hilfe eines Windows wurde ein Frame aus dem Sprachsignal herausgeschnitten und eine<br />

ähnliche Operation angewendet, wie dies im Langzeit-Fall getan wurde.<br />

(3.5)<br />

(3.6)<br />

(3.7)<br />

(3.8)<br />

(3.9)


3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47<br />

Der Leistungstest <strong>für</strong> einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit-<br />

Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad <strong>für</strong> den gilt:<br />

<br />

¥ ¥<br />

¡ <br />

Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie<br />

oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und<br />

die<br />

¡<br />

. Für ein festes ergeben sich zwei konkurrierende Faktoren <strong>für</strong> die Wahl des<br />

Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen<br />

Länge<br />

die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei<br />

gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert<br />

die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt<br />

wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht<br />

so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann <strong>für</strong> einen<br />

kurzen von¦<br />

¢ <br />

Zeitraum als stationär angenommen werden, so daß Länge die entsprechend<br />

gewählt werden kann.<br />

¡<br />

(3.10)<br />

In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik<br />

können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht<br />

werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen.<br />

Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet<br />

werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen,<br />

sind zur Bestimmung von high level-Informationen sehr hilfreich.<br />

3.2 Short-term energy und short-term power<br />

Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert.<br />

Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht<br />

werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben<br />

die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße<br />

können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur<br />

Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal<br />

(engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen<br />

mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung<br />

von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte <strong>für</strong><br />

stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten,<br />

so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit<br />

Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel<br />

4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der<br />

Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.


48 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Formal lassen sich short-term energy und short-term power wie folgt definieren:<br />

Definition 3.2 Die short-term energy eines Signals über einem endlichen Intervall<br />

<br />

läßt sich wie folgt berechnen:<br />

<br />

¥ ¡ ¨<br />

Die<br />

<br />

läßt sich durch<br />

Signalenergie<br />

¡©£ §<br />

¡<br />

(3.11)<br />

(3.12) <br />

und die mittlere Leistung des Signals<br />

¨ durch<br />

<br />

ausdrücken.<br />

Die Energie eines periodischen Signals über eine einzige Periode, z.B.<br />

¢ <br />

, ist<br />

endlich, wenn <br />

nur endliche Werte in diesem Bereich annimmt. Jedoch ist die Energie eines<br />

<br />

periodischen Signals <strong>für</strong> <br />

unendlich. Andererseits ist die mittlere Leistung eines<br />

periodischen Signals endlich und stimmt mit der mittleren Leistung über eine Periode überein.<br />

<br />

(3.13) ¦ ¨ <br />

Definition 3.3 Sei ein periodisches Signal mit Grundperiode , das nur endliche Werte<br />

annimmt. Dann ist seine short-term power durch<br />

¥<br />

<br />

(3.14)<br />

<br />

gegeben.<br />

Da beide Begriffe eine äquivalente Information liefern, wird in der Regel die einfacher zu<br />

berechnende short-term energy bevorzugt. Abbildung 3.4 zeigt den Verlauf<br />

<br />

<strong>für</strong> ein Sprach-<br />

¥<br />

signal mit einer Länge von 15 Sekunden.<br />

der<br />

¤£ ¡ <br />

§<br />

¡<br />

3.3 Short-term zero crossing rate<br />

Die Anzahl der Nulldurchgänge (die Anzahl der Vorzeichenwechsel innerhalb einer Signalfolge)<br />

ist eine nützliches Feature bei der Sprachanalyse. Es ist ein einfaches Maß <strong>für</strong> den Frequenzverlauf<br />

eines Signals. Ist die Nulldurchgangsrate innerhalb eines bestimmten Zeitabschnitts hoch<br />

(niedrig), so kann in gewissen Grenzen auf ein Signal geschlossen werden, das hohe (tiefe)


3.3. SHORT-TERM ZERO CROSSING RATE 49<br />

Amplitude<br />

short−term energy<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

Sprachsignal<br />

−1<br />

0 0.5 1 1.5 2<br />

Zeit (Samples)<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

Energie−Verlauf<br />

0<br />

0 500 1000 1500<br />

Frames<br />

Abbildung 3.4: Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame-<br />

Länge = 10 ms, Time-Shift = 10 ms)<br />

x 10 5


50 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Frequenzanteile enthält. Dieses Maß kann zusammen mit der short-term energy zur Endpunkt-<br />

Detektion eingesetzt werden. Das Problem, die Endpunkte einer diskreten Aussage zu bestimmen,<br />

ist ein wichtiges Problem in vielen Sprachverarbeitungsanwendungen. Bei der Erkennung von<br />

Wörtern durch Vergleichen des akustischen Signals mit einer "Vorlage" ist es beispielsweise notwendig,<br />

das zu erkennende Wort von "nichtsprachlichen" Bereichen zu befreien, die Fehler bei<br />

der Erkennung hervorrufen können. Auf den ersten Blick scheint dies relativ einfach zu sein.<br />

In der Praxis hat sich herausgestellt, daß dies nur bei sehr hohen signal-to-noise-ratio-Werten<br />

der Fall ist [9]. Ein verwandtes Problem stellt die Klassifikation von Sprache in stimmhafte und<br />

stimmlose Bereiche dar. Will man beispielsweise wissen, wann die Bestimmung der Pitch nötig<br />

ist, kann die short-term zero crossing rate in Verbindung mit der short-term energy dazu herangezogen<br />

werden, um mögliche stimmhafte Bereiche zu bestimmen. Während die short-term<br />

energy üblicherweise in stimmhaften Segmenten größer ist, ist die short-term zero crossing rate<br />

dagegen in stimmlosen Segmenten größer. Viele Pitch-Detektions-<strong>Algorithmen</strong> verwenden diese<br />

Maße zur Klassifikation des Sprachsignals. Einige dieser Pitch-Detektions-<strong>Algorithmen</strong> werden<br />

in den folgenden Abschnitten vorgestellt. ZHANG, KUO nutzen die short-term zero crossing rate<br />

auch zur Klassifikation von Umgebungsgeräuschen [40][41].<br />

Formal läßt sich die short-term zero crossing rate wie folgt definieren:<br />

Definition 3.4 Sei eine Signalfolge der Länge , die zum Zeitpunkt endet. Dann<br />

läßt sich die short-term zero crossing rate durch<br />

mit<br />

¨<br />

¡<br />

¥<br />

¡ <br />

berechnen. Hierbei stellt<br />

¡©£ §<br />

¡<br />

<br />

¨<br />

<br />

© <br />

eine Window dar.<br />

¨<br />

© <br />

¦<br />

¦ <br />

<br />

(3.15)<br />

<br />

<br />

¨<br />

<br />

<br />

©<br />

¢ (3.16)<br />

<br />

<br />

§ ¢<br />

<br />

Für wird in den meisten Fällen ein Rechteck-Fenster verwendet. Abbildung 3.5 zeigt den<br />

zeitlichen Verlauf der short-term zero crossing rate anhand eines Beispiels aus [24].<br />

3.4 Fundamentalfrequenz (Pitch) ¢ ¢<br />

Der Verlauf der Pitch und damit die Satzmelodie einer Äußerung ist <strong>für</strong> diverse Anwendungen<br />

und Probleme der Sprachverarbeitung von großer Bedeutung. Er ist beispielsweise nützlich <strong>für</strong><br />

die Sprechererkennung und gibt wertvolle Einblicke in die Natur der Anregungsquelle <strong>für</strong> die<br />

Sprachproduktion. In dieser Arbeit soll mit Hilfe von Betonungen versucht werden, einen aufgezeichneten<br />

Vortrag in inhaltliche Teilabschnitte zu segmentieren. Hintergrund dessen ist die Feststellung,<br />

daß es eine hohe Korrelation von Tonhöhenvariabilität und der Einführung<br />

neuer Themengebiete gibt. Es zeigte sich, daß ein Anstieg der Pitch ein guter Indikator hier<strong>für</strong><br />

ist [15][17]. Betonungen sind oft verbunden mit einem Anstieg der Pitch.


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Amplitude<br />

short−term ZCR<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

Sprachsignal<br />

−1<br />

0 0.5 1 1.5 2<br />

Zeit (Samples)<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

ZCR−Verlauf<br />

0<br />

0 500 1000 1500<br />

Frames<br />

Abbildung 3.5: Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms,<br />

Time-Shift = 10ms )<br />

x 10 5<br />

51


52 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Probleme bei der Bestimmung der Pitch<br />

Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal<br />

extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus<br />

der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein<br />

Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist<br />

einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies <strong>für</strong> Sprachsignale<br />

nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb<br />

der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt<br />

und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform<br />

signifikant verändern können. Das dritte Problem besteht in der<br />

exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente.<br />

Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise<br />

unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die<br />

Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude<br />

dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb<br />

schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch<br />

weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen<br />

starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die<br />

Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem<br />

spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem<br />

genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz<br />

und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der<br />

Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies<br />

bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt<br />

wird, was die Bestimmung der Pitch weiter erschwert [28].<br />

Pitch-Detektion<br />

Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung<br />

zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber<br />

auf die einzelnen <strong>Algorithmen</strong> eingegangen wird, soll grob die Vorgehensweise skizziert werden,<br />

die sich bei den betrachteten <strong>Algorithmen</strong> nur in Details unterscheidet. Abbildung 3.6 verdeutlicht<br />

den Vorgang.<br />

Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge<br />

unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff<br />

Windowing in Kapitel 3.1 eingeführt. Übliche Werte <strong>für</strong> die Länge der Frames liegen im Bereich<br />

¢ <br />

bis ¥<br />

¢ <br />

. Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche<br />

Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal<br />

von¦<br />

innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die<br />

Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren<br />

bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Sprache/Pause<br />

Sprachsignal<br />

Windowing des Signals<br />

Ermittlung der short-term energy<br />

und der short-term zero crossing rate<br />

Sprache/Pause-Entscheidung<br />

Verfahren zur Bestimmung der<br />

Pitch<br />

Entscheidung stimmhaft / stimmlos<br />

stimmhaft / stimmlos<br />

Abbildung 3.6: System zur Pitch-Detektion [12]<br />

Pitch F0<br />

beinhaltet. Im Falle eines stimmhaften Lautes wird die Pitch berechnet und ausgeben, andernfalls<br />

wird in der Regel die Pitch gleich Null gesetzt. Die Bestimmung, ob ein Frame einen<br />

stimmhaften oder einen stimmlosen Laut enthält, geschieht in den einzelnen <strong>Algorithmen</strong> auf<br />

unterschiedliche Art und Weise. Oft wird die Klassifikation aus einer bestimmten Kombination<br />

von ¢¡ , £¥¤§¦¨¡ und Spitzenwert der Periodenberechnungsfunktion ermittelt. Beispielsweise verwenden<br />

ROSS, ET AL. [30] eine ausgeklügelte Logik im Anschluß an die Periodenbestimmung.<br />

BOERSMA [5] bestimmt <strong>für</strong> jeden Frame eine Menge von möglichen Kandidaten, die durch<br />

eine Gewichtungsfunktion bewertet werden. Daran anschließend wird mit Hilfe von dynamischer<br />

Programmierung ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Als Nebenprodukt<br />

der Bestimmung der Pitch erhält man durch die Klassifikation in stimmhafte, stimmlose<br />

und stille Segmente eine (einfache) Pausendetektion. Zur Verdeutlichung, wie ein Pitch-Verlauf<br />

aussehen kann, zeigt die Abbildung 3.7 Ausschnitte aus Pitch-Verläufen verschiedener Sprecher,<br />

die [23] und [24] entstammen. Es ist gut erkennbar, daß der Pitch-Verlauf der Dozentin insgesamt<br />

höher angesiedelt ist, als der der männlichen Vortragenden.<br />

Für die Bestimmung der Pitch gibt es eine Vielzahl verschiedener Ansätze. Im Rahmen<br />

dieser Arbeit werden nur Pitch-Detektions-<strong>Algorithmen</strong> (PDA) vorgestellt, die versuchen, die<br />

Periode des Signals zu bestimmen. Hierzu wird idealisierend angenommen, das Sprachsignal<br />

sei ein Zufallsprozeß und <strong>für</strong> eine gewisse Zeit von etwa © stationär. Fünf Ansätze<br />

zur Bestimmung der Pitch, die auch (teilweise vereinfacht) zu Versuchszwecken implementiert<br />

wurden, werden in den folgenden Kapiteln genauer beschrieben, wobei nur die dahinterstehende<br />

Idee vermittelt werden soll. Es wird sich zeigen, daß die Pitch allein mit Ausführung der jeweiligen<br />

Funktion nicht zufriedenstellend bestimmt werden kann. In der Regel muß sich noch<br />

53


54 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Frequenz [Hz]<br />

Frequenz [Hz]<br />

250<br />

225<br />

200<br />

175<br />

150<br />

125<br />

100<br />

75<br />

50<br />

9700 9750 9800 9850 9900 9950<br />

Frame-Index<br />

10000 10050 10100 10150 10200<br />

250<br />

225<br />

200<br />

175<br />

150<br />

125<br />

100<br />

75<br />

(a) männlich<br />

50<br />

2000 2050 2100 2150 2200 2250<br />

Frame-Index<br />

2300 2350 2400 2450 2500<br />

(c) männlich<br />

Frequenz [Hz]<br />

Frequenz [Hz]<br />

250<br />

225<br />

200<br />

175<br />

150<br />

125<br />

100<br />

75<br />

50<br />

9500 9550 9600 9650 9700 9750<br />

Frame-Index<br />

9800 9850 9900 9950 10000<br />

250<br />

225<br />

200<br />

175<br />

150<br />

125<br />

100<br />

75<br />

(b) männlich<br />

50<br />

9000 9050 9100 9150 9200 9250<br />

Frame-Index<br />

9300 9350 9400 9450 9500<br />

(d) weiblich<br />

Abbildung 3.7: Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten<br />

(a) bis (c) sind männlich, (d) ist weiblich.


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

eine Nachverarbeitung anschließen, <strong>für</strong> die zum Teil erheblicher Aufwand betrieben wird.<br />

In den folgenden Abschnitten werden nun die Ideen und Konzepte der PDAs erläutert, die<br />

auf der Grundlage von Autokorrelation, Average Magnitude Difference Function und reellem<br />

Cepstrum operieren. Sie wurden ausgewählt, weil sie relativ einfach zu Vergleichszwecken zu<br />

implementieren sind und ausreichend gute Ergebnisse liefern. In [28] findet sich ein ausführlicher<br />

Performance-Vergleich verschiedener PDAs, die auf den eben genannten Konzepten beruhen.<br />

Es zeigte sich, daß keiner der untersuchten PDAs über alle Sprecher, Aufnahmesituationen<br />

und Fehlermessungen beste Ergebnisse lieferte.<br />

3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation<br />

Dieser Abschnitt erklärt die Funktionsweise dreier PDAs, die auf der Basis der Autokorrelation<br />

operieren. Zunächst soll kurz das Konzept der Kreuz- sowie der Autokorrelation vorgestellt<br />

werden. Diese beiden Konzepte sind eng miteinander verwandt.<br />

Definition 3.5 Die short-term crosscorrelation zweier reellwertiger, kausaler<br />

<br />

Signalfolgen<br />

<br />

und ist definiert durch<br />

© ¡ <br />

<br />

¡ <br />

<br />

Die short-term autocorrelation einer reellwertigen<br />

<br />

Signalfolge<br />

die wie folgt definiert ist:<br />

©© ¡ <br />

<br />

¡©£ § <br />

<br />

ist eine Folge ©© ¡ <br />

¡<br />

<br />

£¡¢¡¢<br />

<br />

wobei die Zeitverschiebung (lag) angibt und den Index des Frameendes kennzeichnet. <br />

¡©£ § <br />

55<br />

(3.17)<br />

,<br />

<br />

(3.18)<br />

Die Kausalität der Signale wird durch Windowing erreicht, wobei in diesem speziellen Fall<br />

ein Rechteck-Fenster verwendet wird. Die Autokorrelationsfolge ©© ¡<br />

(AKF)<br />

<br />

hat sehr<br />

wichtige Eigenschaften. Eine wichtige Eigenschaft ist, daß sich die Form der AKF bei einer<br />

Skalierung der Amplitudenwerte der Signalfolge<br />

nicht ändert, nur die Amplitudenwerte<br />

der AKF ändern sich entsprechend. Zudem erreicht die AKF ihren Maximalwert bei einer Zeitverschiebung<br />

von . Der Wert ©© ¢ <br />

kann zur Normalisierung herangezogen werden,<br />

die Werte der AKF liegen dann im Bereich von -1 bis 1. Dies erleichtert die Anwendung von<br />

Schwellwerten. Die normalisierte Autokorrelationsfolge £ ©© ¡<br />

¢<br />

<br />

ergibt sich durch <br />

£¥¤¦¤<br />

§ <br />

<br />

©© § <br />

<br />

©© <br />

<br />

¢<br />

(3.19)<br />

Eine weitere wichtige Eigenschaft ist, daß die AKF einer periodischen Folge selbst eine<br />

periodische Folge darstellt, die Peaks bei ¢ ¦ usw. aufweist. Abbildung 3.8 zeigt


56 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

−1<br />

0 50 100 150 200 250 300 350 400 450 500<br />

(a) Sinus-Signal, das mit einem<br />

Rechteck-Fenster multipliziert wurde<br />

80<br />

60<br />

40<br />

20<br />

0<br />

−20<br />

−40<br />

−60<br />

−80<br />

0 20 40 60 80 100 120<br />

(b) AKF des nebenstehenden Signals,<br />

wobei aufgrund der Symmetrie der<br />

AKF nur positive Verschiebungen berücksichtigt<br />

wurden<br />

Abbildung 3.8: "Gefenstertes" Sinus-Signal und dessen AKF<br />

ein mit einem Rechteck-Fenster multipliziertes Sinussignal und deren AKF, wobei aufgrund der<br />

Symmetrie der AKF nur positive Zeitverschiebungen § ¢ berücksichtigt werden. Diese Eigenschaft<br />

der AKF <strong>für</strong> periodische Signale wird bei der Pitch-Detektion ausgenutzt, um die Periode<br />

des Signals zu bestimmen.<br />

<br />

In praktischen Anwendungen ist das beobachtete physikalische Signal (in unserem Fall das<br />

Sprachsignal) durch zufällige Interferenzen gestört. Sei eine Signalfolge,<br />

wobei <br />

Periode eine periodische Folge unbekannter ist, und eine additive zufällige<br />

Interferenz darstellt. Angenommen, es werden <br />

<br />

Samples von<br />

<br />

mit<br />

¢<br />

<br />

<br />

beobachtet, wobei ¢<br />

<strong>für</strong><br />

und es gilt § ¢<br />

und<br />

<br />

. Nun läßt sich die AKF<br />

von durch<br />

§ ¡ £<br />

<br />

(3.20)<br />

¢¡ <br />

<br />

<br />

£¡<br />

<br />

<br />

berechnen, wobei das Signal zum Zeitpunkt ¢<br />

<br />

<br />

beginnt und Abtastwerte lang ist. Wird<br />

in (3.20) eingesetzt, so erhält man<br />

§ ¡ £<br />

<br />

<br />

<br />

<br />

<br />

¤¡<br />

©©<br />

<br />

© ¡ ¤¡ <br />

¡ © ¢¡ <br />

¢¡<br />

¡ ¡ ¢¡<br />

¥¡ <br />

(3.21)<br />

(3.22)<br />

© ¡ ¢¡<br />

<br />

¡ © ¢¡<br />

<br />

<br />

Die Erwartung ist nun, daß die Kreuzkorrelationen und des Signals und der<br />

additiven zufälligen Interferenz sehr klein sind, da vorausgesetzt wird, daß die beiden<br />

Signale nicht korreliert sind. Die Autokorrelationsfolge des zufälligen Signals wird einen


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Peak bei ¡ besitzen, aber aufgrund der Zufallseigenschaften wird <br />

¡ ¡ ¢¡<br />

sehr schnell<br />

¢<br />

gegen Null gehen. ©© ¢¡<br />

Nur wird große Peaks<br />

¡<br />

<strong>für</strong><br />

¢<br />

enthalten. Dieses Verhalten erlaubt die<br />

Bestimmung der Präsenz und der Periode des periodischen Signals ¤ , welches von<br />

einem Interferenzsignal gestört ist. Im Fall von Sprachsignalen ist die Bestimmung der<br />

Periode aufgrund der oben genannten Probleme leider nicht so einfach möglich.<br />

Die naive Berechnung der short-term autocorrelation hat quadratische Laufzeit, weshalb die<br />

FFT zur Beschleunigung eingesetzt wird. Dies ist möglich, weil die short-term autocorrelation<br />

der Signalfolge als Faltung angesehen werden kann (vergleiche Kapitel 2.3.4). Zusätzlich<br />

kann bei der Berechnung mittels der FFT eine weitere Eigenschaft der AKF ausgenutzt werden<br />

– die AKF ist symmetrisch zum Ursprung ¡ ¢ , es gilt also ©© ¢¡ <br />

müssen nur positive Verschiebungen betrachtet werden. Abbildung 3.9 verdeutlicht die effiziente<br />

Berechnung der short-term autocorrelation mittles FFT.<br />

FFT IFFT<br />

£ ¡ ££¢ § ¤ ¡ ££¢ §¥¤ ¤ ¡ £¦¢ §§¤ ¨ £<br />

¤©¤ §<br />

§<br />

¥¨§ ©<br />

Abbildung 3.9: Effiziente Berechnung der AKF mittels FFT<br />

Der AUTOC-Pitch-Detektions-Algorithmus<br />

57<br />

©© ¡ <strong>für</strong> alle ¡ . Somit<br />

Abbildung 3.10 zeigt das Blockdiagramm des AUTOC-PDAs [28]. Das Eingangssignal wird zunächst<br />

einem Tiefpaßfilter mit einer Grenzfrequenz von 900 Hz zugeführt. Dieser Filter kann<br />

durch ein FIR- oder IIR-Filter realisiert werden (vergleiche Kapitel 2.3.4). Die zu Testzwecken<br />

implementierte Version dieses PDAs verwendet hier ein IIR-Butterworth-Filter. Die Besonderheiten<br />

dieses Filters zu beschreiben, würde den Rahmen dieser Arbeit sprengen und ist <strong>für</strong> das<br />

Verständnis des PDAs nicht von Bedeutung. Das gefilterte Signal wird mittels Windowing in sich<br />

überlappende Frames mit einer Länge von jeweils <br />

werden nun untersucht. Der Stille-Detektor überprüft, ob die short-term energy innerhalb dieses<br />

Frames einen bestimmten Schwellwert überschreitet. Tut sie dies nicht, so wird dieser Frame als<br />

Stille klassifiziert. Andernfalls wird mit Hilfe der short-term autocorrelation die Pitch-Detektion<br />

durchgeführt. Das Center-Clipping dient der Fokussierung auf die Pitch und stellt einen nichtlinearen<br />

Operator dar. Der verwendete Operator geht auf SONDHI (1968) zurück. Nun wird<br />

in einem bestimmten Bereich der AKF der größte Autokorrelationswert und dessen Position<br />

bestimmt. Die Position des größten Autokorrelationswertes ergibt die Periode des zugrundeliegenden<br />

Signals. Anschließend wird der Peak-Wert mit einem Schwellwert verglichen, anhand<br />

dessen entschieden wird, ob der Frame als stimmhaft oder stimmlos klassifiziert wird. Abbildung<br />

3.11 zeigt einen Ausschnitt aus einem Pitch-Verlauf, der mit diesem PDA berechnet wurde.<br />

¢ aufgeteilt. Die entstehenden Frames


58 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

finde absoluten<br />

Peak-Level in<br />

den ersten 10ms<br />

setze Clipping-Level<br />

finde absoluten<br />

Peak-Level in<br />

den letzten 10ms<br />

IPK1 IPK2<br />

¢¡ ©¤£¦¥¨§¨£© ¡ © §<br />

Schwellwertbestimmung<br />

Tiefpaßfilter<br />

© £¦¥¨§<br />

Windowing<br />

stimmhaft,<br />

Periode = IPOS<br />

Center clipper Stille-Detektor<br />

short-term<br />

autocorrelation<br />

finde Position, Wert<br />

des AC-Peaks<br />

IPK<br />

IPOS<br />

vergleiche Peak-Wert<br />

mit V/U Schwellwert<br />

stimmlos<br />

Abbildung 3.10: Blockdiagramm des AUTOC Pitch-Detektors [28]<br />

Stille


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Pitch F0<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

1000 1200 1400 1600 1800 2000<br />

Frame-Index<br />

Abbildung 3.11: Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde.<br />

Der Pitch-Detektions-Algorithmus nach BOERSMA<br />

Ein zweiter Ansatz zur Bestimmung der Pitch stammt von BOERSMA [5] und wird durch Abbildung<br />

3.12 verdeutlicht. Er beschreibt einen PDA, der verschiedene Kritikpunkte an Verfahren<br />

basierend auf der Autokorrelation beseitigen soll. Zunächst wird die Abtastfrequenz verdoppelt<br />

(Upsampling). Mit Hilfe dieser Operation sollen die sidelobes (vergleiche Abschnitt 3.1) der<br />

Fouriertransformation des Hanning-Fensters <strong>für</strong> Signalkomponenten nahe der Nyquistfrequenz<br />

entfernt werden. Hierzu wird das Signal mit einer N-Punkt FFT in den Frequenzbereich transformiert.<br />

Im Frequenzbereich wird nun ein linearer (Tiefpaß-)Filter angewendet. Der nächste<br />

Schritt besteht dann darin, eine 2N-Punkt inverse FFT durchzuführen. Es folgt das Windowing<br />

mit Hilfe eines Hanning-Fensters, bei dem das Sprachsignal in Frames zerlegt wird. Im Anschluß<br />

daran wird die short-term autocorrelation des entstandenen Frames berechnet, normalisiert und<br />

durch die (normalisierte) AKF des Hanning-Fensters dividiert. Durch die Division wird dem abfallenden<br />

Charakter der AKF entgegengewirkt. Zudem wird nicht nur ein einzelner Peak-Wert<br />

und die daraus resultierende Pitch berechnet, sondern mehrere Kandidaten. Diese werden nach<br />

bestimmten Gesichtspunkten gewichtet. Dies bedeutet, daß es zu jedem Frame mehrere Pitch-<br />

Kandidaten gibt. In einem Postprocessing wird dann mit Hilfe von dynamischer Programmierung<br />

ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Das Verfahren soll um mehrere<br />

Ordnungen genauer sein als übliche PDAs und zudem wesentlich flexibler und robuster.<br />

Der ModifiedACF-Pitch-Detektions-Algorithmus<br />

Der im folgenden beschriebene PDA basiert auch auf der in diesem Kapitel beschriebenen shortterm<br />

autocorrelation und soll fortan ModifiedACF-PDA genannt werden. Er stellt eine Vereinfachung<br />

des oben erläuterten PDAs von BOERSMA dar. Dies ist auch der Algorithmus, der<br />

später bei der Emphasis-Detektion (siehe Kapitel 4.2) eingesetzt wird. Abbildung 3.13 zeigt<br />

59


60 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

N-<br />

FFT<br />

2N-<br />

IFFT<br />

© £¦¥¨§<br />

normalisierte<br />

short-term autocorrelation<br />

£¦¥¢¡¤£ §<br />

stimmhaft, <br />

Upsampling<br />

Windowing<br />

Hanning-Fenster<br />

¥ £ ¥¨§ ¦ £¦¥¨§<br />

finde und bewerte<br />

Kandidaten<br />

suche mittels DP<br />

beste Kandidaten<br />

normalisierte<br />

short-term autocorrelation<br />

§©¨¨ §<br />

<br />

<br />

stimmlos bzw. Stille, 0Hz<br />

Abbildung 3.12: Blockdiagramm des PDAs nach BOERSMA [5]


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Sprachsignal<br />

£¦¥¨§ ¦ £ ¥¨§<br />

¥<br />

Windowing<br />

normalisierte<br />

short-term autocorrelation<br />

<br />

£¦¥¢¡£ §<br />

¨¨<br />

<br />

<br />

finde Peak<br />

Hanning-Window<br />

normalisierte<br />

short-term autocorrelation<br />

stimmlos stimmhaft<br />

Abbildung 3.13: Blockdiagramm des ModifiedACF-PDAs.<br />

eine schematische Darstellung dieses PDAs. Das Signal wird zunächst <br />

¢ <br />

im Abstand von<br />

mittels Windowing in Frames ¥ mit einer Länge von ¥<br />

¢ <br />

zerlegt, wobei das Windowing<br />

<br />

mit Hilfe ¡¢¡ <br />

¦<br />

eines Hanning-Fensters durchgeführt wird. Die Frames überlappen sich<br />

also<br />

¢ <br />

<br />

jeweils um . Die Framelänge wurde so gewählt, daß sie mindestens drei<br />

Perioden der tiefsten zu detektierenden Frequenz abdeckt [5]. Daraufhin wird die (normalisierte)<br />

short-term autocorrelation des entstandenen Frames berechnet. Die resultierende Autokorrelationsfolge<br />

wird durch die (normalisierte) AKF des Hanning-Fensters geteilt, es<br />

<br />

ergibt sich<br />

somit folgende AKF<br />

©© § <br />

<br />

<br />

<br />

Innerhalb eines bestimmten Bereichs <br />

mit ¢ ¤ wird nun der Spitzenwert der AKF<br />

gesucht. wird so gewählt, daß es der höchsten zu detektierenden Frequenz entspricht und<br />

wird so gewählt, daß es der tiefsten zu detektierenden Frequenz entspricht.<br />

<br />

¥ ¥ ¡<br />

¡ ¡ ¡ <br />

Beispiel: Die Abtastfrequenz ¥<br />

<br />

¦ ¤ ¡ des Sprachsignal beträgt<br />

, die tiefste zu detektierende<br />

¢<br />

¡ Frequenz sei und die höchste zu detektierende ¡ © ¢ ¢<br />

¡ Frequenz sei .<br />

Dann lassen sich ¡¡ und wie folgt berechnen:<br />

¤£<br />

<br />

¥<br />

¥<br />

©§¦ ¡<br />

<br />

¥<br />

¦ ¤ ¡ <br />

¢<br />

¡ ¦ ¢<br />

<br />

<br />

<br />

61<br />

¥ (3.23)


62 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

<br />

¥<br />

¡¡¢¡<br />

¦ ¤ ¡ £ ¢<br />

¡ ¡ £<br />

Man muß in diesem Beispiel die AKF also nur im ¥ Intervall<br />

hin untersuchen. Angenommen, der Spitzenwert liege nun bei <br />

Frequenz von<br />

¡ <br />

¥<br />

¦¥¤ ¤ <br />

<br />

<br />

¥<br />

¡<br />

¦<br />

¡<br />

¢£¢<br />

¦<br />

(3.24)<br />

auf einen Spitzenwert<br />

¢£¢<br />

. Dies entspricht nun einer<br />

<br />

(3.25)<br />

<br />

Dies ist die gesuchte Pitch. Man erkennt aus den Gleichungen (3.23), (3.24) und (3.25) leicht,<br />

daß die Auflösung bezüglich der Frequenz von der ¥ Abtastfrequenz abhängt. Je höher die Abtastfrequenz<br />

ist, umso besser ist das Auflösungsvermögen. Da die Abtastfrequenz nicht beliebig<br />

hoch gewählt werden kann, behilft man sich damit, eine Interpolation der Werte der AKF durchzuführen<br />

und den Spitzenwert bezüglich dieser Interpolation zu berechnen [5].<br />

Sind <strong>für</strong> die Sprachdatei alle Pitch-Werte berechnet, so schließt sich nun das Postprocessing<br />

an. Dies ist nötig, da das Verfahren noch Fehler macht. Mögliche, leicht zu erkennende und<br />

behebbare, Fehler sind:<br />

1. Die detektierte Frequenz ist halb so groß, wie sie sein sollte, ¡<br />

¡ ¥ ¥ <br />

2. Die detektierte Frequenz ist doppelt so groß, wie sie sein sollte, ¡<br />

§¦©¨<br />

. <br />

¥ <br />

Einen möglichen Pitch-Verlauf ohne Nachbearbeitung zeigt Abbildung 3.14(a). Die Glättung<br />

des Pitch-Verlaufs kann auf unterschiedliche Art und Weise geschehen. Eine Möglichkeit besteht<br />

in der Anwendung von Filtern, wie beipielsweise Median-Filtern oder linearen Filtern<br />

(vergleiche Kapitel 2.3.4). Eine andere Möglichkeit ist die Interpolation der Pitch-Werte. Sowohl<br />

BOERSMA als auch DE MORI, OMOLOGO gehen über eine Filterung hinaus und ermitteln<br />

mehrere Pitch-Kandidaten. Mittels dynamischer Programmierung wird anschließend der<br />

"korrekte" Pitch-Verlauf berechnet. Für den ModifiedACF-PDA wurde in dieser Diplomarbeit<br />

ein Postprocessing entwickelt, das die Fehlerbeseitigung und Glättung wie folgt angeht:<br />

© <strong>für</strong> <br />

¡ ¥ ¥ ¡<br />

¢¡<br />

<br />

1. Betrachte die Pitch-Werte<br />

¥<br />

¢£¢ <br />

ein Zeitintervall<br />

<strong>für</strong><br />

¢ ¥<br />

¢ ¢ <br />

<br />

¢£¢£¢ ¥<br />

¢ ¢ <br />

. bezeichnet die Länge der Sprachdatei be-<br />

<br />

<br />

züglich der Zeitdauer. Aufgrund der verwendeten <br />

¢ <br />

Schrittweite von bei der Framebildung<br />

enthält jedes Zeitintervall demnach 50 Pitch-Werte. Diese Anzahl hat sich <strong>für</strong><br />

dieses Pitch-Detektions-Verfahren als guter Wert herausgestellt.<br />

2. Berechne den Mittelwert der<br />

<br />

betrachteten Pitch-Werte<br />

. Pitch-Werte<br />

¡<br />

¢<br />

mit<br />

werden bei der Mittelwertbildung nicht berücksichtigt.<br />

¡ ¡<br />

3. Gehe nun die Pitch-Werte ¢¡<br />

¢<br />

¡ <br />

<br />

<br />

© der ¦<br />

<br />

¡<br />

falls<br />

¢¡ ¡ <br />

¡<br />

¥<br />

¦.<br />

Reihe nach durch und berechne ¡ wie folgt:<br />

¡<br />

© ¡<br />

falls<br />

sonst<br />

© <br />

¢¡ <br />

© ¤ <br />

¥<br />

¥<br />

¡¢<br />

<br />

<br />

¡¢


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

4. Glätte den erhaltenen Pitch-Verlauf mit einem 5-Punkt Median-Filter.<br />

5. Zurück zu 1.<br />

Abbildung 3.14(b) zeigt einen geglätteten Pitch-Verlauf, der mit dem eben beschriebenen Postprocessing<br />

erzeugt wurde. Es ist leicht zu erkennen, daß Ausreißer von diesem Verfahren sehr<br />

gut entfernt werden. Für alle PDAs und insbesondere <strong>für</strong> die Fehlerbereinigungs- und Glättungsverfahren<br />

muß folgendes angemerkt werden: die resultierenden Pitch-Verläufe sind Schätzungen<br />

der tatsächlichen Pitch-Verläufe. Es gibt keine exakten Referenz-Verläufe, anhand derer die Ergebnisse<br />

überprüft werden könnten.<br />

3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference<br />

Function (AMDF)<br />

Die Average Magnitude Difference Function ist eng mit der Autokorrelation verwandt. Anstatt<br />

die Eingabe zu verschiedenen Zeitverschiebungen zu korrelieren, wird ein Differenzsignal<br />

zwischen dem verzögerten Signal und dem Original erzeugt und zu jedem Verzögerungszeitpunkt<br />

der Absolutbetrag der Differenz berechnet. Aus dem Zeitverschiebungsindex des Minimums<br />

der resultierenden Folge läßt sich dann die Pitch bestimmen.<br />

Definition 3.6 Die Average Magnitude Difference Function (AMDF) zu einer Signalfolge <br />

der Länge ist definiert durch:<br />

<br />

© ¡ <br />

<br />

¡ <br />

wobei die Verschiebung und den Endpunkt des betrachteten Frames angibt [9].<br />

¡©£ § <br />

Die<br />

<br />

Signalfolge<br />

wenden hier ein Rechteck-Fenster, so daß sich (3.26) zu<br />

<br />

63<br />

(3.26)<br />

repräsentiert eine (beliebige) Fensterfunktion. ROSS ET AL. [30] ver-<br />

©<br />

¡ ¡ <br />

(3.27)<br />

<br />

reduziert. Es ist klar, daß das Differenzsignal bei<br />

<br />

immer Null ist. Es enthält<br />

¢<br />

tiefe<br />

Minima bei Verzögerungen, die zu der Pitch-Periode von stimmhaften Lauten korrespondieren.<br />

ROSS ET AL. begründen die Attraktivität der short-term AMDF folgendermaßen: Sie ist ein<br />

einfach zu berechnendes Maß, das gute Schätzungen des Pitch-Verlaufs liefert. Sie benötigt<br />

keine Multiplikationen und kann aufgrund der Natur ihrer Operationen gut in programmierbaren<br />

Prozessoren oder anderer spezieller Hardware implementiert werden. Allerdings ergeben sich die<br />

gleichen Probleme, wie bei den PDAs aus Kapitel 3.4.1. Zudem betreiben die Autoren einen gehörigen<br />

Postprocessing-Aufwand, um mögliche falsche Kandidaten auszuschließen, so daß das<br />

¡©£ §


64 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Pitch F0<br />

Pitch F0<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

1000 1200 1400 1600 1800 2000<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

Frame-Index<br />

(a) Pitch-Verlauf ohne Postprocessing<br />

0<br />

1000 1200 1400 1600 1800 2000<br />

Frame-Index<br />

(b) Pitch-Verlauf mit Postprocessing<br />

Abbildung 3.14: Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing,<br />

(b) mit Postprocessing erzeugt wurden.


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

stZCR<br />

x(n)<br />

Dezimation<br />

3:2<br />

Windowing<br />

short-term<br />

energy<br />

Tiefpaßfilter<br />

stimmhaft, Periode=IPOS<br />

IPOS<br />

short-term<br />

AMDF<br />

Pitch-Perioden<br />

Logik<br />

V/U Klassifikation basierend auf<br />

short-term ZCR, short-term energy und<br />

short-term AMDF<br />

MAX/MIN<br />

stimmlos<br />

Abbildung 3.15: Blockdiagramm eines AMDF Pitch-Detektors [28]<br />

Argument der einfachen Berechnung so nicht mehr gilt. Die Abbildung 3.15 zeigt das Blockdiagramm<br />

eines PDAs, der auf der short-term AMDF basiert. Die Auswertungslogik der letzten<br />

Stufe ist sehr umfangreich und läßt sich bei Interesse in [30] nachlesen. Zu Testzwecken wurde<br />

eine vereinfachte Version dieses Verfahrens implementiert. Die berechneten Pitch-Verläufe sind<br />

denen des AUTOC-PDAs sehr ähnlich.<br />

3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums<br />

Nach dem in Kapitel 2.2.4 vorgestellten Sprachproduktionsmodell kommt stimmhafte Sprache<br />

durch eine Faltung einer Anregungsfolge © mit der Impulsantwort des<br />

<br />

Vokaltrakts zustande,<br />

© ¢¡<br />

<br />

65


66 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Die einzelnen Komponenten sind also nicht linear zusammengesetzt. Das Cepstrum stellt eine<br />

Transformation des Sprachsignals dar, mit deren Hilfe die Anregungsfolge © und die Impuls-<br />

<br />

antwort in gewissen Grenzen getrennt werden können. Der Begriff Cepstrum entsteht durch<br />

Umordnung der Buchstaben des Wortes "spectrum" und deutet die Umordnungen der Frequenzeigenschaften<br />

an, die bei der Bildung des Cepstrums entstehen [12]. Das Cepstrum hat zwei<br />

wichtige Eigenschaften:<br />

1. Die Repräsentanten der Komponentensignale werden im Cepstrum voneinander getrennt.<br />

2. Die Repräsentanten der Komponentensignale werden im Cepstrum linear kombiniert.<br />

Der erste Punkt ist im Zusammenhang mit der Bestimmung der Pitch von Bedeutung. Das<br />

Cepstrum trennt Anregungsfolge © und Impulsantwort des Vokaltraktes, so daß die<br />

Hoffnung besteht, daß mit seiner Hilfe die Periode des Anregungssignals relativ einfach zu bestimmen<br />

ist. Abbildung 3.16 zeigt einen Auschnitt aus einem Sprachsignal und das berechnete<br />

Cepstrum <strong>für</strong> je ein stimmhaftes Segment und ein stimmloses Segment. Für das stimmlose<br />

Segment ist kein Peak im Cepstrum vorhanden, während im Cepstrum <strong>für</strong> das stimmhafte<br />

Segment ein, wenn auch kleiner, Peak zu sehen ist. Dieser Peak enspricht der Pitch, die sich<br />

mit Hilfe des Sample-Index berechnen läßt.<br />

Cepstrale Analyse ist ein Spezialfall innerhalb einer Klasse von Methoden die als homomorphe<br />

Signalverarbeitung bekannt sind. Das aus der homomorphen Signalverarbeitung abgeleitete<br />

Cepstrum wird üblicherweise komplexes Cepstrum (CC) genannt. Das auf BOGEY-TUKEY-<br />

HEALEY (1963) zurückgehende Cepstrum wird im allgemeinen als "Cepstrum" bezeichnet. Um<br />

Konfusionen zu vermeiden, wird letzteres reelles Cepstrum (RC) genannt. Der Hauptunterschied<br />

zwischen reellem und komplexem Cepstrum besteht in der Tatsache, daß das reelle Cepstrum<br />

die Phaseninformation über das Signal entfernt, während sie beim komplexen Cepstrum<br />

erhalten bleibt.<br />

Definition 3.7 Das short-term real Cepstrum ist definiert durch<br />

¡ ¥<br />

<br />

¦<br />

¥§¦<br />

¥ £¢¥¤<br />

£<br />

£<br />

£<br />

£<br />

¤¡ ©¢¡¤£ ¥ © ¡¤£ ¨ <br />

£<br />

<br />

£<br />

¡ ¦ ¤£ §<br />

£<br />

mit ¡ <br />

<br />

<br />

und ist der Index des Frameendes.<br />

¢ ¥ <br />

steht <strong>für</strong> das "gefensterte" Eingangssignal.<br />

<br />

£<br />

£<br />

£<br />

(3.28)<br />

Aus dieser Definiton läßt sich leicht erkennen, daß das reelle Cepstrum durch die Betragsbildung<br />

nur Informationen des Amplitudenspektrums verwendet und alle Phaseninformationen<br />

verwirft. Da in der Praxis die diskrete Fourier-Transformation anstatt der zeitdiskreten Fourier-<br />

Transformation benutzt werden muß, wird das reelle Cepstrum folgendermaßen definiert:<br />

¢<br />

¡ ¥<br />

<br />

<br />

<br />

<br />

<br />

¢<br />

<br />

¡ ¥ ¦<br />

¨§ <br />

¢ <br />

andere <br />

<br />

<br />

<br />

<br />

(3.29)


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

Amplitude<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

−1<br />

stimmhaft<br />

stimmlos<br />

2000 4000 6000 8000<br />

Zeit (Samples)<br />

10000 12000 14000 16000<br />

(a) Sprachsignal, hier ein Ausschnitt aus [24]<br />

Pitch<br />

50 100 150<br />

Zeit (Samples)<br />

200 250<br />

(b) reelles Cepstrum <strong>für</strong> ein stimmhaftes Segment<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

50 100 150<br />

Zeit (Samples)<br />

200 250<br />

(c) reelles Cepstrum <strong>für</strong> ein stimmloses Segment<br />

Abbildung 3.16: Ein Ausschnitt eines Sprachsignals und die Cepstra <strong>für</strong> (a) ein stimmhaftes Segment,<br />

(b) ein stimmloses Segment<br />

67


68 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

Aus dieser Definition ¢ ¡ ¥<br />

<br />

folgt,<br />

<br />

daß eine periodische Version der "wahren" ¡ ¥<br />

<br />

Größe<br />

ist, die bestimmt werden soll.<br />

Das Sprachsignal wird im ersten Schritt mittels Windowing in Frames zerlegt. Nun wird der entstandene<br />

Frame<br />

¥ künstlich verlängert und mit Nullen aufgefüllt, diesen Vorgang nennt<br />

<br />

man Zero Padding. Da das short-term real cepstrum unendliche Dauer hat, ist Aliasing<br />

<br />

unvermeidbar<br />

[9]. Es ist aber möglich, die Artefakte klein zu halten. Dies kann bei der Berechnung<br />

mit Hilfe der DFT durch das obengenannte Zero Padding erreicht werden. Der nächste Schritt<br />

besteht nun darin, die short-term DFT <strong>für</strong> diesen Frame zu berechnen. Nun wird der Absolutbetrag<br />

des entstehenden Spektrums gebildet und anschließend logarithmiert. Das Ergebnis dieser<br />

Operation wird nun mittels inverser DFT in den Zeitbereich zurücktransformiert (vergleiche Abbildung<br />

3.17). Das short-term real cepstrum läßt sich effizient mit Hilfe der FFT berechnen.<br />

s(n)<br />

w(m-n)<br />

Zero-<br />

padding<br />

¢¡¤£¦¥¤§¨¥<br />

stDFT IDFT<br />

Abbildung 3.17: Berechnung der stRC mittels DFT<br />

¤<br />

©<br />

Abbildung 3.18 zeigt das Blockdiagramm eines auf dem short-term real cepstrum basierenden<br />

Pitch-Detektions-Algorithmus.<br />

3.4.4 Zusammenfassung<br />

Dieses Kapitel stellte verschiedene Ansätze zur Bestimmung der Pitch eines Sprachsignals vor.<br />

Keiner dieser Ansätze kann perfekte Ergebnisse liefern. In der Einführung dieses Kapitels<br />

wurden die Probleme angedeutet. Die tatsächlichen Implementationen beinhalten in der Regel<br />

einen erheblichen Nachverarbeitungsaufwand, um die berechneten Pitch-Verläufe den tatsächlichen<br />

Verläufen anzugleichen. Es handelt sich bei der Bestimmung der Pitch mit diesen Mitteln<br />

also um eine mehr oder weniger gute Schätzung der tatsächlichen vorhandenen Werte.<br />

Für die Berechnung der Pitch im Rahmen des pitchbasierten Segmentierungsalgorithmus (vergleiche<br />

Kapitel 4.2) kommt der ModifiedACF-PDA zur Anwendung. Da das Postprocessing<br />

der in der Literatur beschriebenen <strong>Algorithmen</strong> sehr aufwendig ist, wurde ein einfacheres Verfahren<br />

<strong>für</strong> diesen PDA entwickelt, das ausreichend gute Resultate erzielt. Der Pitch-Detektions-<br />

Algorithmus als Ganzes ergab sich durch das Studium der in der Literatur vorhandenen PDAs<br />

und lieferte (subjektiv) die besten Werte. Da keine Referenzdaten vorlagen, kann aber keine genaue<br />

Aussage über die Genauigkeit des Verfahrens gemacht werden.


3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />

Windowing<br />

(Hamming)<br />

512 Punkt<br />

DFT<br />

Log|x|<br />

512 Punkt<br />

IDFT<br />

Peak-<br />

Detektor<br />

IPK IPOS<br />

V/U basierend auf<br />

cepstralem Peak u.<br />

short-term ZCR<br />

x(n)<br />

Segmentierung<br />

in Frames<br />

short-term<br />

ZCR<br />

stimmlos stimmhaft, Periode= IPOS<br />

Stille-Detektor<br />

Stille<br />

Abbildung 3.18: Blockdiagramm eines CEP Pitch-Detektors [28]<br />

69


Kapitel 4<br />

Segmentierungsverfahren<br />

In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von<br />

low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features,<br />

wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun<br />

geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die<br />

zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im<br />

Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand<br />

dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente,<br />

die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet<br />

werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung<br />

von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand<br />

des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue<br />

inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der<br />

Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber<br />

nicht Teil dieser Arbeit.<br />

4.1 Pausenbasierte Segmentierung (PBS)<br />

Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz,<br />

einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die<br />

Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen-<br />

¥<br />

¢ £ ¢ ¢ <br />

dauer reicht typischerweise von . Die Mehrzahl der Pausen haben<br />

von¦<br />

eine<br />

¢<br />

Länge von<br />

¢£¢ <br />

etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und<br />

¥ ¥<br />

nicht unter der Kontrolle etwa¦<br />

¢£¢ <br />

des ¥<br />

¢ <br />

Sprechers liegen, dauern . Sogenannte Juncture-<br />

Pausen, die der Sprecher kontrollieren kann, haben ¥<br />

¢£¢ <br />

<br />

¢ ¢£¢ <br />

eine Länge von .<br />

¢ ¢<br />

Atempausen<br />

<br />

dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen<br />

<br />

und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue<br />

Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere<br />

bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit.<br />

¦<br />

70


4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 71<br />

Es soll jetzt ein erstes Verfahren zur Segmentierung eines Sprachsignals vorgestellt werden. Es<br />

beruht darauf, das Sprachsignal in Segmente aufzuteilen, die Sprache enthalten, und solche, die<br />

Sprachpausen beinhalten. Die jeweiligen Segmente bestehen in der Regel aus mehreren Frames.<br />

In den Pausen-Segmenten muß nicht völlige Stille herrschen. Sie können allerlei Hintergrundgeräusche<br />

enthalten. Hierin besteht auch eine Schwierigkeit bei der Klassifikation und Zuweisung<br />

der Frames zu den entsprechenden Segmenten. Wie in der Einleitung zu diesem Kapitel angedeutet<br />

wurde, wird zur Klassifikation der Frames des Sprachsignals die short-term energy und<br />

die short-term zero crossing rate herangezogen. Mit Hilfe der Energie-Werte werden Bereiche<br />

lokalisiert, die stimmhafte Laute beinhalten. Die Nulldurchgangsrate dient dazu, Bereiche mit<br />

stimmlosen Lauten zu identifizieren. Ein Merkmal stimmloser Laute ist, daß die zu ihnen korres-<br />

¡<br />

¥ pondierende hoch ist, da sie in der Regel einen hohen Rauschanteil enthalten. Leider kann<br />

¨<br />

das Sprachsignal insgesamt sehr verrauscht sein. Dies kann zum einen durch die Aufnahmetechnik<br />

bedingt sein, zum anderen aber auch durch Hintergrundgeräusche wie beispielsweise<br />

¡<br />

laute Lüfter. Unter Umständen ist es bei ¨ ¥ einer hohen schwierig zu entscheiden, ob nun<br />

ein stimmloser Laut oder einfach nur Hintergrundrauschen vorliegt. Ein möglicher Ansatz zum<br />

Umgang mit diesem Problem wird im Laufe dieses Abschnitts vorgestellt.<br />

Die Identifizierung von Sprachsegmenten entspricht dem klassischen Problem der Endpunkt-<br />

Detektion innerhalb der Sprachverarbeitung. Zu diesem Thema gibt es eine Vielzahl von<br />

Arbeiten. Im Rahmen dieser Arbeit wurde ein Algorithmus verwendet, der von LAMEL ET. AL<br />

[20] stammt und von ARONS [2] modifiziert wurde. Dieser Algorithmus zur Endpunkt-Detektion<br />

wurde ursprünglich <strong>für</strong> Aufnahmen von Telefongesprächen entwickelt. Das Telefonsignal ist im<br />

allgemeinen mehr oder weniger stark verrauscht. Ein Algorithmus, der <strong>für</strong> solche Signale gute<br />

Ergebnisse erzielt, sollte auch <strong>für</strong> den Einsatz bei aufgezeichneten Vorlesungen geeignet sein,<br />

da es auch hier durch die Aufnahmetechnik oder durch Hintergrundgeräusche bedingt, zu einem<br />

starkem Rauschanteil im aufgezeichneten Signal kommen kann.<br />

4.1.1 Der Pausen-Detektions-Algorithmus<br />

Im folgenden soll der verwendete Algorithmus genauer erläutert werden, der eine leicht modifizierte<br />

Version des in [2] (Kap. 5.9.3) verwendeten Algorithmus ist, welcher wiederum eine<br />

modifizierte Version des oben genannten Ansatzes von LAMEL ET. AL darstellt. Die vorgestellte<br />

Technik arbeitet laut den Autoren unter einer Vielzahl von Umgebungsbedingungen. Die Autoren<br />

zeichneten Sprache in einer Büroumgebung mit Lüftergeräuschen von Computern und Vorträge<br />

in Vorlesungssäalen mit über 40 Studenten auf und behaupten, daß diese Aufnahmen erfolgreich<br />

mit ihrer Methode in Sprache und Hintergrundgeräusche segmentiert wurden.<br />

Abbildung 4.1 zeigt die schematische Darstellung des pausenbasierten Segmentierungsverfahrens.<br />

Bei diesem Ansatz werden die durch einen Windowing-Prozeß erzeugten Frames, die sich nicht<br />

überlappen, mehrere Male durchlaufen. Jeder Frame hat eine Länge <br />

¢ <br />

von und wurde mit<br />

Hilfe eines Rechteck-Fensters aus dem Sprachsignal ausgeschnitten. Im ersten Schritt werden<br />

short-term energy und short-term zero crossing rate <strong>für</strong> jeden dieser Frames bestimmt. Um<br />

den Level der Hintergrundgeräusche zu bestimmen, wird ein Histogramm der Energie-Werte be-


72 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

berechne<br />

short-term energy<br />

erstelle und glätte<br />

Histogramm<br />

ermittle<br />

Schwellwert<br />

Sprachsignal<br />

Windowing<br />

berechne<br />

short-term ZCR<br />

erstelle<br />

Histogramm<br />

ermittle<br />

Schwellwert<br />

Endpunkt-Detektion<br />

und 1. Segmentierung<br />

entferne zu kurze Lücken (


4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 73<br />

% Frames<br />

0.09<br />

0.08<br />

0.07<br />

0.06<br />

0.05<br />

0.04<br />

0.03<br />

0.02<br />

0.01<br />

Offset<br />

Schwellwert<br />

0<br />

0 5 10 15 20<br />

0.5 * x [dB]<br />

25 30 35 40<br />

(a) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />

mit hohem Rauschanteil und insgesamt hoher<br />

Aussteuerung<br />

% Frames<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

Offset<br />

Schwellwert<br />

0<br />

0 5 10 15 20 25 30 35 40 45<br />

0.5 * x [dB]<br />

(b) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />

mit niedrigem Rauschanteil und insgesamt hoher<br />

Aussteuerung<br />

Abbildung 4.2: Energie-Histogramme <strong>für</strong> verschiedene Sprecher<br />

rechnet, welches mit einem 3-Punkt FIR-Average-Filter geglättet wird. Das resultierende Histogramm<br />

hat im allgemeinen eine bimodale Verteilung; es besitzt zwei mehr oder weniger weit<br />

auseinander liegende Spitzenwerte. Abbildung 4.2 zeigt Beispiele von Energie-Histogrammen,<br />

die <strong>für</strong> zwei verschiedene Sprecher ermittelt wurden. Der erste (am weitesten links liegende)<br />

Spitzenwert korrespondiert zu den Hintergrundgeräuschen, der zweite Spitzenwert zur Sprache.<br />

Der erste Spitzenwert wird aus dem Histogramm ermittelt und dient fortan zur Festlegung eines<br />

Schwellwertes, der Hintergrundgeräusche und Sprache trennt. In Abhängigkeit der Stärke<br />

der Hintergrundgeräusche wird ein Offset zum ermittelten Hintergrundgeräuschpegel addiert. Ist<br />

dieser <br />

Pegel hoch ), wird ein Offset von addiert, andernfalls ein Offset von . ¨¢ ¡<br />

Anhand dieses Schwellwertes und der ¨ ¥ des Frames wird nun entschieden, ob der Frame<br />

¨¢ ¨¢ (¤<br />

Sprache oder Hintergrundgeräusche enthält. Hier setzt nun die oben erwähnte Modifikation des<br />

Ansatzes an. In der Arbeit von ARONS wird als Schwellwert <strong>für</strong> die Nulldurchgangsrate ein<br />

fester Wert von 2500 zcr/s verwendet [4]. Da der Hintergrundgeräuschpegel von Aufnahme zu<br />

Aufnahme stark variieren kann und der Schwellwert <strong>für</strong> die Nulldurchgangsrate nicht von mal<br />

zu mal manuell angepasst werden soll, wurde der Algorithmus <strong>für</strong> diese Arbeit modifiziert. Aus<br />

¡<br />

¥ den -Werten aller Frames wird ein Histogramm erstellt. Dieses Histogramm hat nur einen,<br />

¨<br />

da<strong>für</strong> aber sehr ausgeprägten Spitzenwert. Dieser Spitzenwert und die hiermit korrespondierende<br />

Nulldurchgangsrate wird zur Schwellwertbestimmung herangezogen. Zu diesem Wert wird noch<br />

ein Offset von hinzuaddiert. Dieses Verfahren hat den Vorteil, daß es adaptiv ist. Es ist nicht<br />

nötig, den Schwellwert <strong>für</strong> die Nulldurchgangsrate manuell an das Sprachsignal anzupassen.<br />

¡<br />

Abbildung 4.3 zeigt Beispiele ¨ ¥ von -Histogramme, die <strong>für</strong> zwei verschiedene Sprecher ermittelt<br />

wurden.<br />

¨¢


74 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

% Frames<br />

0.16<br />

0.14<br />

0.12<br />

0.1<br />

0.08<br />

0.06<br />

0.04<br />

0.02<br />

0<br />

0 5 10 15 20 25<br />

[dB]<br />

Offset<br />

Schwellwert<br />

¢¡¢£<br />

(a) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />

hohem Rauschanteil und insgesamt hoher Aussteuerung<br />

% Frames<br />

0.18<br />

0.16<br />

0.14<br />

0.12<br />

0.1<br />

0.08<br />

0.06<br />

0.04<br />

0.02<br />

0<br />

0 5 10 15 20 25<br />

[dB]<br />

Offset<br />

Schwellwert<br />

¢¡¢£<br />

(b) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />

niedrigem Rauschanteil und insgesamt hoher<br />

Aussteuerung<br />

Abbildung 4.3: ¢¡¦£ ¥ -Histogramme <strong>für</strong> verschiedene Sprecher<br />

Dieser erste Durchgang liefert nun eine sehr feine Segmentierung. Selbst bei sehr sorgfältiger<br />

Wahl der Schwellwerte macht dieses Verfahren jedoch noch Klassifikationsfehler:<br />

1. Es bleiben kurze Lücken ( ¢ ¢ <br />

) innerhalb von längeren Sprachsegmenten, die eigent-<br />

<br />

lich als Sprache klassifiziert werden müßten.<br />

2. Es verbleiben Sprachsegmente ( ¢£¢ <br />

), die zu kurz sind, um Wörter zu enthalten.<br />

<br />

3. Sprachsegmente werden versehentlich zu spät oder zu früh abgeschnitten.<br />

Deshalb wird die zuvor gewonnene Segmentierung in den Durchgängen 2–4 von diesen<br />

Klassifikationsfehlern befreit. Im Durchgang 2 werden zu kurze Lücken zwischen Sprachsegmenten<br />

entfernt, Durchgang 3 beseitigt zu kurze Sprachsegmente und Durchgang 4 erweitert die<br />

verbleibenden Sprachsegmente um jeweils¦ ¢ <br />

in beide Richtungen. Dadurch ergeben sich<br />

größere Pausen- bzw. Sprachsegmente. Die Ausgabe des PBS-Algorithmus enthält <strong>für</strong> jedes gefundene<br />

Segment den Beginn (in Sek.), die Dauer (in Sek.) und die Klassifikation (0=Pause,<br />

1=Sprache). Die Abbildungen 4.4 und 4.5 verdeutlichen den Ablauf der PBS anhand von Beispieldaten.


4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 75<br />

short−term energy<br />

Häufigkeit<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

Amplitude<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

Sprachsignal<br />

−1<br />

0 0.5 1 1.5 2<br />

Zeit (Samples)<br />

Windowing und Berechnung der Audio-Features<br />

Energie−Verlauf<br />

0<br />

0 500 1000 1500<br />

Frames<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

Schwellwert<br />

short−term ZCR<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

ZCR−Verlauf<br />

x 10 5<br />

0<br />

0 500 1000 1500<br />

Frames<br />

Schwellwertbestimmung <strong>für</strong> Endpunkt-Detektion<br />

Energie−Histogramm<br />

0<br />

0 5 10 15 20 25 30 35 40<br />

short−term energy [dB]<br />

Häufigkeit<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

ZCR−Histogramm<br />

Schwellwert<br />

0<br />

0 5 10 15 20 25 30 35 40<br />

short−term zero crossing rate [dB]<br />

Abbildung 4.4: Beispiel <strong>für</strong> den Ablauf der PBS (Teil 1)


76 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

Endpunkt-Detektion und 1. Segmentierung<br />

Start (Sek.) Dauer (Sek.) Klassifikation<br />

0.00 0.20 0<br />

0.20 0.09 1<br />

0.29 0.32 0<br />

0.61 0.09 1<br />

0.70 0.04 0<br />

0.74 0.13 1<br />

0.88 0.11 0<br />

0.99 0.03 1<br />

1.02 0.11 0<br />

1.13 0.06 1<br />

1.19 0.12 0<br />

.<br />

.<br />

Beseitigung der Klassifikationsfehler<br />

Start (Sek.) Dauer (Sek.) Klassifikation<br />

0.00 0.59 0<br />

0.59 0.31 1<br />

0.90 0.59 0<br />

1.49 0.26 1<br />

1.75 0.19 0<br />

1.94 0.81 1<br />

2.75 0.09 0<br />

.<br />

.<br />

Abbildung 4.5: Beispiel <strong>für</strong> den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache)<br />

.<br />

.


4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 77<br />

4.2 Emphasis-Detection-basierte Segmentierung (EDBS)<br />

Dieses Kapitel beschäftigt sich mit einem anderen Ansatz zur Segmentierung, der auch benutzt<br />

werden kann, um besonders betonte Wörter oder Sätze zu lokalisieren. Der Ansatz geht auf<br />

ARONS [2][3][4] zurück und beschreibt ein pitchbasiertes Verfahren zur Segmentierung und Betonungslokalisation.<br />

Die Pitch kann nicht nur wichtige Informationen <strong>für</strong> das Verstehen und das<br />

Verständnis liefern, sie kann auch herangezogen werden, um andere high level-Informationen aus<br />

dem Sprachsignal zu extrahieren. Es gibt eine Vielzahl von <strong>Algorithmen</strong>, um den Pitch-Verlauf<br />

eines Sprachsignals zu bestimmen, einige Verfahren wurden in Kapitel 3.4 vorgestellt.<br />

Es existieren verschiedene Arbeiten darüber, wie sich die Pitch unter verschiedenen Bedingungen<br />

verhält. HIRSCHBERG, GROSZ [15][17] fanden in einer empirischen Studie heraus, daß der<br />

Pitch-Bereich Hinweise auf den Beginn und das Ende von inhaltlichen Zusammenhängen sowie<br />

auf direkte Zitate gibt. Die Einführung eines neuen Themengebiets korrespondiert oft mit<br />

einer größeren Streuung der Pitch-Werte. Das Ende eines Satzes ist oft verbunden mit einem<br />

Abfallen der Pitch-Werte. Untergebiete und beiläufige Bemerkungen werden oft mit einem komprimierteren<br />

Pitch-Bereich assoziiert. Weitere Studien zeigten, daß Sprecher den Pitch-Bereich<br />

erhöhen, um Informationen in einem bestimmten Satz zu betonen, und daß der Pitch-Bereich am<br />

Anfang eines neuen Themengebiets erweitert wird. Diese Ergebnisse sollen nun genutzt werden,<br />

um Sprachaufzeichnungen zu segmentieren und besondere Hervorhebungen des Sprechers zu<br />

finden. Die Untersuchung, inwieweit dies überhaupt möglich ist, insbesondere in Bezug auf die<br />

zu untersuchenden Daten, ist der zweite Hauptbestandteil dieser Arbeit.<br />

In einer früheren Studie versuchten CHEN, WITHGOTT [6] mit Hilfe von<br />

Hidden-Markov-Modellen (HMM) Betonungen auf der Basis von Pitch- und Energiegehalt zu<br />

ermitteln. Dabei zeigte sich, daß betonte Abschnitte erfolgreich zur Erstellung von Zusammenfassungen<br />

der von Ihnen benutzten Aufzeichnungen herangezogen werden können. Die Verwendung<br />

von Hidden-Markov-Modellen hat allerdings einen entscheidenden Nachteil. Hidden-<br />

Markov-Modelle stellen sehr komplexe statistische Modelle dar, die eine große Anzahl von<br />

Trainings- und Testdaten benötigen und deshalb nicht <strong>für</strong> jede Anwendung geeignet sind. ARONS<br />

konnte jedoch nachweisen, daß signifikante Information über Betonungen allein in der Pitch enthalten<br />

ist. Er verglich den Verlauf der Pitch mit einer von Hand "gelabelten" Aufzeichnung. Ein<br />

Monolog eines männlichen Sprechers wurde transkribiert und manuell von einem Linguisten<br />

mit Anmerkungen versehen. Dabei stellte sich heraus, daß es eine hohe Korrelation von großer<br />

Pitch-Variabilität und der Einführung neuer Themen und betonten Abschnitten gibt. STIFELMAN<br />

bestätigte diese Ergebnisse in einer Studie [35]. Ziel von ARONS war nun, einen Algorithmus zu<br />

entwerfen, der direkt nach Mustern im Pitch-Verlauf sucht und dem kein komplexes statistisches<br />

Modell, wie das der Hidden-Markov-Modelle zugrunde liegt.


78 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

4.2.1 Der Emphasis-Detection-Algorithmus<br />

Der Algorithmus läßt sich in fünf Schritte zerlegen, die nun beschrieben werden sollen:<br />

1. Die zu untersuchende Sprachdatei wird mittels Windowing (vergleiche Kap.<br />

¥<br />

3.1) in Frames<br />

mit einer Länge von ¥<br />

¢ <br />

unterteilt, die sich um jeweils<br />

¢ <br />

überlappen. Die<br />

<br />

Frames werden also in einem Zeitabstand von ©¡ ¢ ¢ <br />

erzeugt. In der Original-<br />

©<br />

<br />

<br />

gewählt. Allerdings wurde dort<br />

¢<br />

ein<br />

Arbeit von ARONS wurde eine Framelänge von <br />

anderer PDA verwendet.<br />

2. Für jeden dieser Frames ¥ ermittelt ein PDA die Pitch .<br />

3. Da der Pitch-Umfang <strong>für</strong> jeden Sprecher unterschiedlich ist, muß ein sprecherunabhängiger<br />

Schwellwert ermittelt werden, anhand dessen die Pitch-Aktivität gemessen werden kann.<br />

Hierzu wird aus den ermittelten Pitch-Werten ein Histogramm erstellt, das die Variabilität<br />

des Sprechers normalisiert. Anhand dieses Histogramms wird ein ¥ ¢£¢<br />

¢ ¥<br />

Pitch-Schwellwert<br />

definiert, der die <br />

¤<br />

obersten der Pitch-Werte auswählt. Genauer: Man beginnt am oberen<br />

Ende des Histogramms die Anzahl der Pitch-Werte zu zählen, bis <br />

¤<br />

aller Pitch-Werte<br />

erfaßt wurden. Aus dem erreichten "Behälter" des Histogramms wird dann die zugehörige<br />

Frequenz und damit der Schwellwert ermittelt. Dieser Schwellwert stellt einen Ausgangspunkt<br />

<strong>für</strong> Experimente dar und kann variiert werden, um eine größere oder kleinere Anzahl<br />

von betonten Segmenten zu finden. Abbildung 4.6 zeigt Pitch-Histogramme <strong>für</strong> Dozenten<br />

beiderlei Geschlechts. Der geschlechtsspezifisch unterschiedliche Frequenzbereich ist in<br />

den Abbildungen sehr gut zu sehen.<br />

4. In einem Superframe ¢ mit einer Länge von ¥¤ <br />

wird nun die Pitch-Aktivität<br />

<br />

<br />

bestimmt. Es wird vereinfachend angenommen, daß die Länge eines Superframes immer<br />

ein ganzzahliger Wert ist.<br />

Definition 4.1 Ein Superframe ¢ ¡<br />

<br />

von Pitch-Werten mit<br />

¡<br />

¢ ¡<br />

<br />

<br />

der<br />

§ £ £¡ ¡<br />

¦¤<br />

<br />

<br />

<br />

© ¢ ©¡ ¡ <br />

Länge ¦¤<br />

ist eine endliche Folge<br />

<br />

£ ¤ ¡<br />

und ¤ <br />

¢<br />

§¤<br />

<br />

<br />

<br />

© ¢ ©¡ ¡ <br />

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />

<br />

Pitch-Aktivität©¨<br />

bezeichnet<br />

Definition 4.2 Die innerhalb eines Superframes der Länge ¤<br />

<br />

¢<br />

¢¢ ¥ ¥<br />

ist<br />

gleich der Anzahl der Pitch-Werte innerhalb des Superframes, die größer als ein Pitch-<br />

Schwellwert sind.<br />

bezeichnet<br />

¢£¢<br />

¢ ¥<br />

¤ ¢ ¢ ¥<br />

<br />

¨<br />

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />

©<br />

¨<br />

¤ ¤ ¤


4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 79<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0 50 100 150 200 250 300<br />

Pitch F0 [Hz]<br />

(a) männlich, aus [24]<br />

0 50 100 150 200 250 300<br />

Pitch F0 [Hz]<br />

(c) männlich, aus [24]<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0 50 100 150 200 250 300<br />

Pitch F0 [Hz]<br />

(b) männlich, aus [24]<br />

0 50 100 150 200 250 300 350<br />

Pitch F0 [Hz]<br />

(d) weiblich, aus [23]<br />

Abbildung 4.6: Pitch-Histogramme <strong>für</strong> Dozenten (a) männlichen, (b) weiblichen Geschlechts


80 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

Pitch F0 [Hz]<br />

250<br />

200<br />

150<br />

100<br />

50<br />

Schwellwert F Thres<br />

Super−<br />

frame<br />

SF<br />

n SF n+1 SF n+2<br />

Berechnung der Pitch−Aktivität<br />

Anzahl der Werte oberhalb des Schwellwerts<br />

innerhalb eines Superframes ergibt die Pitch−Aktivität<br />

Zeitfenster ZF n<br />

Zeitfenster ZF n+1<br />

1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34<br />

x 10 4<br />

0<br />

Zeit (Frames)<br />

Abbildung 4.7: Berechnung der Pitch-Aktivität<br />

Abbildung 4.7 verdeutlicht die obigen Definitionen.<br />

5. Die Pitch-Aktivitäten ¢¡¤£¦¥¨§©© ¡£¥§ von aufeinanderfolgenden Superframes<br />

©© werden kombiniert, d.h. es wird ein Zeitfenster mit einer Länge<br />

von Superframes betrachtet und deren Pitch-Aktivitäten aufsummiert. Diese Summe repräsentiert<br />

die Stärke der Betonung (engl.: Emphasis) innerhalb des Zeitfensters ¨ . Die<br />

Zeitfenster werden in Abständen von durch einen sliding-window Algorithmus erzeugt.<br />

Definition 4.3 Ein Zeitfenster mit einer Länge ist eine Folge von Superframes<br />

<br />

bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen.<br />

¤<br />

©©©©§ £<br />

<br />

Definition 4.4 Die Stärke der Betonung (Emphasis) Zeitfensters innerhalb eines der<br />

läßt sich wie folgt berechnen<br />

<br />

Länge<br />

£§ <br />

<br />

¢¡¤£§ © <br />

bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen.<br />

Während ARONS Zeitfenster mit einer Länge von verwendet, wählten HE, SA-<br />

NOCKI, GUPTA, GRUDIN [16] in ihrer Arbeit Zeitfenster mit einer Länge von .


4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 81<br />

Emphasis<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

Emphasis<br />

0<br />

0 100 200 300 400 500 600 700 800 900<br />

Zeit (Sek.)<br />

(a) Schwellwert=1%, ¢¡¤£¦¥¨§<br />

Emphasis<br />

150<br />

100<br />

50<br />

Emphasis<br />

0<br />

0 100 200 300 400 500 600 700 800 900<br />

Zeit (Sek.)<br />

(b) Schwellwert=1%, ¢¡¤£¦¥©<br />

Abbildung 4.8: Ausgabe des EDBS-Algorithmus <strong>für</strong> einen 15-minütigen Ausschnitt aus einer Sprachdatei.<br />

Allerdings verfolgten sie ein ganz anderes Ziel, die automatische Erstellung von Zusammenfassungen.<br />

Die kombinierte Pitch-Aktivität §¦ liefert in diesem Fall ein Maß<br />

<strong>für</strong> die Betonung auf Phrasen- oder Satzebene. Verkürzt man diese Zeitfenster auf © <br />

können Betonungen auf der Wortebene gefunden werden. Abbildung 4.8 zeigt das Ergebnis<br />

von Testläufen <strong>für</strong> einen 15 minütigen Ausschnitt aus einer Vorlesung, die [24] entnommen<br />

wurde. Der Schwellwert beträgt in beiden Fällen . Die Länge des Zeitfensters<br />

beträgt im Fall a) ¨ © und im Fall b) .<br />

Der gesamte Ablauf dieses Verfahrens wird durch die Abbildungen 4.9 und 4.10 nochmals anhand<br />

eines Beispiels verdeutlicht. Die oben erläuterten Schritte lassen sich dadurch sehr gut<br />

nachvollziehen.<br />

4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus<br />

Nun bieten sich mehrere Möglichkeiten zur weiteren Vorgehensweise an. Drei Anwendungen<br />

werden kurz erläutert:<br />

1. Es kann eine Zusammenfassung der Sprachdatei erstellt werden. Hierzu werden die Zeitfenster<br />

bezüglich ihrer Emphasis sortiert. Segmente dieser Fenster können nun nach absteigenden<br />

Emphasis-Werten zu der Zusammenfassung hinzugefügt werden, bis die sie<br />

ihre gewünschte Länge hat [16].<br />

2. Die Ergebnisse können zum schnellen Navigieren in der Sprachdatei verwendet werden.<br />

Auch hierzu werden die Zeitfenster bezüglich ihrer Emphasis sortiert. Die Segmente mit


82 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

Amplitude<br />

Pitch F0 [Hz]<br />

Häufigkeit<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

−0.2<br />

−0.4<br />

−0.6<br />

−0.8<br />

Sprachsignal<br />

−1<br />

0 0.5 1 1.5 2<br />

Zeit (Samples)<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

1600<br />

1400<br />

1200<br />

1000<br />

800<br />

600<br />

400<br />

200<br />

Berechnung der Pitch<br />

200 400 600 800<br />

Frames<br />

1000 1200 1400<br />

Berechnung des sprecherunabhängigen<br />

Schwellwerts anhand des Pitch−Histogramms<br />

Schwellwert<br />

obere 1% aller F0−Werte<br />

0<br />

50 100 150 200 250 300<br />

Pitch F0 [Hz]<br />

Abbildung 4.9: Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 1)<br />

x 10 5


4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 83<br />

Pitch F0 [Hz]<br />

Emphasis<br />

250<br />

Emphasis(n) =<br />

200<br />

150<br />

100<br />

50<br />

Schwellwert F<br />

Thres<br />

5 +10 +8 +1 +0 +0 +0 +0 =24<br />

Super−<br />

Frame<br />

SF<br />

n SF<br />

n+1<br />

SF<br />

n+2<br />

Berechnung der Emphasis<br />

Zeitfenster ZF n<br />

Die Anzahl der Werte oberhalb des Schwellwertes<br />

innerhalb eines Superframes ergibt die Pitch−Aktivität.<br />

Die Summe der Pitch−Aktivitäten innerhalb eines<br />

Zeitfensters ergibt die Emphasis.<br />

1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34<br />

x 10 4<br />

0<br />

Zeit (Frames)<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

Emphasis<br />

0<br />

0 100 200 300 400 500 600 700 800 900<br />

Zeit<br />

Abbildung 4.10: Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 2)


84 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

den höchsten Emphasis-Werten werden zur Erzeugung einer Navigationshilfe herangezogen<br />

(vergleiche ARONS [2][3][4]).<br />

3. Die Emphasis-Werte werden zur Segmentierung der Sprachdatei herangezogen. Die Untersuchung,<br />

ob dies zu einer verwertbaren Segmentierung führt, ist Bestandteil dieser Diplomarbeit.<br />

Zusammenfassung<br />

Dieses Kapitel stellte zwei <strong>Algorithmen</strong> vor, die dazu verwendet werden sollen, eine Sprachdatei<br />

nach einem bestimmten Kriterium zu segmentieren. Beide <strong>Algorithmen</strong> verwenden (relativ) einfach<br />

zu bestimmende Audio-Features wie Energie, Nulldurchgangsrate und Pitch und im Fall der<br />

Emphasis-Detektion eine einfache Metrik zur Bestimmmung der Emphasis. Ob diese Verfahren<br />

das gewünschte Ergebnis liefern können, beschreibt das folgende Kapitel 5. Zu diesem Zweck<br />

wurden beide <strong>Algorithmen</strong> implementiert und mit verschiedenen Sprachdateien getestet.


Kapitel 5<br />

Evaluation<br />

Im vorgangehenden Kapitel wurden Verfahren vorgestellt, mit deren Hilfe eine automatische<br />

Segmentierung einer Sprachdatei vorgenommen werden soll. Das Resultat dieser Segmentierung<br />

soll eine Folge von Zeigern in diese Sprachdatei sein, die den zeitlichen Beginn eines inhaltlichen<br />

Zusammenhangs anzeigen. Beispiel:<br />

Start (Sek.)<br />

0.00<br />

4.84<br />

35.69<br />

53.95<br />

.<br />

Hier schließt sich die Frage an, wie die Ausgaben der einzelnen Verfahren hinsichtlich ihrer<br />

Treffsicherheit bewertet werden sollen. Dazu muß man sich zunächst überlegen, zu welcher<br />

Referenz die Ergebnisse der Segmentierungsverfahren verglichen werden sollen und wie fein<br />

die Referenzsegmentierung sein soll.<br />

Granularität der Segmentierung<br />

Der zweite Punkt soll kurz an einem Beispiel verdeutlicht werden. Angenommen, der Autor eines<br />

Vortrages hat eine Unterteilung in vier Kapitel vorgesehen, die sich weiter untergliedern lassen.<br />

Nun stellt sich die Frage, bis zu welcher Tiefe (Segment-Level) der auftretenden Gliederungshierarchie<br />

(discourse structure) evaluiert werden soll. Tabelle 5.1 zeigt ein Beispiel <strong>für</strong> eine<br />

grobe und eine feine Segmentierung. Auf den ersten Blick könnte man denken, daß die grobe<br />

Segmentierung leichter zu erreichen sei, als die feine Segmentierung, da weniger Items zu detektieren<br />

sind. Dem ist aber nicht so, da die <strong>Algorithmen</strong> nicht zwischen Kapitel, Abschnitt und Absatz<br />

unterscheiden können. Dies hängt damit zusammen, daß keine Information darüber vorliegt,<br />

85


86 KAPITEL 5. EVALUATION<br />

grobe Segmentierung feine Segmentierung<br />

1.) Kapitel 1 1.) Kapitel<br />

2.) Kapitel 2 1.1.) Abschnitt 1<br />

3.) Kapitel 3 1.2.) Abschnitt 2<br />

4.) Kapitel 4 2.) Kapitel 2<br />

2.1.) Abschnitt 1<br />

2.1.1.) Absatz 1<br />

2.1.2.) Absatz 2 ...<br />

Tabelle 5.1: Beispiele <strong>für</strong> Segmentierungsmöglichkeiten<br />

was der Sprecher sagt. Aus dem Audiostrom lassen sich Informationen allenfalls darüber extrahieren,<br />

wie der Vortragende spricht. Diese prosodischen Merkmale 1 können lediglich Hinweise<br />

bezüglich einer feineren Segmentierung liefern. Aus diesem Grund wurde bei der Evaluation der<br />

Verfahren bis zu einer Tiefe von 7 gegliedert; die feinste Gliederungseinheit ist beispielsweise<br />

4.4.4.2.7.2.2 Nachweis. Diese Tiefe hat sich als feinste Auflösung bei den vorliegenden Daten<br />

herausgestellt.<br />

Erstellung der Referenzsegmentierung<br />

Zur Erstellung der Referenzsegmentierungen wurden die untersuchten Vorträge vollständig von<br />

Hand transkribiert. Es wurden (möglichst) wortwörtliche textuelle Abbilder dieser Vorträge geschaffen,<br />

inklusive von Füllauten wie „...äh...“ u.ä. Diese Texte wurden anschließend manuell<br />

und unabhängig vom Audiostrom segmentiert. Die manuelle Segmentierung orientiert sich an<br />

einem Beispiel aus [35]. Sie beruht ausschließlich auf dem inhaltlichen Zusammenhang, der sich<br />

aus dem Text ergibt. Hierzu ist natürlich ein gewisses Grundwissen über den Inhalt des Vortrages<br />

nötig, so daß Zusammenhänge erkannt werden können. Anhand dieser manuellen Segmentierung<br />

wurde wieder die Audio-Datei herangezogen und die Startzeitpunkte zu dieser Gliederung ermittelt.<br />

Tabelle 5.2 zeigt einen Auszug aus einer manuellen Segmentierung eines Vortrages aus<br />

[24]. Anhang A enthält eine Text-Transkription zu diesem Beispiel. Die Startzeitpunkte werden<br />

nun zur Evaluation der Segmentierungsverfahren herangezogen.<br />

1 Prosodem [grie.](prosdisches Merkmal), in der Linguistik lautl.-phonologisches Merkmal (Akzent, Intonation,<br />

Sprechtempo u.ä); relevant <strong>für</strong> die Bildung sprachlicher Einheiten, die größer als ein Laut bzw. Phonem sind.<br />

(Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.)


5.1. MESSGRÖSSEN 87<br />

5.1 Messgrößen<br />

Gliederung Überschrift Startzeitpunkt<br />

innerhalb der<br />

Audiodatei<br />

1. Begrüßung 0:00,00<br />

2. Einleitung 0:08,92<br />

3. Gliederung 0:30,41<br />

3.1. Problemformulierung 0:36,47<br />

3.2. Konfigurationsraum 0:45,12<br />

3.3. Einfaches Problem 0:58,63<br />

3.4. Minkowski-Summen 1:14,70<br />

3.4.1. Eigenschaft von Minkowski-S. 1:28,43<br />

3.5. Problemlösung 1:46,62<br />

4. Problemstellung 2:05,89<br />

4.1. Veranschaulichung 2:24,02<br />

4.2. Beispiel 2:45,04<br />

. . .<br />

Tabelle 5.2: Auszug aus einer manuellen Segmentierung<br />

In der Einleitung zu diesem Kapitel wurde erläutert, wie die Referenzdaten <strong>für</strong> die Evaluation<br />

zustande kommen. Es ist aber noch nicht klar, was und wie gemessen werden soll. Die manuell<br />

erstellte Segmentierung eines Vortrages liefert, wie die Tabelle 5.2 zeigt, eine Liste von Zeitpunkten,<br />

die einem Beginn eines Topics (engl.: Topic Beginning) entsprechen. Die untersuchten<br />

Verfahren sollen diese Zeitpunkte nun möglichst genau aus der Sprachdatei extrahieren. Dabei<br />

sollen sie nicht nur möglichst viele dieser Topic Beginnings finden, sondern auch so wenig wie<br />

möglich falsche Alarme (engl.: False Alarms) auslösen. Dies führt zu den Begriffen Recall und<br />

Precision.<br />

Recall und Precision<br />

Eine erste Definition dieser Begriffe könnte wie folgt sein: Der Recall liefert ein Maß <strong>für</strong> die<br />

Trefferhäufigkeit des Verfahrens; je mehr der Topic Beginnings erkannt werden, umso höher ist<br />

der Wert <strong>für</strong> den Recall. Die Precision zeigt die Genauigkeit des Verfahrens an. Je weniger False<br />

Alarms das Verfahren produziert, umso höher ist der Wert <strong>für</strong> die Precision. Es ist sehr wichtig<br />

beide Metriken zu berechnen, wie folgendes Beispiel zeigt: Ein Segmentierungsverfahren findet<br />

alle Satzanfänge und identifiziert alle Sätze als Topic Beginnings. Es erreicht damit einen Recall<br />

<br />

¢ ¢§¤<br />

von ; allerdings ist dann die Precision sehr niedrig, da auch Satzanfänge gefunden werden,<br />

die nicht einer Segmentgrenze entsprechen. Findet das Verfahren nur genau ein tatsächliches<br />

Topic Beginning und erzeugt keine False Alarms, so erhält man zwar eine Precision <br />

¢£¢§¤<br />

von ,<br />

jedoch einen sehr niedrigen Recall.


88 KAPITEL 5. EVALUATION<br />

Topic Beginning PBS EDBS<br />

(Sek.) (Sek.) Emphasis Zeitpunkt<br />

0:00,00 0:00,00 0 0s<br />

0 1s<br />

0 2s<br />

0:03,45 0:03,45 1 3s<br />

2 4s<br />

0:05,78 0 5s<br />

1 6s<br />

0 7s<br />

0:08,92 0:08,92 0 8s<br />

4 9s<br />

5 10s<br />

Tabelle 5.3: Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben der<br />

Segmentierungsverfahren<br />

Formal werden Recall und Precision in Anlehnung an [35] wie folgt definiert:<br />

Definition 5.1 Die Trefferhäufigkeit (Recall) und Genauigkeit (Precision) eines Segmentierungsverfahrens<br />

sind durch<br />

© ¡ ¢ ¡ ¡ ¡<br />

¡<br />

¡<br />

<br />

¡ <br />

<br />

©<br />

¡<br />

<br />

¡ <br />

<br />

gegeben, wobei ¡ die Anzahl der Treffer (Hits),<br />

<br />

Beginnings (Misses) und<br />

Problemfälle bei der Interpretation der Ausgaben<br />

(5.1)<br />

¨<br />

(5.2)<br />

<br />

die Anzahl der nicht gefunden Topic<br />

die Anzahl der falschen Alarme (False Alarms) repräsentieren.<br />

¨<br />

Aus der Definition 5.1 ist noch nicht klar ersichtlich, wie Hits, Misses und False Alarms definiert<br />

sind. Diese Begriffe sollen in Abhängigkeit des Verfahrens definiert werden. Grund hier<strong>für</strong> sind<br />

die verschiedenen Ausgaben der <strong>Algorithmen</strong>. PBS gibt beispielsweise seine Ergebnisse in Form<br />

von exakten Zeitpunkten aus, die mit Wort- bzw. Satzgrenzen zusammenfallen. Das zweite Verfahren,<br />

EDBS, welches auf der Detektion von Betonungen basiert, liefert eher grobe Information<br />

über den Zeitpunkt.<br />

Anhand eines kleinen Beispiels (siehe Tabelle 5.3) soll dies verdeutlicht werden. Das PBS-<br />

Verfahren liefert in diesem Beispiel drei Hits und einen False Alarm. Bei diesem Verfahren<br />

kommt es nicht zu Schwierigkeiten bei der Interpretation der Ausgabe, da die ausgegebenen<br />

Zeitmarken zu Wort- beziehungsweise Satzgrenzen korrespondieren. Das EDBS-Verfahren zeigt


5.1. MESSGRÖSSEN 89<br />

Emphasis<br />

4<br />

3<br />

2<br />

1<br />

¢¡¤£<br />

¢¡¦¥<br />

¢¡¨§<br />

¢¡¨©<br />

¢¡¤<br />

¢¡¤<br />

1 2 3 4 5 6 7 8<br />

topic beginning<br />

Zeit (Sek.)<br />

Emphasis<br />

4<br />

3<br />

2<br />

1<br />

¢¡¨£<br />

¢¡¦¥<br />

¢¡¨§<br />

¢¡¨©<br />

¢¡¤<br />

¢¡¤<br />

¢¡¤<br />

1 2 3 4 5 6 7 8<br />

topic beginning<br />

Zeit (Sek.)<br />

(a) § ¨ ¡ (b) § ¨ ¡§¦<br />

Abbildung 5.1: Beispiele <strong>für</strong> die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis-<br />

Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von § ¨ ¡ und im Diagramm (b) eine<br />

Länge von § ¨ ¡§¦ .<br />

<br />

¦<br />

¡ ¢ <br />

Betonungen bestehen. <br />

Diese Ergebnisse<br />

<br />

<br />

<br />

<br />

an, daß zu den Zeitpunkten , , , und<br />

stimmen nicht exakt mit den Topic Beginnings überein. Es stellt sich nun die Frage, wie diese<br />

Werte zu interpretieren sind. Das Problem besteht in der Messung der Betonung über ein Zeitfenster,<br />

das sich über mehrere Sekunden erstrecken kann. Angenommen, es existiert ein Topic<br />

Beginning zum Zeitpunkt und es wurde <strong>für</strong> das Verfahren ein Zeitfenster mit einer Länge<br />

von gewählt (vergleiche Abbildung 5.1(a)). Die eigentliche Betonung wurde vom Verfahren<br />

im Superframe, der mit der 5. Sekunde beginnt, detektiert. Die Zeitfenster ¡ § und liefern<br />

einen Wert ¢ <br />

<br />

<br />

¦<br />

von¦<br />

nur¦<br />

¢¡ <br />

¢¡<br />

<br />

<br />

. Die Zeitfenster liefern den Wert . Das Verfahren sagt also, daß zum<br />

Zeitpunkt ein Topic Beginning existiert. (Es wird angenommen, daß bei mehreren aufeinanderfolgenden<br />

Betonungswerten, die größer als Null sind, der erste Wert als vorausgesagtes<br />

Topic Beginning angesehen wird.) Es besteht also eine Differenz zwischen vorausgesagtem<br />

Topic Beginning und dem tatsächlichen Ereignis. Idealerweise hätte hier die Ausgabe von<br />

als Hinweis auf ein Topic Beginning stattfinden müssen. Beträgt die Länge des Zeitfensters<br />

, dann liefern die Zeitfenster den Wert 0 (vergleiche Abbildung 5.1(b)). Erst<br />

das Zeitfenster liefert den Wert 4. Das vorausgesagte Topic Beginning tritt zum Zeitpunkt<br />

auf. Die Differenz zum tatsächlichen Topic Beginning beträgt jetzt nur noch . Dies wirft<br />

die Frage auf, wie groß die Toleranz in Abhängigkeit von der Länge des Zeitfensters sein soll und<br />

wie die Länge des Zeitfensters gewählt werden muß, damit die Ausgabe des Verfahrens sinnvoll<br />

zur Segmentierung einer Sprachdatei eingesetzt werden kann.<br />

Die eben beschriebenen Probleme betreffen die Ermittlung des Recalls <strong>für</strong> das pitchbasierte Verfahren.<br />

Das Beispiel in Tabelle 5.3 wirft ein weiteres Problem auf. Zum Zeitpunkt <br />

zeigt ¦<br />

das pitchbasierte Verfahren eine Betonung an, die eigentlich als False Alarm gewertet werden<br />

müsste. Nun könnte diese Betonung aber beispielsweise zu einem Satz gehören, der zwischen<br />

der 2. und 3. Sekunde beginnt und zwischen der 6. und 7. Sekunde endet. Dann dürfte diese Betonung<br />

nicht als FA angesehen werden. Auch hier stellt sich die Frage nach der zu gewährenden<br />

Toleranz, die eventuell <strong>für</strong> die Precision von Bedeutung sein könnte. Diese Fragen werden in<br />

Kapitel 5.3 beantwortet, wenn das Verfahren mit verschiedenen Zeitfensterlängen und unterschiedlichen<br />

Schwellwerten ausgewertet wird.


90 KAPITEL 5. EVALUATION<br />

Die folgenden Abschnitte beschäftigen sich mit der Auswertung der Ergebnisse der zu untersuchenden<br />

Verfahren. Jeder Abschnitt beginnt damit, die Begriffe Recall und Precision <strong>für</strong> das jeweilige<br />

Verfahren zu präzisieren. Im Anschluß daran werden die Auswertungsergebnisse<br />

präsentiert und interpretiert.<br />

5.2 Pausenbasierte Segmentierung<br />

Es werden nun die Ergebnisse der Auswertung des pausenbasierten Segmentierungsverfahrens<br />

PBS (vergleiche Kapitel 4.1) präsentiert. Die ausgewählten Sprachdateien wurden von diesem<br />

Verfahren <strong>für</strong> vier verschiedene ¥<br />

¢£¢ <br />

Pausen-Schwellwerte ¥<br />

¢ <br />

(keine Einschränkung,<br />

¢£¢£¢<br />

,<br />

<br />

und ) bearbeitet. Der erste Wert dient lediglich dazu, herauszufinden, ob das <br />

Verfahren<br />

überhaupt alle Topic Beginnings finden kann, unabhängig davon wie hoch die Precision ausfällt.<br />

Die drei letzten Werte fallen in den Bereich der sogenannten Juncture-Pausen, also solchen<br />

Pausen, die unter der Kontrolle des Sprechers<br />

¢£¢ <br />

<br />

liegen. Atempausen ( ) und Pausen, die<br />

durch ein (kurzes) Zögern (Hesitation) des<br />

¢£¢ ¥<br />

Sprechers<br />

¢ <br />

entstehen ), sollten ausgeschlossen<br />

werden. Ein Segment wurde genau dann als korrektes Topic Beginning angesehen,<br />

wenn die vorangehende Pausenlänge größer oder gleich dem Pausen-Schwellwert war und der<br />

¦ (¦<br />

Startzeitpunkt des Segments um maximal<br />

Beginnings gemäß der Referenzsegmentierung abwich. Andernfalls wurde das gerade betrachtete<br />

Segment als False Alarm gewertet.<br />

¥<br />

¢ vom vorgegebenen Startzeitpunkt des Topic<br />

Die Vorträge 3 und 4 (Dateien: ga300_15m.aif und ga700_15m.aif) wurden einer Nachbehandlung<br />

unterzogen, da sich beim ersten Testlauf herausstellte, daß die Aufnahmequalität dieser Aufzeichnungen<br />

sehr schlecht ist und das Segmentierungsverfahren dadurch nur ¦<br />

¤<br />

aller<br />

Topic Beginnings im Vortrag 3 fand. Im unbearbeiteten Vortrag 4 entdeckte das Verfahren nur<br />

¡§¤<br />

aller Topic Beginnings. Dies liefert einen Hinweis darauf, daß das Segmentierungsverfahren<br />

noch Schwierigkeiten mit ungünstigen Nutz- zu Rauschsignal-Verhältnissen hat.<br />

¦<br />

¦<br />

5.2.1 Ergebnisse<br />

In diesem Abschnitt werden die Resultate der Testläufe aufgeführt. Sie werden in Tabellenform<br />

präsentiert, wobei die nachfolgenden Tabellen alle nach dem selben Schema aufgebaut sind:<br />

Zeile1 enthält den Dateinamen der untersuchten Audio-Datei. Der Dateiname setzt sich<br />

aus der Abkürzung des Namens der Vorlesungsreihe, der Nummer der Vorlesung und der<br />

Länge der Audio-Datei zusammen.<br />

Beispiel: ga100_15m.aif steht <strong>für</strong> einen 15 minütigen Ausschnitt der ersten Vorlesung aus<br />

der Vorlesungsreihe Geometrische <strong>Algorithmen</strong>. Das Dateiformat ist AIFF. (Der Dateiname<br />

des Originals lautete: ga100.aif)<br />

Spalte 1 enthält einen Pausen-Schwellwert, der angibt, wie lange die zu berücksichtigende<br />

Pause mindestens sein muß. In Spalte 2 findet sich die Gesamtzahl der Topic Beginnings


5.2. PAUSENBASIERTE SEGMENTIERUNG 91<br />

(TB). Die Spalten 3 bis 5 geben die Anzahl der vom Segmentierungsverfahren erzielten<br />

Treffer (Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl<br />

der falschen Alarme (False Alarms FA) wieder. In Spalte 6 findet sich der errechnete<br />

Wert <strong>für</strong> den Recall in Prozent und Spalte 7 enthält den Wert <strong>für</strong> die Precision.<br />

Beispiel: (Zeile 2) Berücksichtigt man <strong>für</strong> die Auswertung nur die Pausen, die länger als<br />

¢ ¢ <br />

lang sind, so erreicht das Verfahren bei insgesamt 57 Topic Beginnings 37 Treffer.<br />

¥<br />

20 Topic Beginnings werden nicht gefunden und 164 mal sagt der Algorithmus einen nicht<br />

vorhandenes Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall<br />

¦§¥ von und eine Precision £ ¤<br />

von .<br />

¤<br />

Es ist anzumerken, daß die zu berücksichtigende Pausendauer kein beliebig veränderbarer Parameter<br />

ist. Die Erwartung ist, daß Sprecher Pausen ¥<br />

¢£¢ <br />

zwischen <br />

¢£¢ ¢ <br />

und einlegen, um<br />

sowohl einzelne Sätze als auch Topics voneinander abzugrenzen (vergleiche Kapitel 4.1).<br />

Ergebnisse in Tabellenform<br />

Datei: ga100_15m.aif (Sprecher 1)<br />

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />

0.00 57 53 4 517 93 9<br />

0.50 57 37 20 164 65 18<br />

0.75 57 24 33 85 42 22<br />

1.00 57 12 45 49 21 20<br />

Datei: ga200_15m.aif (Sprecher 2)<br />

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />

0.00 37 35 2 716 95 5<br />

0.50 37 28 9 183 76 13<br />

0.75 37 20 17 111 54 15<br />

1.00 37 13 24 69 35 16<br />

Datei: ga300_15m.aif (Sprecher 1)<br />

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />

0.00 35 25 10 903 75 3<br />

0.50 35 19 16 274 54 6<br />

0.75 35 17 18 150 49 10<br />

1.00 35 13 22 81 37 14


92 KAPITEL 5. EVALUATION<br />

Datei: ga700_15m.aif (Sprecher 3)<br />

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />

0.00 45 40 5 823 89 5<br />

0.50 45 29 16 201 64 13<br />

0.75 45 20 25 91 44 18<br />

1.00 45 15 30 55 33 21<br />

Durchschnitt<br />

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />

0.00 174 153 21 2959 87.9 4.9<br />

0.50 174 113 61 822 64.9 12<br />

0.75 174 81 93 437 46.5 15.6<br />

1.00 174 53 121 254 30.4 17.2<br />

5.2.2 Interpretation der Ergebnisse<br />

Zunächst ist auffallend, daß das Segmentierungsverfahren noch nicht einmal alle Topic<br />

Beginnings findet, unabhängig von der Precision. Im Falle des dritten Vortrages erreicht das<br />

Verfahren gar nur einen Recall von ¤<br />

¤<br />

¥<br />

<br />

bei einer Precision von . Im Schnitt über alle vier<br />

untersuchten Sprachdateien ergab sich, daß nur knapp £ £ ¤<br />

¦§¥<br />

¤<br />

¦¤<br />

aller Topic Beginnings überhaupt gefunden<br />

werden konnten. Selbst wenn man sich mit einem Recall von etwa zufrieden geben<br />

könnte, muß doch angemerkt werden, daß eine Precision von nur einfach zu wenig ist, um<br />

die Ausgabe dieses Verfahrens sinnvoll nutzen zu können. Dies schließt jedoch nicht aus, daß die<br />

Daten in Kombination mit anderen Features nicht doch zu befriedigenden Ergebnissen führen<br />

könnten.<br />

Abbildung 5.2 zeigt <strong>für</strong> die vier untersuchten Sprachdateien Pausen-Histogramme. Hierzu<br />

wurde ermittelt, wie lange die Pausen vor den gefundenen, tatsächlichen Topic Beginnings sind.<br />

Es fällt auf, daß es bei keinem der Sprecher einen Wert oder Wertebereich gibt, der besonders<br />

hervorsticht. Dies macht es natürlich besonders schwierig, Topic Beginnings anhand der Pausenlänge<br />

zu bestimmen. Interessant ist ebenfalls, daß sich selbst bei gleichem Sprecher sehr unterschiedliche<br />

Häufigkeitsverteilungen ergeben (siehe Dateien: ga100_15m.aif und ga300_15m.aif).<br />

Dies drückt sich auch in den unterschiedlichen Recall- und Precision-Werte <strong>für</strong> die entsprechenden<br />

Vorträge aus.<br />

Weiterhin fällt auf, daß die Zahl der False Alarms selbst bei einer Mindestpausendauer von<br />

¢£¢ ¢ <br />

die Anzahl der Topic Beginnings weit übersteigt. Die Sprecher legen also sehr viel<br />

<br />

öfter lange Pausen ein, als man sich im Idealfall wünschen würde. Der Idealfall wäre, daß ein<br />

Sprecher nur dann lange <br />

¢£¢ ¢ <br />

) Pausen einlegt, wenn er ein neues Topic beginnt und<br />

einzelnen Sätzen eine Pause von etwa ¥ <br />

¢£¢ ¢ <br />

vorangehen läßt.<br />

(¤<br />

¢£¢


5.2. PAUSENBASIERTE SEGMENTIERUNG 93<br />

Hafigkeit Häufigkeit<br />

Hafigkeit<br />

Häufigkeit<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

Datei:<br />

Datei:<br />

ga100_15m.aif<br />

ga10015m.aif 1<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />

Pausenlnge Pausenlänge (Sek.)<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

Datei:<br />

Datei:<br />

ga300_15m.aif<br />

ga30015m.aif 0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />

Pausenlänge Pausenlnge (Sek.)<br />

Hafigkeit Häufigkeit<br />

Hafigkeit<br />

Häufigkeit<br />

5<br />

4<br />

3<br />

2<br />

1<br />

Datei:<br />

Datei:<br />

ga200_15m.aif<br />

ga20015m.aif 0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />

Pausenlänge Pausenlnge (Sek.)<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

Datei: ga70015m.aif Datei: ga700_15m.aif<br />

0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />

Pausenlnge Pausenlänge (Sek.)<br />

Abbildung 5.2: Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen<br />

Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden.


94 KAPITEL 5. EVALUATION<br />

Analyse<br />

Eine genauere Analyse der Daten ergab, daß die häufigen False Alarms in der Regel durch<br />

folgende Situationen zustande kamen:<br />

Die Sprecher legen weder vor neuen Topics, noch vor neuen Sätzen, einheitlich lange Pausen<br />

ein. Dadurch ist es nicht möglich, anhand der Pausendauer auf Topic Beginnings zu<br />

schließen.<br />

Aktionen am elektronischen Whiteboard führen in aller Regel zu langen Sprechpausen,<br />

nicht nur zwischen einzelnen Sätzen, sondern auch innerhalb eines Satzes.<br />

Die Dozenten versprechen sich oder ihr Redefluß stockt. Diese Fehler werden auch<br />

disfluencies genannt. Beispiele hier<strong>für</strong> sind:<br />

Typ Beispiel<br />

gefüllte Pause er äh . . . mochte es<br />

Wiederholung er . . . er mochte es<br />

Reparatur er . . . sie mochte es<br />

falscher Start es war. . . er mochte es<br />

Der erste Punkt ist dem gewollten Live-Charakter der Aufzeichnung zuzuschreiben und läßt sich<br />

nicht vermeiden.<br />

Der zweite Punkt hängt mit der Art des Vorlesungsdarbietung zusammen. Im vorliegenden Datenmaterial<br />

benutzen die Vortragenden das elektronische Whiteboard <strong>für</strong> ihre Vorträge. Die Verwendung<br />

dieses Whiteboards führte zu häufigen, unfreiwilligen Unterbrechungen im Redefluß.<br />

Es wurden aber auch Animationen abgespielt, die die Sprecher nur spärlich kommentierten.<br />

Da das Segmentierungsverfahren keine Kenntnis davon hat, zu welchen Zeitpunkten Aktionen<br />

am Whiteboard ausgeführt wurden, gehen die dadurch entstandenen Pausen negativ in die Bewertung<br />

ein.<br />

Disfluencies treten zum einen kontextbedingt, aber auch sprecherabhängig auf. Beispielsweise<br />

ist von einem Nachrichtensprecher zu erwarten, daß solche Unterbrechungen nicht vorkommen.<br />

Im Falle von freier Rede ist man diesbezüglich sicherlich toleranter. Für die automatische Erkennung<br />

von Topic Beginnings ist dies natürlich trotzdem ein Problem. Es existieren allerdings<br />

Forschungsansätze, die sich mit der Erkennung der disfluencies beschäftigen und zu guten Erkennungsraten<br />

führen [31]. Nachteil dieser Verfahren ist, daß sie auf statistischen Modellen beruhen<br />

und somit eine große Menge an Trainings- und Testdaten benötigen. Diese zu erstellen , ist<br />

mit sehr hohem Zeitaufwand verbunden. Zudem hat man mit der Erkennung und möglicherweise<br />

Beseitigung der disfluencies nur einen kleinen Teil der Probleme beseitigt.


5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95<br />

Fazit<br />

Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor<br />

allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren<br />

insbesondere <strong>für</strong> die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die<br />

Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der<br />

Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie-<br />

Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der<br />

Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten<br />

Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen<br />

sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren<br />

zu schlechten Resultaten.<br />

In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus<br />

dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien<br />

sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen<br />

einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer<br />

bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann.<br />

5.3 Emphasis-Detection-basierte Segmentierung<br />

Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche<br />

4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden<br />

Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨<br />

, ¦ , £ ¥ <br />

und und unterschiedlichen Pitch-Schwellwerten<br />

¢ £¤<br />

( <br />

¤<br />

,<br />

¤<br />

, ¥<br />

¤<br />

und £ ¤<br />

) getestet.<br />

Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift <strong>für</strong> Recall<br />

und Precision zu finden, insbesondere <strong>für</strong> Fensterlängen<br />

,¦ ¦. Dieses Problem wurde bereits<br />

im Abschnitt 5.1 angedeutet.<br />

¨©¤<br />

STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase<br />

eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht<br />

zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt,<br />

ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2<br />

deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤<br />

und einen<br />

von¦ ¥<br />

¤<br />

Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise<br />

False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen<br />

wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam.<br />

Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere<br />

bei den in dieser Arbeit untersuchten Sprachdateien, wurde <strong>für</strong> die Evaluation ein wesentlich<br />

strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht<br />

wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ <br />

¦©<br />

und<br />

¨ <br />

den Pitch-Schwellwerten © <br />

¤<br />

¡ ¨<br />

¨ <br />

¤ £ ¤§©<br />

untersucht.<br />

¤<br />

¤ ¦ ¤ ¥


96 KAPITEL 5. EVALUATION<br />

dsaas<br />

§ ¨ ¢¡¤£¦¥¤¨§ ¨ ¢¡¤£¦¥¤¨§¨ © (Sek.) Klassifikation<br />

<strong>für</strong>§ ¡ ¦ <br />

1 ¡<br />

2 ¡<br />

¡<br />

¡<br />

© §§ £ £<br />

H © £ £<br />

H §§<br />

<br />

FA £<br />

FA<br />

<br />

<br />

£ ©<br />

£<br />

£ © <br />

© §§ £ £<br />

H © £ £<br />

H<br />

£ £ © §§ FA<br />

¦<br />

£ © £ FA<br />

¦<br />

¦¦ Tabelle 5.4: Klassifikationsvorschrift <strong>für</strong> das EDBS<br />

Sei das tatsächliche Topic Beginning, angegeben in Sekunden. Hits (H) und False Alarms<br />

(FA) sind nun entsprechend der Tabelle 5.4 definiert. Angenommen, die Fensterlänge beträgt<br />

<br />

. Ein Betonungswert ¤<br />

¢ <br />

<br />

wird genau dann als Hit klassifiziert, wenn<br />

¨<br />

¢ <br />

<br />

<br />

¢<br />

und ¤<br />

¢ <br />

¢<br />

¤<br />

und das tatsächliche Topic Beginning mit dem<br />

Startzeitpunkt ¤ im Intervall <br />

<br />

liegt. (Die Variable wird ohne Maßeinheit verwendet.<br />

<br />

Da bei der Formalisierung des Verfahrens in Kapitel 4.2 davon ausgegangen wurde,<br />

¤<br />

daß und<br />

¨ nur ganzzahlige Werte annehmen, soll<br />

eine Zeitvariable (in Sek.) darstellen). Andernfalls<br />

<br />

wird der Betonungswert als False Alarm gewertet. Die Zeilen 2,4,6 und 8 decken den Spezialfall<br />

des Dateianfangs ab.<br />

<br />

5.3.1 Ergebnisse<br />

Jeder Vortrag wurde bezüglich zweier Fragestellungen untersucht. Die erste Untersuchung ging<br />

der Frage nach, wieviele tatsächliche Topic Beginnings das Verfahren findet und wie hoch die Genauigkeit<br />

dabei ist. Dazu wurden die bereits in Kapitel 5.1 eingeführten Metriken <strong>für</strong> Recall und<br />

Precision verwendet. Die Ergebnisse <strong>für</strong> diese Fragestellung werden jeweils in der ersten Tabelle<br />

wiedergegeben. Die zweite Untersuchung galt der Frage, ob das Verfahren bestimmte Segment-<br />

Levels besonders gut erkennt. Bei der Zuordnung der Topic Beginnings zu Segment-Levels ergibt<br />

sich ein Spezialfall: Gilt <strong>für</strong> ein Topic Beginning, daß Level und Level zusammenfallen,<br />

so wird dieses Topic Beginning beiden Levels zugeordnet. Wenn also beispielsweise bei einem<br />

Topic Beginning die Levels und zusammenfallen, so geht dieses Topic Beginning sowohl<br />

bei der Wertung auf dem Level 2 als auch bei der Wertung auf dem Level 3 ein. Bei dieser<br />

Untersuchung wurde nur der Recall ermittelt. Die Ergebnisse finden sich in der jeweils zweiten<br />

Tabelle.


5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 97<br />

Die jeweils erste Tabelle ist nach einem ähnlichem Schema wie im vorangegangenen Abschnitt<br />

5.2 aufgebaut:<br />

Die Spalten 1 bis 6 repräsentieren die ¨ Fensterlänge , den Pitch-Schwellwert, die Anzahl<br />

der tatsächlichen Topic Beginnings TB, die Anzahl der vom Verfahren erzielten Treffer<br />

(Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl der<br />

falschen Alarme (False Alarms FA). In Spalte 7 findet sich der errechnete Wert <strong>für</strong> den<br />

Recall und Spalte 8 enthält den Wert <strong>für</strong> die Precision.<br />

Beispiel: (Zeile 6) Die Fensterlänge beträgt <br />

¦, der Pitch-Schwellwert wird auf¦<br />

¤<br />

¨<br />

festgelegt. Das Verfahren erreicht bei insgesamt 57 Topic Beginnings 18 Treffer. 39 Topic<br />

Beginnings werden nicht gefunden und 34 mal sagt der Algorithmus ein nicht vorhandenes<br />

Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall ¦¤<br />

von und<br />

eine Precision ¥ von .<br />

Die jeweils zweite Tabelle hat den folgenden Aufbau:<br />

¤<br />

Spalte 1 enthält die Fensterlänge ¨ und in Spalte 2 den Pitch-Schwellwert. Die Spalten<br />

3 bis 9 repräsentieren die Recall-Werte <strong>für</strong> die verschiedenen Segment-Levels.<br />

Vortrag 1 (Datei: ga100_15m.aif)<br />

Der erste Vortrag ließ sich in 57 Topic Beginnings unterteilen, die sich auf 7 Level verteilen.<br />

Deutlich ist der Unterschied zwischen den Werten <strong>für</strong> die verschiedenen Fensterlängen ¨<br />

zu sehen. Sowohl Recall- als auch Precision-Werte sind <strong>für</strong> die Fensterlänge <br />

<br />

¨ deutlich<br />

höher. Es wird auch deutlich, daß die Recall-Werte mit größerem Pitch-Schwellwert zunehmen.<br />

Allerdings folgen die Precision-Werte nicht dem Beispiel der Recall-Werte. Im Fall von<br />

¨<br />

<br />

variieren die Precision-Werte nur um .<br />

¦<br />

¨ §<br />

1 1 57 4 53 32 7 11<br />

Thresh. (%) TB H M FA Recall (%) Precision (%)<br />

2 57 7 50 58 12 11<br />

5 57 10 47 77 18 11<br />

8 57 14 43 100 25 12<br />

2 1 57 10 47 24 18 29<br />

2 57 18 39 34 32 35<br />

5 57 21 36 48 37 30<br />

8 57 28 29 53 49 35<br />

Betrachtet man die zweite Tabelle, so ist zunächst der Totalausfall <strong>für</strong> das Segment-Level 4 bei<br />

¨<br />

<br />

bemerkenswert, welcher über alle Pitch-Schwellwerte hinweg reicht. Eine scheinbare<br />

<br />

¤


98 KAPITEL 5. EVALUATION<br />

Präferenz des Verfahrens gibt es bei dieser Fensterlänge allenfalls <strong>für</strong> das Level 2, allerdings auch<br />

nur bei den ¥<br />

¤<br />

Pitch-Schwellwerten und £ . Für<br />

¤ <br />

<br />

¨ und ¦ © <br />

¤<br />

¤ £ ¤§©<br />

¤<br />

erhält man den maximalen Recall beim Segment-Level 4.<br />

¡ ¨ ¨¦¤ ¥<br />

¨ §<br />

(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7<br />

Thresh. Recall (%)<br />

1 1 0 0 5 0 14 7 13<br />

2 0 14 16 0 14 13 0<br />

5 25 43 16 0 14 13 13<br />

8 5 57 21 0 14 20 25<br />

2 1 0 14 11 0 29 33 25<br />

2 25 43 37 50 43 33 13<br />

5 25 57 42 75 43 33 38<br />

8 25 57 53 75 57 47 63<br />

Vortrag 2 (Datei: ga200_15m.aif)<br />

Für diese Vorlesungsaufzeichnung wurden 37 Topic Beginnings ermittelt, die sich auf 5 Segment-<br />

Levels verteilen. Auffallend ist hier im Vergleich zum ersten Vortrag, daß die Precision-Werte<br />

insgesamt niedriger sind und nahezu unabhängig von den Pitch-Schwellwerten. Zudem ergibt<br />

sich bei Verdopplung von auch nur eine ungefähre Verdopplung der Precision, während<br />

¨<br />

man beim ersten Vortrag in etwa eine Verdreifachung erhielt. Die Recall-Werte sind <strong>für</strong> <br />

<br />

¨<br />

etwas höher als beim ersten Vortrag, <strong>für</strong> <br />

<br />

¨ ergibt sich ein ausgeglicheneres Bild. ¦<br />

¨ §<br />

1 1 37 4 33 54 11 7<br />

Thresh. (%) TB H M FA Recall (%) Precision (%)<br />

2 37 6 31 78 16 7<br />

5 37 8 29 107 22 7<br />

8 37 11 26 131 30 8<br />

2 1 37 7 30 41 19 15<br />

2 37 13 24 66 35 16<br />

5 37 13 24 74 35 15<br />

8 37 16 21 90 43 15<br />

Bei diesem Vortrag erkennt das Verfahren auf den ersten beiden Segment-Levels <strong>für</strong> die gewählten<br />

Fensterlängen und die unterschiedlichen Pitch-Schwellwerte kein einziges TB. Eine


5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 99<br />

scheinbare Präferenz gibt es <strong>für</strong> das Segment-Level 4. Dies deckt sich <strong>für</strong> ¨<br />

Erkenntnissen aus dem ersten Vortrag.<br />

Vortrag 3 (Datei: ga300_15m.aif)<br />

¨ § <br />

(%) Level 1 Level 2 Level 3 Level 4 Level 5<br />

Thresh. Recall (%)<br />

1 1 0 0 8 20 0<br />

2 0 0 8 33 0<br />

5 0 0 8 33 20<br />

8 0 0 8 33 40<br />

2 1 0 0 8 27 20<br />

2 0 0 8 53 40<br />

5 0 0 8 53 40<br />

8 0 0 15 53 50<br />

¦<br />

mit<br />

den<br />

Die manuelle Segmentierung dieses Vortrages ergab 35 Topic Beginnings, die sich auf 7 Segment-<br />

Levels verteilen. Die Precision-Werte <strong>für</strong> <br />

<br />

liegen nochmals unter denen des zweiten<br />

¨<br />

Vortrages. Für <br />

¨ variieren die Precision-Werte zwischen ¦ £¤ ¤<br />

, allerdings sind<br />

und¦<br />

auch diese Werte <strong>für</strong> die automatische Erstellung einer Segmentierung und <strong>für</strong> die weitere Verarbeitung<br />

inakzeptabel. Interessant ist noch die Tatsache, daß zwar die Sprecher der Vorträge 1<br />

und 3 übereinstimmen, es aber trotzdem zu sehr unterschiedlichen Ergebnissen kommt.<br />

¨ §<br />

1 1 35 2 33 48 6 4<br />

Thresh. (%) TB H M FA Recall (%) Precision (%)<br />

2 35 4 31 76 11 5<br />

5 35 8 27 131 23 6<br />

8 35 12 23 144 34 8<br />

2 1 35 3 32 41 9 7<br />

2 35 7 28 60 20 10<br />

5 35 16 19 83 46 16<br />

8 35 21 14 81 60 21<br />

Auch hier ist wieder ein Totalausfall auf den ersten beiden Segment-Levels zu verzeichnen, wenn<br />

man vom Fall <br />

¦, ¨<br />

© £ ¤<br />

absieht. Zudem erkennt das Verfahren bei diesem Vortrag<br />

¤<br />

keine Topic Beginnings auf dem Segment-Level 7. Eine eindeutige Präferenz zugunsten eines


100 KAPITEL 5. EVALUATION<br />

Segment-Levels gibt es bei diesem Vortrag nicht. Für <br />

¨<br />

Level 5, bei <br />

¨ erhält man das Maximum <strong>für</strong> Level 3. ¦<br />

ergibt sich der Maximalwert <strong>für</strong><br />

¨ §<br />

(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7<br />

Thresh. Recall (%)<br />

1 1 0 0 0 0 22 0 0<br />

2 0 0 0 22 22 0 0<br />

5 0 0 33 22 33 33 0<br />

8 0 0 50 33 56 33 0<br />

2 1 0 0 0 0 22 0 0<br />

2 0 0 0 33 33 0 0<br />

5 0 0 67 56 56 33 0<br />

8 33 0 83 67 78 33 0<br />

Vortrag 4 (Datei: ga700_15m.aif)<br />

Der vierte und letzte Vortrag enthält 45 Topic Beginnings, die auf 5 Segment-Level verteilt sind.<br />

Wenngleich die Precision-Werte etwas höher sind, als beim Vortrag 3, so sind sie dennoch<br />

durchweg auf niedrigem Niveau. Auffallend ist dennoch die Konstanz der Precision-Werte <strong>für</strong><br />

¨<br />

<br />

¦. <br />

¨ §<br />

1 1 45 2 43 47 4 4<br />

Thresh. (%) TB H M FA Recall (%) Precision (%)<br />

2 45 7 38 74 16 9<br />

5 45 17 28 124 38 12<br />

8 45 16 29 147 36 10<br />

2 1 45 10 35 35 22 22<br />

2 45 14 31 49 31 22<br />

5 45 22 23 79 49 22<br />

8 45 22 23 83 49 21<br />

Auch bei diesem Vortrag ergibt sich keine eindeutige Präferenz des Verfahrens zugunsten eines<br />

bestimmten Segment-Levels. Für <br />

<br />

¨ erhält man Maximalwerte bei Segment-Level 4. Einen<br />

Totalausfall auf den ersten beiden Levels gibt es wie bei den Vorträgen 2 und 3 nicht.<br />

¦


5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 101<br />

¨ § <br />

(%) Level 1 Level 2 Level 3 Level 4 Level 5<br />

Thresh. Recall (%)<br />

1 1 25 0 0 0 8<br />

2 50 11 10 11 8<br />

5 50 33 40 44 38<br />

8 50 44 30 33 31<br />

2 1 50 22 30 22 15<br />

2 50 22 40 33 23<br />

5 50 33 50 67 54<br />

8 50 33 50 67 54<br />

Ergebnisse als Recall/Precision-Diagramme<br />

Die Diagramme in Abbildung 5.3.1 zeigen sogenannte Recall/Precision-Diagramme <strong>für</strong> die Resultate<br />

des EDBS-Verfahrens. Es ist deutlich zu sehen, daß eine Erhöhung des Pitch-Schwellwerts<br />

zwar in der Regel zu höheren Recall-Werten führt (Ausnahme: Vortrag 4, <br />

<br />

), allerdings<br />

¨<br />

steigt der Precision-Wert nicht in gleichem Maße und bleibt auf niedrigem Niveau.<br />

Precision<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

’Vortrag 1’<br />

’Vortrag 2’<br />

’Vortrag 3’<br />

’Vortrag 4’<br />

0<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7<br />

Recall<br />

(a) Recall/Precision-Diagramm <strong>für</strong> ¢¡¤£ ¡<br />

Precision<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

’Vortrag 1’<br />

’Vortrag 2’<br />

’Vortrag 3’<br />

’Vortrag 4’<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7<br />

Recall<br />

(b) Recall/Precision-Diagramm <strong>für</strong> ¥¡¦£ <br />

Abbildung 5.3: Recall/Presision-Diagramme <strong>für</strong> die Ergebnisse aus Kapitel 5.3.1<br />

5.3.2 Interpretation der Ergebnisse<br />

Die Ergebnisse zeigen, daß bei der Fragestellung, wieviele Topic Beginnings gefunden werden<br />

und mit welcher Genauigkeit dies geschieht, ein maximaler Recall ¦<br />

¢§¤<br />

von erreicht wird. Allerdings<br />

erhält man nur eine von¦<br />

¤<br />

Precision . Somit entspricht nur jedes fünfte vom Verfahren<br />

vorhergesagte Topic Beginning einem tatsächlichem Topic Beginning. Bestenfalls wurde eine


102 KAPITEL 5. EVALUATION<br />

Precision ¥<br />

¤<br />

von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende<br />

Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu<br />

geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic<br />

Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer<br />

¦<br />

¢£¤<br />

maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch<br />

vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt.<br />

Dies ist dem Benutzer nicht zuzumuten.<br />

Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet,<br />

ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall<br />

auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger<br />

mit einer leichten Präferenz zum Segment-Level 4 hin.<br />

Nun stellt sich die Frage, welche Gründe es <strong>für</strong> die schlechten Ergebnisse gibt. Die Idee, die<br />

diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es<br />

Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren <strong>für</strong> Topic Beginnings<br />

sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu<br />

schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen<br />

in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den<br />

Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen<br />

aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den<br />

vorliegenden Sprachdateien folgende Vorteile:<br />

1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze<br />

Pausen) klar trennen.<br />

2. Die obengenannten disfluencies sollten nicht vorkommen.<br />

3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen,<br />

sollten bei Nachrichtensendungen nicht der Fall sein.<br />

4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten<br />

absieht.<br />

5. Die Aufnahmequalität ist besser.<br />

Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur<br />

<strong>für</strong> die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen<br />

auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei<br />

Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten<br />

Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen<br />

gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser<br />

Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge<br />

gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden<br />

Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt


5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 103<br />

oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein<br />

vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen.<br />

Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen<br />

führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung<br />

zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich.<br />

Ein weiterer Grund <strong>für</strong> die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar<br />

nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem<br />

Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist<br />

die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies<br />

spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien<br />

der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen.<br />

Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe,<br />

die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren<br />

Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab<br />

bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen<br />

nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden)<br />

ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus<br />

zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1<br />

angeführten Probleme nach sich ziehen.<br />

Fazit<br />

Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden<br />

Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic<br />

Beginnings macht das Verfahren in dieser Form, <strong>für</strong> diesen Zweck und insbesondere <strong>für</strong> die<br />

untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren<br />

wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse<br />

finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser<br />

Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.


Kapitel 6<br />

Zusammenfassung und Ausblick<br />

Erklärtes Ziel dieser Arbeit war die Evaluation zweier Segmentierungsverfahren hinsichtlich<br />

ihrer Nutzbarkeit <strong>für</strong> die automatische Segmentierung vorhandener sowie zukünftiger Vorlesungsaufzeichnungen.<br />

Die untersuchten Verfahren wurden ausgewählt, weil sie nicht auf statistischen<br />

Modellen beruhen, welche beispielsweise durch neuronale Netze oder Hidden-Markov-Modelle<br />

realisiert werden können. Segmentierungsverfahren, die auf solchen Modellen beruhen,<br />

haben den entscheidenden Nachteil, daß sie trainiert werden müssen. Dazu muß zunächst<br />

eine große Menge von Trainingsdaten (von Hand) erstellt werden. Das resultierende statistische<br />

Modell kann dann wiederum mit Testdaten überprüft werden, die unter Umständen auch wieder<br />

manuell zu erstellen sind. Dies bedeutet einen großen Zeitaufwand <strong>für</strong> die Erstellung der<br />

Trainings- und Testdaten. Zudem ist die Zusammenstellung dieser Datenmengen unter Umständen<br />

kritisch, wenn nicht ausreichend große Datenmengen zur Verfügung stehen. Was man<br />

sich nun wünschen würde, wäre ein Verfahren, das ohne jegliche Vor- und Nachbearbeitung angewendet<br />

werden könnte.<br />

In Kapitel 4 wurden zwei <strong>Algorithmen</strong> vorgestellt, die ohne statistische Modelle auskommen<br />

und von anderen Projekten in ähnlicher Form erfolgreich eingesetzt wurden [4][16]. Die technischen<br />

Grundlagen <strong>für</strong> diese <strong>Algorithmen</strong> wurden in den Kapiteln 2 und 3 erläutert. Die <strong>Algorithmen</strong><br />

wurden in der Programmiersprache C++ auf einem PC unter dem Betriebssystem LinuX<br />

implementiert. Die Implementierung wurde so vorgenommen, daß eine Portierung auf andere<br />

Betriebssysteme leicht möglich ist. Es wurde großer Wert auf Wiederverwendbarkeit gelegt, so<br />

daß bei weitergehenden Forschungen auf die vorhandenen Funktionen zurückgegriffen werden<br />

kann.<br />

Die Aus- und Bewertung der vorgestellten pausenbasierten Segmentierung (PBS) und der pitchbasierten<br />

Segmentierung (EDBS) ergab, daß die Verfahren in dieser Form und <strong>für</strong> die exakte<br />

Segmentierung von Vorlesungsaufzeichnungen nicht zu befriedigenden Ergebnissen führen (vergleiche<br />

Kapitel 5). Vor allen Dingen die mangelnde Präzision der <strong>Algorithmen</strong> verhindert die<br />

sinnvolle Nutzung dieser Segmentierungsverfahren <strong>für</strong> den angesprochenen Zweck. Dies schließt<br />

allerdings nicht aus, daß diese Verfahren nicht <strong>für</strong> andere Verwendungszwecke geeignet sein<br />

könnten. ARONS entwickelte EDBS, um Zusammenfassungen aus Sprachdateien erstellen und<br />

104


ein schnelles Navigieren innerhalb der Sprachdatei zu ermöglichen. Hier<strong>für</strong> ist es nicht<br />

zwingend notwendig, exakte Zeitpunkte der Topic Beginnings zu finden. STIFELMAN bescheinigte<br />

dem Verfahren in einer Untersuchung eine hohe Precision ( £¦¤<br />

) und einen niedrigen Recall<br />

¥<br />

¤<br />

). Diese Ergebnisse konnten nicht nachvollzogen werden. Dies liegt vor allen Dingen an<br />

den unterschiedlichen Meßmethoden (siehe Kapitel 5.3).<br />

(¦<br />

Die vorliegende Untersuchung zeigt, daß es mit einfachen Mitteln sehr schwierig ist, die untersuchte<br />

Klasse von Sprachdateien zu segmentieren. Die Resultate <strong>für</strong> die Radio-Nachrichtensendungen<br />

(vergleiche Anhang B) belegen, daß die untersuchten Verfahren sehr wohl eine brauchbare<br />

Segmentierung liefern können, wobei das EDBS-Verfahren auch auf diesen Daten sprecherabhängige<br />

Resultate liefert.<br />

Wie bereits mehrfach erwähnt, gibt es Forschungsansätze <strong>für</strong> die Segmentierung, die mit<br />

statistischen Modellen oder auch mit Data Mining/Machine-Learning-Techniken arbeiten.<br />

Auch diese Arbeiten verwenden als Audio-Features hauptsächlich Pausen und Informationen,<br />

die sich aus der Satzmelodie ergeben. Die Berechnung dieser Features ist mit der <strong>für</strong> diese<br />

Diplomarbeit entwickelten C++-Bibiliothek leicht möglich. Es wurde ein Programm entwickelt,<br />

das verschiedene Audio-Features wie beispielsweise Pausenlänge, Energie und diverse Pitch-<br />

Features <strong>für</strong> Sprachsegmente im ARFF-Datenformat ausgibt, welches von der WEKA-Bibiothek<br />

verarbeitet werden kann. Die WEKA-Bibliothek ist ein JAVA-Tool, das diverse Data Mining und<br />

Machine-Learning <strong>Algorithmen</strong> zur Verfügung stellt [38]. HIRSCHBERG, NAKATANI [18] sowie<br />

SHRIBERG ET. AL [32] verwenden beispielsweise erfolgreich Klassifikations- und<br />

Regressionsbäume (CART) in ihren Projekten. Allerdings muß auch hierbei wieder die von<br />

diesen Autoren verwendete Datenbasis in Betracht gezogen werden. Ob ein auf Data Mining/<br />

Machine-Learning-Techniken basierender Ansatz <strong>für</strong> die Segmentierung von Vorlesungsaufzeichnungen<br />

zu besseren Resultaten führt, ist zwar anzuzweifeln, jedoch nicht ausgeschlossen.<br />

105


Anhang A<br />

Beispiel einer Text-Transkription<br />

Text-Transkription<br />

Der untenstehende Text zeigt einen Auszug aus einer Text-Transkription zu einer der untersuchten<br />

Aufzeichnungen. Diese Transkription repräsentiert eine wortwörtliche Niederschrift des Gesprochenen.<br />

Allerdings wurden in dieser Transkription disfluencies vom Typ gefüllte Pause (beispielsweise<br />

„. . . äh. . . “) nicht berücksichtigt. Die Gliederung (discourse structure) orientiert sich<br />

an der Arbeit von STIFELMAN [35]. Sehr schön sind in diesem Auszug die in Kapitel 5.2.2 erwähnten<br />

übrigen disfluencies zu erkennen. Zu Beginn des Abschnitts 3 erfolgt eine Reparatur:<br />

„. . . <strong>für</strong> dieses . . . diese heutige . . . “. Abschnitt 3.1.2 beginnt mit einem falschen Start: „Das ist<br />

. . . da stellt . . . “. Darüberhinaus lassen sich im Abschnitt 3.1.3.2 sehr gut die Auswirkungen der<br />

Benutzung des elektronischen Whiteboards erkennen. Es kommt nicht nur zu längeren Pausen,<br />

sondern auch zu weiteren disfluencies: „. . . Dann geht er zu einer . . . bewegt er sich diese. . . “<br />

(Reparatur), „. . . kleines Beispiel wie . . . wie man dieses. . . “ (Wiederholung).<br />

[1<br />

]1<br />

[2<br />

Ja, schönen guten Tag. Ich werde also heute berichten<br />

über ein Problem, das überschrieben ist mit Polygontriangulation<br />

und ich werde das in drei Teile unterteilen.<br />

[2.1<br />

In einem ersten Schritt möchte ich ein Anwendungsproblem<br />

skizzieren, bei dem die Triangulation von<br />

Polygonen mit Vorteil genutzt werden kann, um dieses<br />

Anwendungsproblem zu lösen.<br />

]2.1<br />

[2.2<br />

Dann werde ich in einem zweiten Teil zeigen, wie man<br />

ein Polygon - ein einfaches Polygon - in einfachere<br />

Stücke zerschneiden kann, also daß die Triangulation<br />

auch einfacher wird.<br />

]2.2<br />

106


]2<br />

[3<br />

[2.3<br />

Und ich werde dann im dritten Teil die Triangulation<br />

dieser einfacheren Stücke besprechen.<br />

]2.3<br />

Also möchte ich zunächst mit dem Anwendungsproblem, das den<br />

Hintergrund <strong>für</strong> dieses ... diese heutige Vorlesung bietet,<br />

beginnen. Ich hatte bereits in der Einleitung, als es darum<br />

ging, darüber zu sprechen, was <strong>für</strong> mögliche Anwendungsgebiete<br />

es gibt, in denen algorithmische Probleme auftreten, das<br />

Art-Gallery-Problem erwähnt.<br />

[3.1<br />

[3.1.1<br />

Das ist hier nochmal durch das Bild dargestellt. Dieses<br />

Art-Gallery-Problem ist als das Problem, etwa ein<br />

Museum zu überwachen, indem man dort Kameras oder von<br />

mir aus auch Personen als Wächter positioniert ... die<br />

eben das ganze Museum übersehen können.<br />

]3.1.1<br />

[3.1.2<br />

Das ist ... da stellt sich natürlich die Frage, was die<br />

minimale Anzahl von solchen Wächtern oder Kameras sein<br />

könnte und das ist ein Problem, das natürlich in dem<br />

Sinne von einer praktischen Bedeutung ist.<br />

]3.1.2<br />

[3.1.3<br />

Nun, man kann das Problem auch etwas dynamisieren. Man<br />

könnte sich auch vorstellen, man hat einen Roboter, der<br />

läuft durch dieses Gebiet - durch diese Art-Gallery - und<br />

er möchte abends sozusagen alles, wenn alle Leute bereits<br />

gegangen sind, überwachen und möglichst einen kurzen Weg<br />

in der Art-Gallery - in diesem Museum - zurücklegen, um<br />

das Ganze einsehen zu können.<br />

[3.1.3.1<br />

Nun, der ... ein solcher Roboter, wie er zu sehen ist,<br />

der sieht nur einen Ausschnitt des ganzen Geländes, das<br />

sogenannte Sichtbarkeitspolygon. Und wie sich dieses<br />

Sichtbarkeitspolygon ändert, wenn der Roboter sich durch<br />

dieses Museum bewegt, das ist zu sehen in einem Film, der<br />

hier markiert ist.<br />

]3.1.3.1<br />

[3.1.3.2<br />

Ich will diesen Film, diesen kurzen MPEG-Film mal laufen<br />

lassen ... Das ist also vielleicht ganz nett. Da sehen<br />

Sie ... ah, hier sieht man wieder, daß man also da hinein<br />

gehen muß, damit die Farben stimmen. Also hier sehen Sie,<br />

wie der Roboter so langsam das Museum einsehen kann. Dann<br />

geht er zu einer ... bewegt er sich diese Strecke hier<br />

entlang und sieht ein anderes Stück usw. Das ist also ein<br />

Beispiel da<strong>für</strong>, wie sich sozusagen aus dem Blickwinkel des<br />

107


108 ANHANG A. BEISPIEL EINER TEXT-TRANSKRIPTION<br />

Roboters die Landschaft ändert, die er einsehen kann. So<br />

da ist der Film schon zu Ende. Nur ein kleines Beispiel<br />

wie ... wie man dieses Überwachungsproblem lösen könnte.<br />

]3.1.3.2<br />

]3.1.3<br />

[3.1.4 ...<br />

Auswertungstabelle<br />

Die folgende Tabelle A.1 gibt die Auswertung <strong>für</strong> die Gliederung der obigen Text-Transkription<br />

wieder. Spalte 1 enthält die Gliederungsnummern und kurze Überschriften. In Spalte 2 kann der<br />

Startzeitpunkt des betreffenden Abschnitts in der Sprachdatei abgelesen werden. Die Spalten 3<br />

bis 10 geben die Treffer des EDBS-Verfahren <strong>für</strong> verschiedene Pitch-Schwellwerte<br />

unterschiedliche Fensterlängen ¨ wieder. Die letzte Spalte enthält die Dauer der Pause, die<br />

dem betreffenden Abschnitt vorangeht. Ein fehlender Wert in einer Zeile, in der ein Startzeitpunkt<br />

existiert, bedeutet, daß vor diesem Abschnitt keine Pause festgestellt werden konnte.<br />

¢£¢<br />

¢ ¥ und


Gliederung SZ 1% 2% 5% 8% PD<br />

(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s (Sek.)<br />

1 Begrüßung 0,00 0,00<br />

2 Gliederung<br />

2.1 Anwendungsproblem 12,52 0,09<br />

2.2 Zerlegung e. Polygons 23,18 2,07<br />

2.3 Triangulation 32,99 0,51<br />

3 Anwendungsproblem 39,99 + 1,07<br />

3.1 Art-Gallery-Problem<br />

3.1.1 Defintion 59,95 + + 1,30<br />

3.1.2 min. Anzahl von Polyg. 82,96 + + 0,90<br />

3.1.3 Dynamisierung 95,26 + + 1,10<br />

3.1.3.1 Sichtbarkeitspolygon 116,54 +<br />

3.1.3.2 MPEG-Film 138,54<br />

3.1.4 Verallgemeinerung 176,72 + + + + 1,13<br />

3.1.4.1 Modellvorstellung 186,88 + + 1,14<br />

3.1.4.2 Postierung d. Wächter 1 202,27 + + 0,50<br />

3.1.4.3 Postierung d. Wächter 2 240,48 2,70<br />

3.1.4.4 Postierung d. Wächter 3 251,94 + + + + + + 0,84<br />

3.1.4.5 Postierung d. Wächter 4 275,98 + + + + 1,44<br />

3.1.5 Färbung 287,33 + + + + 0,75<br />

3.1.6 Triangulation einf. Poly. 321,11 1,23<br />

3.1.6.1 Satz 332,47 0,33<br />

3.1.6.2 Beweisskizze 346,76 + + + + 1,40<br />

3.1.6.2.1 Induktionsanfang 355,30 0,16<br />

3.1.6.2.2 Induktionsschritt 382,51 + + 0,24<br />

3.1.6.2.2.1 Fall 1 443,70 + + + + 1,23<br />

3.1.6.2.2.2 Fall 2 490,91 0,49<br />

3.1.6.2.2.2.1 Anzahl der Dreiecke 579,32<br />

3.1.6.2.2.3 Schlußbemerkung 663,57 0,65<br />

3.1.6.3 Triangulation 678,14 + + + + + + 2,52<br />

3.1.6.3.1 Spezialfall 691,95 + + +<br />

3.1.6.3.2 Allgemein 750,89 + +<br />

3.1.6.3.3 Wiederh. d. Arguments 802,18 + + + + + + + +<br />

3.1.6.3.3.1 Beispiel 826,00<br />

3.1.6.3.4 Zwischenbemerkung 844,13 + + + + + + + + 0,86<br />

3.1.6.3.5 Wiederh. d. Ausgangspro. 856,44 + +<br />

3.1.6.3.6 Veranschaulichung 891,26 + + + +<br />

insgesamt 35 2 3 4 7 8 16 12 21 25<br />

Recall in % 6 9 11 20 23 46 34 60 75<br />

FA 48 41 76 60 131 83 144 81<br />

Precision in % 4 7 5 10 6 16 8 21<br />

Tabelle A.1: Auswertungstabelle <strong>für</strong> die Datei ga300_15m,.aif<br />

109


Anhang B<br />

Segmentierung am Beispiel einer<br />

Radio-Nachrichtensendung<br />

Daß die in dieser Diplomarbeit vorgestellten <strong>Algorithmen</strong> durchaus zu besseren Ergebnissen führen<br />

können, soll anhand der Aufzeichnung zweier Radio-Nachrichtensendungen demonstriert<br />

werden. Es handelt sich hierbei um eine etwa zweiminütige und eine etwa fünfminütige Aufnahme,<br />

die mit handelsüblichen HiFi-Komponenten erstellt wurden. Auch von diesen Aufzeichnungen<br />

wurden Text-Transkriptionen erstellt und anschließend anhand dieser manuell segmentiert.<br />

Es stellte sich heraus, daß die Segmentierung von Nachrichten wesentlich einfacher zu<br />

bewerkstelligen ist. Im Audio-Dokument wurden nun die entsprechenden Stellen ermittelt. Es<br />

schloß sich die selbe Auswertungsprozedur an, wie sie <strong>für</strong> die Evaluation der anderen Dateien<br />

verwendet wurde. Die Ergebnisse werden im folgenden präsentiert. Zunächst folgt als Beispiel<br />

die Text-Transkription der etwa zweiminütigen Nachrichtenaufzeichnung. Im Anschluß daran<br />

werden die Ergebnisse dieser Aufzeichnung durch die Auswertungstabelle (siehe oben) präsentiert.<br />

Die Ergebnisse der zweiten Nachrichtensendung werden nur noch in Kurzform dargestellt.<br />

B.1 Radio-Nachrichtensendung 1<br />

B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung<br />

[1<br />

Berlin.<br />

[1.1<br />

Das Deutsche Rote Kreuz kritisiert die<br />

Bundesregierung, weil sie zu spät auf die<br />

Flutkatastrophe in Mosambik reagiert habe.<br />

Den DRK-Helfern in Mosambik fehle es außerdem<br />

an Geld.<br />

]1.1<br />

[1.2<br />

110


B.1. RADIO-NACHRICHTENSENDUNG 1 111<br />

]1<br />

[2<br />

]2<br />

[3<br />

]3<br />

[4<br />

Am Mittag ist in der Haupstadt Maputo ein Transportflugzeug<br />

mit vier Bundeswehr-Hubschraubern gelandet.<br />

Insgesamt hat Deutschland jetzt sieben Hubschrauber<br />

und mehr als einhundertsechzig Helfer im Einsatz.<br />

]1.2<br />

[1.3<br />

In den Küstengebieten von Mosambik hat es wieder<br />

angefangen zu regnen. Dadurch könnte sich die Lage<br />

in den Überschwemmungsgebieten verschlimmern. Eine<br />

neue Hochwasserwelle würde Tausende von heimkehrenden<br />

Flüchtlingen gefährden.<br />

]1.3<br />

Antananarivo.<br />

[2.1<br />

Zwei Wirbelstürme und Überschwemmungen haben auf<br />

Madagaskar sechshunderttausend Menschen obdachlos<br />

gemacht, mindestens fünfzig wurden getötet.<br />

]2.1<br />

[2.2<br />

Ein UNICEF-Sprecher sagte, Madgaskar könnte zu einem<br />

zweiten Mosambik werden. Einer der Wirbelstürme<br />

bewegt sich inzwischen auf Mosambik zu.<br />

]2.2<br />

Belgrad.<br />

[3.1<br />

Die serbische Opposition hat ihre Anhänger aufgerufen,<br />

den regierungskritischen Radio- und Fernsehsender<br />

Studio B zu verteidigen. Am Morgen haben bewaffnete<br />

Männer eine Sendeanlage überfallen, Techniker verprügelt<br />

und Geräte zerstört.<br />

]3.1<br />

[3.2<br />

Die serbische Regierung fordert von Studio B<br />

1.8 Millionen Mark Gebühren. Außerdem wurden heute Betreiber<br />

und Chefredakteur des unabhängigen Senders zu<br />

fünfundsiebzigtausend Mark Geldstrafe verurteilt.<br />

]3.2<br />

Berlin.<br />

[4.1<br />

Den Atomkraftwerken Neckar-Westheim und Biblis B drohen<br />

angeblich akute Entsorgungsengpässe. Wie die Berliner<br />

Zeitung schreibt, dürfen beide Kraftwerke bis auf weiteres<br />

keine Castor-Behälter mit abgebrannten Brennelementen mehr<br />

beladen.<br />

]4.1


112ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG<br />

]4<br />

[5<br />

]5<br />

[6<br />

]6<br />

[4.2<br />

Bei Kontrollen war festgestellt worden, daß die Dichtungen<br />

der Behälter mit Bor verunreinigt waren. Damit ist die <strong>für</strong><br />

die Zwischenlagerung vorgeschriebene Dichtigkeit nicht mehr<br />

gewährleistet.<br />

]4.2<br />

[4.3<br />

Der Direktor von Biblis dementierte einen akuten Engpaß.<br />

Allerdings gäbe es Probleme, wenn die Behälter nicht bis<br />

Ende April einsatzbereit seien.<br />

]4.3<br />

München.<br />

[5.1<br />

Die umstrittene Sendung "Big Brother" darf vorerst weiterlaufen.<br />

Darauf haben sich der Sender RTL 2 und die Landesmedienanstalten<br />

geeinigt.<br />

]5.1<br />

[5.2<br />

Allerdings wird das Konzept geändert. Eine Stunde pro Tag<br />

werden die Teilnehmer nicht mehr gefilmt; bis jetzt laufen<br />

Kameras und Mikrofone rund um die Uhr.<br />

]5.2<br />

[5.3<br />

Die hessische Landesmedienanstalt wollte "Big Brother"<br />

verbieten, weil es ihrer Ansicht nach gegen die Menschenwürde<br />

verstößt.<br />

]5.3<br />

Das waren SWR3-Nachrichten.


B.1. RADIO-NACHRICHTENSENDUNG 1 113<br />

B.1.2 Auswertungstabelle (PBS)<br />

Die Tabelle B.1 ist ähnlich wie oben (siehe Anhang A) aufgebaut. Die erste Spalte gibt die<br />

Gliederung wieder, Spalte 2 enthält die Startzeitpunkte. In der dritten Spalte stehen die Werte <strong>für</strong><br />

die vorangehenden Pausenzeiten. Die Spalten 4 bis 8 geben <strong>für</strong> verschiedene Schwellwerte die<br />

Treffer an. Beispielsweise stehen in Spalte 7 die Treffer, wenn nur Pausen betrachtet werden, die<br />

länger als ¥<br />

kommt hier sehr deutlich zum Ausdruck, daß der Sprecher vor einer neuen Nachricht immer eine<br />

lange Pause einlegt. Der Beginn einer neuen Nachricht wird dadurch sehr gut gefunden.<br />

¢£¢ dauern. Die Ergebnisse sprechen <strong>für</strong> sich. Interessant ist die achte Spalte. Es<br />

Gliederung SZ VP SW SW SW SW SW<br />

(Sek.) (Sek.) – ¢¢¡£ ¢¢¡¤ ¢¥¡¦ ¡§¡ ¢<br />

1. Berlin 1.03 1.03 + + + + +<br />

1.1 Kritik des DRK 1.84 0.35 + +<br />

1.2 Anzahl der Hubschr. 12.17 0.88 + + + +<br />

1.3 neuerlicher Regenfall 22.13 0.59 + + + +<br />

2. Tananarivo 33.96 1.25 + + + + +<br />

2.1 Unwetter 35.49 0.64 + + + +<br />

2.2 Aussage von UNICEF 42.58 0.52 + + + +<br />

3. Belgrad 51.94 2.03 + + + + +<br />

3.1 Aufruf der serb. Opp. 52.91 0.58 + + + +<br />

3.2 Forderung d. Regierung 65,32 0.50 + + + +<br />

4. Berlin 76.81 1.04 + + + + +<br />

4.1 Entsorgungsengpässe 77.57 0.34 + +<br />

4.2 Kontrollen 89.29 0.53 + + + +<br />

4.3 Dementi 98.32 0.71 + + + +<br />

5. München 107.24 1.79 + + + + +<br />

5.1 Big Brother läuft weiter 108.06 0.40 + + +<br />

5.2 Konzeptänderung 114.85 0.52 + + + +<br />

5.3 Verstoß g. Menschenw. 122.84 0.57 + + + +<br />

6. Nachrichtenende 128.79 0.58 + + + +<br />

insgesamt 19 19 19 17 16 5<br />

Recall 100% 100% 89% 84% 26%<br />

False Alarms – 12 5 0 0<br />

Precision – 61% 77% 100% 100%<br />

Tabelle B.1: Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die<br />

Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden Pause,<br />

SW=Schwellwert


114ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG<br />

B.1.3 Auswertungstabelle (EDBS)<br />

Die folgende Tabelle B.2 ist analog zu den obigen Tabellen aufgebaut. Betrachtet man die Ergebnisse<br />

<strong>für</strong> die Fensterlänge <br />

<br />

¦, so erkennt man deutlich bessere Werte als bei den zuvor<br />

¨<br />

untersuchten Sprachdateien, sowohl <strong>für</strong> den Recall als auch <strong>für</strong> die Precision.<br />

Gliederung SZ<br />

¡¡ ¦¢ £¢<br />

(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s<br />

1. Berlin 1.03 + + + + +<br />

1.1 Kritik des DRK 1.84 + + + + +<br />

1.2 Anzahl der Hubschr. 12.17 + + +<br />

1.3 neuerlicher Regenfall 22.13 + + + + + + + +<br />

2. Tananarivo 33.96<br />

2.1 Unwetter 35.49 + + + + +<br />

2.2 Aussage von UNICEF 42.58 +<br />

3. Belgrad 51.94<br />

3.1 Aufruf der serb. Opp. 52.91 + + + +<br />

3.2 Forderung d. Regierung 65,32 + + + +<br />

4. Berlin 76.81 + + +<br />

4.1 Entsorgungsengpässe 77.57 + + + + + +<br />

4.2 Kontrollen 89.29 + + +<br />

4.3 Dementi 98.32 + + + +<br />

5. München 107.24 + + + +<br />

5.1 Big Brother läuft weiter 108.06 + + + + +<br />

5.2 Konzeptänderung 114.85 + +<br />

5.3 Verstoß g. Menschenw. 122.84 + + + +<br />

6. Nachrichtenende 128.79 +<br />

insgesamt 19 1 5 4 11 8 14 9 15<br />

Recall in % 5 26 21 58 42 74 47 79<br />

False Alarms – 2 12 4 14 6 178 4<br />

Precision in % – 71 25 73 40 70 35 79<br />

Tabelle B.2: Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die Abkürzung<br />

SZ steht <strong>für</strong> Startzeitpunkt.


B.2. RADIO-NACHRICHTENSENDUNG 2 115<br />

B.2 Radio-Nachrichtensendung 2<br />

B.2.1 Auswertung (PBS)<br />

Schwellwert (Sek.) TB H M FA Recall (%) Precision (%)<br />

0.00 39 38 1 231 97 14<br />

0.50 39 37 2 18 95 67<br />

0.60 39 35 4 13 90 66<br />

0.70 39 31 8 6 79 84<br />

1.00 39 15 24 1 38 94<br />

Tabelle B.3: Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.)<br />

Die Tabelle B.3 gibt das Auswertungsergebnis <strong>für</strong> das PBS-Verfahren wieder. Die Erkennungsraten<br />

sind wie auch schon bei der ersten Nachrichtensendung <strong>für</strong> Schwellwerte <br />

sehr hoch.<br />

<br />

Der Recall <strong>für</strong> <br />

den Schwellwert ist nur auf den ersten Blick sehr niedrig. Sind jedoch nur<br />

die Startpunkte jeder neuen Nachricht gefragt, so werden alle Startzeitpunkte korrekt erkannt.<br />

Der einzelne False Alarm kommt daher, daß sich der Nachrichtensprecher versprochen hat. Disfluencies<br />

sind also auch hier nicht völlig auszuschließen. Die Precision-Werte sind insgesamt<br />

sehr viel höher, als bei den Vorlesungsaufzeichnungen.<br />

B.2.2 Auswertung (EDBS)<br />

¨ §<br />

1 1 39 5 34 21 13 19<br />

Thres. (%) TB H M FA Recall (%) Precision (%)<br />

2 39 9 30 23 24 28<br />

5 39 12 27 37 39 24<br />

8 39 17 22 44 44 28<br />

2 1 39 17 22 6 45 74<br />

2 39 21 18 8 60 72<br />

5 39 23 16 17 59 58<br />

8 39 25 14 14 64 64<br />

Tabelle B.4: Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.)<br />

Wie auch schon <strong>für</strong> die erste Nachrichtensendung gilt, daß die Fensterlänge <br />

<br />

¨ zu schlechten<br />

Erkennungsraten und mangelnder Präzision führt (vergleiche Tabelle B.4). Der<br />

Recall <strong>für</strong> <br />

¨ ¦ ist deutlich besser, wenngleich nicht ganz so gut, wie bei der ersten Nachrichtensendung.<br />

Im Vergleich zu den Resultaten bezüglich der Vorlesungsaufzeichnungen sind<br />

die Ergebnisse aber deutlich besser.


Literaturverzeichnis<br />

[1] AOF - Authoring On The Fly. (erhältlich im WWW:<br />

http://ad.informatik.uni-freiburg.de/AOF/mmgroup.aof.about ).<br />

[2] ARONS, B.: Interactively Skimming Recorded Speech. Doktorarbeit, Massachusettes<br />

<strong>Institut</strong>e of Technology, 1994.<br />

[3] ARONS, B.: Pitch-based Emphasis Detection for Segmenting Speech Recordings. In:<br />

Proceedings of International Conference on Spoken Language Processing, Bd. 4, S.<br />

1931–1934, 1994.<br />

[4] ARONS, B.: Speech Skimmer: A System for Interactivly Skimming Recorded Speech.<br />

ACM Transactions on Computer-Human Interaction, 4(1):3–38, March 1997. (erhältlich<br />

im WWW: http://barons.www.media.mit.edu/people/barons/papers/ToCHIE97.ps).<br />

[5] BOERSMA, P.: Accurate Short-Term Analysis of the Fundamental Frequency and the<br />

Harmonics-to-Noise Ratio of a Sampled Sound. In: Proceedings of the <strong>Institut</strong>e of<br />

Phonetic Sciences of the University of Amsterdam, 1993.<br />

[6] CHEN, F. und M. WITHGOTT: The Use of Emphasis to Automatically Summarize Spoken<br />

Discourse. In: Proceedings of the International Conference on Acoustics, Speech, and<br />

Signal Processing, S. 229–233. IEEE, 1992.<br />

[7] CHOI, J., D. HINDLE, J. HIRSCHBERG, I. MAGRIN-CHAGNOLLEAU, C. NAKATANI,<br />

F. PEREIRA, A. SINGHAL und S. WHITTAKER: An Overview of the AT&T Spoken<br />

Document Retrieval. In: Proceedings DARPA Broadcast News Transcription and<br />

Understanding Workshop. Morgan Kaufmann Publishers, 1998.<br />

[8] CHOI, J., D. HINDLE, J. HIRSCHBERG, F. PEREIRA, A. SINGHAL und S. WHITTAKER:<br />

Spoken Content-Based Audio Navigation (SCAN). Techn. Ber., AT&T Labs-Research,<br />

Florham Park, New Jersey, USA, 1999.<br />

[9] DELLER, J., J. PROAKIS und J. HANSEN: Discrete-Time Processing of Speech Signals.<br />

Prentice Hall, Inc., 1993.<br />

116


LITERATURVERZEICHNIS 117<br />

[10] DODDINGTON, G.: The Topic Detection and Tracking Phase 2 (TDT2) Evaluation Plan.<br />

In: Proceedings DARPA Broadcast News Transcription and Understanding Workshop.<br />

Morgan Kaufman Publishers, 1998.<br />

[11] EICHMANN, D., M. RUIZ, P. SRINIVASAN, N. STREET, C. CULY und F. MENCZER: A<br />

Cluster-Based Approach to Tracking, Detection and Segmentation of Broadcast news. In:<br />

Proceedings DARPA Broadcast News Workshop. Morgan Kaufmann Publishers, 1999.<br />

[12] EPPINGER, B. und E. HERTER: Sprachverarbeitung. Hanser, München, 1993.<br />

[13] FOOTE, J.: Content-Based Retrieval of Music and Audio. In: Proceedings of the SPIE, Bd.<br />

3229, S. 138–147, 1997.<br />

[14] FOOTE, J.: An Overview of Audio Information Retrieval. In: Multimedia Systems, Bd. 7.<br />

Springer-Verlag, 1999.<br />

[15] GROSZ, B. und J. HIRSCHBERG: Some Intonational Characteristics of Discourse<br />

Structure. In: Proceedings of the International Conference on Spoken Language<br />

Processing, Bd. 1, S. 429–432, Banff, Canada, October 1992.<br />

[16] HE, L., E. SANOCKI, A. GUPTA und J. GRUDIN: Auto-Summarization of Audio-Video<br />

Presentations. In: MM99, 1999.<br />

[17] HIRSCHBERG, J. und B. GROSZ: Intonational Features of Local and Global Discourse<br />

Structure. In: Proceedings of the Speech and Natural Language workshop, S. 441–446,<br />

San Mateo, CA, February 1992. Defense Advanced Research Projects Agency, Morgan<br />

Kaufmann Publishers.<br />

[18] HIRSCHBERG, J. und C. NAKATANI: Acoustic Indicators of Topic Segmentation. In:<br />

Proceedings of the 5th International Conference on Spoken Language Processing, Bd. 4,<br />

S. 1255–1258, 1998.<br />

[19] KIMBER, D. und L. WILLCOX: Acoustic Segmentation for Audio Browsers. In: Proc.<br />

Interface Conference, July 1996. (erhältlich im WWW:<br />

http://www.fxpal.xerox.com/abstracts/kim96.htm).<br />

[20] LAMEL, L., L. RABINER, A. ROSENBERG und J. WILPON: An Improved Endpoint<br />

Detector for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech, and<br />

Signal Processing, ASSP-29(4):777–785, August 1981.<br />

[21] LIANG, Z., Y. WANG und T. CHANG: Audio Feature Extraction and Analysis for Scene<br />

Segmentation and Classification. In: Proceedings of IEEE 1st Multimedia Workshop,<br />

1997.<br />

[22] ORFANIDIS, S.: Introduction to signal processing. Prentice Hall, Inc., 1996.


118 LITERATURVERZEICHNIS<br />

[23] OTTMANN, T.: Prinzipien des <strong>Algorithmen</strong>entwurfs. Spektrum Akademischer Verlag,<br />

1998.<br />

[24] OTTMANN, T.: Vorlesung: Geometrische <strong>Algorithmen</strong> SS’99. (abrufbar im WWW unter<br />

http://ad.informatik.uni-freiburg.de/ss99.special.geometrie), 1999.<br />

[25] PATEL, N. und I. SETHI: Audio Characterization for Video Indexing. In: Proceedings of<br />

SPIE Conference on Storage and Retrieval for Still Image and Video Databases, Bd. 2670,<br />

S. 373–384, 1996.<br />

[26] PAULUS, E.: Sprachsignalverarbeitung: Analyse, Erkennung, Synthese. Spektrum<br />

Akademischer Verlag, 1998.<br />

[27] PROAKIS, J. und D. MANOLAKIS: Digital Signal Processing: Principles, algorithms and<br />

applications. Prentice Hall, Inc., 1996.<br />

[28] RABINER, L., M. CHENG, A. ROSENBERG und C. MCGONEGAL: A Comparative<br />

Performance Study of Several Pitch Detection Algorithms. IEEE Transactions on<br />

Acoutics, Speech and Signal Processing, ASSP-24:399–417, October 1976.<br />

[29] RIVLIN, Z. und D. APPELT: MAESTRO: Conductor of Multimedia Analysis Technologies.<br />

Techn. Ber., SRI International, Menlo Park, California 94025, 1999.<br />

[30] ROSS, M., H. SHAFER, A. COHEN, R. FREUDBERG und H. MANLEY: Average<br />

Magnitude Difference Function Pitch Extractor. IEEE Transactions on Acoustics, Speech<br />

and Signal Processing, ASSP-22:353–362, 1974.<br />

[31] SHRIBERG, E., R. BATES und A. STOLCKE: A Prosody-Based Decision-Tree Model for<br />

Disfluency Detection. In: Proceedings of the 5th European Conference on Speech<br />

Communication and Technology, Bd. 5, S. 2383–2386, September 1997.<br />

[32] SHRIBERG, E., A. STOLCKE, D. HAKKANI-TÜR und G. TÜR: Prosody-Based Automatic<br />

Segmentation of Speech into Sentences and Topics. Speech Communication, Special Issue<br />

on Accessing Information in Spoken Audio, 2000.<br />

[33] S.PFEIFFER, S. FISCHER und W. EFFELSBERG: Automatic Audio Content Analysis. In:<br />

Proceedings ACM Multimedia’96, S. 21–30, 1996.<br />

[34] STEINMETZ, R.: Multimedia-Technologie. Springer-Verlag, Berlin, 1993.<br />

[35] STIFELMAN, L.: A Discourse Analysis Approach to Structured Speech. AAAI Spring<br />

Symposium Series. Empirical Methods in Discourse Interpretation and Generation, S.<br />

162–167, 1995.<br />

[36] STOLCKE, A., E. SHRIBERG, D. HAKKANI-TÜR, G. TÜR, Z. RIVLIN und K. SÖNMEZ:<br />

Combining Words and Speech Prosody for Automatic Topic Segmentation. In: Proceedings<br />

DARPA Broadcast News Workshop, S. 61–64. Morgan Kaufmann Publishers, February<br />

1999.


LITERATURVERZEICHNIS 119<br />

[37] WAYNE, C.: Topic Detection & Tracking (TDT). In: Proceedings DARPA Broadcast News<br />

Transcription and Understanding Workshop. Morgan Kaufman Publishers, 1998.<br />

[38] WITTEN, I. und E. FRANK: Data Mining: practical machine learning tools and<br />

techniques with JAVA implementations. Morgan Kaufmann Publishers, 2000.<br />

[39] WOLD, E., T. BLUM, D. KEISLAR und J. WHEATON: Classification, Search and<br />

Retrieval of Audio. IEEE Multimedia, 3(3):27–36, 1996.<br />

[40] ZHANG, T. und C. KUO: Content-Based Classification and Retrieval of Audio. Techn.<br />

Ber., Integrated Media Systems Center and Departement of Electrical<br />

Engineering-Systems, University of Southern California, 1998.<br />

[41] ZHANG, T. und C. KUO: Heuristic Approach for Generic Audio Data Segmentation and<br />

Annotation. Techn. Ber., Integrated Media Systems Center and Departement of Electrical<br />

Engineering-Systems, University of Southern California, 1999.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!