Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
ALBERT-LUDWIGS-UNIVERSITÄT<br />
FREIBURG<br />
INSTITUT FÜR INFORMATIK<br />
LEHRSTUHL FÜR ALGORITHMEN UND DATENSTRUKTUREN,<br />
MULTIMEDIA, TELETEACHING UND<br />
ELEKTRONISCHES PUBLIZIEREN<br />
DIPLOMARBEIT<br />
Analyse und Indizierung von Audio-Dateien <strong>für</strong> das<br />
Information Retrieval in Multimedia-Dokumenten.<br />
Vorgelegt von: Betreuer:<br />
<strong>Jürgen</strong> <strong>Dick</strong> Prof. Dr. Thomas Ottmann<br />
Matrikelnr.: 8951939 Dipl.-Inform. Wolfgang Hürst<br />
Freiburg, den 4. April 2000
Erklärung<br />
Hiermit erkläre ich, daß die vorliegende Arbeit von mir selbständig und nur unter Verwendung<br />
der aufgeführten Hilfsmittel erstellt wurde. Die Arbeit wurde nicht, auch nicht auszugsweise,<br />
bereits <strong>für</strong> eine andere Prüfung angefertigt.<br />
Freiburg, den 4. April 2000
Vorwort<br />
Ich möchte mich bei Prof. Dr. Thomas Ottmann bedanken, der diese Diplomarbeit und auch<br />
meine Studienarbeit ermöglicht hat. Mein besonderer Dank gilt Dipl.-Inform. Wolfgang Hürst<br />
<strong>für</strong> die umfassende und sehr gute Betreuung dieser Arbeit.<br />
Weiterhin möchte ich mich bei Dipl.-Bibl. (FH) Rolf Hermkes, Cosima Bolanz und Alexander<br />
Wollmann bedanken, die mir bei der Korrektur behilflich waren, sowie all denen, die mich bei<br />
dieser Arbeit und im Laufe meines Studiums unterstützt haben.<br />
Insbesondere möchte ich mich bei meiner Mutter bedanken, die über all die Jahre an mich geglaubt<br />
und mir dieses Studium ermöglicht hat.
Inhaltsverzeichnis<br />
1 Einleitung, Motivation 11<br />
1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
1.1.1 Das Problem: Suche in Audio-Dateien . . . . . . . . . . . . . . . . . . . 12<br />
1.1.2 Arbeiten mit ähnlichem Thema . . . . . . . . . . . . . . . . . . . . . . 13<br />
1.2 Ziel dieser Diplomarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.3 Inhaltlicher Aufbau dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
1.4 Die Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
1.5 Zusammenfasssung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2 Grundlagen der Sprachanalyse 20<br />
2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.2 Erzeugung der menschlichen Sprache . . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.2.1 Aufbau des menschlichen Sprachapparates . . . . . . . . . . . . . . . . 22<br />
2.2.2 Lautbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.2.3 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.2.4 Modellvorstellung der Spracherzeugung . . . . . . . . . . . . . . . . . . 25<br />
2.3 Konzepte und Notationen der digitalen Signalverarbeitung . . . . . . . . . . . . 26<br />
2.3.1 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.3.2 Das Abtasttheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
2.3.3 Klassifikation von Signalen . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.3.4 Zeitdiskrete Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
2.3.5 Fourier-Transformationen und verwandte Konzepte . . . . . . . . . . . . 35<br />
2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
5
6 INHALTSVERZEICHNIS<br />
3 Extraktion von Audio-Features 40<br />
3.1 Windowing / Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
3.1.1 Windowing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
3.1.2 Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
3.1.3 Extraktion von Audio-Features . . . . . . . . . . . . . . . . . . . . . . . 44<br />
3.2 Short-term energy und short-term power . . . . . . . . . . . . . . . . . . . . . . 47<br />
3.3 Short-term zero crossing rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
3.4 Fundamentalfrequenz (Pitch) ¢¡<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation . . . . . . . . . . . . . . . 55<br />
3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference<br />
Function (AMDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums . . . . . . . . . . . . . 65<br />
3.4.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br />
4 Segmentierungsverfahren 70<br />
4.1 Pausenbasierte Segmentierung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . 70<br />
4.1.1 Der Pausen-Detektions-Algorithmus . . . . . . . . . . . . . . . . . . . . 71<br />
4.2 Emphasis-Detection-basierte Segmentierung (EDBS) . . . . . . . . . . . . . . . 77<br />
4.2.1 Der Emphasis-Detection-Algorithmus . . . . . . . . . . . . . . . . . . . 78<br />
4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus . . . . 81<br />
5 Evaluation 85<br />
5.1 Messgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />
5.2 Pausenbasierte Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />
5.2.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />
5.2.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 92<br />
5.3 Emphasis-Detection-basierte Segmentierung . . . . . . . . . . . . . . . . . . . . 95<br />
5.3.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
5.3.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 101<br />
6 Zusammenfassung und Ausblick 104<br />
A Beispiel einer Text-Transkription 106
INHALTSVERZEICHNIS 7<br />
B Segmentierung am Beispiel einer Radio-Nachrichtensendung 110<br />
B.1 Radio-Nachrichtensendung 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110<br />
B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung . . . . 110<br />
B.1.2 Auswertungstabelle (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
B.1.3 Auswertungstabelle (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
B.2 Radio-Nachrichtensendung 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />
B.2.1 Auswertung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />
B.2.2 Auswertung (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Abbildungsverzeichnis<br />
1.1 Story Segmentation, Topic Detection und Topic Tracking . . . . . . . . . . . . . . . . 14<br />
2.1 Allgemeines System zur technischen Sprachverarbeitung [12] . . . . . . . . . . . . . 20<br />
2.2 Anwendungsgebiete der Sprachverarbeitung . . . . . . . . . . . . . . . . . . . . . 21<br />
2.3 Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12] . . . . . . . 23<br />
2.4 Periodisches Anregungssignal bei stimmhaften Lauten . . . . . . . . . . . . . . . . . 23<br />
2.5 Blockschaltbild eines einfachen technischen Systems <strong>für</strong> die Sprachsynthese . . . . . . 25<br />
2.6 Ein typisches digitales Signalverarbeitungssystem. . . . . . . . . . . . . . . . . . . . 27<br />
2.7 Blockschaltbild-Darstellung eines zeitdiskreten Systems . . . . . . . . . . . . . . . . 30<br />
2.8 Impulsantwort eines LTI-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
2.9 Impulsantworten eines FIR- und eines IIR-Filters . . . . . . . . . . . . . . . . . . . 34<br />
2.10 Äquivalente Beschreibungen digitaler Filter . . . . . . . . . . . . . . . . . . . . . . 38<br />
3.1 Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit<br />
einem Rechteck-Fenster multipliziert. . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />
3.2 Amplitudenspektrum eines Rechteck-Fensters . . . . . . . . . . . . . . . . . . . . . 43<br />
£<br />
¢¡<br />
£<br />
¤¢¡ ¥¡§¦©¨© ¤¢¡<br />
3.3 Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren<br />
dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar.<br />
entspricht der digitalen Frequenz , entspricht der Frequenz . . . . . 45<br />
3.4 Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame-<br />
Länge = 10 ms, Time-Shift = 10 ms) . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />
3.5 Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms,<br />
Time-Shift = 10ms ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
3.6 System zur Pitch-Detektion [12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />
3.7 Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten<br />
(a) bis (c) sind männlich, (d) ist weiblich. . . . . . . . . . . . . . . . . . . . . . . . 54<br />
8
ABBILDUNGSVERZEICHNIS 9<br />
3.8 "Gefenstertes" Sinus-Signal und dessen AKF . . . . . . . . . . . . . . . . . . . . . 56<br />
3.9 Effiziente Berechnung der AKF mittels FFT . . . . . . . . . . . . . . . . . . . . . . 57<br />
3.10 Blockdiagramm des AUTOC Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 58<br />
3.11 Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde. . . . . 59<br />
3.12 Blockdiagramm des PDAs nach BOERSMA [5] . . . . . . . . . . . . . . . . . . . . . 60<br />
3.13 Blockdiagramm des ModifiedACF-PDAs. . . . . . . . . . . . . . . . . . . . . . . . 61<br />
3.14 Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing,<br />
(b) mit Postprocessing erzeugt wurden. . . . . . . . . . . . . . . . . . . . . . . 64<br />
3.15 Blockdiagramm eines AMDF Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 65<br />
3.16 Ein Ausschnitt eines Sprachsignals und die Cepstra <strong>für</strong> (a) ein stimmhaftes Segment, (b)<br />
ein stimmloses Segment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
3.17 Berechnung der stRC mittels DFT . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br />
3.18 Blockdiagramm eines CEP Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . . 69<br />
4.1 Schematische Darstellung des pausenbasierten Segmentierungsverfahrens . . . . . . . . 72<br />
4.2 Energie-Histogramme <strong>für</strong> verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 73<br />
4.3 ¢¡¤£¦¥ -Histogramme <strong>für</strong> verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 74<br />
4.4 Beispiel <strong>für</strong> den Ablauf der PBS (Teil 1) . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
4.5 Beispiel <strong>für</strong> den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache) . . . . . . . . . . . . . 76<br />
4.6 Pitch-Histogramme <strong>für</strong> Dozenten (a) männlichen, (b) weiblichen Geschlechts . . . . . . 79<br />
4.7 Berechnung der Pitch-Aktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
4.8 Ausgabe des EDBS-Algorithmus <strong>für</strong> einen 15-minütigen Ausschnitt aus einer Sprachdatei. 81<br />
4.9 Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 1) . . . . . . . . . . . . . . . . 82<br />
4.10 Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 2) . . . . . . . . . . . . . . . . 83<br />
5.1 Beispiele <strong>für</strong> die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis-<br />
Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von §©¨ ¡ und im<br />
Diagramm (b) eine Länge von §¨ ¡§¦ . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />
5.2 Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen<br />
Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden. . . . . . . . . . 93<br />
5.3 Recall/Presision-Diagramme <strong>für</strong> die Ergebnisse aus Kapitel 5.3.1 . . . . . . . . . . . . 101
Tabellenverzeichnis<br />
3.1 Mathematische Definiton verschiedener Fensterfunktionen . . . . . . . . . . . . . . . 43<br />
5.1 Beispiele <strong>für</strong> Segmentierungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 86<br />
5.2 Auszug aus einer manuellen Segmentierung . . . . . . . . . . . . . . . . . . . . . . 87<br />
5.3 Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben<br />
der Segmentierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />
5.4 Klassifikationsvorschrift <strong>für</strong> das EDBS . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
A.1 Auswertungstabelle <strong>für</strong> die Datei ga300_15m,.aif . . . . . . . . . . . . . . . . . . . 109<br />
B.1 Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die<br />
Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden<br />
Pause, SW=Schwellwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
B.2 Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die<br />
Abkürzung SZ steht <strong>für</strong> Startzeitpunkt. . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
B.3 Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . . 115<br />
B.4 Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . 115<br />
10
Kapitel 1<br />
Einleitung, Motivation<br />
Per Definition stellen Multimedia-Dokumente eine Kombination von zeitunabhängigen- und<br />
zeitabhängigen Medien dar, wobei zu einem echten Multimedia-Dokument immer mindestens<br />
ein zeitunabhängiges- und ein zeitabhängiges Medium gehört [34]. Zu den zeitunabhängigen<br />
Medien zählen beispielsweise Text, Zeichnungen (Vektorgrafik) und Pixel-Bilder. Zeitabhängige<br />
Medien sind zum Beispiel Audio- und Videoströme und Animationen. Als Datenbasis <strong>für</strong><br />
diese Arbeit wird nur ein zeitabhängiges Medium betrachtet: der Audiostrom eines Multimedia-<br />
Dokuments. Es wird angenommen, daß die Audio-Daten nicht in Echtzeit zu verarbeiten sind,<br />
der Audiostrom liegt als Audio-Datei vor. Das Speicherformat spielt hierbei prinzipiell keine<br />
Rolle, auch wenn auf die einzelnen Daten innerhalb der Datei beliebiger Zugriff möglich sein<br />
muß.<br />
Um gewisse Informationen aus einem Satz von Daten zu extrahieren, muß zunächst eine<br />
Analyse der Daten erfolgen. Im Fall von Audiosignalen werden diverse Eigenschaften des<br />
Signals bestimmt, von denen man annimmt, daß sie <strong>für</strong> die Problemlösung relevant sein<br />
könnten. Solche Eigenschaften eines Audiosignals können beispielsweise der zeitliche Verlauf<br />
der Energie, der Nulldurchgangsrate, des Frequenzspektrums oder im speziellen Fall von Sprachsignalen<br />
der Fundamentalfrequenz sein. Die einzelnen, berechneten Audio-Features<br />
werden verwendet, um Informationen auf einer höheren Ebene zu gewinnen. Die ermittelten<br />
Indizien 1 sind beispielsweise Sprechpausen und Betonungen eines Sprechers. Sie können zur<br />
Indizierung der Audio-Datei genutzt werden.<br />
Ziel der Analyse und Indizierung von Audioströmen, insbesondere von Audio-Dateien aus AOF-<br />
Dokumenten (siehe Kapitel 1.4), ist die Informationssuche (Information Retrieval) in diesen<br />
Audio-Dateien. Im allgemeinen verbindet man Informationssuche mit der Suche nach Wörtern<br />
oder Sätzen in einem Text. Dies kann beispielsweise die Suche nach bestimmten Begriffen in<br />
einer Literaturdatenbank sein oder die Suche im World-Wide-Web mit Hilfe von Suchmaschinen,<br />
die die indizierten HTML-Dokumente nach den gewünschten Begriffen absuchen. Für dieses<br />
1 Indizien [lat. zu index „Anzeiger”], Tatsachen, aus denen das Vorliegen eines bestimmten Sachverhalts geschlossen<br />
werden kann, ... . (Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.)<br />
11
12 KAPITEL 1. EINLEITUNG, MOTIVATION<br />
Anwendungsgebiet gibt es mächtige <strong>Algorithmen</strong>, die aber <strong>für</strong> die Suche in Audio-Dateien und<br />
Multimedia-Dokumenten im allgemeinen nicht anwendbar sind. Des weiteren könnte versuchen<br />
werden, die untersuchte Audio-Datei anhand der oben genannten Indizien zu segmentieren, so<br />
daß beispielweise ein schnelles Navigieren innerhalb des Dokuments erleichtert wird.<br />
Diese einleitenden Worte verdeutlichen, aus welchen Begriffen sich der Titel dieser Arbeit zusammensetzt<br />
und in welchem Kontext sie zu sehen sind.<br />
1.1 Einleitung<br />
1.1.1 Das Problem: Suche in Audio-Dateien<br />
Das Problem der Suche in Audio-Dateien ist jedem bekannt, der einen Anrufbeantworter sein<br />
Eigen nennt. Wurde er eine längere Zeit nicht abgehört, so finden sich (möglicherweise) eine<br />
Vielzahl von Nachrichten auf dem Band. Viele davon sind unwichtig. Trotzdem müssen alle<br />
Nachrichten angehört werden und wenn man Pech hat, ist erst die letzte Nachricht auf dem Band<br />
die einzig wichtige. Angenehm wäre eine Art Suchmaschine, wie sie es <strong>für</strong> Textdokumente im<br />
WWW gibt. Dies ist Ziel verschiedener Forschungsarbeiten, auf die im nächsten Abschnitt kurz<br />
eingegangen wird.<br />
Das klassische Informationssuche-Problem besteht in der Auffindung eines Textdokuments,<br />
indem eine Suchanfrage, bestehend aus einem oder mehreren Schlüsselwörtern, an eine<br />
Menge von Textdokumenten gestellt wird. In der Regel werden die relevanten Dokumente<br />
dadurch gefunden, daß die Schlüsselwörter innerhalb dieser Textdokumente lokalisiert werden.<br />
Ein Dokument, in dem die Schlüsselwörter häufiger vorkommen als in anderen Dokumenten,<br />
wird dann als relevanter angesehen. Die Textdokumente können dem Benutzer daraufhin<br />
bezüglich ihrer Relevanz sortiert präsentiert werden. Die Informationssuche-<strong>Algorithmen</strong> <strong>für</strong><br />
Textdokumente basieren auf Pattern-Matching. Wenn man davon ausgeht, daß es keine Text-<br />
Transkription einer Sprachdatei 2 durch ein Spracherkennungssystem gibt, so läßt sich der Pattern-<br />
Matching-Ansatz nicht so einfach auf diese Art von Dateien übertragen. Dies liegt am Fehlen von<br />
identifizierbaren Wörtern oder vergleichbaren Einheiten in der Sprachdatei. Noch schwieriger<br />
wird das Problem, wenn die Audio-Dateien außer Sprache beispielsweise Musik enthalten.<br />
Bislang wurde die Verarbeitung und die Problematik von Suchanfragen betrachtet. Auch das<br />
Navigieren und das schnelle Browsen in Audio-Dateien ist ungleich problematischer als in<br />
reinen Text-Dateien. Audio-Dateien müssen vollständig durchgehört werden, wenn man sicher<br />
gehen will, daß alle wichtigen Informationen gefunden werden. Dies liegt an der Linearität von<br />
Audioströmen. Allerdings benötigt das Abhören von Audio-Dateien unter Umständen sehr viel<br />
Zeit. Die Text-Transkription einer minutenlangen Nachricht kann hingegen mit dem Auge in<br />
wenigen Sekunden überflogen werden.<br />
2 Der Begriff Sprachdatei steht <strong>für</strong> eine Audio-Datei, die nur Sprache enthält.
1.1. EINLEITUNG 13<br />
1.1.2 Arbeiten mit ähnlichem Thema<br />
Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen<br />
Zielen:<br />
Suche nach bestimmten Wörtern in Audio-Dokumenten.<br />
Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es<br />
im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von<br />
sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition)<br />
werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann<br />
anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt,<br />
Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen<br />
durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen<br />
(HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter<br />
werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den<br />
trainierten HMMs existieren effiziente <strong>Algorithmen</strong>, um die wahrscheinlichste Modell-<br />
Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die<br />
begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis<br />
¡£¢£¤<br />
über<br />
reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei<br />
sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt,<br />
daß Text-Transkriptionen sehr hilfreich <strong>für</strong> die Informationssuche sein können, auch wenn<br />
Erkennungsraten von nur ¥<br />
¢ –¦<br />
¢§¤<br />
erreicht werden [14].<br />
Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht<br />
man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen<br />
Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov-<br />
Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt.<br />
Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise<br />
in Stille, Sprache, Musik und sonstige Geräusche.<br />
Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter<br />
anderem Sprecheridentifikation [19], Szenenklassifikation <strong>für</strong> das Video-Indexing [21][25]<br />
[33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der<br />
Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise<br />
Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften<br />
werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen<br />
werden.<br />
Story Segmentation / Topic Detection / Topic Tracking.<br />
Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens<br />
neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein<br />
Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten.<br />
Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research<br />
Projects Agency), NSF (National Science Foundation) und NIST (National <strong>Institut</strong>e
14 KAPITEL 1. EINLEITUNG, MOTIVATION<br />
¡ ¡ ¢¡¢¡¢<br />
¢¡¢¡¢ ¡ ¡<br />
Story Segmentation<br />
disjunkte, homogene Bereiche (Stories)<br />
Topic Identification<br />
neues Ereignis<br />
Topic Tracking<br />
£¡£¡£ ¤¡¤¡¤<br />
¥¡¥¡¥<br />
¦¡¦<br />
§¡§<br />
¦¡¦<br />
§¡§ ¨¡¨<br />
¨¡¨<br />
¥¡¥¡¥<br />
¤¡¤¡¤ £¡£¡£<br />
mehr Stories zum<br />
vorhergehenden Ereignis<br />
Abbildung 1.1: Story Segmentation, Topic Detection und Topic Tracking<br />
of Standards and Technology) unterstützt. Hierbei gibt es drei verschiedene Aufgaben zu<br />
lösen [10][37] (vergleiche Abbildung 1.1):<br />
Story Segmentation Der Datenstrom muß in einzelne Stories zerlegt werden und kann<br />
sowohl ein Audiosignal als auch ein Textdokument sein. Im Falle eines Audiostroms<br />
kann die Segmentierung direkt auf dem Signal ausgeführt werden, sie kann aber auch<br />
über eine Text-Transkription ermittelt werden.<br />
Topic Identification Die Topic Identification-Aufgabe ist definiert als die Aufgabe der<br />
Erkennung und Weiterverfolgung von Topics, die dem System noch nicht bekannt<br />
sind. Das System hat noch kein Wissen darüber, was das Topic ist. Es muß also ein<br />
Verständnis davon haben, was ein Topic ausmacht und dieses Verständnis muß unabhängig<br />
von spezifischen Topics sein.<br />
Topic Tracking Neue Stories müssen bekannten Topics zugeordnet werden. Ein Topic<br />
ist bekannt durch die Assoziationen mit Stories, die dieses Topic diskutieren. Die<br />
Aufgabe besteht also in der Klassifikation aller neuen Stories, dahingehend ob sie ein<br />
bekanntes Topic diskutieren oder nicht.<br />
Es existieren zudem Systeme, die die angesprochenen Teilgebiete vereinen. Hierzu gehören das<br />
in den AT&T-Labs entwickelte Sprach-Retrieval-System SCAN (Spoken Content-Based Audio<br />
Navigation) [8] und MAESTRO (Multimedia Annotation and Enhancement via a Synergy<br />
of Technologies and Reviewing Operators) [29].<br />
1.2 Ziel dieser Diplomarbeit<br />
Im vorangehenden Abschnitt wurden verschiedene Möglichkeiten zur Informationssuche in<br />
Audio-Dokumenten vorgestellt. Die vorliegende Diplomarbeit beschäftigt sich mit der
1.2. ZIEL DIESER DIPLOMARBEIT 15<br />
Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen<br />
von Informatik-Vorlesungen (siehe Kapitel 1.4).<br />
Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man<br />
ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren,<br />
daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der<br />
Dozent liest die Transkription durch und markiert die Stellen im Text, die er <strong>für</strong> einen Anfang<br />
eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben.<br />
Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der<br />
Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu<br />
navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis<br />
anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle<br />
in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile:<br />
Es muß eine Text-Transkription der Aufzeichnung erstellt werden.<br />
Die Transkription muß (manuell) gegliedert werden.<br />
Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden.<br />
Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung<br />
automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst<br />
genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben<br />
würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch<br />
die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich<br />
der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt<br />
sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet.<br />
Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität<br />
des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem<br />
erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen<br />
Gliederung ist ein offenes Problem.<br />
Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das<br />
gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen.<br />
Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst<br />
nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten<br />
eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise<br />
aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden,<br />
diese mit der Gliederung der Audio-Datei abzugleichen.<br />
In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl<br />
von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen<br />
Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig<br />
trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren
16 KAPITEL 1. EINLEITUNG, MOTIVATION<br />
<strong>für</strong> diese Diplomarbeit ausgesucht, die nicht auf statistischen Modellen basieren. Das erste vorzustellende<br />
Verfahren verwendet die Dauer von Sprechpausen zur Voraussage einer möglichen<br />
Gliederung. Der zweite Algorithmus versucht Betonungen des Sprechers zu ermitteln, die anschließend<br />
Hinweise auf die Gliederung des Gesprochenen liefern sollen. Über die Hintergründe<br />
dieser Ansätze klären die Einleitungen der Kapitel 4.1 und 4.2 auf. Ziel war es nun, die angesprochenen<br />
<strong>Algorithmen</strong> auf ihre Verwendbarkeit zu überprüfen, insbesondere im Hinblick auf<br />
die speziellen Daten, die dieser Untersuchung zugrunde liegen.<br />
1.3 Inhaltlicher Aufbau dieser Arbeit<br />
Die Arbeit gliedert sich in sechs Teile:<br />
Nachdem im vorliegenden Kapitel bereits eine Einführung in die Motivationen und Ziele<br />
dieser Arbeit gegeben wurde, sowie eine Vorstellung von Arbeiten mit ähnlichem Thema<br />
erfolgt ist, wird im Rest des Kapitels die verwendete Datenbasis erläutert.<br />
Das Kapitel Grundlagen der Sprachanalyse erläutert die wichtigsten Konzepte und<br />
Begriffe der Sprachanalyse. Es gliedert sich wiederum in drei Unterkapitel. Im ersten<br />
Teil Einführung wird ein kurzer Überblick über die Sprachverarbeitung im allgemeinen<br />
gegeben. Der zweite Abschnitt beschäftigt sich mit der Erzeugung der menschlichen<br />
Sprache, und im dritten Teil werden Konzepte und Notation der digitalen Signalverarbeitung<br />
erläutert. Dieses Kapitel ist <strong>für</strong> denjenigen Leser gedacht, der sich bislang noch<br />
nicht mit dieser Materie beschäftigt hat, aber auch nicht zu tief in das Themengebiet einsteigen<br />
will. Es ersetzt nicht das Studium einschlägiger Literatur, wenn ein tieferes Verständnis<br />
erwünscht ist. Die Begriffe werden in den meisten Fällen informell erklärt, so<br />
daß auch die später folgenden Kapitel ohne tiefgreifendes Studium der digitalen Signalund<br />
Sprachverarbeitung verstanden werden können. Der Leser mit Kenntnissen auf diesen<br />
Gebieten kann das Kapitel überspringen.<br />
Das dritte Kapitel Extraktion von Audio-Features erläutert die low level-Eigenschaften,<br />
die von den in Kapitel 4 vorgestellten Verfahren verwendet werden, und wie sie aus dem<br />
Audiosignal extrahiert werden können.<br />
Im vierten Kapitel Segmentierung/Emphasis-Detection werden Verfahren vorgestellt,<br />
die daraufhin untersucht werden sollen, in wie weit sie sich zur Segmentierung bzw. zur<br />
Suche in Sprachdateien eignen. Der erste Teil dieses Kapitels stellt ein Verfahren vor,<br />
das versucht, Sprechpausen zur Berechnung einer Segmentierung heranzuziehen. Bei der<br />
Emphasis-Detection geht es darum, besonders betonte Stellen in einem Vortrag zu finden.<br />
Diese erlauben eventuell Rückschlüsse auf eine mögliche Gliederung des Vortrages.<br />
Das fünfte Kapitel Evaluation beschäftigt sich mit der Aus- und Bewertung der <strong>Algorithmen</strong><br />
bezüglich ihrer Nutzbarkeit im Rahmen des AOF-Projekts [1]. In Kapitel 1.4 wird
1.4. DIE DATENBASIS 17<br />
erläutert, welche Sprachdateien im einzelnen <strong>für</strong> diese Arbeit zur Evaluation herangezogen<br />
wurden.<br />
Im letzten Kapitel werden die Ergebnisse dieser Arbeit zusammengefaßt und bewertet.<br />
1.4 Die Datenbasis<br />
Diese Arbeit beschäftigt sich ausschließlich mit der Informationssuche in aufgezeichneten Audio-<br />
Dateien. Es ist also keine Echtzeitverarbeitung nötig, da sie off-line bearbeitet werden. Allgemein<br />
können Audio-Dateien Sprache, Musik und andere Geräusche enthalten. Hier soll mit Dateien<br />
gearbeitet werden, die ausschließlich Sprache enthalten. Sprachdateien können vielseitiger Natur<br />
sein; sie können beispielsweise von aufgezeichneten Meetings, Vorlesungen, Vorträgen, Telefongesprächen<br />
oder Nachrichtensendungen stammen. Dementsprechend sind auch die Ziele einer<br />
Suche in diesen Dateien sehr unterschiedlich. Im Falle von Meetings könnten die verschiedenen<br />
Sprecher ermittelt werden, während in aufgezeichneten Telefongesprächen nach bestimmten verwendeten<br />
Begriffen gesucht werden könnte. Im Falle von Vorlesungen oder Vorträgen ist man<br />
möglicherweise daran interessiert, besonders wichtige Stellen im Vortrag zu ermitteln, so daß<br />
später leicht auf diese Stellen zugegriffen werden kann.<br />
Aufgezeichnete Vorlesungen dienen in dieser Arbeit als Beobachtungsgrundlage. Sie haben die<br />
folgenden Eigenschaften:<br />
plus0.5exSie sind typischerweise Monologe. (Allerdings sind Zuhörer anwesend, die möglicherweise<br />
Zwischenfragen stellen. Die untersuchten Sprachdateien enthielten aber nur in<br />
einem Fall Zwischenbemerkungen der Zuhörer, die aber aufgrund ihrer niedrigen Lautstärke<br />
nur noch sehr schwer herauszuhören waren. Sie wurden deshalb vernachlässigt.)<br />
Vorlesungen sind bzw. sollten strukturiert sein.<br />
Der erste Punkt hat den Vorteil, daß keine Sprecheridentifikation nötig ist. Eine gute Strukturierung<br />
während des Vortrags läßt darauf hoffen, daß eine Segmentierung relativ einfach möglich<br />
ist.<br />
Die Aufzeichnungen wurden im Sommersemester 1999 im Rahmen einer Vorlesungsreihe zum<br />
Thema Geometrische <strong>Algorithmen</strong> erstellt [24]. Diese Veranstaltungen wurden mit Hilfe der<br />
Authoring-on-the-fly (AOF)-Tools aufgezeichnet, die in der Abteilung <strong>Algorithmen</strong> und <strong>Datenstrukturen</strong>,<br />
Multimedia, Teleteaching und Elektronisches Publizieren am <strong>Institut</strong> <strong>für</strong> Informatik<br />
der Albert-Ludwigs-Universität Freiburg unter der Leitung von Prof. Dr. Thomas Ottman entwickelt<br />
wurden. Die zugrundeliegende Idee ist,<br />
„. . . auf den ersten Blick so verschiedene Tätigkeiten, wie das Halten einer Vorlesung<br />
im Hörsaal, das Teleteaching und das Erstellen multimedialer, <strong>für</strong> Unterrichtszwecke<br />
geeigneter Dokumente, zusammenwachsen zu lassen. Die in Freiburg
18 KAPITEL 1. EINLEITUNG, MOTIVATION<br />
dazu entwickelte Methode und Software liefert off-line nutzbare Dokumente<br />
(AOF-Dokumente), die in multimedialen Lehr -und Lernumgebungen Studenten zugänglich<br />
gemacht werden und mit Hilfe von offenen Hypermediasystemen mit vielfältigem<br />
Material (Texten, Simulationen, Animationen, Tests usw.) verknüpft<br />
werden können.“ [1]<br />
Insgesamt vier Vorträge von drei verschiedenen, männlichen Dozenten wurden <strong>für</strong> die<br />
Evaluation ausgewählt. Durch die Auswahl von unterschiedlichen Vortragenden läßt sich bestimmen,<br />
ob die untersuchten Segmentierungsverfahren in irgendeiner Weise vom Sprecher abhängige<br />
Ergebnisse liefern. Zudem sind die Aufzeichnungen von unterschiedlicher Audio-<br />
Qualität, so daß auch festgestellt werden kann, inwiefern die Verfahren von der Aufzeichnungsqualität<br />
abhängen. Außerdem wurden zu Vergleichszwecken zwei Radio-Nachrichtensendungen<br />
aufgenommen. In Anhang B befindet sich die Auswertung <strong>für</strong> diese Aufnahmen. Um die in<br />
Kapitel 3.4 vorgestellten Pitch-Detektions-<strong>Algorithmen</strong> zu testen, wurden zudem Sprachdateien<br />
verwendet, die der CD zum Buch Prinzipien des <strong>Algorithmen</strong>entwurfs entstammen [23].<br />
Die Sprachdateien wurden auf eine Länge von 15 Minuten gekürzt und enthalten jeweils die<br />
ersten 15 Minuten des entsprechenden Vortrags. Bei der Aufnahme waren die Dozenten mit<br />
einem Ansteck-Funkmikrofon ausgestattet. Das Mikrofonsignal lief über ein Mischpult in eine<br />
SGI-Workstation, die das Signal aufzeichnete. Prinzipbedingt schleichen sich hier die größten<br />
Fehler ein:<br />
1. Der Abstand vom Mund zum Mikrofon ist nicht konstant, so daß die Amplitude des Signals<br />
sehr stark schwankt. Eine gute Aussteuerung ist deshalb nur schwer möglich.<br />
2. Das Signal muß im Mischpult <strong>für</strong> jeden Dozenten neu ausgesteuert werden. Geschieht<br />
dies nicht, so können beispielweise Übersteuerungen die Folge sein. Die Folge sind hörbare<br />
Beeinträchtigungen des Signals, die sich durch sogenannte Klicks und Verzerrungen<br />
bemerkbar machen. Eine andere mögliche Folge von schlechter Aussteuerung ist, daß das<br />
Sprachsignal zu schwach und durch die Technik bedingtes Rauschen im Vergleich zum<br />
Nutzsignal zu stark ist.<br />
Das Gleiche gilt <strong>für</strong> die Aussteuerung im Rechner. Dieses Problem läßt sich aber einfach<br />
umgehen.<br />
Die <strong>für</strong> die Evaluation herangezogenen Sprachdateien sind also alles andere als ideal. Schwierigkeiten<br />
hieraus ergeben sich hauptsächlich bei der Bestimmung der Fundamentalfrequenzverläufe<br />
(siehe Kapitel 3.4) und der Unterscheidung von Sprache und Stille.<br />
1.5 Zusammenfasssung<br />
Dieses Kapitel lieferte einen Einblick in die Möglichkeiten, die sich <strong>für</strong> die Infomationsssuche<br />
in Sprachdateien ergeben. Verschiedene Ansätze wurden vorgestellt, der Rahmen, die zugrundeliegende<br />
Datenbasis und das Ziel der vorliegenden Diplomarbeit wurden umrissen.
1.5. ZUSAMMENFASSSUNG 19<br />
Das folgende Kapitel 2 erläutert Grundlagen der Sprachanalyse. Der Leser bekommt eine Vorstellung<br />
davon, wie man sich die Spracherzeugung beim Menschen vorstellen kann. Darüber<br />
hinaus werden einige Grundbegriffe der digitalen Signalverarbeitung erläutert, die <strong>für</strong> das Verständnis<br />
der technischen Seite von Bedeutung sind. Leser mit Kenntnissen auf diesem Gebiet<br />
und Leser, die sich nicht <strong>für</strong> die theoretischen Grundlagen interessieren, können diesen Abschnitt<br />
überspringen.
Kapitel 2<br />
Grundlagen der Sprachanalyse<br />
2.1 Einführung<br />
Sprache dient zur Kommunikation und kann auf zwei verschiedene Arten dargestellt werden:<br />
durch ihren Informationsgehalt oder durch das physikalische Sprachsignal, das als Träger der<br />
Information dient. Die Repräsentation der Sprache durch ihren Informationsgehalt wird <strong>für</strong><br />
Berechnungen auf dem Gebiet der Informationsverarbeitung verwendet. Für die automatische<br />
Sprachverarbeitung ist das Sprachsignal von größerer Bedeutung. Dieses wird entweder analog,<br />
digitalisiert durch die Signalform oder durch seine charakteristischen Parameter dargestellt.<br />
Allgemeines System der technischen Signalverarbeitung<br />
Das Sprachsignal wird (meistens) vom Menschen (Informationsquelle) erzeugt und durch<br />
Schallwellen oder als elektrisches Signal (physikalischer Träger) transportiert. Die erste Aufgabe<br />
der Sprachanalyse besteht darin, das Signal in die <strong>für</strong> die weitere Verarbeitung geeignete<br />
Form (Signalrepräsentation) zu bringen. Dies kann zum Beispiel durch Digitalisierung geschehen.<br />
Das durch diesen Prozeß entstandene Signal kann nun in andere Formen transformiert<br />
(Signaltransformation) und weiter be- und verarbeitet werden. Abbildung 2.1 zeigt den gerade<br />
erläuterten Ablauf im Blockschaltbild.<br />
Sprachsignal auf Signal-<br />
Informationsquelle<br />
physikalischem<br />
repräsentation<br />
z.B. Mensch Träger<br />
in techn. Form<br />
Signaltransformation<br />
Abbildung 2.1: Allgemeines System zur technischen Sprachverarbeitung [12]<br />
20<br />
Verarbeitung<br />
der Information
2.1. EINFÜHRUNG 21<br />
Anwendungsgebiete der Sprachverarbeitung<br />
Zu den ersten Anwendungen gehörte die Kodierung von Sprache mit möglichst geringer Bitrate.<br />
Vor allem in der Übertragungstechnik ist man stark an einer Komprimierung der anfallenden<br />
Datenmenge interessiert. Als Beispiele <strong>für</strong> mögliche Anwendungen im Bereich der Übertragungstechnik<br />
seien hier Satellitensysteme und Mobilfunk genannt. Derzeit aktuell ist das Thema Datenreduktion<br />
auch in der Unterhaltungselektronik bzw. der Übertragung von Musik via Internet.<br />
Der Begriff MP3 ist momentan in aller Munde und stellt einen Standard zur verlustbehafteten<br />
Speicherung und Übertragung von Audiodaten mit guter Qualität dar. Ein weiteres Gebiet der<br />
Sprachverarbeitung ist die Sprechererkennung, deren Aufgabe es ist, Personen anhand ihrer<br />
Stimme eindeutig zu erkennen (Sprecheridentifikation) oder zu entscheiden, ob ein<br />
Sprecher zu einem bestimmten Personenkreis gehört (Sprecherverifikation). Als Einsatzgebiet<br />
der Sprecheridentifikation könnte man sich vorstellen, automatisch zu einer gegebenen<br />
Menge von Audio-Dateien, z.B. aufgezeichnete Vorlesungen, den bzw. die Sprecher zu bestimmen,<br />
so daß eine einfache Suche nach einem bestimmten Sprecher in einer Menge der Audio-<br />
Dateien möglich ist. Mit dem Begriff der Spracherkennung verbindet man im allgemeinen die<br />
Transformation des akustischen Sprachsignals in geschriebenen Text. Schon seit geraumer Zeit<br />
existieren Systeme, die dies mit zufriedenstellenden Ergebnissen bewerkstelligen, wenn<br />
bestimmte Randbedingungen erfüllt sind. Die Spracherkennung kann aber auch zur Steuerung<br />
von und Kommunikation mit Maschinen eingesetzt werden. Sprachsynthese dient der Ausgabe<br />
von Meldungen an den Bediener technischer Einrichtungen und der Mensch-Maschine-<br />
Kommunikation bei computergesteuerten Dialogsystemen. Ein weiteres wichtiges Gebiet der<br />
Sprachverarbeitung ist die Verbesserung der Sprachqualität. Leider werden bei der Übertragung<br />
von Sprache die Signale verändert, verzerrt oder gehen verloren. Als Beispiele der<br />
Verbesserung der Sprachqualität sei die Verbesserung des Signal-Rausch-Verhältnisses oder die<br />
Wiedergewinnung verlorener Sprachsegmente genannt. Die bislang aufgeführten Anwendungsgebiete<br />
stellen klassische Beispiele der Sprachverarbeitung dar. Ein Gebiet, daß noch nicht erwähnte<br />
wurde, ist die Informationssuche in Audio-, Video- und Sprachdateien. In<br />
Kapitel 1.1.2 wurde dieses Gebiet kurz vorgestellt. Die vorliegende Arbeit beschäftigt sich ausschließlich<br />
mit der Informationssuche in aufgezeichneten Sprachdateien. Aus den physikalischen<br />
Eigenschaften des aufgezeichneten Signals sollen Informationen extrahiert werden, die die automatische<br />
Strukturierung von Multimedia-Dokumenten unterstützen. Abbildung 2.2 faßt die besprochenen<br />
Anwendungsgebiete noch einmal zusammen.<br />
Sprachkodie- Sprecherer-<br />
rung <strong>für</strong> Übertragung<br />
und<br />
Speicherung<br />
kennung und<br />
-verifizierung<br />
Anwendungen der Sprachverarbeitung<br />
Spracherkennung<br />
Sprach-<br />
synthese<br />
Verbesserung Informations-<br />
der Sprachsuche in<br />
qualität Audio- und<br />
Videodateien<br />
Abbildung 2.2: Anwendungsgebiete der Sprachverarbeitung
22 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
2.2 Erzeugung der menschlichen Sprache<br />
In diesem Kapitel werden die wichtigsten Begriffe und Konzepte erläutert, die den Aufbau und<br />
die Arbeitsweise des menschlichen Sprachapparates betreffen. Kenntnisse über die Arbeitsweise<br />
des Sprachapparats und der Bildung von Sprachlauten sind wichtig <strong>für</strong> das Verständnis der<br />
Vorgänge bei der Sprachanalyse, insbesondere bei der Bestimmung der Grundfrequenzverläufe<br />
und der Sprechpausen, die im Rahmen dieser Arbeit von besonderem Interesse sind. Die Erläuterungen<br />
in diesem Kapitel basieren im wesentlichen auf den Büchern von<br />
EPPINGER/HERTER [12] und PAULUS [26].<br />
Das Kapitel 2.2.1 beschäftigt sich mit dem Aufbau des menschlichen Sprachtraktes, die Lautbildung<br />
wird in Kapitel 2.2.2 erklärt. Das darauf folgende Kapitel 2.2.3 erläutert die unterschiedlichen<br />
Sprachlaute und ihre Eigenschaften, während in Kapitel 2.2.4 ein gängiges Modell der<br />
Spracherzeugung vorgestellt wird, das auch <strong>für</strong> die Sprachanalyse von Bedeutung ist.<br />
2.2.1 Aufbau des menschlichen Sprachapparates<br />
Der menschliche Sprachapparat ist ein sehr komplexes Gebilde. Die Stimmbildung kommt durch<br />
ein sehr vielschichtiges und fein abgestimmtes Zusammenspiel aller Sprechorgane zustande.<br />
Abbildung 2.3 zeigt eine schematische Darstellung des menschlichen Stimmapparates. Der Kehlkopf<br />
(Larynx) mit Stimmritze (Glottis) und Stimmbändern liegt zwischen Rachenraum und der<br />
Luftröhre (Trachea) und wird häufig als maßgebliches Organ <strong>für</strong> die Erzeugung von Sprache<br />
angesehen. Er ist aber nicht alleine in der Lage, diese Aufgabe auszuführen. Die Stimmbildung<br />
ist nur eine Sekundärfunktion des Kehlkopfes, seine eigentliche Aufgabe besteht darin, keine<br />
festen oder flüssigen Partikel in die Lunge eindringen zu lassen. Mund-, Rachen- und Nasenraum<br />
werden als Vokaltrakt bezeichnet. Das wahrnehmbare Klangbild des abgestrahlten Sprachschalls<br />
wird wesentlich von der Geometrie des Mund- und Rachenraumes und fallweise auch<br />
dem Nasenraum (Nasaltrakt) mitbestimmt. Die Geometrie dieser Hohlräume bestimmt maßgeblich<br />
die Eigenschaften der Schallübertragung. Die Hohlraumgeometrie wird vom Sprecher<br />
durch die Positionierung der Lippen, des Unterkiefers und der Zunge kontrolliert. Die Stellung<br />
des Gaumensegels bestimmt den Grad der Mitwirkung des Nasaltrakts an der Schallübertragung.<br />
Lippen, Unterkiefer, Zunge und Gaumensegel werden Artikulatoren genannt.<br />
2.2.2 Lautbildung<br />
Die Stimmbildung ist ähnlich der Tonerzeugung bei Blasinstrumenten. Die Lunge liefert einen<br />
Luftstrom, der im Kehlkopf durch die Strimmritze gezwungen wird. Beim Sprechen werden<br />
die Stimmbänder derart gespannt, daß sich die Stimmritze schließt, sobald der Druck der auszuatmenden<br />
Luft unter einen bestimmten Wert sinkt, und wieder öffnet, wenn der Druck über<br />
einen bestimmten Wert hinausgeht. Der Verschluß der Stimmritze führt also zu einem Druckanstieg,<br />
die Öffnung der Stimmritze führt zu einem Druckabfall und damit zu einem neuerlichen<br />
Verschluß. Es ergibt sich somit eine Schwingung der Stimmbänder, bei der die Stimmritze
2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 23<br />
Lunge<br />
Vokaltrakt<br />
Nasenraum<br />
Rachenraum Mundraum<br />
Kehlkopf<br />
Stimmbänder<br />
Luftröhre<br />
Nasenabstrahlung<br />
Mundabstrahlung<br />
Abbildung 2.3: Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12]<br />
periodisch geschlossen und wieder geöffnet wird. Der daraus resultiernde Luftstrom der ausgeatmeten<br />
Luft wird als Schallschwingung wirksam. Dieser Vorgang wird mit Phonation bezeichnet.<br />
Die Frequenz der Schwingungen, die Sprachgrundfrequenz, auch Grundfrequenz,<br />
Fundamentalfrequenz oder Pitch genannt 1 , kann vom Sprecher willkürlich verändert werden.<br />
Der Hörer nimmt den Verlauf der Pitch als Sprechmelodie wahr. Die Pitch liegt im Bereich<br />
von 80 Hz bis 350 Hz. Die Grenzen des Schwankungsbereichs kennzeichnen die Stimmlage des<br />
Sprechers und stellen ein wichtiges individuelles Sprechermerkmal dar. Kinder haben im<br />
Mittel eine höhere Stimmlage als Frauen und diese wiederum eine höhere als Männer. Die Lautstärke<br />
hängt von der Amplitude der Stimmbandschwingungen ab. Stimmhafte Laute,<br />
Vokale genannt, werden auf die oben beschriebene Weise gebildet. Abbildung 2.4 zeigt ein<br />
Beispiel <strong>für</strong> das Anregungssignal bei stimmhaften Lauten.<br />
Anregungssignal<br />
10ms<br />
Abbildung 2.4: Periodisches Anregungssignal bei stimmhaften Lauten<br />
Anders sieht die Lautbildung bei stimmlosen Lauten, Konsonanten genannt, aus. Die Stimmbänder<br />
sind weit auseinander und der Luftstrom fließt kontinuierlich. Dieser Luftstrom wird von<br />
den Stimmbändern zu Schwingungen und Turbulenzen angeregt, wodurch ein unregelmäßiges<br />
Signal entsteht, dessen Frequenzspektrum sich relativ gleichmäßig über den hörbaren Bereich erstreckt.<br />
Dieses rauschförmige Signal dient als Anregungsfunktion <strong>für</strong> stimmlose Laute. Das Anregungssignal<br />
durchläuft nun den Vokaltrakt. Dieser Hohlraumresonator ist zur Erzeugung unter-<br />
1 im weiteren Verlauf dieser Arbeit wird <strong>für</strong> die Sprachgrundfrequenz der englische Begriff Pitch verwendet.<br />
t
24 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
schiedlichster Laute fähig, da hier viele Organe zusammenwirken. Mund-, Rachen- und Nasenraum<br />
sind die Hauptresonatoren. Sie sind willentlich in ihrer Größe veränderbar. Zu den Nebenresonatoren<br />
zählen Luftröhre, die Bronchien, der Kehlkopf und die Nasennebenhöhlen. Die<br />
Nebenresonatoren sind praktisch nicht willentlich veränderbar, sie führen deshalb zu sprechertypischen<br />
Merkmalen. Die Nebenresonatoren werden beispielsweise bei Atemwegserkrankungen<br />
in Mitleidenschaft gezogen, weshalb sich die Stimme in diesem Fall verändert. Die Resonanzeigenschaften<br />
des Vokaltrakts haben einen Einfluß auf das Spektrum des Anregungssignals. Aufgrund<br />
dieser Tatsache wird der Vokaltrakt auch als Artikulationstrakt bezeichnet. Bestimmte<br />
Frequenzbereiche werden durchgelassen, während andere Frequenzbereiche unterdrückt werden.<br />
Erstere werden Formantfrequenzen (Formanten) genannt. Sie treten besonders deutlich bei der<br />
Bildung von Vokalen auf.<br />
2.2.3 Sprachlaute<br />
Ein Laut ist jede hörbare Äußerung eines Lebewesens. Laute entstehen durch die koordinierte<br />
Bewegung der Sprechorgane. Nur eine kleine Untermenge der vom Menschen erzeugbaren<br />
Laute werden <strong>für</strong> die Sprachverständigung genutzt. Diese werden als Sprachlaute oder<br />
Phoneme bezeichnet. Phoneme sind kürzeste Teile von Lautereignissen, die die Funktion der<br />
Bedeutungsunterscheidung erfüllen. Sie sind von der Sprache und vom Kulturkreis abhängig, jedoch<br />
setzen sich fast alle Sprachen aus etwa 30 bis 50 unterschiedlichen Phonemen zusammen.<br />
Phoneme selbst haben keine Bedeutung, bedeutungstragende Elemente ergeben sich erst durch<br />
die Zusammensetzung von Phonemen. Die Lautschrift ist eine Möglichkeit zur Darstellung von<br />
Phonemen.<br />
Sprachlaute lassen sich in zwei Kategorien unterteilen: Vokale und Konsonanten. Vokale tragen<br />
weitgehend zur Bildung der Satzmelodie bei. Sie spielen bei der Betonung von Silben innerhalb<br />
eines Wortes, der Dauer von Silben und der Tonhöhenänderung bei Aussprache eines Satzes eine<br />
Rolle. Alle anderen Laute sind Konsonanten. Ein weiteres Unterscheidungmerkmal ergibt sich<br />
dahingehend, ob die Lauterzeugung stimmhaft oder stimmlos erfolgte. Zudem interessiert man<br />
sich <strong>für</strong> die Artikulationsart und den Artikulationsort.<br />
Allen Vokalen ist die stimmhafte Anregung gemeinsam. Da nur stimmhafte Laute eine<br />
periodische Grundfrequenz besitzen, ergibt sich aus der Grundfrequenz die Tonhöhe der<br />
Sprache. Die Gestalt des Artikulationstrakts bestimmt maßgeblich die Klangfarbe der Vokale.<br />
Die Resonanzeigenschaften des Artikulationstrakts führen zur Ausbildung der Formanten. Akustisch<br />
ist ein Vokal allein von der Lage und Ausprägung dieser Formanten abhängig und ist damit<br />
unabhängig von der Tonhöhe.<br />
Konsonanten werden durch die Engstellen, die Artikulationsstellen, im Luftstrom gebildet.<br />
Neben dem Artikulationsort ist auch die Artikulationsart <strong>für</strong> die Bildung von Konsonanten verantwortlich.<br />
Hierdurch können Verschlußlaute (Explosivlaute), Reibelaute (Frikativlaute),<br />
Nasallaute, Seitenlaute (Laterale) und Schwinglaute (Vibranten) unterschieden werden. Strenggenommen<br />
müssen die meisten Konsonanten als Geräusch und nicht als Ton bezeichnet werden,<br />
da sie keine periodischen Schwingungen sind. Sie können nicht durch einige Formanten be-
2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 25<br />
Anregungsquelle Vokaltrakt<br />
Impulsgenerator<br />
Rauschgenerator<br />
stimmhaft<br />
stimmlos<br />
Verstärkungsfaktor<br />
Filter Sprachsignal<br />
Abbildung 2.5: Blockschaltbild eines einfachen technischen Systems <strong>für</strong> die Sprachsynthese<br />
schrieben werden, wie dies bei Vokalen geschieht. Trotzdem sind bei Konsonaten in höheren<br />
Frequenzbereichen bestimmte Frequenzbänder stärker vertreten, die ähnlich wie Formanten wirken.<br />
Bei stimmhaften Konsonanten tritt auch die Grundfrequenz auf, allerdings ist sie gegenüber<br />
den Frequenzanteilen des Rauschens vergleichsweise schwach ausgeprägt.<br />
2.2.4 Modellvorstellung der Spracherzeugung<br />
Die vorangegangenen Abschnitte beschrieben den physiologischen Aufbau des menschlichen<br />
Sprechapparates und der Lautbildung. Es wurde deutlich, daß sowohl der Sprechvorgang als<br />
auch der Aufbau des Sprechapparats sehr komplex ist. Zur Sprachverarbeitung ist es sinnvoll, die<br />
Spracherzeugung durch ein physikalisches Modell zu beschreiben. Hierzu muß ein vereinfachtes<br />
Modell gefunden werden, das technisch nachgebildet werden kann. Ein Modell, das Quelle-<br />
Filter-Modell, wird kurz vorgestellt.<br />
Die Lautanregung geschieht durch den Kehlkopf und die Stimmbänder. Sie erzeugen im Falle<br />
eines stimmhaften Lauts ein periodisches Signal und bei stimmlosen Lauten ein rauschähnliches<br />
Signal. Dieser Teil kann deshalb als Signalquelle, dargestellt durch einen Impulsgenerator, angesehen<br />
werden. Der Vokaltrakt verändert durch seine Widerstands- und Resonanzeigenschaften<br />
das Anregungssignal. Auch die Mundabstrahlung hat Einfluß auf das Anregungssignal und trägt<br />
zu den Eigenschaften des Sprachsignals bei. Diese Beeinflussung des Anregungssignals kann<br />
durch ein variables, akustisches Filter dargestellt werden. Dieses Filter dämpft bestimmte<br />
Frequenzen und verstärkt andere durch Resonanz, abhängig vom gesprochenen Laut.<br />
Das Quelle-Filter-Modell besteht im wesentlichen aus der Anregungsquelle und dem<br />
akustischen Filter. Der Einfluß der Mundabstrahlung wird durch einen Verstärker und durch<br />
die Eigenschaften des Filters nachgebildet (vergleiche Abbildung 2.5). Die Anregungsquelle<br />
dient der Erzeugung stimmhafter sowie stimmloser Laute. Da stimmlose Laute rauschähnliche<br />
Signale sind, werden diese durch einen Rauschgenerator erzeugt. Im Fall stimmhafter Laute<br />
wird ein Signalgenerator eingesetzt, der ein periodisches, sägezahnförmiges Signal erzeugt. Ein<br />
Spracherzeugungssystem enthält je eine Quelle <strong>für</strong> stimmhafte und <strong>für</strong> stimmlose Laute. Es gibt<br />
aber Laute, die gleichzeitig stimmhafte wie stimmlose Anregung erfahren. Um diese erzeugen zu
26 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
können, muß der Umschalter durch einen Mischer ersetzt werden, der den Anteil der jeweiligen<br />
Quelle variabel einstellt. Einfachen Systemen genügt der Umschalter. Soll hochwertige Sprache<br />
erzeugt werden, so ist diese einfache Unterscheidung zwischen stimmhafter und stimmloser Anregung<br />
nicht mehr ausreichend. Deshalb wurden weitergehende Modelle entwickelt, auf die hier<br />
aber nicht eingegangen werden soll.<br />
Das Quelle-Filter Modell gibt den tatsächlichen Vorgang nur teilweise wieder. Die Rückkopplung<br />
des Sprachsignals über das Gehirn zum Gehör wird beispielsweise nicht berücksichtigt. Auch<br />
die Kopplung zwischen Quelle und Filter, das heißt Lautanregung und Resonanzraum, wird nicht<br />
modelliert. Trotz dieser Mängel ist das Quelle-Filter-Modell von großem theoretischen und praktischen<br />
Wert und dient als Basis <strong>für</strong> viele Sprachsynthesesysteme.<br />
2.3 Konzepte und Notationen der digitalen Signalverarbeitung<br />
Sprachverarbeitung ist ein Anwendungsgebiet der digitalen Signalverarbeitung, so daß hierbei<br />
auf Konzepte und Methoden dieser Disziplin zurückgegriffen wird. Die <strong>für</strong> diese Arbeit<br />
notwendigen Begriffe und Konzepte werden in diesem Kapitel kurz erläutert. Eine ausführliche<br />
Einführung in das Gebiet der digitalen Signalverarbeitung bieten u.a. die Lehrbücher von<br />
ORFANIDIS [22], PROAKIS/MANOLAKIS [27] und DELLER/PROAKIS/HANSEN [9].<br />
Zunächst wird das allgemeine Vorgehen bei der digitalen Signalverarbeitung erläutert, siehe<br />
Kapitel 2.3.1. Eine sehr wichtige Rolle in der digitalen Signalverarbeitung spielt das Abtasttheorem,<br />
da es sowohl <strong>für</strong> die Qualität der Digitalisierung als auch <strong>für</strong> die anfallende Datenmenge<br />
entscheidend ist. Dieses fundamentale Theorem wird in Kapitel 2.3.2 vorgestellt. Für die Bestimmung<br />
von Audio-Features wird in Kapitel 3 das Windowing-Konzept eingeführt. Hier<strong>für</strong> ist es<br />
wichtig zu wissen, auf welcher Art von Signalen operiert wird. Die <strong>für</strong> dieses Konzept notwendige<br />
Klassifikation von Signalen behandelt das Kapitel 2.3.3. Das daran anschließende Kapitel<br />
2.3.4 befaßt sich mit zeitdiskreten Systemen, die Grundlage digitaler Signalverabeitungsalgorithmen<br />
sind. Abschließend stellt das Kapitel 2.3.5 die Fourier- und hierzu verwandte Transformationen<br />
vor. Auch <strong>für</strong> diesen Grundlagenteil gilt, daß die vorgestellten Konzepte nur einen groben<br />
Überblick über das <strong>für</strong> diese Diplomarbeit zu erarbeitende Themengebiet geben.<br />
2.3.1 Digitale Signalverarbeitung<br />
Die digitale Signalverarbeitung (DSP) eines analogen Signals erfolgt in drei Schritten (vergleiche<br />
Abbildung 2.6):<br />
1. Das analoge Signal wird digitalisiert; es wird abgetastet und jeder Abtastwert (Sample)<br />
wird bezüglich einer endlichen Anzahl an Bits quantisiert. Dieser Prozeß wird<br />
A/D-Wandlung genannt.<br />
2. Die digitalisierten Samples werden durch einen digitalen Signalprozessor verarbeitet.
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 27<br />
3. Die resultierenden Ausgabe-Samples werden durch einen analogen Rekonstruktor in eine<br />
analoge Form zurückgewandelt (D/A-Wandlung).<br />
¢¡¤£¦¥¨§<br />
©¡£¥¨§ ©£¥¨§<br />
¤£¥¨§ <br />
<br />
analoge<br />
Sampler und<br />
Quantisierer<br />
(A/D-Wandlung) digitale<br />
digitaler<br />
Signalprozessor<br />
digitale<br />
analoger<br />
Rekonstruktor<br />
(D/A-Wandlung) analoge<br />
Eingabe Eingabe<br />
Ausgabe<br />
Ausgabe<br />
Abbildung 2.6: Ein typisches digitales Signalverarbeitungssystem.<br />
Der digitale Signalprozessor kann so programmiert werden, daß er eine Vielzahl von Signalverarbeitungsoperationen<br />
ausführen kann, wie zum Beispiel Filterung, Spektrumsschätzung, und<br />
andere DSP-<strong>Algorithmen</strong>. In Abhängigkeit von der Geschwindigkeit und den Anforderungen<br />
der Applikation kann der digitale Signalprozessor durch einen üblichen Rechner, einen Minicomputer,<br />
einen speziellen DSP-Chip oder andere digitale Hardware realisiert werden, die dazu<br />
geeignet ist, Signalverarbeitungsaufgaben zu erfüllen.<br />
2.3.2 Das Abtasttheorem<br />
Der erste Schritt bei der digitalen Signalverarbeitung besteht in der A/D-Wandlung eines<br />
Eingangssignals. Hierzu muß das Signal abgetastet werden. Wichtig bei diesem Prozeß ist die<br />
Anzahl der Abtastungen pro Sekunde und die Quantisierung. Beides hat nicht nur einen entscheidenden<br />
Einfluß auf die Qualität des digitalisierten Signals, sondern auch auf die anfallende<br />
Datenmenge. In der Regel steigt die Qualität mit der Anzahl der Abtastungen pro Sekunde und<br />
der Anzahl der Bits, die zur Verfügung gestellt werden. Allerdings vergrößert sich im gleichen<br />
Maß die Datenmenge. Es muß also je nach Anwendungszweck ein geeigneter Kompromiß<br />
zwischen Qualität und Datenmenge gefunden werden. Das Abtasttheorem gibt vor, wie hoch<br />
die Anzahl der Abtastungen pro Sekunde sein muß und wie das Eingangssignal beschaffen sein<br />
muß, damit es fehlerfrei digitalisiert und im Anschluß an die Verarbeitung wieder rekonstruiert<br />
werden kann.<br />
Es gibt viele Arten ein analoges Signal abzutasten. Periodisches bzw. uniformes Abtasten wird<br />
in der Praxis am häufigsten eingesetzt. Diese Form der Abtastung wird durch die Beziehung<br />
¤ <br />
ausgedrückt, wobei das zeitdiskrete Signal darstellt, welches durch das Abtasten des<br />
analogen Signals alle Sekunden entsteht. Das Zeitintervall nennt <br />
man Abtastrate oder<br />
<br />
Abtastfrequenz.<br />
wird Abtastperiode oder<br />
Abtastintervall genannt. Die Umkehrung<br />
(2.1)
28 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
Die Abtastwerte repräsentieren exakt das Signal , wenn die Bedingungen des Abtasttheorems<br />
erfüllt sind, welches besagt:<br />
Theorem 2.1 (Abtasttheorem) Wenn die höchste<br />
<br />
Frequenz in einem Signal gleich<br />
ist und das Signal mit einer ¡ © Abtastrate<br />
abgetastet ¡<br />
wird, dann<br />
kann £¢ ¥¥¤§¦ ©©¨ ¦¢ exakt aus seinen Abtastwerten mittels der Interpolationsfunktion<br />
<br />
<br />
<br />
zurückgewonnen werden.<br />
¦¢ ¦¢ kann wie folgt ausgedrückt werden:<br />
wobei <br />
¨<br />
<br />
<br />
<br />
<br />
<br />
die Samples von<br />
<br />
sind.<br />
¥<br />
¥ <br />
¥ <br />
<br />
<br />
Die ¡ © Abtastrate heißt Nyquistrate, das Intervall<br />
heißt Nyquist-<br />
<br />
intervall.<br />
<br />
In anderen Worten, um das Signal<br />
¦¢ ¦ <br />
exakt aus seinen Abtastwerten rekonstruieren zu können,<br />
muß das Signal bandbegrenzt ¥ sein, und die Abtastrate muß mindestens doppelt so hoch<br />
sein, wie die<br />
© höchste vorkommende Frequenz . ¡<br />
2.3.3 Klassifikation von Signalen<br />
Ein zeitdiskretes Signal kann auf verschiedene Art klassifiziert werden. Eine Möglichkeit der<br />
Klassifikation ist die Unterscheidung in Energie- und Leistungssignale, die im Zusammenhang<br />
mit dem Windowing und der short-term Analyse von Sprachsignalen wichtig ist, welche in<br />
Kapitel 3 vorgestellt werden.<br />
Definition 2.1 Energie © Die eines zeitdiskreten<br />
<br />
Signals<br />
Ein Signal heißt Energiesignal, wenn ¢ <br />
©¨ <br />
Definition 2.2 Die Leistung©eines zeitdiskreten Signals <br />
<br />
©<br />
¦ <br />
Ein Leistungssignal hat endliche Leistung, es gilt ¢ <br />
<br />
ist definiert als<br />
(2.2)<br />
(2.3)<br />
(2.4)<br />
© <br />
.<br />
<br />
<br />
©<br />
<br />
<br />
.<br />
ist definiert durch<br />
(2.5)
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 29<br />
Ein Signal kann nicht gleichzeitig ein Leistungs- und ein Energiesignal Wenn © <br />
sein.<br />
ist© ¢¡<br />
dann Ein Signal kann aber weder Energie- noch Leistungssignal wenn © ¢<br />
sein,<br />
<br />
. Energie kann mit zwei Klassen von Signalen assoziiert werden:<br />
oder©<br />
Transienten, Signale die (üblicherweise exponentiell) mit der Zeit abklingen.<br />
Beispiel:<br />
wobei ¤ <br />
¦<br />
¨§ ¢<br />
¢<br />
<br />
¢ . <br />
£¢¥¤ ¢<br />
(2.6)<br />
Endliche Signalfolgen, Signale die außerhalb einer endlichen Zeitdauer Null sind.<br />
Beispiel:<br />
£©¤ <br />
¤ ¦¥ ¦ <br />
Während Energiesignale entweder hinreichend schnell abklingen oder vollständig verschwinden,<br />
klingen Leistungssignale nicht ab, ihre Hüllkurve vergrößert sich aber auch nicht. Leistungssignale<br />
können mit drei großen Klassen von Signalen assoziiert werden:<br />
Konstante Signale, beispielsweise<br />
Periodische Signale, <strong>für</strong> die<br />
<br />
gilt<br />
Beispiel:<br />
<br />
<br />
£¢ <br />
¢ ¢ <br />
<strong>für</strong> ein endliches und <strong>für</strong> alle <br />
<br />
¡<br />
¢ <br />
<br />
Realisierungen von stationären, ergodischen stochastischen Prozessen.<br />
Signale, die in keine der obengenannten Kategorien fallen, sind entweder Nullfolgen oder solche,<br />
die mit der Zeit immer größer werden.<br />
In Kapitel 3 werden Verfahren zur Pitch-Detektion vorgestellt, die alle auf der Annahme<br />
basieren, daß das Sprachsignal innerhalb eines kurzen Zeitfensters als stationäres Signal angesehen<br />
werden kann. Stationär bedeutet, daß sich die statistischen Eigenschaften des Signals<br />
nicht mit der Zeit ändern. Periodische Signale sind stationäre Signale. In Kapitel 2.2 wurde deutlich,<br />
daß das Anregungssignal <strong>für</strong> Vokale ein periodisches Signal ist. Dessen Frequenz soll durch<br />
einen Pitch-Detektions-Algorithmus bestimmt werden. Bei der Pitch-Detektion werden also periodische<br />
Signale betrachtet, die in die Klasse der Leistungssignale fallen.<br />
,<br />
(2.7)<br />
(2.8)<br />
(2.9)
30 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
2.3.4 Zeitdiskrete Systeme<br />
Bei vielen Anwendungen der digitalen Signalverarbeitung, beispielsweise der Sprachanalyse,<br />
soll ein Algorithmus entworfen werden, der eine vorgeschriebene Operation auf einem zeitdiskreten<br />
Signal ausführt. Ein Algorithmus, der diese Operation ausführt, heißt zeitdiskretes<br />
System. Da im Rahmen dieser Arbeit keine Implementierung in Hardware beschrieben wird,<br />
sondern eine Implementierung durch Software, werden durch Hardware realisierte zeitdiskrete<br />
Systeme nicht weiter erwähnt.<br />
Ein zeitdiskretes System ist ein Algorithmus, der eine Eingabefolge zeitdiskreter Samples ,<br />
die Eingabe bzw. Anregung, in eine Ausgabefolge von<br />
<br />
Samples , die Ausgabe bzw.<br />
Antwort, gemäß einer wohldefinierten Ein-/Ausgaberegel transformiert. Die Ein-/Ausgaberegel<br />
gibt vor, wie die<br />
<br />
Ausgabefolge aus dem Wissen über die<br />
<br />
Eingabefolge berechnet<br />
werden soll. Die Ein-/Ausgaberegel bildet den Eingabevektor <br />
in den Ausgabevektor<br />
<br />
bezüg-<br />
<br />
(vergleiche Abbildung 2.7).<br />
<br />
lich einer funktionalen Abbildung ¡ ab: ¡<br />
...<br />
©£¦¥¨§<br />
zeitdiskretes<br />
System<br />
<br />
Abbildung 2.7: Blockschaltbild-Darstellung eines zeitdiskreten Systems<br />
Ein Beispiel <strong>für</strong> den Einsatz zeitdiskreter Systeme sind sogenannte Filter, die das Frequenzspektrum<br />
eines Signals verändern. Manche Pitch-Detektions-<strong>Algorithmen</strong> beschränken das Frequenzspektrum<br />
des Sprachsignals, um eventuell störende Frequenzen zu eliminieren, die das Ergebnis<br />
des Pitch-Detektors negativ beeinflussen könnten. Auch die Bestimmung anderer Audio-<br />
Features, die in Kapitel 3 vorgestellt werden, geschieht durch zeitdiskrete Systeme.<br />
Klassifikation von zeitdiskreten Systemen<br />
Zeitdiskrete Systeme können durch bestimmte Eigenschaften klassifiziert werden. Diese müssen<br />
<strong>für</strong> jede mögliche Eingabe in das System gelten. Zeitdiskrete Systeme lassen sich hinsichtlich<br />
ihrer allgemeinen Eigenschaften in folgende Klassen einteilen:<br />
1. Statische versus dynamische Systeme.<br />
Ein zeitdiskretes System heißt statisch oder speicherlos, wenn seine Ausgabe zu jedem<br />
Zeitpunkt höchstens von dem Eingangswert zu diesem Zeitpunkt abhängt, aber nicht<br />
von zurückliegenden oder noch kommenden Samples der Eingabe. Andernfalls wird das<br />
System dynamisch genannt.<br />
¢¤£¦¥¨§<br />
...
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 31<br />
2. Zeitinvariante versus zeitvariante Systeme.<br />
Ein System <br />
heißt zeitinvariant, wenn sich seine Ein-/Ausgabecharakteristik nicht mit<br />
der Zeit ändert, das heißt<br />
¡ £¢ <br />
<br />
impliziert<br />
¥¤ ¦ £¢ ¥¤ <br />
<br />
(2.10)<br />
3. Lineare versus nichtlineare Systeme.<br />
Das Superpositionsprinzip erfordert, daß die Antwort eines Systems <br />
auf eine gewichtete<br />
Summe von Signalen gleich der entsprechenden gewichteten Summe der Antworten des<br />
Systems auf jedes individuelle Eingangssignal ist.<br />
¢¨§ ©§<br />
¢ ¢§ ©§ ¢ <br />
<br />
(2.11)<br />
Erfüllt ein System das Superpositionsprinzip, so heißt es linear. Andernfalls handelt es<br />
sich um ein nichtlineares System.<br />
4. Kausale versus nichtkausale Systeme.<br />
Ein System heißt kausal, wenn die Ausgabe des Systems zu jedem Zeitpunkt nur von<br />
gegenwärtigen und zurückliegenden Eingaben abhängt, nicht aber von noch kommenden<br />
Eingaben. Das heißt, die Antwort eines kausalen Systems erfüllt eine Gleichung der Form<br />
¤ <br />
<br />
¤ ¦ <br />
(2.12)<br />
wobei eine beliebige Funktion darstellt. Andernfalls heißt das System nichtkausal.<br />
In Echtzeitanwendungen können natürlich nicht Signalwerte beobachtet werden, die in der<br />
Zukunft liegen. Ein nichtkausales System ist physikalisch also nicht realisierbar. Ist das<br />
Signal aber aufgezeichnet, so daß die Verarbeitung off-line stattfinden kann, ist es möglich,<br />
ein nichtkausales System zu implementieren.<br />
5. Stabile versus instabile Systeme.<br />
Ein System heißt stabil, wenn es auf jede beschränkte Eingangsfolge mit einer beschränkten<br />
Ausgangsfolge reagiert,<br />
©<br />
<br />
impliziert <br />
<br />
<br />
<br />
<strong>für</strong> alle <br />
, wobei <br />
endliche Zahlen sind. Wenn <strong>für</strong> eine beschränkte Eingangsfolge<br />
©<br />
die Ausgabe unbeschränkt ist, dann wird das System als instabil klassifiziert.<br />
Stabilität ist eine wichtige Eigenschaft, die in jeder praktischen Anwendung eines Systems<br />
betrachtet werden muß. Instabile Systeme zeigen fehlerhaftes und extremes Verhalten und<br />
verursachen Überläufe in jeder praktischen Implementation.<br />
<br />
(2.13)
32 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
¡<br />
¥¨§ £ ¥¨§ £ £¦¥¨§ £<br />
¥<br />
Impuls<br />
Impulsantwort<br />
Abbildung 2.8: Impulsantwort eines LTI-Systems<br />
Lineare, zeitinvariante Systeme und ihre Impulsantworten<br />
Ein lineares, zeitinvariantes System (LTI-System) ist nach der obigen Definition ein zeitdiskretes<br />
System, dessen Ein-/Ausgabecharakteristik sich nicht mit der Zeit verändert und das Superpositionsprinzip<br />
erfüllt. Digitale Filter, die das Frequenzspektrum eines Signals verändern, sind<br />
ein Beispiel <strong>für</strong> ein LTI-System. Solche Filter werden beispielsweise bei der A/D- und D/A-<br />
Wandlung eingesetzt, um das Frequenzspektrum des zu verarbeitenden Signals so zu beschränken,<br />
daß die Bedingungen des Abtasttheorems erfüllt werden. Digitale Filter werden aber auch bei der<br />
Sprachverarbeitung eingesetzt. Dies kann beispielsweise in Form einer Filterbank zur<br />
Analyse des Sprachsignals im Frequenzbereich geschehen. Eine andere Anwendung ist die Vorverarbeitung<br />
des Sprachsignals, so daß das Sprachsignal vor der eigentlichen Analyse von Störgeräuschen<br />
befreit wird. Manche der in Kapitel 3.4 vorgestellten Verfahren zur Bestimmung der<br />
Pitch setzen Tiefpaßfilter zur Verbesserung der Analyse ein. Es wurden deshalb verschiedene Varianten<br />
digitaler Filter im Rahmen der <strong>für</strong> die Diplomarbeit entstandenen C++-Klassenbibiliothek<br />
implementiert. Ein (idealer) Tiefpaßfilter unterdrückt oberhalb einer bestimmten Frequenz, der<br />
sogenannten Grenzfrequenz des Filters, alle Frequenzanteile. Eine wichtige Anwendung von<br />
digitalen Filtern bei der Sprachanalyse stellt das Windowing dar (vergleiche Kapitel 3.1).<br />
Lineare, zeitinvariante Systeme werden eindeutig durch ihre ¤<br />
<br />
Impulsantwortfolge<br />
charakterisiert, die als Antwort des Systems auf einen Einheitsimpuls2 ¥ definiert ist (ver-<br />
<br />
gleiche Abbildung 2.8):<br />
§¦ ¢ ¤ ¥<br />
<br />
¢<br />
£ £¦¥¨§<br />
¥<br />
(2.14)<br />
Im allgemeinen kann man sich eine beliebige ¨<br />
¢ ¤ <br />
<br />
¤ ¦¤ ©<br />
Eingabefolge als Linearkombination<br />
von zeitlich versetzten und gewichteten Einheitsimpulsen vorstellen:<br />
¢ ¥ <br />
¥ <br />
¥ ¦<br />
<br />
¦ <br />
Linearität und Zeitinvarianz implizieren dann, daß die entsprechende Ausgabefolge durch Ersetzen<br />
jedes verzögerten Einheitsimpulses durch die entsprechende verzögerte Impulsantwort<br />
erzielt werden kann,<br />
<br />
¢ <br />
<br />
<br />
<br />
<br />
¤<br />
¤<br />
2 Der Einheitsimpuls £¦¥¨§ ist definiert als £ ¥¨§<br />
<br />
<br />
¦<br />
¤<br />
¡ ¥ ¢<br />
¢ ¥ ¢ .<br />
<br />
¦<br />
<br />
<br />
<br />
(2.15)<br />
(2.16)
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 33<br />
oder kürzer<br />
<br />
¡<br />
Die Gleichung (2.17) kann auch in einer alternativen Art (direkte Form) dargestellt werden, bei<br />
der der Index der Summation vertauscht ist:<br />
¡<br />
<br />
<br />
<br />
¤ ¡<br />
<br />
¤<br />
¢ LTI Form <br />
¡ ¢ direkte Form <br />
(2.17)<br />
(2.18)<br />
Die obigen Gleichungen liefern die<br />
<br />
Antwort eines LTI-Systems als eine Funktion des Eingabesignals<br />
und der ¤<br />
<br />
Impulsantwort und werden Faltungssummen (convolutional sum)<br />
genannt. Die Eingabe wird mit der ¤<br />
<br />
Impulsantwort gefaltet, um die<br />
<br />
Ausgabe<br />
zu erhalten.<br />
Systeme mit endlicher (FIR) oder unendlicher (IIR) Impulsantwort<br />
Bislang wurde ein LTI-System durch seine ¤<br />
Impulsantwort<br />
können nun weiter in zwei Klassen unterteilt werden.<br />
charakterisiert. LTI-Systeme<br />
Die erste Klasse besitzt eine Impulsantwort mit endlicher Dauer (finite impulse<br />
response, FIR). Die Werte der Impulsantwort sind in diesem Fall Null außerhalb eines<br />
endlichen Intervalls. Ohne Beschränkung der Allgemeinheit werden im folgenden kausale<br />
FIR-Systeme betrachtet, <strong>für</strong> die gilt:<br />
¢ ¢ und ¨§ <br />
¤<br />
Die Faltungssumme <strong>für</strong> ein solches System reduziert sich zu<br />
<br />
§<br />
¤¡<br />
£<br />
¤<br />
¤ ¢ ¥¤ FIR Filter Gleichung <br />
(2.19)<br />
¤ <br />
<br />
<br />
¦¤ <br />
<br />
<br />
Eine nützliche Interpretation dieses Ausdrucks erhält man durch die Beobachtung, daß<br />
die Ausgabe zu jedem Zeitpunkt eine gewichtete Linearkombination der Samples des<br />
Eingangssignals ist. Das System gewichtet<br />
die letzten <br />
<br />
<br />
<br />
¤ <strong>für</strong> ¤ ¤ ¢ <br />
<br />
<br />
Samples durch die Werte der Impulsantwort<br />
und summiert die resultierenden <br />
Produkte auf. Es agiert also als Fenster, das nur die<br />
letzten <br />
Samples des Eingabesignals <strong>für</strong> die Ausgabe betrachtet (siehe Abbildung 2.9).<br />
Ein FIR-System hat demnach einen endlichen Speicher der Länge <br />
. Die Realisierung<br />
von FIR-Systemen beinhaltet Additionen, Multiplikationen und einen endlichen Speicher,<br />
so daß solche Systeme gemäß (2.19) direkt implementiert werden können. Das in Kapitel<br />
3.1 vorgestellte Windowing kann auch als FIR-Filter aufgefasst werden.
34 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
FIR £¨£ ¥¨§ £ £¦¥¨§ IIR<br />
0 1 2 . . . . M<br />
0 1 2 . . . .<br />
. . .<br />
¥ ¥<br />
Abbildung 2.9: Impulsantworten eines FIR- und eines IIR-Filters<br />
Die zweite Klasse besitzt eine Impulsantwort mit unendlicher Dauer (infinite impulse<br />
response, IIR). Die Ausgabe eines kausalen IIR-Systems ist<br />
<br />
¤¡ ¤<br />
<br />
¤ ¢ ¤ IIR Filter Gleichung <br />
(2.20)<br />
Die Systemausgabe ist eine gewichtete Linearkombination der Samples des Eingangs-<br />
<br />
<br />
¤ <br />
¦ <br />
signals . Da die gewichtete Summe sowohl die gegenwärtigen<br />
¤<br />
als auch alle zurückliegenden Samples verrechnet, hat das System einen unendlichen<br />
Speicher. Hier stellt sich die Frage, ob solche Systeme überhaupt realisierbar sind, da dies<br />
unendlich viele Additionen, Multiplikationen und unendlichen Speicher benötigen würde.<br />
Glücklicherweise gibt es eine praktikable und berechenbare Möglichkeit der Realisierung,<br />
wenn man sich auf eine Subklasse der IIR-Systeme beschränkt. Bei dieser<br />
¡<br />
Subklasse werden<br />
die ¨ ¤ ¤<br />
§¤ ©<br />
¤<br />
unendlich vielen Filterkoeffizienten nicht beliebig gewählt, sondern<br />
durch lineare Differenzengleichungen mit konstanten Koeffizienten miteinander verkoppelt.<br />
Für diese Subklasse kann die Gleichung (2.20) so zu einer Differenzengleichung<br />
umgestellt werden, daß hiermit eine effiziente rekursive<br />
<br />
Berechnung der Ausgabe<br />
ermöglicht wird.<br />
Beiden Systemen gemeinsam ist die Tatsache, daß ihre Anwendung zu einer Verzögerung des<br />
Signals führen. FIR-Filter können so konstruiert werden, daß diese Verzögerung <strong>für</strong> alle<br />
Frequenzen konstant bleibt, <strong>für</strong> IIR-Filter gilt dies nicht. Die unterschiedliche Verzögerung <strong>für</strong><br />
verschiedene Frequenzen kann zu hörbaren Beeinträchtigungen führen. FIR-Systeme haben<br />
gegenüber den IIR-Systemen einen weiteren Vorteil, daß sie immer stabile Systeme sind. Dies<br />
folgt aus ihrer Definition. IIR-Systeme müssen sehr sorgfältig entworfen werden, damit das Stabilitätskriterium<br />
erfüllt wird. Ihr Vorteil ist, daß hiermit sehr effiziente, rekursive Berechnungen<br />
möglich sind. FIR-Systeme lassen sich bei direkter Implementierung über die Faltungssummen<br />
nicht effizient implementieren. Ab einer bestimmten Filterlänge bietet es sich deshalb an, Eingangssignal<br />
und Impulsantwort mittels der diskreten Fourier-Transformation (DFT) in den<br />
Frequenzbereich zu transformieren, dort zu multiplizieren, und dann wieder mittels inverser DFT<br />
in den Zeitbereich zurückzutransformieren. Dies ist aufgrund der Faltungseigenschaft der DFT<br />
möglich. Das folgende Kapitel erklärt diese und verwandte Transformationen und deren Zusammenhänge.
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 35<br />
2.3.5 Fourier-Transformationen und verwandte Konzepte<br />
Zeitdiskrete Fouriertransformation<br />
Definition 2.3 Die zeitdiskrete Fouriertransformation (DTFT) der Folge <br />
<br />
Die inverse DTFT ( IDTFT) ist gegeben durch<br />
<br />
¦<br />
¥§¦<br />
¦<br />
©¢¡¤£ DTFT <br />
© ¡¤£©¨ IDTFT <br />
ist definiert als<br />
(2.21)<br />
(2.22)<br />
Die Existenz der DTFT ist keine triviale Angelegenheit. Ein hinreichendes Kriterium ist die<br />
absolute Summierbarkeit: <br />
Eine absolut summierbare Folge ist notwendigerweise ein Energiesignal (siehe Definition 2.1).<br />
Es gibt jedoch Energiesignale, die nicht absolut summierbar sind. Diese Energiesignale besitzen<br />
weiterhin eine DTFT, deren Folgen aber in einem schwächeren Sinne konvergieren. Die DTFT<br />
ist sehr nützlich <strong>für</strong> theoretische spektrale Analysen, sie ist aber nicht in einem Computer berechenbar,<br />
weil sie eine Funktion eines kontinuierlichen Arguments ist.<br />
Diskrete Fouriertransformation<br />
<br />
(2.23)<br />
Beschränkt man sich auf die praktische Situation, in der eine Folge endlicher Länge untersucht<br />
wird, dann liefert die diskrete Fouriertransformation eine Abbildung zwischen der Sequenz<br />
¤ ¢ <br />
<br />
¦ <br />
und einer diskreten Menge von Frequenzdomänen-Samples.<br />
<br />
Definition 2.4 Die diskrete Fouriertransformation (DFT) einer<br />
<br />
Folge<br />
<br />
<br />
¤ <br />
§ ¡<br />
<br />
©¢¡ £¦§ ¤ ¤<br />
¢ <br />
¢ <br />
<br />
Die inverse DFT (IDFT) ist gegeben durch<br />
<br />
<br />
<br />
<br />
<br />
§<br />
¤¡<br />
<br />
¤ © ¡ £¦<br />
§ ¤<br />
¢ <br />
¢ <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
ist gegeben durch<br />
DFT <br />
IDTF <br />
(2.24)<br />
(2.25)
36 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
Die DFT repräsentiert exakt die Samples der DTFT einer endliche<br />
<br />
Folge an<br />
äquidistanten Frequenzen <br />
¦¤ ¤ <br />
<strong>für</strong> ¤¡ ¢ <br />
<br />
<br />
. Wird die DFT zur Kurzzeit-<br />
Analyse verwendet, muß man sich die Frage stellen, ob es wichtig ist, zu welchem Zeitpunkt<br />
der betrachtete Frame auftritt. Wenn dem so ist, kommt die short-term DFT (siehe Gleichung<br />
(2.26)) zum Einsatz. Andernfalls wird die DFT auf dem üblichen Weg verwendet. Die DFT ist<br />
<strong>für</strong> eine Folge definiert, <strong>für</strong> die angenommen wird, daß sie im Bereich<br />
<br />
<br />
¢ <br />
<br />
nicht Null ist. Vor der Berechnung der DFT einer Folge der Länge , wird die Folge in diesen<br />
Zeitbereich verschoben. Dadurch geht die zu dieser Zeitverschiebung korrespondierende Phaseninformation<br />
verloren. Durch die Invertierung der DFT mit der üblichen IDFT erhält man wieder<br />
die Folge im Bereich<br />
<br />
<br />
¢ <br />
. Dies ist von geringer praktischer Bedeutung, da sich<br />
der Benutzer des Algorithmus über diese Zeitverschiebung im Klaren ist. Die Unterschlagung<br />
der korrekten Verzögerung hat keinen Effekt auf das Amplitudenspektrum und keine praktische<br />
Auswirkung auf das Phasenspektrum. Für die Berechnung der diskreten Fouriertransformation,<br />
bei der die korrekte Verzögerung erhalten bleibt, verwendet man<br />
<br />
¡<br />
<br />
¥<br />
¢ ©§¦<br />
§<br />
<br />
£¦<br />
¤ ¢ <br />
<br />
<br />
<br />
stDFT<br />
¤<br />
¤£ (2.26)<br />
¢ <br />
<br />
die short-term DFT (stDFT)<br />
¤<br />
genannt wird.<br />
¡ <br />
§ ¥ stellt<br />
<br />
einen Frame der dar, der<br />
zum Zeitpunkt endet. Das Frame-Konzept wird in<br />
<br />
Kapitel 3.1 genauer erläutert. Die Inverse<br />
Länge<br />
zur short-term DFT erhält man durch<br />
<br />
<br />
<br />
¥<br />
<br />
§<br />
¤¡<br />
<br />
<br />
und heißt short-term IDFT (stIDFT).<br />
Diskrete Fourierreihe<br />
¢<br />
¢ ¤<br />
¦¨£¦ § © ¤<br />
<br />
andere <br />
<br />
<br />
stIDFT <br />
(2.27)<br />
Die diskrete Fourierreihe (DFS) ist bezüglich der Berechnung eng verwandt zur DFT, wird<br />
aber völlig anders interpretiert. Die DFS wird dazu benutzt, periodische Periode<br />
Folgen der<br />
darzustellen, indem eine Menge von Basisfunktionen © ¡ § £¦<br />
<strong>für</strong> ¤ ¤ ¢ <br />
verwendet<br />
<br />
wird. Diese Menge die repräsentiert harmonischen Frequenzen, die das Signal darstellen. Für<br />
eine periodische<br />
<br />
Folge ist die Expansion gegeben durch<br />
<br />
wobei die Koeffizienten durch<br />
berechnet werden.<br />
<br />
¨<br />
§<br />
¤¡©¨<br />
¤ <br />
¤ © ¡ £¦§ ¤<br />
§ ¡ <br />
DFS <br />
(2.28)<br />
©¢¡ £¦§ <br />
(2.29)<br />
¤
2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 37<br />
z-Transformation<br />
Die (zweiseitige) z-Transformation ist die letzte Transformation, die vorgestellt werden soll. Sie<br />
ist ein wichtiges Werkzeug <strong>für</strong> die Analyse, den Entwurf und die Implementation digitaler Filter.<br />
Definition 2.5 Die (zweiseitige) z-Transformation <strong>für</strong> ein zeitdiskretes Signal <br />
als<br />
¡ <br />
¢<br />
wobei eine komplexe Zahl ist, <strong>für</strong> die gilt <br />
<br />
<br />
<br />
£<br />
£ ¢ £ £ <br />
ZT <br />
ist definiert<br />
(2.30)<br />
(2.31)<br />
Definition 2.6 Der Konvergenzradius (region of convergence) ROC der<br />
¡ <br />
z-Transformation<br />
ist definiert als die Teilmenge der komplexen ¤ z-Ebene , <strong>für</strong> die (2.30) konvergiert,<br />
Region Of Convergence <br />
¥<br />
¤ <br />
¦<br />
<br />
<br />
©¨ §<br />
(2.32)<br />
Der Konvergenzradius ist ein wichtiges Konzept, er erlaubt die eindeutige Umkehrung der<br />
z-Transformation und liefert praktische Charakterisierungen der Kausalitäts- und Stabilitätseigenschaften<br />
eines Signals oder Systems. Die z-Transformation und ihr ROC sind eindeutig<br />
durch das Zeitsignal bestimmt. Abhängig vom Zeitsignal kann der ROC das Innere eines<br />
Kreises, das Äußere eines Kreises oder ein<br />
<br />
Kreisring der ¥ Form sein, wobei<br />
Null und ¥ unendlich sein kann. Da es möglich ist, daß zwei verschiedene Zeitsignale die<br />
gleiche z-Transformation besitzen, können solche Signale nur durch die Konvergenzbereich ihrer<br />
z-Transformationen unterschieden werden.<br />
¡ ¡<br />
Es gibt bei der z-Transformation so viele Terme, die nicht Null sind, wie es Signalwerte gibt.<br />
Die Terme können als Platzhalter <strong>für</strong> die Werte angesehen werden. Wenn das Signal<br />
<br />
kausal ist, kommen nur negative Exponenten in der Expansion vor. Ist<br />
<br />
strikt antikausal<br />
<br />
und nicht Null <strong>für</strong> <br />
, dann erscheinen nur positive Exponenten in der Expansion. Ist<br />
<br />
<br />
sowohl kausal als auch antikausal, dann erscheinen sowohl negative als positive Exponenten in<br />
der Expansion.<br />
Definition 2.7 Die inverse z-Transformation wird formal durch Kontour-Integration<br />
<br />
<br />
¦<br />
¡ ¢ §<br />
¨ <br />
IZT<br />
(2.33)<br />
definiert, wobei ¨ eine entgegen dem Uhrzeigersinn verlaufende, geschlossene Kontour durch<br />
den ROC ist, die den Ursprung der z-Ebene enthält.
38 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE<br />
£§<br />
Impulsantwort ¢<br />
I/O Differenzengleichung<br />
I/O Faltungsgleichung<br />
Transferfunktion<br />
¦<br />
£¡ §<br />
Filterentwurfsmethode<br />
Frequenzantwort<br />
¦<br />
£ £§<br />
Pol/Nullstellen-<br />
Diagramm<br />
Blockdiagramm-<br />
Realisierung<br />
Abbildung 2.10: Äquivalente Beschreibungen digitaler Filter<br />
Die Berechnung der inversen z-Transformation kann beispielsweise mittels Partialbruchzerlegung<br />
erfolgen.<br />
Die Definition 2.5 kann auch auf die ¤<br />
Impulsantwort<br />
werden.<br />
Definition 2.8 Die z-Transformation der ¤<br />
Impulsantwort<br />
Transferfunktion genannt und ist definiert als<br />
<br />
¤ <br />
eines digitalen Filters angewendet<br />
<br />
eines digitalen Filters wird<br />
¦ §<br />
(2.34)<br />
¡<br />
Die Transferfunktion ist sehr wichtig, weil aus ihr (a) die ¤<br />
<br />
Impulsantwort , (b) die Differenzengleichung,<br />
die durch die Impulsantwort erfüllt wird, (c) die I/O Differenzengleichung, die die<br />
<br />
<br />
Ausgabe mit<br />
<br />
Eingabe in Beziehung setzt, (d) die Blockdiagramm-Realisierung eines<br />
<br />
Filters, (e) der Sample-by-sample-Verarbeitungsalgorithmus, (f) das Pol/Nullstellen-Diagramm<br />
und (g) ¡ <br />
die Frequenzantwort abgeleitet werden kann. Dies gilt auch in umgekehrter<br />
Richtung. Abbildung 2.10 verdeutlicht den Zusammenhang.<br />
Beziehungen zwischen den Transformationen<br />
Nachdem die wichtigsten Transformationen vorgestellt worden sind, besteht nun noch die<br />
Frage, in welcher Beziehung diese Transformationen zueinander stehen. Aus den Definitionen<br />
der beiden Fouriertransformationen und der z-Transformation folgt<br />
¤£<br />
<br />
<br />
¨<br />
© ¡ £ <br />
(2.35)
2.4. ZUSAMMENFASSUNG 39<br />
<strong>für</strong> jedes so daß die DTFT an der Frequenz durch Auswertung der z-Transformation am<br />
Winkel <br />
auf dem Einheitskreis in der z-Ebene erhalten werden kann. Dies gilt natürlich nur,<br />
wenn der ROC der z-Transformation den Einheitskreis der z-Ebene enthält3 . Da die DFT die<br />
Samples der DTFT an Frequenzen mit ¤ ¢ <br />
<br />
¤ <br />
darstellt, erhält man sie durch<br />
Auswertung der z-Transformation an Winkeln mit gleichbleibendem Abstand auf dem Einheitskreis<br />
der z-Ebene:<br />
<br />
¤£<br />
<br />
¤ ¤£<br />
2.4 Zusammenfassung<br />
¡ <br />
<br />
¤ ¤ ¦<br />
¨<br />
© ¡ £¦ <br />
§<br />
¤¢¡<br />
(2.36)<br />
Das Kapitel 2 führte in die theoretischen Grundlagen der Sprachverarbeitung ein. Es wurde ein<br />
Einblick in den menschlichen Sprachapparat (Kapitel 2.2.1) und die Bildung von Sprachlauten<br />
(Kapitel 2.2.2 und 2.2.3) gegeben. Wichtige Erkenntnis hierbei ist, daß Vokale als Signale mit<br />
periodischer Wellenform angesehen werden können. Konsonanten sind in der Regel rauschförmige<br />
Signale. In Kapitel 4.2 wird ein Segmentierungsverfahren vorgestellt, <strong>für</strong> das Pitch-<br />
Verläufe aus der Sprachdatei ermittelt werden müssen. Die Berechnung der Pitch-Werte<br />
geschieht ausschließlich auf der Grundlage von auftretenden Vokalen und damit auf der Detektion<br />
von periodischen Anteilen im Signal. Die Pitch-Detektions-<strong>Algorithmen</strong>, die in Kapitel 3.4<br />
vorgestellt werden, ermitteln die Perioden- und somit die Pitch-Werte <strong>für</strong> die Dauer des Vokals.<br />
Darüber hinaus wurde in Kapitel 2.2.4 ein einfaches Modell zur Realisierung der künstlichen<br />
Spracherzeugung basierend auf diesen Grundlagen vorgestellt. Dieses Modell wird oftmals auch<br />
zur Sprachanalyse herangezogen. Das Kapitel 2.3.1 beschäftigte sich mit den wichtigsten Konzepten<br />
der digitalen Signalverarbeitung, die die theoretische Basis <strong>für</strong> die digitale Sprachverarbeitung<br />
liefern. Auf den eben genannten Grundlagen aufbauend werden in Kapitel 3 Konzepte<br />
zur Analyse von Audio-Dateien vorgestellt.<br />
3 Der ROC enthält den Einheitskreis genau dann, wenn © £ ¥¨§ absolut summierbar ist.
Kapitel 3<br />
Extraktion von Audio-Features<br />
Auf den ersten Blick beinhalten Audiosignale nur eine Information: die Amplitude über die<br />
Zeit (die Wellenform des Signals). Es gibt aber noch eine Vielzahl von anderen Eigenschaften,<br />
die sich aus dem zeitlichen Verlauf des Signals ermitteln lassen. Hierzu gehören beispielsweise<br />
der Verlauf der Energie und der Nulldurchgangsrate, das Frequenzspektrum sowie im Falle von<br />
Sprachsignalen der Pitch-Verlauf.<br />
Zunächst wird in Kapitel 3.1 das sogenannte Windowing eingeführt. Dieses Konzept ist<br />
elementar und Voraussetzung <strong>für</strong> alle Analysetechniken, die in diesem Kapitel verwendet<br />
werden. Die Kapitel 3.2, 3.3 und 3.4 stellen drei sogenannte Audio-Features des Audiosignals<br />
vor, die extrahiert werden können, um hiermit high level-Informationen zu erzeugen. Die ersten<br />
zwei Signaleigenschaften, short-term energy und short-term zero crossing rate, sind sehr einfach<br />
zu ermittelnde Features, während die dritte Eigenschaft, Pitch (Fundamentalfrequenz), einen<br />
höheren Aufwand erfordert. Die einzelnen, mittels Windowing, extrahierten Audio-Features<br />
werden dann geeignet kombiniert, um Informationen auf höherem Level zu generieren.<br />
3.1 Windowing / Frames<br />
In allen praktischen Signalverarbeitungsanwendungen muß mit kurzen Ausschnitten des zu verarbeitenden<br />
Signals gearbeitet werden. Dies trifft vor allen Dingen dann zu, wenn herkömmliche<br />
Analysetechniken auf nichtstationäre Signale angewendet werden sollen. Beispielsweise sind<br />
Sprachsignale solche nichtstationären Signale. In diesem Fall muß ein Teil des Signals ausgewählt<br />
werden, der berechtigterweise als stationär angenommen werden kann.<br />
3.1.1 Windowing<br />
Ein Fenster (engl.:<br />
<br />
Window) ist eine reelle, endliche Folge, die benutzt wird, um einen<br />
gewünschten Ausschnitt aus dem Originalsignal auszuwählen. Dies geschieht durch eine<br />
40
3.1. WINDOWING / FRAMES 41<br />
einfache Multiplikation des Signals mit<br />
<strong>für</strong> ein Hanning- und ein Rechteck-Fenster.<br />
. Abbildung 3.1 verdeutlicht diesen Vorgang<br />
<br />
Länge<br />
¢<br />
<strong>für</strong><br />
<br />
Ein Window der ist eine kausale Folge, es gilt also<br />
¢<br />
und<br />
<br />
§<br />
<br />
wenn Die meisten verwendeten Windows sind symmetrisch um den Zeitpunkt ¦,<br />
wobei dieser Zeitpunkt in der Mitte zwischen zwei Abtastpunkten liegt, gerade ist.<br />
Windows lassen sich als symmetrische FIR-Filter auffassen (vergleiche Kapitel 2.3.4).<br />
Der Windowing-Prozeß hat im allgemeinen zwei Haupteffekte:<br />
1. Der Windowing-Prozeß reduziert die Frequenzauflösung des berechneten Spektrums. Der<br />
kleinste auflösbare Frequenzunterschied ist durch die Länge des Datensatzes beschränkt,<br />
somit gilt ¥¢¡ §<br />
<br />
§<br />
<br />
, wobei die Länge des Fensters und <br />
das Abtastintervall<br />
repräsentieren. Dies nennt man das uncertainty principle.<br />
2. Der Windowing-Prozeß addiert zusätzliche hohe Frequenzkomponenten zum Spektrum<br />
hinzu, die durch das scharfe Clipping des Signals am linken und rechten Rand<br />
eines Windows erzeugt werden. Dieser Effekt ist als frequency leakage bekannt.<br />
¤£<br />
Anhand eines Rechteck-Fensters sollen nun einige wichtige Begriffe geklärt werden, die in<br />
Abbildung 3.2 verdeutlicht sind. Bei dieser Abbildung ist zu beachten, daß das Spektrum aus<br />
Symmetriegründen nur <strong>für</strong> positive Frequenzen dargestellt ist. Das Amplitudenspektrum des<br />
Rechteck-Fensters besteht aus dem sogenannten Höhe<br />
<br />
mainlobe der dessen Breite durch<br />
die Länge des Fensters mit gegeben ist und der sein Zentrum bei besitzt,<br />
¢<br />
und<br />
kleineren sogenannten sidelobes. Der mainlobe-Peak bei (DC) dominiert das<br />
¢<br />
Spektrum,<br />
da<br />
<br />
die Fensterfunktion auf<br />
¢ <br />
dem<br />
<br />
Bereich ein DC-Signal 1 ist. Die höheren<br />
Frequenzkomponenten stellen die scharfen<br />
<br />
Übergänge von an ihren Endpunkten dar. Die<br />
mainlobe-Breite ¥¢¡ bestimmt<br />
<br />
die Frequenzauflösung des "gefensterten" Spektrums.<br />
Wenn größer gewählt wird, wächst die Höhe des mainlobes und die Breite nimmt ab. Jedoch<br />
steigt auch die Höhe der sidelobes relativ zur Höhe des mainlobes und bleibt in etwa dB tiefer.<br />
Die sidelobes bestimmen das Ausmaß der ungewünschten Artefakte des Windowing-Prozesses.<br />
Sie müssen so gut als möglich unterdrückt werden. Aus dem gerade beschriebenen lassen sich<br />
zwei gewünschte Eigenschaften <strong>für</strong> das Spektrum der Fensterfunktion ableiten:<br />
¥<br />
1. Die Breite des mainlobes sollte möglichst gering sein.<br />
2. Die Abschwächung der sidelobes sollte möglichst groß sein.<br />
Vorteil des Rechteck-Fensters ist, daß es die zeitlichen Eigenschaften des Signals erhält. Allerdings<br />
ist die Abschwächung der sidelobes eher gering. Eine Standardtechnik zur Unterdrückung<br />
der sidelobes ist die Benutzung eines nicht-rechteckigen Fensters. Die mathematischen<br />
Definitionen von vier Alternativen werden in Tabelle 3.1 vorgestellt. Diese Windows schneiden<br />
1 Der Begiff DC-Signal steht <strong>für</strong> eine konstantes Signal. In der Elektrotechnik werden konstante, analoge Signal<br />
als Gleichspannungssignale bezeichnet.
42 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Amplitude<br />
Amplitude<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0 50 100 150 200 250 300 350 400 450 500<br />
Zeit (Samples)<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−0.1<br />
−0.2<br />
−0.3<br />
−0.4<br />
Amplitude<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−0.1<br />
−0.2<br />
−0.3<br />
−0.4<br />
(b) Hanning-Fenster<br />
50 100 150 200 250 300 350 400 450 500<br />
Zeit (Samples)<br />
(d) Sprachsignal mit Hanning-<br />
Window multipliziert<br />
50 100 150 200 250 300 350 400 450 500<br />
Zeit (Samples)<br />
(a) Sprachsignal<br />
Amplitude<br />
Amplitude<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0 50 100 150 200 250 300 350 400 450 500<br />
Zeit (Samples)<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−0.1<br />
−0.2<br />
−0.3<br />
−0.4<br />
(c) Rechteck-Fenster<br />
50 100 150 200 250 300 350 400 450 500<br />
Zeit (Samples)<br />
(e) Sprachsignal mit Rechteck-<br />
Window multipliziert<br />
Abbildung 3.1: Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit<br />
einem Rechteck-Fenster multipliziert.
3.1. WINDOWING / FRAMES 43<br />
¡¢ £<br />
£§¡<br />
0 ¦ <br />
mainlobe<br />
<br />
relative<br />
sidelobe level<br />
R=13 dB<br />
sidelobes<br />
£<br />
¦<br />
Abbildung 3.2: Amplitudenspektrum eines Rechteck-Fensters<br />
Name Zeitbereichsfolge<br />
Rechteck £¥¤§¦©¨¡<br />
Hamming £¥¤§¦©¨¡<br />
Hanning £¥¤§¦©¨¡<br />
Kaiser £¤§¦©¨¡<br />
£ <br />
£ ¦ <br />
£¨ £ <br />
¦<br />
§ ¦ £ ¦ <br />
£ ¦ <br />
£ ¦<br />
¦ § £ ¦ <br />
£¨<br />
¤ £ ¨¤ £ ¨ ¤ £ <br />
<br />
<br />
¡<br />
£ ¦<br />
¡<br />
Tabelle 3.1: Mathematische Definiton verschiedener Fensterfunktionen<br />
<br />
¤¡© ¤<br />
¨ £ ¦ <br />
mit
44 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
das Signal nicht so abrupt ab wie das Rechteck-Fenster, sondern verwenden einen sanfteren<br />
Übergang zu Null. Die spektralen Eigenschaften dieser Windows werden in Abbildung 3.3 verdeutlicht<br />
und können allgemein so beschrieben werden:<br />
Für gegebenes haben alle einen breiteren mainlobe als das Rechteck-Fenster. Auch hier<br />
gilt, daß die Breite abnimmt, wenn vergrößert wird.<br />
Alle besitzen eine bessere Abschwächung der sidelobes, typischerweise <br />
¢ ¦<br />
¢ dB besser.<br />
Bei der Analyse von nichtstationären Signalen wie Sprache, müssen folgende Überlegungen angestellt<br />
werden: Aus der obigen Diskussion folgt, daß eine Verlängerung der Fensterfolge unabhängig<br />
vom Typ nur positive Konsequenzen hat. Wenn ein Fenster jedoch dazu benutzt wird, um<br />
sequentiell Teile aus dem nichtstationären Signal auszuschneiden, in dem es zeitlich verschoben<br />
wird, benötigt ein längeres Fenster eine längere Periode um über Grenzübergänge im Signal<br />
hinwegzugehen. Ereignisse aus verschiedenen quasi-stationären Bereichen verschwimmen dann<br />
eher miteinander, als bei kurzen Fenstern. Ein Trade-Off betrifft also die Fensterlänge. Ein langes<br />
Fenster produziert ein besseres spektrales Bild des Signals, während ein kurzes Fenster die<br />
zeitlichen Ereignisse im Signal besser auflöst. Dieser Trade-Off wird auch spectral temporal<br />
resolution trade-off genannt.<br />
3.1.2 Frames<br />
Ein Frame stellt einen Ausschnitt aus einem Sprachsignal dar, der mittels Windowing erzeugt<br />
wird. Formal ist er eine neue Sequenz bezüglich <br />
, deren Werte Null sind außerhalb des Intervalls<br />
<br />
<br />
<br />
. Der durch diesen Prozeß entstandene Frame hängt auch von der Zeit<br />
ab, so daß er ein zweites Argument erhält (und ein implizites Argument ).<br />
<br />
Definition 3.1 Einen Frame ¥ ©<br />
endet, erhält man durch <br />
wobei<br />
<br />
© <br />
¥<br />
ein Window darstellt.<br />
<br />
3.1.3 Extraktion von Audio-Features<br />
eines Signals der Länge , der zum Zeitpunkt<br />
<br />
Auf den beschriebenen Konzepten Windowing und Frames aufbauend soll nun die Extraktion<br />
von Audio-Features formalisiert ¥ werden. Angenommen, sei eine Langzeit-Eigenschaft, die<br />
helfen soll, ein Problem zu lösen. Im allgemeinen kann es eine ganze Familie von Eigenschaften<br />
geben, von denen jede von ¡ einem Index abhängt. Die allgemeine Langzeit-Eigenschaft der<br />
Folge wird im folgenden ¥<br />
¡ <br />
mit bezeichnet. Eine weitere Annahme besteht darin,<br />
<br />
daß<br />
¡ <br />
sich<br />
<br />
aus ¥<br />
durch<br />
¥<br />
¡ ¢<br />
£ ¡ <br />
¨<br />
© ¥¤ ¨<br />
£ ¡ <br />
¨<br />
© ©<br />
(3.1)<br />
(3.2)
3.1. WINDOWING / FRAMES 45<br />
Amplitude [dB]<br />
Amplitude [dB]<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
−5<br />
−10<br />
0 50 100 150 200 250<br />
Amplitude<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
DFT eines Rechteck−Fensters der Länge 64<br />
(b) Amplitudenspektrum eines<br />
Rechteck-Fensters<br />
40<br />
20<br />
0<br />
−20<br />
−40<br />
−60<br />
−80<br />
−100<br />
−120<br />
DFT eines Hanning−Fensters der Länge 64<br />
−140<br />
0 50 100 150 200 250<br />
(d) Amplitudenspektrum eines<br />
Hanning-Fensters<br />
0<br />
Rechteck<br />
Hanning<br />
Hamming<br />
Kaiser<br />
10 20 30<br />
Zeit (Samples)<br />
40 50 60<br />
(a) Verschiedene Fensterfolgen im<br />
Vergleich<br />
Amplitude [dB]<br />
Amplitude [dB]<br />
40<br />
20<br />
0<br />
−20<br />
−40<br />
−60<br />
−80<br />
DFT eines Hamming−Fensters der Länge 64<br />
−100<br />
0 50 100 150 200 250<br />
(c) Amplitudenspektrum eines<br />
Hamming-Fensters<br />
40<br />
20<br />
0<br />
−20<br />
−40<br />
−60<br />
DFT eines Kaiser−Fensters der Länge 64 und alpha=4<br />
−80<br />
0 50 100 150 200 250<br />
(e) Amplitudenspektrum eines<br />
Kaiser-Fensters<br />
£<br />
¡<br />
£<br />
¤¢¡ ¡§¦©¨© ¤¢¡<br />
Abbildung 3.3: Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren<br />
dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar. entspricht der<br />
digitalen Frequenz , entspricht der Frequenz .
46 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
berechnen läßt, wobei ¢<br />
£ ¡ eine Operation ist, die im allgemeinen nichtlinear und abhängig von<br />
¡ ist. ¤ steht <strong>für</strong> einen Langzeit-Mittelwert<br />
¤ ¨<br />
©¡ ¥ <br />
£¢ <br />
¦ <br />
Für die gebräuchlichsten Langzeit-Eigenschaften hat sich gezeigt, daß ¢<br />
¢<br />
£ ¡ ¥¤¥¤ £ ¡ <br />
<br />
¨ <br />
£ ¡ <br />
zerlegt werden kann, wobei eine Operation ist, die eine neue Folge bezüglich <br />
produziert und ¤ ¥ ¡ <br />
<br />
<strong>für</strong> ¥<br />
einen kurzen Zeitraum ¡ der zeitliche Mittelwertoperator ist. Für die Berechnung einer<br />
" "-Eigenschaft <br />
kann<br />
<br />
das folgende Konstruktionsprinzip verwendet werden [9]:<br />
©<br />
£ ¡ <br />
1. Wähle einen gewünschten Frame Länge der mit Hilfe eines Windows<br />
Signal aus,<br />
<br />
<br />
2. Wende eine “ ¢ ¡ <br />
”-Operation ¢ ¦ ¡ <br />
auf diesen Frame an:<br />
£<br />
¥<br />
¡<br />
¥ <br />
wobei angenommen wird, daß ¢<br />
¦ ¡ <br />
<br />
¢ ¡ ¦ <br />
<br />
¨ <br />
<br />
<br />
<br />
<br />
in<br />
¦<br />
¦ <br />
¢ ¡ ¢ <br />
zerlegt werden kann, wie ¢<br />
£ ¡ ¤§¤ £ ¡ <br />
¡ <br />
¡ <br />
<br />
¤ <br />
¢ <br />
¢ ©<br />
¨<br />
¨<br />
<br />
¥ ©<br />
¦ ¡ <br />
im Langzeit-Fall.<br />
¢ ©<br />
in<br />
(3.3)<br />
(3.4)<br />
aus dem<br />
Es ist zu bemerken, daß ¦ ¡ <br />
oftmals dieselbe Operation wie<br />
£ ¡ <br />
ist. Wir beschränken uns nun<br />
<br />
auf solche Fälle <br />
¥<br />
¡<br />
<br />
£ ¡ <br />
¨<br />
<br />
¢ ©<br />
Mit Hilfe eines Windows wurde ein Frame aus dem Sprachsignal herausgeschnitten und eine<br />
ähnliche Operation angewendet, wie dies im Langzeit-Fall getan wurde.<br />
(3.5)<br />
(3.6)<br />
(3.7)<br />
(3.8)<br />
(3.9)
3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47<br />
Der Leistungstest <strong>für</strong> einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit-<br />
Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad <strong>für</strong> den gilt:<br />
<br />
¥ ¥<br />
¡ <br />
Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie<br />
oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und<br />
die<br />
¡<br />
. Für ein festes ergeben sich zwei konkurrierende Faktoren <strong>für</strong> die Wahl des<br />
Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen<br />
Länge<br />
die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei<br />
gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert<br />
die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt<br />
wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht<br />
so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann <strong>für</strong> einen<br />
kurzen von¦<br />
¢ <br />
Zeitraum als stationär angenommen werden, so daß Länge die entsprechend<br />
gewählt werden kann.<br />
¡<br />
(3.10)<br />
In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik<br />
können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht<br />
werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen.<br />
Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet<br />
werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen,<br />
sind zur Bestimmung von high level-Informationen sehr hilfreich.<br />
3.2 Short-term energy und short-term power<br />
Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert.<br />
Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht<br />
werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben<br />
die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße<br />
können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur<br />
Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal<br />
(engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen<br />
mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung<br />
von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte <strong>für</strong><br />
stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten,<br />
so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit<br />
Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel<br />
4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der<br />
Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.
48 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Formal lassen sich short-term energy und short-term power wie folgt definieren:<br />
Definition 3.2 Die short-term energy eines Signals über einem endlichen Intervall<br />
<br />
läßt sich wie folgt berechnen:<br />
<br />
¥ ¡ ¨<br />
Die<br />
<br />
läßt sich durch<br />
Signalenergie<br />
¡©£ §<br />
¡<br />
(3.11)<br />
(3.12) <br />
und die mittlere Leistung des Signals<br />
¨ durch<br />
<br />
ausdrücken.<br />
Die Energie eines periodischen Signals über eine einzige Periode, z.B.<br />
¢ <br />
, ist<br />
endlich, wenn <br />
nur endliche Werte in diesem Bereich annimmt. Jedoch ist die Energie eines<br />
<br />
periodischen Signals <strong>für</strong> <br />
unendlich. Andererseits ist die mittlere Leistung eines<br />
periodischen Signals endlich und stimmt mit der mittleren Leistung über eine Periode überein.<br />
<br />
(3.13) ¦ ¨ <br />
Definition 3.3 Sei ein periodisches Signal mit Grundperiode , das nur endliche Werte<br />
annimmt. Dann ist seine short-term power durch<br />
¥<br />
<br />
(3.14)<br />
<br />
gegeben.<br />
Da beide Begriffe eine äquivalente Information liefern, wird in der Regel die einfacher zu<br />
berechnende short-term energy bevorzugt. Abbildung 3.4 zeigt den Verlauf<br />
<br />
<strong>für</strong> ein Sprach-<br />
¥<br />
signal mit einer Länge von 15 Sekunden.<br />
der<br />
¤£ ¡ <br />
§<br />
¡<br />
3.3 Short-term zero crossing rate<br />
Die Anzahl der Nulldurchgänge (die Anzahl der Vorzeichenwechsel innerhalb einer Signalfolge)<br />
ist eine nützliches Feature bei der Sprachanalyse. Es ist ein einfaches Maß <strong>für</strong> den Frequenzverlauf<br />
eines Signals. Ist die Nulldurchgangsrate innerhalb eines bestimmten Zeitabschnitts hoch<br />
(niedrig), so kann in gewissen Grenzen auf ein Signal geschlossen werden, das hohe (tiefe)
3.3. SHORT-TERM ZERO CROSSING RATE 49<br />
Amplitude<br />
short−term energy<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
Sprachsignal<br />
−1<br />
0 0.5 1 1.5 2<br />
Zeit (Samples)<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
Energie−Verlauf<br />
0<br />
0 500 1000 1500<br />
Frames<br />
Abbildung 3.4: Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame-<br />
Länge = 10 ms, Time-Shift = 10 ms)<br />
x 10 5
50 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Frequenzanteile enthält. Dieses Maß kann zusammen mit der short-term energy zur Endpunkt-<br />
Detektion eingesetzt werden. Das Problem, die Endpunkte einer diskreten Aussage zu bestimmen,<br />
ist ein wichtiges Problem in vielen Sprachverarbeitungsanwendungen. Bei der Erkennung von<br />
Wörtern durch Vergleichen des akustischen Signals mit einer "Vorlage" ist es beispielsweise notwendig,<br />
das zu erkennende Wort von "nichtsprachlichen" Bereichen zu befreien, die Fehler bei<br />
der Erkennung hervorrufen können. Auf den ersten Blick scheint dies relativ einfach zu sein.<br />
In der Praxis hat sich herausgestellt, daß dies nur bei sehr hohen signal-to-noise-ratio-Werten<br />
der Fall ist [9]. Ein verwandtes Problem stellt die Klassifikation von Sprache in stimmhafte und<br />
stimmlose Bereiche dar. Will man beispielsweise wissen, wann die Bestimmung der Pitch nötig<br />
ist, kann die short-term zero crossing rate in Verbindung mit der short-term energy dazu herangezogen<br />
werden, um mögliche stimmhafte Bereiche zu bestimmen. Während die short-term<br />
energy üblicherweise in stimmhaften Segmenten größer ist, ist die short-term zero crossing rate<br />
dagegen in stimmlosen Segmenten größer. Viele Pitch-Detektions-<strong>Algorithmen</strong> verwenden diese<br />
Maße zur Klassifikation des Sprachsignals. Einige dieser Pitch-Detektions-<strong>Algorithmen</strong> werden<br />
in den folgenden Abschnitten vorgestellt. ZHANG, KUO nutzen die short-term zero crossing rate<br />
auch zur Klassifikation von Umgebungsgeräuschen [40][41].<br />
Formal läßt sich die short-term zero crossing rate wie folgt definieren:<br />
Definition 3.4 Sei eine Signalfolge der Länge , die zum Zeitpunkt endet. Dann<br />
läßt sich die short-term zero crossing rate durch<br />
mit<br />
¨<br />
¡<br />
¥<br />
¡ <br />
berechnen. Hierbei stellt<br />
¡©£ §<br />
¡<br />
<br />
¨<br />
<br />
© <br />
eine Window dar.<br />
¨<br />
© <br />
¦<br />
¦ <br />
<br />
(3.15)<br />
<br />
<br />
¨<br />
<br />
<br />
©<br />
¢ (3.16)<br />
<br />
<br />
§ ¢<br />
<br />
Für wird in den meisten Fällen ein Rechteck-Fenster verwendet. Abbildung 3.5 zeigt den<br />
zeitlichen Verlauf der short-term zero crossing rate anhand eines Beispiels aus [24].<br />
3.4 Fundamentalfrequenz (Pitch) ¢ ¢<br />
Der Verlauf der Pitch und damit die Satzmelodie einer Äußerung ist <strong>für</strong> diverse Anwendungen<br />
und Probleme der Sprachverarbeitung von großer Bedeutung. Er ist beispielsweise nützlich <strong>für</strong><br />
die Sprechererkennung und gibt wertvolle Einblicke in die Natur der Anregungsquelle <strong>für</strong> die<br />
Sprachproduktion. In dieser Arbeit soll mit Hilfe von Betonungen versucht werden, einen aufgezeichneten<br />
Vortrag in inhaltliche Teilabschnitte zu segmentieren. Hintergrund dessen ist die Feststellung,<br />
daß es eine hohe Korrelation von Tonhöhenvariabilität und der Einführung<br />
neuer Themengebiete gibt. Es zeigte sich, daß ein Anstieg der Pitch ein guter Indikator hier<strong>für</strong><br />
ist [15][17]. Betonungen sind oft verbunden mit einem Anstieg der Pitch.
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Amplitude<br />
short−term ZCR<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
Sprachsignal<br />
−1<br />
0 0.5 1 1.5 2<br />
Zeit (Samples)<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
ZCR−Verlauf<br />
0<br />
0 500 1000 1500<br />
Frames<br />
Abbildung 3.5: Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms,<br />
Time-Shift = 10ms )<br />
x 10 5<br />
51
52 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Probleme bei der Bestimmung der Pitch<br />
Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal<br />
extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus<br />
der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein<br />
Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist<br />
einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies <strong>für</strong> Sprachsignale<br />
nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb<br />
der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt<br />
und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform<br />
signifikant verändern können. Das dritte Problem besteht in der<br />
exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente.<br />
Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise<br />
unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die<br />
Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude<br />
dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb<br />
schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch<br />
weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen<br />
starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die<br />
Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem<br />
spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem<br />
genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz<br />
und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der<br />
Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies<br />
bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt<br />
wird, was die Bestimmung der Pitch weiter erschwert [28].<br />
Pitch-Detektion<br />
Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung<br />
zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber<br />
auf die einzelnen <strong>Algorithmen</strong> eingegangen wird, soll grob die Vorgehensweise skizziert werden,<br />
die sich bei den betrachteten <strong>Algorithmen</strong> nur in Details unterscheidet. Abbildung 3.6 verdeutlicht<br />
den Vorgang.<br />
Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge<br />
unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff<br />
Windowing in Kapitel 3.1 eingeführt. Übliche Werte <strong>für</strong> die Länge der Frames liegen im Bereich<br />
¢ <br />
bis ¥<br />
¢ <br />
. Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche<br />
Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal<br />
von¦<br />
innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die<br />
Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren<br />
bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Sprache/Pause<br />
Sprachsignal<br />
Windowing des Signals<br />
Ermittlung der short-term energy<br />
und der short-term zero crossing rate<br />
Sprache/Pause-Entscheidung<br />
Verfahren zur Bestimmung der<br />
Pitch<br />
Entscheidung stimmhaft / stimmlos<br />
stimmhaft / stimmlos<br />
Abbildung 3.6: System zur Pitch-Detektion [12]<br />
Pitch F0<br />
beinhaltet. Im Falle eines stimmhaften Lautes wird die Pitch berechnet und ausgeben, andernfalls<br />
wird in der Regel die Pitch gleich Null gesetzt. Die Bestimmung, ob ein Frame einen<br />
stimmhaften oder einen stimmlosen Laut enthält, geschieht in den einzelnen <strong>Algorithmen</strong> auf<br />
unterschiedliche Art und Weise. Oft wird die Klassifikation aus einer bestimmten Kombination<br />
von ¢¡ , £¥¤§¦¨¡ und Spitzenwert der Periodenberechnungsfunktion ermittelt. Beispielsweise verwenden<br />
ROSS, ET AL. [30] eine ausgeklügelte Logik im Anschluß an die Periodenbestimmung.<br />
BOERSMA [5] bestimmt <strong>für</strong> jeden Frame eine Menge von möglichen Kandidaten, die durch<br />
eine Gewichtungsfunktion bewertet werden. Daran anschließend wird mit Hilfe von dynamischer<br />
Programmierung ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Als Nebenprodukt<br />
der Bestimmung der Pitch erhält man durch die Klassifikation in stimmhafte, stimmlose<br />
und stille Segmente eine (einfache) Pausendetektion. Zur Verdeutlichung, wie ein Pitch-Verlauf<br />
aussehen kann, zeigt die Abbildung 3.7 Ausschnitte aus Pitch-Verläufen verschiedener Sprecher,<br />
die [23] und [24] entstammen. Es ist gut erkennbar, daß der Pitch-Verlauf der Dozentin insgesamt<br />
höher angesiedelt ist, als der der männlichen Vortragenden.<br />
Für die Bestimmung der Pitch gibt es eine Vielzahl verschiedener Ansätze. Im Rahmen<br />
dieser Arbeit werden nur Pitch-Detektions-<strong>Algorithmen</strong> (PDA) vorgestellt, die versuchen, die<br />
Periode des Signals zu bestimmen. Hierzu wird idealisierend angenommen, das Sprachsignal<br />
sei ein Zufallsprozeß und <strong>für</strong> eine gewisse Zeit von etwa © stationär. Fünf Ansätze<br />
zur Bestimmung der Pitch, die auch (teilweise vereinfacht) zu Versuchszwecken implementiert<br />
wurden, werden in den folgenden Kapiteln genauer beschrieben, wobei nur die dahinterstehende<br />
Idee vermittelt werden soll. Es wird sich zeigen, daß die Pitch allein mit Ausführung der jeweiligen<br />
Funktion nicht zufriedenstellend bestimmt werden kann. In der Regel muß sich noch<br />
53
54 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Frequenz [Hz]<br />
Frequenz [Hz]<br />
250<br />
225<br />
200<br />
175<br />
150<br />
125<br />
100<br />
75<br />
50<br />
9700 9750 9800 9850 9900 9950<br />
Frame-Index<br />
10000 10050 10100 10150 10200<br />
250<br />
225<br />
200<br />
175<br />
150<br />
125<br />
100<br />
75<br />
(a) männlich<br />
50<br />
2000 2050 2100 2150 2200 2250<br />
Frame-Index<br />
2300 2350 2400 2450 2500<br />
(c) männlich<br />
Frequenz [Hz]<br />
Frequenz [Hz]<br />
250<br />
225<br />
200<br />
175<br />
150<br />
125<br />
100<br />
75<br />
50<br />
9500 9550 9600 9650 9700 9750<br />
Frame-Index<br />
9800 9850 9900 9950 10000<br />
250<br />
225<br />
200<br />
175<br />
150<br />
125<br />
100<br />
75<br />
(b) männlich<br />
50<br />
9000 9050 9100 9150 9200 9250<br />
Frame-Index<br />
9300 9350 9400 9450 9500<br />
(d) weiblich<br />
Abbildung 3.7: Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten<br />
(a) bis (c) sind männlich, (d) ist weiblich.
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
eine Nachverarbeitung anschließen, <strong>für</strong> die zum Teil erheblicher Aufwand betrieben wird.<br />
In den folgenden Abschnitten werden nun die Ideen und Konzepte der PDAs erläutert, die<br />
auf der Grundlage von Autokorrelation, Average Magnitude Difference Function und reellem<br />
Cepstrum operieren. Sie wurden ausgewählt, weil sie relativ einfach zu Vergleichszwecken zu<br />
implementieren sind und ausreichend gute Ergebnisse liefern. In [28] findet sich ein ausführlicher<br />
Performance-Vergleich verschiedener PDAs, die auf den eben genannten Konzepten beruhen.<br />
Es zeigte sich, daß keiner der untersuchten PDAs über alle Sprecher, Aufnahmesituationen<br />
und Fehlermessungen beste Ergebnisse lieferte.<br />
3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation<br />
Dieser Abschnitt erklärt die Funktionsweise dreier PDAs, die auf der Basis der Autokorrelation<br />
operieren. Zunächst soll kurz das Konzept der Kreuz- sowie der Autokorrelation vorgestellt<br />
werden. Diese beiden Konzepte sind eng miteinander verwandt.<br />
Definition 3.5 Die short-term crosscorrelation zweier reellwertiger, kausaler<br />
<br />
Signalfolgen<br />
<br />
und ist definiert durch<br />
© ¡ <br />
<br />
¡ <br />
<br />
Die short-term autocorrelation einer reellwertigen<br />
<br />
Signalfolge<br />
die wie folgt definiert ist:<br />
©© ¡ <br />
<br />
¡©£ § <br />
<br />
ist eine Folge ©© ¡ <br />
¡<br />
<br />
£¡¢¡¢<br />
<br />
wobei die Zeitverschiebung (lag) angibt und den Index des Frameendes kennzeichnet. <br />
¡©£ § <br />
55<br />
(3.17)<br />
,<br />
<br />
(3.18)<br />
Die Kausalität der Signale wird durch Windowing erreicht, wobei in diesem speziellen Fall<br />
ein Rechteck-Fenster verwendet wird. Die Autokorrelationsfolge ©© ¡<br />
(AKF)<br />
<br />
hat sehr<br />
wichtige Eigenschaften. Eine wichtige Eigenschaft ist, daß sich die Form der AKF bei einer<br />
Skalierung der Amplitudenwerte der Signalfolge<br />
nicht ändert, nur die Amplitudenwerte<br />
der AKF ändern sich entsprechend. Zudem erreicht die AKF ihren Maximalwert bei einer Zeitverschiebung<br />
von . Der Wert ©© ¢ <br />
kann zur Normalisierung herangezogen werden,<br />
die Werte der AKF liegen dann im Bereich von -1 bis 1. Dies erleichtert die Anwendung von<br />
Schwellwerten. Die normalisierte Autokorrelationsfolge £ ©© ¡<br />
¢<br />
<br />
ergibt sich durch <br />
£¥¤¦¤<br />
§ <br />
<br />
©© § <br />
<br />
©© <br />
<br />
¢<br />
(3.19)<br />
Eine weitere wichtige Eigenschaft ist, daß die AKF einer periodischen Folge selbst eine<br />
periodische Folge darstellt, die Peaks bei ¢ ¦ usw. aufweist. Abbildung 3.8 zeigt
56 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
−1<br />
0 50 100 150 200 250 300 350 400 450 500<br />
(a) Sinus-Signal, das mit einem<br />
Rechteck-Fenster multipliziert wurde<br />
80<br />
60<br />
40<br />
20<br />
0<br />
−20<br />
−40<br />
−60<br />
−80<br />
0 20 40 60 80 100 120<br />
(b) AKF des nebenstehenden Signals,<br />
wobei aufgrund der Symmetrie der<br />
AKF nur positive Verschiebungen berücksichtigt<br />
wurden<br />
Abbildung 3.8: "Gefenstertes" Sinus-Signal und dessen AKF<br />
ein mit einem Rechteck-Fenster multipliziertes Sinussignal und deren AKF, wobei aufgrund der<br />
Symmetrie der AKF nur positive Zeitverschiebungen § ¢ berücksichtigt werden. Diese Eigenschaft<br />
der AKF <strong>für</strong> periodische Signale wird bei der Pitch-Detektion ausgenutzt, um die Periode<br />
des Signals zu bestimmen.<br />
<br />
In praktischen Anwendungen ist das beobachtete physikalische Signal (in unserem Fall das<br />
Sprachsignal) durch zufällige Interferenzen gestört. Sei eine Signalfolge,<br />
wobei <br />
Periode eine periodische Folge unbekannter ist, und eine additive zufällige<br />
Interferenz darstellt. Angenommen, es werden <br />
<br />
Samples von<br />
<br />
mit<br />
¢<br />
<br />
<br />
beobachtet, wobei ¢<br />
<strong>für</strong><br />
und es gilt § ¢<br />
und<br />
<br />
. Nun läßt sich die AKF<br />
von durch<br />
§ ¡ £<br />
<br />
(3.20)<br />
¢¡ <br />
<br />
<br />
£¡<br />
<br />
<br />
berechnen, wobei das Signal zum Zeitpunkt ¢<br />
<br />
<br />
beginnt und Abtastwerte lang ist. Wird<br />
in (3.20) eingesetzt, so erhält man<br />
§ ¡ £<br />
<br />
<br />
<br />
<br />
<br />
¤¡<br />
©©<br />
<br />
© ¡ ¤¡ <br />
¡ © ¢¡ <br />
¢¡<br />
¡ ¡ ¢¡<br />
¥¡ <br />
(3.21)<br />
(3.22)<br />
© ¡ ¢¡<br />
<br />
¡ © ¢¡<br />
<br />
<br />
Die Erwartung ist nun, daß die Kreuzkorrelationen und des Signals und der<br />
additiven zufälligen Interferenz sehr klein sind, da vorausgesetzt wird, daß die beiden<br />
Signale nicht korreliert sind. Die Autokorrelationsfolge des zufälligen Signals wird einen
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Peak bei ¡ besitzen, aber aufgrund der Zufallseigenschaften wird <br />
¡ ¡ ¢¡<br />
sehr schnell<br />
¢<br />
gegen Null gehen. ©© ¢¡<br />
Nur wird große Peaks<br />
¡<br />
<strong>für</strong><br />
¢<br />
enthalten. Dieses Verhalten erlaubt die<br />
Bestimmung der Präsenz und der Periode des periodischen Signals ¤ , welches von<br />
einem Interferenzsignal gestört ist. Im Fall von Sprachsignalen ist die Bestimmung der<br />
Periode aufgrund der oben genannten Probleme leider nicht so einfach möglich.<br />
Die naive Berechnung der short-term autocorrelation hat quadratische Laufzeit, weshalb die<br />
FFT zur Beschleunigung eingesetzt wird. Dies ist möglich, weil die short-term autocorrelation<br />
der Signalfolge als Faltung angesehen werden kann (vergleiche Kapitel 2.3.4). Zusätzlich<br />
kann bei der Berechnung mittels der FFT eine weitere Eigenschaft der AKF ausgenutzt werden<br />
– die AKF ist symmetrisch zum Ursprung ¡ ¢ , es gilt also ©© ¢¡ <br />
müssen nur positive Verschiebungen betrachtet werden. Abbildung 3.9 verdeutlicht die effiziente<br />
Berechnung der short-term autocorrelation mittles FFT.<br />
FFT IFFT<br />
£ ¡ ££¢ § ¤ ¡ ££¢ §¥¤ ¤ ¡ £¦¢ §§¤ ¨ £<br />
¤©¤ §<br />
§<br />
¥¨§ ©<br />
Abbildung 3.9: Effiziente Berechnung der AKF mittels FFT<br />
Der AUTOC-Pitch-Detektions-Algorithmus<br />
57<br />
©© ¡ <strong>für</strong> alle ¡ . Somit<br />
Abbildung 3.10 zeigt das Blockdiagramm des AUTOC-PDAs [28]. Das Eingangssignal wird zunächst<br />
einem Tiefpaßfilter mit einer Grenzfrequenz von 900 Hz zugeführt. Dieser Filter kann<br />
durch ein FIR- oder IIR-Filter realisiert werden (vergleiche Kapitel 2.3.4). Die zu Testzwecken<br />
implementierte Version dieses PDAs verwendet hier ein IIR-Butterworth-Filter. Die Besonderheiten<br />
dieses Filters zu beschreiben, würde den Rahmen dieser Arbeit sprengen und ist <strong>für</strong> das<br />
Verständnis des PDAs nicht von Bedeutung. Das gefilterte Signal wird mittels Windowing in sich<br />
überlappende Frames mit einer Länge von jeweils <br />
werden nun untersucht. Der Stille-Detektor überprüft, ob die short-term energy innerhalb dieses<br />
Frames einen bestimmten Schwellwert überschreitet. Tut sie dies nicht, so wird dieser Frame als<br />
Stille klassifiziert. Andernfalls wird mit Hilfe der short-term autocorrelation die Pitch-Detektion<br />
durchgeführt. Das Center-Clipping dient der Fokussierung auf die Pitch und stellt einen nichtlinearen<br />
Operator dar. Der verwendete Operator geht auf SONDHI (1968) zurück. Nun wird<br />
in einem bestimmten Bereich der AKF der größte Autokorrelationswert und dessen Position<br />
bestimmt. Die Position des größten Autokorrelationswertes ergibt die Periode des zugrundeliegenden<br />
Signals. Anschließend wird der Peak-Wert mit einem Schwellwert verglichen, anhand<br />
dessen entschieden wird, ob der Frame als stimmhaft oder stimmlos klassifiziert wird. Abbildung<br />
3.11 zeigt einen Ausschnitt aus einem Pitch-Verlauf, der mit diesem PDA berechnet wurde.<br />
¢ aufgeteilt. Die entstehenden Frames
58 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
finde absoluten<br />
Peak-Level in<br />
den ersten 10ms<br />
setze Clipping-Level<br />
finde absoluten<br />
Peak-Level in<br />
den letzten 10ms<br />
IPK1 IPK2<br />
¢¡ ©¤£¦¥¨§¨£© ¡ © §<br />
Schwellwertbestimmung<br />
Tiefpaßfilter<br />
© £¦¥¨§<br />
Windowing<br />
stimmhaft,<br />
Periode = IPOS<br />
Center clipper Stille-Detektor<br />
short-term<br />
autocorrelation<br />
finde Position, Wert<br />
des AC-Peaks<br />
IPK<br />
IPOS<br />
vergleiche Peak-Wert<br />
mit V/U Schwellwert<br />
stimmlos<br />
Abbildung 3.10: Blockdiagramm des AUTOC Pitch-Detektors [28]<br />
Stille
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Pitch F0<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
0<br />
1000 1200 1400 1600 1800 2000<br />
Frame-Index<br />
Abbildung 3.11: Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde.<br />
Der Pitch-Detektions-Algorithmus nach BOERSMA<br />
Ein zweiter Ansatz zur Bestimmung der Pitch stammt von BOERSMA [5] und wird durch Abbildung<br />
3.12 verdeutlicht. Er beschreibt einen PDA, der verschiedene Kritikpunkte an Verfahren<br />
basierend auf der Autokorrelation beseitigen soll. Zunächst wird die Abtastfrequenz verdoppelt<br />
(Upsampling). Mit Hilfe dieser Operation sollen die sidelobes (vergleiche Abschnitt 3.1) der<br />
Fouriertransformation des Hanning-Fensters <strong>für</strong> Signalkomponenten nahe der Nyquistfrequenz<br />
entfernt werden. Hierzu wird das Signal mit einer N-Punkt FFT in den Frequenzbereich transformiert.<br />
Im Frequenzbereich wird nun ein linearer (Tiefpaß-)Filter angewendet. Der nächste<br />
Schritt besteht dann darin, eine 2N-Punkt inverse FFT durchzuführen. Es folgt das Windowing<br />
mit Hilfe eines Hanning-Fensters, bei dem das Sprachsignal in Frames zerlegt wird. Im Anschluß<br />
daran wird die short-term autocorrelation des entstandenen Frames berechnet, normalisiert und<br />
durch die (normalisierte) AKF des Hanning-Fensters dividiert. Durch die Division wird dem abfallenden<br />
Charakter der AKF entgegengewirkt. Zudem wird nicht nur ein einzelner Peak-Wert<br />
und die daraus resultierende Pitch berechnet, sondern mehrere Kandidaten. Diese werden nach<br />
bestimmten Gesichtspunkten gewichtet. Dies bedeutet, daß es zu jedem Frame mehrere Pitch-<br />
Kandidaten gibt. In einem Postprocessing wird dann mit Hilfe von dynamischer Programmierung<br />
ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Das Verfahren soll um mehrere<br />
Ordnungen genauer sein als übliche PDAs und zudem wesentlich flexibler und robuster.<br />
Der ModifiedACF-Pitch-Detektions-Algorithmus<br />
Der im folgenden beschriebene PDA basiert auch auf der in diesem Kapitel beschriebenen shortterm<br />
autocorrelation und soll fortan ModifiedACF-PDA genannt werden. Er stellt eine Vereinfachung<br />
des oben erläuterten PDAs von BOERSMA dar. Dies ist auch der Algorithmus, der<br />
später bei der Emphasis-Detektion (siehe Kapitel 4.2) eingesetzt wird. Abbildung 3.13 zeigt<br />
59
60 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
N-<br />
FFT<br />
2N-<br />
IFFT<br />
© £¦¥¨§<br />
normalisierte<br />
short-term autocorrelation<br />
£¦¥¢¡¤£ §<br />
stimmhaft, <br />
Upsampling<br />
Windowing<br />
Hanning-Fenster<br />
¥ £ ¥¨§ ¦ £¦¥¨§<br />
finde und bewerte<br />
Kandidaten<br />
suche mittels DP<br />
beste Kandidaten<br />
normalisierte<br />
short-term autocorrelation<br />
§©¨¨ §<br />
<br />
<br />
stimmlos bzw. Stille, 0Hz<br />
Abbildung 3.12: Blockdiagramm des PDAs nach BOERSMA [5]
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Sprachsignal<br />
£¦¥¨§ ¦ £ ¥¨§<br />
¥<br />
Windowing<br />
normalisierte<br />
short-term autocorrelation<br />
<br />
£¦¥¢¡£ §<br />
¨¨<br />
<br />
<br />
finde Peak<br />
Hanning-Window<br />
normalisierte<br />
short-term autocorrelation<br />
stimmlos stimmhaft<br />
Abbildung 3.13: Blockdiagramm des ModifiedACF-PDAs.<br />
eine schematische Darstellung dieses PDAs. Das Signal wird zunächst <br />
¢ <br />
im Abstand von<br />
mittels Windowing in Frames ¥ mit einer Länge von ¥<br />
¢ <br />
zerlegt, wobei das Windowing<br />
<br />
mit Hilfe ¡¢¡ <br />
¦<br />
eines Hanning-Fensters durchgeführt wird. Die Frames überlappen sich<br />
also<br />
¢ <br />
<br />
jeweils um . Die Framelänge wurde so gewählt, daß sie mindestens drei<br />
Perioden der tiefsten zu detektierenden Frequenz abdeckt [5]. Daraufhin wird die (normalisierte)<br />
short-term autocorrelation des entstandenen Frames berechnet. Die resultierende Autokorrelationsfolge<br />
wird durch die (normalisierte) AKF des Hanning-Fensters geteilt, es<br />
<br />
ergibt sich<br />
somit folgende AKF<br />
©© § <br />
<br />
<br />
<br />
Innerhalb eines bestimmten Bereichs <br />
mit ¢ ¤ wird nun der Spitzenwert der AKF<br />
gesucht. wird so gewählt, daß es der höchsten zu detektierenden Frequenz entspricht und<br />
wird so gewählt, daß es der tiefsten zu detektierenden Frequenz entspricht.<br />
<br />
¥ ¥ ¡<br />
¡ ¡ ¡ <br />
Beispiel: Die Abtastfrequenz ¥<br />
<br />
¦ ¤ ¡ des Sprachsignal beträgt<br />
, die tiefste zu detektierende<br />
¢<br />
¡ Frequenz sei und die höchste zu detektierende ¡ © ¢ ¢<br />
¡ Frequenz sei .<br />
Dann lassen sich ¡¡ und wie folgt berechnen:<br />
¤£<br />
<br />
¥<br />
¥<br />
©§¦ ¡<br />
<br />
¥<br />
¦ ¤ ¡ <br />
¢<br />
¡ ¦ ¢<br />
<br />
<br />
<br />
61<br />
¥ (3.23)
62 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
<br />
¥<br />
¡¡¢¡<br />
¦ ¤ ¡ £ ¢<br />
¡ ¡ £<br />
Man muß in diesem Beispiel die AKF also nur im ¥ Intervall<br />
hin untersuchen. Angenommen, der Spitzenwert liege nun bei <br />
Frequenz von<br />
¡ <br />
¥<br />
¦¥¤ ¤ <br />
<br />
<br />
¥<br />
¡<br />
¦<br />
¡<br />
¢£¢<br />
¦<br />
(3.24)<br />
auf einen Spitzenwert<br />
¢£¢<br />
. Dies entspricht nun einer<br />
<br />
(3.25)<br />
<br />
Dies ist die gesuchte Pitch. Man erkennt aus den Gleichungen (3.23), (3.24) und (3.25) leicht,<br />
daß die Auflösung bezüglich der Frequenz von der ¥ Abtastfrequenz abhängt. Je höher die Abtastfrequenz<br />
ist, umso besser ist das Auflösungsvermögen. Da die Abtastfrequenz nicht beliebig<br />
hoch gewählt werden kann, behilft man sich damit, eine Interpolation der Werte der AKF durchzuführen<br />
und den Spitzenwert bezüglich dieser Interpolation zu berechnen [5].<br />
Sind <strong>für</strong> die Sprachdatei alle Pitch-Werte berechnet, so schließt sich nun das Postprocessing<br />
an. Dies ist nötig, da das Verfahren noch Fehler macht. Mögliche, leicht zu erkennende und<br />
behebbare, Fehler sind:<br />
1. Die detektierte Frequenz ist halb so groß, wie sie sein sollte, ¡<br />
¡ ¥ ¥ <br />
2. Die detektierte Frequenz ist doppelt so groß, wie sie sein sollte, ¡<br />
§¦©¨<br />
. <br />
¥ <br />
Einen möglichen Pitch-Verlauf ohne Nachbearbeitung zeigt Abbildung 3.14(a). Die Glättung<br />
des Pitch-Verlaufs kann auf unterschiedliche Art und Weise geschehen. Eine Möglichkeit besteht<br />
in der Anwendung von Filtern, wie beipielsweise Median-Filtern oder linearen Filtern<br />
(vergleiche Kapitel 2.3.4). Eine andere Möglichkeit ist die Interpolation der Pitch-Werte. Sowohl<br />
BOERSMA als auch DE MORI, OMOLOGO gehen über eine Filterung hinaus und ermitteln<br />
mehrere Pitch-Kandidaten. Mittels dynamischer Programmierung wird anschließend der<br />
"korrekte" Pitch-Verlauf berechnet. Für den ModifiedACF-PDA wurde in dieser Diplomarbeit<br />
ein Postprocessing entwickelt, das die Fehlerbeseitigung und Glättung wie folgt angeht:<br />
© <strong>für</strong> <br />
¡ ¥ ¥ ¡<br />
¢¡<br />
<br />
1. Betrachte die Pitch-Werte<br />
¥<br />
¢£¢ <br />
ein Zeitintervall<br />
<strong>für</strong><br />
¢ ¥<br />
¢ ¢ <br />
<br />
¢£¢£¢ ¥<br />
¢ ¢ <br />
. bezeichnet die Länge der Sprachdatei be-<br />
<br />
<br />
züglich der Zeitdauer. Aufgrund der verwendeten <br />
¢ <br />
Schrittweite von bei der Framebildung<br />
enthält jedes Zeitintervall demnach 50 Pitch-Werte. Diese Anzahl hat sich <strong>für</strong><br />
dieses Pitch-Detektions-Verfahren als guter Wert herausgestellt.<br />
2. Berechne den Mittelwert der<br />
<br />
betrachteten Pitch-Werte<br />
. Pitch-Werte<br />
¡<br />
¢<br />
mit<br />
werden bei der Mittelwertbildung nicht berücksichtigt.<br />
¡ ¡<br />
3. Gehe nun die Pitch-Werte ¢¡<br />
¢<br />
¡ <br />
<br />
<br />
© der ¦<br />
<br />
¡<br />
falls<br />
¢¡ ¡ <br />
¡<br />
¥<br />
¦.<br />
Reihe nach durch und berechne ¡ wie folgt:<br />
¡<br />
© ¡<br />
falls<br />
sonst<br />
© <br />
¢¡ <br />
© ¤ <br />
¥<br />
¥<br />
¡¢<br />
<br />
<br />
¡¢
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
4. Glätte den erhaltenen Pitch-Verlauf mit einem 5-Punkt Median-Filter.<br />
5. Zurück zu 1.<br />
Abbildung 3.14(b) zeigt einen geglätteten Pitch-Verlauf, der mit dem eben beschriebenen Postprocessing<br />
erzeugt wurde. Es ist leicht zu erkennen, daß Ausreißer von diesem Verfahren sehr<br />
gut entfernt werden. Für alle PDAs und insbesondere <strong>für</strong> die Fehlerbereinigungs- und Glättungsverfahren<br />
muß folgendes angemerkt werden: die resultierenden Pitch-Verläufe sind Schätzungen<br />
der tatsächlichen Pitch-Verläufe. Es gibt keine exakten Referenz-Verläufe, anhand derer die Ergebnisse<br />
überprüft werden könnten.<br />
3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference<br />
Function (AMDF)<br />
Die Average Magnitude Difference Function ist eng mit der Autokorrelation verwandt. Anstatt<br />
die Eingabe zu verschiedenen Zeitverschiebungen zu korrelieren, wird ein Differenzsignal<br />
zwischen dem verzögerten Signal und dem Original erzeugt und zu jedem Verzögerungszeitpunkt<br />
der Absolutbetrag der Differenz berechnet. Aus dem Zeitverschiebungsindex des Minimums<br />
der resultierenden Folge läßt sich dann die Pitch bestimmen.<br />
Definition 3.6 Die Average Magnitude Difference Function (AMDF) zu einer Signalfolge <br />
der Länge ist definiert durch:<br />
<br />
© ¡ <br />
<br />
¡ <br />
wobei die Verschiebung und den Endpunkt des betrachteten Frames angibt [9].<br />
¡©£ § <br />
Die<br />
<br />
Signalfolge<br />
wenden hier ein Rechteck-Fenster, so daß sich (3.26) zu<br />
<br />
63<br />
(3.26)<br />
repräsentiert eine (beliebige) Fensterfunktion. ROSS ET AL. [30] ver-<br />
©<br />
¡ ¡ <br />
(3.27)<br />
<br />
reduziert. Es ist klar, daß das Differenzsignal bei<br />
<br />
immer Null ist. Es enthält<br />
¢<br />
tiefe<br />
Minima bei Verzögerungen, die zu der Pitch-Periode von stimmhaften Lauten korrespondieren.<br />
ROSS ET AL. begründen die Attraktivität der short-term AMDF folgendermaßen: Sie ist ein<br />
einfach zu berechnendes Maß, das gute Schätzungen des Pitch-Verlaufs liefert. Sie benötigt<br />
keine Multiplikationen und kann aufgrund der Natur ihrer Operationen gut in programmierbaren<br />
Prozessoren oder anderer spezieller Hardware implementiert werden. Allerdings ergeben sich die<br />
gleichen Probleme, wie bei den PDAs aus Kapitel 3.4.1. Zudem betreiben die Autoren einen gehörigen<br />
Postprocessing-Aufwand, um mögliche falsche Kandidaten auszuschließen, so daß das<br />
¡©£ §
64 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Pitch F0<br />
Pitch F0<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
0<br />
1000 1200 1400 1600 1800 2000<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
Frame-Index<br />
(a) Pitch-Verlauf ohne Postprocessing<br />
0<br />
1000 1200 1400 1600 1800 2000<br />
Frame-Index<br />
(b) Pitch-Verlauf mit Postprocessing<br />
Abbildung 3.14: Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing,<br />
(b) mit Postprocessing erzeugt wurden.
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
stZCR<br />
x(n)<br />
Dezimation<br />
3:2<br />
Windowing<br />
short-term<br />
energy<br />
Tiefpaßfilter<br />
stimmhaft, Periode=IPOS<br />
IPOS<br />
short-term<br />
AMDF<br />
Pitch-Perioden<br />
Logik<br />
V/U Klassifikation basierend auf<br />
short-term ZCR, short-term energy und<br />
short-term AMDF<br />
MAX/MIN<br />
stimmlos<br />
Abbildung 3.15: Blockdiagramm eines AMDF Pitch-Detektors [28]<br />
Argument der einfachen Berechnung so nicht mehr gilt. Die Abbildung 3.15 zeigt das Blockdiagramm<br />
eines PDAs, der auf der short-term AMDF basiert. Die Auswertungslogik der letzten<br />
Stufe ist sehr umfangreich und läßt sich bei Interesse in [30] nachlesen. Zu Testzwecken wurde<br />
eine vereinfachte Version dieses Verfahrens implementiert. Die berechneten Pitch-Verläufe sind<br />
denen des AUTOC-PDAs sehr ähnlich.<br />
3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums<br />
Nach dem in Kapitel 2.2.4 vorgestellten Sprachproduktionsmodell kommt stimmhafte Sprache<br />
durch eine Faltung einer Anregungsfolge © mit der Impulsantwort des<br />
<br />
Vokaltrakts zustande,<br />
© ¢¡<br />
<br />
65
66 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Die einzelnen Komponenten sind also nicht linear zusammengesetzt. Das Cepstrum stellt eine<br />
Transformation des Sprachsignals dar, mit deren Hilfe die Anregungsfolge © und die Impuls-<br />
<br />
antwort in gewissen Grenzen getrennt werden können. Der Begriff Cepstrum entsteht durch<br />
Umordnung der Buchstaben des Wortes "spectrum" und deutet die Umordnungen der Frequenzeigenschaften<br />
an, die bei der Bildung des Cepstrums entstehen [12]. Das Cepstrum hat zwei<br />
wichtige Eigenschaften:<br />
1. Die Repräsentanten der Komponentensignale werden im Cepstrum voneinander getrennt.<br />
2. Die Repräsentanten der Komponentensignale werden im Cepstrum linear kombiniert.<br />
Der erste Punkt ist im Zusammenhang mit der Bestimmung der Pitch von Bedeutung. Das<br />
Cepstrum trennt Anregungsfolge © und Impulsantwort des Vokaltraktes, so daß die<br />
Hoffnung besteht, daß mit seiner Hilfe die Periode des Anregungssignals relativ einfach zu bestimmen<br />
ist. Abbildung 3.16 zeigt einen Auschnitt aus einem Sprachsignal und das berechnete<br />
Cepstrum <strong>für</strong> je ein stimmhaftes Segment und ein stimmloses Segment. Für das stimmlose<br />
Segment ist kein Peak im Cepstrum vorhanden, während im Cepstrum <strong>für</strong> das stimmhafte<br />
Segment ein, wenn auch kleiner, Peak zu sehen ist. Dieser Peak enspricht der Pitch, die sich<br />
mit Hilfe des Sample-Index berechnen läßt.<br />
Cepstrale Analyse ist ein Spezialfall innerhalb einer Klasse von Methoden die als homomorphe<br />
Signalverarbeitung bekannt sind. Das aus der homomorphen Signalverarbeitung abgeleitete<br />
Cepstrum wird üblicherweise komplexes Cepstrum (CC) genannt. Das auf BOGEY-TUKEY-<br />
HEALEY (1963) zurückgehende Cepstrum wird im allgemeinen als "Cepstrum" bezeichnet. Um<br />
Konfusionen zu vermeiden, wird letzteres reelles Cepstrum (RC) genannt. Der Hauptunterschied<br />
zwischen reellem und komplexem Cepstrum besteht in der Tatsache, daß das reelle Cepstrum<br />
die Phaseninformation über das Signal entfernt, während sie beim komplexen Cepstrum<br />
erhalten bleibt.<br />
Definition 3.7 Das short-term real Cepstrum ist definiert durch<br />
¡ ¥<br />
<br />
¦<br />
¥§¦<br />
¥ £¢¥¤<br />
£<br />
£<br />
£<br />
£<br />
¤¡ ©¢¡¤£ ¥ © ¡¤£ ¨ <br />
£<br />
<br />
£<br />
¡ ¦ ¤£ §<br />
£<br />
mit ¡ <br />
<br />
<br />
und ist der Index des Frameendes.<br />
¢ ¥ <br />
steht <strong>für</strong> das "gefensterte" Eingangssignal.<br />
<br />
£<br />
£<br />
£<br />
(3.28)<br />
Aus dieser Definiton läßt sich leicht erkennen, daß das reelle Cepstrum durch die Betragsbildung<br />
nur Informationen des Amplitudenspektrums verwendet und alle Phaseninformationen<br />
verwirft. Da in der Praxis die diskrete Fourier-Transformation anstatt der zeitdiskreten Fourier-<br />
Transformation benutzt werden muß, wird das reelle Cepstrum folgendermaßen definiert:<br />
¢<br />
¡ ¥<br />
<br />
<br />
<br />
<br />
<br />
¢<br />
<br />
¡ ¥ ¦<br />
¨§ <br />
¢ <br />
andere <br />
<br />
<br />
<br />
<br />
(3.29)
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
Amplitude<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
−1<br />
stimmhaft<br />
stimmlos<br />
2000 4000 6000 8000<br />
Zeit (Samples)<br />
10000 12000 14000 16000<br />
(a) Sprachsignal, hier ein Ausschnitt aus [24]<br />
Pitch<br />
50 100 150<br />
Zeit (Samples)<br />
200 250<br />
(b) reelles Cepstrum <strong>für</strong> ein stimmhaftes Segment<br />
1.2<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
50 100 150<br />
Zeit (Samples)<br />
200 250<br />
(c) reelles Cepstrum <strong>für</strong> ein stimmloses Segment<br />
Abbildung 3.16: Ein Ausschnitt eines Sprachsignals und die Cepstra <strong>für</strong> (a) ein stimmhaftes Segment,<br />
(b) ein stimmloses Segment<br />
67
68 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
Aus dieser Definition ¢ ¡ ¥<br />
<br />
folgt,<br />
<br />
daß eine periodische Version der "wahren" ¡ ¥<br />
<br />
Größe<br />
ist, die bestimmt werden soll.<br />
Das Sprachsignal wird im ersten Schritt mittels Windowing in Frames zerlegt. Nun wird der entstandene<br />
Frame<br />
¥ künstlich verlängert und mit Nullen aufgefüllt, diesen Vorgang nennt<br />
<br />
man Zero Padding. Da das short-term real cepstrum unendliche Dauer hat, ist Aliasing<br />
<br />
unvermeidbar<br />
[9]. Es ist aber möglich, die Artefakte klein zu halten. Dies kann bei der Berechnung<br />
mit Hilfe der DFT durch das obengenannte Zero Padding erreicht werden. Der nächste Schritt<br />
besteht nun darin, die short-term DFT <strong>für</strong> diesen Frame zu berechnen. Nun wird der Absolutbetrag<br />
des entstehenden Spektrums gebildet und anschließend logarithmiert. Das Ergebnis dieser<br />
Operation wird nun mittels inverser DFT in den Zeitbereich zurücktransformiert (vergleiche Abbildung<br />
3.17). Das short-term real cepstrum läßt sich effizient mit Hilfe der FFT berechnen.<br />
s(n)<br />
w(m-n)<br />
Zero-<br />
padding<br />
¢¡¤£¦¥¤§¨¥<br />
stDFT IDFT<br />
Abbildung 3.17: Berechnung der stRC mittels DFT<br />
¤<br />
©<br />
Abbildung 3.18 zeigt das Blockdiagramm eines auf dem short-term real cepstrum basierenden<br />
Pitch-Detektions-Algorithmus.<br />
3.4.4 Zusammenfassung<br />
Dieses Kapitel stellte verschiedene Ansätze zur Bestimmung der Pitch eines Sprachsignals vor.<br />
Keiner dieser Ansätze kann perfekte Ergebnisse liefern. In der Einführung dieses Kapitels<br />
wurden die Probleme angedeutet. Die tatsächlichen Implementationen beinhalten in der Regel<br />
einen erheblichen Nachverarbeitungsaufwand, um die berechneten Pitch-Verläufe den tatsächlichen<br />
Verläufen anzugleichen. Es handelt sich bei der Bestimmung der Pitch mit diesen Mitteln<br />
also um eine mehr oder weniger gute Schätzung der tatsächlichen vorhandenen Werte.<br />
Für die Berechnung der Pitch im Rahmen des pitchbasierten Segmentierungsalgorithmus (vergleiche<br />
Kapitel 4.2) kommt der ModifiedACF-PDA zur Anwendung. Da das Postprocessing<br />
der in der Literatur beschriebenen <strong>Algorithmen</strong> sehr aufwendig ist, wurde ein einfacheres Verfahren<br />
<strong>für</strong> diesen PDA entwickelt, das ausreichend gute Resultate erzielt. Der Pitch-Detektions-<br />
Algorithmus als Ganzes ergab sich durch das Studium der in der Literatur vorhandenen PDAs<br />
und lieferte (subjektiv) die besten Werte. Da keine Referenzdaten vorlagen, kann aber keine genaue<br />
Aussage über die Genauigkeit des Verfahrens gemacht werden.
3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡<br />
Windowing<br />
(Hamming)<br />
512 Punkt<br />
DFT<br />
Log|x|<br />
512 Punkt<br />
IDFT<br />
Peak-<br />
Detektor<br />
IPK IPOS<br />
V/U basierend auf<br />
cepstralem Peak u.<br />
short-term ZCR<br />
x(n)<br />
Segmentierung<br />
in Frames<br />
short-term<br />
ZCR<br />
stimmlos stimmhaft, Periode= IPOS<br />
Stille-Detektor<br />
Stille<br />
Abbildung 3.18: Blockdiagramm eines CEP Pitch-Detektors [28]<br />
69
Kapitel 4<br />
Segmentierungsverfahren<br />
In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von<br />
low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features,<br />
wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun<br />
geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die<br />
zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im<br />
Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand<br />
dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente,<br />
die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet<br />
werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung<br />
von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand<br />
des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue<br />
inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der<br />
Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber<br />
nicht Teil dieser Arbeit.<br />
4.1 Pausenbasierte Segmentierung (PBS)<br />
Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz,<br />
einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die<br />
Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen-<br />
¥<br />
¢ £ ¢ ¢ <br />
dauer reicht typischerweise von . Die Mehrzahl der Pausen haben<br />
von¦<br />
eine<br />
¢<br />
Länge von<br />
¢£¢ <br />
etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und<br />
¥ ¥<br />
nicht unter der Kontrolle etwa¦<br />
¢£¢ <br />
des ¥<br />
¢ <br />
Sprechers liegen, dauern . Sogenannte Juncture-<br />
Pausen, die der Sprecher kontrollieren kann, haben ¥<br />
¢£¢ <br />
<br />
¢ ¢£¢ <br />
eine Länge von .<br />
¢ ¢<br />
Atempausen<br />
<br />
dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen<br />
<br />
und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue<br />
Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere<br />
bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit.<br />
¦<br />
70
4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 71<br />
Es soll jetzt ein erstes Verfahren zur Segmentierung eines Sprachsignals vorgestellt werden. Es<br />
beruht darauf, das Sprachsignal in Segmente aufzuteilen, die Sprache enthalten, und solche, die<br />
Sprachpausen beinhalten. Die jeweiligen Segmente bestehen in der Regel aus mehreren Frames.<br />
In den Pausen-Segmenten muß nicht völlige Stille herrschen. Sie können allerlei Hintergrundgeräusche<br />
enthalten. Hierin besteht auch eine Schwierigkeit bei der Klassifikation und Zuweisung<br />
der Frames zu den entsprechenden Segmenten. Wie in der Einleitung zu diesem Kapitel angedeutet<br />
wurde, wird zur Klassifikation der Frames des Sprachsignals die short-term energy und<br />
die short-term zero crossing rate herangezogen. Mit Hilfe der Energie-Werte werden Bereiche<br />
lokalisiert, die stimmhafte Laute beinhalten. Die Nulldurchgangsrate dient dazu, Bereiche mit<br />
stimmlosen Lauten zu identifizieren. Ein Merkmal stimmloser Laute ist, daß die zu ihnen korres-<br />
¡<br />
¥ pondierende hoch ist, da sie in der Regel einen hohen Rauschanteil enthalten. Leider kann<br />
¨<br />
das Sprachsignal insgesamt sehr verrauscht sein. Dies kann zum einen durch die Aufnahmetechnik<br />
bedingt sein, zum anderen aber auch durch Hintergrundgeräusche wie beispielsweise<br />
¡<br />
laute Lüfter. Unter Umständen ist es bei ¨ ¥ einer hohen schwierig zu entscheiden, ob nun<br />
ein stimmloser Laut oder einfach nur Hintergrundrauschen vorliegt. Ein möglicher Ansatz zum<br />
Umgang mit diesem Problem wird im Laufe dieses Abschnitts vorgestellt.<br />
Die Identifizierung von Sprachsegmenten entspricht dem klassischen Problem der Endpunkt-<br />
Detektion innerhalb der Sprachverarbeitung. Zu diesem Thema gibt es eine Vielzahl von<br />
Arbeiten. Im Rahmen dieser Arbeit wurde ein Algorithmus verwendet, der von LAMEL ET. AL<br />
[20] stammt und von ARONS [2] modifiziert wurde. Dieser Algorithmus zur Endpunkt-Detektion<br />
wurde ursprünglich <strong>für</strong> Aufnahmen von Telefongesprächen entwickelt. Das Telefonsignal ist im<br />
allgemeinen mehr oder weniger stark verrauscht. Ein Algorithmus, der <strong>für</strong> solche Signale gute<br />
Ergebnisse erzielt, sollte auch <strong>für</strong> den Einsatz bei aufgezeichneten Vorlesungen geeignet sein,<br />
da es auch hier durch die Aufnahmetechnik oder durch Hintergrundgeräusche bedingt, zu einem<br />
starkem Rauschanteil im aufgezeichneten Signal kommen kann.<br />
4.1.1 Der Pausen-Detektions-Algorithmus<br />
Im folgenden soll der verwendete Algorithmus genauer erläutert werden, der eine leicht modifizierte<br />
Version des in [2] (Kap. 5.9.3) verwendeten Algorithmus ist, welcher wiederum eine<br />
modifizierte Version des oben genannten Ansatzes von LAMEL ET. AL darstellt. Die vorgestellte<br />
Technik arbeitet laut den Autoren unter einer Vielzahl von Umgebungsbedingungen. Die Autoren<br />
zeichneten Sprache in einer Büroumgebung mit Lüftergeräuschen von Computern und Vorträge<br />
in Vorlesungssäalen mit über 40 Studenten auf und behaupten, daß diese Aufnahmen erfolgreich<br />
mit ihrer Methode in Sprache und Hintergrundgeräusche segmentiert wurden.<br />
Abbildung 4.1 zeigt die schematische Darstellung des pausenbasierten Segmentierungsverfahrens.<br />
Bei diesem Ansatz werden die durch einen Windowing-Prozeß erzeugten Frames, die sich nicht<br />
überlappen, mehrere Male durchlaufen. Jeder Frame hat eine Länge <br />
¢ <br />
von und wurde mit<br />
Hilfe eines Rechteck-Fensters aus dem Sprachsignal ausgeschnitten. Im ersten Schritt werden<br />
short-term energy und short-term zero crossing rate <strong>für</strong> jeden dieser Frames bestimmt. Um<br />
den Level der Hintergrundgeräusche zu bestimmen, wird ein Histogramm der Energie-Werte be-
72 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
berechne<br />
short-term energy<br />
erstelle und glätte<br />
Histogramm<br />
ermittle<br />
Schwellwert<br />
Sprachsignal<br />
Windowing<br />
berechne<br />
short-term ZCR<br />
erstelle<br />
Histogramm<br />
ermittle<br />
Schwellwert<br />
Endpunkt-Detektion<br />
und 1. Segmentierung<br />
entferne zu kurze Lücken (
4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 73<br />
% Frames<br />
0.09<br />
0.08<br />
0.07<br />
0.06<br />
0.05<br />
0.04<br />
0.03<br />
0.02<br />
0.01<br />
Offset<br />
Schwellwert<br />
0<br />
0 5 10 15 20<br />
0.5 * x [dB]<br />
25 30 35 40<br />
(a) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />
mit hohem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
% Frames<br />
0.3<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
Offset<br />
Schwellwert<br />
0<br />
0 5 10 15 20 25 30 35 40 45<br />
0.5 * x [dB]<br />
(b) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />
mit niedrigem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
Abbildung 4.2: Energie-Histogramme <strong>für</strong> verschiedene Sprecher<br />
rechnet, welches mit einem 3-Punkt FIR-Average-Filter geglättet wird. Das resultierende Histogramm<br />
hat im allgemeinen eine bimodale Verteilung; es besitzt zwei mehr oder weniger weit<br />
auseinander liegende Spitzenwerte. Abbildung 4.2 zeigt Beispiele von Energie-Histogrammen,<br />
die <strong>für</strong> zwei verschiedene Sprecher ermittelt wurden. Der erste (am weitesten links liegende)<br />
Spitzenwert korrespondiert zu den Hintergrundgeräuschen, der zweite Spitzenwert zur Sprache.<br />
Der erste Spitzenwert wird aus dem Histogramm ermittelt und dient fortan zur Festlegung eines<br />
Schwellwertes, der Hintergrundgeräusche und Sprache trennt. In Abhängigkeit der Stärke<br />
der Hintergrundgeräusche wird ein Offset zum ermittelten Hintergrundgeräuschpegel addiert. Ist<br />
dieser <br />
Pegel hoch ), wird ein Offset von addiert, andernfalls ein Offset von . ¨¢ ¡<br />
Anhand dieses Schwellwertes und der ¨ ¥ des Frames wird nun entschieden, ob der Frame<br />
¨¢ ¨¢ (¤<br />
Sprache oder Hintergrundgeräusche enthält. Hier setzt nun die oben erwähnte Modifikation des<br />
Ansatzes an. In der Arbeit von ARONS wird als Schwellwert <strong>für</strong> die Nulldurchgangsrate ein<br />
fester Wert von 2500 zcr/s verwendet [4]. Da der Hintergrundgeräuschpegel von Aufnahme zu<br />
Aufnahme stark variieren kann und der Schwellwert <strong>für</strong> die Nulldurchgangsrate nicht von mal<br />
zu mal manuell angepasst werden soll, wurde der Algorithmus <strong>für</strong> diese Arbeit modifiziert. Aus<br />
¡<br />
¥ den -Werten aller Frames wird ein Histogramm erstellt. Dieses Histogramm hat nur einen,<br />
¨<br />
da<strong>für</strong> aber sehr ausgeprägten Spitzenwert. Dieser Spitzenwert und die hiermit korrespondierende<br />
Nulldurchgangsrate wird zur Schwellwertbestimmung herangezogen. Zu diesem Wert wird noch<br />
ein Offset von hinzuaddiert. Dieses Verfahren hat den Vorteil, daß es adaptiv ist. Es ist nicht<br />
nötig, den Schwellwert <strong>für</strong> die Nulldurchgangsrate manuell an das Sprachsignal anzupassen.<br />
¡<br />
Abbildung 4.3 zeigt Beispiele ¨ ¥ von -Histogramme, die <strong>für</strong> zwei verschiedene Sprecher ermittelt<br />
wurden.<br />
¨¢
74 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
% Frames<br />
0.16<br />
0.14<br />
0.12<br />
0.1<br />
0.08<br />
0.06<br />
0.04<br />
0.02<br />
0<br />
0 5 10 15 20 25<br />
[dB]<br />
Offset<br />
Schwellwert<br />
¢¡¢£<br />
(a) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />
hohem Rauschanteil und insgesamt hoher Aussteuerung<br />
% Frames<br />
0.18<br />
0.16<br />
0.14<br />
0.12<br />
0.1<br />
0.08<br />
0.06<br />
0.04<br />
0.02<br />
0<br />
0 5 10 15 20 25<br />
[dB]<br />
Offset<br />
Schwellwert<br />
¢¡¢£<br />
(b) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />
niedrigem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
Abbildung 4.3: ¢¡¦£ ¥ -Histogramme <strong>für</strong> verschiedene Sprecher<br />
Dieser erste Durchgang liefert nun eine sehr feine Segmentierung. Selbst bei sehr sorgfältiger<br />
Wahl der Schwellwerte macht dieses Verfahren jedoch noch Klassifikationsfehler:<br />
1. Es bleiben kurze Lücken ( ¢ ¢ <br />
) innerhalb von längeren Sprachsegmenten, die eigent-<br />
<br />
lich als Sprache klassifiziert werden müßten.<br />
2. Es verbleiben Sprachsegmente ( ¢£¢ <br />
), die zu kurz sind, um Wörter zu enthalten.<br />
<br />
3. Sprachsegmente werden versehentlich zu spät oder zu früh abgeschnitten.<br />
Deshalb wird die zuvor gewonnene Segmentierung in den Durchgängen 2–4 von diesen<br />
Klassifikationsfehlern befreit. Im Durchgang 2 werden zu kurze Lücken zwischen Sprachsegmenten<br />
entfernt, Durchgang 3 beseitigt zu kurze Sprachsegmente und Durchgang 4 erweitert die<br />
verbleibenden Sprachsegmente um jeweils¦ ¢ <br />
in beide Richtungen. Dadurch ergeben sich<br />
größere Pausen- bzw. Sprachsegmente. Die Ausgabe des PBS-Algorithmus enthält <strong>für</strong> jedes gefundene<br />
Segment den Beginn (in Sek.), die Dauer (in Sek.) und die Klassifikation (0=Pause,<br />
1=Sprache). Die Abbildungen 4.4 und 4.5 verdeutlichen den Ablauf der PBS anhand von Beispieldaten.
4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 75<br />
short−term energy<br />
Häufigkeit<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
Amplitude<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
Sprachsignal<br />
−1<br />
0 0.5 1 1.5 2<br />
Zeit (Samples)<br />
Windowing und Berechnung der Audio-Features<br />
Energie−Verlauf<br />
0<br />
0 500 1000 1500<br />
Frames<br />
400<br />
350<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
Schwellwert<br />
short−term ZCR<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
ZCR−Verlauf<br />
x 10 5<br />
0<br />
0 500 1000 1500<br />
Frames<br />
Schwellwertbestimmung <strong>für</strong> Endpunkt-Detektion<br />
Energie−Histogramm<br />
0<br />
0 5 10 15 20 25 30 35 40<br />
short−term energy [dB]<br />
Häufigkeit<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
ZCR−Histogramm<br />
Schwellwert<br />
0<br />
0 5 10 15 20 25 30 35 40<br />
short−term zero crossing rate [dB]<br />
Abbildung 4.4: Beispiel <strong>für</strong> den Ablauf der PBS (Teil 1)
76 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
Endpunkt-Detektion und 1. Segmentierung<br />
Start (Sek.) Dauer (Sek.) Klassifikation<br />
0.00 0.20 0<br />
0.20 0.09 1<br />
0.29 0.32 0<br />
0.61 0.09 1<br />
0.70 0.04 0<br />
0.74 0.13 1<br />
0.88 0.11 0<br />
0.99 0.03 1<br />
1.02 0.11 0<br />
1.13 0.06 1<br />
1.19 0.12 0<br />
.<br />
.<br />
Beseitigung der Klassifikationsfehler<br />
Start (Sek.) Dauer (Sek.) Klassifikation<br />
0.00 0.59 0<br />
0.59 0.31 1<br />
0.90 0.59 0<br />
1.49 0.26 1<br />
1.75 0.19 0<br />
1.94 0.81 1<br />
2.75 0.09 0<br />
.<br />
.<br />
Abbildung 4.5: Beispiel <strong>für</strong> den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache)<br />
.<br />
.
4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 77<br />
4.2 Emphasis-Detection-basierte Segmentierung (EDBS)<br />
Dieses Kapitel beschäftigt sich mit einem anderen Ansatz zur Segmentierung, der auch benutzt<br />
werden kann, um besonders betonte Wörter oder Sätze zu lokalisieren. Der Ansatz geht auf<br />
ARONS [2][3][4] zurück und beschreibt ein pitchbasiertes Verfahren zur Segmentierung und Betonungslokalisation.<br />
Die Pitch kann nicht nur wichtige Informationen <strong>für</strong> das Verstehen und das<br />
Verständnis liefern, sie kann auch herangezogen werden, um andere high level-Informationen aus<br />
dem Sprachsignal zu extrahieren. Es gibt eine Vielzahl von <strong>Algorithmen</strong>, um den Pitch-Verlauf<br />
eines Sprachsignals zu bestimmen, einige Verfahren wurden in Kapitel 3.4 vorgestellt.<br />
Es existieren verschiedene Arbeiten darüber, wie sich die Pitch unter verschiedenen Bedingungen<br />
verhält. HIRSCHBERG, GROSZ [15][17] fanden in einer empirischen Studie heraus, daß der<br />
Pitch-Bereich Hinweise auf den Beginn und das Ende von inhaltlichen Zusammenhängen sowie<br />
auf direkte Zitate gibt. Die Einführung eines neuen Themengebiets korrespondiert oft mit<br />
einer größeren Streuung der Pitch-Werte. Das Ende eines Satzes ist oft verbunden mit einem<br />
Abfallen der Pitch-Werte. Untergebiete und beiläufige Bemerkungen werden oft mit einem komprimierteren<br />
Pitch-Bereich assoziiert. Weitere Studien zeigten, daß Sprecher den Pitch-Bereich<br />
erhöhen, um Informationen in einem bestimmten Satz zu betonen, und daß der Pitch-Bereich am<br />
Anfang eines neuen Themengebiets erweitert wird. Diese Ergebnisse sollen nun genutzt werden,<br />
um Sprachaufzeichnungen zu segmentieren und besondere Hervorhebungen des Sprechers zu<br />
finden. Die Untersuchung, inwieweit dies überhaupt möglich ist, insbesondere in Bezug auf die<br />
zu untersuchenden Daten, ist der zweite Hauptbestandteil dieser Arbeit.<br />
In einer früheren Studie versuchten CHEN, WITHGOTT [6] mit Hilfe von<br />
Hidden-Markov-Modellen (HMM) Betonungen auf der Basis von Pitch- und Energiegehalt zu<br />
ermitteln. Dabei zeigte sich, daß betonte Abschnitte erfolgreich zur Erstellung von Zusammenfassungen<br />
der von Ihnen benutzten Aufzeichnungen herangezogen werden können. Die Verwendung<br />
von Hidden-Markov-Modellen hat allerdings einen entscheidenden Nachteil. Hidden-<br />
Markov-Modelle stellen sehr komplexe statistische Modelle dar, die eine große Anzahl von<br />
Trainings- und Testdaten benötigen und deshalb nicht <strong>für</strong> jede Anwendung geeignet sind. ARONS<br />
konnte jedoch nachweisen, daß signifikante Information über Betonungen allein in der Pitch enthalten<br />
ist. Er verglich den Verlauf der Pitch mit einer von Hand "gelabelten" Aufzeichnung. Ein<br />
Monolog eines männlichen Sprechers wurde transkribiert und manuell von einem Linguisten<br />
mit Anmerkungen versehen. Dabei stellte sich heraus, daß es eine hohe Korrelation von großer<br />
Pitch-Variabilität und der Einführung neuer Themen und betonten Abschnitten gibt. STIFELMAN<br />
bestätigte diese Ergebnisse in einer Studie [35]. Ziel von ARONS war nun, einen Algorithmus zu<br />
entwerfen, der direkt nach Mustern im Pitch-Verlauf sucht und dem kein komplexes statistisches<br />
Modell, wie das der Hidden-Markov-Modelle zugrunde liegt.
78 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
4.2.1 Der Emphasis-Detection-Algorithmus<br />
Der Algorithmus läßt sich in fünf Schritte zerlegen, die nun beschrieben werden sollen:<br />
1. Die zu untersuchende Sprachdatei wird mittels Windowing (vergleiche Kap.<br />
¥<br />
3.1) in Frames<br />
mit einer Länge von ¥<br />
¢ <br />
unterteilt, die sich um jeweils<br />
¢ <br />
überlappen. Die<br />
<br />
Frames werden also in einem Zeitabstand von ©¡ ¢ ¢ <br />
erzeugt. In der Original-<br />
©<br />
<br />
<br />
gewählt. Allerdings wurde dort<br />
¢<br />
ein<br />
Arbeit von ARONS wurde eine Framelänge von <br />
anderer PDA verwendet.<br />
2. Für jeden dieser Frames ¥ ermittelt ein PDA die Pitch .<br />
3. Da der Pitch-Umfang <strong>für</strong> jeden Sprecher unterschiedlich ist, muß ein sprecherunabhängiger<br />
Schwellwert ermittelt werden, anhand dessen die Pitch-Aktivität gemessen werden kann.<br />
Hierzu wird aus den ermittelten Pitch-Werten ein Histogramm erstellt, das die Variabilität<br />
des Sprechers normalisiert. Anhand dieses Histogramms wird ein ¥ ¢£¢<br />
¢ ¥<br />
Pitch-Schwellwert<br />
definiert, der die <br />
¤<br />
obersten der Pitch-Werte auswählt. Genauer: Man beginnt am oberen<br />
Ende des Histogramms die Anzahl der Pitch-Werte zu zählen, bis <br />
¤<br />
aller Pitch-Werte<br />
erfaßt wurden. Aus dem erreichten "Behälter" des Histogramms wird dann die zugehörige<br />
Frequenz und damit der Schwellwert ermittelt. Dieser Schwellwert stellt einen Ausgangspunkt<br />
<strong>für</strong> Experimente dar und kann variiert werden, um eine größere oder kleinere Anzahl<br />
von betonten Segmenten zu finden. Abbildung 4.6 zeigt Pitch-Histogramme <strong>für</strong> Dozenten<br />
beiderlei Geschlechts. Der geschlechtsspezifisch unterschiedliche Frequenzbereich ist in<br />
den Abbildungen sehr gut zu sehen.<br />
4. In einem Superframe ¢ mit einer Länge von ¥¤ <br />
wird nun die Pitch-Aktivität<br />
<br />
<br />
bestimmt. Es wird vereinfachend angenommen, daß die Länge eines Superframes immer<br />
ein ganzzahliger Wert ist.<br />
Definition 4.1 Ein Superframe ¢ ¡<br />
<br />
von Pitch-Werten mit<br />
¡<br />
¢ ¡<br />
<br />
<br />
der<br />
§ £ £¡ ¡<br />
¦¤<br />
<br />
<br />
<br />
© ¢ ©¡ ¡ <br />
Länge ¦¤<br />
ist eine endliche Folge<br />
<br />
£ ¤ ¡<br />
und ¤ <br />
¢<br />
§¤<br />
<br />
<br />
<br />
© ¢ ©¡ ¡ <br />
die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />
<br />
Pitch-Aktivität©¨<br />
bezeichnet<br />
Definition 4.2 Die innerhalb eines Superframes der Länge ¤<br />
<br />
¢<br />
¢¢ ¥ ¥<br />
ist<br />
gleich der Anzahl der Pitch-Werte innerhalb des Superframes, die größer als ein Pitch-<br />
Schwellwert sind.<br />
bezeichnet<br />
¢£¢<br />
¢ ¥<br />
¤ ¢ ¢ ¥<br />
<br />
¨<br />
die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />
©<br />
¨<br />
¤ ¤ ¤
4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 79<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0 50 100 150 200 250 300<br />
Pitch F0 [Hz]<br />
(a) männlich, aus [24]<br />
0 50 100 150 200 250 300<br />
Pitch F0 [Hz]<br />
(c) männlich, aus [24]<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0 50 100 150 200 250 300<br />
Pitch F0 [Hz]<br />
(b) männlich, aus [24]<br />
0 50 100 150 200 250 300 350<br />
Pitch F0 [Hz]<br />
(d) weiblich, aus [23]<br />
Abbildung 4.6: Pitch-Histogramme <strong>für</strong> Dozenten (a) männlichen, (b) weiblichen Geschlechts
80 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
Pitch F0 [Hz]<br />
250<br />
200<br />
150<br />
100<br />
50<br />
Schwellwert F Thres<br />
Super−<br />
frame<br />
SF<br />
n SF n+1 SF n+2<br />
Berechnung der Pitch−Aktivität<br />
Anzahl der Werte oberhalb des Schwellwerts<br />
innerhalb eines Superframes ergibt die Pitch−Aktivität<br />
Zeitfenster ZF n<br />
Zeitfenster ZF n+1<br />
1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34<br />
x 10 4<br />
0<br />
Zeit (Frames)<br />
Abbildung 4.7: Berechnung der Pitch-Aktivität<br />
Abbildung 4.7 verdeutlicht die obigen Definitionen.<br />
5. Die Pitch-Aktivitäten ¢¡¤£¦¥¨§©© ¡£¥§ von aufeinanderfolgenden Superframes<br />
©© werden kombiniert, d.h. es wird ein Zeitfenster mit einer Länge<br />
von Superframes betrachtet und deren Pitch-Aktivitäten aufsummiert. Diese Summe repräsentiert<br />
die Stärke der Betonung (engl.: Emphasis) innerhalb des Zeitfensters ¨ . Die<br />
Zeitfenster werden in Abständen von durch einen sliding-window Algorithmus erzeugt.<br />
Definition 4.3 Ein Zeitfenster mit einer Länge ist eine Folge von Superframes<br />
<br />
bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen.<br />
¤<br />
©©©©§ £<br />
<br />
Definition 4.4 Die Stärke der Betonung (Emphasis) Zeitfensters innerhalb eines der<br />
läßt sich wie folgt berechnen<br />
<br />
Länge<br />
£§ <br />
<br />
¢¡¤£§ © <br />
bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen.<br />
Während ARONS Zeitfenster mit einer Länge von verwendet, wählten HE, SA-<br />
NOCKI, GUPTA, GRUDIN [16] in ihrer Arbeit Zeitfenster mit einer Länge von .
4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 81<br />
Emphasis<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
Emphasis<br />
0<br />
0 100 200 300 400 500 600 700 800 900<br />
Zeit (Sek.)<br />
(a) Schwellwert=1%, ¢¡¤£¦¥¨§<br />
Emphasis<br />
150<br />
100<br />
50<br />
Emphasis<br />
0<br />
0 100 200 300 400 500 600 700 800 900<br />
Zeit (Sek.)<br />
(b) Schwellwert=1%, ¢¡¤£¦¥©<br />
Abbildung 4.8: Ausgabe des EDBS-Algorithmus <strong>für</strong> einen 15-minütigen Ausschnitt aus einer Sprachdatei.<br />
Allerdings verfolgten sie ein ganz anderes Ziel, die automatische Erstellung von Zusammenfassungen.<br />
Die kombinierte Pitch-Aktivität §¦ liefert in diesem Fall ein Maß<br />
<strong>für</strong> die Betonung auf Phrasen- oder Satzebene. Verkürzt man diese Zeitfenster auf © <br />
können Betonungen auf der Wortebene gefunden werden. Abbildung 4.8 zeigt das Ergebnis<br />
von Testläufen <strong>für</strong> einen 15 minütigen Ausschnitt aus einer Vorlesung, die [24] entnommen<br />
wurde. Der Schwellwert beträgt in beiden Fällen . Die Länge des Zeitfensters<br />
beträgt im Fall a) ¨ © und im Fall b) .<br />
Der gesamte Ablauf dieses Verfahrens wird durch die Abbildungen 4.9 und 4.10 nochmals anhand<br />
eines Beispiels verdeutlicht. Die oben erläuterten Schritte lassen sich dadurch sehr gut<br />
nachvollziehen.<br />
4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus<br />
Nun bieten sich mehrere Möglichkeiten zur weiteren Vorgehensweise an. Drei Anwendungen<br />
werden kurz erläutert:<br />
1. Es kann eine Zusammenfassung der Sprachdatei erstellt werden. Hierzu werden die Zeitfenster<br />
bezüglich ihrer Emphasis sortiert. Segmente dieser Fenster können nun nach absteigenden<br />
Emphasis-Werten zu der Zusammenfassung hinzugefügt werden, bis die sie<br />
ihre gewünschte Länge hat [16].<br />
2. Die Ergebnisse können zum schnellen Navigieren in der Sprachdatei verwendet werden.<br />
Auch hierzu werden die Zeitfenster bezüglich ihrer Emphasis sortiert. Die Segmente mit
82 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
Amplitude<br />
Pitch F0 [Hz]<br />
Häufigkeit<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
−0.2<br />
−0.4<br />
−0.6<br />
−0.8<br />
Sprachsignal<br />
−1<br />
0 0.5 1 1.5 2<br />
Zeit (Samples)<br />
250<br />
200<br />
150<br />
100<br />
50<br />
0<br />
1600<br />
1400<br />
1200<br />
1000<br />
800<br />
600<br />
400<br />
200<br />
Berechnung der Pitch<br />
200 400 600 800<br />
Frames<br />
1000 1200 1400<br />
Berechnung des sprecherunabhängigen<br />
Schwellwerts anhand des Pitch−Histogramms<br />
Schwellwert<br />
obere 1% aller F0−Werte<br />
0<br />
50 100 150 200 250 300<br />
Pitch F0 [Hz]<br />
Abbildung 4.9: Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 1)<br />
x 10 5
4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 83<br />
Pitch F0 [Hz]<br />
Emphasis<br />
250<br />
Emphasis(n) =<br />
200<br />
150<br />
100<br />
50<br />
Schwellwert F<br />
Thres<br />
5 +10 +8 +1 +0 +0 +0 +0 =24<br />
Super−<br />
Frame<br />
SF<br />
n SF<br />
n+1<br />
SF<br />
n+2<br />
Berechnung der Emphasis<br />
Zeitfenster ZF n<br />
Die Anzahl der Werte oberhalb des Schwellwertes<br />
innerhalb eines Superframes ergibt die Pitch−Aktivität.<br />
Die Summe der Pitch−Aktivitäten innerhalb eines<br />
Zeitfensters ergibt die Emphasis.<br />
1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34<br />
x 10 4<br />
0<br />
Zeit (Frames)<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
Emphasis<br />
0<br />
0 100 200 300 400 500 600 700 800 900<br />
Zeit<br />
Abbildung 4.10: Beispiel <strong>für</strong> den Ablauf der Emphasis-Detektion (Teil 2)
84 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
den höchsten Emphasis-Werten werden zur Erzeugung einer Navigationshilfe herangezogen<br />
(vergleiche ARONS [2][3][4]).<br />
3. Die Emphasis-Werte werden zur Segmentierung der Sprachdatei herangezogen. Die Untersuchung,<br />
ob dies zu einer verwertbaren Segmentierung führt, ist Bestandteil dieser Diplomarbeit.<br />
Zusammenfassung<br />
Dieses Kapitel stellte zwei <strong>Algorithmen</strong> vor, die dazu verwendet werden sollen, eine Sprachdatei<br />
nach einem bestimmten Kriterium zu segmentieren. Beide <strong>Algorithmen</strong> verwenden (relativ) einfach<br />
zu bestimmende Audio-Features wie Energie, Nulldurchgangsrate und Pitch und im Fall der<br />
Emphasis-Detektion eine einfache Metrik zur Bestimmmung der Emphasis. Ob diese Verfahren<br />
das gewünschte Ergebnis liefern können, beschreibt das folgende Kapitel 5. Zu diesem Zweck<br />
wurden beide <strong>Algorithmen</strong> implementiert und mit verschiedenen Sprachdateien getestet.
Kapitel 5<br />
Evaluation<br />
Im vorgangehenden Kapitel wurden Verfahren vorgestellt, mit deren Hilfe eine automatische<br />
Segmentierung einer Sprachdatei vorgenommen werden soll. Das Resultat dieser Segmentierung<br />
soll eine Folge von Zeigern in diese Sprachdatei sein, die den zeitlichen Beginn eines inhaltlichen<br />
Zusammenhangs anzeigen. Beispiel:<br />
Start (Sek.)<br />
0.00<br />
4.84<br />
35.69<br />
53.95<br />
.<br />
Hier schließt sich die Frage an, wie die Ausgaben der einzelnen Verfahren hinsichtlich ihrer<br />
Treffsicherheit bewertet werden sollen. Dazu muß man sich zunächst überlegen, zu welcher<br />
Referenz die Ergebnisse der Segmentierungsverfahren verglichen werden sollen und wie fein<br />
die Referenzsegmentierung sein soll.<br />
Granularität der Segmentierung<br />
Der zweite Punkt soll kurz an einem Beispiel verdeutlicht werden. Angenommen, der Autor eines<br />
Vortrages hat eine Unterteilung in vier Kapitel vorgesehen, die sich weiter untergliedern lassen.<br />
Nun stellt sich die Frage, bis zu welcher Tiefe (Segment-Level) der auftretenden Gliederungshierarchie<br />
(discourse structure) evaluiert werden soll. Tabelle 5.1 zeigt ein Beispiel <strong>für</strong> eine<br />
grobe und eine feine Segmentierung. Auf den ersten Blick könnte man denken, daß die grobe<br />
Segmentierung leichter zu erreichen sei, als die feine Segmentierung, da weniger Items zu detektieren<br />
sind. Dem ist aber nicht so, da die <strong>Algorithmen</strong> nicht zwischen Kapitel, Abschnitt und Absatz<br />
unterscheiden können. Dies hängt damit zusammen, daß keine Information darüber vorliegt,<br />
85
86 KAPITEL 5. EVALUATION<br />
grobe Segmentierung feine Segmentierung<br />
1.) Kapitel 1 1.) Kapitel<br />
2.) Kapitel 2 1.1.) Abschnitt 1<br />
3.) Kapitel 3 1.2.) Abschnitt 2<br />
4.) Kapitel 4 2.) Kapitel 2<br />
2.1.) Abschnitt 1<br />
2.1.1.) Absatz 1<br />
2.1.2.) Absatz 2 ...<br />
Tabelle 5.1: Beispiele <strong>für</strong> Segmentierungsmöglichkeiten<br />
was der Sprecher sagt. Aus dem Audiostrom lassen sich Informationen allenfalls darüber extrahieren,<br />
wie der Vortragende spricht. Diese prosodischen Merkmale 1 können lediglich Hinweise<br />
bezüglich einer feineren Segmentierung liefern. Aus diesem Grund wurde bei der Evaluation der<br />
Verfahren bis zu einer Tiefe von 7 gegliedert; die feinste Gliederungseinheit ist beispielsweise<br />
4.4.4.2.7.2.2 Nachweis. Diese Tiefe hat sich als feinste Auflösung bei den vorliegenden Daten<br />
herausgestellt.<br />
Erstellung der Referenzsegmentierung<br />
Zur Erstellung der Referenzsegmentierungen wurden die untersuchten Vorträge vollständig von<br />
Hand transkribiert. Es wurden (möglichst) wortwörtliche textuelle Abbilder dieser Vorträge geschaffen,<br />
inklusive von Füllauten wie „...äh...“ u.ä. Diese Texte wurden anschließend manuell<br />
und unabhängig vom Audiostrom segmentiert. Die manuelle Segmentierung orientiert sich an<br />
einem Beispiel aus [35]. Sie beruht ausschließlich auf dem inhaltlichen Zusammenhang, der sich<br />
aus dem Text ergibt. Hierzu ist natürlich ein gewisses Grundwissen über den Inhalt des Vortrages<br />
nötig, so daß Zusammenhänge erkannt werden können. Anhand dieser manuellen Segmentierung<br />
wurde wieder die Audio-Datei herangezogen und die Startzeitpunkte zu dieser Gliederung ermittelt.<br />
Tabelle 5.2 zeigt einen Auszug aus einer manuellen Segmentierung eines Vortrages aus<br />
[24]. Anhang A enthält eine Text-Transkription zu diesem Beispiel. Die Startzeitpunkte werden<br />
nun zur Evaluation der Segmentierungsverfahren herangezogen.<br />
1 Prosodem [grie.](prosdisches Merkmal), in der Linguistik lautl.-phonologisches Merkmal (Akzent, Intonation,<br />
Sprechtempo u.ä); relevant <strong>für</strong> die Bildung sprachlicher Einheiten, die größer als ein Laut bzw. Phonem sind.<br />
(Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.)
5.1. MESSGRÖSSEN 87<br />
5.1 Messgrößen<br />
Gliederung Überschrift Startzeitpunkt<br />
innerhalb der<br />
Audiodatei<br />
1. Begrüßung 0:00,00<br />
2. Einleitung 0:08,92<br />
3. Gliederung 0:30,41<br />
3.1. Problemformulierung 0:36,47<br />
3.2. Konfigurationsraum 0:45,12<br />
3.3. Einfaches Problem 0:58,63<br />
3.4. Minkowski-Summen 1:14,70<br />
3.4.1. Eigenschaft von Minkowski-S. 1:28,43<br />
3.5. Problemlösung 1:46,62<br />
4. Problemstellung 2:05,89<br />
4.1. Veranschaulichung 2:24,02<br />
4.2. Beispiel 2:45,04<br />
. . .<br />
Tabelle 5.2: Auszug aus einer manuellen Segmentierung<br />
In der Einleitung zu diesem Kapitel wurde erläutert, wie die Referenzdaten <strong>für</strong> die Evaluation<br />
zustande kommen. Es ist aber noch nicht klar, was und wie gemessen werden soll. Die manuell<br />
erstellte Segmentierung eines Vortrages liefert, wie die Tabelle 5.2 zeigt, eine Liste von Zeitpunkten,<br />
die einem Beginn eines Topics (engl.: Topic Beginning) entsprechen. Die untersuchten<br />
Verfahren sollen diese Zeitpunkte nun möglichst genau aus der Sprachdatei extrahieren. Dabei<br />
sollen sie nicht nur möglichst viele dieser Topic Beginnings finden, sondern auch so wenig wie<br />
möglich falsche Alarme (engl.: False Alarms) auslösen. Dies führt zu den Begriffen Recall und<br />
Precision.<br />
Recall und Precision<br />
Eine erste Definition dieser Begriffe könnte wie folgt sein: Der Recall liefert ein Maß <strong>für</strong> die<br />
Trefferhäufigkeit des Verfahrens; je mehr der Topic Beginnings erkannt werden, umso höher ist<br />
der Wert <strong>für</strong> den Recall. Die Precision zeigt die Genauigkeit des Verfahrens an. Je weniger False<br />
Alarms das Verfahren produziert, umso höher ist der Wert <strong>für</strong> die Precision. Es ist sehr wichtig<br />
beide Metriken zu berechnen, wie folgendes Beispiel zeigt: Ein Segmentierungsverfahren findet<br />
alle Satzanfänge und identifiziert alle Sätze als Topic Beginnings. Es erreicht damit einen Recall<br />
<br />
¢ ¢§¤<br />
von ; allerdings ist dann die Precision sehr niedrig, da auch Satzanfänge gefunden werden,<br />
die nicht einer Segmentgrenze entsprechen. Findet das Verfahren nur genau ein tatsächliches<br />
Topic Beginning und erzeugt keine False Alarms, so erhält man zwar eine Precision <br />
¢£¢§¤<br />
von ,<br />
jedoch einen sehr niedrigen Recall.
88 KAPITEL 5. EVALUATION<br />
Topic Beginning PBS EDBS<br />
(Sek.) (Sek.) Emphasis Zeitpunkt<br />
0:00,00 0:00,00 0 0s<br />
0 1s<br />
0 2s<br />
0:03,45 0:03,45 1 3s<br />
2 4s<br />
0:05,78 0 5s<br />
1 6s<br />
0 7s<br />
0:08,92 0:08,92 0 8s<br />
4 9s<br />
5 10s<br />
Tabelle 5.3: Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben der<br />
Segmentierungsverfahren<br />
Formal werden Recall und Precision in Anlehnung an [35] wie folgt definiert:<br />
Definition 5.1 Die Trefferhäufigkeit (Recall) und Genauigkeit (Precision) eines Segmentierungsverfahrens<br />
sind durch<br />
© ¡ ¢ ¡ ¡ ¡<br />
¡<br />
¡<br />
<br />
¡ <br />
<br />
©<br />
¡<br />
<br />
¡ <br />
<br />
gegeben, wobei ¡ die Anzahl der Treffer (Hits),<br />
<br />
Beginnings (Misses) und<br />
Problemfälle bei der Interpretation der Ausgaben<br />
(5.1)<br />
¨<br />
(5.2)<br />
<br />
die Anzahl der nicht gefunden Topic<br />
die Anzahl der falschen Alarme (False Alarms) repräsentieren.<br />
¨<br />
Aus der Definition 5.1 ist noch nicht klar ersichtlich, wie Hits, Misses und False Alarms definiert<br />
sind. Diese Begriffe sollen in Abhängigkeit des Verfahrens definiert werden. Grund hier<strong>für</strong> sind<br />
die verschiedenen Ausgaben der <strong>Algorithmen</strong>. PBS gibt beispielsweise seine Ergebnisse in Form<br />
von exakten Zeitpunkten aus, die mit Wort- bzw. Satzgrenzen zusammenfallen. Das zweite Verfahren,<br />
EDBS, welches auf der Detektion von Betonungen basiert, liefert eher grobe Information<br />
über den Zeitpunkt.<br />
Anhand eines kleinen Beispiels (siehe Tabelle 5.3) soll dies verdeutlicht werden. Das PBS-<br />
Verfahren liefert in diesem Beispiel drei Hits und einen False Alarm. Bei diesem Verfahren<br />
kommt es nicht zu Schwierigkeiten bei der Interpretation der Ausgabe, da die ausgegebenen<br />
Zeitmarken zu Wort- beziehungsweise Satzgrenzen korrespondieren. Das EDBS-Verfahren zeigt
5.1. MESSGRÖSSEN 89<br />
Emphasis<br />
4<br />
3<br />
2<br />
1<br />
¢¡¤£<br />
¢¡¦¥<br />
¢¡¨§<br />
¢¡¨©<br />
¢¡¤<br />
¢¡¤<br />
1 2 3 4 5 6 7 8<br />
topic beginning<br />
Zeit (Sek.)<br />
Emphasis<br />
4<br />
3<br />
2<br />
1<br />
¢¡¨£<br />
¢¡¦¥<br />
¢¡¨§<br />
¢¡¨©<br />
¢¡¤<br />
¢¡¤<br />
¢¡¤<br />
1 2 3 4 5 6 7 8<br />
topic beginning<br />
Zeit (Sek.)<br />
(a) § ¨ ¡ (b) § ¨ ¡§¦<br />
Abbildung 5.1: Beispiele <strong>für</strong> die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis-<br />
Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von § ¨ ¡ und im Diagramm (b) eine<br />
Länge von § ¨ ¡§¦ .<br />
<br />
¦<br />
¡ ¢ <br />
Betonungen bestehen. <br />
Diese Ergebnisse<br />
<br />
<br />
<br />
<br />
an, daß zu den Zeitpunkten , , , und<br />
stimmen nicht exakt mit den Topic Beginnings überein. Es stellt sich nun die Frage, wie diese<br />
Werte zu interpretieren sind. Das Problem besteht in der Messung der Betonung über ein Zeitfenster,<br />
das sich über mehrere Sekunden erstrecken kann. Angenommen, es existiert ein Topic<br />
Beginning zum Zeitpunkt und es wurde <strong>für</strong> das Verfahren ein Zeitfenster mit einer Länge<br />
von gewählt (vergleiche Abbildung 5.1(a)). Die eigentliche Betonung wurde vom Verfahren<br />
im Superframe, der mit der 5. Sekunde beginnt, detektiert. Die Zeitfenster ¡ § und liefern<br />
einen Wert ¢ <br />
<br />
<br />
¦<br />
von¦<br />
nur¦<br />
¢¡ <br />
¢¡<br />
<br />
<br />
. Die Zeitfenster liefern den Wert . Das Verfahren sagt also, daß zum<br />
Zeitpunkt ein Topic Beginning existiert. (Es wird angenommen, daß bei mehreren aufeinanderfolgenden<br />
Betonungswerten, die größer als Null sind, der erste Wert als vorausgesagtes<br />
Topic Beginning angesehen wird.) Es besteht also eine Differenz zwischen vorausgesagtem<br />
Topic Beginning und dem tatsächlichen Ereignis. Idealerweise hätte hier die Ausgabe von<br />
als Hinweis auf ein Topic Beginning stattfinden müssen. Beträgt die Länge des Zeitfensters<br />
, dann liefern die Zeitfenster den Wert 0 (vergleiche Abbildung 5.1(b)). Erst<br />
das Zeitfenster liefert den Wert 4. Das vorausgesagte Topic Beginning tritt zum Zeitpunkt<br />
auf. Die Differenz zum tatsächlichen Topic Beginning beträgt jetzt nur noch . Dies wirft<br />
die Frage auf, wie groß die Toleranz in Abhängigkeit von der Länge des Zeitfensters sein soll und<br />
wie die Länge des Zeitfensters gewählt werden muß, damit die Ausgabe des Verfahrens sinnvoll<br />
zur Segmentierung einer Sprachdatei eingesetzt werden kann.<br />
Die eben beschriebenen Probleme betreffen die Ermittlung des Recalls <strong>für</strong> das pitchbasierte Verfahren.<br />
Das Beispiel in Tabelle 5.3 wirft ein weiteres Problem auf. Zum Zeitpunkt <br />
zeigt ¦<br />
das pitchbasierte Verfahren eine Betonung an, die eigentlich als False Alarm gewertet werden<br />
müsste. Nun könnte diese Betonung aber beispielsweise zu einem Satz gehören, der zwischen<br />
der 2. und 3. Sekunde beginnt und zwischen der 6. und 7. Sekunde endet. Dann dürfte diese Betonung<br />
nicht als FA angesehen werden. Auch hier stellt sich die Frage nach der zu gewährenden<br />
Toleranz, die eventuell <strong>für</strong> die Precision von Bedeutung sein könnte. Diese Fragen werden in<br />
Kapitel 5.3 beantwortet, wenn das Verfahren mit verschiedenen Zeitfensterlängen und unterschiedlichen<br />
Schwellwerten ausgewertet wird.
90 KAPITEL 5. EVALUATION<br />
Die folgenden Abschnitte beschäftigen sich mit der Auswertung der Ergebnisse der zu untersuchenden<br />
Verfahren. Jeder Abschnitt beginnt damit, die Begriffe Recall und Precision <strong>für</strong> das jeweilige<br />
Verfahren zu präzisieren. Im Anschluß daran werden die Auswertungsergebnisse<br />
präsentiert und interpretiert.<br />
5.2 Pausenbasierte Segmentierung<br />
Es werden nun die Ergebnisse der Auswertung des pausenbasierten Segmentierungsverfahrens<br />
PBS (vergleiche Kapitel 4.1) präsentiert. Die ausgewählten Sprachdateien wurden von diesem<br />
Verfahren <strong>für</strong> vier verschiedene ¥<br />
¢£¢ <br />
Pausen-Schwellwerte ¥<br />
¢ <br />
(keine Einschränkung,<br />
¢£¢£¢<br />
,<br />
<br />
und ) bearbeitet. Der erste Wert dient lediglich dazu, herauszufinden, ob das <br />
Verfahren<br />
überhaupt alle Topic Beginnings finden kann, unabhängig davon wie hoch die Precision ausfällt.<br />
Die drei letzten Werte fallen in den Bereich der sogenannten Juncture-Pausen, also solchen<br />
Pausen, die unter der Kontrolle des Sprechers<br />
¢£¢ <br />
<br />
liegen. Atempausen ( ) und Pausen, die<br />
durch ein (kurzes) Zögern (Hesitation) des<br />
¢£¢ ¥<br />
Sprechers<br />
¢ <br />
entstehen ), sollten ausgeschlossen<br />
werden. Ein Segment wurde genau dann als korrektes Topic Beginning angesehen,<br />
wenn die vorangehende Pausenlänge größer oder gleich dem Pausen-Schwellwert war und der<br />
¦ (¦<br />
Startzeitpunkt des Segments um maximal<br />
Beginnings gemäß der Referenzsegmentierung abwich. Andernfalls wurde das gerade betrachtete<br />
Segment als False Alarm gewertet.<br />
¥<br />
¢ vom vorgegebenen Startzeitpunkt des Topic<br />
Die Vorträge 3 und 4 (Dateien: ga300_15m.aif und ga700_15m.aif) wurden einer Nachbehandlung<br />
unterzogen, da sich beim ersten Testlauf herausstellte, daß die Aufnahmequalität dieser Aufzeichnungen<br />
sehr schlecht ist und das Segmentierungsverfahren dadurch nur ¦<br />
¤<br />
aller<br />
Topic Beginnings im Vortrag 3 fand. Im unbearbeiteten Vortrag 4 entdeckte das Verfahren nur<br />
¡§¤<br />
aller Topic Beginnings. Dies liefert einen Hinweis darauf, daß das Segmentierungsverfahren<br />
noch Schwierigkeiten mit ungünstigen Nutz- zu Rauschsignal-Verhältnissen hat.<br />
¦<br />
¦<br />
5.2.1 Ergebnisse<br />
In diesem Abschnitt werden die Resultate der Testläufe aufgeführt. Sie werden in Tabellenform<br />
präsentiert, wobei die nachfolgenden Tabellen alle nach dem selben Schema aufgebaut sind:<br />
Zeile1 enthält den Dateinamen der untersuchten Audio-Datei. Der Dateiname setzt sich<br />
aus der Abkürzung des Namens der Vorlesungsreihe, der Nummer der Vorlesung und der<br />
Länge der Audio-Datei zusammen.<br />
Beispiel: ga100_15m.aif steht <strong>für</strong> einen 15 minütigen Ausschnitt der ersten Vorlesung aus<br />
der Vorlesungsreihe Geometrische <strong>Algorithmen</strong>. Das Dateiformat ist AIFF. (Der Dateiname<br />
des Originals lautete: ga100.aif)<br />
Spalte 1 enthält einen Pausen-Schwellwert, der angibt, wie lange die zu berücksichtigende<br />
Pause mindestens sein muß. In Spalte 2 findet sich die Gesamtzahl der Topic Beginnings
5.2. PAUSENBASIERTE SEGMENTIERUNG 91<br />
(TB). Die Spalten 3 bis 5 geben die Anzahl der vom Segmentierungsverfahren erzielten<br />
Treffer (Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl<br />
der falschen Alarme (False Alarms FA) wieder. In Spalte 6 findet sich der errechnete<br />
Wert <strong>für</strong> den Recall in Prozent und Spalte 7 enthält den Wert <strong>für</strong> die Precision.<br />
Beispiel: (Zeile 2) Berücksichtigt man <strong>für</strong> die Auswertung nur die Pausen, die länger als<br />
¢ ¢ <br />
lang sind, so erreicht das Verfahren bei insgesamt 57 Topic Beginnings 37 Treffer.<br />
¥<br />
20 Topic Beginnings werden nicht gefunden und 164 mal sagt der Algorithmus einen nicht<br />
vorhandenes Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall<br />
¦§¥ von und eine Precision £ ¤<br />
von .<br />
¤<br />
Es ist anzumerken, daß die zu berücksichtigende Pausendauer kein beliebig veränderbarer Parameter<br />
ist. Die Erwartung ist, daß Sprecher Pausen ¥<br />
¢£¢ <br />
zwischen <br />
¢£¢ ¢ <br />
und einlegen, um<br />
sowohl einzelne Sätze als auch Topics voneinander abzugrenzen (vergleiche Kapitel 4.1).<br />
Ergebnisse in Tabellenform<br />
Datei: ga100_15m.aif (Sprecher 1)<br />
Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />
0.00 57 53 4 517 93 9<br />
0.50 57 37 20 164 65 18<br />
0.75 57 24 33 85 42 22<br />
1.00 57 12 45 49 21 20<br />
Datei: ga200_15m.aif (Sprecher 2)<br />
Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />
0.00 37 35 2 716 95 5<br />
0.50 37 28 9 183 76 13<br />
0.75 37 20 17 111 54 15<br />
1.00 37 13 24 69 35 16<br />
Datei: ga300_15m.aif (Sprecher 1)<br />
Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />
0.00 35 25 10 903 75 3<br />
0.50 35 19 16 274 54 6<br />
0.75 35 17 18 150 49 10<br />
1.00 35 13 22 81 37 14
92 KAPITEL 5. EVALUATION<br />
Datei: ga700_15m.aif (Sprecher 3)<br />
Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />
0.00 45 40 5 823 89 5<br />
0.50 45 29 16 201 64 13<br />
0.75 45 20 25 91 44 18<br />
1.00 45 15 30 55 33 21<br />
Durchschnitt<br />
Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( )<br />
0.00 174 153 21 2959 87.9 4.9<br />
0.50 174 113 61 822 64.9 12<br />
0.75 174 81 93 437 46.5 15.6<br />
1.00 174 53 121 254 30.4 17.2<br />
5.2.2 Interpretation der Ergebnisse<br />
Zunächst ist auffallend, daß das Segmentierungsverfahren noch nicht einmal alle Topic<br />
Beginnings findet, unabhängig von der Precision. Im Falle des dritten Vortrages erreicht das<br />
Verfahren gar nur einen Recall von ¤<br />
¤<br />
¥<br />
<br />
bei einer Precision von . Im Schnitt über alle vier<br />
untersuchten Sprachdateien ergab sich, daß nur knapp £ £ ¤<br />
¦§¥<br />
¤<br />
¦¤<br />
aller Topic Beginnings überhaupt gefunden<br />
werden konnten. Selbst wenn man sich mit einem Recall von etwa zufrieden geben<br />
könnte, muß doch angemerkt werden, daß eine Precision von nur einfach zu wenig ist, um<br />
die Ausgabe dieses Verfahrens sinnvoll nutzen zu können. Dies schließt jedoch nicht aus, daß die<br />
Daten in Kombination mit anderen Features nicht doch zu befriedigenden Ergebnissen führen<br />
könnten.<br />
Abbildung 5.2 zeigt <strong>für</strong> die vier untersuchten Sprachdateien Pausen-Histogramme. Hierzu<br />
wurde ermittelt, wie lange die Pausen vor den gefundenen, tatsächlichen Topic Beginnings sind.<br />
Es fällt auf, daß es bei keinem der Sprecher einen Wert oder Wertebereich gibt, der besonders<br />
hervorsticht. Dies macht es natürlich besonders schwierig, Topic Beginnings anhand der Pausenlänge<br />
zu bestimmen. Interessant ist ebenfalls, daß sich selbst bei gleichem Sprecher sehr unterschiedliche<br />
Häufigkeitsverteilungen ergeben (siehe Dateien: ga100_15m.aif und ga300_15m.aif).<br />
Dies drückt sich auch in den unterschiedlichen Recall- und Precision-Werte <strong>für</strong> die entsprechenden<br />
Vorträge aus.<br />
Weiterhin fällt auf, daß die Zahl der False Alarms selbst bei einer Mindestpausendauer von<br />
¢£¢ ¢ <br />
die Anzahl der Topic Beginnings weit übersteigt. Die Sprecher legen also sehr viel<br />
<br />
öfter lange Pausen ein, als man sich im Idealfall wünschen würde. Der Idealfall wäre, daß ein<br />
Sprecher nur dann lange <br />
¢£¢ ¢ <br />
) Pausen einlegt, wenn er ein neues Topic beginnt und<br />
einzelnen Sätzen eine Pause von etwa ¥ <br />
¢£¢ ¢ <br />
vorangehen läßt.<br />
(¤<br />
¢£¢
5.2. PAUSENBASIERTE SEGMENTIERUNG 93<br />
Hafigkeit Häufigkeit<br />
Hafigkeit<br />
Häufigkeit<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
Datei:<br />
Datei:<br />
ga100_15m.aif<br />
ga10015m.aif 1<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />
Pausenlnge Pausenlänge (Sek.)<br />
4<br />
3.5<br />
3<br />
2.5<br />
2<br />
1.5<br />
1<br />
0.5<br />
Datei:<br />
Datei:<br />
ga300_15m.aif<br />
ga30015m.aif 0<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />
Pausenlänge Pausenlnge (Sek.)<br />
Hafigkeit Häufigkeit<br />
Hafigkeit<br />
Häufigkeit<br />
5<br />
4<br />
3<br />
2<br />
1<br />
Datei:<br />
Datei:<br />
ga200_15m.aif<br />
ga20015m.aif 0<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />
Pausenlänge Pausenlnge (Sek.)<br />
4<br />
3.5<br />
3<br />
2.5<br />
2<br />
1.5<br />
1<br />
0.5<br />
Datei: ga70015m.aif Datei: ga700_15m.aif<br />
0<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0<br />
Pausenlnge Pausenlänge (Sek.)<br />
Abbildung 5.2: Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen<br />
Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden.
94 KAPITEL 5. EVALUATION<br />
Analyse<br />
Eine genauere Analyse der Daten ergab, daß die häufigen False Alarms in der Regel durch<br />
folgende Situationen zustande kamen:<br />
Die Sprecher legen weder vor neuen Topics, noch vor neuen Sätzen, einheitlich lange Pausen<br />
ein. Dadurch ist es nicht möglich, anhand der Pausendauer auf Topic Beginnings zu<br />
schließen.<br />
Aktionen am elektronischen Whiteboard führen in aller Regel zu langen Sprechpausen,<br />
nicht nur zwischen einzelnen Sätzen, sondern auch innerhalb eines Satzes.<br />
Die Dozenten versprechen sich oder ihr Redefluß stockt. Diese Fehler werden auch<br />
disfluencies genannt. Beispiele hier<strong>für</strong> sind:<br />
Typ Beispiel<br />
gefüllte Pause er äh . . . mochte es<br />
Wiederholung er . . . er mochte es<br />
Reparatur er . . . sie mochte es<br />
falscher Start es war. . . er mochte es<br />
Der erste Punkt ist dem gewollten Live-Charakter der Aufzeichnung zuzuschreiben und läßt sich<br />
nicht vermeiden.<br />
Der zweite Punkt hängt mit der Art des Vorlesungsdarbietung zusammen. Im vorliegenden Datenmaterial<br />
benutzen die Vortragenden das elektronische Whiteboard <strong>für</strong> ihre Vorträge. Die Verwendung<br />
dieses Whiteboards führte zu häufigen, unfreiwilligen Unterbrechungen im Redefluß.<br />
Es wurden aber auch Animationen abgespielt, die die Sprecher nur spärlich kommentierten.<br />
Da das Segmentierungsverfahren keine Kenntnis davon hat, zu welchen Zeitpunkten Aktionen<br />
am Whiteboard ausgeführt wurden, gehen die dadurch entstandenen Pausen negativ in die Bewertung<br />
ein.<br />
Disfluencies treten zum einen kontextbedingt, aber auch sprecherabhängig auf. Beispielsweise<br />
ist von einem Nachrichtensprecher zu erwarten, daß solche Unterbrechungen nicht vorkommen.<br />
Im Falle von freier Rede ist man diesbezüglich sicherlich toleranter. Für die automatische Erkennung<br />
von Topic Beginnings ist dies natürlich trotzdem ein Problem. Es existieren allerdings<br />
Forschungsansätze, die sich mit der Erkennung der disfluencies beschäftigen und zu guten Erkennungsraten<br />
führen [31]. Nachteil dieser Verfahren ist, daß sie auf statistischen Modellen beruhen<br />
und somit eine große Menge an Trainings- und Testdaten benötigen. Diese zu erstellen , ist<br />
mit sehr hohem Zeitaufwand verbunden. Zudem hat man mit der Erkennung und möglicherweise<br />
Beseitigung der disfluencies nur einen kleinen Teil der Probleme beseitigt.
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95<br />
Fazit<br />
Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor<br />
allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren<br />
insbesondere <strong>für</strong> die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die<br />
Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der<br />
Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie-<br />
Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der<br />
Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten<br />
Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen<br />
sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren<br />
zu schlechten Resultaten.<br />
In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus<br />
dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien<br />
sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen<br />
einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer<br />
bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann.<br />
5.3 Emphasis-Detection-basierte Segmentierung<br />
Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche<br />
4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden<br />
Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨<br />
, ¦ , £ ¥ <br />
und und unterschiedlichen Pitch-Schwellwerten<br />
¢ £¤<br />
( <br />
¤<br />
,<br />
¤<br />
, ¥<br />
¤<br />
und £ ¤<br />
) getestet.<br />
Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift <strong>für</strong> Recall<br />
und Precision zu finden, insbesondere <strong>für</strong> Fensterlängen<br />
,¦ ¦. Dieses Problem wurde bereits<br />
im Abschnitt 5.1 angedeutet.<br />
¨©¤<br />
STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase<br />
eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht<br />
zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt,<br />
ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2<br />
deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤<br />
und einen<br />
von¦ ¥<br />
¤<br />
Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise<br />
False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen<br />
wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam.<br />
Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere<br />
bei den in dieser Arbeit untersuchten Sprachdateien, wurde <strong>für</strong> die Evaluation ein wesentlich<br />
strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht<br />
wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ <br />
¦©<br />
und<br />
¨ <br />
den Pitch-Schwellwerten © <br />
¤<br />
¡ ¨<br />
¨ <br />
¤ £ ¤§©<br />
untersucht.<br />
¤<br />
¤ ¦ ¤ ¥
96 KAPITEL 5. EVALUATION<br />
dsaas<br />
§ ¨ ¢¡¤£¦¥¤¨§ ¨ ¢¡¤£¦¥¤¨§¨ © (Sek.) Klassifikation<br />
<strong>für</strong>§ ¡ ¦ <br />
1 ¡<br />
2 ¡<br />
¡<br />
¡<br />
© §§ £ £<br />
H © £ £<br />
H §§<br />
<br />
FA £<br />
FA<br />
<br />
<br />
£ ©<br />
£<br />
£ © <br />
© §§ £ £<br />
H © £ £<br />
H<br />
£ £ © §§ FA<br />
¦<br />
£ © £ FA<br />
¦<br />
¦¦ Tabelle 5.4: Klassifikationsvorschrift <strong>für</strong> das EDBS<br />
Sei das tatsächliche Topic Beginning, angegeben in Sekunden. Hits (H) und False Alarms<br />
(FA) sind nun entsprechend der Tabelle 5.4 definiert. Angenommen, die Fensterlänge beträgt<br />
<br />
. Ein Betonungswert ¤<br />
¢ <br />
<br />
wird genau dann als Hit klassifiziert, wenn<br />
¨<br />
¢ <br />
<br />
<br />
¢<br />
und ¤<br />
¢ <br />
¢<br />
¤<br />
und das tatsächliche Topic Beginning mit dem<br />
Startzeitpunkt ¤ im Intervall <br />
<br />
liegt. (Die Variable wird ohne Maßeinheit verwendet.<br />
<br />
Da bei der Formalisierung des Verfahrens in Kapitel 4.2 davon ausgegangen wurde,<br />
¤<br />
daß und<br />
¨ nur ganzzahlige Werte annehmen, soll<br />
eine Zeitvariable (in Sek.) darstellen). Andernfalls<br />
<br />
wird der Betonungswert als False Alarm gewertet. Die Zeilen 2,4,6 und 8 decken den Spezialfall<br />
des Dateianfangs ab.<br />
<br />
5.3.1 Ergebnisse<br />
Jeder Vortrag wurde bezüglich zweier Fragestellungen untersucht. Die erste Untersuchung ging<br />
der Frage nach, wieviele tatsächliche Topic Beginnings das Verfahren findet und wie hoch die Genauigkeit<br />
dabei ist. Dazu wurden die bereits in Kapitel 5.1 eingeführten Metriken <strong>für</strong> Recall und<br />
Precision verwendet. Die Ergebnisse <strong>für</strong> diese Fragestellung werden jeweils in der ersten Tabelle<br />
wiedergegeben. Die zweite Untersuchung galt der Frage, ob das Verfahren bestimmte Segment-<br />
Levels besonders gut erkennt. Bei der Zuordnung der Topic Beginnings zu Segment-Levels ergibt<br />
sich ein Spezialfall: Gilt <strong>für</strong> ein Topic Beginning, daß Level und Level zusammenfallen,<br />
so wird dieses Topic Beginning beiden Levels zugeordnet. Wenn also beispielsweise bei einem<br />
Topic Beginning die Levels und zusammenfallen, so geht dieses Topic Beginning sowohl<br />
bei der Wertung auf dem Level 2 als auch bei der Wertung auf dem Level 3 ein. Bei dieser<br />
Untersuchung wurde nur der Recall ermittelt. Die Ergebnisse finden sich in der jeweils zweiten<br />
Tabelle.
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 97<br />
Die jeweils erste Tabelle ist nach einem ähnlichem Schema wie im vorangegangenen Abschnitt<br />
5.2 aufgebaut:<br />
Die Spalten 1 bis 6 repräsentieren die ¨ Fensterlänge , den Pitch-Schwellwert, die Anzahl<br />
der tatsächlichen Topic Beginnings TB, die Anzahl der vom Verfahren erzielten Treffer<br />
(Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl der<br />
falschen Alarme (False Alarms FA). In Spalte 7 findet sich der errechnete Wert <strong>für</strong> den<br />
Recall und Spalte 8 enthält den Wert <strong>für</strong> die Precision.<br />
Beispiel: (Zeile 6) Die Fensterlänge beträgt <br />
¦, der Pitch-Schwellwert wird auf¦<br />
¤<br />
¨<br />
festgelegt. Das Verfahren erreicht bei insgesamt 57 Topic Beginnings 18 Treffer. 39 Topic<br />
Beginnings werden nicht gefunden und 34 mal sagt der Algorithmus ein nicht vorhandenes<br />
Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall ¦¤<br />
von und<br />
eine Precision ¥ von .<br />
Die jeweils zweite Tabelle hat den folgenden Aufbau:<br />
¤<br />
Spalte 1 enthält die Fensterlänge ¨ und in Spalte 2 den Pitch-Schwellwert. Die Spalten<br />
3 bis 9 repräsentieren die Recall-Werte <strong>für</strong> die verschiedenen Segment-Levels.<br />
Vortrag 1 (Datei: ga100_15m.aif)<br />
Der erste Vortrag ließ sich in 57 Topic Beginnings unterteilen, die sich auf 7 Level verteilen.<br />
Deutlich ist der Unterschied zwischen den Werten <strong>für</strong> die verschiedenen Fensterlängen ¨<br />
zu sehen. Sowohl Recall- als auch Precision-Werte sind <strong>für</strong> die Fensterlänge <br />
<br />
¨ deutlich<br />
höher. Es wird auch deutlich, daß die Recall-Werte mit größerem Pitch-Schwellwert zunehmen.<br />
Allerdings folgen die Precision-Werte nicht dem Beispiel der Recall-Werte. Im Fall von<br />
¨<br />
<br />
variieren die Precision-Werte nur um .<br />
¦<br />
¨ §<br />
1 1 57 4 53 32 7 11<br />
Thresh. (%) TB H M FA Recall (%) Precision (%)<br />
2 57 7 50 58 12 11<br />
5 57 10 47 77 18 11<br />
8 57 14 43 100 25 12<br />
2 1 57 10 47 24 18 29<br />
2 57 18 39 34 32 35<br />
5 57 21 36 48 37 30<br />
8 57 28 29 53 49 35<br />
Betrachtet man die zweite Tabelle, so ist zunächst der Totalausfall <strong>für</strong> das Segment-Level 4 bei<br />
¨<br />
<br />
bemerkenswert, welcher über alle Pitch-Schwellwerte hinweg reicht. Eine scheinbare<br />
<br />
¤
98 KAPITEL 5. EVALUATION<br />
Präferenz des Verfahrens gibt es bei dieser Fensterlänge allenfalls <strong>für</strong> das Level 2, allerdings auch<br />
nur bei den ¥<br />
¤<br />
Pitch-Schwellwerten und £ . Für<br />
¤ <br />
<br />
¨ und ¦ © <br />
¤<br />
¤ £ ¤§©<br />
¤<br />
erhält man den maximalen Recall beim Segment-Level 4.<br />
¡ ¨ ¨¦¤ ¥<br />
¨ §<br />
(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7<br />
Thresh. Recall (%)<br />
1 1 0 0 5 0 14 7 13<br />
2 0 14 16 0 14 13 0<br />
5 25 43 16 0 14 13 13<br />
8 5 57 21 0 14 20 25<br />
2 1 0 14 11 0 29 33 25<br />
2 25 43 37 50 43 33 13<br />
5 25 57 42 75 43 33 38<br />
8 25 57 53 75 57 47 63<br />
Vortrag 2 (Datei: ga200_15m.aif)<br />
Für diese Vorlesungsaufzeichnung wurden 37 Topic Beginnings ermittelt, die sich auf 5 Segment-<br />
Levels verteilen. Auffallend ist hier im Vergleich zum ersten Vortrag, daß die Precision-Werte<br />
insgesamt niedriger sind und nahezu unabhängig von den Pitch-Schwellwerten. Zudem ergibt<br />
sich bei Verdopplung von auch nur eine ungefähre Verdopplung der Precision, während<br />
¨<br />
man beim ersten Vortrag in etwa eine Verdreifachung erhielt. Die Recall-Werte sind <strong>für</strong> <br />
<br />
¨<br />
etwas höher als beim ersten Vortrag, <strong>für</strong> <br />
<br />
¨ ergibt sich ein ausgeglicheneres Bild. ¦<br />
¨ §<br />
1 1 37 4 33 54 11 7<br />
Thresh. (%) TB H M FA Recall (%) Precision (%)<br />
2 37 6 31 78 16 7<br />
5 37 8 29 107 22 7<br />
8 37 11 26 131 30 8<br />
2 1 37 7 30 41 19 15<br />
2 37 13 24 66 35 16<br />
5 37 13 24 74 35 15<br />
8 37 16 21 90 43 15<br />
Bei diesem Vortrag erkennt das Verfahren auf den ersten beiden Segment-Levels <strong>für</strong> die gewählten<br />
Fensterlängen und die unterschiedlichen Pitch-Schwellwerte kein einziges TB. Eine
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 99<br />
scheinbare Präferenz gibt es <strong>für</strong> das Segment-Level 4. Dies deckt sich <strong>für</strong> ¨<br />
Erkenntnissen aus dem ersten Vortrag.<br />
Vortrag 3 (Datei: ga300_15m.aif)<br />
¨ § <br />
(%) Level 1 Level 2 Level 3 Level 4 Level 5<br />
Thresh. Recall (%)<br />
1 1 0 0 8 20 0<br />
2 0 0 8 33 0<br />
5 0 0 8 33 20<br />
8 0 0 8 33 40<br />
2 1 0 0 8 27 20<br />
2 0 0 8 53 40<br />
5 0 0 8 53 40<br />
8 0 0 15 53 50<br />
¦<br />
mit<br />
den<br />
Die manuelle Segmentierung dieses Vortrages ergab 35 Topic Beginnings, die sich auf 7 Segment-<br />
Levels verteilen. Die Precision-Werte <strong>für</strong> <br />
<br />
liegen nochmals unter denen des zweiten<br />
¨<br />
Vortrages. Für <br />
¨ variieren die Precision-Werte zwischen ¦ £¤ ¤<br />
, allerdings sind<br />
und¦<br />
auch diese Werte <strong>für</strong> die automatische Erstellung einer Segmentierung und <strong>für</strong> die weitere Verarbeitung<br />
inakzeptabel. Interessant ist noch die Tatsache, daß zwar die Sprecher der Vorträge 1<br />
und 3 übereinstimmen, es aber trotzdem zu sehr unterschiedlichen Ergebnissen kommt.<br />
¨ §<br />
1 1 35 2 33 48 6 4<br />
Thresh. (%) TB H M FA Recall (%) Precision (%)<br />
2 35 4 31 76 11 5<br />
5 35 8 27 131 23 6<br />
8 35 12 23 144 34 8<br />
2 1 35 3 32 41 9 7<br />
2 35 7 28 60 20 10<br />
5 35 16 19 83 46 16<br />
8 35 21 14 81 60 21<br />
Auch hier ist wieder ein Totalausfall auf den ersten beiden Segment-Levels zu verzeichnen, wenn<br />
man vom Fall <br />
¦, ¨<br />
© £ ¤<br />
absieht. Zudem erkennt das Verfahren bei diesem Vortrag<br />
¤<br />
keine Topic Beginnings auf dem Segment-Level 7. Eine eindeutige Präferenz zugunsten eines
100 KAPITEL 5. EVALUATION<br />
Segment-Levels gibt es bei diesem Vortrag nicht. Für <br />
¨<br />
Level 5, bei <br />
¨ erhält man das Maximum <strong>für</strong> Level 3. ¦<br />
ergibt sich der Maximalwert <strong>für</strong><br />
¨ §<br />
(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7<br />
Thresh. Recall (%)<br />
1 1 0 0 0 0 22 0 0<br />
2 0 0 0 22 22 0 0<br />
5 0 0 33 22 33 33 0<br />
8 0 0 50 33 56 33 0<br />
2 1 0 0 0 0 22 0 0<br />
2 0 0 0 33 33 0 0<br />
5 0 0 67 56 56 33 0<br />
8 33 0 83 67 78 33 0<br />
Vortrag 4 (Datei: ga700_15m.aif)<br />
Der vierte und letzte Vortrag enthält 45 Topic Beginnings, die auf 5 Segment-Level verteilt sind.<br />
Wenngleich die Precision-Werte etwas höher sind, als beim Vortrag 3, so sind sie dennoch<br />
durchweg auf niedrigem Niveau. Auffallend ist dennoch die Konstanz der Precision-Werte <strong>für</strong><br />
¨<br />
<br />
¦. <br />
¨ §<br />
1 1 45 2 43 47 4 4<br />
Thresh. (%) TB H M FA Recall (%) Precision (%)<br />
2 45 7 38 74 16 9<br />
5 45 17 28 124 38 12<br />
8 45 16 29 147 36 10<br />
2 1 45 10 35 35 22 22<br />
2 45 14 31 49 31 22<br />
5 45 22 23 79 49 22<br />
8 45 22 23 83 49 21<br />
Auch bei diesem Vortrag ergibt sich keine eindeutige Präferenz des Verfahrens zugunsten eines<br />
bestimmten Segment-Levels. Für <br />
<br />
¨ erhält man Maximalwerte bei Segment-Level 4. Einen<br />
Totalausfall auf den ersten beiden Levels gibt es wie bei den Vorträgen 2 und 3 nicht.<br />
¦
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 101<br />
¨ § <br />
(%) Level 1 Level 2 Level 3 Level 4 Level 5<br />
Thresh. Recall (%)<br />
1 1 25 0 0 0 8<br />
2 50 11 10 11 8<br />
5 50 33 40 44 38<br />
8 50 44 30 33 31<br />
2 1 50 22 30 22 15<br />
2 50 22 40 33 23<br />
5 50 33 50 67 54<br />
8 50 33 50 67 54<br />
Ergebnisse als Recall/Precision-Diagramme<br />
Die Diagramme in Abbildung 5.3.1 zeigen sogenannte Recall/Precision-Diagramme <strong>für</strong> die Resultate<br />
des EDBS-Verfahrens. Es ist deutlich zu sehen, daß eine Erhöhung des Pitch-Schwellwerts<br />
zwar in der Regel zu höheren Recall-Werten führt (Ausnahme: Vortrag 4, <br />
<br />
), allerdings<br />
¨<br />
steigt der Precision-Wert nicht in gleichem Maße und bleibt auf niedrigem Niveau.<br />
Precision<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
’Vortrag 1’<br />
’Vortrag 2’<br />
’Vortrag 3’<br />
’Vortrag 4’<br />
0<br />
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7<br />
Recall<br />
(a) Recall/Precision-Diagramm <strong>für</strong> ¢¡¤£ ¡<br />
Precision<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
’Vortrag 1’<br />
’Vortrag 2’<br />
’Vortrag 3’<br />
’Vortrag 4’<br />
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7<br />
Recall<br />
(b) Recall/Precision-Diagramm <strong>für</strong> ¥¡¦£ <br />
Abbildung 5.3: Recall/Presision-Diagramme <strong>für</strong> die Ergebnisse aus Kapitel 5.3.1<br />
5.3.2 Interpretation der Ergebnisse<br />
Die Ergebnisse zeigen, daß bei der Fragestellung, wieviele Topic Beginnings gefunden werden<br />
und mit welcher Genauigkeit dies geschieht, ein maximaler Recall ¦<br />
¢§¤<br />
von erreicht wird. Allerdings<br />
erhält man nur eine von¦<br />
¤<br />
Precision . Somit entspricht nur jedes fünfte vom Verfahren<br />
vorhergesagte Topic Beginning einem tatsächlichem Topic Beginning. Bestenfalls wurde eine
102 KAPITEL 5. EVALUATION<br />
Precision ¥<br />
¤<br />
von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende<br />
Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu<br />
geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic<br />
Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer<br />
¦<br />
¢£¤<br />
maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch<br />
vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt.<br />
Dies ist dem Benutzer nicht zuzumuten.<br />
Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet,<br />
ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall<br />
auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger<br />
mit einer leichten Präferenz zum Segment-Level 4 hin.<br />
Nun stellt sich die Frage, welche Gründe es <strong>für</strong> die schlechten Ergebnisse gibt. Die Idee, die<br />
diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es<br />
Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren <strong>für</strong> Topic Beginnings<br />
sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu<br />
schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen<br />
in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den<br />
Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen<br />
aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den<br />
vorliegenden Sprachdateien folgende Vorteile:<br />
1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze<br />
Pausen) klar trennen.<br />
2. Die obengenannten disfluencies sollten nicht vorkommen.<br />
3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen,<br />
sollten bei Nachrichtensendungen nicht der Fall sein.<br />
4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten<br />
absieht.<br />
5. Die Aufnahmequalität ist besser.<br />
Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur<br />
<strong>für</strong> die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen<br />
auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei<br />
Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten<br />
Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen<br />
gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser<br />
Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge<br />
gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden<br />
Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt
5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 103<br />
oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein<br />
vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen.<br />
Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen<br />
führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung<br />
zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich.<br />
Ein weiterer Grund <strong>für</strong> die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar<br />
nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem<br />
Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist<br />
die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies<br />
spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien<br />
der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen.<br />
Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe,<br />
die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren<br />
Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab<br />
bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen<br />
nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden)<br />
ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus<br />
zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1<br />
angeführten Probleme nach sich ziehen.<br />
Fazit<br />
Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden<br />
Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic<br />
Beginnings macht das Verfahren in dieser Form, <strong>für</strong> diesen Zweck und insbesondere <strong>für</strong> die<br />
untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren<br />
wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse<br />
finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser<br />
Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.
Kapitel 6<br />
Zusammenfassung und Ausblick<br />
Erklärtes Ziel dieser Arbeit war die Evaluation zweier Segmentierungsverfahren hinsichtlich<br />
ihrer Nutzbarkeit <strong>für</strong> die automatische Segmentierung vorhandener sowie zukünftiger Vorlesungsaufzeichnungen.<br />
Die untersuchten Verfahren wurden ausgewählt, weil sie nicht auf statistischen<br />
Modellen beruhen, welche beispielsweise durch neuronale Netze oder Hidden-Markov-Modelle<br />
realisiert werden können. Segmentierungsverfahren, die auf solchen Modellen beruhen,<br />
haben den entscheidenden Nachteil, daß sie trainiert werden müssen. Dazu muß zunächst<br />
eine große Menge von Trainingsdaten (von Hand) erstellt werden. Das resultierende statistische<br />
Modell kann dann wiederum mit Testdaten überprüft werden, die unter Umständen auch wieder<br />
manuell zu erstellen sind. Dies bedeutet einen großen Zeitaufwand <strong>für</strong> die Erstellung der<br />
Trainings- und Testdaten. Zudem ist die Zusammenstellung dieser Datenmengen unter Umständen<br />
kritisch, wenn nicht ausreichend große Datenmengen zur Verfügung stehen. Was man<br />
sich nun wünschen würde, wäre ein Verfahren, das ohne jegliche Vor- und Nachbearbeitung angewendet<br />
werden könnte.<br />
In Kapitel 4 wurden zwei <strong>Algorithmen</strong> vorgestellt, die ohne statistische Modelle auskommen<br />
und von anderen Projekten in ähnlicher Form erfolgreich eingesetzt wurden [4][16]. Die technischen<br />
Grundlagen <strong>für</strong> diese <strong>Algorithmen</strong> wurden in den Kapiteln 2 und 3 erläutert. Die <strong>Algorithmen</strong><br />
wurden in der Programmiersprache C++ auf einem PC unter dem Betriebssystem LinuX<br />
implementiert. Die Implementierung wurde so vorgenommen, daß eine Portierung auf andere<br />
Betriebssysteme leicht möglich ist. Es wurde großer Wert auf Wiederverwendbarkeit gelegt, so<br />
daß bei weitergehenden Forschungen auf die vorhandenen Funktionen zurückgegriffen werden<br />
kann.<br />
Die Aus- und Bewertung der vorgestellten pausenbasierten Segmentierung (PBS) und der pitchbasierten<br />
Segmentierung (EDBS) ergab, daß die Verfahren in dieser Form und <strong>für</strong> die exakte<br />
Segmentierung von Vorlesungsaufzeichnungen nicht zu befriedigenden Ergebnissen führen (vergleiche<br />
Kapitel 5). Vor allen Dingen die mangelnde Präzision der <strong>Algorithmen</strong> verhindert die<br />
sinnvolle Nutzung dieser Segmentierungsverfahren <strong>für</strong> den angesprochenen Zweck. Dies schließt<br />
allerdings nicht aus, daß diese Verfahren nicht <strong>für</strong> andere Verwendungszwecke geeignet sein<br />
könnten. ARONS entwickelte EDBS, um Zusammenfassungen aus Sprachdateien erstellen und<br />
104
ein schnelles Navigieren innerhalb der Sprachdatei zu ermöglichen. Hier<strong>für</strong> ist es nicht<br />
zwingend notwendig, exakte Zeitpunkte der Topic Beginnings zu finden. STIFELMAN bescheinigte<br />
dem Verfahren in einer Untersuchung eine hohe Precision ( £¦¤<br />
) und einen niedrigen Recall<br />
¥<br />
¤<br />
). Diese Ergebnisse konnten nicht nachvollzogen werden. Dies liegt vor allen Dingen an<br />
den unterschiedlichen Meßmethoden (siehe Kapitel 5.3).<br />
(¦<br />
Die vorliegende Untersuchung zeigt, daß es mit einfachen Mitteln sehr schwierig ist, die untersuchte<br />
Klasse von Sprachdateien zu segmentieren. Die Resultate <strong>für</strong> die Radio-Nachrichtensendungen<br />
(vergleiche Anhang B) belegen, daß die untersuchten Verfahren sehr wohl eine brauchbare<br />
Segmentierung liefern können, wobei das EDBS-Verfahren auch auf diesen Daten sprecherabhängige<br />
Resultate liefert.<br />
Wie bereits mehrfach erwähnt, gibt es Forschungsansätze <strong>für</strong> die Segmentierung, die mit<br />
statistischen Modellen oder auch mit Data Mining/Machine-Learning-Techniken arbeiten.<br />
Auch diese Arbeiten verwenden als Audio-Features hauptsächlich Pausen und Informationen,<br />
die sich aus der Satzmelodie ergeben. Die Berechnung dieser Features ist mit der <strong>für</strong> diese<br />
Diplomarbeit entwickelten C++-Bibiliothek leicht möglich. Es wurde ein Programm entwickelt,<br />
das verschiedene Audio-Features wie beispielsweise Pausenlänge, Energie und diverse Pitch-<br />
Features <strong>für</strong> Sprachsegmente im ARFF-Datenformat ausgibt, welches von der WEKA-Bibiothek<br />
verarbeitet werden kann. Die WEKA-Bibliothek ist ein JAVA-Tool, das diverse Data Mining und<br />
Machine-Learning <strong>Algorithmen</strong> zur Verfügung stellt [38]. HIRSCHBERG, NAKATANI [18] sowie<br />
SHRIBERG ET. AL [32] verwenden beispielsweise erfolgreich Klassifikations- und<br />
Regressionsbäume (CART) in ihren Projekten. Allerdings muß auch hierbei wieder die von<br />
diesen Autoren verwendete Datenbasis in Betracht gezogen werden. Ob ein auf Data Mining/<br />
Machine-Learning-Techniken basierender Ansatz <strong>für</strong> die Segmentierung von Vorlesungsaufzeichnungen<br />
zu besseren Resultaten führt, ist zwar anzuzweifeln, jedoch nicht ausgeschlossen.<br />
105
Anhang A<br />
Beispiel einer Text-Transkription<br />
Text-Transkription<br />
Der untenstehende Text zeigt einen Auszug aus einer Text-Transkription zu einer der untersuchten<br />
Aufzeichnungen. Diese Transkription repräsentiert eine wortwörtliche Niederschrift des Gesprochenen.<br />
Allerdings wurden in dieser Transkription disfluencies vom Typ gefüllte Pause (beispielsweise<br />
„. . . äh. . . “) nicht berücksichtigt. Die Gliederung (discourse structure) orientiert sich<br />
an der Arbeit von STIFELMAN [35]. Sehr schön sind in diesem Auszug die in Kapitel 5.2.2 erwähnten<br />
übrigen disfluencies zu erkennen. Zu Beginn des Abschnitts 3 erfolgt eine Reparatur:<br />
„. . . <strong>für</strong> dieses . . . diese heutige . . . “. Abschnitt 3.1.2 beginnt mit einem falschen Start: „Das ist<br />
. . . da stellt . . . “. Darüberhinaus lassen sich im Abschnitt 3.1.3.2 sehr gut die Auswirkungen der<br />
Benutzung des elektronischen Whiteboards erkennen. Es kommt nicht nur zu längeren Pausen,<br />
sondern auch zu weiteren disfluencies: „. . . Dann geht er zu einer . . . bewegt er sich diese. . . “<br />
(Reparatur), „. . . kleines Beispiel wie . . . wie man dieses. . . “ (Wiederholung).<br />
[1<br />
]1<br />
[2<br />
Ja, schönen guten Tag. Ich werde also heute berichten<br />
über ein Problem, das überschrieben ist mit Polygontriangulation<br />
und ich werde das in drei Teile unterteilen.<br />
[2.1<br />
In einem ersten Schritt möchte ich ein Anwendungsproblem<br />
skizzieren, bei dem die Triangulation von<br />
Polygonen mit Vorteil genutzt werden kann, um dieses<br />
Anwendungsproblem zu lösen.<br />
]2.1<br />
[2.2<br />
Dann werde ich in einem zweiten Teil zeigen, wie man<br />
ein Polygon - ein einfaches Polygon - in einfachere<br />
Stücke zerschneiden kann, also daß die Triangulation<br />
auch einfacher wird.<br />
]2.2<br />
106
]2<br />
[3<br />
[2.3<br />
Und ich werde dann im dritten Teil die Triangulation<br />
dieser einfacheren Stücke besprechen.<br />
]2.3<br />
Also möchte ich zunächst mit dem Anwendungsproblem, das den<br />
Hintergrund <strong>für</strong> dieses ... diese heutige Vorlesung bietet,<br />
beginnen. Ich hatte bereits in der Einleitung, als es darum<br />
ging, darüber zu sprechen, was <strong>für</strong> mögliche Anwendungsgebiete<br />
es gibt, in denen algorithmische Probleme auftreten, das<br />
Art-Gallery-Problem erwähnt.<br />
[3.1<br />
[3.1.1<br />
Das ist hier nochmal durch das Bild dargestellt. Dieses<br />
Art-Gallery-Problem ist als das Problem, etwa ein<br />
Museum zu überwachen, indem man dort Kameras oder von<br />
mir aus auch Personen als Wächter positioniert ... die<br />
eben das ganze Museum übersehen können.<br />
]3.1.1<br />
[3.1.2<br />
Das ist ... da stellt sich natürlich die Frage, was die<br />
minimale Anzahl von solchen Wächtern oder Kameras sein<br />
könnte und das ist ein Problem, das natürlich in dem<br />
Sinne von einer praktischen Bedeutung ist.<br />
]3.1.2<br />
[3.1.3<br />
Nun, man kann das Problem auch etwas dynamisieren. Man<br />
könnte sich auch vorstellen, man hat einen Roboter, der<br />
läuft durch dieses Gebiet - durch diese Art-Gallery - und<br />
er möchte abends sozusagen alles, wenn alle Leute bereits<br />
gegangen sind, überwachen und möglichst einen kurzen Weg<br />
in der Art-Gallery - in diesem Museum - zurücklegen, um<br />
das Ganze einsehen zu können.<br />
[3.1.3.1<br />
Nun, der ... ein solcher Roboter, wie er zu sehen ist,<br />
der sieht nur einen Ausschnitt des ganzen Geländes, das<br />
sogenannte Sichtbarkeitspolygon. Und wie sich dieses<br />
Sichtbarkeitspolygon ändert, wenn der Roboter sich durch<br />
dieses Museum bewegt, das ist zu sehen in einem Film, der<br />
hier markiert ist.<br />
]3.1.3.1<br />
[3.1.3.2<br />
Ich will diesen Film, diesen kurzen MPEG-Film mal laufen<br />
lassen ... Das ist also vielleicht ganz nett. Da sehen<br />
Sie ... ah, hier sieht man wieder, daß man also da hinein<br />
gehen muß, damit die Farben stimmen. Also hier sehen Sie,<br />
wie der Roboter so langsam das Museum einsehen kann. Dann<br />
geht er zu einer ... bewegt er sich diese Strecke hier<br />
entlang und sieht ein anderes Stück usw. Das ist also ein<br />
Beispiel da<strong>für</strong>, wie sich sozusagen aus dem Blickwinkel des<br />
107
108 ANHANG A. BEISPIEL EINER TEXT-TRANSKRIPTION<br />
Roboters die Landschaft ändert, die er einsehen kann. So<br />
da ist der Film schon zu Ende. Nur ein kleines Beispiel<br />
wie ... wie man dieses Überwachungsproblem lösen könnte.<br />
]3.1.3.2<br />
]3.1.3<br />
[3.1.4 ...<br />
Auswertungstabelle<br />
Die folgende Tabelle A.1 gibt die Auswertung <strong>für</strong> die Gliederung der obigen Text-Transkription<br />
wieder. Spalte 1 enthält die Gliederungsnummern und kurze Überschriften. In Spalte 2 kann der<br />
Startzeitpunkt des betreffenden Abschnitts in der Sprachdatei abgelesen werden. Die Spalten 3<br />
bis 10 geben die Treffer des EDBS-Verfahren <strong>für</strong> verschiedene Pitch-Schwellwerte<br />
unterschiedliche Fensterlängen ¨ wieder. Die letzte Spalte enthält die Dauer der Pause, die<br />
dem betreffenden Abschnitt vorangeht. Ein fehlender Wert in einer Zeile, in der ein Startzeitpunkt<br />
existiert, bedeutet, daß vor diesem Abschnitt keine Pause festgestellt werden konnte.<br />
¢£¢<br />
¢ ¥ und
Gliederung SZ 1% 2% 5% 8% PD<br />
(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s (Sek.)<br />
1 Begrüßung 0,00 0,00<br />
2 Gliederung<br />
2.1 Anwendungsproblem 12,52 0,09<br />
2.2 Zerlegung e. Polygons 23,18 2,07<br />
2.3 Triangulation 32,99 0,51<br />
3 Anwendungsproblem 39,99 + 1,07<br />
3.1 Art-Gallery-Problem<br />
3.1.1 Defintion 59,95 + + 1,30<br />
3.1.2 min. Anzahl von Polyg. 82,96 + + 0,90<br />
3.1.3 Dynamisierung 95,26 + + 1,10<br />
3.1.3.1 Sichtbarkeitspolygon 116,54 +<br />
3.1.3.2 MPEG-Film 138,54<br />
3.1.4 Verallgemeinerung 176,72 + + + + 1,13<br />
3.1.4.1 Modellvorstellung 186,88 + + 1,14<br />
3.1.4.2 Postierung d. Wächter 1 202,27 + + 0,50<br />
3.1.4.3 Postierung d. Wächter 2 240,48 2,70<br />
3.1.4.4 Postierung d. Wächter 3 251,94 + + + + + + 0,84<br />
3.1.4.5 Postierung d. Wächter 4 275,98 + + + + 1,44<br />
3.1.5 Färbung 287,33 + + + + 0,75<br />
3.1.6 Triangulation einf. Poly. 321,11 1,23<br />
3.1.6.1 Satz 332,47 0,33<br />
3.1.6.2 Beweisskizze 346,76 + + + + 1,40<br />
3.1.6.2.1 Induktionsanfang 355,30 0,16<br />
3.1.6.2.2 Induktionsschritt 382,51 + + 0,24<br />
3.1.6.2.2.1 Fall 1 443,70 + + + + 1,23<br />
3.1.6.2.2.2 Fall 2 490,91 0,49<br />
3.1.6.2.2.2.1 Anzahl der Dreiecke 579,32<br />
3.1.6.2.2.3 Schlußbemerkung 663,57 0,65<br />
3.1.6.3 Triangulation 678,14 + + + + + + 2,52<br />
3.1.6.3.1 Spezialfall 691,95 + + +<br />
3.1.6.3.2 Allgemein 750,89 + +<br />
3.1.6.3.3 Wiederh. d. Arguments 802,18 + + + + + + + +<br />
3.1.6.3.3.1 Beispiel 826,00<br />
3.1.6.3.4 Zwischenbemerkung 844,13 + + + + + + + + 0,86<br />
3.1.6.3.5 Wiederh. d. Ausgangspro. 856,44 + +<br />
3.1.6.3.6 Veranschaulichung 891,26 + + + +<br />
insgesamt 35 2 3 4 7 8 16 12 21 25<br />
Recall in % 6 9 11 20 23 46 34 60 75<br />
FA 48 41 76 60 131 83 144 81<br />
Precision in % 4 7 5 10 6 16 8 21<br />
Tabelle A.1: Auswertungstabelle <strong>für</strong> die Datei ga300_15m,.aif<br />
109
Anhang B<br />
Segmentierung am Beispiel einer<br />
Radio-Nachrichtensendung<br />
Daß die in dieser Diplomarbeit vorgestellten <strong>Algorithmen</strong> durchaus zu besseren Ergebnissen führen<br />
können, soll anhand der Aufzeichnung zweier Radio-Nachrichtensendungen demonstriert<br />
werden. Es handelt sich hierbei um eine etwa zweiminütige und eine etwa fünfminütige Aufnahme,<br />
die mit handelsüblichen HiFi-Komponenten erstellt wurden. Auch von diesen Aufzeichnungen<br />
wurden Text-Transkriptionen erstellt und anschließend anhand dieser manuell segmentiert.<br />
Es stellte sich heraus, daß die Segmentierung von Nachrichten wesentlich einfacher zu<br />
bewerkstelligen ist. Im Audio-Dokument wurden nun die entsprechenden Stellen ermittelt. Es<br />
schloß sich die selbe Auswertungsprozedur an, wie sie <strong>für</strong> die Evaluation der anderen Dateien<br />
verwendet wurde. Die Ergebnisse werden im folgenden präsentiert. Zunächst folgt als Beispiel<br />
die Text-Transkription der etwa zweiminütigen Nachrichtenaufzeichnung. Im Anschluß daran<br />
werden die Ergebnisse dieser Aufzeichnung durch die Auswertungstabelle (siehe oben) präsentiert.<br />
Die Ergebnisse der zweiten Nachrichtensendung werden nur noch in Kurzform dargestellt.<br />
B.1 Radio-Nachrichtensendung 1<br />
B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung<br />
[1<br />
Berlin.<br />
[1.1<br />
Das Deutsche Rote Kreuz kritisiert die<br />
Bundesregierung, weil sie zu spät auf die<br />
Flutkatastrophe in Mosambik reagiert habe.<br />
Den DRK-Helfern in Mosambik fehle es außerdem<br />
an Geld.<br />
]1.1<br />
[1.2<br />
110
B.1. RADIO-NACHRICHTENSENDUNG 1 111<br />
]1<br />
[2<br />
]2<br />
[3<br />
]3<br />
[4<br />
Am Mittag ist in der Haupstadt Maputo ein Transportflugzeug<br />
mit vier Bundeswehr-Hubschraubern gelandet.<br />
Insgesamt hat Deutschland jetzt sieben Hubschrauber<br />
und mehr als einhundertsechzig Helfer im Einsatz.<br />
]1.2<br />
[1.3<br />
In den Küstengebieten von Mosambik hat es wieder<br />
angefangen zu regnen. Dadurch könnte sich die Lage<br />
in den Überschwemmungsgebieten verschlimmern. Eine<br />
neue Hochwasserwelle würde Tausende von heimkehrenden<br />
Flüchtlingen gefährden.<br />
]1.3<br />
Antananarivo.<br />
[2.1<br />
Zwei Wirbelstürme und Überschwemmungen haben auf<br />
Madagaskar sechshunderttausend Menschen obdachlos<br />
gemacht, mindestens fünfzig wurden getötet.<br />
]2.1<br />
[2.2<br />
Ein UNICEF-Sprecher sagte, Madgaskar könnte zu einem<br />
zweiten Mosambik werden. Einer der Wirbelstürme<br />
bewegt sich inzwischen auf Mosambik zu.<br />
]2.2<br />
Belgrad.<br />
[3.1<br />
Die serbische Opposition hat ihre Anhänger aufgerufen,<br />
den regierungskritischen Radio- und Fernsehsender<br />
Studio B zu verteidigen. Am Morgen haben bewaffnete<br />
Männer eine Sendeanlage überfallen, Techniker verprügelt<br />
und Geräte zerstört.<br />
]3.1<br />
[3.2<br />
Die serbische Regierung fordert von Studio B<br />
1.8 Millionen Mark Gebühren. Außerdem wurden heute Betreiber<br />
und Chefredakteur des unabhängigen Senders zu<br />
fünfundsiebzigtausend Mark Geldstrafe verurteilt.<br />
]3.2<br />
Berlin.<br />
[4.1<br />
Den Atomkraftwerken Neckar-Westheim und Biblis B drohen<br />
angeblich akute Entsorgungsengpässe. Wie die Berliner<br />
Zeitung schreibt, dürfen beide Kraftwerke bis auf weiteres<br />
keine Castor-Behälter mit abgebrannten Brennelementen mehr<br />
beladen.<br />
]4.1
112ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG<br />
]4<br />
[5<br />
]5<br />
[6<br />
]6<br />
[4.2<br />
Bei Kontrollen war festgestellt worden, daß die Dichtungen<br />
der Behälter mit Bor verunreinigt waren. Damit ist die <strong>für</strong><br />
die Zwischenlagerung vorgeschriebene Dichtigkeit nicht mehr<br />
gewährleistet.<br />
]4.2<br />
[4.3<br />
Der Direktor von Biblis dementierte einen akuten Engpaß.<br />
Allerdings gäbe es Probleme, wenn die Behälter nicht bis<br />
Ende April einsatzbereit seien.<br />
]4.3<br />
München.<br />
[5.1<br />
Die umstrittene Sendung "Big Brother" darf vorerst weiterlaufen.<br />
Darauf haben sich der Sender RTL 2 und die Landesmedienanstalten<br />
geeinigt.<br />
]5.1<br />
[5.2<br />
Allerdings wird das Konzept geändert. Eine Stunde pro Tag<br />
werden die Teilnehmer nicht mehr gefilmt; bis jetzt laufen<br />
Kameras und Mikrofone rund um die Uhr.<br />
]5.2<br />
[5.3<br />
Die hessische Landesmedienanstalt wollte "Big Brother"<br />
verbieten, weil es ihrer Ansicht nach gegen die Menschenwürde<br />
verstößt.<br />
]5.3<br />
Das waren SWR3-Nachrichten.
B.1. RADIO-NACHRICHTENSENDUNG 1 113<br />
B.1.2 Auswertungstabelle (PBS)<br />
Die Tabelle B.1 ist ähnlich wie oben (siehe Anhang A) aufgebaut. Die erste Spalte gibt die<br />
Gliederung wieder, Spalte 2 enthält die Startzeitpunkte. In der dritten Spalte stehen die Werte <strong>für</strong><br />
die vorangehenden Pausenzeiten. Die Spalten 4 bis 8 geben <strong>für</strong> verschiedene Schwellwerte die<br />
Treffer an. Beispielsweise stehen in Spalte 7 die Treffer, wenn nur Pausen betrachtet werden, die<br />
länger als ¥<br />
kommt hier sehr deutlich zum Ausdruck, daß der Sprecher vor einer neuen Nachricht immer eine<br />
lange Pause einlegt. Der Beginn einer neuen Nachricht wird dadurch sehr gut gefunden.<br />
¢£¢ dauern. Die Ergebnisse sprechen <strong>für</strong> sich. Interessant ist die achte Spalte. Es<br />
Gliederung SZ VP SW SW SW SW SW<br />
(Sek.) (Sek.) – ¢¢¡£ ¢¢¡¤ ¢¥¡¦ ¡§¡ ¢<br />
1. Berlin 1.03 1.03 + + + + +<br />
1.1 Kritik des DRK 1.84 0.35 + +<br />
1.2 Anzahl der Hubschr. 12.17 0.88 + + + +<br />
1.3 neuerlicher Regenfall 22.13 0.59 + + + +<br />
2. Tananarivo 33.96 1.25 + + + + +<br />
2.1 Unwetter 35.49 0.64 + + + +<br />
2.2 Aussage von UNICEF 42.58 0.52 + + + +<br />
3. Belgrad 51.94 2.03 + + + + +<br />
3.1 Aufruf der serb. Opp. 52.91 0.58 + + + +<br />
3.2 Forderung d. Regierung 65,32 0.50 + + + +<br />
4. Berlin 76.81 1.04 + + + + +<br />
4.1 Entsorgungsengpässe 77.57 0.34 + +<br />
4.2 Kontrollen 89.29 0.53 + + + +<br />
4.3 Dementi 98.32 0.71 + + + +<br />
5. München 107.24 1.79 + + + + +<br />
5.1 Big Brother läuft weiter 108.06 0.40 + + +<br />
5.2 Konzeptänderung 114.85 0.52 + + + +<br />
5.3 Verstoß g. Menschenw. 122.84 0.57 + + + +<br />
6. Nachrichtenende 128.79 0.58 + + + +<br />
insgesamt 19 19 19 17 16 5<br />
Recall 100% 100% 89% 84% 26%<br />
False Alarms – 12 5 0 0<br />
Precision – 61% 77% 100% 100%<br />
Tabelle B.1: Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die<br />
Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden Pause,<br />
SW=Schwellwert
114ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG<br />
B.1.3 Auswertungstabelle (EDBS)<br />
Die folgende Tabelle B.2 ist analog zu den obigen Tabellen aufgebaut. Betrachtet man die Ergebnisse<br />
<strong>für</strong> die Fensterlänge <br />
<br />
¦, so erkennt man deutlich bessere Werte als bei den zuvor<br />
¨<br />
untersuchten Sprachdateien, sowohl <strong>für</strong> den Recall als auch <strong>für</strong> die Precision.<br />
Gliederung SZ<br />
¡¡ ¦¢ £¢<br />
(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s<br />
1. Berlin 1.03 + + + + +<br />
1.1 Kritik des DRK 1.84 + + + + +<br />
1.2 Anzahl der Hubschr. 12.17 + + +<br />
1.3 neuerlicher Regenfall 22.13 + + + + + + + +<br />
2. Tananarivo 33.96<br />
2.1 Unwetter 35.49 + + + + +<br />
2.2 Aussage von UNICEF 42.58 +<br />
3. Belgrad 51.94<br />
3.1 Aufruf der serb. Opp. 52.91 + + + +<br />
3.2 Forderung d. Regierung 65,32 + + + +<br />
4. Berlin 76.81 + + +<br />
4.1 Entsorgungsengpässe 77.57 + + + + + +<br />
4.2 Kontrollen 89.29 + + +<br />
4.3 Dementi 98.32 + + + +<br />
5. München 107.24 + + + +<br />
5.1 Big Brother läuft weiter 108.06 + + + + +<br />
5.2 Konzeptänderung 114.85 + +<br />
5.3 Verstoß g. Menschenw. 122.84 + + + +<br />
6. Nachrichtenende 128.79 +<br />
insgesamt 19 1 5 4 11 8 14 9 15<br />
Recall in % 5 26 21 58 42 74 47 79<br />
False Alarms – 2 12 4 14 6 178 4<br />
Precision in % – 71 25 73 40 70 35 79<br />
Tabelle B.2: Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die Abkürzung<br />
SZ steht <strong>für</strong> Startzeitpunkt.
B.2. RADIO-NACHRICHTENSENDUNG 2 115<br />
B.2 Radio-Nachrichtensendung 2<br />
B.2.1 Auswertung (PBS)<br />
Schwellwert (Sek.) TB H M FA Recall (%) Precision (%)<br />
0.00 39 38 1 231 97 14<br />
0.50 39 37 2 18 95 67<br />
0.60 39 35 4 13 90 66<br />
0.70 39 31 8 6 79 84<br />
1.00 39 15 24 1 38 94<br />
Tabelle B.3: Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.)<br />
Die Tabelle B.3 gibt das Auswertungsergebnis <strong>für</strong> das PBS-Verfahren wieder. Die Erkennungsraten<br />
sind wie auch schon bei der ersten Nachrichtensendung <strong>für</strong> Schwellwerte <br />
sehr hoch.<br />
<br />
Der Recall <strong>für</strong> <br />
den Schwellwert ist nur auf den ersten Blick sehr niedrig. Sind jedoch nur<br />
die Startpunkte jeder neuen Nachricht gefragt, so werden alle Startzeitpunkte korrekt erkannt.<br />
Der einzelne False Alarm kommt daher, daß sich der Nachrichtensprecher versprochen hat. Disfluencies<br />
sind also auch hier nicht völlig auszuschließen. Die Precision-Werte sind insgesamt<br />
sehr viel höher, als bei den Vorlesungsaufzeichnungen.<br />
B.2.2 Auswertung (EDBS)<br />
¨ §<br />
1 1 39 5 34 21 13 19<br />
Thres. (%) TB H M FA Recall (%) Precision (%)<br />
2 39 9 30 23 24 28<br />
5 39 12 27 37 39 24<br />
8 39 17 22 44 44 28<br />
2 1 39 17 22 6 45 74<br />
2 39 21 18 8 60 72<br />
5 39 23 16 17 59 58<br />
8 39 25 14 14 64 64<br />
Tabelle B.4: Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.)<br />
Wie auch schon <strong>für</strong> die erste Nachrichtensendung gilt, daß die Fensterlänge <br />
<br />
¨ zu schlechten<br />
Erkennungsraten und mangelnder Präzision führt (vergleiche Tabelle B.4). Der<br />
Recall <strong>für</strong> <br />
¨ ¦ ist deutlich besser, wenngleich nicht ganz so gut, wie bei der ersten Nachrichtensendung.<br />
Im Vergleich zu den Resultaten bezüglich der Vorlesungsaufzeichnungen sind<br />
die Ergebnisse aber deutlich besser.
Literaturverzeichnis<br />
[1] AOF - Authoring On The Fly. (erhältlich im WWW:<br />
http://ad.informatik.uni-freiburg.de/AOF/mmgroup.aof.about ).<br />
[2] ARONS, B.: Interactively Skimming Recorded Speech. Doktorarbeit, Massachusettes<br />
<strong>Institut</strong>e of Technology, 1994.<br />
[3] ARONS, B.: Pitch-based Emphasis Detection for Segmenting Speech Recordings. In:<br />
Proceedings of International Conference on Spoken Language Processing, Bd. 4, S.<br />
1931–1934, 1994.<br />
[4] ARONS, B.: Speech Skimmer: A System for Interactivly Skimming Recorded Speech.<br />
ACM Transactions on Computer-Human Interaction, 4(1):3–38, March 1997. (erhältlich<br />
im WWW: http://barons.www.media.mit.edu/people/barons/papers/ToCHIE97.ps).<br />
[5] BOERSMA, P.: Accurate Short-Term Analysis of the Fundamental Frequency and the<br />
Harmonics-to-Noise Ratio of a Sampled Sound. In: Proceedings of the <strong>Institut</strong>e of<br />
Phonetic Sciences of the University of Amsterdam, 1993.<br />
[6] CHEN, F. und M. WITHGOTT: The Use of Emphasis to Automatically Summarize Spoken<br />
Discourse. In: Proceedings of the International Conference on Acoustics, Speech, and<br />
Signal Processing, S. 229–233. IEEE, 1992.<br />
[7] CHOI, J., D. HINDLE, J. HIRSCHBERG, I. MAGRIN-CHAGNOLLEAU, C. NAKATANI,<br />
F. PEREIRA, A. SINGHAL und S. WHITTAKER: An Overview of the AT&T Spoken<br />
Document Retrieval. In: Proceedings DARPA Broadcast News Transcription and<br />
Understanding Workshop. Morgan Kaufmann Publishers, 1998.<br />
[8] CHOI, J., D. HINDLE, J. HIRSCHBERG, F. PEREIRA, A. SINGHAL und S. WHITTAKER:<br />
Spoken Content-Based Audio Navigation (SCAN). Techn. Ber., AT&T Labs-Research,<br />
Florham Park, New Jersey, USA, 1999.<br />
[9] DELLER, J., J. PROAKIS und J. HANSEN: Discrete-Time Processing of Speech Signals.<br />
Prentice Hall, Inc., 1993.<br />
116
LITERATURVERZEICHNIS 117<br />
[10] DODDINGTON, G.: The Topic Detection and Tracking Phase 2 (TDT2) Evaluation Plan.<br />
In: Proceedings DARPA Broadcast News Transcription and Understanding Workshop.<br />
Morgan Kaufman Publishers, 1998.<br />
[11] EICHMANN, D., M. RUIZ, P. SRINIVASAN, N. STREET, C. CULY und F. MENCZER: A<br />
Cluster-Based Approach to Tracking, Detection and Segmentation of Broadcast news. In:<br />
Proceedings DARPA Broadcast News Workshop. Morgan Kaufmann Publishers, 1999.<br />
[12] EPPINGER, B. und E. HERTER: Sprachverarbeitung. Hanser, München, 1993.<br />
[13] FOOTE, J.: Content-Based Retrieval of Music and Audio. In: Proceedings of the SPIE, Bd.<br />
3229, S. 138–147, 1997.<br />
[14] FOOTE, J.: An Overview of Audio Information Retrieval. In: Multimedia Systems, Bd. 7.<br />
Springer-Verlag, 1999.<br />
[15] GROSZ, B. und J. HIRSCHBERG: Some Intonational Characteristics of Discourse<br />
Structure. In: Proceedings of the International Conference on Spoken Language<br />
Processing, Bd. 1, S. 429–432, Banff, Canada, October 1992.<br />
[16] HE, L., E. SANOCKI, A. GUPTA und J. GRUDIN: Auto-Summarization of Audio-Video<br />
Presentations. In: MM99, 1999.<br />
[17] HIRSCHBERG, J. und B. GROSZ: Intonational Features of Local and Global Discourse<br />
Structure. In: Proceedings of the Speech and Natural Language workshop, S. 441–446,<br />
San Mateo, CA, February 1992. Defense Advanced Research Projects Agency, Morgan<br />
Kaufmann Publishers.<br />
[18] HIRSCHBERG, J. und C. NAKATANI: Acoustic Indicators of Topic Segmentation. In:<br />
Proceedings of the 5th International Conference on Spoken Language Processing, Bd. 4,<br />
S. 1255–1258, 1998.<br />
[19] KIMBER, D. und L. WILLCOX: Acoustic Segmentation for Audio Browsers. In: Proc.<br />
Interface Conference, July 1996. (erhältlich im WWW:<br />
http://www.fxpal.xerox.com/abstracts/kim96.htm).<br />
[20] LAMEL, L., L. RABINER, A. ROSENBERG und J. WILPON: An Improved Endpoint<br />
Detector for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech, and<br />
Signal Processing, ASSP-29(4):777–785, August 1981.<br />
[21] LIANG, Z., Y. WANG und T. CHANG: Audio Feature Extraction and Analysis for Scene<br />
Segmentation and Classification. In: Proceedings of IEEE 1st Multimedia Workshop,<br />
1997.<br />
[22] ORFANIDIS, S.: Introduction to signal processing. Prentice Hall, Inc., 1996.
118 LITERATURVERZEICHNIS<br />
[23] OTTMANN, T.: Prinzipien des <strong>Algorithmen</strong>entwurfs. Spektrum Akademischer Verlag,<br />
1998.<br />
[24] OTTMANN, T.: Vorlesung: Geometrische <strong>Algorithmen</strong> SS’99. (abrufbar im WWW unter<br />
http://ad.informatik.uni-freiburg.de/ss99.special.geometrie), 1999.<br />
[25] PATEL, N. und I. SETHI: Audio Characterization for Video Indexing. In: Proceedings of<br />
SPIE Conference on Storage and Retrieval for Still Image and Video Databases, Bd. 2670,<br />
S. 373–384, 1996.<br />
[26] PAULUS, E.: Sprachsignalverarbeitung: Analyse, Erkennung, Synthese. Spektrum<br />
Akademischer Verlag, 1998.<br />
[27] PROAKIS, J. und D. MANOLAKIS: Digital Signal Processing: Principles, algorithms and<br />
applications. Prentice Hall, Inc., 1996.<br />
[28] RABINER, L., M. CHENG, A. ROSENBERG und C. MCGONEGAL: A Comparative<br />
Performance Study of Several Pitch Detection Algorithms. IEEE Transactions on<br />
Acoutics, Speech and Signal Processing, ASSP-24:399–417, October 1976.<br />
[29] RIVLIN, Z. und D. APPELT: MAESTRO: Conductor of Multimedia Analysis Technologies.<br />
Techn. Ber., SRI International, Menlo Park, California 94025, 1999.<br />
[30] ROSS, M., H. SHAFER, A. COHEN, R. FREUDBERG und H. MANLEY: Average<br />
Magnitude Difference Function Pitch Extractor. IEEE Transactions on Acoustics, Speech<br />
and Signal Processing, ASSP-22:353–362, 1974.<br />
[31] SHRIBERG, E., R. BATES und A. STOLCKE: A Prosody-Based Decision-Tree Model for<br />
Disfluency Detection. In: Proceedings of the 5th European Conference on Speech<br />
Communication and Technology, Bd. 5, S. 2383–2386, September 1997.<br />
[32] SHRIBERG, E., A. STOLCKE, D. HAKKANI-TÜR und G. TÜR: Prosody-Based Automatic<br />
Segmentation of Speech into Sentences and Topics. Speech Communication, Special Issue<br />
on Accessing Information in Spoken Audio, 2000.<br />
[33] S.PFEIFFER, S. FISCHER und W. EFFELSBERG: Automatic Audio Content Analysis. In:<br />
Proceedings ACM Multimedia’96, S. 21–30, 1996.<br />
[34] STEINMETZ, R.: Multimedia-Technologie. Springer-Verlag, Berlin, 1993.<br />
[35] STIFELMAN, L.: A Discourse Analysis Approach to Structured Speech. AAAI Spring<br />
Symposium Series. Empirical Methods in Discourse Interpretation and Generation, S.<br />
162–167, 1995.<br />
[36] STOLCKE, A., E. SHRIBERG, D. HAKKANI-TÜR, G. TÜR, Z. RIVLIN und K. SÖNMEZ:<br />
Combining Words and Speech Prosody for Automatic Topic Segmentation. In: Proceedings<br />
DARPA Broadcast News Workshop, S. 61–64. Morgan Kaufmann Publishers, February<br />
1999.
LITERATURVERZEICHNIS 119<br />
[37] WAYNE, C.: Topic Detection & Tracking (TDT). In: Proceedings DARPA Broadcast News<br />
Transcription and Understanding Workshop. Morgan Kaufman Publishers, 1998.<br />
[38] WITTEN, I. und E. FRANK: Data Mining: practical machine learning tools and<br />
techniques with JAVA implementations. Morgan Kaufmann Publishers, 2000.<br />
[39] WOLD, E., T. BLUM, D. KEISLAR und J. WHEATON: Classification, Search and<br />
Retrieval of Audio. IEEE Multimedia, 3(3):27–36, 1996.<br />
[40] ZHANG, T. und C. KUO: Content-Based Classification and Retrieval of Audio. Techn.<br />
Ber., Integrated Media Systems Center and Departement of Electrical<br />
Engineering-Systems, University of Southern California, 1998.<br />
[41] ZHANG, T. und C. KUO: Heuristic Approach for Generic Audio Data Segmentation and<br />
Annotation. Techn. Ber., Integrated Media Systems Center and Departement of Electrical<br />
Engineering-Systems, University of Southern California, 1999.