Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

ALBERT-LUDWIGS-UNIVERSITÄT 

FREIBURG 

INSTITUT FÜR INFORMATIK 

LEHRSTUHL FÜR ALGORITHMEN UND DATENSTRUKTUREN, 

MULTIMEDIA, TELETEACHING UND 

ELEKTRONISCHES PUBLIZIEREN 

DIPLOMARBEIT 

Analyse und Indizierung von Audio-Dateien für das 

Information Retrieval in Multimedia-Dokumenten. 

Vorgelegt von: Betreuer: 

Jürgen Dick Prof. Dr. Thomas Ottmann 

Matrikelnr.: 8951939 Dipl.-Inform. Wolfgang Hürst 

Freiburg, den 4. April 2000

Erklärung 

Hiermit erkläre ich, daß die vorliegende Arbeit von mir selbständig und nur unter Verwendung 

der aufgeführten Hilfsmittel erstellt wurde. Die Arbeit wurde nicht, auch nicht auszugsweise, 

bereits für eine andere Prüfung angefertigt. 

Freiburg, den 4. April 2000

Vorwort 

Ich möchte mich bei Prof. Dr. Thomas Ottmann bedanken, der diese Diplomarbeit und auch 

meine Studienarbeit ermöglicht hat. Mein besonderer Dank gilt Dipl.-Inform. Wolfgang Hürst 

für die umfassende und sehr gute Betreuung dieser Arbeit. 

Weiterhin möchte ich mich bei Dipl.-Bibl. (FH) Rolf Hermkes, Cosima Bolanz und Alexander 

Wollmann bedanken, die mir bei der Korrektur behilflich waren, sowie all denen, die mich bei 

dieser Arbeit und im Laufe meines Studiums unterstützt haben. 

Insbesondere möchte ich mich bei meiner Mutter bedanken, die über all die Jahre an mich geglaubt 

und mir dieses Studium ermöglicht hat.

Inhaltsverzeichnis 

1 Einleitung, Motivation 11 

1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.1.1 Das Problem: Suche in Audio-Dateien . . . . . . . . . . . . . . . . . . . 12 

1.1.2 Arbeiten mit ähnlichem Thema . . . . . . . . . . . . . . . . . . . . . . 13 

1.2 Ziel dieser Diplomarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

1.3 Inhaltlicher Aufbau dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.4 Die Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

1.5 Zusammenfasssung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2 Grundlagen der Sprachanalyse 20 

2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

2.2 Erzeugung der menschlichen Sprache . . . . . . . . . . . . . . . . . . . . . . . 22 

2.2.1 Aufbau des menschlichen Sprachapparates . . . . . . . . . . . . . . . . 22 

2.2.2 Lautbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

2.2.3 Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

2.2.4 Modellvorstellung der Spracherzeugung . . . . . . . . . . . . . . . . . . 25 

2.3 Konzepte und Notationen der digitalen Signalverarbeitung . . . . . . . . . . . . 26 

2.3.1 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . 26 

2.3.2 Das Abtasttheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.3.3 Klassifikation von Signalen . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.3.4 Zeitdiskrete Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

2.3.5 Fourier-Transformationen und verwandte Konzepte . . . . . . . . . . . . 35 

2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

5

6 INHALTSVERZEICHNIS 

3 Extraktion von Audio-Features 40 

3.1 Windowing / Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

3.1.1 Windowing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

3.1.2 Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

3.1.3 Extraktion von Audio-Features . . . . . . . . . . . . . . . . . . . . . . . 44 

3.2 Short-term energy und short-term power . . . . . . . . . . . . . . . . . . . . . . 47 

3.3 Short-term zero crossing rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

3.4 Fundamentalfrequenz (Pitch) ¢¡ 

. . . . . . . . . . . . . . . . . . . . . . . . . . 50 

3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation . . . . . . . . . . . . . . . 55 

3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference 

Function (AMDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums . . . . . . . . . . . . . 65 

3.4.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

4 Segmentierungsverfahren 70 

4.1 Pausenbasierte Segmentierung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . 70 

4.1.1 Der Pausen-Detektions-Algorithmus . . . . . . . . . . . . . . . . . . . . 71 

4.2 Emphasis-Detection-basierte Segmentierung (EDBS) . . . . . . . . . . . . . . . 77 

4.2.1 Der Emphasis-Detection-Algorithmus . . . . . . . . . . . . . . . . . . . 78 

4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus . . . . 81 

5 Evaluation 85 

5.1 Messgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

5.2 Pausenbasierte Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

5.2.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

5.2.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 92 

5.3 Emphasis-Detection-basierte Segmentierung . . . . . . . . . . . . . . . . . . . . 95 

5.3.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 

5.3.2 Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 101 

6 Zusammenfassung und Ausblick 104 

A Beispiel einer Text-Transkription 106

INHALTSVERZEICHNIS 7 

B Segmentierung am Beispiel einer Radio-Nachrichtensendung 110 

B.1 Radio-Nachrichtensendung 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 

B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung . . . . 110 

B.1.2 Auswertungstabelle (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . 113 

B.1.3 Auswertungstabelle (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . 114 

B.2 Radio-Nachrichtensendung 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

B.2.1 Auswertung (PBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

B.2.2 Auswertung (EDBS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

Abbildungsverzeichnis 

1.1 Story Segmentation, Topic Detection und Topic Tracking . . . . . . . . . . . . . . . . 14 

2.1 Allgemeines System zur technischen Sprachverarbeitung [12] . . . . . . . . . . . . . 20 

2.2 Anwendungsgebiete der Sprachverarbeitung . . . . . . . . . . . . . . . . . . . . . 21 

2.3 Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12] . . . . . . . 23 

2.4 Periodisches Anregungssignal bei stimmhaften Lauten . . . . . . . . . . . . . . . . . 23 

2.5 Blockschaltbild eines einfachen technischen Systems für die Sprachsynthese . . . . . . 25 

2.6 Ein typisches digitales Signalverarbeitungssystem. . . . . . . . . . . . . . . . . . . . 27 

2.7 Blockschaltbild-Darstellung eines zeitdiskreten Systems . . . . . . . . . . . . . . . . 30 

2.8 Impulsantwort eines LTI-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

2.9 Impulsantworten eines FIR- und eines IIR-Filters . . . . . . . . . . . . . . . . . . . 34 

2.10 Äquivalente Beschreibungen digitaler Filter . . . . . . . . . . . . . . . . . . . . . . 38 

3.1 Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit 

einem Rechteck-Fenster multipliziert. . . . . . . . . . . . . . . . . . . . . . . . . . 42 

3.2 Amplitudenspektrum eines Rechteck-Fensters . . . . . . . . . . . . . . . . . . . . . 43 

£ 

¢¡ 

£ 

¤¢¡ ¥¡§¦©¨© ¤¢¡ 

3.3 Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren 

dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar. 

entspricht der digitalen Frequenz , entspricht der Frequenz . . . . . 45 

3.4 Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame- 

Länge = 10 ms, Time-Shift = 10 ms) . . . . . . . . . . . . . . . . . . . . . . . . . . 49 

3.5 Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms, 

Time-Shift = 10ms ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

3.6 System zur Pitch-Detektion [12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

3.7 Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten 

(a) bis (c) sind männlich, (d) ist weiblich. . . . . . . . . . . . . . . . . . . . . . . . 54 

8

ABBILDUNGSVERZEICHNIS 9 

3.8 "Gefenstertes" Sinus-Signal und dessen AKF . . . . . . . . . . . . . . . . . . . . . 56 

3.9 Effiziente Berechnung der AKF mittels FFT . . . . . . . . . . . . . . . . . . . . . . 57 

3.10 Blockdiagramm des AUTOC Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 58 

3.11 Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde. . . . . 59 

3.12 Blockdiagramm des PDAs nach BOERSMA [5] . . . . . . . . . . . . . . . . . . . . . 60 

3.13 Blockdiagramm des ModifiedACF-PDAs. . . . . . . . . . . . . . . . . . . . . . . . 61 

3.14 Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing, 

(b) mit Postprocessing erzeugt wurden. . . . . . . . . . . . . . . . . . . . . . . 64 

3.15 Blockdiagramm eines AMDF Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . 65 

3.16 Ein Ausschnitt eines Sprachsignals und die Cepstra für (a) ein stimmhaftes Segment, (b) 

ein stimmloses Segment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

3.17 Berechnung der stRC mittels DFT . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

3.18 Blockdiagramm eines CEP Pitch-Detektors [28] . . . . . . . . . . . . . . . . . . . . 69 

4.1 Schematische Darstellung des pausenbasierten Segmentierungsverfahrens . . . . . . . . 72 

4.2 Energie-Histogramme für verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 73 

4.3 ¢¡¤£¦¥ -Histogramme für verschiedene Sprecher . . . . . . . . . . . . . . . . . . . . 74 

4.4 Beispiel für den Ablauf der PBS (Teil 1) . . . . . . . . . . . . . . . . . . . . . . . . 75 

4.5 Beispiel für den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache) . . . . . . . . . . . . . 76 

4.6 Pitch-Histogramme für Dozenten (a) männlichen, (b) weiblichen Geschlechts . . . . . . 79 

4.7 Berechnung der Pitch-Aktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 

4.8 Ausgabe des EDBS-Algorithmus für einen 15-minütigen Ausschnitt aus einer Sprachdatei. 81 

4.9 Beispiel für den Ablauf der Emphasis-Detektion (Teil 1) . . . . . . . . . . . . . . . . 82 

4.10 Beispiel für den Ablauf der Emphasis-Detektion (Teil 2) . . . . . . . . . . . . . . . . 83 

5.1 Beispiele für die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis- 

Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von §©¨ ¡ und im 

Diagramm (b) eine Länge von §¨ ¡§¦ . . . . . . . . . . . . . . . . . . . . . . . . . 89 

5.2 Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen 

Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden. . . . . . . . . . 93 

5.3 Recall/Presision-Diagramme für die Ergebnisse aus Kapitel 5.3.1 . . . . . . . . . . . . 101

Tabellenverzeichnis 

3.1 Mathematische Definiton verschiedener Fensterfunktionen . . . . . . . . . . . . . . . 43 

5.1 Beispiele für Segmentierungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 86 

5.2 Auszug aus einer manuellen Segmentierung . . . . . . . . . . . . . . . . . . . . . . 87 

5.3 Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben 

der Segmentierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

5.4 Klassifikationsvorschrift für das EDBS . . . . . . . . . . . . . . . . . . . . . . . . . 96 

A.1 Auswertungstabelle für die Datei ga300_15m,.aif . . . . . . . . . . . . . . . . . . . 109 

B.1 Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die 

Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden 

Pause, SW=Schwellwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

B.2 Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die 

Abkürzung SZ steht für Startzeitpunkt. . . . . . . . . . . . . . . . . . . . . . . . . 114 

B.3 Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . . 115 

B.4 Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) . . . . . . . 115 

10

Kapitel 1 

Einleitung, Motivation 

Per Definition stellen Multimedia-Dokumente eine Kombination von zeitunabhängigen- und 

zeitabhängigen Medien dar, wobei zu einem echten Multimedia-Dokument immer mindestens 

ein zeitunabhängiges- und ein zeitabhängiges Medium gehört [34]. Zu den zeitunabhängigen 

Medien zählen beispielsweise Text, Zeichnungen (Vektorgrafik) und Pixel-Bilder. Zeitabhängige 

Medien sind zum Beispiel Audio- und Videoströme und Animationen. Als Datenbasis für 

diese Arbeit wird nur ein zeitabhängiges Medium betrachtet: der Audiostrom eines Multimedia- 

Dokuments. Es wird angenommen, daß die Audio-Daten nicht in Echtzeit zu verarbeiten sind, 

der Audiostrom liegt als Audio-Datei vor. Das Speicherformat spielt hierbei prinzipiell keine 

Rolle, auch wenn auf die einzelnen Daten innerhalb der Datei beliebiger Zugriff möglich sein 

muß. 

Um gewisse Informationen aus einem Satz von Daten zu extrahieren, muß zunächst eine 

Analyse der Daten erfolgen. Im Fall von Audiosignalen werden diverse Eigenschaften des 

Signals bestimmt, von denen man annimmt, daß sie für die Problemlösung relevant sein 

könnten. Solche Eigenschaften eines Audiosignals können beispielsweise der zeitliche Verlauf 

der Energie, der Nulldurchgangsrate, des Frequenzspektrums oder im speziellen Fall von Sprachsignalen 

der Fundamentalfrequenz sein. Die einzelnen, berechneten Audio-Features 

werden verwendet, um Informationen auf einer höheren Ebene zu gewinnen. Die ermittelten 

Indizien 1 sind beispielsweise Sprechpausen und Betonungen eines Sprechers. Sie können zur 

Indizierung der Audio-Datei genutzt werden. 

Ziel der Analyse und Indizierung von Audioströmen, insbesondere von Audio-Dateien aus AOF- 

Dokumenten (siehe Kapitel 1.4), ist die Informationssuche (Information Retrieval) in diesen 

Audio-Dateien. Im allgemeinen verbindet man Informationssuche mit der Suche nach Wörtern 

oder Sätzen in einem Text. Dies kann beispielsweise die Suche nach bestimmten Begriffen in 

einer Literaturdatenbank sein oder die Suche im World-Wide-Web mit Hilfe von Suchmaschinen, 

die die indizierten HTML-Dokumente nach den gewünschten Begriffen absuchen. Für dieses 

1 Indizien [lat. zu index „Anzeiger”], Tatsachen, aus denen das Vorliegen eines bestimmten Sachverhalts geschlossen 

werden kann, ... . (Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.) 

11

12 KAPITEL 1. EINLEITUNG, MOTIVATION 

Anwendungsgebiet gibt es mächtige Algorithmen, die aber für die Suche in Audio-Dateien und 

Multimedia-Dokumenten im allgemeinen nicht anwendbar sind. Des weiteren könnte versuchen 

werden, die untersuchte Audio-Datei anhand der oben genannten Indizien zu segmentieren, so 

daß beispielweise ein schnelles Navigieren innerhalb des Dokuments erleichtert wird. 

Diese einleitenden Worte verdeutlichen, aus welchen Begriffen sich der Titel dieser Arbeit zusammensetzt 

und in welchem Kontext sie zu sehen sind. 

1.1 Einleitung 

1.1.1 Das Problem: Suche in Audio-Dateien 

Das Problem der Suche in Audio-Dateien ist jedem bekannt, der einen Anrufbeantworter sein 

Eigen nennt. Wurde er eine längere Zeit nicht abgehört, so finden sich (möglicherweise) eine 

Vielzahl von Nachrichten auf dem Band. Viele davon sind unwichtig. Trotzdem müssen alle 

Nachrichten angehört werden und wenn man Pech hat, ist erst die letzte Nachricht auf dem Band 

die einzig wichtige. Angenehm wäre eine Art Suchmaschine, wie sie es für Textdokumente im 

WWW gibt. Dies ist Ziel verschiedener Forschungsarbeiten, auf die im nächsten Abschnitt kurz 

eingegangen wird. 

Das klassische Informationssuche-Problem besteht in der Auffindung eines Textdokuments, 

indem eine Suchanfrage, bestehend aus einem oder mehreren Schlüsselwörtern, an eine 

Menge von Textdokumenten gestellt wird. In der Regel werden die relevanten Dokumente 

dadurch gefunden, daß die Schlüsselwörter innerhalb dieser Textdokumente lokalisiert werden. 

Ein Dokument, in dem die Schlüsselwörter häufiger vorkommen als in anderen Dokumenten, 

wird dann als relevanter angesehen. Die Textdokumente können dem Benutzer daraufhin 

bezüglich ihrer Relevanz sortiert präsentiert werden. Die Informationssuche-Algorithmen für 

Textdokumente basieren auf Pattern-Matching. Wenn man davon ausgeht, daß es keine Text- 

Transkription einer Sprachdatei 2 durch ein Spracherkennungssystem gibt, so läßt sich der Pattern- 

Matching-Ansatz nicht so einfach auf diese Art von Dateien übertragen. Dies liegt am Fehlen von 

identifizierbaren Wörtern oder vergleichbaren Einheiten in der Sprachdatei. Noch schwieriger 

wird das Problem, wenn die Audio-Dateien außer Sprache beispielsweise Musik enthalten. 

Bislang wurde die Verarbeitung und die Problematik von Suchanfragen betrachtet. Auch das 

Navigieren und das schnelle Browsen in Audio-Dateien ist ungleich problematischer als in 

reinen Text-Dateien. Audio-Dateien müssen vollständig durchgehört werden, wenn man sicher 

gehen will, daß alle wichtigen Informationen gefunden werden. Dies liegt an der Linearität von 

Audioströmen. Allerdings benötigt das Abhören von Audio-Dateien unter Umständen sehr viel 

Zeit. Die Text-Transkription einer minutenlangen Nachricht kann hingegen mit dem Auge in 

wenigen Sekunden überflogen werden. 

2 Der Begriff Sprachdatei steht für eine Audio-Datei, die nur Sprache enthält.

1.1. EINLEITUNG 13 

1.1.2 Arbeiten mit ähnlichem Thema 

Zur Suche in Sprachdateien gibt es eine Reihe von Forschungsansätzen mit sehr unterschiedlichen 

Zielen: 

Suche nach bestimmten Wörtern in Audio-Dokumenten. 

Soll in einer Sprachdatei nach einem vorgegebenem Wort gesucht werden, so gibt es 

im wesentlichen zwei verschiedene Ansätze, um dieses Ziel zu erreichen. Mit Hilfe von 

sogenannten (LV)ASR-Systemen (Large Vocabulary Automatic Speech Recognition) 

werden Text-Transkriptionen des Gesprochenen erstellt. Der resultierende Text kann 

anschließend mit den bekannten Suchverfahren von Knuth-Morris-Pratt, 

Boyer-Moore oder mit Hilfe von Suffix-Bäumen nach den gewünschten Informationen 

durchsucht werden. Fast alle ASR-Systeme basieren auf Hidden-Markov-Modellen 

(HMM), die statistische Darstellungen von Sprachereignissen sind. Die Modell-Parameter 

werden im allgemeinen mit einer sehr großen Datenbasis von Sprachdaten trainiert. Zu den 

trainierten HMMs existieren effiziente Algorithmen, um die wahrscheinlichste Modell- 

Sequenz (das erkannte Wort) zu finden. Der größte Nachteil von ASR-Systemen ist die 

begrenzte Genauigkeit. Mittlerweile gibt es zwar Systeme, deren Genauigkeit bis 

¡£¢£¤ 

über 

reicht, allerdings erreichen diese Spracherkennungssysteme diese Präzision nur bei 

sehr hoher Aufnahmequalität und eng umrissenen Domänen. Es wurde jedoch gezeigt, 

daß Text-Transkriptionen sehr hilfreich für die Informationssuche sein können, auch wenn 

Erkennungsraten von nur ¥ 

¢ –¦ 

¢§¤ 

erreicht werden [14]. 

Eine Alternative zu LVASR stellt das sogenannte Word Spotting dar. Darunter versteht 

man die automatische Detektion von einzelnen Wörtern oder Sätzen in beliebigen 

Domänen. Dieses Verfahren verwendet wie die meisten ASR-Systeme Hidden-Markov- 

Modelle. Für die Suche wird aber nicht der Umweg über eine Text-Transkription gewählt. 

Klassifikation beziehungsweise Segmentierung bezüglich der Art des Audio-Materials, beispielsweise 

in Stille, Sprache, Musik und sonstige Geräusche. 

Zu diesem Thema existiert eine Vielzahl von Teilgebieten. Hierzu gehören unter 

anderem Sprecheridentifikation [19], Szenenklassifikation für das Video-Indexing [21][25] 

[33] und Szenenklassifikation von Audio-Dateien im allgemeinen [13][39][40][41]. In der 

Regel basieren die Verfahren auf der Extraktion von Audio-Features wie beispielsweise 

Energie, Nulldurchgangsrate, und Fundamentalfrequenz. Anhand dieser Eigenschaften 

werden statistische Modelle erstellt, die anschließend zur Klassifikation herangezogen 

werden. 

Story Segmentation / Topic Detection / Topic Tracking. 

Unter Topic Detection & Tracking (TDT) versteht man die Erkennung des Auftretens 

neuer Topics und das Weiterverfolgen dieser Topics. Ein Topic ist dabei definiert als ein 

Ereignis oder eine Aktivität zusammen mit allen direkt verwandten Ereignissen und Aktivitäten. 

Diese Disziplin ist noch sehr jung und wird von DARPA (Defense Advanced Research 

Projects Agency), NSF (National Science Foundation) und NIST (National Institute


¡ ¡ ¢¡¢¡¢ 

¢¡¢¡¢ ¡ ¡ 

Story Segmentation 

disjunkte, homogene Bereiche (Stories) 

Topic Identification 

neues Ereignis 

Topic Tracking 

£¡£¡£ ¤¡¤¡¤ 

¥¡¥¡¥ 

¦¡¦ 

§¡§ 

¦¡¦ 

§¡§ ¨¡¨ 

¨¡¨ 

¥¡¥¡¥ 

¤¡¤¡¤ £¡£¡£ 

mehr Stories zum 

vorhergehenden Ereignis 

Abbildung 1.1: Story Segmentation, Topic Detection und Topic Tracking 

of Standards and Technology) unterstützt. Hierbei gibt es drei verschiedene Aufgaben zu 

lösen [10][37] (vergleiche Abbildung 1.1): 

Story Segmentation Der Datenstrom muß in einzelne Stories zerlegt werden und kann 

sowohl ein Audiosignal als auch ein Textdokument sein. Im Falle eines Audiostroms 

kann die Segmentierung direkt auf dem Signal ausgeführt werden, sie kann aber auch 

über eine Text-Transkription ermittelt werden. 

Topic Identification Die Topic Identification-Aufgabe ist definiert als die Aufgabe der 

Erkennung und Weiterverfolgung von Topics, die dem System noch nicht bekannt 

sind. Das System hat noch kein Wissen darüber, was das Topic ist. Es muß also ein 

Verständnis davon haben, was ein Topic ausmacht und dieses Verständnis muß unabhängig 

von spezifischen Topics sein. 

Topic Tracking Neue Stories müssen bekannten Topics zugeordnet werden. Ein Topic 

ist bekannt durch die Assoziationen mit Stories, die dieses Topic diskutieren. Die 

Aufgabe besteht also in der Klassifikation aller neuen Stories, dahingehend ob sie ein 

bekanntes Topic diskutieren oder nicht. 

Es existieren zudem Systeme, die die angesprochenen Teilgebiete vereinen. Hierzu gehören das 

in den AT&T-Labs entwickelte Sprach-Retrieval-System SCAN (Spoken Content-Based Audio 

Navigation) [8] und MAESTRO (Multimedia Annotation and Enhancement via a Synergy 

of Technologies and Reviewing Operators) [29]. 

1.2 Ziel dieser Diplomarbeit 

Im vorangehenden Abschnitt wurden verschiedene Möglichkeiten zur Informationssuche in 

Audio-Dokumenten vorgestellt. Die vorliegende Diplomarbeit beschäftigt sich mit der

1.2. ZIEL DIESER DIPLOMARBEIT 15 

Segmentierung von Sprachdateien. Insbesondere enthalten die untersuchten Dateien Aufzeichnungen 

von Informatik-Vorlesungen (siehe Kapitel 1.4). 

Zunächst bedarf es der Klärung, was das Ziel der Segmentierung sein soll. Angenommen, man 

ließe den Dozenten der Vorlesung eine Text-Transkription der Aufzeichnung so segmentieren, 

daß sich daraus ein Inhaltsverzeichnis, ähnlich dem eines Buches, ergeben würde. Das heißt, der 

Dozent liest die Transkription durch und markiert die Stellen im Text, die er für einen Anfang 

eines Kapitels, eines Unterkapitels, usw. hält. Die Granularität der Gliederung sei nicht vorgegeben. 

Dann wird diese Gliederung herangezogen und die entsprechenden Stellen manuell in der 

Sprachdatei ermittelt. Es ist nun leicht möglich anhand der Gliederung in der Aufzeichnung zu 

navigieren. Hier ist eine Benutzerschnittstelle vorstellbar, die dem Benutzer das Inhaltsverzeichnis 

anzeigt und beim Anklicken des gewünschten Abschnitts direkt an die entsprechende Stelle 

in der Sprachdatei springt. Das eben vorgestellte Verfahren hat drei entscheidende Nachteile: 

Es muß eine Text-Transkription der Aufzeichnung erstellt werden. 

Die Transkription muß (manuell) gegliedert werden. 

Die entsprechenden Stellen in der Sprachdatei müssen manuell ermittelt werden. 

Wünschenswert wäre nun ein Computer-Programm, das eine Segmentierung der Aufzeichnung 

automatisch erstellt. Die resultierende Menge von Indizes der Sprachdatei soll möglichst 

genau der Menge von Indizes entsprechen, die sich durch das manuelle Verfahren ergeben 

würde. Der erste Schritt der Text-Transkription läßt sich unter gewissen Voraussetzungen durch 

die oben vorgestellte automatische Spracherkennung verwirklichen. Schwieriger gestaltet sich 

der zweite Verfahrensschritt. Sollte dieser Schritt automatisch zu bewerkstelligen sein, so ergibt 

sich der letzte Schritt von selbst. Allerdings ist auch diese Vorgehensweise mit Nachteilen behaftet. 

Automatische Spracherkennung ist sehr fehleranfällig, insbesondere spielt die Qualität 

des Audiosignals eine entscheidende Rolle. Zudem muß das Spracherkennungssystem vor dem 

erfolgreichen Einsatz aufwendig trainiert werden. Auch der zweite Schritt der automatischen 

Gliederung ist ein offenes Problem. 

Aufgrund der eben beschriebenen Problematik soll die Aufgabe etwas vereinfacht werden. Das 

gewünschte Computer-Programm soll nur noch die Segmentierung der Sprachdatei erstellen. 

Die resultierende Menge von Indizes soll einer manuell erstellten Segmentierung möglichst 

nahe kommen und ermöglicht dem Benutzer im Zusammenspiel mit den anderen Komponenten 

eines Multimedia-Dokumentes ein schnelles Navigieren in der Audio-Datei. Sollte sich beispielsweise 

aus den verwendeten Folien eine Gliederung ergeben, so könnte versucht werden, 

diese mit der Gliederung der Audio-Datei abzugleichen. 

In Kapitel 1.1.2 wurde angedeutet, daß es zur Berechnung einer Segmentierung eine Vielzahl 

von Ansätzen gibt. Allerdings basieren die verwendeten Verfahren in den meisten Fällen auf statistischen 

Modellen. Diese haben den Nachteil, daß sie vor einer erfolgreichen Anwendung zeitaufwendig 

trainiert werden müssen. Aus diesem Grund wurden zwei Segmentierungsverfahren


für diese Diplomarbeit ausgesucht, die nicht auf statistischen Modellen basieren. Das erste vorzustellende 

Verfahren verwendet die Dauer von Sprechpausen zur Voraussage einer möglichen 

Gliederung. Der zweite Algorithmus versucht Betonungen des Sprechers zu ermitteln, die anschließend 

Hinweise auf die Gliederung des Gesprochenen liefern sollen. Über die Hintergründe 

dieser Ansätze klären die Einleitungen der Kapitel 4.1 und 4.2 auf. Ziel war es nun, die angesprochenen 

Algorithmen auf ihre Verwendbarkeit zu überprüfen, insbesondere im Hinblick auf 

die speziellen Daten, die dieser Untersuchung zugrunde liegen. 

1.3 Inhaltlicher Aufbau dieser Arbeit 

Die Arbeit gliedert sich in sechs Teile: 

Nachdem im vorliegenden Kapitel bereits eine Einführung in die Motivationen und Ziele 

dieser Arbeit gegeben wurde, sowie eine Vorstellung von Arbeiten mit ähnlichem Thema 

erfolgt ist, wird im Rest des Kapitels die verwendete Datenbasis erläutert. 

Das Kapitel Grundlagen der Sprachanalyse erläutert die wichtigsten Konzepte und 

Begriffe der Sprachanalyse. Es gliedert sich wiederum in drei Unterkapitel. Im ersten 

Teil Einführung wird ein kurzer Überblick über die Sprachverarbeitung im allgemeinen 

gegeben. Der zweite Abschnitt beschäftigt sich mit der Erzeugung der menschlichen 

Sprache, und im dritten Teil werden Konzepte und Notation der digitalen Signalverarbeitung 

erläutert. Dieses Kapitel ist für denjenigen Leser gedacht, der sich bislang noch 

nicht mit dieser Materie beschäftigt hat, aber auch nicht zu tief in das Themengebiet einsteigen 

will. Es ersetzt nicht das Studium einschlägiger Literatur, wenn ein tieferes Verständnis 

erwünscht ist. Die Begriffe werden in den meisten Fällen informell erklärt, so 

daß auch die später folgenden Kapitel ohne tiefgreifendes Studium der digitalen Signalund 

Sprachverarbeitung verstanden werden können. Der Leser mit Kenntnissen auf diesen 

Gebieten kann das Kapitel überspringen. 

Das dritte Kapitel Extraktion von Audio-Features erläutert die low level-Eigenschaften, 

die von den in Kapitel 4 vorgestellten Verfahren verwendet werden, und wie sie aus dem 

Audiosignal extrahiert werden können. 

Im vierten Kapitel Segmentierung/Emphasis-Detection werden Verfahren vorgestellt, 

die daraufhin untersucht werden sollen, in wie weit sie sich zur Segmentierung bzw. zur 

Suche in Sprachdateien eignen. Der erste Teil dieses Kapitels stellt ein Verfahren vor, 

das versucht, Sprechpausen zur Berechnung einer Segmentierung heranzuziehen. Bei der 

Emphasis-Detection geht es darum, besonders betonte Stellen in einem Vortrag zu finden. 

Diese erlauben eventuell Rückschlüsse auf eine mögliche Gliederung des Vortrages. 

Das fünfte Kapitel Evaluation beschäftigt sich mit der Aus- und Bewertung der Algorithmen 

bezüglich ihrer Nutzbarkeit im Rahmen des AOF-Projekts [1]. In Kapitel 1.4 wird

1.4. DIE DATENBASIS 17 

erläutert, welche Sprachdateien im einzelnen für diese Arbeit zur Evaluation herangezogen 

wurden. 

Im letzten Kapitel werden die Ergebnisse dieser Arbeit zusammengefaßt und bewertet. 

1.4 Die Datenbasis 

Diese Arbeit beschäftigt sich ausschließlich mit der Informationssuche in aufgezeichneten Audio- 

Dateien. Es ist also keine Echtzeitverarbeitung nötig, da sie off-line bearbeitet werden. Allgemein 

können Audio-Dateien Sprache, Musik und andere Geräusche enthalten. Hier soll mit Dateien 

gearbeitet werden, die ausschließlich Sprache enthalten. Sprachdateien können vielseitiger Natur 

sein; sie können beispielsweise von aufgezeichneten Meetings, Vorlesungen, Vorträgen, Telefongesprächen 

oder Nachrichtensendungen stammen. Dementsprechend sind auch die Ziele einer 

Suche in diesen Dateien sehr unterschiedlich. Im Falle von Meetings könnten die verschiedenen 

Sprecher ermittelt werden, während in aufgezeichneten Telefongesprächen nach bestimmten verwendeten 

Begriffen gesucht werden könnte. Im Falle von Vorlesungen oder Vorträgen ist man 

möglicherweise daran interessiert, besonders wichtige Stellen im Vortrag zu ermitteln, so daß 

später leicht auf diese Stellen zugegriffen werden kann. 

Aufgezeichnete Vorlesungen dienen in dieser Arbeit als Beobachtungsgrundlage. Sie haben die 

folgenden Eigenschaften: 

plus0.5exSie sind typischerweise Monologe. (Allerdings sind Zuhörer anwesend, die möglicherweise 

Zwischenfragen stellen. Die untersuchten Sprachdateien enthielten aber nur in 

einem Fall Zwischenbemerkungen der Zuhörer, die aber aufgrund ihrer niedrigen Lautstärke 

nur noch sehr schwer herauszuhören waren. Sie wurden deshalb vernachlässigt.) 

Vorlesungen sind bzw. sollten strukturiert sein. 

Der erste Punkt hat den Vorteil, daß keine Sprecheridentifikation nötig ist. Eine gute Strukturierung 

während des Vortrags läßt darauf hoffen, daß eine Segmentierung relativ einfach möglich 

ist. 

Die Aufzeichnungen wurden im Sommersemester 1999 im Rahmen einer Vorlesungsreihe zum 

Thema Geometrische Algorithmen erstellt [24]. Diese Veranstaltungen wurden mit Hilfe der 

Authoring-on-the-fly (AOF)-Tools aufgezeichnet, die in der Abteilung Algorithmen und Datenstrukturen, 

Multimedia, Teleteaching und Elektronisches Publizieren am Institut für Informatik 

der Albert-Ludwigs-Universität Freiburg unter der Leitung von Prof. Dr. Thomas Ottman entwickelt 

wurden. Die zugrundeliegende Idee ist, 

„. . . auf den ersten Blick so verschiedene Tätigkeiten, wie das Halten einer Vorlesung 

im Hörsaal, das Teleteaching und das Erstellen multimedialer, für Unterrichtszwecke 

geeigneter Dokumente, zusammenwachsen zu lassen. Die in Freiburg


dazu entwickelte Methode und Software liefert off-line nutzbare Dokumente 

(AOF-Dokumente), die in multimedialen Lehr -und Lernumgebungen Studenten zugänglich 

gemacht werden und mit Hilfe von offenen Hypermediasystemen mit vielfältigem 

Material (Texten, Simulationen, Animationen, Tests usw.) verknüpft 

werden können.“ [1] 

Insgesamt vier Vorträge von drei verschiedenen, männlichen Dozenten wurden für die 

Evaluation ausgewählt. Durch die Auswahl von unterschiedlichen Vortragenden läßt sich bestimmen, 

ob die untersuchten Segmentierungsverfahren in irgendeiner Weise vom Sprecher abhängige 

Ergebnisse liefern. Zudem sind die Aufzeichnungen von unterschiedlicher Audio- 

Qualität, so daß auch festgestellt werden kann, inwiefern die Verfahren von der Aufzeichnungsqualität 

abhängen. Außerdem wurden zu Vergleichszwecken zwei Radio-Nachrichtensendungen 

aufgenommen. In Anhang B befindet sich die Auswertung für diese Aufnahmen. Um die in 

Kapitel 3.4 vorgestellten Pitch-Detektions-Algorithmen zu testen, wurden zudem Sprachdateien 

verwendet, die der CD zum Buch Prinzipien des Algorithmenentwurfs entstammen [23]. 

Die Sprachdateien wurden auf eine Länge von 15 Minuten gekürzt und enthalten jeweils die 

ersten 15 Minuten des entsprechenden Vortrags. Bei der Aufnahme waren die Dozenten mit 

einem Ansteck-Funkmikrofon ausgestattet. Das Mikrofonsignal lief über ein Mischpult in eine 

SGI-Workstation, die das Signal aufzeichnete. Prinzipbedingt schleichen sich hier die größten 

Fehler ein: 

1. Der Abstand vom Mund zum Mikrofon ist nicht konstant, so daß die Amplitude des Signals 

sehr stark schwankt. Eine gute Aussteuerung ist deshalb nur schwer möglich. 

2. Das Signal muß im Mischpult für jeden Dozenten neu ausgesteuert werden. Geschieht 

dies nicht, so können beispielweise Übersteuerungen die Folge sein. Die Folge sind hörbare 

Beeinträchtigungen des Signals, die sich durch sogenannte Klicks und Verzerrungen 

bemerkbar machen. Eine andere mögliche Folge von schlechter Aussteuerung ist, daß das 

Sprachsignal zu schwach und durch die Technik bedingtes Rauschen im Vergleich zum 

Nutzsignal zu stark ist. 

Das Gleiche gilt für die Aussteuerung im Rechner. Dieses Problem läßt sich aber einfach 

umgehen. 

Die für die Evaluation herangezogenen Sprachdateien sind also alles andere als ideal. Schwierigkeiten 

hieraus ergeben sich hauptsächlich bei der Bestimmung der Fundamentalfrequenzverläufe 

(siehe Kapitel 3.4) und der Unterscheidung von Sprache und Stille. 

1.5 Zusammenfasssung 

Dieses Kapitel lieferte einen Einblick in die Möglichkeiten, die sich für die Infomationsssuche 

in Sprachdateien ergeben. Verschiedene Ansätze wurden vorgestellt, der Rahmen, die zugrundeliegende 

Datenbasis und das Ziel der vorliegenden Diplomarbeit wurden umrissen.

1.5. ZUSAMMENFASSSUNG 19 

Das folgende Kapitel 2 erläutert Grundlagen der Sprachanalyse. Der Leser bekommt eine Vorstellung 

davon, wie man sich die Spracherzeugung beim Menschen vorstellen kann. Darüber 

hinaus werden einige Grundbegriffe der digitalen Signalverarbeitung erläutert, die für das Verständnis 

der technischen Seite von Bedeutung sind. Leser mit Kenntnissen auf diesem Gebiet 

und Leser, die sich nicht für die theoretischen Grundlagen interessieren, können diesen Abschnitt 

überspringen.

Kapitel 2 

Grundlagen der Sprachanalyse 

2.1 Einführung 

Sprache dient zur Kommunikation und kann auf zwei verschiedene Arten dargestellt werden: 

durch ihren Informationsgehalt oder durch das physikalische Sprachsignal, das als Träger der 

Information dient. Die Repräsentation der Sprache durch ihren Informationsgehalt wird für 

Berechnungen auf dem Gebiet der Informationsverarbeitung verwendet. Für die automatische 

Sprachverarbeitung ist das Sprachsignal von größerer Bedeutung. Dieses wird entweder analog, 

digitalisiert durch die Signalform oder durch seine charakteristischen Parameter dargestellt. 

Allgemeines System der technischen Signalverarbeitung 

Das Sprachsignal wird (meistens) vom Menschen (Informationsquelle) erzeugt und durch 

Schallwellen oder als elektrisches Signal (physikalischer Träger) transportiert. Die erste Aufgabe 

der Sprachanalyse besteht darin, das Signal in die für die weitere Verarbeitung geeignete 

Form (Signalrepräsentation) zu bringen. Dies kann zum Beispiel durch Digitalisierung geschehen. 

Das durch diesen Prozeß entstandene Signal kann nun in andere Formen transformiert 

(Signaltransformation) und weiter be- und verarbeitet werden. Abbildung 2.1 zeigt den gerade 

erläuterten Ablauf im Blockschaltbild. 

Sprachsignal auf Signal- 

Informationsquelle 

physikalischem 

repräsentation 

z.B. Mensch Träger 

in techn. Form 

Signaltransformation 

Abbildung 2.1: Allgemeines System zur technischen Sprachverarbeitung [12] 

20 

Verarbeitung 

der Information

2.1. EINFÜHRUNG 21 

Anwendungsgebiete der Sprachverarbeitung 

Zu den ersten Anwendungen gehörte die Kodierung von Sprache mit möglichst geringer Bitrate. 

Vor allem in der Übertragungstechnik ist man stark an einer Komprimierung der anfallenden 

Datenmenge interessiert. Als Beispiele für mögliche Anwendungen im Bereich der Übertragungstechnik 

seien hier Satellitensysteme und Mobilfunk genannt. Derzeit aktuell ist das Thema Datenreduktion 

auch in der Unterhaltungselektronik bzw. der Übertragung von Musik via Internet. 

Der Begriff MP3 ist momentan in aller Munde und stellt einen Standard zur verlustbehafteten 

Speicherung und Übertragung von Audiodaten mit guter Qualität dar. Ein weiteres Gebiet der 

Sprachverarbeitung ist die Sprechererkennung, deren Aufgabe es ist, Personen anhand ihrer 

Stimme eindeutig zu erkennen (Sprecheridentifikation) oder zu entscheiden, ob ein 

Sprecher zu einem bestimmten Personenkreis gehört (Sprecherverifikation). Als Einsatzgebiet 

der Sprecheridentifikation könnte man sich vorstellen, automatisch zu einer gegebenen 

Menge von Audio-Dateien, z.B. aufgezeichnete Vorlesungen, den bzw. die Sprecher zu bestimmen, 

so daß eine einfache Suche nach einem bestimmten Sprecher in einer Menge der Audio- 

Dateien möglich ist. Mit dem Begriff der Spracherkennung verbindet man im allgemeinen die 

Transformation des akustischen Sprachsignals in geschriebenen Text. Schon seit geraumer Zeit 

existieren Systeme, die dies mit zufriedenstellenden Ergebnissen bewerkstelligen, wenn 

bestimmte Randbedingungen erfüllt sind. Die Spracherkennung kann aber auch zur Steuerung 

von und Kommunikation mit Maschinen eingesetzt werden. Sprachsynthese dient der Ausgabe 

von Meldungen an den Bediener technischer Einrichtungen und der Mensch-Maschine- 

Kommunikation bei computergesteuerten Dialogsystemen. Ein weiteres wichtiges Gebiet der 

Sprachverarbeitung ist die Verbesserung der Sprachqualität. Leider werden bei der Übertragung 

von Sprache die Signale verändert, verzerrt oder gehen verloren. Als Beispiele der 

Verbesserung der Sprachqualität sei die Verbesserung des Signal-Rausch-Verhältnisses oder die 

Wiedergewinnung verlorener Sprachsegmente genannt. Die bislang aufgeführten Anwendungsgebiete 

stellen klassische Beispiele der Sprachverarbeitung dar. Ein Gebiet, daß noch nicht erwähnte 

wurde, ist die Informationssuche in Audio-, Video- und Sprachdateien. In 

Kapitel 1.1.2 wurde dieses Gebiet kurz vorgestellt. Die vorliegende Arbeit beschäftigt sich ausschließlich 

mit der Informationssuche in aufgezeichneten Sprachdateien. Aus den physikalischen 

Eigenschaften des aufgezeichneten Signals sollen Informationen extrahiert werden, die die automatische 

Strukturierung von Multimedia-Dokumenten unterstützen. Abbildung 2.2 faßt die besprochenen 

Anwendungsgebiete noch einmal zusammen. 

Sprachkodie- Sprecherer- 

rung für Übertragung 

und 

Speicherung 

kennung und 

-verifizierung 

Anwendungen der Sprachverarbeitung 

Spracherkennung 

Sprach- 

synthese 

Verbesserung Informations- 

der Sprachsuche in 

qualität Audio- und 

Videodateien 

Abbildung 2.2: Anwendungsgebiete der Sprachverarbeitung

22 KAPITEL 2. GRUNDLAGEN DER SPRACHANALYSE 

2.2 Erzeugung der menschlichen Sprache 

In diesem Kapitel werden die wichtigsten Begriffe und Konzepte erläutert, die den Aufbau und 

die Arbeitsweise des menschlichen Sprachapparates betreffen. Kenntnisse über die Arbeitsweise 

des Sprachapparats und der Bildung von Sprachlauten sind wichtig für das Verständnis der 

Vorgänge bei der Sprachanalyse, insbesondere bei der Bestimmung der Grundfrequenzverläufe 

und der Sprechpausen, die im Rahmen dieser Arbeit von besonderem Interesse sind. Die Erläuterungen 

in diesem Kapitel basieren im wesentlichen auf den Büchern von 

EPPINGER/HERTER [12] und PAULUS [26]. 

Das Kapitel 2.2.1 beschäftigt sich mit dem Aufbau des menschlichen Sprachtraktes, die Lautbildung 

wird in Kapitel 2.2.2 erklärt. Das darauf folgende Kapitel 2.2.3 erläutert die unterschiedlichen 

Sprachlaute und ihre Eigenschaften, während in Kapitel 2.2.4 ein gängiges Modell der 

Spracherzeugung vorgestellt wird, das auch für die Sprachanalyse von Bedeutung ist. 

2.2.1 Aufbau des menschlichen Sprachapparates 

Der menschliche Sprachapparat ist ein sehr komplexes Gebilde. Die Stimmbildung kommt durch 

ein sehr vielschichtiges und fein abgestimmtes Zusammenspiel aller Sprechorgane zustande. 

Abbildung 2.3 zeigt eine schematische Darstellung des menschlichen Stimmapparates. Der Kehlkopf 

(Larynx) mit Stimmritze (Glottis) und Stimmbändern liegt zwischen Rachenraum und der 

Luftröhre (Trachea) und wird häufig als maßgebliches Organ für die Erzeugung von Sprache 

angesehen. Er ist aber nicht alleine in der Lage, diese Aufgabe auszuführen. Die Stimmbildung 

ist nur eine Sekundärfunktion des Kehlkopfes, seine eigentliche Aufgabe besteht darin, keine 

festen oder flüssigen Partikel in die Lunge eindringen zu lassen. Mund-, Rachen- und Nasenraum 

werden als Vokaltrakt bezeichnet. Das wahrnehmbare Klangbild des abgestrahlten Sprachschalls 

wird wesentlich von der Geometrie des Mund- und Rachenraumes und fallweise auch 

dem Nasenraum (Nasaltrakt) mitbestimmt. Die Geometrie dieser Hohlräume bestimmt maßgeblich 

die Eigenschaften der Schallübertragung. Die Hohlraumgeometrie wird vom Sprecher 

durch die Positionierung der Lippen, des Unterkiefers und der Zunge kontrolliert. Die Stellung 

des Gaumensegels bestimmt den Grad der Mitwirkung des Nasaltrakts an der Schallübertragung. 

Lippen, Unterkiefer, Zunge und Gaumensegel werden Artikulatoren genannt. 

2.2.2 Lautbildung 

Die Stimmbildung ist ähnlich der Tonerzeugung bei Blasinstrumenten. Die Lunge liefert einen 

Luftstrom, der im Kehlkopf durch die Strimmritze gezwungen wird. Beim Sprechen werden 

die Stimmbänder derart gespannt, daß sich die Stimmritze schließt, sobald der Druck der auszuatmenden 

Luft unter einen bestimmten Wert sinkt, und wieder öffnet, wenn der Druck über 

einen bestimmten Wert hinausgeht. Der Verschluß der Stimmritze führt also zu einem Druckanstieg, 

die Öffnung der Stimmritze führt zu einem Druckabfall und damit zu einem neuerlichen 

Verschluß. Es ergibt sich somit eine Schwingung der Stimmbänder, bei der die Stimmritze

2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 23 

Lunge 

Vokaltrakt 

Nasenraum 

Rachenraum Mundraum 

Kehlkopf 

Stimmbänder 

Luftröhre 

Nasenabstrahlung 

Mundabstrahlung 

Abbildung 2.3: Schemadarstellung des menschlichen Sprachapparates (nach Flanagan) [12] 

periodisch geschlossen und wieder geöffnet wird. Der daraus resultiernde Luftstrom der ausgeatmeten 

Luft wird als Schallschwingung wirksam. Dieser Vorgang wird mit Phonation bezeichnet. 

Die Frequenz der Schwingungen, die Sprachgrundfrequenz, auch Grundfrequenz, 

Fundamentalfrequenz oder Pitch genannt 1 , kann vom Sprecher willkürlich verändert werden. 

Der Hörer nimmt den Verlauf der Pitch als Sprechmelodie wahr. Die Pitch liegt im Bereich 

von 80 Hz bis 350 Hz. Die Grenzen des Schwankungsbereichs kennzeichnen die Stimmlage des 

Sprechers und stellen ein wichtiges individuelles Sprechermerkmal dar. Kinder haben im 

Mittel eine höhere Stimmlage als Frauen und diese wiederum eine höhere als Männer. Die Lautstärke 

hängt von der Amplitude der Stimmbandschwingungen ab. Stimmhafte Laute, 

Vokale genannt, werden auf die oben beschriebene Weise gebildet. Abbildung 2.4 zeigt ein 

Beispiel für das Anregungssignal bei stimmhaften Lauten. 

Anregungssignal 

10ms 

Abbildung 2.4: Periodisches Anregungssignal bei stimmhaften Lauten 

Anders sieht die Lautbildung bei stimmlosen Lauten, Konsonanten genannt, aus. Die Stimmbänder 

sind weit auseinander und der Luftstrom fließt kontinuierlich. Dieser Luftstrom wird von 

den Stimmbändern zu Schwingungen und Turbulenzen angeregt, wodurch ein unregelmäßiges 

Signal entsteht, dessen Frequenzspektrum sich relativ gleichmäßig über den hörbaren Bereich erstreckt. 

Dieses rauschförmige Signal dient als Anregungsfunktion für stimmlose Laute. Das Anregungssignal 

durchläuft nun den Vokaltrakt. Dieser Hohlraumresonator ist zur Erzeugung unter- 

1 im weiteren Verlauf dieser Arbeit wird für die Sprachgrundfrequenz der englische Begriff Pitch verwendet. 

t


schiedlichster Laute fähig, da hier viele Organe zusammenwirken. Mund-, Rachen- und Nasenraum 

sind die Hauptresonatoren. Sie sind willentlich in ihrer Größe veränderbar. Zu den Nebenresonatoren 

zählen Luftröhre, die Bronchien, der Kehlkopf und die Nasennebenhöhlen. Die 

Nebenresonatoren sind praktisch nicht willentlich veränderbar, sie führen deshalb zu sprechertypischen 

Merkmalen. Die Nebenresonatoren werden beispielsweise bei Atemwegserkrankungen 

in Mitleidenschaft gezogen, weshalb sich die Stimme in diesem Fall verändert. Die Resonanzeigenschaften 

des Vokaltrakts haben einen Einfluß auf das Spektrum des Anregungssignals. Aufgrund 

dieser Tatsache wird der Vokaltrakt auch als Artikulationstrakt bezeichnet. Bestimmte 

Frequenzbereiche werden durchgelassen, während andere Frequenzbereiche unterdrückt werden. 

Erstere werden Formantfrequenzen (Formanten) genannt. Sie treten besonders deutlich bei der 

Bildung von Vokalen auf. 

2.2.3 Sprachlaute 

Ein Laut ist jede hörbare Äußerung eines Lebewesens. Laute entstehen durch die koordinierte 

Bewegung der Sprechorgane. Nur eine kleine Untermenge der vom Menschen erzeugbaren 

Laute werden für die Sprachverständigung genutzt. Diese werden als Sprachlaute oder 

Phoneme bezeichnet. Phoneme sind kürzeste Teile von Lautereignissen, die die Funktion der 

Bedeutungsunterscheidung erfüllen. Sie sind von der Sprache und vom Kulturkreis abhängig, jedoch 

setzen sich fast alle Sprachen aus etwa 30 bis 50 unterschiedlichen Phonemen zusammen. 

Phoneme selbst haben keine Bedeutung, bedeutungstragende Elemente ergeben sich erst durch 

die Zusammensetzung von Phonemen. Die Lautschrift ist eine Möglichkeit zur Darstellung von 

Phonemen. 

Sprachlaute lassen sich in zwei Kategorien unterteilen: Vokale und Konsonanten. Vokale tragen 

weitgehend zur Bildung der Satzmelodie bei. Sie spielen bei der Betonung von Silben innerhalb 

eines Wortes, der Dauer von Silben und der Tonhöhenänderung bei Aussprache eines Satzes eine 

Rolle. Alle anderen Laute sind Konsonanten. Ein weiteres Unterscheidungmerkmal ergibt sich 

dahingehend, ob die Lauterzeugung stimmhaft oder stimmlos erfolgte. Zudem interessiert man 

sich für die Artikulationsart und den Artikulationsort. 

Allen Vokalen ist die stimmhafte Anregung gemeinsam. Da nur stimmhafte Laute eine 

periodische Grundfrequenz besitzen, ergibt sich aus der Grundfrequenz die Tonhöhe der 

Sprache. Die Gestalt des Artikulationstrakts bestimmt maßgeblich die Klangfarbe der Vokale. 

Die Resonanzeigenschaften des Artikulationstrakts führen zur Ausbildung der Formanten. Akustisch 

ist ein Vokal allein von der Lage und Ausprägung dieser Formanten abhängig und ist damit 

unabhängig von der Tonhöhe. 

Konsonanten werden durch die Engstellen, die Artikulationsstellen, im Luftstrom gebildet. 

Neben dem Artikulationsort ist auch die Artikulationsart für die Bildung von Konsonanten verantwortlich. 

Hierdurch können Verschlußlaute (Explosivlaute), Reibelaute (Frikativlaute), 

Nasallaute, Seitenlaute (Laterale) und Schwinglaute (Vibranten) unterschieden werden. Strenggenommen 

müssen die meisten Konsonanten als Geräusch und nicht als Ton bezeichnet werden, 

da sie keine periodischen Schwingungen sind. Sie können nicht durch einige Formanten be-

2.2. ERZEUGUNG DER MENSCHLICHEN SPRACHE 25 

Anregungsquelle Vokaltrakt 

Impulsgenerator 

Rauschgenerator 

stimmhaft 

stimmlos 

Verstärkungsfaktor 

Filter Sprachsignal 

Abbildung 2.5: Blockschaltbild eines einfachen technischen Systems für die Sprachsynthese 

schrieben werden, wie dies bei Vokalen geschieht. Trotzdem sind bei Konsonaten in höheren 

Frequenzbereichen bestimmte Frequenzbänder stärker vertreten, die ähnlich wie Formanten wirken. 

Bei stimmhaften Konsonanten tritt auch die Grundfrequenz auf, allerdings ist sie gegenüber 

den Frequenzanteilen des Rauschens vergleichsweise schwach ausgeprägt. 

2.2.4 Modellvorstellung der Spracherzeugung 

Die vorangegangenen Abschnitte beschrieben den physiologischen Aufbau des menschlichen 

Sprechapparates und der Lautbildung. Es wurde deutlich, daß sowohl der Sprechvorgang als 

auch der Aufbau des Sprechapparats sehr komplex ist. Zur Sprachverarbeitung ist es sinnvoll, die 

Spracherzeugung durch ein physikalisches Modell zu beschreiben. Hierzu muß ein vereinfachtes 

Modell gefunden werden, das technisch nachgebildet werden kann. Ein Modell, das Quelle- 

Filter-Modell, wird kurz vorgestellt. 

Die Lautanregung geschieht durch den Kehlkopf und die Stimmbänder. Sie erzeugen im Falle 

eines stimmhaften Lauts ein periodisches Signal und bei stimmlosen Lauten ein rauschähnliches 

Signal. Dieser Teil kann deshalb als Signalquelle, dargestellt durch einen Impulsgenerator, angesehen 

werden. Der Vokaltrakt verändert durch seine Widerstands- und Resonanzeigenschaften 

das Anregungssignal. Auch die Mundabstrahlung hat Einfluß auf das Anregungssignal und trägt 

zu den Eigenschaften des Sprachsignals bei. Diese Beeinflussung des Anregungssignals kann 

durch ein variables, akustisches Filter dargestellt werden. Dieses Filter dämpft bestimmte 

Frequenzen und verstärkt andere durch Resonanz, abhängig vom gesprochenen Laut. 

Das Quelle-Filter-Modell besteht im wesentlichen aus der Anregungsquelle und dem 

akustischen Filter. Der Einfluß der Mundabstrahlung wird durch einen Verstärker und durch 

die Eigenschaften des Filters nachgebildet (vergleiche Abbildung 2.5). Die Anregungsquelle 

dient der Erzeugung stimmhafter sowie stimmloser Laute. Da stimmlose Laute rauschähnliche 

Signale sind, werden diese durch einen Rauschgenerator erzeugt. Im Fall stimmhafter Laute 

wird ein Signalgenerator eingesetzt, der ein periodisches, sägezahnförmiges Signal erzeugt. Ein 

Spracherzeugungssystem enthält je eine Quelle für stimmhafte und für stimmlose Laute. Es gibt 

aber Laute, die gleichzeitig stimmhafte wie stimmlose Anregung erfahren. Um diese erzeugen zu


können, muß der Umschalter durch einen Mischer ersetzt werden, der den Anteil der jeweiligen 

Quelle variabel einstellt. Einfachen Systemen genügt der Umschalter. Soll hochwertige Sprache 

erzeugt werden, so ist diese einfache Unterscheidung zwischen stimmhafter und stimmloser Anregung 

nicht mehr ausreichend. Deshalb wurden weitergehende Modelle entwickelt, auf die hier 

aber nicht eingegangen werden soll. 

Das Quelle-Filter Modell gibt den tatsächlichen Vorgang nur teilweise wieder. Die Rückkopplung 

des Sprachsignals über das Gehirn zum Gehör wird beispielsweise nicht berücksichtigt. Auch 

die Kopplung zwischen Quelle und Filter, das heißt Lautanregung und Resonanzraum, wird nicht 

modelliert. Trotz dieser Mängel ist das Quelle-Filter-Modell von großem theoretischen und praktischen 

Wert und dient als Basis für viele Sprachsynthesesysteme. 

2.3 Konzepte und Notationen der digitalen Signalverarbeitung 

Sprachverarbeitung ist ein Anwendungsgebiet der digitalen Signalverarbeitung, so daß hierbei 

auf Konzepte und Methoden dieser Disziplin zurückgegriffen wird. Die für diese Arbeit 

notwendigen Begriffe und Konzepte werden in diesem Kapitel kurz erläutert. Eine ausführliche 

Einführung in das Gebiet der digitalen Signalverarbeitung bieten u.a. die Lehrbücher von 

ORFANIDIS [22], PROAKIS/MANOLAKIS [27] und DELLER/PROAKIS/HANSEN [9]. 

Zunächst wird das allgemeine Vorgehen bei der digitalen Signalverarbeitung erläutert, siehe 

Kapitel 2.3.1. Eine sehr wichtige Rolle in der digitalen Signalverarbeitung spielt das Abtasttheorem, 

da es sowohl für die Qualität der Digitalisierung als auch für die anfallende Datenmenge 

entscheidend ist. Dieses fundamentale Theorem wird in Kapitel 2.3.2 vorgestellt. Für die Bestimmung 

von Audio-Features wird in Kapitel 3 das Windowing-Konzept eingeführt. Hierfür ist es 

wichtig zu wissen, auf welcher Art von Signalen operiert wird. Die für dieses Konzept notwendige 

Klassifikation von Signalen behandelt das Kapitel 2.3.3. Das daran anschließende Kapitel 

2.3.4 befaßt sich mit zeitdiskreten Systemen, die Grundlage digitaler Signalverabeitungsalgorithmen 

sind. Abschließend stellt das Kapitel 2.3.5 die Fourier- und hierzu verwandte Transformationen 

vor. Auch für diesen Grundlagenteil gilt, daß die vorgestellten Konzepte nur einen groben 

Überblick über das für diese Diplomarbeit zu erarbeitende Themengebiet geben. 

2.3.1 Digitale Signalverarbeitung 

Die digitale Signalverarbeitung (DSP) eines analogen Signals erfolgt in drei Schritten (vergleiche 

Abbildung 2.6): 

1. Das analoge Signal wird digitalisiert; es wird abgetastet und jeder Abtastwert (Sample) 

wird bezüglich einer endlichen Anzahl an Bits quantisiert. Dieser Prozeß wird 

A/D-Wandlung genannt. 

2. Die digitalisierten Samples werden durch einen digitalen Signalprozessor verarbeitet.

2.3. KONZEPTE UND NOTATIONEN DER DIGITALEN SIGNALVERARBEITUNG 27 

3. Die resultierenden Ausgabe-Samples werden durch einen analogen Rekonstruktor in eine 

analoge Form zurückgewandelt (D/A-Wandlung). 

¢¡¤£¦¥¨§ 

©¡£¥¨§ ©£¥¨§ 

¤£¥¨§ 

 

analoge 

Sampler und 

Quantisierer 

(A/D-Wandlung) digitale 

digitaler 

Signalprozessor 

digitale 

analoger 

Rekonstruktor 

(D/A-Wandlung) analoge 

Eingabe Eingabe 

Ausgabe 

Ausgabe 

Abbildung 2.6: Ein typisches digitales Signalverarbeitungssystem. 

Der digitale Signalprozessor kann so programmiert werden, daß er eine Vielzahl von Signalverarbeitungsoperationen 

ausführen kann, wie zum Beispiel Filterung, Spektrumsschätzung, und 

andere DSP-Algorithmen. In Abhängigkeit von der Geschwindigkeit und den Anforderungen 

der Applikation kann der digitale Signalprozessor durch einen üblichen Rechner, einen Minicomputer, 

einen speziellen DSP-Chip oder andere digitale Hardware realisiert werden, die dazu 

geeignet ist, Signalverarbeitungsaufgaben zu erfüllen. 

2.3.2 Das Abtasttheorem 

Der erste Schritt bei der digitalen Signalverarbeitung besteht in der A/D-Wandlung eines 

Eingangssignals. Hierzu muß das Signal abgetastet werden. Wichtig bei diesem Prozeß ist die 

Anzahl der Abtastungen pro Sekunde und die Quantisierung. Beides hat nicht nur einen entscheidenden 

Einfluß auf die Qualität des digitalisierten Signals, sondern auch auf die anfallende 

Datenmenge. In der Regel steigt die Qualität mit der Anzahl der Abtastungen pro Sekunde und 

der Anzahl der Bits, die zur Verfügung gestellt werden. Allerdings vergrößert sich im gleichen 

Maß die Datenmenge. Es muß also je nach Anwendungszweck ein geeigneter Kompromiß 

zwischen Qualität und Datenmenge gefunden werden. Das Abtasttheorem gibt vor, wie hoch 

die Anzahl der Abtastungen pro Sekunde sein muß und wie das Eingangssignal beschaffen sein 

muß, damit es fehlerfrei digitalisiert und im Anschluß an die Verarbeitung wieder rekonstruiert 

werden kann. 

Es gibt viele Arten ein analoges Signal abzutasten. Periodisches bzw. uniformes Abtasten wird 

in der Praxis am häufigsten eingesetzt. Diese Form der Abtastung wird durch die Beziehung 

¤ 

ausgedrückt, wobei das zeitdiskrete Signal darstellt, welches durch das Abtasten des 

analogen Signals alle Sekunden entsteht. Das Zeitintervall nennt 

man Abtastrate oder 

 

Abtastfrequenz. 

wird Abtastperiode oder 

Abtastintervall genannt. Die Umkehrung 

(2.1)


Die Abtastwerte repräsentieren exakt das Signal , wenn die Bedingungen des Abtasttheorems 

erfüllt sind, welches besagt: 

Theorem 2.1 (Abtasttheorem) Wenn die höchste 

 

Frequenz in einem Signal gleich 

ist und das Signal mit einer ¡ © Abtastrate 

abgetastet ¡ 

wird, dann 

kann £¢ ¥¥¤§¦ ©©¨ ¦¢ exakt aus seinen Abtastwerten mittels der Interpolationsfunktion 

 

 

 

zurückgewonnen werden. 

¦¢ ¦¢ kann wie folgt ausgedrückt werden: 

wobei 

¨ 

 

 

 

 

 

die Samples von 

 

sind. 

¥ 

¥ 

¥ 

 

 

Die ¡ © Abtastrate heißt Nyquistrate, das Intervall 

heißt Nyquist- 

 

intervall. 

 

In anderen Worten, um das Signal 

¦¢ ¦ 

exakt aus seinen Abtastwerten rekonstruieren zu können, 

muß das Signal bandbegrenzt ¥ sein, und die Abtastrate muß mindestens doppelt so hoch 

sein, wie die 

© höchste vorkommende Frequenz . ¡ 

2.3.3 Klassifikation von Signalen 

Ein zeitdiskretes Signal kann auf verschiedene Art klassifiziert werden. Eine Möglichkeit der 

Klassifikation ist die Unterscheidung in Energie- und Leistungssignale, die im Zusammenhang 

mit dem Windowing und der short-term Analyse von Sprachsignalen wichtig ist, welche in 

Kapitel 3 vorgestellt werden. 

Definition 2.1 Energie © Die eines zeitdiskreten 

 

Signals 

Ein Signal heißt Energiesignal, wenn ¢ 

©¨ 

Definition 2.2 Die Leistung©eines zeitdiskreten Signals 

 

© 

¦ 

Ein Leistungssignal hat endliche Leistung, es gilt ¢ 

 

ist definiert als 

(2.2) 

(2.3) 

(2.4) 

© 

. 

 

 

© 

 

 

. 

ist definiert durch 

(2.5)


Ein Signal kann nicht gleichzeitig ein Leistungs- und ein Energiesignal Wenn © 

sein. 

ist© ¢¡ 

dann Ein Signal kann aber weder Energie- noch Leistungssignal wenn © ¢ 

sein, 

 

. Energie kann mit zwei Klassen von Signalen assoziiert werden: 

oder© 

Transienten, Signale die (üblicherweise exponentiell) mit der Zeit abklingen. 

Beispiel: 

wobei ¤ 

¦ 

¨§ ¢ 

¢ 

 

¢ . 

£¢¥¤ ¢ 

(2.6) 

Endliche Signalfolgen, Signale die außerhalb einer endlichen Zeitdauer Null sind. 

Beispiel: 

£©¤ 

¤ ¦¥ ¦ 

Während Energiesignale entweder hinreichend schnell abklingen oder vollständig verschwinden, 

klingen Leistungssignale nicht ab, ihre Hüllkurve vergrößert sich aber auch nicht. Leistungssignale 

können mit drei großen Klassen von Signalen assoziiert werden: 

Konstante Signale, beispielsweise 

Periodische Signale, für die 

 

gilt 

Beispiel: 

 

 

£¢ 

¢ ¢ 

für ein endliches und für alle 

 

¡ 

¢ 

 

Realisierungen von stationären, ergodischen stochastischen Prozessen. 

Signale, die in keine der obengenannten Kategorien fallen, sind entweder Nullfolgen oder solche, 

die mit der Zeit immer größer werden. 

In Kapitel 3 werden Verfahren zur Pitch-Detektion vorgestellt, die alle auf der Annahme 

basieren, daß das Sprachsignal innerhalb eines kurzen Zeitfensters als stationäres Signal angesehen 

werden kann. Stationär bedeutet, daß sich die statistischen Eigenschaften des Signals 

nicht mit der Zeit ändern. Periodische Signale sind stationäre Signale. In Kapitel 2.2 wurde deutlich, 

daß das Anregungssignal für Vokale ein periodisches Signal ist. Dessen Frequenz soll durch 

einen Pitch-Detektions-Algorithmus bestimmt werden. Bei der Pitch-Detektion werden also periodische 

Signale betrachtet, die in die Klasse der Leistungssignale fallen. 

, 

(2.7) 

(2.8) 

(2.9)


2.3.4 Zeitdiskrete Systeme 

Bei vielen Anwendungen der digitalen Signalverarbeitung, beispielsweise der Sprachanalyse, 

soll ein Algorithmus entworfen werden, der eine vorgeschriebene Operation auf einem zeitdiskreten 

Signal ausführt. Ein Algorithmus, der diese Operation ausführt, heißt zeitdiskretes 

System. Da im Rahmen dieser Arbeit keine Implementierung in Hardware beschrieben wird, 

sondern eine Implementierung durch Software, werden durch Hardware realisierte zeitdiskrete 

Systeme nicht weiter erwähnt. 

Ein zeitdiskretes System ist ein Algorithmus, der eine Eingabefolge zeitdiskreter Samples , 

die Eingabe bzw. Anregung, in eine Ausgabefolge von 

 

Samples , die Ausgabe bzw. 

Antwort, gemäß einer wohldefinierten Ein-/Ausgaberegel transformiert. Die Ein-/Ausgaberegel 

gibt vor, wie die 

 

Ausgabefolge aus dem Wissen über die 

 

Eingabefolge berechnet 

werden soll. Die Ein-/Ausgaberegel bildet den Eingabevektor 

in den Ausgabevektor 

 

bezüg- 

 

(vergleiche Abbildung 2.7). 

 

lich einer funktionalen Abbildung ¡ ab: ¡ 

... 

©£¦¥¨§ 

zeitdiskretes 

System 

 

Abbildung 2.7: Blockschaltbild-Darstellung eines zeitdiskreten Systems 

Ein Beispiel für den Einsatz zeitdiskreter Systeme sind sogenannte Filter, die das Frequenzspektrum 

eines Signals verändern. Manche Pitch-Detektions-Algorithmen beschränken das Frequenzspektrum 

des Sprachsignals, um eventuell störende Frequenzen zu eliminieren, die das Ergebnis 

des Pitch-Detektors negativ beeinflussen könnten. Auch die Bestimmung anderer Audio- 

Features, die in Kapitel 3 vorgestellt werden, geschieht durch zeitdiskrete Systeme. 

Klassifikation von zeitdiskreten Systemen 

Zeitdiskrete Systeme können durch bestimmte Eigenschaften klassifiziert werden. Diese müssen 

für jede mögliche Eingabe in das System gelten. Zeitdiskrete Systeme lassen sich hinsichtlich 

ihrer allgemeinen Eigenschaften in folgende Klassen einteilen: 

1. Statische versus dynamische Systeme. 

Ein zeitdiskretes System heißt statisch oder speicherlos, wenn seine Ausgabe zu jedem 

Zeitpunkt höchstens von dem Eingangswert zu diesem Zeitpunkt abhängt, aber nicht 

von zurückliegenden oder noch kommenden Samples der Eingabe. Andernfalls wird das 

System dynamisch genannt. 

¢¤£¦¥¨§ 

...


2. Zeitinvariante versus zeitvariante Systeme. 

Ein System 

heißt zeitinvariant, wenn sich seine Ein-/Ausgabecharakteristik nicht mit 

der Zeit ändert, das heißt 

¡ £¢ 

 

impliziert 

¥¤ ¦ £¢ ¥¤ 

 

(2.10) 

3. Lineare versus nichtlineare Systeme. 

Das Superpositionsprinzip erfordert, daß die Antwort eines Systems 

auf eine gewichtete 

Summe von Signalen gleich der entsprechenden gewichteten Summe der Antworten des 

Systems auf jedes individuelle Eingangssignal ist. 

¢¨§ ©§ 

¢ ¢§ ©§ ¢ 

 

(2.11) 

Erfüllt ein System das Superpositionsprinzip, so heißt es linear. Andernfalls handelt es 

sich um ein nichtlineares System. 

4. Kausale versus nichtkausale Systeme. 

Ein System heißt kausal, wenn die Ausgabe des Systems zu jedem Zeitpunkt nur von 

gegenwärtigen und zurückliegenden Eingaben abhängt, nicht aber von noch kommenden 

Eingaben. Das heißt, die Antwort eines kausalen Systems erfüllt eine Gleichung der Form 

¤ 

 

¤ ¦ 

(2.12) 

wobei eine beliebige Funktion darstellt. Andernfalls heißt das System nichtkausal. 

In Echtzeitanwendungen können natürlich nicht Signalwerte beobachtet werden, die in der 

Zukunft liegen. Ein nichtkausales System ist physikalisch also nicht realisierbar. Ist das 

Signal aber aufgezeichnet, so daß die Verarbeitung off-line stattfinden kann, ist es möglich, 

ein nichtkausales System zu implementieren. 

5. Stabile versus instabile Systeme. 

Ein System heißt stabil, wenn es auf jede beschränkte Eingangsfolge mit einer beschränkten 

Ausgangsfolge reagiert, 

© 

 

impliziert 

 

 

 

für alle 

, wobei 

endliche Zahlen sind. Wenn für eine beschränkte Eingangsfolge 

© 

die Ausgabe unbeschränkt ist, dann wird das System als instabil klassifiziert. 

Stabilität ist eine wichtige Eigenschaft, die in jeder praktischen Anwendung eines Systems 

betrachtet werden muß. Instabile Systeme zeigen fehlerhaftes und extremes Verhalten und 

verursachen Überläufe in jeder praktischen Implementation. 

 

(2.13)


¡ 

¥¨§ £ ¥¨§ £ £¦¥¨§ £ 

¥ 

Impuls 

Impulsantwort 

Abbildung 2.8: Impulsantwort eines LTI-Systems 

Lineare, zeitinvariante Systeme und ihre Impulsantworten 

Ein lineares, zeitinvariantes System (LTI-System) ist nach der obigen Definition ein zeitdiskretes 

System, dessen Ein-/Ausgabecharakteristik sich nicht mit der Zeit verändert und das Superpositionsprinzip 

erfüllt. Digitale Filter, die das Frequenzspektrum eines Signals verändern, sind 

ein Beispiel für ein LTI-System. Solche Filter werden beispielsweise bei der A/D- und D/A- 

Wandlung eingesetzt, um das Frequenzspektrum des zu verarbeitenden Signals so zu beschränken, 

daß die Bedingungen des Abtasttheorems erfüllt werden. Digitale Filter werden aber auch bei der 

Sprachverarbeitung eingesetzt. Dies kann beispielsweise in Form einer Filterbank zur 

Analyse des Sprachsignals im Frequenzbereich geschehen. Eine andere Anwendung ist die Vorverarbeitung 

des Sprachsignals, so daß das Sprachsignal vor der eigentlichen Analyse von Störgeräuschen 

befreit wird. Manche der in Kapitel 3.4 vorgestellten Verfahren zur Bestimmung der 

Pitch setzen Tiefpaßfilter zur Verbesserung der Analyse ein. Es wurden deshalb verschiedene Varianten 

digitaler Filter im Rahmen der für die Diplomarbeit entstandenen C++-Klassenbibiliothek 

implementiert. Ein (idealer) Tiefpaßfilter unterdrückt oberhalb einer bestimmten Frequenz, der 

sogenannten Grenzfrequenz des Filters, alle Frequenzanteile. Eine wichtige Anwendung von 

digitalen Filtern bei der Sprachanalyse stellt das Windowing dar (vergleiche Kapitel 3.1). 

Lineare, zeitinvariante Systeme werden eindeutig durch ihre ¤ 

 

Impulsantwortfolge 

charakterisiert, die als Antwort des Systems auf einen Einheitsimpuls2 ¥ definiert ist (ver- 

 

gleiche Abbildung 2.8): 

§¦ ¢ ¤ ¥ 

 

¢ 

£ £¦¥¨§ 

¥ 

(2.14) 

Im allgemeinen kann man sich eine beliebige ¨ 

¢ ¤ 

 

¤ ¦¤ © 

Eingabefolge als Linearkombination 

von zeitlich versetzten und gewichteten Einheitsimpulsen vorstellen: 

¢ ¥ 

¥ 

¥ ¦ 

 

¦ 

Linearität und Zeitinvarianz implizieren dann, daß die entsprechende Ausgabefolge durch Ersetzen 

jedes verzögerten Einheitsimpulses durch die entsprechende verzögerte Impulsantwort 

erzielt werden kann, 

 

¢ 

 

 

 

 

¤ 

¤ 

2 Der Einheitsimpuls £¦¥¨§ ist definiert als £ ¥¨§ 

 

 

¦ 

¤ 

¡ ¥ ¢ 

¢ ¥ ¢ . 

 

¦ 

 

 

 

(2.15) 

(2.16)


oder kürzer 

 

¡ 

Die Gleichung (2.17) kann auch in einer alternativen Art (direkte Form) dargestellt werden, bei 

der der Index der Summation vertauscht ist: 

¡ 

 

 

 

¤ ¡ 

 

¤ 

¢ LTI Form 

¡ ¢ direkte Form 

(2.17) 

(2.18) 

Die obigen Gleichungen liefern die 

 

Antwort eines LTI-Systems als eine Funktion des Eingabesignals 

und der ¤ 

 

Impulsantwort und werden Faltungssummen (convolutional sum) 

genannt. Die Eingabe wird mit der ¤ 

 

Impulsantwort gefaltet, um die 

 

Ausgabe 

zu erhalten. 

Systeme mit endlicher (FIR) oder unendlicher (IIR) Impulsantwort 

Bislang wurde ein LTI-System durch seine ¤ 

Impulsantwort 

können nun weiter in zwei Klassen unterteilt werden. 

charakterisiert. LTI-Systeme 

Die erste Klasse besitzt eine Impulsantwort mit endlicher Dauer (finite impulse 

response, FIR). Die Werte der Impulsantwort sind in diesem Fall Null außerhalb eines 

endlichen Intervalls. Ohne Beschränkung der Allgemeinheit werden im folgenden kausale 

FIR-Systeme betrachtet, für die gilt: 

¢ ¢ und ¨§ 

¤ 

Die Faltungssumme für ein solches System reduziert sich zu 

 

§ 

¤¡ 

£ 

¤ 

¤ ¢ ¥¤ FIR Filter Gleichung 

(2.19) 

¤ 

 

 

¦¤ 

 

 

Eine nützliche Interpretation dieses Ausdrucks erhält man durch die Beobachtung, daß 

die Ausgabe zu jedem Zeitpunkt eine gewichtete Linearkombination der Samples des 

Eingangssignals ist. Das System gewichtet 

die letzten 

 

 

 

¤ für ¤ ¤ ¢ 

 

 

Samples durch die Werte der Impulsantwort 

und summiert die resultierenden 

Produkte auf. Es agiert also als Fenster, das nur die 

letzten 

Samples des Eingabesignals für die Ausgabe betrachtet (siehe Abbildung 2.9). 

Ein FIR-System hat demnach einen endlichen Speicher der Länge 

. Die Realisierung 

von FIR-Systemen beinhaltet Additionen, Multiplikationen und einen endlichen Speicher, 

so daß solche Systeme gemäß (2.19) direkt implementiert werden können. Das in Kapitel 

3.1 vorgestellte Windowing kann auch als FIR-Filter aufgefasst werden.


FIR £¨£ ¥¨§ £ £¦¥¨§ IIR 

0 1 2 . . . . M 

0 1 2 . . . . 

. . . 

¥ ¥ 

Abbildung 2.9: Impulsantworten eines FIR- und eines IIR-Filters 

Die zweite Klasse besitzt eine Impulsantwort mit unendlicher Dauer (infinite impulse 

response, IIR). Die Ausgabe eines kausalen IIR-Systems ist 

 

¤¡ ¤ 

 

¤ ¢ ¤ IIR Filter Gleichung 

(2.20) 

Die Systemausgabe ist eine gewichtete Linearkombination der Samples des Eingangs- 

 

 

¤ 

¦ 

signals . Da die gewichtete Summe sowohl die gegenwärtigen 

¤ 

als auch alle zurückliegenden Samples verrechnet, hat das System einen unendlichen 

Speicher. Hier stellt sich die Frage, ob solche Systeme überhaupt realisierbar sind, da dies 

unendlich viele Additionen, Multiplikationen und unendlichen Speicher benötigen würde. 

Glücklicherweise gibt es eine praktikable und berechenbare Möglichkeit der Realisierung, 

wenn man sich auf eine Subklasse der IIR-Systeme beschränkt. Bei dieser 

¡ 

Subklasse werden 

die ¨ ¤ ¤ 

§¤ © 

¤ 

unendlich vielen Filterkoeffizienten nicht beliebig gewählt, sondern 

durch lineare Differenzengleichungen mit konstanten Koeffizienten miteinander verkoppelt. 

Für diese Subklasse kann die Gleichung (2.20) so zu einer Differenzengleichung 

umgestellt werden, daß hiermit eine effiziente rekursive 

 

Berechnung der Ausgabe 

ermöglicht wird. 

Beiden Systemen gemeinsam ist die Tatsache, daß ihre Anwendung zu einer Verzögerung des 

Signals führen. FIR-Filter können so konstruiert werden, daß diese Verzögerung für alle 

Frequenzen konstant bleibt, für IIR-Filter gilt dies nicht. Die unterschiedliche Verzögerung für 

verschiedene Frequenzen kann zu hörbaren Beeinträchtigungen führen. FIR-Systeme haben 

gegenüber den IIR-Systemen einen weiteren Vorteil, daß sie immer stabile Systeme sind. Dies 

folgt aus ihrer Definition. IIR-Systeme müssen sehr sorgfältig entworfen werden, damit das Stabilitätskriterium 

erfüllt wird. Ihr Vorteil ist, daß hiermit sehr effiziente, rekursive Berechnungen 

möglich sind. FIR-Systeme lassen sich bei direkter Implementierung über die Faltungssummen 

nicht effizient implementieren. Ab einer bestimmten Filterlänge bietet es sich deshalb an, Eingangssignal 

und Impulsantwort mittels der diskreten Fourier-Transformation (DFT) in den 

Frequenzbereich zu transformieren, dort zu multiplizieren, und dann wieder mittels inverser DFT 

in den Zeitbereich zurückzutransformieren. Dies ist aufgrund der Faltungseigenschaft der DFT 

möglich. Das folgende Kapitel erklärt diese und verwandte Transformationen und deren Zusammenhänge.


2.3.5 Fourier-Transformationen und verwandte Konzepte 

Zeitdiskrete Fouriertransformation 

Definition 2.3 Die zeitdiskrete Fouriertransformation (DTFT) der Folge 

 

Die inverse DTFT ( IDTFT) ist gegeben durch 

 

¦ 

¥§¦ 

¦ 

©¢¡¤£ DTFT 

© ¡¤£©¨ IDTFT 

ist definiert als 

(2.21) 

(2.22) 

Die Existenz der DTFT ist keine triviale Angelegenheit. Ein hinreichendes Kriterium ist die 

absolute Summierbarkeit: 

Eine absolut summierbare Folge ist notwendigerweise ein Energiesignal (siehe Definition 2.1). 

Es gibt jedoch Energiesignale, die nicht absolut summierbar sind. Diese Energiesignale besitzen 

weiterhin eine DTFT, deren Folgen aber in einem schwächeren Sinne konvergieren. Die DTFT 

ist sehr nützlich für theoretische spektrale Analysen, sie ist aber nicht in einem Computer berechenbar, 

weil sie eine Funktion eines kontinuierlichen Arguments ist. 

Diskrete Fouriertransformation 

 

(2.23) 

Beschränkt man sich auf die praktische Situation, in der eine Folge endlicher Länge untersucht 

wird, dann liefert die diskrete Fouriertransformation eine Abbildung zwischen der Sequenz 

¤ ¢ 

 

¦ 

und einer diskreten Menge von Frequenzdomänen-Samples. 

 

Definition 2.4 Die diskrete Fouriertransformation (DFT) einer 

 

Folge 

 

 

¤ 

§ ¡ 

 

©¢¡ £¦§ ¤ ¤ 

¢ 

¢ 

 

Die inverse DFT (IDFT) ist gegeben durch 

 

 

 

 

 

§ 

¤¡ 

 

¤ © ¡ £¦ 

§ ¤ 

¢ 

¢ 

 

 

 

 

 

 

 

 

ist gegeben durch 

DFT 

IDTF 

(2.24) 

(2.25)


Die DFT repräsentiert exakt die Samples der DTFT einer endliche 

 

Folge an 

äquidistanten Frequenzen 

¦¤ ¤ 

für ¤¡ ¢ 

 

 

. Wird die DFT zur Kurzzeit- 

Analyse verwendet, muß man sich die Frage stellen, ob es wichtig ist, zu welchem Zeitpunkt 

der betrachtete Frame auftritt. Wenn dem so ist, kommt die short-term DFT (siehe Gleichung 

(2.26)) zum Einsatz. Andernfalls wird die DFT auf dem üblichen Weg verwendet. Die DFT ist 

für eine Folge definiert, für die angenommen wird, daß sie im Bereich 

 

 

¢ 

 

nicht Null ist. Vor der Berechnung der DFT einer Folge der Länge , wird die Folge in diesen 

Zeitbereich verschoben. Dadurch geht die zu dieser Zeitverschiebung korrespondierende Phaseninformation 

verloren. Durch die Invertierung der DFT mit der üblichen IDFT erhält man wieder 

die Folge im Bereich 

 

 

¢ 

. Dies ist von geringer praktischer Bedeutung, da sich 

der Benutzer des Algorithmus über diese Zeitverschiebung im Klaren ist. Die Unterschlagung 

der korrekten Verzögerung hat keinen Effekt auf das Amplitudenspektrum und keine praktische 

Auswirkung auf das Phasenspektrum. Für die Berechnung der diskreten Fouriertransformation, 

bei der die korrekte Verzögerung erhalten bleibt, verwendet man 

 

¡ 

 

¥ 

¢ ©§¦ 

§ 

 

£¦ 

¤ ¢ 

 

 

 

stDFT 

¤ 

¤£ (2.26) 

¢ 

 

die short-term DFT (stDFT) 

¤ 

genannt wird. 

¡ 

§ ¥ stellt 

 

einen Frame der dar, der 

zum Zeitpunkt endet. Das Frame-Konzept wird in 

 

Kapitel 3.1 genauer erläutert. Die Inverse 

Länge 

zur short-term DFT erhält man durch 

 

 

 

¥ 

 

§ 

¤¡ 

 

 

und heißt short-term IDFT (stIDFT). 

Diskrete Fourierreihe 

¢ 

¢ ¤ 

¦¨£¦ § © ¤ 

 

andere 

 

 

stIDFT 

(2.27) 

Die diskrete Fourierreihe (DFS) ist bezüglich der Berechnung eng verwandt zur DFT, wird 

aber völlig anders interpretiert. Die DFS wird dazu benutzt, periodische Periode 

Folgen der 

darzustellen, indem eine Menge von Basisfunktionen © ¡ § £¦ 

für ¤ ¤ ¢ 

verwendet 

 

wird. Diese Menge die repräsentiert harmonischen Frequenzen, die das Signal darstellen. Für 

eine periodische 

 

Folge ist die Expansion gegeben durch 

 

wobei die Koeffizienten durch 

berechnet werden. 

 

¨ 

§ 

¤¡©¨ 

¤ 

¤ © ¡ £¦§ ¤ 

§ ¡ 

DFS 

(2.28) 

©¢¡ £¦§ 

(2.29) 

¤


z-Transformation 

Die (zweiseitige) z-Transformation ist die letzte Transformation, die vorgestellt werden soll. Sie 

ist ein wichtiges Werkzeug für die Analyse, den Entwurf und die Implementation digitaler Filter. 

Definition 2.5 Die (zweiseitige) z-Transformation für ein zeitdiskretes Signal 

als 

¡ 

¢ 

wobei eine komplexe Zahl ist, für die gilt 

 

 

 

£ 

£ ¢ £ £ 

ZT 

ist definiert 

(2.30) 

(2.31) 

Definition 2.6 Der Konvergenzradius (region of convergence) ROC der 

¡ 

z-Transformation 

ist definiert als die Teilmenge der komplexen ¤ z-Ebene , für die (2.30) konvergiert, 

Region Of Convergence 

¥ 

¤ 

¦ 

 

 

©¨ § 

(2.32) 

Der Konvergenzradius ist ein wichtiges Konzept, er erlaubt die eindeutige Umkehrung der 

z-Transformation und liefert praktische Charakterisierungen der Kausalitäts- und Stabilitätseigenschaften 

eines Signals oder Systems. Die z-Transformation und ihr ROC sind eindeutig 

durch das Zeitsignal bestimmt. Abhängig vom Zeitsignal kann der ROC das Innere eines 

Kreises, das Äußere eines Kreises oder ein 

 

Kreisring der ¥ Form sein, wobei 

Null und ¥ unendlich sein kann. Da es möglich ist, daß zwei verschiedene Zeitsignale die 

gleiche z-Transformation besitzen, können solche Signale nur durch die Konvergenzbereich ihrer 

z-Transformationen unterschieden werden. 

¡ ¡ 

Es gibt bei der z-Transformation so viele Terme, die nicht Null sind, wie es Signalwerte gibt. 

Die Terme können als Platzhalter für die Werte angesehen werden. Wenn das Signal 

 

kausal ist, kommen nur negative Exponenten in der Expansion vor. Ist 

 

strikt antikausal 

 

und nicht Null für 

, dann erscheinen nur positive Exponenten in der Expansion. Ist 

 

 

sowohl kausal als auch antikausal, dann erscheinen sowohl negative als positive Exponenten in 

der Expansion. 

Definition 2.7 Die inverse z-Transformation wird formal durch Kontour-Integration 

 

 

¦ 

¡ ¢ § 

¨ 

IZT 

(2.33) 

definiert, wobei ¨ eine entgegen dem Uhrzeigersinn verlaufende, geschlossene Kontour durch 

den ROC ist, die den Ursprung der z-Ebene enthält.


£§ 

Impulsantwort ¢ 

I/O Differenzengleichung 

I/O Faltungsgleichung 

Transferfunktion 

¦ 

£¡ § 

Filterentwurfsmethode 

Frequenzantwort 

¦ 

£ £§ 

Pol/Nullstellen- 

Diagramm 

Blockdiagramm- 

Realisierung 

Abbildung 2.10: Äquivalente Beschreibungen digitaler Filter 

Die Berechnung der inversen z-Transformation kann beispielsweise mittels Partialbruchzerlegung 

erfolgen. 

Die Definition 2.5 kann auch auf die ¤ 

Impulsantwort 

werden. 

Definition 2.8 Die z-Transformation der ¤ 

Impulsantwort 

Transferfunktion genannt und ist definiert als 

 

¤ 

eines digitalen Filters angewendet 

 

eines digitalen Filters wird 

¦ § 

(2.34) 

¡ 

Die Transferfunktion ist sehr wichtig, weil aus ihr (a) die ¤ 

 

Impulsantwort , (b) die Differenzengleichung, 

die durch die Impulsantwort erfüllt wird, (c) die I/O Differenzengleichung, die die 

 

 

Ausgabe mit 

 

Eingabe in Beziehung setzt, (d) die Blockdiagramm-Realisierung eines 

 

Filters, (e) der Sample-by-sample-Verarbeitungsalgorithmus, (f) das Pol/Nullstellen-Diagramm 

und (g) ¡ 

die Frequenzantwort abgeleitet werden kann. Dies gilt auch in umgekehrter 

Richtung. Abbildung 2.10 verdeutlicht den Zusammenhang. 

Beziehungen zwischen den Transformationen 

Nachdem die wichtigsten Transformationen vorgestellt worden sind, besteht nun noch die 

Frage, in welcher Beziehung diese Transformationen zueinander stehen. Aus den Definitionen 

der beiden Fouriertransformationen und der z-Transformation folgt 

¤£ 

 

 

¨ 

© ¡ £ 

(2.35)

2.4. ZUSAMMENFASSUNG 39 

für jedes so daß die DTFT an der Frequenz durch Auswertung der z-Transformation am 

Winkel 

auf dem Einheitskreis in der z-Ebene erhalten werden kann. Dies gilt natürlich nur, 

wenn der ROC der z-Transformation den Einheitskreis der z-Ebene enthält3 . Da die DFT die 

Samples der DTFT an Frequenzen mit ¤ ¢ 

 

¤ 

darstellt, erhält man sie durch 

Auswertung der z-Transformation an Winkeln mit gleichbleibendem Abstand auf dem Einheitskreis 

der z-Ebene: 

 

¤£ 

 

¤ ¤£ 

2.4 Zusammenfassung 

¡ 

 

¤ ¤ ¦ 

¨ 

© ¡ £¦ 

§ 

¤¢¡ 

(2.36) 

Das Kapitel 2 führte in die theoretischen Grundlagen der Sprachverarbeitung ein. Es wurde ein 

Einblick in den menschlichen Sprachapparat (Kapitel 2.2.1) und die Bildung von Sprachlauten 

(Kapitel 2.2.2 und 2.2.3) gegeben. Wichtige Erkenntnis hierbei ist, daß Vokale als Signale mit 

periodischer Wellenform angesehen werden können. Konsonanten sind in der Regel rauschförmige 

Signale. In Kapitel 4.2 wird ein Segmentierungsverfahren vorgestellt, für das Pitch- 

Verläufe aus der Sprachdatei ermittelt werden müssen. Die Berechnung der Pitch-Werte 

geschieht ausschließlich auf der Grundlage von auftretenden Vokalen und damit auf der Detektion 

von periodischen Anteilen im Signal. Die Pitch-Detektions-Algorithmen, die in Kapitel 3.4 

vorgestellt werden, ermitteln die Perioden- und somit die Pitch-Werte für die Dauer des Vokals. 

Darüber hinaus wurde in Kapitel 2.2.4 ein einfaches Modell zur Realisierung der künstlichen 

Spracherzeugung basierend auf diesen Grundlagen vorgestellt. Dieses Modell wird oftmals auch 

zur Sprachanalyse herangezogen. Das Kapitel 2.3.1 beschäftigte sich mit den wichtigsten Konzepten 

der digitalen Signalverarbeitung, die die theoretische Basis für die digitale Sprachverarbeitung 

liefern. Auf den eben genannten Grundlagen aufbauend werden in Kapitel 3 Konzepte 

zur Analyse von Audio-Dateien vorgestellt. 

3 Der ROC enthält den Einheitskreis genau dann, wenn © £ ¥¨§ absolut summierbar ist.

Kapitel 3 

Extraktion von Audio-Features 

Auf den ersten Blick beinhalten Audiosignale nur eine Information: die Amplitude über die 

Zeit (die Wellenform des Signals). Es gibt aber noch eine Vielzahl von anderen Eigenschaften, 

die sich aus dem zeitlichen Verlauf des Signals ermitteln lassen. Hierzu gehören beispielsweise 

der Verlauf der Energie und der Nulldurchgangsrate, das Frequenzspektrum sowie im Falle von 

Sprachsignalen der Pitch-Verlauf. 

Zunächst wird in Kapitel 3.1 das sogenannte Windowing eingeführt. Dieses Konzept ist 

elementar und Voraussetzung für alle Analysetechniken, die in diesem Kapitel verwendet 

werden. Die Kapitel 3.2, 3.3 und 3.4 stellen drei sogenannte Audio-Features des Audiosignals 

vor, die extrahiert werden können, um hiermit high level-Informationen zu erzeugen. Die ersten 

zwei Signaleigenschaften, short-term energy und short-term zero crossing rate, sind sehr einfach 

zu ermittelnde Features, während die dritte Eigenschaft, Pitch (Fundamentalfrequenz), einen 

höheren Aufwand erfordert. Die einzelnen, mittels Windowing, extrahierten Audio-Features 

werden dann geeignet kombiniert, um Informationen auf höherem Level zu generieren. 

3.1 Windowing / Frames 

In allen praktischen Signalverarbeitungsanwendungen muß mit kurzen Ausschnitten des zu verarbeitenden 

Signals gearbeitet werden. Dies trifft vor allen Dingen dann zu, wenn herkömmliche 

Analysetechniken auf nichtstationäre Signale angewendet werden sollen. Beispielsweise sind 

Sprachsignale solche nichtstationären Signale. In diesem Fall muß ein Teil des Signals ausgewählt 

werden, der berechtigterweise als stationär angenommen werden kann. 

3.1.1 Windowing 

Ein Fenster (engl.: 

 

Window) ist eine reelle, endliche Folge, die benutzt wird, um einen 

gewünschten Ausschnitt aus dem Originalsignal auszuwählen. Dies geschieht durch eine 

40

3.1. WINDOWING / FRAMES 41 

einfache Multiplikation des Signals mit 

für ein Hanning- und ein Rechteck-Fenster. 

. Abbildung 3.1 verdeutlicht diesen Vorgang 

 

Länge 

¢ 

für 

 

Ein Window der ist eine kausale Folge, es gilt also 

¢ 

und 

 

§ 

 

wenn Die meisten verwendeten Windows sind symmetrisch um den Zeitpunkt ¦, 

wobei dieser Zeitpunkt in der Mitte zwischen zwei Abtastpunkten liegt, gerade ist. 

Windows lassen sich als symmetrische FIR-Filter auffassen (vergleiche Kapitel 2.3.4). 

Der Windowing-Prozeß hat im allgemeinen zwei Haupteffekte: 

1. Der Windowing-Prozeß reduziert die Frequenzauflösung des berechneten Spektrums. Der 

kleinste auflösbare Frequenzunterschied ist durch die Länge des Datensatzes beschränkt, 

somit gilt ¥¢¡ § 

 

§ 

 

, wobei die Länge des Fensters und 

das Abtastintervall 

repräsentieren. Dies nennt man das uncertainty principle. 

2. Der Windowing-Prozeß addiert zusätzliche hohe Frequenzkomponenten zum Spektrum 

hinzu, die durch das scharfe Clipping des Signals am linken und rechten Rand 

eines Windows erzeugt werden. Dieser Effekt ist als frequency leakage bekannt. 

¤£ 

Anhand eines Rechteck-Fensters sollen nun einige wichtige Begriffe geklärt werden, die in 

Abbildung 3.2 verdeutlicht sind. Bei dieser Abbildung ist zu beachten, daß das Spektrum aus 

Symmetriegründen nur für positive Frequenzen dargestellt ist. Das Amplitudenspektrum des 

Rechteck-Fensters besteht aus dem sogenannten Höhe 

 

mainlobe der dessen Breite durch 

die Länge des Fensters mit gegeben ist und der sein Zentrum bei besitzt, 

¢ 

und 

kleineren sogenannten sidelobes. Der mainlobe-Peak bei (DC) dominiert das 

¢ 

Spektrum, 

da 

 

die Fensterfunktion auf 

¢ 

dem 

 

Bereich ein DC-Signal 1 ist. Die höheren 

Frequenzkomponenten stellen die scharfen 

 

Übergänge von an ihren Endpunkten dar. Die 

mainlobe-Breite ¥¢¡ bestimmt 

 

die Frequenzauflösung des "gefensterten" Spektrums. 

Wenn größer gewählt wird, wächst die Höhe des mainlobes und die Breite nimmt ab. Jedoch 

steigt auch die Höhe der sidelobes relativ zur Höhe des mainlobes und bleibt in etwa dB tiefer. 

Die sidelobes bestimmen das Ausmaß der ungewünschten Artefakte des Windowing-Prozesses. 

Sie müssen so gut als möglich unterdrückt werden. Aus dem gerade beschriebenen lassen sich 

zwei gewünschte Eigenschaften für das Spektrum der Fensterfunktion ableiten: 

¥ 

1. Die Breite des mainlobes sollte möglichst gering sein. 

2. Die Abschwächung der sidelobes sollte möglichst groß sein. 

Vorteil des Rechteck-Fensters ist, daß es die zeitlichen Eigenschaften des Signals erhält. Allerdings 

ist die Abschwächung der sidelobes eher gering. Eine Standardtechnik zur Unterdrückung 

der sidelobes ist die Benutzung eines nicht-rechteckigen Fensters. Die mathematischen 

Definitionen von vier Alternativen werden in Tabelle 3.1 vorgestellt. Diese Windows schneiden 

1 Der Begiff DC-Signal steht für eine konstantes Signal. In der Elektrotechnik werden konstante, analoge Signal 

als Gleichspannungssignale bezeichnet.

42 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES 

Amplitude 

Amplitude 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0 50 100 150 200 250 300 350 400 450 500 

Zeit (Samples) 

0.3 

0.2 

0.1 

0 

−0.1 

−0.2 

−0.3 

−0.4 

Amplitude 

0.3 

0.2 

0.1 

0 

−0.1 

−0.2 

−0.3 

−0.4 

(b) Hanning-Fenster 

50 100 150 200 250 300 350 400 450 500 


(d) Sprachsignal mit Hanning- 

Window multipliziert 

50 100 150 200 250 300 350 400 450 500 


(a) Sprachsignal 

Amplitude 

Amplitude 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0 50 100 150 200 250 300 350 400 450 500 


0.3 

0.2 

0.1 

0 

−0.1 

−0.2 

−0.3 

−0.4 

(c) Rechteck-Fenster 

50 100 150 200 250 300 350 400 450 500 


(e) Sprachsignal mit Rechteck- 

Window multipliziert 

Abbildung 3.1: Ein Ausschnitt aus einem Sprachsignal [24] wird (a) mit einem Hanning-Fenster, (b) mit 

einem Rechteck-Fenster multipliziert.


¡¢ £ 

£§¡ 

0 ¦ 

mainlobe 

 

relative 

sidelobe level 

R=13 dB 

sidelobes 

£ 

¦ 

Abbildung 3.2: Amplitudenspektrum eines Rechteck-Fensters 

Name Zeitbereichsfolge 

Rechteck £¥¤§¦©¨¡ 

Hamming £¥¤§¦©¨¡ 

Hanning £¥¤§¦©¨¡ 

Kaiser £¤§¦©¨¡ 

£ 

£ ¦ 

£¨ £ 

¦ 

§ ¦ £ ¦ 

£ ¦ 

£ ¦ 

¦ § £ ¦ 

£¨ 

¤ £ ¨¤ £ ¨ ¤ £ 

 

 

¡ 

£ ¦ 

¡ 

Tabelle 3.1: Mathematische Definiton verschiedener Fensterfunktionen 

 

¤¡© ¤ 

¨ £ ¦ 

mit


das Signal nicht so abrupt ab wie das Rechteck-Fenster, sondern verwenden einen sanfteren 

Übergang zu Null. Die spektralen Eigenschaften dieser Windows werden in Abbildung 3.3 verdeutlicht 

und können allgemein so beschrieben werden: 

Für gegebenes haben alle einen breiteren mainlobe als das Rechteck-Fenster. Auch hier 

gilt, daß die Breite abnimmt, wenn vergrößert wird. 

Alle besitzen eine bessere Abschwächung der sidelobes, typischerweise 

¢ ¦ 

¢ dB besser. 

Bei der Analyse von nichtstationären Signalen wie Sprache, müssen folgende Überlegungen angestellt 

werden: Aus der obigen Diskussion folgt, daß eine Verlängerung der Fensterfolge unabhängig 

vom Typ nur positive Konsequenzen hat. Wenn ein Fenster jedoch dazu benutzt wird, um 

sequentiell Teile aus dem nichtstationären Signal auszuschneiden, in dem es zeitlich verschoben 

wird, benötigt ein längeres Fenster eine längere Periode um über Grenzübergänge im Signal 

hinwegzugehen. Ereignisse aus verschiedenen quasi-stationären Bereichen verschwimmen dann 

eher miteinander, als bei kurzen Fenstern. Ein Trade-Off betrifft also die Fensterlänge. Ein langes 

Fenster produziert ein besseres spektrales Bild des Signals, während ein kurzes Fenster die 

zeitlichen Ereignisse im Signal besser auflöst. Dieser Trade-Off wird auch spectral temporal 

resolution trade-off genannt. 

3.1.2 Frames 

Ein Frame stellt einen Ausschnitt aus einem Sprachsignal dar, der mittels Windowing erzeugt 

wird. Formal ist er eine neue Sequenz bezüglich 

, deren Werte Null sind außerhalb des Intervalls 

 

 

 

. Der durch diesen Prozeß entstandene Frame hängt auch von der Zeit 

ab, so daß er ein zweites Argument erhält (und ein implizites Argument ). 

 

Definition 3.1 Einen Frame ¥ © 

endet, erhält man durch 

wobei 

 

© 

¥ 

ein Window darstellt. 

 

3.1.3 Extraktion von Audio-Features 

eines Signals der Länge , der zum Zeitpunkt 

 

Auf den beschriebenen Konzepten Windowing und Frames aufbauend soll nun die Extraktion 

von Audio-Features formalisiert ¥ werden. Angenommen, sei eine Langzeit-Eigenschaft, die 

helfen soll, ein Problem zu lösen. Im allgemeinen kann es eine ganze Familie von Eigenschaften 

geben, von denen jede von ¡ einem Index abhängt. Die allgemeine Langzeit-Eigenschaft der 

Folge wird im folgenden ¥ 

¡ 

mit bezeichnet. Eine weitere Annahme besteht darin, 

 

daß 

¡ 

sich 

 

aus ¥ 

durch 

¥ 

¡ ¢ 

£ ¡ 

¨ 

© ¥¤ ¨ 

£ ¡ 

¨ 

© © 

(3.1) 

(3.2)


Amplitude [dB] 


40 

35 

30 

25 

20 

15 

10 

5 

0 

−5 

−10 

0 50 100 150 200 250 

Amplitude 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

DFT eines Rechteck−Fensters der Länge 64 

(b) Amplitudenspektrum eines 

Rechteck-Fensters 

40 

20 

0 

−20 

−40 

−60 

−80 

−100 

−120 

DFT eines Hanning−Fensters der Länge 64 

−140 

0 50 100 150 200 250 

(d) Amplitudenspektrum eines 

Hanning-Fensters 

0 

Rechteck 

Hanning 

Hamming 

Kaiser 

10 20 30 


40 50 60 

(a) Verschiedene Fensterfolgen im 

Vergleich 



40 

20 

0 

−20 

−40 

−60 

−80 

DFT eines Hamming−Fensters der Länge 64 

−100 

0 50 100 150 200 250 

(c) Amplitudenspektrum eines 

Hamming-Fensters 

40 

20 

0 

−20 

−40 

−60 

DFT eines Kaiser−Fensters der Länge 64 und alpha=4 

−80 

0 50 100 150 200 250 

(e) Amplitudenspektrum eines 

Kaiser-Fensters 

£ 

¡ 

£ 

¤¢¡ ¡§¦©¨© ¤¢¡ 

Abbildung 3.3: Abbildung (a) zeigt verschiedene Fensterfolgen im direkten Vergleich, (b)-(e) die Amplitudenspektren 

dieser Fenstertypen. Die x-Achse stellt die Frequenzachse dar. entspricht der 

digitalen Frequenz , entspricht der Frequenz .


berechnen läßt, wobei ¢ 

£ ¡ eine Operation ist, die im allgemeinen nichtlinear und abhängig von 

¡ ist. ¤ steht für einen Langzeit-Mittelwert 

¤ ¨ 

©¡ ¥ 

£¢ 

¦ 

Für die gebräuchlichsten Langzeit-Eigenschaften hat sich gezeigt, daß ¢ 

¢ 

£ ¡ ¥¤¥¤ £ ¡ 

 

¨ 

£ ¡ 

zerlegt werden kann, wobei eine Operation ist, die eine neue Folge bezüglich 

produziert und ¤ ¥ ¡ 

 

für ¥ 

einen kurzen Zeitraum ¡ der zeitliche Mittelwertoperator ist. Für die Berechnung einer 

" "-Eigenschaft 

kann 

 

das folgende Konstruktionsprinzip verwendet werden [9]: 

© 

£ ¡ 

1. Wähle einen gewünschten Frame Länge der mit Hilfe eines Windows 

Signal aus, 

 

 

2. Wende eine “ ¢ ¡ 

”-Operation ¢ ¦ ¡ 

auf diesen Frame an: 

£ 

¥ 

¡ 

¥ 

wobei angenommen wird, daß ¢ 

¦ ¡ 

 

¢ ¡ ¦ 

 

¨ 

 

 

 

 

in 

¦ 

¦ 

¢ ¡ ¢ 

zerlegt werden kann, wie ¢ 

£ ¡ ¤§¤ £ ¡ 

¡ 

¡ 

 

¤ 

¢ 

¢ © 

¨ 

¨ 

 

¥ © 

¦ ¡ 

im Langzeit-Fall. 

¢ © 

in 

(3.3) 

(3.4) 

aus dem 

Es ist zu bemerken, daß ¦ ¡ 

oftmals dieselbe Operation wie 

£ ¡ 

ist. Wir beschränken uns nun 

 

auf solche Fälle 

¥ 

¡ 

 

£ ¡ 

¨ 

 

¢ © 

Mit Hilfe eines Windows wurde ein Frame aus dem Sprachsignal herausgeschnitten und eine 

ähnliche Operation angewendet, wie dies im Langzeit-Fall getan wurde. 

(3.5) 

(3.6) 

(3.7) 

(3.8) 

(3.9)

3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47 

Der Leistungstest für einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit- 

Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad für den gilt: 

 

¥ ¥ 

¡ 

Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie 

oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und 

die 

¡ 

. Für ein festes ergeben sich zwei konkurrierende Faktoren für die Wahl des 

Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen 

Länge 

die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei 

gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert 

die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt 

wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht 

so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann für einen 

kurzen von¦ 

¢ 

Zeitraum als stationär angenommen werden, so daß Länge die entsprechend 

gewählt werden kann. 

¡ 

(3.10) 

In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik 

können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht 

werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen. 

Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet 

werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen, 

sind zur Bestimmung von high level-Informationen sehr hilfreich. 

3.2 Short-term energy und short-term power 

Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert. 

Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht 

werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben 

die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße 

können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur 

Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal 

(engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen 

mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung 

von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte für 

stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten, 

so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit 

Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel 

4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der 

Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.


Formal lassen sich short-term energy und short-term power wie folgt definieren: 

Definition 3.2 Die short-term energy eines Signals über einem endlichen Intervall 

 

läßt sich wie folgt berechnen: 

 

¥ ¡ ¨ 

Die 

 

läßt sich durch 

Signalenergie 

¡©£ § 

¡ 

(3.11) 

(3.12) 

und die mittlere Leistung des Signals 

¨ durch 

 

ausdrücken. 

Die Energie eines periodischen Signals über eine einzige Periode, z.B. 

¢ 

, ist 

endlich, wenn 

nur endliche Werte in diesem Bereich annimmt. Jedoch ist die Energie eines 

 

periodischen Signals für 

unendlich. Andererseits ist die mittlere Leistung eines 

periodischen Signals endlich und stimmt mit der mittleren Leistung über eine Periode überein. 

 

(3.13) ¦ ¨ 

Definition 3.3 Sei ein periodisches Signal mit Grundperiode , das nur endliche Werte 

annimmt. Dann ist seine short-term power durch 

¥ 

 

(3.14) 

 

gegeben. 

Da beide Begriffe eine äquivalente Information liefern, wird in der Regel die einfacher zu 

berechnende short-term energy bevorzugt. Abbildung 3.4 zeigt den Verlauf 

 

für ein Sprach- 

¥ 

signal mit einer Länge von 15 Sekunden. 

der 

¤£ ¡ 

§ 

¡ 

3.3 Short-term zero crossing rate 

Die Anzahl der Nulldurchgänge (die Anzahl der Vorzeichenwechsel innerhalb einer Signalfolge) 

ist eine nützliches Feature bei der Sprachanalyse. Es ist ein einfaches Maß für den Frequenzverlauf 

eines Signals. Ist die Nulldurchgangsrate innerhalb eines bestimmten Zeitabschnitts hoch 

(niedrig), so kann in gewissen Grenzen auf ein Signal geschlossen werden, das hohe (tiefe)

3.3. SHORT-TERM ZERO CROSSING RATE 49 

Amplitude 

short−term energy 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

Sprachsignal 

−1 

0 0.5 1 1.5 2 


0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

Energie−Verlauf 

0 

0 500 1000 1500 

Frames 

Abbildung 3.4: Ausschnitt aus einem Sprachsignal [24] und dessen short-term energy-Verlauf (Frame- 

Länge = 10 ms, Time-Shift = 10 ms) 

x 10 5


Frequenzanteile enthält. Dieses Maß kann zusammen mit der short-term energy zur Endpunkt- 

Detektion eingesetzt werden. Das Problem, die Endpunkte einer diskreten Aussage zu bestimmen, 

ist ein wichtiges Problem in vielen Sprachverarbeitungsanwendungen. Bei der Erkennung von 

Wörtern durch Vergleichen des akustischen Signals mit einer "Vorlage" ist es beispielsweise notwendig, 

das zu erkennende Wort von "nichtsprachlichen" Bereichen zu befreien, die Fehler bei 

der Erkennung hervorrufen können. Auf den ersten Blick scheint dies relativ einfach zu sein. 

In der Praxis hat sich herausgestellt, daß dies nur bei sehr hohen signal-to-noise-ratio-Werten 

der Fall ist [9]. Ein verwandtes Problem stellt die Klassifikation von Sprache in stimmhafte und 

stimmlose Bereiche dar. Will man beispielsweise wissen, wann die Bestimmung der Pitch nötig 

ist, kann die short-term zero crossing rate in Verbindung mit der short-term energy dazu herangezogen 

werden, um mögliche stimmhafte Bereiche zu bestimmen. Während die short-term 

energy üblicherweise in stimmhaften Segmenten größer ist, ist die short-term zero crossing rate 

dagegen in stimmlosen Segmenten größer. Viele Pitch-Detektions-Algorithmen verwenden diese 

Maße zur Klassifikation des Sprachsignals. Einige dieser Pitch-Detektions-Algorithmen werden 

in den folgenden Abschnitten vorgestellt. ZHANG, KUO nutzen die short-term zero crossing rate 

auch zur Klassifikation von Umgebungsgeräuschen [40][41]. 

Formal läßt sich die short-term zero crossing rate wie folgt definieren: 

Definition 3.4 Sei eine Signalfolge der Länge , die zum Zeitpunkt endet. Dann 

läßt sich die short-term zero crossing rate durch 

mit 

¨ 

¡ 

¥ 

¡ 

berechnen. Hierbei stellt 

¡©£ § 

¡ 

 

¨ 

 

© 

eine Window dar. 

¨ 

© 

¦ 

¦ 

 

(3.15) 

 

 

¨ 

 

 

© 

¢ (3.16) 

 

 

§ ¢ 

 

Für wird in den meisten Fällen ein Rechteck-Fenster verwendet. Abbildung 3.5 zeigt den 

zeitlichen Verlauf der short-term zero crossing rate anhand eines Beispiels aus [24]. 

3.4 Fundamentalfrequenz (Pitch) ¢ ¢ 

Der Verlauf der Pitch und damit die Satzmelodie einer Äußerung ist für diverse Anwendungen 

und Probleme der Sprachverarbeitung von großer Bedeutung. Er ist beispielsweise nützlich für 

die Sprechererkennung und gibt wertvolle Einblicke in die Natur der Anregungsquelle für die 

Sprachproduktion. In dieser Arbeit soll mit Hilfe von Betonungen versucht werden, einen aufgezeichneten 

Vortrag in inhaltliche Teilabschnitte zu segmentieren. Hintergrund dessen ist die Feststellung, 

daß es eine hohe Korrelation von Tonhöhenvariabilität und der Einführung 

neuer Themengebiete gibt. Es zeigte sich, daß ein Anstieg der Pitch ein guter Indikator hierfür 

ist [15][17]. Betonungen sind oft verbunden mit einem Anstieg der Pitch.

3.4. FUNDAMENTALFREQUENZ (PITCH) ¢¡ 

Amplitude 

short−term ZCR 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

Sprachsignal 

−1 

0 0.5 1 1.5 2 


0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

ZCR−Verlauf 

0 

0 500 1000 1500 

Frames 

Abbildung 3.5: Ausschnitt eines Sprachsignals [24] und dessen ZCR-Verlauf ( Frame-Länge = 10ms, 

Time-Shift = 10ms ) 

x 10 5 

51


Probleme bei der Bestimmung der Pitch 

Zunächst stellt sich jedoch die Frage, wie die Pitch aus dem aufgezeichneten Sprachsignal 

extrahiert werden kann. Eine genaue und reliable Messung der Pitch eines Sprachsignals aus 

der akustischen Wellenform alleine ist oftmals aus verschiedenen Gründen sehr schwierig. Ein 

Grund ist, daß die Anregungswellenform keine perfekte Folge periodischer Impulse ist. Es ist 

einfach, die Periode eines perfekt periodischen Signals festzustellen. Leider trifft dies für Sprachsignale 

nicht zu, da die Wellenform eines Sprachsignals in der Periode und in der Struktur innerhalb 

der Periode variiert. Eine zweite Schwierigkeit besteht in der Interaktion von Vokaltrakt 

und Lautanregung, da in manchen Fällen die Formanten des Vokaltrakts die Struktur der Lautanregungswellenform 

signifikant verändern können. Das dritte Problem besteht in der 

exakten Bestimmung der Anfangs- und Endpunkte der Periode innerhalb stimmhafter Sprachsegmente. 

Auch hierzu gibt es verschiedene Ansätze, die zu unterschiedlichen und möglicherweise 

unberechtigten Schätzungen der Pitch führen können. Ein weiteres Problem stellt die 

Unterscheidung von stimmlosen und stimmhaften Sprachsegmenten mit niedriger Amplitude 

dar. In vielen Fällen sind die Übergänge zwischen diesen Segmenten sehr subtil und deshalb 

schwer auszumachen. Zu diesen Problemen der Messung der Grundfrequenz kommen noch 

weitere Schwierigkeiten hinzu. Oftmals enthält die Aufzeichnung des Sprachsignals einen 

starken Rauschanteil und/oder Hintergrundgeräusche, wodurch vor allen Dingen die 

Unterscheidung von stimmhaften und stimmlosen Sprachsegmenten beeinflußt wird. Zudem 

spielt die Anwendungsdomäne eine nicht unerhebliche Rolle. Als Beispiel sei hier das Telefonsystem 

genannt. Es agiert als Bandpass-Filter und filtert Frequenzen unterhalb von etwa 200 Hz 

und Frequenzen oberhalb von etwa 3200 Hz aus dem ursprünglichen Sprachsignal heraus. Der 

Pitch-Verlauf eines männlichen Sprechers bewegt sich zwischen etwa 80 Hz und 300 Hz. Dies 

bedeutet aber, daß ein Teil dieses Spektrums durch das Telefonsystem zumindest sehr stark abgeschwächt 

wird, was die Bestimmung der Pitch weiter erschwert [28]. 

Pitch-Detektion 

Im folgenden wird das Vorgehen bei der Bestimmung der Pitch und der Unterscheidung 

zwischen stillen, stimmlosen und stimmhaften Sprachsegmenten genauer erläutert. Bevor aber 

auf die einzelnen Algorithmen eingegangen wird, soll grob die Vorgehensweise skizziert werden, 

die sich bei den betrachteten Algorithmen nur in Details unterscheidet. Abbildung 3.6 verdeutlicht 

den Vorgang. 

Angenommen, das Sprachsignal liegt schon als Datei vor. Es wird nun in Frames gleicher Länge 

unterteilt, die sich überlappen können. Diese Vorgehensweise wurde unter dem Begriff 

Windowing in Kapitel 3.1 eingeführt. Übliche Werte für die Länge der Frames liegen im Bereich 

¢ 

bis ¥ 

¢ 

. Nun wird die short-term energy der einzelnen Frames ermittelt (vergleiche 

Kapitel 3.2). Ist deren Wert kleiner als ein gewählter Schwellwert, so wird das Sprachsignal 

von¦ 

innerhalb des betrachteten Frames als Stille charakterisiert. Andernfalls wird nun versucht, die 

Pitch mit einem der nachfolgend beschriebenen Verfahren zu bestimmen. Diese Verfahren 

bestimmen zunächst, ob der betrachtete Frame einen stimmhaften oder ein stimmlosen Laut


Sprache/Pause 

Sprachsignal 

Windowing des Signals 

Ermittlung der short-term energy 

und der short-term zero crossing rate 

Sprache/Pause-Entscheidung 

Verfahren zur Bestimmung der 

Pitch 

Entscheidung stimmhaft / stimmlos 

stimmhaft / stimmlos 

Abbildung 3.6: System zur Pitch-Detektion [12] 

Pitch F0 

beinhaltet. Im Falle eines stimmhaften Lautes wird die Pitch berechnet und ausgeben, andernfalls 

wird in der Regel die Pitch gleich Null gesetzt. Die Bestimmung, ob ein Frame einen 

stimmhaften oder einen stimmlosen Laut enthält, geschieht in den einzelnen Algorithmen auf 

unterschiedliche Art und Weise. Oft wird die Klassifikation aus einer bestimmten Kombination 

von ¢¡ , £¥¤§¦¨¡ und Spitzenwert der Periodenberechnungsfunktion ermittelt. Beispielsweise verwenden 

ROSS, ET AL. [30] eine ausgeklügelte Logik im Anschluß an die Periodenbestimmung. 

BOERSMA [5] bestimmt für jeden Frame eine Menge von möglichen Kandidaten, die durch 

eine Gewichtungsfunktion bewertet werden. Daran anschließend wird mit Hilfe von dynamischer 

Programmierung ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Als Nebenprodukt 

der Bestimmung der Pitch erhält man durch die Klassifikation in stimmhafte, stimmlose 

und stille Segmente eine (einfache) Pausendetektion. Zur Verdeutlichung, wie ein Pitch-Verlauf 

aussehen kann, zeigt die Abbildung 3.7 Ausschnitte aus Pitch-Verläufen verschiedener Sprecher, 

die [23] und [24] entstammen. Es ist gut erkennbar, daß der Pitch-Verlauf der Dozentin insgesamt 

höher angesiedelt ist, als der der männlichen Vortragenden. 

Für die Bestimmung der Pitch gibt es eine Vielzahl verschiedener Ansätze. Im Rahmen 

dieser Arbeit werden nur Pitch-Detektions-Algorithmen (PDA) vorgestellt, die versuchen, die 

Periode des Signals zu bestimmen. Hierzu wird idealisierend angenommen, das Sprachsignal 

sei ein Zufallsprozeß und für eine gewisse Zeit von etwa © stationär. Fünf Ansätze 

zur Bestimmung der Pitch, die auch (teilweise vereinfacht) zu Versuchszwecken implementiert 

wurden, werden in den folgenden Kapiteln genauer beschrieben, wobei nur die dahinterstehende 

Idee vermittelt werden soll. Es wird sich zeigen, daß die Pitch allein mit Ausführung der jeweiligen 

Funktion nicht zufriedenstellend bestimmt werden kann. In der Regel muß sich noch 

53


Frequenz [Hz] 

Frequenz [Hz] 

250 

225 

200 

175 

150 

125 

100 

75 

50 

9700 9750 9800 9850 9900 9950 

Frame-Index 

10000 10050 10100 10150 10200 

250 

225 

200 

175 

150 

125 

100 

75 

(a) männlich 

50 

2000 2050 2100 2150 2200 2250 

Frame-Index 

2300 2350 2400 2450 2500 

(c) männlich 

Frequenz [Hz] 

Frequenz [Hz] 

250 

225 

200 

175 

150 

125 

100 

75 

50 

9500 9550 9600 9650 9700 9750 

Frame-Index 

9800 9850 9900 9950 10000 

250 

225 

200 

175 

150 

125 

100 

75 

(b) männlich 

50 

9000 9050 9100 9150 9200 9250 

Frame-Index 

9300 9350 9400 9450 9500 

(d) weiblich 

Abbildung 3.7: Pitch-Verläufe verschiedener Dozenten, hier Ausschnitte aus [23] und [24]; die Dozenten 

(a) bis (c) sind männlich, (d) ist weiblich.


eine Nachverarbeitung anschließen, für die zum Teil erheblicher Aufwand betrieben wird. 

In den folgenden Abschnitten werden nun die Ideen und Konzepte der PDAs erläutert, die 

auf der Grundlage von Autokorrelation, Average Magnitude Difference Function und reellem 

Cepstrum operieren. Sie wurden ausgewählt, weil sie relativ einfach zu Vergleichszwecken zu 

implementieren sind und ausreichend gute Ergebnisse liefern. In [28] findet sich ein ausführlicher 

Performance-Vergleich verschiedener PDAs, die auf den eben genannten Konzepten beruhen. 

Es zeigte sich, daß keiner der untersuchten PDAs über alle Sprecher, Aufnahmesituationen 

und Fehlermessungen beste Ergebnisse lieferte. 

3.4.1 Pitch-Detektion mit Hilfe der Autokorrelation 

Dieser Abschnitt erklärt die Funktionsweise dreier PDAs, die auf der Basis der Autokorrelation 

operieren. Zunächst soll kurz das Konzept der Kreuz- sowie der Autokorrelation vorgestellt 

werden. Diese beiden Konzepte sind eng miteinander verwandt. 

Definition 3.5 Die short-term crosscorrelation zweier reellwertiger, kausaler 

 

Signalfolgen 

 

und ist definiert durch 

© ¡ 

 

¡ 

 

Die short-term autocorrelation einer reellwertigen 

 

Signalfolge 

die wie folgt definiert ist: 

©© ¡ 

 

¡©£ § 

 

ist eine Folge ©© ¡ 

¡ 

 

£¡¢¡¢ 

 

wobei die Zeitverschiebung (lag) angibt und den Index des Frameendes kennzeichnet. 

¡©£ § 

55 

(3.17) 

, 

 

(3.18) 

Die Kausalität der Signale wird durch Windowing erreicht, wobei in diesem speziellen Fall 

ein Rechteck-Fenster verwendet wird. Die Autokorrelationsfolge ©© ¡ 

(AKF) 

 

hat sehr 

wichtige Eigenschaften. Eine wichtige Eigenschaft ist, daß sich die Form der AKF bei einer 

Skalierung der Amplitudenwerte der Signalfolge 

nicht ändert, nur die Amplitudenwerte 

der AKF ändern sich entsprechend. Zudem erreicht die AKF ihren Maximalwert bei einer Zeitverschiebung 

von . Der Wert ©© ¢ 

kann zur Normalisierung herangezogen werden, 

die Werte der AKF liegen dann im Bereich von -1 bis 1. Dies erleichtert die Anwendung von 

Schwellwerten. Die normalisierte Autokorrelationsfolge £ ©© ¡ 

¢ 

 

ergibt sich durch 

£¥¤¦¤ 

§ 

 

©© § 

 

©© 

 

¢ 

(3.19) 

Eine weitere wichtige Eigenschaft ist, daß die AKF einer periodischen Folge selbst eine 

periodische Folge darstellt, die Peaks bei ¢ ¦ usw. aufweist. Abbildung 3.8 zeigt


1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

−1 

0 50 100 150 200 250 300 350 400 450 500 

(a) Sinus-Signal, das mit einem 

Rechteck-Fenster multipliziert wurde 

80 

60 

40 

20 

0 

−20 

−40 

−60 

−80 

0 20 40 60 80 100 120 

(b) AKF des nebenstehenden Signals, 

wobei aufgrund der Symmetrie der 

AKF nur positive Verschiebungen berücksichtigt 

wurden 

Abbildung 3.8: "Gefenstertes" Sinus-Signal und dessen AKF 

ein mit einem Rechteck-Fenster multipliziertes Sinussignal und deren AKF, wobei aufgrund der 

Symmetrie der AKF nur positive Zeitverschiebungen § ¢ berücksichtigt werden. Diese Eigenschaft 

der AKF für periodische Signale wird bei der Pitch-Detektion ausgenutzt, um die Periode 

des Signals zu bestimmen. 

 

In praktischen Anwendungen ist das beobachtete physikalische Signal (in unserem Fall das 

Sprachsignal) durch zufällige Interferenzen gestört. Sei eine Signalfolge, 

wobei 

Periode eine periodische Folge unbekannter ist, und eine additive zufällige 

Interferenz darstellt. Angenommen, es werden 

 

Samples von 

 

mit 

¢ 

 

 

beobachtet, wobei ¢ 


und es gilt § ¢ 

und 

 

. Nun läßt sich die AKF 

von durch 

§ ¡ £ 

 

(3.20) 

¢¡ 

 

 

£¡ 

 

 

berechnen, wobei das Signal zum Zeitpunkt ¢ 

 

 

beginnt und Abtastwerte lang ist. Wird 

in (3.20) eingesetzt, so erhält man 

§ ¡ £ 

 

 

 

 

 

¤¡ 

©© 

 

© ¡ ¤¡ 

¡ © ¢¡ 

¢¡ 

¡ ¡ ¢¡ 

¥¡ 

(3.21) 

(3.22) 

© ¡ ¢¡ 

 

¡ © ¢¡ 

 

 

Die Erwartung ist nun, daß die Kreuzkorrelationen und des Signals und der 

additiven zufälligen Interferenz sehr klein sind, da vorausgesetzt wird, daß die beiden 

Signale nicht korreliert sind. Die Autokorrelationsfolge des zufälligen Signals wird einen


Peak bei ¡ besitzen, aber aufgrund der Zufallseigenschaften wird 

¡ ¡ ¢¡ 

sehr schnell 

¢ 

gegen Null gehen. ©© ¢¡ 

Nur wird große Peaks 

¡ 


¢ 

enthalten. Dieses Verhalten erlaubt die 

Bestimmung der Präsenz und der Periode des periodischen Signals ¤ , welches von 

einem Interferenzsignal gestört ist. Im Fall von Sprachsignalen ist die Bestimmung der 

Periode aufgrund der oben genannten Probleme leider nicht so einfach möglich. 

Die naive Berechnung der short-term autocorrelation hat quadratische Laufzeit, weshalb die 

FFT zur Beschleunigung eingesetzt wird. Dies ist möglich, weil die short-term autocorrelation 

der Signalfolge als Faltung angesehen werden kann (vergleiche Kapitel 2.3.4). Zusätzlich 

kann bei der Berechnung mittels der FFT eine weitere Eigenschaft der AKF ausgenutzt werden 

– die AKF ist symmetrisch zum Ursprung ¡ ¢ , es gilt also ©© ¢¡ 

müssen nur positive Verschiebungen betrachtet werden. Abbildung 3.9 verdeutlicht die effiziente 

Berechnung der short-term autocorrelation mittles FFT. 

FFT IFFT 

£ ¡ ££¢ § ¤ ¡ ££¢ §¥¤ ¤ ¡ £¦¢ §§¤ ¨ £ 

¤©¤ § 

§ 

¥¨§ © 

Abbildung 3.9: Effiziente Berechnung der AKF mittels FFT 

Der AUTOC-Pitch-Detektions-Algorithmus 

57 

©© ¡ für alle ¡ . Somit 

Abbildung 3.10 zeigt das Blockdiagramm des AUTOC-PDAs [28]. Das Eingangssignal wird zunächst 

einem Tiefpaßfilter mit einer Grenzfrequenz von 900 Hz zugeführt. Dieser Filter kann 

durch ein FIR- oder IIR-Filter realisiert werden (vergleiche Kapitel 2.3.4). Die zu Testzwecken 

implementierte Version dieses PDAs verwendet hier ein IIR-Butterworth-Filter. Die Besonderheiten 

dieses Filters zu beschreiben, würde den Rahmen dieser Arbeit sprengen und ist für das 

Verständnis des PDAs nicht von Bedeutung. Das gefilterte Signal wird mittels Windowing in sich 

überlappende Frames mit einer Länge von jeweils 

werden nun untersucht. Der Stille-Detektor überprüft, ob die short-term energy innerhalb dieses 

Frames einen bestimmten Schwellwert überschreitet. Tut sie dies nicht, so wird dieser Frame als 

Stille klassifiziert. Andernfalls wird mit Hilfe der short-term autocorrelation die Pitch-Detektion 

durchgeführt. Das Center-Clipping dient der Fokussierung auf die Pitch und stellt einen nichtlinearen 

Operator dar. Der verwendete Operator geht auf SONDHI (1968) zurück. Nun wird 

in einem bestimmten Bereich der AKF der größte Autokorrelationswert und dessen Position 

bestimmt. Die Position des größten Autokorrelationswertes ergibt die Periode des zugrundeliegenden 

Signals. Anschließend wird der Peak-Wert mit einem Schwellwert verglichen, anhand 

dessen entschieden wird, ob der Frame als stimmhaft oder stimmlos klassifiziert wird. Abbildung 

3.11 zeigt einen Ausschnitt aus einem Pitch-Verlauf, der mit diesem PDA berechnet wurde. 

¢ aufgeteilt. Die entstehenden Frames


finde absoluten 

Peak-Level in 

den ersten 10ms 

setze Clipping-Level 

finde absoluten 

Peak-Level in 

den letzten 10ms 

IPK1 IPK2 

¢¡ ©¤£¦¥¨§¨£© ¡ © § 

Schwellwertbestimmung 

Tiefpaßfilter 

© £¦¥¨§ 

Windowing 

stimmhaft, 

Periode = IPOS 

Center clipper Stille-Detektor 

short-term 

autocorrelation 

finde Position, Wert 

des AC-Peaks 

IPK 

IPOS 

vergleiche Peak-Wert 

mit V/U Schwellwert 

stimmlos 

Abbildung 3.10: Blockdiagramm des AUTOC Pitch-Detektors [28] 

Stille


Pitch F0 

300 

250 

200 

150 

100 

50 

0 

1000 1200 1400 1600 1800 2000 

Frame-Index 

Abbildung 3.11: Ausschnitt aus einem Pitch-Verlauf, der mit dem AUTOC-PDA berechnet wurde. 

Der Pitch-Detektions-Algorithmus nach BOERSMA 

Ein zweiter Ansatz zur Bestimmung der Pitch stammt von BOERSMA [5] und wird durch Abbildung 

3.12 verdeutlicht. Er beschreibt einen PDA, der verschiedene Kritikpunkte an Verfahren 

basierend auf der Autokorrelation beseitigen soll. Zunächst wird die Abtastfrequenz verdoppelt 

(Upsampling). Mit Hilfe dieser Operation sollen die sidelobes (vergleiche Abschnitt 3.1) der 

Fouriertransformation des Hanning-Fensters für Signalkomponenten nahe der Nyquistfrequenz 

entfernt werden. Hierzu wird das Signal mit einer N-Punkt FFT in den Frequenzbereich transformiert. 

Im Frequenzbereich wird nun ein linearer (Tiefpaß-)Filter angewendet. Der nächste 

Schritt besteht dann darin, eine 2N-Punkt inverse FFT durchzuführen. Es folgt das Windowing 

mit Hilfe eines Hanning-Fensters, bei dem das Sprachsignal in Frames zerlegt wird. Im Anschluß 

daran wird die short-term autocorrelation des entstandenen Frames berechnet, normalisiert und 

durch die (normalisierte) AKF des Hanning-Fensters dividiert. Durch die Division wird dem abfallenden 

Charakter der AKF entgegengewirkt. Zudem wird nicht nur ein einzelner Peak-Wert 

und die daraus resultierende Pitch berechnet, sondern mehrere Kandidaten. Diese werden nach 

bestimmten Gesichtspunkten gewichtet. Dies bedeutet, daß es zu jedem Frame mehrere Pitch- 

Kandidaten gibt. In einem Postprocessing wird dann mit Hilfe von dynamischer Programmierung 

ein günstigster Pfad durch die Menge der Kandidaten bestimmt. Das Verfahren soll um mehrere 

Ordnungen genauer sein als übliche PDAs und zudem wesentlich flexibler und robuster. 

Der ModifiedACF-Pitch-Detektions-Algorithmus 

Der im folgenden beschriebene PDA basiert auch auf der in diesem Kapitel beschriebenen shortterm 

autocorrelation und soll fortan ModifiedACF-PDA genannt werden. Er stellt eine Vereinfachung 

des oben erläuterten PDAs von BOERSMA dar. Dies ist auch der Algorithmus, der 

später bei der Emphasis-Detektion (siehe Kapitel 4.2) eingesetzt wird. Abbildung 3.13 zeigt 

59


N- 

FFT 

2N- 

IFFT 

© £¦¥¨§ 

normalisierte 

short-term autocorrelation 

£¦¥¢¡¤£ § 

stimmhaft, 

Upsampling 

Windowing 

Hanning-Fenster 

¥ £ ¥¨§ ¦ £¦¥¨§ 

finde und bewerte 

Kandidaten 

suche mittels DP 

beste Kandidaten 

normalisierte 


§©¨¨ § 

 

 

stimmlos bzw. Stille, 0Hz 

Abbildung 3.12: Blockdiagramm des PDAs nach BOERSMA [5]


Sprachsignal 

£¦¥¨§ ¦ £ ¥¨§ 

¥ 

Windowing 

normalisierte 


 

£¦¥¢¡£ § 

¨¨ 

 

 

finde Peak 

Hanning-Window 

normalisierte 


stimmlos stimmhaft 

Abbildung 3.13: Blockdiagramm des ModifiedACF-PDAs. 

eine schematische Darstellung dieses PDAs. Das Signal wird zunächst 

¢ 

im Abstand von 

mittels Windowing in Frames ¥ mit einer Länge von ¥ 

¢ 

zerlegt, wobei das Windowing 

 

mit Hilfe ¡¢¡ 

¦ 

eines Hanning-Fensters durchgeführt wird. Die Frames überlappen sich 

also 

¢ 

 

jeweils um . Die Framelänge wurde so gewählt, daß sie mindestens drei 

Perioden der tiefsten zu detektierenden Frequenz abdeckt [5]. Daraufhin wird die (normalisierte) 

short-term autocorrelation des entstandenen Frames berechnet. Die resultierende Autokorrelationsfolge 

wird durch die (normalisierte) AKF des Hanning-Fensters geteilt, es 

 

ergibt sich 

somit folgende AKF 

©© § 

 

 

 

Innerhalb eines bestimmten Bereichs 

mit ¢ ¤ wird nun der Spitzenwert der AKF 

gesucht. wird so gewählt, daß es der höchsten zu detektierenden Frequenz entspricht und 

wird so gewählt, daß es der tiefsten zu detektierenden Frequenz entspricht. 

 

¥ ¥ ¡ 

¡ ¡ ¡ 

Beispiel: Die Abtastfrequenz ¥ 

 

¦ ¤ ¡ des Sprachsignal beträgt 

, die tiefste zu detektierende 

¢ 

¡ Frequenz sei und die höchste zu detektierende ¡ © ¢ ¢ 

¡ Frequenz sei . 

Dann lassen sich ¡¡ und wie folgt berechnen: 

¤£ 

 

¥ 

¥ 

©§¦ ¡ 

 

¥ 

¦ ¤ ¡ 

¢ 

¡ ¦ ¢ 

 

 

 

61 

¥ (3.23)


 

¥ 

¡¡¢¡ 

¦ ¤ ¡ £ ¢ 

¡ ¡ £ 

Man muß in diesem Beispiel die AKF also nur im ¥ Intervall 

hin untersuchen. Angenommen, der Spitzenwert liege nun bei 

Frequenz von 

¡ 

¥ 

¦¥¤ ¤ 

 

 

¥ 

¡ 

¦ 

¡ 

¢£¢ 

¦ 

(3.24) 

auf einen Spitzenwert 

¢£¢ 

. Dies entspricht nun einer 

 

(3.25) 

 

Dies ist die gesuchte Pitch. Man erkennt aus den Gleichungen (3.23), (3.24) und (3.25) leicht, 

daß die Auflösung bezüglich der Frequenz von der ¥ Abtastfrequenz abhängt. Je höher die Abtastfrequenz 

ist, umso besser ist das Auflösungsvermögen. Da die Abtastfrequenz nicht beliebig 

hoch gewählt werden kann, behilft man sich damit, eine Interpolation der Werte der AKF durchzuführen 

und den Spitzenwert bezüglich dieser Interpolation zu berechnen [5]. 

Sind für die Sprachdatei alle Pitch-Werte berechnet, so schließt sich nun das Postprocessing 

an. Dies ist nötig, da das Verfahren noch Fehler macht. Mögliche, leicht zu erkennende und 

behebbare, Fehler sind: 

1. Die detektierte Frequenz ist halb so groß, wie sie sein sollte, ¡ 

¡ ¥ ¥ 

2. Die detektierte Frequenz ist doppelt so groß, wie sie sein sollte, ¡ 

§¦©¨ 

. 

¥ 

Einen möglichen Pitch-Verlauf ohne Nachbearbeitung zeigt Abbildung 3.14(a). Die Glättung 

des Pitch-Verlaufs kann auf unterschiedliche Art und Weise geschehen. Eine Möglichkeit besteht 

in der Anwendung von Filtern, wie beipielsweise Median-Filtern oder linearen Filtern 

(vergleiche Kapitel 2.3.4). Eine andere Möglichkeit ist die Interpolation der Pitch-Werte. Sowohl 

BOERSMA als auch DE MORI, OMOLOGO gehen über eine Filterung hinaus und ermitteln 

mehrere Pitch-Kandidaten. Mittels dynamischer Programmierung wird anschließend der 

"korrekte" Pitch-Verlauf berechnet. Für den ModifiedACF-PDA wurde in dieser Diplomarbeit 

ein Postprocessing entwickelt, das die Fehlerbeseitigung und Glättung wie folgt angeht: 

© für 

¡ ¥ ¥ ¡ 

¢¡ 

 

1. Betrachte die Pitch-Werte 

¥ 

¢£¢ 

ein Zeitintervall 


¢ ¥ 

¢ ¢ 

 

¢£¢£¢ ¥ 

¢ ¢ 

. bezeichnet die Länge der Sprachdatei be- 

 

 

züglich der Zeitdauer. Aufgrund der verwendeten 

¢ 

Schrittweite von bei der Framebildung 

enthält jedes Zeitintervall demnach 50 Pitch-Werte. Diese Anzahl hat sich für 

dieses Pitch-Detektions-Verfahren als guter Wert herausgestellt. 

2. Berechne den Mittelwert der 

 

betrachteten Pitch-Werte 

. Pitch-Werte 

¡ 

¢ 

mit 

werden bei der Mittelwertbildung nicht berücksichtigt. 

¡ ¡ 

3. Gehe nun die Pitch-Werte ¢¡ 

¢ 

¡ 

 

 

© der ¦ 

 

¡ 

falls 

¢¡ ¡ 

¡ 

¥ 

¦. 

Reihe nach durch und berechne ¡ wie folgt: 

¡ 

© ¡ 

falls 

sonst 

© 

¢¡ 

© ¤ 

¥ 

¥ 

¡¢ 

 

 

¡¢


4. Glätte den erhaltenen Pitch-Verlauf mit einem 5-Punkt Median-Filter. 

5. Zurück zu 1. 

Abbildung 3.14(b) zeigt einen geglätteten Pitch-Verlauf, der mit dem eben beschriebenen Postprocessing 

erzeugt wurde. Es ist leicht zu erkennen, daß Ausreißer von diesem Verfahren sehr 

gut entfernt werden. Für alle PDAs und insbesondere für die Fehlerbereinigungs- und Glättungsverfahren 

muß folgendes angemerkt werden: die resultierenden Pitch-Verläufe sind Schätzungen 

der tatsächlichen Pitch-Verläufe. Es gibt keine exakten Referenz-Verläufe, anhand derer die Ergebnisse 

überprüft werden könnten. 

3.4.2 Pitch-Detektion mit Hilfe der Average Magnitude Difference 

Function (AMDF) 

Die Average Magnitude Difference Function ist eng mit der Autokorrelation verwandt. Anstatt 

die Eingabe zu verschiedenen Zeitverschiebungen zu korrelieren, wird ein Differenzsignal 

zwischen dem verzögerten Signal und dem Original erzeugt und zu jedem Verzögerungszeitpunkt 

der Absolutbetrag der Differenz berechnet. Aus dem Zeitverschiebungsindex des Minimums 

der resultierenden Folge läßt sich dann die Pitch bestimmen. 

Definition 3.6 Die Average Magnitude Difference Function (AMDF) zu einer Signalfolge 

der Länge ist definiert durch: 

 

© ¡ 

 

¡ 

wobei die Verschiebung und den Endpunkt des betrachteten Frames angibt [9]. 

¡©£ § 

Die 

 

Signalfolge 

wenden hier ein Rechteck-Fenster, so daß sich (3.26) zu 

 

63 

(3.26) 

repräsentiert eine (beliebige) Fensterfunktion. ROSS ET AL. [30] ver- 

© 

¡ ¡ 

(3.27) 

 

reduziert. Es ist klar, daß das Differenzsignal bei 

 

immer Null ist. Es enthält 

¢ 

tiefe 

Minima bei Verzögerungen, die zu der Pitch-Periode von stimmhaften Lauten korrespondieren. 

ROSS ET AL. begründen die Attraktivität der short-term AMDF folgendermaßen: Sie ist ein 

einfach zu berechnendes Maß, das gute Schätzungen des Pitch-Verlaufs liefert. Sie benötigt 

keine Multiplikationen und kann aufgrund der Natur ihrer Operationen gut in programmierbaren 

Prozessoren oder anderer spezieller Hardware implementiert werden. Allerdings ergeben sich die 

gleichen Probleme, wie bei den PDAs aus Kapitel 3.4.1. Zudem betreiben die Autoren einen gehörigen 

Postprocessing-Aufwand, um mögliche falsche Kandidaten auszuschließen, so daß das 

¡©£ §


Pitch F0 

Pitch F0 

300 

250 

200 

150 

100 

50 

0 

1000 1200 1400 1600 1800 2000 

300 

250 

200 

150 

100 

50 

Frame-Index 

(a) Pitch-Verlauf ohne Postprocessing 

0 

1000 1200 1400 1600 1800 2000 

Frame-Index 

(b) Pitch-Verlauf mit Postprocessing 

Abbildung 3.14: Ausschnitte aus Pitch-Verläufen, die mit dem ModifiedACF-PDA (a) ohne Postprocessing, 

(b) mit Postprocessing erzeugt wurden.


stZCR 

x(n) 

Dezimation 

3:2 

Windowing 

short-term 

energy 

Tiefpaßfilter 

stimmhaft, Periode=IPOS 

IPOS 

short-term 

AMDF 

Pitch-Perioden 

Logik 

V/U Klassifikation basierend auf 

short-term ZCR, short-term energy und 

short-term AMDF 

MAX/MIN 

stimmlos 

Abbildung 3.15: Blockdiagramm eines AMDF Pitch-Detektors [28] 

Argument der einfachen Berechnung so nicht mehr gilt. Die Abbildung 3.15 zeigt das Blockdiagramm 

eines PDAs, der auf der short-term AMDF basiert. Die Auswertungslogik der letzten 

Stufe ist sehr umfangreich und läßt sich bei Interesse in [30] nachlesen. Zu Testzwecken wurde 

eine vereinfachte Version dieses Verfahrens implementiert. Die berechneten Pitch-Verläufe sind 

denen des AUTOC-PDAs sehr ähnlich. 

3.4.3 Pitch-Detektion mit Hilfe des reellen Cepstrums 

Nach dem in Kapitel 2.2.4 vorgestellten Sprachproduktionsmodell kommt stimmhafte Sprache 

durch eine Faltung einer Anregungsfolge © mit der Impulsantwort des 

 

Vokaltrakts zustande, 

© ¢¡ 

 

65


Die einzelnen Komponenten sind also nicht linear zusammengesetzt. Das Cepstrum stellt eine 

Transformation des Sprachsignals dar, mit deren Hilfe die Anregungsfolge © und die Impuls- 

 

antwort in gewissen Grenzen getrennt werden können. Der Begriff Cepstrum entsteht durch 

Umordnung der Buchstaben des Wortes "spectrum" und deutet die Umordnungen der Frequenzeigenschaften 

an, die bei der Bildung des Cepstrums entstehen [12]. Das Cepstrum hat zwei 

wichtige Eigenschaften: 

1. Die Repräsentanten der Komponentensignale werden im Cepstrum voneinander getrennt. 

2. Die Repräsentanten der Komponentensignale werden im Cepstrum linear kombiniert. 

Der erste Punkt ist im Zusammenhang mit der Bestimmung der Pitch von Bedeutung. Das 

Cepstrum trennt Anregungsfolge © und Impulsantwort des Vokaltraktes, so daß die 

Hoffnung besteht, daß mit seiner Hilfe die Periode des Anregungssignals relativ einfach zu bestimmen 

ist. Abbildung 3.16 zeigt einen Auschnitt aus einem Sprachsignal und das berechnete 

Cepstrum für je ein stimmhaftes Segment und ein stimmloses Segment. Für das stimmlose 

Segment ist kein Peak im Cepstrum vorhanden, während im Cepstrum für das stimmhafte 

Segment ein, wenn auch kleiner, Peak zu sehen ist. Dieser Peak enspricht der Pitch, die sich 

mit Hilfe des Sample-Index berechnen läßt. 

Cepstrale Analyse ist ein Spezialfall innerhalb einer Klasse von Methoden die als homomorphe 

Signalverarbeitung bekannt sind. Das aus der homomorphen Signalverarbeitung abgeleitete 

Cepstrum wird üblicherweise komplexes Cepstrum (CC) genannt. Das auf BOGEY-TUKEY- 

HEALEY (1963) zurückgehende Cepstrum wird im allgemeinen als "Cepstrum" bezeichnet. Um 

Konfusionen zu vermeiden, wird letzteres reelles Cepstrum (RC) genannt. Der Hauptunterschied 

zwischen reellem und komplexem Cepstrum besteht in der Tatsache, daß das reelle Cepstrum 

die Phaseninformation über das Signal entfernt, während sie beim komplexen Cepstrum 

erhalten bleibt. 

Definition 3.7 Das short-term real Cepstrum ist definiert durch 

¡ ¥ 

 

¦ 

¥§¦ 

¥ £¢¥¤ 

£ 

£ 

£ 

£ 

¤¡ ©¢¡¤£ ¥ © ¡¤£ ¨ 

£ 

 

£ 

¡ ¦ ¤£ § 

£ 

mit ¡ 

 

 

und ist der Index des Frameendes. 

¢ ¥ 

steht für das "gefensterte" Eingangssignal. 

 

£ 

£ 

£ 

(3.28) 

Aus dieser Definiton läßt sich leicht erkennen, daß das reelle Cepstrum durch die Betragsbildung 

nur Informationen des Amplitudenspektrums verwendet und alle Phaseninformationen 

verwirft. Da in der Praxis die diskrete Fourier-Transformation anstatt der zeitdiskreten Fourier- 

Transformation benutzt werden muß, wird das reelle Cepstrum folgendermaßen definiert: 

¢ 

¡ ¥ 

 

 

 

 

 

¢ 

 

¡ ¥ ¦ 

¨§ 

¢ 

andere 

 

 

 

 

(3.29)


1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

Amplitude 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

−1 

stimmhaft 

stimmlos 

2000 4000 6000 8000 


10000 12000 14000 16000 

(a) Sprachsignal, hier ein Ausschnitt aus [24] 

Pitch 

50 100 150 


200 250 

(b) reelles Cepstrum für ein stimmhaftes Segment 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

50 100 150 


200 250 

(c) reelles Cepstrum für ein stimmloses Segment 

Abbildung 3.16: Ein Ausschnitt eines Sprachsignals und die Cepstra für (a) ein stimmhaftes Segment, 

(b) ein stimmloses Segment 

67


Aus dieser Definition ¢ ¡ ¥ 

 

folgt, 

 

daß eine periodische Version der "wahren" ¡ ¥ 

 

Größe 

ist, die bestimmt werden soll. 

Das Sprachsignal wird im ersten Schritt mittels Windowing in Frames zerlegt. Nun wird der entstandene 

Frame 

¥ künstlich verlängert und mit Nullen aufgefüllt, diesen Vorgang nennt 

 

man Zero Padding. Da das short-term real cepstrum unendliche Dauer hat, ist Aliasing 

 

unvermeidbar 

[9]. Es ist aber möglich, die Artefakte klein zu halten. Dies kann bei der Berechnung 

mit Hilfe der DFT durch das obengenannte Zero Padding erreicht werden. Der nächste Schritt 

besteht nun darin, die short-term DFT für diesen Frame zu berechnen. Nun wird der Absolutbetrag 

des entstehenden Spektrums gebildet und anschließend logarithmiert. Das Ergebnis dieser 

Operation wird nun mittels inverser DFT in den Zeitbereich zurücktransformiert (vergleiche Abbildung 

3.17). Das short-term real cepstrum läßt sich effizient mit Hilfe der FFT berechnen. 

s(n) 

w(m-n) 

Zero- 

padding 

¢¡¤£¦¥¤§¨¥ 

stDFT IDFT 

Abbildung 3.17: Berechnung der stRC mittels DFT 

¤ 

© 

Abbildung 3.18 zeigt das Blockdiagramm eines auf dem short-term real cepstrum basierenden 

Pitch-Detektions-Algorithmus. 

3.4.4 Zusammenfassung 

Dieses Kapitel stellte verschiedene Ansätze zur Bestimmung der Pitch eines Sprachsignals vor. 

Keiner dieser Ansätze kann perfekte Ergebnisse liefern. In der Einführung dieses Kapitels 

wurden die Probleme angedeutet. Die tatsächlichen Implementationen beinhalten in der Regel 

einen erheblichen Nachverarbeitungsaufwand, um die berechneten Pitch-Verläufe den tatsächlichen 

Verläufen anzugleichen. Es handelt sich bei der Bestimmung der Pitch mit diesen Mitteln 

also um eine mehr oder weniger gute Schätzung der tatsächlichen vorhandenen Werte. 

Für die Berechnung der Pitch im Rahmen des pitchbasierten Segmentierungsalgorithmus (vergleiche 

Kapitel 4.2) kommt der ModifiedACF-PDA zur Anwendung. Da das Postprocessing 

der in der Literatur beschriebenen Algorithmen sehr aufwendig ist, wurde ein einfacheres Verfahren 

für diesen PDA entwickelt, das ausreichend gute Resultate erzielt. Der Pitch-Detektions- 

Algorithmus als Ganzes ergab sich durch das Studium der in der Literatur vorhandenen PDAs 

und lieferte (subjektiv) die besten Werte. Da keine Referenzdaten vorlagen, kann aber keine genaue 

Aussage über die Genauigkeit des Verfahrens gemacht werden.


Windowing 

(Hamming) 

512 Punkt 

DFT 

Log|x| 

512 Punkt 

IDFT 

Peak- 

Detektor 

IPK IPOS 

V/U basierend auf 

cepstralem Peak u. 

short-term ZCR 

x(n) 

Segmentierung 

in Frames 

short-term 

ZCR 

stimmlos stimmhaft, Periode= IPOS 

Stille-Detektor 

Stille 

Abbildung 3.18: Blockdiagramm eines CEP Pitch-Detektors [28] 

69

Kapitel 4 

Segmentierungsverfahren 

In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von 

low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features, 

wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun 

geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die 

zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im 

Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand 

dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente, 

die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet 

werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung 

von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand 

des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue 

inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der 

Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber 

nicht Teil dieser Arbeit. 

4.1 Pausenbasierte Segmentierung (PBS) 

Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz, 

einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die 

Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen- 

¥ 

¢ £ ¢ ¢ 

dauer reicht typischerweise von . Die Mehrzahl der Pausen haben 

von¦ 

eine 

¢ 

Länge von 

¢£¢ 

etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und 

¥ ¥ 

nicht unter der Kontrolle etwa¦ 

¢£¢ 

des ¥ 

¢ 

Sprechers liegen, dauern . Sogenannte Juncture- 

Pausen, die der Sprecher kontrollieren kann, haben ¥ 

¢£¢ 

 

¢ ¢£¢ 

eine Länge von . 

¢ ¢ 

Atempausen 

 

dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen 

 

und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue 

Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere 

bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit. 

¦ 

70

4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 71 

Es soll jetzt ein erstes Verfahren zur Segmentierung eines Sprachsignals vorgestellt werden. Es 

beruht darauf, das Sprachsignal in Segmente aufzuteilen, die Sprache enthalten, und solche, die 

Sprachpausen beinhalten. Die jeweiligen Segmente bestehen in der Regel aus mehreren Frames. 

In den Pausen-Segmenten muß nicht völlige Stille herrschen. Sie können allerlei Hintergrundgeräusche 

enthalten. Hierin besteht auch eine Schwierigkeit bei der Klassifikation und Zuweisung 

der Frames zu den entsprechenden Segmenten. Wie in der Einleitung zu diesem Kapitel angedeutet 

wurde, wird zur Klassifikation der Frames des Sprachsignals die short-term energy und 

die short-term zero crossing rate herangezogen. Mit Hilfe der Energie-Werte werden Bereiche 

lokalisiert, die stimmhafte Laute beinhalten. Die Nulldurchgangsrate dient dazu, Bereiche mit 

stimmlosen Lauten zu identifizieren. Ein Merkmal stimmloser Laute ist, daß die zu ihnen korres- 

¡ 

¥ pondierende hoch ist, da sie in der Regel einen hohen Rauschanteil enthalten. Leider kann 

¨ 

das Sprachsignal insgesamt sehr verrauscht sein. Dies kann zum einen durch die Aufnahmetechnik 

bedingt sein, zum anderen aber auch durch Hintergrundgeräusche wie beispielsweise 

¡ 

laute Lüfter. Unter Umständen ist es bei ¨ ¥ einer hohen schwierig zu entscheiden, ob nun 

ein stimmloser Laut oder einfach nur Hintergrundrauschen vorliegt. Ein möglicher Ansatz zum 

Umgang mit diesem Problem wird im Laufe dieses Abschnitts vorgestellt. 

Die Identifizierung von Sprachsegmenten entspricht dem klassischen Problem der Endpunkt- 

Detektion innerhalb der Sprachverarbeitung. Zu diesem Thema gibt es eine Vielzahl von 

Arbeiten. Im Rahmen dieser Arbeit wurde ein Algorithmus verwendet, der von LAMEL ET. AL 

[20] stammt und von ARONS [2] modifiziert wurde. Dieser Algorithmus zur Endpunkt-Detektion 

wurde ursprünglich für Aufnahmen von Telefongesprächen entwickelt. Das Telefonsignal ist im 

allgemeinen mehr oder weniger stark verrauscht. Ein Algorithmus, der für solche Signale gute 

Ergebnisse erzielt, sollte auch für den Einsatz bei aufgezeichneten Vorlesungen geeignet sein, 

da es auch hier durch die Aufnahmetechnik oder durch Hintergrundgeräusche bedingt, zu einem 

starkem Rauschanteil im aufgezeichneten Signal kommen kann. 

4.1.1 Der Pausen-Detektions-Algorithmus 

Im folgenden soll der verwendete Algorithmus genauer erläutert werden, der eine leicht modifizierte 

Version des in [2] (Kap. 5.9.3) verwendeten Algorithmus ist, welcher wiederum eine 

modifizierte Version des oben genannten Ansatzes von LAMEL ET. AL darstellt. Die vorgestellte 

Technik arbeitet laut den Autoren unter einer Vielzahl von Umgebungsbedingungen. Die Autoren 

zeichneten Sprache in einer Büroumgebung mit Lüftergeräuschen von Computern und Vorträge 

in Vorlesungssäalen mit über 40 Studenten auf und behaupten, daß diese Aufnahmen erfolgreich 

mit ihrer Methode in Sprache und Hintergrundgeräusche segmentiert wurden. 

Abbildung 4.1 zeigt die schematische Darstellung des pausenbasierten Segmentierungsverfahrens. 

Bei diesem Ansatz werden die durch einen Windowing-Prozeß erzeugten Frames, die sich nicht 

überlappen, mehrere Male durchlaufen. Jeder Frame hat eine Länge 

¢ 

von und wurde mit 

Hilfe eines Rechteck-Fensters aus dem Sprachsignal ausgeschnitten. Im ersten Schritt werden 

short-term energy und short-term zero crossing rate für jeden dieser Frames bestimmt. Um 

den Level der Hintergrundgeräusche zu bestimmen, wird ein Histogramm der Energie-Werte be-

72 KAPITEL 4. SEGMENTIERUNGSVERFAHREN 

berechne 

short-term energy 

erstelle und glätte 

Histogramm 

ermittle 

Schwellwert 

Sprachsignal 

Windowing 

berechne 

short-term ZCR 

erstelle 

Histogramm 

ermittle 

Schwellwert 

Endpunkt-Detektion 

und 1. Segmentierung 

entferne zu kurze Lücken (


% Frames 

0.09 

0.08 

0.07 

0.06 

0.05 

0.04 

0.03 

0.02 

0.01 

Offset 

Schwellwert 

0 

0 5 10 15 20 

0.5 * x [dB] 

25 30 35 40 

(a) Energie-Histogramm für ein Sprachsignal 

mit hohem Rauschanteil und insgesamt hoher 

Aussteuerung 

% Frames 

0.3 

0.25 

0.2 

0.15 

0.1 

0.05 

Offset 

Schwellwert 

0 

0 5 10 15 20 25 30 35 40 45 

0.5 * x [dB] 

(b) Energie-Histogramm für ein Sprachsignal 

mit niedrigem Rauschanteil und insgesamt hoher 

Aussteuerung 

Abbildung 4.2: Energie-Histogramme für verschiedene Sprecher 

rechnet, welches mit einem 3-Punkt FIR-Average-Filter geglättet wird. Das resultierende Histogramm 

hat im allgemeinen eine bimodale Verteilung; es besitzt zwei mehr oder weniger weit 

auseinander liegende Spitzenwerte. Abbildung 4.2 zeigt Beispiele von Energie-Histogrammen, 

die für zwei verschiedene Sprecher ermittelt wurden. Der erste (am weitesten links liegende) 

Spitzenwert korrespondiert zu den Hintergrundgeräuschen, der zweite Spitzenwert zur Sprache. 

Der erste Spitzenwert wird aus dem Histogramm ermittelt und dient fortan zur Festlegung eines 

Schwellwertes, der Hintergrundgeräusche und Sprache trennt. In Abhängigkeit der Stärke 

der Hintergrundgeräusche wird ein Offset zum ermittelten Hintergrundgeräuschpegel addiert. Ist 

dieser 

Pegel hoch ), wird ein Offset von addiert, andernfalls ein Offset von . ¨¢ ¡ 

Anhand dieses Schwellwertes und der ¨ ¥ des Frames wird nun entschieden, ob der Frame 

¨¢ ¨¢ (¤ 

Sprache oder Hintergrundgeräusche enthält. Hier setzt nun die oben erwähnte Modifikation des 

Ansatzes an. In der Arbeit von ARONS wird als Schwellwert für die Nulldurchgangsrate ein 

fester Wert von 2500 zcr/s verwendet [4]. Da der Hintergrundgeräuschpegel von Aufnahme zu 

Aufnahme stark variieren kann und der Schwellwert für die Nulldurchgangsrate nicht von mal 

zu mal manuell angepasst werden soll, wurde der Algorithmus für diese Arbeit modifiziert. Aus 

¡ 

¥ den -Werten aller Frames wird ein Histogramm erstellt. Dieses Histogramm hat nur einen, 

¨ 

dafür aber sehr ausgeprägten Spitzenwert. Dieser Spitzenwert und die hiermit korrespondierende 

Nulldurchgangsrate wird zur Schwellwertbestimmung herangezogen. Zu diesem Wert wird noch 

ein Offset von hinzuaddiert. Dieses Verfahren hat den Vorteil, daß es adaptiv ist. Es ist nicht 

nötig, den Schwellwert für die Nulldurchgangsrate manuell an das Sprachsignal anzupassen. 

¡ 

Abbildung 4.3 zeigt Beispiele ¨ ¥ von -Histogramme, die für zwei verschiedene Sprecher ermittelt 

wurden. 

¨¢


% Frames 

0.16 

0.14 

0.12 

0.1 

0.08 

0.06 

0.04 

0.02 

0 

0 5 10 15 20 25 

[dB] 

Offset 

Schwellwert 

¢¡¢£ 

(a) -Histogramm für ein Sprachsignal mit 

hohem Rauschanteil und insgesamt hoher Aussteuerung 

% Frames 

0.18 

0.16 

0.14 

0.12 

0.1 

0.08 

0.06 

0.04 

0.02 

0 

0 5 10 15 20 25 

[dB] 

Offset 

Schwellwert 

¢¡¢£ 

(b) -Histogramm für ein Sprachsignal mit 

niedrigem Rauschanteil und insgesamt hoher 

Aussteuerung 

Abbildung 4.3: ¢¡¦£ ¥ -Histogramme für verschiedene Sprecher 

Dieser erste Durchgang liefert nun eine sehr feine Segmentierung. Selbst bei sehr sorgfältiger 

Wahl der Schwellwerte macht dieses Verfahren jedoch noch Klassifikationsfehler: 

1. Es bleiben kurze Lücken ( ¢ ¢ 

) innerhalb von längeren Sprachsegmenten, die eigent- 

 

lich als Sprache klassifiziert werden müßten. 

2. Es verbleiben Sprachsegmente ( ¢£¢ 

), die zu kurz sind, um Wörter zu enthalten. 

 

3. Sprachsegmente werden versehentlich zu spät oder zu früh abgeschnitten. 

Deshalb wird die zuvor gewonnene Segmentierung in den Durchgängen 2–4 von diesen 

Klassifikationsfehlern befreit. Im Durchgang 2 werden zu kurze Lücken zwischen Sprachsegmenten 

entfernt, Durchgang 3 beseitigt zu kurze Sprachsegmente und Durchgang 4 erweitert die 

verbleibenden Sprachsegmente um jeweils¦ ¢ 

in beide Richtungen. Dadurch ergeben sich 

größere Pausen- bzw. Sprachsegmente. Die Ausgabe des PBS-Algorithmus enthält für jedes gefundene 

Segment den Beginn (in Sek.), die Dauer (in Sek.) und die Klassifikation (0=Pause, 

1=Sprache). Die Abbildungen 4.4 und 4.5 verdeutlichen den Ablauf der PBS anhand von Beispieldaten.


short−term energy 

Häufigkeit 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

Amplitude 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

Sprachsignal 

−1 

0 0.5 1 1.5 2 


Windowing und Berechnung der Audio-Features 

Energie−Verlauf 

0 

0 500 1000 1500 

Frames 

400 

350 

300 

250 

200 

150 

100 

50 

Schwellwert 

short−term ZCR 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

ZCR−Verlauf 

x 10 5 

0 

0 500 1000 1500 

Frames 

Schwellwertbestimmung für Endpunkt-Detektion 

Energie−Histogramm 

0 

0 5 10 15 20 25 30 35 40 

short−term energy [dB] 

Häufigkeit 

120 

100 

80 

60 

40 

20 

ZCR−Histogramm 

Schwellwert 

0 

0 5 10 15 20 25 30 35 40 

short−term zero crossing rate [dB] 

Abbildung 4.4: Beispiel für den Ablauf der PBS (Teil 1)


Endpunkt-Detektion und 1. Segmentierung 

Start (Sek.) Dauer (Sek.) Klassifikation 

0.00 0.20 0 

0.20 0.09 1 

0.29 0.32 0 

0.61 0.09 1 

0.70 0.04 0 

0.74 0.13 1 

0.88 0.11 0 

0.99 0.03 1 

1.02 0.11 0 

1.13 0.06 1 

1.19 0.12 0 

. 

. 

Beseitigung der Klassifikationsfehler 

Start (Sek.) Dauer (Sek.) Klassifikation 

0.00 0.59 0 

0.59 0.31 1 

0.90 0.59 0 

1.49 0.26 1 

1.75 0.19 0 

1.94 0.81 1 

2.75 0.09 0 

. 

. 

Abbildung 4.5: Beispiel für den Ablauf der PBS (Teil 2). (0=Stille, 1=Sprache) 

. 

.

4.2. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG (EDBS) 77 

4.2 Emphasis-Detection-basierte Segmentierung (EDBS) 

Dieses Kapitel beschäftigt sich mit einem anderen Ansatz zur Segmentierung, der auch benutzt 

werden kann, um besonders betonte Wörter oder Sätze zu lokalisieren. Der Ansatz geht auf 

ARONS [2][3][4] zurück und beschreibt ein pitchbasiertes Verfahren zur Segmentierung und Betonungslokalisation. 

Die Pitch kann nicht nur wichtige Informationen für das Verstehen und das 

Verständnis liefern, sie kann auch herangezogen werden, um andere high level-Informationen aus 

dem Sprachsignal zu extrahieren. Es gibt eine Vielzahl von Algorithmen, um den Pitch-Verlauf 

eines Sprachsignals zu bestimmen, einige Verfahren wurden in Kapitel 3.4 vorgestellt. 

Es existieren verschiedene Arbeiten darüber, wie sich die Pitch unter verschiedenen Bedingungen 

verhält. HIRSCHBERG, GROSZ [15][17] fanden in einer empirischen Studie heraus, daß der 

Pitch-Bereich Hinweise auf den Beginn und das Ende von inhaltlichen Zusammenhängen sowie 

auf direkte Zitate gibt. Die Einführung eines neuen Themengebiets korrespondiert oft mit 

einer größeren Streuung der Pitch-Werte. Das Ende eines Satzes ist oft verbunden mit einem 

Abfallen der Pitch-Werte. Untergebiete und beiläufige Bemerkungen werden oft mit einem komprimierteren 

Pitch-Bereich assoziiert. Weitere Studien zeigten, daß Sprecher den Pitch-Bereich 

erhöhen, um Informationen in einem bestimmten Satz zu betonen, und daß der Pitch-Bereich am 

Anfang eines neuen Themengebiets erweitert wird. Diese Ergebnisse sollen nun genutzt werden, 

um Sprachaufzeichnungen zu segmentieren und besondere Hervorhebungen des Sprechers zu 

finden. Die Untersuchung, inwieweit dies überhaupt möglich ist, insbesondere in Bezug auf die 

zu untersuchenden Daten, ist der zweite Hauptbestandteil dieser Arbeit. 

In einer früheren Studie versuchten CHEN, WITHGOTT [6] mit Hilfe von 

Hidden-Markov-Modellen (HMM) Betonungen auf der Basis von Pitch- und Energiegehalt zu 

ermitteln. Dabei zeigte sich, daß betonte Abschnitte erfolgreich zur Erstellung von Zusammenfassungen 

der von Ihnen benutzten Aufzeichnungen herangezogen werden können. Die Verwendung 

von Hidden-Markov-Modellen hat allerdings einen entscheidenden Nachteil. Hidden- 

Markov-Modelle stellen sehr komplexe statistische Modelle dar, die eine große Anzahl von 

Trainings- und Testdaten benötigen und deshalb nicht für jede Anwendung geeignet sind. ARONS 

konnte jedoch nachweisen, daß signifikante Information über Betonungen allein in der Pitch enthalten 

ist. Er verglich den Verlauf der Pitch mit einer von Hand "gelabelten" Aufzeichnung. Ein 

Monolog eines männlichen Sprechers wurde transkribiert und manuell von einem Linguisten 

mit Anmerkungen versehen. Dabei stellte sich heraus, daß es eine hohe Korrelation von großer 

Pitch-Variabilität und der Einführung neuer Themen und betonten Abschnitten gibt. STIFELMAN 

bestätigte diese Ergebnisse in einer Studie [35]. Ziel von ARONS war nun, einen Algorithmus zu 

entwerfen, der direkt nach Mustern im Pitch-Verlauf sucht und dem kein komplexes statistisches 

Modell, wie das der Hidden-Markov-Modelle zugrunde liegt.


4.2.1 Der Emphasis-Detection-Algorithmus 

Der Algorithmus läßt sich in fünf Schritte zerlegen, die nun beschrieben werden sollen: 

1. Die zu untersuchende Sprachdatei wird mittels Windowing (vergleiche Kap. 

¥ 

3.1) in Frames 

mit einer Länge von ¥ 

¢ 

unterteilt, die sich um jeweils 

¢ 

überlappen. Die 

 

Frames werden also in einem Zeitabstand von ©¡ ¢ ¢ 

erzeugt. In der Original- 

© 

 

 

gewählt. Allerdings wurde dort 

¢ 

ein 

Arbeit von ARONS wurde eine Framelänge von 

anderer PDA verwendet. 

2. Für jeden dieser Frames ¥ ermittelt ein PDA die Pitch . 

3. Da der Pitch-Umfang für jeden Sprecher unterschiedlich ist, muß ein sprecherunabhängiger 

Schwellwert ermittelt werden, anhand dessen die Pitch-Aktivität gemessen werden kann. 

Hierzu wird aus den ermittelten Pitch-Werten ein Histogramm erstellt, das die Variabilität 

des Sprechers normalisiert. Anhand dieses Histogramms wird ein ¥ ¢£¢ 

¢ ¥ 

Pitch-Schwellwert 

definiert, der die 

¤ 

obersten der Pitch-Werte auswählt. Genauer: Man beginnt am oberen 

Ende des Histogramms die Anzahl der Pitch-Werte zu zählen, bis 

¤ 

aller Pitch-Werte 

erfaßt wurden. Aus dem erreichten "Behälter" des Histogramms wird dann die zugehörige 

Frequenz und damit der Schwellwert ermittelt. Dieser Schwellwert stellt einen Ausgangspunkt 

für Experimente dar und kann variiert werden, um eine größere oder kleinere Anzahl 

von betonten Segmenten zu finden. Abbildung 4.6 zeigt Pitch-Histogramme für Dozenten 

beiderlei Geschlechts. Der geschlechtsspezifisch unterschiedliche Frequenzbereich ist in 

den Abbildungen sehr gut zu sehen. 

4. In einem Superframe ¢ mit einer Länge von ¥¤ 

wird nun die Pitch-Aktivität 

 

 

bestimmt. Es wird vereinfachend angenommen, daß die Länge eines Superframes immer 

ein ganzzahliger Wert ist. 

Definition 4.1 Ein Superframe ¢ ¡ 

 

von Pitch-Werten mit 

¡ 

¢ ¡ 

 

 

der 

§ £ £¡ ¡ 

¦¤ 

 

 

 

© ¢ ©¡ ¡ 

Länge ¦¤ 

ist eine endliche Folge 

 

£ ¤ ¡ 

und ¤ 

¢ 

§¤ 

 

 

 

© ¢ ©¡ ¡ 

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen. 

 

Pitch-Aktivität©¨ 

bezeichnet 

Definition 4.2 Die innerhalb eines Superframes der Länge ¤ 

 

¢ 

¢¢ ¥ ¥ 

ist 

gleich der Anzahl der Pitch-Werte innerhalb des Superframes, die größer als ein Pitch- 

Schwellwert sind. 

bezeichnet 

¢£¢ 

¢ ¥ 

¤ ¢ ¢ ¥ 

 

¨ 

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen. 

© 

¨ 

¤ ¤ ¤


0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0 50 100 150 200 250 300 

Pitch F0 [Hz] 

(a) männlich, aus [24] 

0 50 100 150 200 250 300 

Pitch F0 [Hz] 

(c) männlich, aus [24] 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0 50 100 150 200 250 300 

Pitch F0 [Hz] 

(b) männlich, aus [24] 

0 50 100 150 200 250 300 350 

Pitch F0 [Hz] 

(d) weiblich, aus [23] 

Abbildung 4.6: Pitch-Histogramme für Dozenten (a) männlichen, (b) weiblichen Geschlechts


Pitch F0 [Hz] 

250 

200 

150 

100 

50 

Schwellwert F Thres 

Super− 

frame 

SF 

n SF n+1 SF n+2 

Berechnung der Pitch−Aktivität 

Anzahl der Werte oberhalb des Schwellwerts 

innerhalb eines Superframes ergibt die Pitch−Aktivität 

Zeitfenster ZF n 

Zeitfenster ZF n+1 

1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34 

x 10 4 

0 

Zeit (Frames) 

Abbildung 4.7: Berechnung der Pitch-Aktivität 

Abbildung 4.7 verdeutlicht die obigen Definitionen. 

5. Die Pitch-Aktivitäten ¢¡¤£¦¥¨§©© ¡£¥§ von aufeinanderfolgenden Superframes 

©© werden kombiniert, d.h. es wird ein Zeitfenster mit einer Länge 

von Superframes betrachtet und deren Pitch-Aktivitäten aufsummiert. Diese Summe repräsentiert 

die Stärke der Betonung (engl.: Emphasis) innerhalb des Zeitfensters ¨ . Die 

Zeitfenster werden in Abständen von durch einen sliding-window Algorithmus erzeugt. 

Definition 4.3 Ein Zeitfenster mit einer Länge ist eine Folge von Superframes 

 

bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen. 

¤ 

©©©©§ £ 

 

Definition 4.4 Die Stärke der Betonung (Emphasis) Zeitfensters innerhalb eines der 

läßt sich wie folgt berechnen 

 

Länge 

£§ 

 

¢¡¤£§ © 

bezeichnet die Anzahl der Zeitfenster, die sich aus einer Sprachdatei bilden lassen. 

Während ARONS Zeitfenster mit einer Länge von verwendet, wählten HE, SA- 

NOCKI, GUPTA, GRUDIN [16] in ihrer Arbeit Zeitfenster mit einer Länge von .


Emphasis 

60 

50 

40 

30 

20 

10 

Emphasis 

0 

0 100 200 300 400 500 600 700 800 900 

Zeit (Sek.) 

(a) Schwellwert=1%, ¢¡¤£¦¥¨§ 

Emphasis 

150 

100 

50 

Emphasis 

0 

0 100 200 300 400 500 600 700 800 900 

Zeit (Sek.) 

(b) Schwellwert=1%, ¢¡¤£¦¥© 

Abbildung 4.8: Ausgabe des EDBS-Algorithmus für einen 15-minütigen Ausschnitt aus einer Sprachdatei. 

Allerdings verfolgten sie ein ganz anderes Ziel, die automatische Erstellung von Zusammenfassungen. 

Die kombinierte Pitch-Aktivität §¦ liefert in diesem Fall ein Maß 

für die Betonung auf Phrasen- oder Satzebene. Verkürzt man diese Zeitfenster auf © 

können Betonungen auf der Wortebene gefunden werden. Abbildung 4.8 zeigt das Ergebnis 

von Testläufen für einen 15 minütigen Ausschnitt aus einer Vorlesung, die [24] entnommen 

wurde. Der Schwellwert beträgt in beiden Fällen . Die Länge des Zeitfensters 

beträgt im Fall a) ¨ © und im Fall b) . 

Der gesamte Ablauf dieses Verfahrens wird durch die Abbildungen 4.9 und 4.10 nochmals anhand 

eines Beispiels verdeutlicht. Die oben erläuterten Schritte lassen sich dadurch sehr gut 

nachvollziehen. 

4.2.2 Anwendungsmöglichkeiten des Emphasis-Detection-Algorithmus 

Nun bieten sich mehrere Möglichkeiten zur weiteren Vorgehensweise an. Drei Anwendungen 

werden kurz erläutert: 

1. Es kann eine Zusammenfassung der Sprachdatei erstellt werden. Hierzu werden die Zeitfenster 

bezüglich ihrer Emphasis sortiert. Segmente dieser Fenster können nun nach absteigenden 

Emphasis-Werten zu der Zusammenfassung hinzugefügt werden, bis die sie 

ihre gewünschte Länge hat [16]. 

2. Die Ergebnisse können zum schnellen Navigieren in der Sprachdatei verwendet werden. 

Auch hierzu werden die Zeitfenster bezüglich ihrer Emphasis sortiert. Die Segmente mit


Amplitude 

Pitch F0 [Hz] 

Häufigkeit 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

−0.4 

−0.6 

−0.8 

Sprachsignal 

−1 

0 0.5 1 1.5 2 


250 

200 

150 

100 

50 

0 

1600 

1400 

1200 

1000 

800 

600 

400 

200 

Berechnung der Pitch 

200 400 600 800 

Frames 

1000 1200 1400 

Berechnung des sprecherunabhängigen 

Schwellwerts anhand des Pitch−Histogramms 

Schwellwert 

obere 1% aller F0−Werte 

0 

50 100 150 200 250 300 

Pitch F0 [Hz] 

Abbildung 4.9: Beispiel für den Ablauf der Emphasis-Detektion (Teil 1) 

x 10 5


Pitch F0 [Hz] 

Emphasis 

250 

Emphasis(n) = 

200 

150 

100 

50 

Schwellwert F 

Thres 

5 +10 +8 +1 +0 +0 +0 +0 =24 

Super− 

Frame 

SF 

n SF 

n+1 

SF 

n+2 

Berechnung der Emphasis 

Zeitfenster ZF n 

Die Anzahl der Werte oberhalb des Schwellwertes 

innerhalb eines Superframes ergibt die Pitch−Aktivität. 

Die Summe der Pitch−Aktivitäten innerhalb eines 

Zeitfensters ergibt die Emphasis. 

1.24 1.25 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34 

x 10 4 

0 

Zeit (Frames) 

60 

50 

40 

30 

20 

10 

Emphasis 

0 

0 100 200 300 400 500 600 700 800 900 

Zeit 

Abbildung 4.10: Beispiel für den Ablauf der Emphasis-Detektion (Teil 2)


den höchsten Emphasis-Werten werden zur Erzeugung einer Navigationshilfe herangezogen 

(vergleiche ARONS [2][3][4]). 

3. Die Emphasis-Werte werden zur Segmentierung der Sprachdatei herangezogen. Die Untersuchung, 

ob dies zu einer verwertbaren Segmentierung führt, ist Bestandteil dieser Diplomarbeit. 

Zusammenfassung 

Dieses Kapitel stellte zwei Algorithmen vor, die dazu verwendet werden sollen, eine Sprachdatei 

nach einem bestimmten Kriterium zu segmentieren. Beide Algorithmen verwenden (relativ) einfach 

zu bestimmende Audio-Features wie Energie, Nulldurchgangsrate und Pitch und im Fall der 

Emphasis-Detektion eine einfache Metrik zur Bestimmmung der Emphasis. Ob diese Verfahren 

das gewünschte Ergebnis liefern können, beschreibt das folgende Kapitel 5. Zu diesem Zweck 

wurden beide Algorithmen implementiert und mit verschiedenen Sprachdateien getestet.

Kapitel 5 

Evaluation 

Im vorgangehenden Kapitel wurden Verfahren vorgestellt, mit deren Hilfe eine automatische 

Segmentierung einer Sprachdatei vorgenommen werden soll. Das Resultat dieser Segmentierung 

soll eine Folge von Zeigern in diese Sprachdatei sein, die den zeitlichen Beginn eines inhaltlichen 

Zusammenhangs anzeigen. Beispiel: 

Start (Sek.) 

0.00 

4.84 

35.69 

53.95 

. 

Hier schließt sich die Frage an, wie die Ausgaben der einzelnen Verfahren hinsichtlich ihrer 

Treffsicherheit bewertet werden sollen. Dazu muß man sich zunächst überlegen, zu welcher 

Referenz die Ergebnisse der Segmentierungsverfahren verglichen werden sollen und wie fein 

die Referenzsegmentierung sein soll. 

Granularität der Segmentierung 

Der zweite Punkt soll kurz an einem Beispiel verdeutlicht werden. Angenommen, der Autor eines 

Vortrages hat eine Unterteilung in vier Kapitel vorgesehen, die sich weiter untergliedern lassen. 

Nun stellt sich die Frage, bis zu welcher Tiefe (Segment-Level) der auftretenden Gliederungshierarchie 

(discourse structure) evaluiert werden soll. Tabelle 5.1 zeigt ein Beispiel für eine 

grobe und eine feine Segmentierung. Auf den ersten Blick könnte man denken, daß die grobe 

Segmentierung leichter zu erreichen sei, als die feine Segmentierung, da weniger Items zu detektieren 

sind. Dem ist aber nicht so, da die Algorithmen nicht zwischen Kapitel, Abschnitt und Absatz 

unterscheiden können. Dies hängt damit zusammen, daß keine Information darüber vorliegt, 

85

86 KAPITEL 5. EVALUATION 

grobe Segmentierung feine Segmentierung 

1.) Kapitel 1 1.) Kapitel 

2.) Kapitel 2 1.1.) Abschnitt 1 

3.) Kapitel 3 1.2.) Abschnitt 2 

4.) Kapitel 4 2.) Kapitel 2 

2.1.) Abschnitt 1 

2.1.1.) Absatz 1 

2.1.2.) Absatz 2 ... 

Tabelle 5.1: Beispiele für Segmentierungsmöglichkeiten 

was der Sprecher sagt. Aus dem Audiostrom lassen sich Informationen allenfalls darüber extrahieren, 

wie der Vortragende spricht. Diese prosodischen Merkmale 1 können lediglich Hinweise 

bezüglich einer feineren Segmentierung liefern. Aus diesem Grund wurde bei der Evaluation der 

Verfahren bis zu einer Tiefe von 7 gegliedert; die feinste Gliederungseinheit ist beispielsweise 

4.4.4.2.7.2.2 Nachweis. Diese Tiefe hat sich als feinste Auflösung bei den vorliegenden Daten 

herausgestellt. 

Erstellung der Referenzsegmentierung 

Zur Erstellung der Referenzsegmentierungen wurden die untersuchten Vorträge vollständig von 

Hand transkribiert. Es wurden (möglichst) wortwörtliche textuelle Abbilder dieser Vorträge geschaffen, 

inklusive von Füllauten wie „...äh...“ u.ä. Diese Texte wurden anschließend manuell 

und unabhängig vom Audiostrom segmentiert. Die manuelle Segmentierung orientiert sich an 

einem Beispiel aus [35]. Sie beruht ausschließlich auf dem inhaltlichen Zusammenhang, der sich 

aus dem Text ergibt. Hierzu ist natürlich ein gewisses Grundwissen über den Inhalt des Vortrages 

nötig, so daß Zusammenhänge erkannt werden können. Anhand dieser manuellen Segmentierung 

wurde wieder die Audio-Datei herangezogen und die Startzeitpunkte zu dieser Gliederung ermittelt. 

Tabelle 5.2 zeigt einen Auszug aus einer manuellen Segmentierung eines Vortrages aus 

[24]. Anhang A enthält eine Text-Transkription zu diesem Beispiel. Die Startzeitpunkte werden 

nun zur Evaluation der Segmentierungsverfahren herangezogen. 

1 Prosodem [grie.](prosdisches Merkmal), in der Linguistik lautl.-phonologisches Merkmal (Akzent, Intonation, 

Sprechtempo u.ä); relevant für die Bildung sprachlicher Einheiten, die größer als ein Laut bzw. Phonem sind. 

(Meyers großes Taschenlexikon: in 24 Bänden, B.I. Taschenbuchverlag, Mannheim;1995.)

5.1. MESSGRÖSSEN 87 

5.1 Messgrößen 

Gliederung Überschrift Startzeitpunkt 

innerhalb der 

Audiodatei 

1. Begrüßung 0:00,00 

2. Einleitung 0:08,92 

3. Gliederung 0:30,41 

3.1. Problemformulierung 0:36,47 

3.2. Konfigurationsraum 0:45,12 

3.3. Einfaches Problem 0:58,63 

3.4. Minkowski-Summen 1:14,70 

3.4.1. Eigenschaft von Minkowski-S. 1:28,43 

3.5. Problemlösung 1:46,62 

4. Problemstellung 2:05,89 

4.1. Veranschaulichung 2:24,02 

4.2. Beispiel 2:45,04 

. . . 

Tabelle 5.2: Auszug aus einer manuellen Segmentierung 

In der Einleitung zu diesem Kapitel wurde erläutert, wie die Referenzdaten für die Evaluation 

zustande kommen. Es ist aber noch nicht klar, was und wie gemessen werden soll. Die manuell 

erstellte Segmentierung eines Vortrages liefert, wie die Tabelle 5.2 zeigt, eine Liste von Zeitpunkten, 

die einem Beginn eines Topics (engl.: Topic Beginning) entsprechen. Die untersuchten 

Verfahren sollen diese Zeitpunkte nun möglichst genau aus der Sprachdatei extrahieren. Dabei 

sollen sie nicht nur möglichst viele dieser Topic Beginnings finden, sondern auch so wenig wie 

möglich falsche Alarme (engl.: False Alarms) auslösen. Dies führt zu den Begriffen Recall und 

Precision. 

Recall und Precision 

Eine erste Definition dieser Begriffe könnte wie folgt sein: Der Recall liefert ein Maß für die 

Trefferhäufigkeit des Verfahrens; je mehr der Topic Beginnings erkannt werden, umso höher ist 

der Wert für den Recall. Die Precision zeigt die Genauigkeit des Verfahrens an. Je weniger False 

Alarms das Verfahren produziert, umso höher ist der Wert für die Precision. Es ist sehr wichtig 

beide Metriken zu berechnen, wie folgendes Beispiel zeigt: Ein Segmentierungsverfahren findet 

alle Satzanfänge und identifiziert alle Sätze als Topic Beginnings. Es erreicht damit einen Recall 

 

¢ ¢§¤ 

von ; allerdings ist dann die Precision sehr niedrig, da auch Satzanfänge gefunden werden, 

die nicht einer Segmentgrenze entsprechen. Findet das Verfahren nur genau ein tatsächliches 

Topic Beginning und erzeugt keine False Alarms, so erhält man zwar eine Precision 

¢£¢§¤ 

von , 

jedoch einen sehr niedrigen Recall.


Topic Beginning PBS EDBS 

(Sek.) (Sek.) Emphasis Zeitpunkt 

0:00,00 0:00,00 0 0s 

0 1s 

0 2s 

0:03,45 0:03,45 1 3s 

2 4s 

0:05,78 0 5s 

1 6s 

0 7s 

0:08,92 0:08,92 0 8s 

4 9s 

5 10s 

Tabelle 5.3: Beispielhafte Gegenüberstellung von tatsächlichem Topic Beginning und den Ausgaben der 

Segmentierungsverfahren 

Formal werden Recall und Precision in Anlehnung an [35] wie folgt definiert: 

Definition 5.1 Die Trefferhäufigkeit (Recall) und Genauigkeit (Precision) eines Segmentierungsverfahrens 

sind durch 

© ¡ ¢ ¡ ¡ ¡ 

¡ 

¡ 

 

¡ 

 

© 

¡ 

 

¡ 

 

gegeben, wobei ¡ die Anzahl der Treffer (Hits), 

 

Beginnings (Misses) und 

Problemfälle bei der Interpretation der Ausgaben 

(5.1) 

¨ 

(5.2) 

 

die Anzahl der nicht gefunden Topic 

die Anzahl der falschen Alarme (False Alarms) repräsentieren. 

¨ 

Aus der Definition 5.1 ist noch nicht klar ersichtlich, wie Hits, Misses und False Alarms definiert 

sind. Diese Begriffe sollen in Abhängigkeit des Verfahrens definiert werden. Grund hierfür sind 

die verschiedenen Ausgaben der Algorithmen. PBS gibt beispielsweise seine Ergebnisse in Form 

von exakten Zeitpunkten aus, die mit Wort- bzw. Satzgrenzen zusammenfallen. Das zweite Verfahren, 

EDBS, welches auf der Detektion von Betonungen basiert, liefert eher grobe Information 

über den Zeitpunkt. 

Anhand eines kleinen Beispiels (siehe Tabelle 5.3) soll dies verdeutlicht werden. Das PBS- 

Verfahren liefert in diesem Beispiel drei Hits und einen False Alarm. Bei diesem Verfahren 

kommt es nicht zu Schwierigkeiten bei der Interpretation der Ausgabe, da die ausgegebenen 

Zeitmarken zu Wort- beziehungsweise Satzgrenzen korrespondieren. Das EDBS-Verfahren zeigt

5.1. MESSGRÖSSEN 89 

Emphasis 

4 

3 

2 

1 

¢¡¤£ 

¢¡¦¥ 

¢¡¨§ 

¢¡¨© 

¢¡¤ 

¢¡¤ 

1 2 3 4 5 6 7 8 

topic beginning 

Zeit (Sek.) 

Emphasis 

4 

3 

2 

1 

¢¡¨£ 

¢¡¦¥ 

¢¡¨§ 

¢¡¨© 

¢¡¤ 

¢¡¤ 

¢¡¤ 

1 2 3 4 5 6 7 8 

topic beginning 

Zeit (Sek.) 

(a) § ¨ ¡ (b) § ¨ ¡§¦ 

Abbildung 5.1: Beispiele für die Schwierigkeit der Ermittlung von Topic Beginnings bei der Emphasis- 

Detektion. Die Zeitfenster haben im Diagramm (a) eine Länge von § ¨ ¡ und im Diagramm (b) eine 

Länge von § ¨ ¡§¦ . 

 

¦ 

¡ ¢ 

Betonungen bestehen. 

Diese Ergebnisse 

 

 

 

 

an, daß zu den Zeitpunkten , , , und 

stimmen nicht exakt mit den Topic Beginnings überein. Es stellt sich nun die Frage, wie diese 

Werte zu interpretieren sind. Das Problem besteht in der Messung der Betonung über ein Zeitfenster, 

das sich über mehrere Sekunden erstrecken kann. Angenommen, es existiert ein Topic 

Beginning zum Zeitpunkt und es wurde für das Verfahren ein Zeitfenster mit einer Länge 

von gewählt (vergleiche Abbildung 5.1(a)). Die eigentliche Betonung wurde vom Verfahren 

im Superframe, der mit der 5. Sekunde beginnt, detektiert. Die Zeitfenster ¡ § und liefern 

einen Wert ¢ 

 

 

¦ 

von¦ 

nur¦ 

¢¡ 

¢¡ 

 

 

. Die Zeitfenster liefern den Wert . Das Verfahren sagt also, daß zum 

Zeitpunkt ein Topic Beginning existiert. (Es wird angenommen, daß bei mehreren aufeinanderfolgenden 

Betonungswerten, die größer als Null sind, der erste Wert als vorausgesagtes 

Topic Beginning angesehen wird.) Es besteht also eine Differenz zwischen vorausgesagtem 

Topic Beginning und dem tatsächlichen Ereignis. Idealerweise hätte hier die Ausgabe von 

als Hinweis auf ein Topic Beginning stattfinden müssen. Beträgt die Länge des Zeitfensters 

, dann liefern die Zeitfenster den Wert 0 (vergleiche Abbildung 5.1(b)). Erst 

das Zeitfenster liefert den Wert 4. Das vorausgesagte Topic Beginning tritt zum Zeitpunkt 

auf. Die Differenz zum tatsächlichen Topic Beginning beträgt jetzt nur noch . Dies wirft 

die Frage auf, wie groß die Toleranz in Abhängigkeit von der Länge des Zeitfensters sein soll und 

wie die Länge des Zeitfensters gewählt werden muß, damit die Ausgabe des Verfahrens sinnvoll 

zur Segmentierung einer Sprachdatei eingesetzt werden kann. 

Die eben beschriebenen Probleme betreffen die Ermittlung des Recalls für das pitchbasierte Verfahren. 

Das Beispiel in Tabelle 5.3 wirft ein weiteres Problem auf. Zum Zeitpunkt 

zeigt ¦ 

das pitchbasierte Verfahren eine Betonung an, die eigentlich als False Alarm gewertet werden 

müsste. Nun könnte diese Betonung aber beispielsweise zu einem Satz gehören, der zwischen 

der 2. und 3. Sekunde beginnt und zwischen der 6. und 7. Sekunde endet. Dann dürfte diese Betonung 

nicht als FA angesehen werden. Auch hier stellt sich die Frage nach der zu gewährenden 

Toleranz, die eventuell für die Precision von Bedeutung sein könnte. Diese Fragen werden in 

Kapitel 5.3 beantwortet, wenn das Verfahren mit verschiedenen Zeitfensterlängen und unterschiedlichen 

Schwellwerten ausgewertet wird.


Die folgenden Abschnitte beschäftigen sich mit der Auswertung der Ergebnisse der zu untersuchenden 

Verfahren. Jeder Abschnitt beginnt damit, die Begriffe Recall und Precision für das jeweilige 

Verfahren zu präzisieren. Im Anschluß daran werden die Auswertungsergebnisse 

präsentiert und interpretiert. 

5.2 Pausenbasierte Segmentierung 

Es werden nun die Ergebnisse der Auswertung des pausenbasierten Segmentierungsverfahrens 

PBS (vergleiche Kapitel 4.1) präsentiert. Die ausgewählten Sprachdateien wurden von diesem 

Verfahren für vier verschiedene ¥ 

¢£¢ 

Pausen-Schwellwerte ¥ 

¢ 

(keine Einschränkung, 

¢£¢£¢ 

, 

 

und ) bearbeitet. Der erste Wert dient lediglich dazu, herauszufinden, ob das 

Verfahren 

überhaupt alle Topic Beginnings finden kann, unabhängig davon wie hoch die Precision ausfällt. 

Die drei letzten Werte fallen in den Bereich der sogenannten Juncture-Pausen, also solchen 

Pausen, die unter der Kontrolle des Sprechers 

¢£¢ 

 

liegen. Atempausen ( ) und Pausen, die 

durch ein (kurzes) Zögern (Hesitation) des 

¢£¢ ¥ 

Sprechers 

¢ 

entstehen ), sollten ausgeschlossen 

werden. Ein Segment wurde genau dann als korrektes Topic Beginning angesehen, 

wenn die vorangehende Pausenlänge größer oder gleich dem Pausen-Schwellwert war und der 

¦ (¦ 

Startzeitpunkt des Segments um maximal 

Beginnings gemäß der Referenzsegmentierung abwich. Andernfalls wurde das gerade betrachtete 

Segment als False Alarm gewertet. 

¥ 

¢ vom vorgegebenen Startzeitpunkt des Topic 

Die Vorträge 3 und 4 (Dateien: ga300_15m.aif und ga700_15m.aif) wurden einer Nachbehandlung 

unterzogen, da sich beim ersten Testlauf herausstellte, daß die Aufnahmequalität dieser Aufzeichnungen 

sehr schlecht ist und das Segmentierungsverfahren dadurch nur ¦ 

¤ 

aller 

Topic Beginnings im Vortrag 3 fand. Im unbearbeiteten Vortrag 4 entdeckte das Verfahren nur 

¡§¤ 

aller Topic Beginnings. Dies liefert einen Hinweis darauf, daß das Segmentierungsverfahren 

noch Schwierigkeiten mit ungünstigen Nutz- zu Rauschsignal-Verhältnissen hat. 

¦ 

¦ 

5.2.1 Ergebnisse 

In diesem Abschnitt werden die Resultate der Testläufe aufgeführt. Sie werden in Tabellenform 

präsentiert, wobei die nachfolgenden Tabellen alle nach dem selben Schema aufgebaut sind: 

Zeile1 enthält den Dateinamen der untersuchten Audio-Datei. Der Dateiname setzt sich 

aus der Abkürzung des Namens der Vorlesungsreihe, der Nummer der Vorlesung und der 

Länge der Audio-Datei zusammen. 

Beispiel: ga100_15m.aif steht für einen 15 minütigen Ausschnitt der ersten Vorlesung aus 

der Vorlesungsreihe Geometrische Algorithmen. Das Dateiformat ist AIFF. (Der Dateiname 

des Originals lautete: ga100.aif) 

Spalte 1 enthält einen Pausen-Schwellwert, der angibt, wie lange die zu berücksichtigende 

Pause mindestens sein muß. In Spalte 2 findet sich die Gesamtzahl der Topic Beginnings

5.2. PAUSENBASIERTE SEGMENTIERUNG 91 

(TB). Die Spalten 3 bis 5 geben die Anzahl der vom Segmentierungsverfahren erzielten 

Treffer (Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl 

der falschen Alarme (False Alarms FA) wieder. In Spalte 6 findet sich der errechnete 

Wert für den Recall in Prozent und Spalte 7 enthält den Wert für die Precision. 

Beispiel: (Zeile 2) Berücksichtigt man für die Auswertung nur die Pausen, die länger als 

¢ ¢ 

lang sind, so erreicht das Verfahren bei insgesamt 57 Topic Beginnings 37 Treffer. 

¥ 

20 Topic Beginnings werden nicht gefunden und 164 mal sagt der Algorithmus einen nicht 

vorhandenes Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall 

¦§¥ von und eine Precision £ ¤ 

von . 

¤ 

Es ist anzumerken, daß die zu berücksichtigende Pausendauer kein beliebig veränderbarer Parameter 

ist. Die Erwartung ist, daß Sprecher Pausen ¥ 

¢£¢ 

zwischen 

¢£¢ ¢ 

und einlegen, um 

sowohl einzelne Sätze als auch Topics voneinander abzugrenzen (vergleiche Kapitel 4.1). 

Ergebnisse in Tabellenform 

Datei: ga100_15m.aif (Sprecher 1) 

Schwellwert (Sek.) TB H M FA Recall ( ) Precision ( ) 

0.00 57 53 4 517 93 9 

0.50 57 37 20 164 65 18 

0.75 57 24 33 85 42 22 

1.00 57 12 45 49 21 20 



0.00 37 35 2 716 95 5 

0.50 37 28 9 183 76 13 

0.75 37 20 17 111 54 15 

1.00 37 13 24 69 35 16 



0.00 35 25 10 903 75 3 

0.50 35 19 16 274 54 6 

0.75 35 17 18 150 49 10 

1.00 35 13 22 81 37 14




0.00 45 40 5 823 89 5 

0.50 45 29 16 201 64 13 

0.75 45 20 25 91 44 18 

1.00 45 15 30 55 33 21 

Durchschnitt 


0.00 174 153 21 2959 87.9 4.9 

0.50 174 113 61 822 64.9 12 

0.75 174 81 93 437 46.5 15.6 

1.00 174 53 121 254 30.4 17.2 

5.2.2 Interpretation der Ergebnisse 

Zunächst ist auffallend, daß das Segmentierungsverfahren noch nicht einmal alle Topic 

Beginnings findet, unabhängig von der Precision. Im Falle des dritten Vortrages erreicht das 

Verfahren gar nur einen Recall von ¤ 

¤ 

¥ 

 

bei einer Precision von . Im Schnitt über alle vier 

untersuchten Sprachdateien ergab sich, daß nur knapp £ £ ¤ 

¦§¥ 

¤ 

¦¤ 

aller Topic Beginnings überhaupt gefunden 

werden konnten. Selbst wenn man sich mit einem Recall von etwa zufrieden geben 

könnte, muß doch angemerkt werden, daß eine Precision von nur einfach zu wenig ist, um 

die Ausgabe dieses Verfahrens sinnvoll nutzen zu können. Dies schließt jedoch nicht aus, daß die 

Daten in Kombination mit anderen Features nicht doch zu befriedigenden Ergebnissen führen 

könnten. 

Abbildung 5.2 zeigt für die vier untersuchten Sprachdateien Pausen-Histogramme. Hierzu 

wurde ermittelt, wie lange die Pausen vor den gefundenen, tatsächlichen Topic Beginnings sind. 

Es fällt auf, daß es bei keinem der Sprecher einen Wert oder Wertebereich gibt, der besonders 

hervorsticht. Dies macht es natürlich besonders schwierig, Topic Beginnings anhand der Pausenlänge 

zu bestimmen. Interessant ist ebenfalls, daß sich selbst bei gleichem Sprecher sehr unterschiedliche 

Häufigkeitsverteilungen ergeben (siehe Dateien: ga100_15m.aif und ga300_15m.aif). 

Dies drückt sich auch in den unterschiedlichen Recall- und Precision-Werte für die entsprechenden 

Vorträge aus. 

Weiterhin fällt auf, daß die Zahl der False Alarms selbst bei einer Mindestpausendauer von 

¢£¢ ¢ 

die Anzahl der Topic Beginnings weit übersteigt. Die Sprecher legen also sehr viel 

 

öfter lange Pausen ein, als man sich im Idealfall wünschen würde. Der Idealfall wäre, daß ein 

Sprecher nur dann lange 

¢£¢ ¢ 

) Pausen einlegt, wenn er ein neues Topic beginnt und 

einzelnen Sätzen eine Pause von etwa ¥ 

¢£¢ ¢ 

vorangehen läßt. 

(¤ 

¢£¢

5.2. PAUSENBASIERTE SEGMENTIERUNG 93 

Hafigkeit Häufigkeit 

Hafigkeit 

Häufigkeit 

7 

6 

5 

4 

3 

2 

Datei: 

Datei: 

ga100_15m.aif 

ga10015m.aif 1 

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0 

Pausenlnge Pausenlänge (Sek.) 

4 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

Datei: 

Datei: 

ga300_15m.aif 


0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0 

Pausenlänge Pausenlnge (Sek.) 

Hafigkeit Häufigkeit 

Hafigkeit 

Häufigkeit 

5 

4 

3 

2 

1 

Datei: 

Datei: 

ga200_15m.aif 


0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0 

Pausenlänge Pausenlnge (Sek.) 

4 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

Datei: ga70015m.aif Datei: ga700_15m.aif 

0 

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 2.0 >2.0 

Pausenlnge Pausenlänge (Sek.) 

Abbildung 5.2: Pausen-Histogramme; hierzu wurde ermittelt, wie lange die Pausen vor den tatsächlichen 

Topic Beginnings sind, sofern sie vom Algorithmus gefunden wurden.


Analyse 

Eine genauere Analyse der Daten ergab, daß die häufigen False Alarms in der Regel durch 

folgende Situationen zustande kamen: 

Die Sprecher legen weder vor neuen Topics, noch vor neuen Sätzen, einheitlich lange Pausen 

ein. Dadurch ist es nicht möglich, anhand der Pausendauer auf Topic Beginnings zu 

schließen. 

Aktionen am elektronischen Whiteboard führen in aller Regel zu langen Sprechpausen, 

nicht nur zwischen einzelnen Sätzen, sondern auch innerhalb eines Satzes. 

Die Dozenten versprechen sich oder ihr Redefluß stockt. Diese Fehler werden auch 

disfluencies genannt. Beispiele hierfür sind: 

Typ Beispiel 

gefüllte Pause er äh . . . mochte es 

Wiederholung er . . . er mochte es 

Reparatur er . . . sie mochte es 

falscher Start es war. . . er mochte es 

Der erste Punkt ist dem gewollten Live-Charakter der Aufzeichnung zuzuschreiben und läßt sich 

nicht vermeiden. 

Der zweite Punkt hängt mit der Art des Vorlesungsdarbietung zusammen. Im vorliegenden Datenmaterial 

benutzen die Vortragenden das elektronische Whiteboard für ihre Vorträge. Die Verwendung 

dieses Whiteboards führte zu häufigen, unfreiwilligen Unterbrechungen im Redefluß. 

Es wurden aber auch Animationen abgespielt, die die Sprecher nur spärlich kommentierten. 

Da das Segmentierungsverfahren keine Kenntnis davon hat, zu welchen Zeitpunkten Aktionen 

am Whiteboard ausgeführt wurden, gehen die dadurch entstandenen Pausen negativ in die Bewertung 

ein. 

Disfluencies treten zum einen kontextbedingt, aber auch sprecherabhängig auf. Beispielsweise 

ist von einem Nachrichtensprecher zu erwarten, daß solche Unterbrechungen nicht vorkommen. 

Im Falle von freier Rede ist man diesbezüglich sicherlich toleranter. Für die automatische Erkennung 

von Topic Beginnings ist dies natürlich trotzdem ein Problem. Es existieren allerdings 

Forschungsansätze, die sich mit der Erkennung der disfluencies beschäftigen und zu guten Erkennungsraten 

führen [31]. Nachteil dieser Verfahren ist, daß sie auf statistischen Modellen beruhen 

und somit eine große Menge an Trainings- und Testdaten benötigen. Diese zu erstellen , ist 

mit sehr hohem Zeitaufwand verbunden. Zudem hat man mit der Erkennung und möglicherweise 

Beseitigung der disfluencies nur einen kleinen Teil der Probleme beseitigt.

5.3. EMPHASIS-DETECTION-BASIERTE SEGMENTIERUNG 95 

Fazit 

Das pausenbasierte Segmentierungsverfahren führt nicht zu einem befriedigenden Ergebnis. Vor 

allen Dingen die geringe Präzision bei der Erkennung von Topic Beginnings macht das Verfahren 

insbesondere für die untersuchte Art von Sprachdateien unbrauchbar. Zudem hängen die 

Segmentierungsergebnisse, hingegen der Erwartung, doch von der Aufnahmequalität ab. (Der 

Algorithmus läßt sich aber leicht verbessern, indem aus der bimodalen Verteilung im Energie- 

Histogramm beide Peaks ermittelt werden, die Distanz berechnet und dann anschließend der 

Schwellwert in Abhängigkeit der zuvor berechneten Distanz ermittelt wird.) Die oben genannten 

Situationen (Live-Charakter der Vorlesung, Aktionen am Whiteboard und disfluencies) lassen 

sich bei dieser Art von Aufzeichnungen nicht vermeiden und führen bei diesem Segmentierungsverfahren 

zu schlechten Resultaten. 

In Anhang B werden Segmentierungsergebnisse präsentiert, die auf Nachrichtensendungen aus 

dem Radio basieren. Sowohl Recall- als auch Precision-Werte sind bei diesen Sprachdateien 

sehr viel höher. Dies liegt vor allen Dingen daran, daß die Sprecher einheitlich lange Pausen 

einlegen und sich nur sehr selten versprechen. Es zeigt sich deutlich, daß das Verfahren auf einer 

bestimmten Klasse von Sprachdateien durchaus zu guten Ergebnissen führen kann. 

5.3 Emphasis-Detection-basierte Segmentierung 

Dieser Abschnitt beschäftigt sich mit der Evaluation des pitchbasierten Verfahrens EDBS (vergleiche 

4.2). Für die Evaluation wurden die selben Sprachdateien verwendet wie im vorhergehenden 

Abschnitt. Das Verfahren wurde zunächst mit verschiedenen Fensterlängen ( ,¦, ¨ 

, ¦ , £ ¥ 

und und unterschiedlichen Pitch-Schwellwerten 

¢ £¤ 

( 

¤ 

, 

¤ 

, ¥ 

¤ 

und £ ¤ 

) getestet. 

Es stellte sich heraus, daß es sehr schwierig ist, eine geeignete Berechnungsvorschrift für Recall 

und Precision zu finden, insbesondere für Fensterlängen 

,¦ ¦. Dieses Problem wurde bereits 

im Abschnitt 5.1 angedeutet. 

¨©¤ 

STIFELMAN definiert bei ihrer Untersuchung einen Hit als einen Index, der irgendwo in der Einleitungsphrase 

eines Topic Beginning liegt [35]. Durch Anhören der Sprachdatei ist dann leicht 

zu entscheiden, wo der dazugehörige Satz beginnt. Wenn keine semantische Information vorliegt, 

ist dies automatisch nicht so einfach festzustellen. Warum dies so ist, wurde im Abschnitt 5.2.2 

deutlich. Aufgrund ihrer Meßmethode kam STIFELMAN auf eine Precision von £¦¤ 

und einen 

von¦ ¥ 

¤ 

Recall . Leider ging aus dieser Veröffentlichung nicht klar hervor, wie beispielsweise 

False Alarms ermittelt wurden. Es wurde auch nicht deutlich, wie mit dem Fall umgegangen 

wurde, daß mehr als eine Betonung innerhalb eines Satzes vorkam. 

Aufgrund der Tatsache, daß die Ermittlung der Satzgrenzen sehr schwierig ist, insbesondere 

bei den in dieser Arbeit untersuchten Sprachdateien, wurde für die Evaluation ein wesentlich 

strengeres Maß angelegt. Eine Folge davon war, daß Fensterlängen nicht ¨ weiter untersucht 

wurden. Die Sprachdateien wurden folglich nur mit den Fensterlängen ¤ ¦ ¨ 

¦© 

und 

¨ 

den Pitch-Schwellwerten © 

¤ 

¡ ¨ 

¨ 

¤ £ ¤§© 

untersucht. 

¤ 

¤ ¦ ¤ ¥


dsaas 

§ ¨ ¢¡¤£¦¥¤¨§ ¨ ¢¡¤£¦¥¤¨§¨ © (Sek.) Klassifikation 

für§ ¡ ¦ 

1 ¡ 

2 ¡ 

¡ 

¡ 

© §§ £ £ 

H © £ £ 

H §§ 

 

FA £ 

FA 

 

 

£ © 

£ 

£ © 

© §§ £ £ 

H © £ £ 

H 

£ £ © §§ FA 

¦ 

£ © £ FA 

¦ 

¦¦ Tabelle 5.4: Klassifikationsvorschrift für das EDBS 

Sei das tatsächliche Topic Beginning, angegeben in Sekunden. Hits (H) und False Alarms 

(FA) sind nun entsprechend der Tabelle 5.4 definiert. Angenommen, die Fensterlänge beträgt 

 

. Ein Betonungswert ¤ 

¢ 

 

wird genau dann als Hit klassifiziert, wenn 

¨ 

¢ 

 

 

¢ 

und ¤ 

¢ 

¢ 

¤ 

und das tatsächliche Topic Beginning mit dem 

Startzeitpunkt ¤ im Intervall 

 

liegt. (Die Variable wird ohne Maßeinheit verwendet. 

 

Da bei der Formalisierung des Verfahrens in Kapitel 4.2 davon ausgegangen wurde, 

¤ 

daß und 

¨ nur ganzzahlige Werte annehmen, soll 

eine Zeitvariable (in Sek.) darstellen). Andernfalls 

 

wird der Betonungswert als False Alarm gewertet. Die Zeilen 2,4,6 und 8 decken den Spezialfall 

des Dateianfangs ab. 

 

5.3.1 Ergebnisse 

Jeder Vortrag wurde bezüglich zweier Fragestellungen untersucht. Die erste Untersuchung ging 

der Frage nach, wieviele tatsächliche Topic Beginnings das Verfahren findet und wie hoch die Genauigkeit 

dabei ist. Dazu wurden die bereits in Kapitel 5.1 eingeführten Metriken für Recall und 

Precision verwendet. Die Ergebnisse für diese Fragestellung werden jeweils in der ersten Tabelle 

wiedergegeben. Die zweite Untersuchung galt der Frage, ob das Verfahren bestimmte Segment- 

Levels besonders gut erkennt. Bei der Zuordnung der Topic Beginnings zu Segment-Levels ergibt 

sich ein Spezialfall: Gilt für ein Topic Beginning, daß Level und Level zusammenfallen, 

so wird dieses Topic Beginning beiden Levels zugeordnet. Wenn also beispielsweise bei einem 

Topic Beginning die Levels und zusammenfallen, so geht dieses Topic Beginning sowohl 

bei der Wertung auf dem Level 2 als auch bei der Wertung auf dem Level 3 ein. Bei dieser 

Untersuchung wurde nur der Recall ermittelt. Die Ergebnisse finden sich in der jeweils zweiten 

Tabelle.


Die jeweils erste Tabelle ist nach einem ähnlichem Schema wie im vorangegangenen Abschnitt 

5.2 aufgebaut: 

Die Spalten 1 bis 6 repräsentieren die ¨ Fensterlänge , den Pitch-Schwellwert, die Anzahl 

der tatsächlichen Topic Beginnings TB, die Anzahl der vom Verfahren erzielten Treffer 

(Hits H), die Anzahl der nicht gefunden Topic Beginnings (Misses M) und die Anzahl der 

falschen Alarme (False Alarms FA). In Spalte 7 findet sich der errechnete Wert für den 

Recall und Spalte 8 enthält den Wert für die Precision. 

Beispiel: (Zeile 6) Die Fensterlänge beträgt 

¦, der Pitch-Schwellwert wird auf¦ 

¤ 

¨ 

festgelegt. Das Verfahren erreicht bei insgesamt 57 Topic Beginnings 18 Treffer. 39 Topic 

Beginnings werden nicht gefunden und 34 mal sagt der Algorithmus ein nicht vorhandenes 

Topic Beginning voraus. Das Verfahren erreicht in diesem Fall einen Recall ¦¤ 

von und 

eine Precision ¥ von . 

Die jeweils zweite Tabelle hat den folgenden Aufbau: 

¤ 

Spalte 1 enthält die Fensterlänge ¨ und in Spalte 2 den Pitch-Schwellwert. Die Spalten 

3 bis 9 repräsentieren die Recall-Werte für die verschiedenen Segment-Levels. 

Vortrag 1 (Datei: ga100_15m.aif) 

Der erste Vortrag ließ sich in 57 Topic Beginnings unterteilen, die sich auf 7 Level verteilen. 

Deutlich ist der Unterschied zwischen den Werten für die verschiedenen Fensterlängen ¨ 

zu sehen. Sowohl Recall- als auch Precision-Werte sind für die Fensterlänge 

 

¨ deutlich 

höher. Es wird auch deutlich, daß die Recall-Werte mit größerem Pitch-Schwellwert zunehmen. 

Allerdings folgen die Precision-Werte nicht dem Beispiel der Recall-Werte. Im Fall von 

¨ 

 

variieren die Precision-Werte nur um . 

¦ 

¨ § 

1 1 57 4 53 32 7 11 

Thresh. (%) TB H M FA Recall (%) Precision (%) 

2 57 7 50 58 12 11 

5 57 10 47 77 18 11 

8 57 14 43 100 25 12 

2 1 57 10 47 24 18 29 

2 57 18 39 34 32 35 

5 57 21 36 48 37 30 

8 57 28 29 53 49 35 

Betrachtet man die zweite Tabelle, so ist zunächst der Totalausfall für das Segment-Level 4 bei 

¨ 

 

bemerkenswert, welcher über alle Pitch-Schwellwerte hinweg reicht. Eine scheinbare 

 

¤


Präferenz des Verfahrens gibt es bei dieser Fensterlänge allenfalls für das Level 2, allerdings auch 

nur bei den ¥ 

¤ 

Pitch-Schwellwerten und £ . Für 

¤ 

 

¨ und ¦ © 

¤ 

¤ £ ¤§© 

¤ 

erhält man den maximalen Recall beim Segment-Level 4. 

¡ ¨ ¨¦¤ ¥ 

¨ § 

(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7 

Thresh. Recall (%) 

1 1 0 0 5 0 14 7 13 

2 0 14 16 0 14 13 0 

5 25 43 16 0 14 13 13 

8 5 57 21 0 14 20 25 

2 1 0 14 11 0 29 33 25 

2 25 43 37 50 43 33 13 

5 25 57 42 75 43 33 38 

8 25 57 53 75 57 47 63 


Für diese Vorlesungsaufzeichnung wurden 37 Topic Beginnings ermittelt, die sich auf 5 Segment- 

Levels verteilen. Auffallend ist hier im Vergleich zum ersten Vortrag, daß die Precision-Werte 

insgesamt niedriger sind und nahezu unabhängig von den Pitch-Schwellwerten. Zudem ergibt 

sich bei Verdopplung von auch nur eine ungefähre Verdopplung der Precision, während 

¨ 

man beim ersten Vortrag in etwa eine Verdreifachung erhielt. Die Recall-Werte sind für 

 

¨ 

etwas höher als beim ersten Vortrag, für 

 

¨ ergibt sich ein ausgeglicheneres Bild. ¦ 

¨ § 

1 1 37 4 33 54 11 7 


2 37 6 31 78 16 7 

5 37 8 29 107 22 7 

8 37 11 26 131 30 8 

2 1 37 7 30 41 19 15 

2 37 13 24 66 35 16 

5 37 13 24 74 35 15 

8 37 16 21 90 43 15 

Bei diesem Vortrag erkennt das Verfahren auf den ersten beiden Segment-Levels für die gewählten 

Fensterlängen und die unterschiedlichen Pitch-Schwellwerte kein einziges TB. Eine


scheinbare Präferenz gibt es für das Segment-Level 4. Dies deckt sich für ¨ 

Erkenntnissen aus dem ersten Vortrag. 


¨ § 

(%) Level 1 Level 2 Level 3 Level 4 Level 5 


1 1 0 0 8 20 0 

2 0 0 8 33 0 

5 0 0 8 33 20 

8 0 0 8 33 40 

2 1 0 0 8 27 20 

2 0 0 8 53 40 

5 0 0 8 53 40 

8 0 0 15 53 50 

¦ 

mit 

den 

Die manuelle Segmentierung dieses Vortrages ergab 35 Topic Beginnings, die sich auf 7 Segment- 

Levels verteilen. Die Precision-Werte für 

 

liegen nochmals unter denen des zweiten 

¨ 

Vortrages. Für 

¨ variieren die Precision-Werte zwischen ¦ £¤ ¤ 

, allerdings sind 

und¦ 

auch diese Werte für die automatische Erstellung einer Segmentierung und für die weitere Verarbeitung 

inakzeptabel. Interessant ist noch die Tatsache, daß zwar die Sprecher der Vorträge 1 

und 3 übereinstimmen, es aber trotzdem zu sehr unterschiedlichen Ergebnissen kommt. 

¨ § 

1 1 35 2 33 48 6 4 


2 35 4 31 76 11 5 

5 35 8 27 131 23 6 

8 35 12 23 144 34 8 

2 1 35 3 32 41 9 7 

2 35 7 28 60 20 10 

5 35 16 19 83 46 16 

8 35 21 14 81 60 21 

Auch hier ist wieder ein Totalausfall auf den ersten beiden Segment-Levels zu verzeichnen, wenn 

man vom Fall 

¦, ¨ 

© £ ¤ 

absieht. Zudem erkennt das Verfahren bei diesem Vortrag 

¤ 

keine Topic Beginnings auf dem Segment-Level 7. Eine eindeutige Präferenz zugunsten eines


Segment-Levels gibt es bei diesem Vortrag nicht. Für 

¨ 

Level 5, bei 

¨ erhält man das Maximum für Level 3. ¦ 

ergibt sich der Maximalwert für 

¨ § 

(%) Level 1 Level 2 Level 3 Level 4 Level 5 Level 6 Level 7 


1 1 0 0 0 0 22 0 0 

2 0 0 0 22 22 0 0 

5 0 0 33 22 33 33 0 

8 0 0 50 33 56 33 0 

2 1 0 0 0 0 22 0 0 

2 0 0 0 33 33 0 0 

5 0 0 67 56 56 33 0 

8 33 0 83 67 78 33 0 


Der vierte und letzte Vortrag enthält 45 Topic Beginnings, die auf 5 Segment-Level verteilt sind. 

Wenngleich die Precision-Werte etwas höher sind, als beim Vortrag 3, so sind sie dennoch 

durchweg auf niedrigem Niveau. Auffallend ist dennoch die Konstanz der Precision-Werte für 

¨ 

 

¦. 

¨ § 

1 1 45 2 43 47 4 4 


2 45 7 38 74 16 9 

5 45 17 28 124 38 12 

8 45 16 29 147 36 10 

2 1 45 10 35 35 22 22 

2 45 14 31 49 31 22 

5 45 22 23 79 49 22 

8 45 22 23 83 49 21 

Auch bei diesem Vortrag ergibt sich keine eindeutige Präferenz des Verfahrens zugunsten eines 

bestimmten Segment-Levels. Für 

 

¨ erhält man Maximalwerte bei Segment-Level 4. Einen 

Totalausfall auf den ersten beiden Levels gibt es wie bei den Vorträgen 2 und 3 nicht. 

¦


¨ § 

(%) Level 1 Level 2 Level 3 Level 4 Level 5 


1 1 25 0 0 0 8 

2 50 11 10 11 8 

5 50 33 40 44 38 

8 50 44 30 33 31 

2 1 50 22 30 22 15 

2 50 22 40 33 23 

5 50 33 50 67 54 

8 50 33 50 67 54 

Ergebnisse als Recall/Precision-Diagramme 

Die Diagramme in Abbildung 5.3.1 zeigen sogenannte Recall/Precision-Diagramme für die Resultate 

des EDBS-Verfahrens. Es ist deutlich zu sehen, daß eine Erhöhung des Pitch-Schwellwerts 

zwar in der Regel zu höheren Recall-Werten führt (Ausnahme: Vortrag 4, 

 

), allerdings 

¨ 

steigt der Precision-Wert nicht in gleichem Maße und bleibt auf niedrigem Niveau. 

Precision 

0.5 

0.4 

0.3 

0.2 

0.1 

’Vortrag 1’ 




0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 

Recall 

(a) Recall/Precision-Diagramm für ¢¡¤£ ¡ 

Precision 

0.5 

0.4 

0.3 

0.2 

0.1 

0 





0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 

Recall 

(b) Recall/Precision-Diagramm für ¥¡¦£ 

Abbildung 5.3: Recall/Presision-Diagramme für die Ergebnisse aus Kapitel 5.3.1 

5.3.2 Interpretation der Ergebnisse 

Die Ergebnisse zeigen, daß bei der Fragestellung, wieviele Topic Beginnings gefunden werden 

und mit welcher Genauigkeit dies geschieht, ein maximaler Recall ¦ 

¢§¤ 

von erreicht wird. Allerdings 

erhält man nur eine von¦ 

¤ 

Precision . Somit entspricht nur jedes fünfte vom Verfahren 

vorhergesagte Topic Beginning einem tatsächlichem Topic Beginning. Bestenfalls wurde eine


Precision ¥ 

¤ 

von ermittelt, aber auch dieser Wert ist zu niedrig. Man stelle sich folgende 

Situation vor: Das Verfahren soll benutzt werden, um einem Benutzer die Möglichkeit zu 

geben, schnell in einem Audio-Dokument zu navigieren. Die Sprungziele sollen dabei den Topic 

Beginnings entsprechen. Betrachtet man nun die obigen Ergebnisse, so kann der Benutzer 

¦ 

¢£¤ 

maximal der Topics überhaupt ansteuern. Dabei muß der Benutzer im Schnitt vier falsch 

vorhergesagte Topic Beginnings hinnehmen bis er zu einem erwünschten Topic Beginning gelangt. 

Dies ist dem Benutzer nicht zuzumuten. 

Bezüglich der Fragestellung, inwiefern das Verfahren bestimmte Segment-Levels häufiger findet, 

ergibt sich kein einheitliches Bild. Während es bei den Vorträgen 2 und 3 zu einem Totalausfall 

auf den Levels 1 und 2 kam, war die Häufigkeitsverteilung bei den Vorträgen 1 und 4 gleichmäßiger 

mit einer leichten Präferenz zum Segment-Level 4 hin. 

Nun stellt sich die Frage, welche Gründe es für die schlechten Ergebnisse gibt. Die Idee, die 

diesem Verfahren zugrunde liegt, ist zunächst einmal Betonungen des Sprechers zu finden. Da es 

Untersuchungen gibt, die belegen, daß solche Betonungen gute Indikatoren für Topic Beginnings 

sind, wird also versucht, mit Hilfe der gefundenen Betonungen auf diese zu 

schließen [15][17][35]. Hier muß allerdings darauf hingewiesen werden, daß diese Untersuchungen 

in der Regel auf einer anderen Art von Daten beruhen. Viele Untersuchungen zu den 

Themen Story Segmentation/Topic Detection/Topic Tracking benutzen als Datenbasis Nachrichtensendungen 

aus Radio und TV [7][11][18][32][36]. Diese Datenbasis hat gegenüber den 

vorliegenden Sprachdateien folgende Vorteile: 

1. Von Nachrichtensprechern ist zu erwarten, daß sie die einzelnen Topics (durch kurze 

Pausen) klar trennen. 

2. Die obengenannten disfluencies sollten nicht vorkommen. 

3. Längere Pausen, wie sie zum Beispiel bei Aktionen am Whiteboard des öfteren vorkamen, 

sollten bei Nachrichtensendungen nicht der Fall sein. 

4. Es gibt keine Hintergrundgeräusche, sofern man von Filmbeiträgen in TV-Nachrichten 

absieht. 

5. Die Aufnahmequalität ist besser. 

Die Punkte 4 und 5 betreffen die technische Natur der Daten. Diese Nachteile gelten aber nur 

für die hier verwendete Datenbasis. Allerdings sollte das EDBS-Verfahren und mögliche Weiterentwicklungen 

auch auf diesen Daten zu befriedigenden Ergebnissen führen. Die ersten zwei 

Punkte sind klar sprecherabhängig und beeinflussen nicht nur die in dieser Arbeit untersuchten 

Verfahren. Allerdings sollte man das Vorlesen von Nachrichten nicht mit dem freien Sprechen 

gleichstellen. Eine TV-Nachrichtensendung dauert in der Regel maximal 30 Minuten. In dieser 

Zeit werden außer den vom Nachrichtensprecher vorgetragenen Nachrichten auch Filmbeiträge 

gesendet. In diesen Phasen hat der Nachrichtensprecher Zeit, sich auf die noch vorzutragenden 

Nachrichten vorzubereiten. Zudem hat der Sprecher die Möglichkeit die Nachrichten vom Blatt


oder vom Teleprompter abzulesen. Diese Möglichkeit hat der Dozent einer Vorlesung nicht; ein 

vorgelesener Vortrag ist auch nicht erwünscht, der Dozent sollte bei seinem Vortrag frei sprechen. 

Zudem spricht der Dozent vor einer Reihe von Zuhörern, die unter Umständen zu Störungen 

führen können. Eine 90-minütige Vorlesung auf dem sprachlichen Niveau einer Nachrichtensendung 

zu halten ist demnach ungleich schwerer, wenn nicht gar unmöglich. 

Ein weiterer Grund für die schlechten Werte ist, daß Topic Beginnings von den Sprechern gar 

nicht so deutlich betont werden, wie man es sich wünschen würde. Interessant ist in diesem 

Zusammenhang folgendes: Hört man sich die Vorträge diesbezüglich etwas genauer an, so ist 

die erste (subjektive) Vermutung, daß der Vortrag 2 besonders schlecht abschneiden müßte. Dies 

spiegelt sich aber nicht in den Werten wieder. Scheinbar läßt man sich beim Abhören der Sprachdateien 

der Vorträge 1,3 und 4 vom Anstieg der Lautstärke an manchen Stellen beeinflussen. 

Der Algorithmus berücksichtigt Lautstärke aber nicht. Dies legt natürlich die Vermutung nahe, 

die Einbeziehung dieses Features in den Algorithmus würde eventuell zu wesentlich besseren 

Ergebnissen führen. Eine einfache Verknüpfung der Features Betonung und Lautstärke ergab 

bei einem kurzen Test jedoch keine nennenswerten Verbesserungen. Außerdem setzen die Betonungen 

nicht unbedingt direkt am Anfang eines Satzes (während der ersten beiden Sekunden) 

ein. Nach der obigen Definition von Hits und False Alarms ist dieser Fall nicht vom Algorithmus 

zu entdecken. Eine Verlängerung der Fensterlänge ¨ würde aber die im Abschnitt 5.1 

angeführten Probleme nach sich ziehen. 

Fazit 

Wie bei der pausenbasierten Segmentierung gilt auch hier, daß dieses Verfahren nicht zu zufriedenstellenden 

Ergebnissen führt. Die geringe Präzision bei der Erkennung von Topic 

Beginnings macht das Verfahren in dieser Form, für diesen Zweck und insbesondere für die 

untersuchte Klasse von Sprachdateien unbrauchbar. Auch zu diesem Segmentierungsverfahren 

wurde ein Vergleichstest, der auf Radio-Nachrichtensendungen basiert, angestellt. Die Ergebnisse 

finden sich in Anhang B. Es ist klar ersichtlich, daß das Segmentierungsverfahren auf dieser 

Klasse von Sprachdateien eine wesentlich bessere Genauigkeit liefert.

Kapitel 6 

Zusammenfassung und Ausblick 

Erklärtes Ziel dieser Arbeit war die Evaluation zweier Segmentierungsverfahren hinsichtlich 

ihrer Nutzbarkeit für die automatische Segmentierung vorhandener sowie zukünftiger Vorlesungsaufzeichnungen. 

Die untersuchten Verfahren wurden ausgewählt, weil sie nicht auf statistischen 

Modellen beruhen, welche beispielsweise durch neuronale Netze oder Hidden-Markov-Modelle 

realisiert werden können. Segmentierungsverfahren, die auf solchen Modellen beruhen, 

haben den entscheidenden Nachteil, daß sie trainiert werden müssen. Dazu muß zunächst 

eine große Menge von Trainingsdaten (von Hand) erstellt werden. Das resultierende statistische 

Modell kann dann wiederum mit Testdaten überprüft werden, die unter Umständen auch wieder 

manuell zu erstellen sind. Dies bedeutet einen großen Zeitaufwand für die Erstellung der 

Trainings- und Testdaten. Zudem ist die Zusammenstellung dieser Datenmengen unter Umständen 

kritisch, wenn nicht ausreichend große Datenmengen zur Verfügung stehen. Was man 

sich nun wünschen würde, wäre ein Verfahren, das ohne jegliche Vor- und Nachbearbeitung angewendet 

werden könnte. 

In Kapitel 4 wurden zwei Algorithmen vorgestellt, die ohne statistische Modelle auskommen 

und von anderen Projekten in ähnlicher Form erfolgreich eingesetzt wurden [4][16]. Die technischen 

Grundlagen für diese Algorithmen wurden in den Kapiteln 2 und 3 erläutert. Die Algorithmen 

wurden in der Programmiersprache C++ auf einem PC unter dem Betriebssystem LinuX 

implementiert. Die Implementierung wurde so vorgenommen, daß eine Portierung auf andere 

Betriebssysteme leicht möglich ist. Es wurde großer Wert auf Wiederverwendbarkeit gelegt, so 

daß bei weitergehenden Forschungen auf die vorhandenen Funktionen zurückgegriffen werden 

kann. 

Die Aus- und Bewertung der vorgestellten pausenbasierten Segmentierung (PBS) und der pitchbasierten 

Segmentierung (EDBS) ergab, daß die Verfahren in dieser Form und für die exakte 

Segmentierung von Vorlesungsaufzeichnungen nicht zu befriedigenden Ergebnissen führen (vergleiche 

Kapitel 5). Vor allen Dingen die mangelnde Präzision der Algorithmen verhindert die 

sinnvolle Nutzung dieser Segmentierungsverfahren für den angesprochenen Zweck. Dies schließt 

allerdings nicht aus, daß diese Verfahren nicht für andere Verwendungszwecke geeignet sein 

könnten. ARONS entwickelte EDBS, um Zusammenfassungen aus Sprachdateien erstellen und 

104

ein schnelles Navigieren innerhalb der Sprachdatei zu ermöglichen. Hierfür ist es nicht 

zwingend notwendig, exakte Zeitpunkte der Topic Beginnings zu finden. STIFELMAN bescheinigte 

dem Verfahren in einer Untersuchung eine hohe Precision ( £¦¤ 

) und einen niedrigen Recall 

¥ 

¤ 

). Diese Ergebnisse konnten nicht nachvollzogen werden. Dies liegt vor allen Dingen an 

den unterschiedlichen Meßmethoden (siehe Kapitel 5.3). 

(¦ 

Die vorliegende Untersuchung zeigt, daß es mit einfachen Mitteln sehr schwierig ist, die untersuchte 

Klasse von Sprachdateien zu segmentieren. Die Resultate für die Radio-Nachrichtensendungen 

(vergleiche Anhang B) belegen, daß die untersuchten Verfahren sehr wohl eine brauchbare 

Segmentierung liefern können, wobei das EDBS-Verfahren auch auf diesen Daten sprecherabhängige 

Resultate liefert. 

Wie bereits mehrfach erwähnt, gibt es Forschungsansätze für die Segmentierung, die mit 

statistischen Modellen oder auch mit Data Mining/Machine-Learning-Techniken arbeiten. 

Auch diese Arbeiten verwenden als Audio-Features hauptsächlich Pausen und Informationen, 

die sich aus der Satzmelodie ergeben. Die Berechnung dieser Features ist mit der für diese 

Diplomarbeit entwickelten C++-Bibiliothek leicht möglich. Es wurde ein Programm entwickelt, 

das verschiedene Audio-Features wie beispielsweise Pausenlänge, Energie und diverse Pitch- 

Features für Sprachsegmente im ARFF-Datenformat ausgibt, welches von der WEKA-Bibiothek 

verarbeitet werden kann. Die WEKA-Bibliothek ist ein JAVA-Tool, das diverse Data Mining und 

Machine-Learning Algorithmen zur Verfügung stellt [38]. HIRSCHBERG, NAKATANI [18] sowie 

SHRIBERG ET. AL [32] verwenden beispielsweise erfolgreich Klassifikations- und 

Regressionsbäume (CART) in ihren Projekten. Allerdings muß auch hierbei wieder die von 

diesen Autoren verwendete Datenbasis in Betracht gezogen werden. Ob ein auf Data Mining/ 

Machine-Learning-Techniken basierender Ansatz für die Segmentierung von Vorlesungsaufzeichnungen 

zu besseren Resultaten führt, ist zwar anzuzweifeln, jedoch nicht ausgeschlossen. 

105

Anhang A 

Beispiel einer Text-Transkription 

Text-Transkription 

Der untenstehende Text zeigt einen Auszug aus einer Text-Transkription zu einer der untersuchten 

Aufzeichnungen. Diese Transkription repräsentiert eine wortwörtliche Niederschrift des Gesprochenen. 

Allerdings wurden in dieser Transkription disfluencies vom Typ gefüllte Pause (beispielsweise 

„. . . äh. . . “) nicht berücksichtigt. Die Gliederung (discourse structure) orientiert sich 

an der Arbeit von STIFELMAN [35]. Sehr schön sind in diesem Auszug die in Kapitel 5.2.2 erwähnten 

übrigen disfluencies zu erkennen. Zu Beginn des Abschnitts 3 erfolgt eine Reparatur: 

„. . . für dieses . . . diese heutige . . . “. Abschnitt 3.1.2 beginnt mit einem falschen Start: „Das ist 

. . . da stellt . . . “. Darüberhinaus lassen sich im Abschnitt 3.1.3.2 sehr gut die Auswirkungen der 

Benutzung des elektronischen Whiteboards erkennen. Es kommt nicht nur zu längeren Pausen, 

sondern auch zu weiteren disfluencies: „. . . Dann geht er zu einer . . . bewegt er sich diese. . . “ 

(Reparatur), „. . . kleines Beispiel wie . . . wie man dieses. . . “ (Wiederholung). 

[1 

]1 

[2 

Ja, schönen guten Tag. Ich werde also heute berichten 

über ein Problem, das überschrieben ist mit Polygontriangulation 

und ich werde das in drei Teile unterteilen. 

[2.1 

In einem ersten Schritt möchte ich ein Anwendungsproblem 

skizzieren, bei dem die Triangulation von 

Polygonen mit Vorteil genutzt werden kann, um dieses 

Anwendungsproblem zu lösen. 

]2.1 

[2.2 

Dann werde ich in einem zweiten Teil zeigen, wie man 

ein Polygon - ein einfaches Polygon - in einfachere 

Stücke zerschneiden kann, also daß die Triangulation 

auch einfacher wird. 

]2.2 

106

]2 

[3 

[2.3 

Und ich werde dann im dritten Teil die Triangulation 

dieser einfacheren Stücke besprechen. 

]2.3 

Also möchte ich zunächst mit dem Anwendungsproblem, das den 

Hintergrund für dieses ... diese heutige Vorlesung bietet, 

beginnen. Ich hatte bereits in der Einleitung, als es darum 

ging, darüber zu sprechen, was für mögliche Anwendungsgebiete 

es gibt, in denen algorithmische Probleme auftreten, das 

Art-Gallery-Problem erwähnt. 

[3.1 

[3.1.1 

Das ist hier nochmal durch das Bild dargestellt. Dieses 

Art-Gallery-Problem ist als das Problem, etwa ein 

Museum zu überwachen, indem man dort Kameras oder von 

mir aus auch Personen als Wächter positioniert ... die 

eben das ganze Museum übersehen können. 

]3.1.1 

[3.1.2 

Das ist ... da stellt sich natürlich die Frage, was die 

minimale Anzahl von solchen Wächtern oder Kameras sein 

könnte und das ist ein Problem, das natürlich in dem 

Sinne von einer praktischen Bedeutung ist. 

]3.1.2 

[3.1.3 

Nun, man kann das Problem auch etwas dynamisieren. Man 

könnte sich auch vorstellen, man hat einen Roboter, der 

läuft durch dieses Gebiet - durch diese Art-Gallery - und 

er möchte abends sozusagen alles, wenn alle Leute bereits 

gegangen sind, überwachen und möglichst einen kurzen Weg 

in der Art-Gallery - in diesem Museum - zurücklegen, um 

das Ganze einsehen zu können. 

[3.1.3.1 

Nun, der ... ein solcher Roboter, wie er zu sehen ist, 

der sieht nur einen Ausschnitt des ganzen Geländes, das 

sogenannte Sichtbarkeitspolygon. Und wie sich dieses 

Sichtbarkeitspolygon ändert, wenn der Roboter sich durch 

dieses Museum bewegt, das ist zu sehen in einem Film, der 

hier markiert ist. 

]3.1.3.1 

[3.1.3.2 

Ich will diesen Film, diesen kurzen MPEG-Film mal laufen 

lassen ... Das ist also vielleicht ganz nett. Da sehen 

Sie ... ah, hier sieht man wieder, daß man also da hinein 

gehen muß, damit die Farben stimmen. Also hier sehen Sie, 

wie der Roboter so langsam das Museum einsehen kann. Dann 

geht er zu einer ... bewegt er sich diese Strecke hier 

entlang und sieht ein anderes Stück usw. Das ist also ein 

Beispiel dafür, wie sich sozusagen aus dem Blickwinkel des 

107

108 ANHANG A. BEISPIEL EINER TEXT-TRANSKRIPTION 

Roboters die Landschaft ändert, die er einsehen kann. So 

da ist der Film schon zu Ende. Nur ein kleines Beispiel 

wie ... wie man dieses Überwachungsproblem lösen könnte. 

]3.1.3.2 

]3.1.3 

[3.1.4 ... 

Auswertungstabelle 

Die folgende Tabelle A.1 gibt die Auswertung für die Gliederung der obigen Text-Transkription 

wieder. Spalte 1 enthält die Gliederungsnummern und kurze Überschriften. In Spalte 2 kann der 

Startzeitpunkt des betreffenden Abschnitts in der Sprachdatei abgelesen werden. Die Spalten 3 

bis 10 geben die Treffer des EDBS-Verfahren für verschiedene Pitch-Schwellwerte 

unterschiedliche Fensterlängen ¨ wieder. Die letzte Spalte enthält die Dauer der Pause, die 

dem betreffenden Abschnitt vorangeht. Ein fehlender Wert in einer Zeile, in der ein Startzeitpunkt 

existiert, bedeutet, daß vor diesem Abschnitt keine Pause festgestellt werden konnte. 

¢£¢ 

¢ ¥ und

Gliederung SZ 1% 2% 5% 8% PD 

(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s (Sek.) 

1 Begrüßung 0,00 0,00 

2 Gliederung 

2.1 Anwendungsproblem 12,52 0,09 

2.2 Zerlegung e. Polygons 23,18 2,07 

2.3 Triangulation 32,99 0,51 

3 Anwendungsproblem 39,99 + 1,07 

3.1 Art-Gallery-Problem 

3.1.1 Defintion 59,95 + + 1,30 

3.1.2 min. Anzahl von Polyg. 82,96 + + 0,90 

3.1.3 Dynamisierung 95,26 + + 1,10 

3.1.3.1 Sichtbarkeitspolygon 116,54 + 

3.1.3.2 MPEG-Film 138,54 

3.1.4 Verallgemeinerung 176,72 + + + + 1,13 

3.1.4.1 Modellvorstellung 186,88 + + 1,14 

3.1.4.2 Postierung d. Wächter 1 202,27 + + 0,50 

3.1.4.3 Postierung d. Wächter 2 240,48 2,70 

3.1.4.4 Postierung d. Wächter 3 251,94 + + + + + + 0,84 

3.1.4.5 Postierung d. Wächter 4 275,98 + + + + 1,44 

3.1.5 Färbung 287,33 + + + + 0,75 

3.1.6 Triangulation einf. Poly. 321,11 1,23 

3.1.6.1 Satz 332,47 0,33 

3.1.6.2 Beweisskizze 346,76 + + + + 1,40 

3.1.6.2.1 Induktionsanfang 355,30 0,16 

3.1.6.2.2 Induktionsschritt 382,51 + + 0,24 

3.1.6.2.2.1 Fall 1 443,70 + + + + 1,23 

3.1.6.2.2.2 Fall 2 490,91 0,49 

3.1.6.2.2.2.1 Anzahl der Dreiecke 579,32 

3.1.6.2.2.3 Schlußbemerkung 663,57 0,65 

3.1.6.3 Triangulation 678,14 + + + + + + 2,52 

3.1.6.3.1 Spezialfall 691,95 + + + 

3.1.6.3.2 Allgemein 750,89 + + 

3.1.6.3.3 Wiederh. d. Arguments 802,18 + + + + + + + + 

3.1.6.3.3.1 Beispiel 826,00 

3.1.6.3.4 Zwischenbemerkung 844,13 + + + + + + + + 0,86 

3.1.6.3.5 Wiederh. d. Ausgangspro. 856,44 + + 

3.1.6.3.6 Veranschaulichung 891,26 + + + + 

insgesamt 35 2 3 4 7 8 16 12 21 25 

Recall in % 6 9 11 20 23 46 34 60 75 

FA 48 41 76 60 131 83 144 81 

Precision in % 4 7 5 10 6 16 8 21 

Tabelle A.1: Auswertungstabelle für die Datei ga300_15m,.aif 

109

Anhang B 

Segmentierung am Beispiel einer 

Radio-Nachrichtensendung 

Daß die in dieser Diplomarbeit vorgestellten Algorithmen durchaus zu besseren Ergebnissen führen 

können, soll anhand der Aufzeichnung zweier Radio-Nachrichtensendungen demonstriert 

werden. Es handelt sich hierbei um eine etwa zweiminütige und eine etwa fünfminütige Aufnahme, 

die mit handelsüblichen HiFi-Komponenten erstellt wurden. Auch von diesen Aufzeichnungen 

wurden Text-Transkriptionen erstellt und anschließend anhand dieser manuell segmentiert. 

Es stellte sich heraus, daß die Segmentierung von Nachrichten wesentlich einfacher zu 

bewerkstelligen ist. Im Audio-Dokument wurden nun die entsprechenden Stellen ermittelt. Es 

schloß sich die selbe Auswertungsprozedur an, wie sie für die Evaluation der anderen Dateien 

verwendet wurde. Die Ergebnisse werden im folgenden präsentiert. Zunächst folgt als Beispiel 

die Text-Transkription der etwa zweiminütigen Nachrichtenaufzeichnung. Im Anschluß daran 

werden die Ergebnisse dieser Aufzeichnung durch die Auswertungstabelle (siehe oben) präsentiert. 

Die Ergebnisse der zweiten Nachrichtensendung werden nur noch in Kurzform dargestellt. 

B.1 Radio-Nachrichtensendung 1 

B.1.1 Text-Transkription der zweiminütigen Radio-Nachrichtensendung 

[1 

Berlin. 

[1.1 

Das Deutsche Rote Kreuz kritisiert die 

Bundesregierung, weil sie zu spät auf die 

Flutkatastrophe in Mosambik reagiert habe. 

Den DRK-Helfern in Mosambik fehle es außerdem 

an Geld. 

]1.1 

[1.2 

110

B.1. RADIO-NACHRICHTENSENDUNG 1 111 

]1 

[2 

]2 

[3 

]3 

[4 

Am Mittag ist in der Haupstadt Maputo ein Transportflugzeug 

mit vier Bundeswehr-Hubschraubern gelandet. 

Insgesamt hat Deutschland jetzt sieben Hubschrauber 

und mehr als einhundertsechzig Helfer im Einsatz. 

]1.2 

[1.3 

In den Küstengebieten von Mosambik hat es wieder 

angefangen zu regnen. Dadurch könnte sich die Lage 

in den Überschwemmungsgebieten verschlimmern. Eine 

neue Hochwasserwelle würde Tausende von heimkehrenden 

Flüchtlingen gefährden. 

]1.3 

Antananarivo. 

[2.1 

Zwei Wirbelstürme und Überschwemmungen haben auf 

Madagaskar sechshunderttausend Menschen obdachlos 

gemacht, mindestens fünfzig wurden getötet. 

]2.1 

[2.2 

Ein UNICEF-Sprecher sagte, Madgaskar könnte zu einem 

zweiten Mosambik werden. Einer der Wirbelstürme 

bewegt sich inzwischen auf Mosambik zu. 

]2.2 

Belgrad. 

[3.1 

Die serbische Opposition hat ihre Anhänger aufgerufen, 

den regierungskritischen Radio- und Fernsehsender 

Studio B zu verteidigen. Am Morgen haben bewaffnete 

Männer eine Sendeanlage überfallen, Techniker verprügelt 

und Geräte zerstört. 

]3.1 

[3.2 

Die serbische Regierung fordert von Studio B 

1.8 Millionen Mark Gebühren. Außerdem wurden heute Betreiber 

und Chefredakteur des unabhängigen Senders zu 

fünfundsiebzigtausend Mark Geldstrafe verurteilt. 

]3.2 

Berlin. 

[4.1 

Den Atomkraftwerken Neckar-Westheim und Biblis B drohen 

angeblich akute Entsorgungsengpässe. Wie die Berliner 

Zeitung schreibt, dürfen beide Kraftwerke bis auf weiteres 

keine Castor-Behälter mit abgebrannten Brennelementen mehr 

beladen. 

]4.1

112ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG 

]4 

[5 

]5 

[6 

]6 

[4.2 

Bei Kontrollen war festgestellt worden, daß die Dichtungen 

der Behälter mit Bor verunreinigt waren. Damit ist die für 

die Zwischenlagerung vorgeschriebene Dichtigkeit nicht mehr 

gewährleistet. 

]4.2 

[4.3 

Der Direktor von Biblis dementierte einen akuten Engpaß. 

Allerdings gäbe es Probleme, wenn die Behälter nicht bis 

Ende April einsatzbereit seien. 

]4.3 

München. 

[5.1 

Die umstrittene Sendung "Big Brother" darf vorerst weiterlaufen. 

Darauf haben sich der Sender RTL 2 und die Landesmedienanstalten 

geeinigt. 

]5.1 

[5.2 

Allerdings wird das Konzept geändert. Eine Stunde pro Tag 

werden die Teilnehmer nicht mehr gefilmt; bis jetzt laufen 

Kameras und Mikrofone rund um die Uhr. 

]5.2 

[5.3 

Die hessische Landesmedienanstalt wollte "Big Brother" 

verbieten, weil es ihrer Ansicht nach gegen die Menschenwürde 

verstößt. 

]5.3 

Das waren SWR3-Nachrichten.


B.1.2 Auswertungstabelle (PBS) 

Die Tabelle B.1 ist ähnlich wie oben (siehe Anhang A) aufgebaut. Die erste Spalte gibt die 

Gliederung wieder, Spalte 2 enthält die Startzeitpunkte. In der dritten Spalte stehen die Werte für 

die vorangehenden Pausenzeiten. Die Spalten 4 bis 8 geben für verschiedene Schwellwerte die 

Treffer an. Beispielsweise stehen in Spalte 7 die Treffer, wenn nur Pausen betrachtet werden, die 

länger als ¥ 

kommt hier sehr deutlich zum Ausdruck, daß der Sprecher vor einer neuen Nachricht immer eine 

lange Pause einlegt. Der Beginn einer neuen Nachricht wird dadurch sehr gut gefunden. 

¢£¢ dauern. Die Ergebnisse sprechen für sich. Interessant ist die achte Spalte. Es 

Gliederung SZ VP SW SW SW SW SW 

(Sek.) (Sek.) – ¢¢¡£ ¢¢¡¤ ¢¥¡¦ ¡§¡ ¢ 

1. Berlin 1.03 1.03 + + + + + 

1.1 Kritik des DRK 1.84 0.35 + + 

1.2 Anzahl der Hubschr. 12.17 0.88 + + + + 

1.3 neuerlicher Regenfall 22.13 0.59 + + + + 

2. Tananarivo 33.96 1.25 + + + + + 

2.1 Unwetter 35.49 0.64 + + + + 

2.2 Aussage von UNICEF 42.58 0.52 + + + + 

3. Belgrad 51.94 2.03 + + + + + 

3.1 Aufruf der serb. Opp. 52.91 0.58 + + + + 

3.2 Forderung d. Regierung 65,32 0.50 + + + + 

4. Berlin 76.81 1.04 + + + + + 

4.1 Entsorgungsengpässe 77.57 0.34 + + 

4.2 Kontrollen 89.29 0.53 + + + + 

4.3 Dementi 98.32 0.71 + + + + 

5. München 107.24 1.79 + + + + + 

5.1 Big Brother läuft weiter 108.06 0.40 + + + 

5.2 Konzeptänderung 114.85 0.52 + + + + 

5.3 Verstoß g. Menschenw. 122.84 0.57 + + + + 

6. Nachrichtenende 128.79 0.58 + + + + 

insgesamt 19 19 19 17 16 5 

Recall 100% 100% 89% 84% 26% 

False Alarms – 12 5 0 0 

Precision – 61% 77% 100% 100% 

Tabelle B.1: Auswertungstabelle (PBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.). Die 

Abkürzungen haben folgende Bedeutung: SZ=Startzeitpunkt, VP=Länge der vorangehenden Pause, 

SW=Schwellwert

114ANHANG B. SEGMENTIERUNG AM BEISPIEL EINER RADIO-NACHRICHTENSENDUNG 

B.1.3 Auswertungstabelle (EDBS) 

Die folgende Tabelle B.2 ist analog zu den obigen Tabellen aufgebaut. Betrachtet man die Ergebnisse 

für die Fensterlänge 

 

¦, so erkennt man deutlich bessere Werte als bei den zuvor 

¨ 

untersuchten Sprachdateien, sowohl für den Recall als auch für die Precision. 

Gliederung SZ 

¡¡ ¦¢ £¢ 

(Sek.) 1s 2s 1s 2s 1s 2s 1s 2s 

1. Berlin 1.03 + + + + + 

1.1 Kritik des DRK 1.84 + + + + + 

1.2 Anzahl der Hubschr. 12.17 + + + 

1.3 neuerlicher Regenfall 22.13 + + + + + + + + 

2. Tananarivo 33.96 

2.1 Unwetter 35.49 + + + + + 

2.2 Aussage von UNICEF 42.58 + 

3. Belgrad 51.94 

3.1 Aufruf der serb. Opp. 52.91 + + + + 

3.2 Forderung d. Regierung 65,32 + + + + 

4. Berlin 76.81 + + + 

4.1 Entsorgungsengpässe 77.57 + + + + + + 

4.2 Kontrollen 89.29 + + + 

4.3 Dementi 98.32 + + + + 

5. München 107.24 + + + + 

5.1 Big Brother läuft weiter 108.06 + + + + + 

5.2 Konzeptänderung 114.85 + + 

5.3 Verstoß g. Menschenw. 122.84 + + + + 

6. Nachrichtenende 128.79 + 

insgesamt 19 1 5 4 11 8 14 9 15 

Recall in % 5 26 21 58 42 74 47 79 

False Alarms – 2 12 4 14 6 178 4 

Precision in % – 71 25 73 40 70 35 79 

Tabelle B.2: Auswertungstabelle (EDBS) einer Radio-Nachrichtensendung (Länge: 2:13 Min.) Die Abkürzung 

SZ steht für Startzeitpunkt.


B.2 Radio-Nachrichtensendung 2 

B.2.1 Auswertung (PBS) 

Schwellwert (Sek.) TB H M FA Recall (%) Precision (%) 

0.00 39 38 1 231 97 14 

0.50 39 37 2 18 95 67 

0.60 39 35 4 13 90 66 

0.70 39 31 8 6 79 84 

1.00 39 15 24 1 38 94 

Tabelle B.3: Auswertung (PBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) 

Die Tabelle B.3 gibt das Auswertungsergebnis für das PBS-Verfahren wieder. Die Erkennungsraten 

sind wie auch schon bei der ersten Nachrichtensendung für Schwellwerte 

sehr hoch. 

 

Der Recall für 

den Schwellwert ist nur auf den ersten Blick sehr niedrig. Sind jedoch nur 

die Startpunkte jeder neuen Nachricht gefragt, so werden alle Startzeitpunkte korrekt erkannt. 

Der einzelne False Alarm kommt daher, daß sich der Nachrichtensprecher versprochen hat. Disfluencies 

sind also auch hier nicht völlig auszuschließen. Die Precision-Werte sind insgesamt 

sehr viel höher, als bei den Vorlesungsaufzeichnungen. 

B.2.2 Auswertung (EDBS) 

¨ § 

1 1 39 5 34 21 13 19 

Thres. (%) TB H M FA Recall (%) Precision (%) 

2 39 9 30 23 24 28 

5 39 12 27 37 39 24 

8 39 17 22 44 44 28 

2 1 39 17 22 6 45 74 

2 39 21 18 8 60 72 

5 39 23 16 17 59 58 

8 39 25 14 14 64 64 

Tabelle B.4: Auswertung (EDBS) einer Radio-Nachrichtensendung (Länge: 4.37 Min.) 

Wie auch schon für die erste Nachrichtensendung gilt, daß die Fensterlänge 

 

¨ zu schlechten 

Erkennungsraten und mangelnder Präzision führt (vergleiche Tabelle B.4). Der 

Recall für 

¨ ¦ ist deutlich besser, wenngleich nicht ganz so gut, wie bei der ersten Nachrichtensendung. 

Im Vergleich zu den Resultaten bezüglich der Vorlesungsaufzeichnungen sind 

die Ergebnisse aber deutlich besser.

Literaturverzeichnis 

[1] AOF - Authoring On The Fly. (erhältlich im WWW: 

http://ad.informatik.uni-freiburg.de/AOF/mmgroup.aof.about ). 

[2] ARONS, B.: Interactively Skimming Recorded Speech. Doktorarbeit, Massachusettes 

Institute of Technology, 1994. 

[3] ARONS, B.: Pitch-based Emphasis Detection for Segmenting Speech Recordings. In: 

Proceedings of International Conference on Spoken Language Processing, Bd. 4, S. 

1931–1934, 1994. 

[4] ARONS, B.: Speech Skimmer: A System for Interactivly Skimming Recorded Speech. 

ACM Transactions on Computer-Human Interaction, 4(1):3–38, March 1997. (erhältlich 

im WWW: http://barons.www.media.mit.edu/people/barons/papers/ToCHIE97.ps). 

[5] BOERSMA, P.: Accurate Short-Term Analysis of the Fundamental Frequency and the 

Harmonics-to-Noise Ratio of a Sampled Sound. In: Proceedings of the Institute of 

Phonetic Sciences of the University of Amsterdam, 1993. 

[6] CHEN, F. und M. WITHGOTT: The Use of Emphasis to Automatically Summarize Spoken 

Discourse. In: Proceedings of the International Conference on Acoustics, Speech, and 

Signal Processing, S. 229–233. IEEE, 1992. 

[7] CHOI, J., D. HINDLE, J. HIRSCHBERG, I. MAGRIN-CHAGNOLLEAU, C. NAKATANI, 

F. PEREIRA, A. SINGHAL und S. WHITTAKER: An Overview of the AT&T Spoken 

Document Retrieval. In: Proceedings DARPA Broadcast News Transcription and 

Understanding Workshop. Morgan Kaufmann Publishers, 1998. 

[8] CHOI, J., D. HINDLE, J. HIRSCHBERG, F. PEREIRA, A. SINGHAL und S. WHITTAKER: 

Spoken Content-Based Audio Navigation (SCAN). Techn. Ber., AT&T Labs-Research, 

Florham Park, New Jersey, USA, 1999. 

[9] DELLER, J., J. PROAKIS und J. HANSEN: Discrete-Time Processing of Speech Signals. 

Prentice Hall, Inc., 1993. 

116

LITERATURVERZEICHNIS 117 

[10] DODDINGTON, G.: The Topic Detection and Tracking Phase 2 (TDT2) Evaluation Plan. 

In: Proceedings DARPA Broadcast News Transcription and Understanding Workshop. 

Morgan Kaufman Publishers, 1998. 

[11] EICHMANN, D., M. RUIZ, P. SRINIVASAN, N. STREET, C. CULY und F. MENCZER: A 

Cluster-Based Approach to Tracking, Detection and Segmentation of Broadcast news. In: 

Proceedings DARPA Broadcast News Workshop. Morgan Kaufmann Publishers, 1999. 

[12] EPPINGER, B. und E. HERTER: Sprachverarbeitung. Hanser, München, 1993. 

[13] FOOTE, J.: Content-Based Retrieval of Music and Audio. In: Proceedings of the SPIE, Bd. 

3229, S. 138–147, 1997. 

[14] FOOTE, J.: An Overview of Audio Information Retrieval. In: Multimedia Systems, Bd. 7. 

Springer-Verlag, 1999. 

[15] GROSZ, B. und J. HIRSCHBERG: Some Intonational Characteristics of Discourse 

Structure. In: Proceedings of the International Conference on Spoken Language 

Processing, Bd. 1, S. 429–432, Banff, Canada, October 1992. 

[16] HE, L., E. SANOCKI, A. GUPTA und J. GRUDIN: Auto-Summarization of Audio-Video 

Presentations. In: MM99, 1999. 

[17] HIRSCHBERG, J. und B. GROSZ: Intonational Features of Local and Global Discourse 

Structure. In: Proceedings of the Speech and Natural Language workshop, S. 441–446, 

San Mateo, CA, February 1992. Defense Advanced Research Projects Agency, Morgan 

Kaufmann Publishers. 

[18] HIRSCHBERG, J. und C. NAKATANI: Acoustic Indicators of Topic Segmentation. In: 

Proceedings of the 5th International Conference on Spoken Language Processing, Bd. 4, 

S. 1255–1258, 1998. 

[19] KIMBER, D. und L. WILLCOX: Acoustic Segmentation for Audio Browsers. In: Proc. 

Interface Conference, July 1996. (erhältlich im WWW: 

http://www.fxpal.xerox.com/abstracts/kim96.htm). 

[20] LAMEL, L., L. RABINER, A. ROSENBERG und J. WILPON: An Improved Endpoint 

Detector for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech, and 

Signal Processing, ASSP-29(4):777–785, August 1981. 

[21] LIANG, Z., Y. WANG und T. CHANG: Audio Feature Extraction and Analysis for Scene 

Segmentation and Classification. In: Proceedings of IEEE 1st Multimedia Workshop, 

1997. 

[22] ORFANIDIS, S.: Introduction to signal processing. Prentice Hall, Inc., 1996.

118 LITERATURVERZEICHNIS 

[23] OTTMANN, T.: Prinzipien des Algorithmenentwurfs. Spektrum Akademischer Verlag, 

1998. 

[24] OTTMANN, T.: Vorlesung: Geometrische Algorithmen SS’99. (abrufbar im WWW unter 

http://ad.informatik.uni-freiburg.de/ss99.special.geometrie), 1999. 

[25] PATEL, N. und I. SETHI: Audio Characterization for Video Indexing. In: Proceedings of 

SPIE Conference on Storage and Retrieval for Still Image and Video Databases, Bd. 2670, 

S. 373–384, 1996. 

[26] PAULUS, E.: Sprachsignalverarbeitung: Analyse, Erkennung, Synthese. Spektrum 

Akademischer Verlag, 1998. 

[27] PROAKIS, J. und D. MANOLAKIS: Digital Signal Processing: Principles, algorithms and 

applications. Prentice Hall, Inc., 1996. 

[28] RABINER, L., M. CHENG, A. ROSENBERG und C. MCGONEGAL: A Comparative 

Performance Study of Several Pitch Detection Algorithms. IEEE Transactions on 

Acoutics, Speech and Signal Processing, ASSP-24:399–417, October 1976. 

[29] RIVLIN, Z. und D. APPELT: MAESTRO: Conductor of Multimedia Analysis Technologies. 

Techn. Ber., SRI International, Menlo Park, California 94025, 1999. 

[30] ROSS, M., H. SHAFER, A. COHEN, R. FREUDBERG und H. MANLEY: Average 

Magnitude Difference Function Pitch Extractor. IEEE Transactions on Acoustics, Speech 

and Signal Processing, ASSP-22:353–362, 1974. 

[31] SHRIBERG, E., R. BATES und A. STOLCKE: A Prosody-Based Decision-Tree Model for 

Disfluency Detection. In: Proceedings of the 5th European Conference on Speech 

Communication and Technology, Bd. 5, S. 2383–2386, September 1997. 

[32] SHRIBERG, E., A. STOLCKE, D. HAKKANI-TÜR und G. TÜR: Prosody-Based Automatic 

Segmentation of Speech into Sentences and Topics. Speech Communication, Special Issue 

on Accessing Information in Spoken Audio, 2000. 

[33] S.PFEIFFER, S. FISCHER und W. EFFELSBERG: Automatic Audio Content Analysis. In: 

Proceedings ACM Multimedia’96, S. 21–30, 1996. 

[34] STEINMETZ, R.: Multimedia-Technologie. Springer-Verlag, Berlin, 1993. 

[35] STIFELMAN, L.: A Discourse Analysis Approach to Structured Speech. AAAI Spring 

Symposium Series. Empirical Methods in Discourse Interpretation and Generation, S. 

162–167, 1995. 

[36] STOLCKE, A., E. SHRIBERG, D. HAKKANI-TÜR, G. TÜR, Z. RIVLIN und K. SÖNMEZ: 

Combining Words and Speech Prosody for Automatic Topic Segmentation. In: Proceedings 

DARPA Broadcast News Workshop, S. 61–64. Morgan Kaufmann Publishers, February 

1999.

LITERATURVERZEICHNIS 119 

[37] WAYNE, C.: Topic Detection & Tracking (TDT). In: Proceedings DARPA Broadcast News 

Transcription and Understanding Workshop. Morgan Kaufman Publishers, 1998. 

[38] WITTEN, I. und E. FRANK: Data Mining: practical machine learning tools and 

techniques with JAVA implementations. Morgan Kaufmann Publishers, 2000. 

[39] WOLD, E., T. BLUM, D. KEISLAR und J. WHEATON: Classification, Search and 

Retrieval of Audio. IEEE Multimedia, 3(3):27–36, 1996. 

[40] ZHANG, T. und C. KUO: Content-Based Classification and Retrieval of Audio. Techn. 

Ber., Integrated Media Systems Center and Departement of Electrical 

Engineering-Systems, University of Southern California, 1998. 

[41] ZHANG, T. und C. KUO: Heuristic Approach for Generic Audio Data Segmentation and 

Annotation. Techn. Ber., Integrated Media Systems Center and Departement of Electrical 

Engineering-Systems, University of Southern California, 1999.

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?