Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

16 KAPITEL 1. EINLEITUNG, MOTIVATION für diese Diplomarbeit ausgesucht, die nicht auf statistischen Modellen basieren. Das erste vorzustellende Verfahren verwendet die Dauer von Sprechpausen zur Voraussage einer möglichen Gliederung. Der zweite Algorithmus versucht Betonungen des Sprechers zu ermitteln, die anschließend Hinweise auf die Gliederung des Gesprochenen liefern sollen. Über die Hintergründe dieser Ansätze klären die Einleitungen der Kapitel 4.1 und 4.2 auf. Ziel war es nun, die angesprochenen Algorithmen auf ihre Verwendbarkeit zu überprüfen, insbesondere im Hinblick auf die speziellen Daten, die dieser Untersuchung zugrunde liegen. 1.3 Inhaltlicher Aufbau dieser Arbeit Die Arbeit gliedert sich in sechs Teile: Nachdem im vorliegenden Kapitel bereits eine Einführung in die Motivationen und Ziele dieser Arbeit gegeben wurde, sowie eine Vorstellung von Arbeiten mit ähnlichem Thema erfolgt ist, wird im Rest des Kapitels die verwendete Datenbasis erläutert. Das Kapitel Grundlagen der Sprachanalyse erläutert die wichtigsten Konzepte und Begriffe der Sprachanalyse. Es gliedert sich wiederum in drei Unterkapitel. Im ersten Teil Einführung wird ein kurzer Überblick über die Sprachverarbeitung im allgemeinen gegeben. Der zweite Abschnitt beschäftigt sich mit der Erzeugung der menschlichen Sprache, und im dritten Teil werden Konzepte und Notation der digitalen Signalverarbeitung erläutert. Dieses Kapitel ist für denjenigen Leser gedacht, der sich bislang noch nicht mit dieser Materie beschäftigt hat, aber auch nicht zu tief in das Themengebiet einsteigen will. Es ersetzt nicht das Studium einschlägiger Literatur, wenn ein tieferes Verständnis erwünscht ist. Die Begriffe werden in den meisten Fällen informell erklärt, so daß auch die später folgenden Kapitel ohne tiefgreifendes Studium der digitalen Signalund Sprachverarbeitung verstanden werden können. Der Leser mit Kenntnissen auf diesen Gebieten kann das Kapitel überspringen. Das dritte Kapitel Extraktion von Audio-Features erläutert die low level-Eigenschaften, die von den in Kapitel 4 vorgestellten Verfahren verwendet werden, und wie sie aus dem Audiosignal extrahiert werden können. Im vierten Kapitel Segmentierung/Emphasis-Detection werden Verfahren vorgestellt, die daraufhin untersucht werden sollen, in wie weit sie sich zur Segmentierung bzw. zur Suche in Sprachdateien eignen. Der erste Teil dieses Kapitels stellt ein Verfahren vor, das versucht, Sprechpausen zur Berechnung einer Segmentierung heranzuziehen. Bei der Emphasis-Detection geht es darum, besonders betonte Stellen in einem Vortrag zu finden. Diese erlauben eventuell Rückschlüsse auf eine mögliche Gliederung des Vortrages. Das fünfte Kapitel Evaluation beschäftigt sich mit der Aus- und Bewertung der Algorithmen bezüglich ihrer Nutzbarkeit im Rahmen des AOF-Projekts [1]. In Kapitel 1.4 wird
1.4. DIE DATENBASIS 17 erläutert, welche Sprachdateien im einzelnen für diese Arbeit zur Evaluation herangezogen wurden. Im letzten Kapitel werden die Ergebnisse dieser Arbeit zusammengefaßt und bewertet. 1.4 Die Datenbasis Diese Arbeit beschäftigt sich ausschließlich mit der Informationssuche in aufgezeichneten Audio- Dateien. Es ist also keine Echtzeitverarbeitung nötig, da sie off-line bearbeitet werden. Allgemein können Audio-Dateien Sprache, Musik und andere Geräusche enthalten. Hier soll mit Dateien gearbeitet werden, die ausschließlich Sprache enthalten. Sprachdateien können vielseitiger Natur sein; sie können beispielsweise von aufgezeichneten Meetings, Vorlesungen, Vorträgen, Telefongesprächen oder Nachrichtensendungen stammen. Dementsprechend sind auch die Ziele einer Suche in diesen Dateien sehr unterschiedlich. Im Falle von Meetings könnten die verschiedenen Sprecher ermittelt werden, während in aufgezeichneten Telefongesprächen nach bestimmten verwendeten Begriffen gesucht werden könnte. Im Falle von Vorlesungen oder Vorträgen ist man möglicherweise daran interessiert, besonders wichtige Stellen im Vortrag zu ermitteln, so daß später leicht auf diese Stellen zugegriffen werden kann. Aufgezeichnete Vorlesungen dienen in dieser Arbeit als Beobachtungsgrundlage. Sie haben die folgenden Eigenschaften: plus0.5exSie sind typischerweise Monologe. (Allerdings sind Zuhörer anwesend, die möglicherweise Zwischenfragen stellen. Die untersuchten Sprachdateien enthielten aber nur in einem Fall Zwischenbemerkungen der Zuhörer, die aber aufgrund ihrer niedrigen Lautstärke nur noch sehr schwer herauszuhören waren. Sie wurden deshalb vernachlässigt.) Vorlesungen sind bzw. sollten strukturiert sein. Der erste Punkt hat den Vorteil, daß keine Sprecheridentifikation nötig ist. Eine gute Strukturierung während des Vortrags läßt darauf hoffen, daß eine Segmentierung relativ einfach möglich ist. Die Aufzeichnungen wurden im Sommersemester 1999 im Rahmen einer Vorlesungsreihe zum Thema Geometrische Algorithmen erstellt [24]. Diese Veranstaltungen wurden mit Hilfe der Authoring-on-the-fly (AOF)-Tools aufgezeichnet, die in der Abteilung Algorithmen und Datenstrukturen, Multimedia, Teleteaching und Elektronisches Publizieren am Institut für Informatik der Albert-Ludwigs-Universität Freiburg unter der Leitung von Prof. Dr. Thomas Ottman entwickelt wurden. Die zugrundeliegende Idee ist, „. . . auf den ersten Blick so verschiedene Tätigkeiten, wie das Halten einer Vorlesung im Hörsaal, das Teleteaching und das Erstellen multimedialer, für Unterrichtszwecke geeigneter Dokumente, zusammenwachsen zu lassen. Die in Freiburg
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13: 12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 66 und 67:
66 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 68 und 69:
68 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71:
Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73:
72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89:
88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91:
90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93:
92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95:
94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97:
96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99:
98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101:
100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?