28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

18 KAPITEL 1. EINLEITUNG, MOTIVATION<br />

dazu entwickelte Methode und Software liefert off-line nutzbare Dokumente<br />

(AOF-Dokumente), die in multimedialen Lehr -und Lernumgebungen Studenten zugänglich<br />

gemacht werden und mit Hilfe von offenen Hypermediasystemen mit vielfältigem<br />

Material (Texten, Simulationen, Animationen, Tests usw.) verknüpft<br />

werden können.“ [1]<br />

Insgesamt vier Vorträge von drei verschiedenen, männlichen Dozenten wurden <strong>für</strong> die<br />

Evaluation ausgewählt. Durch die Auswahl von unterschiedlichen Vortragenden läßt sich bestimmen,<br />

ob die untersuchten Segmentierungsverfahren in irgendeiner Weise vom Sprecher abhängige<br />

Ergebnisse liefern. Zudem sind die Aufzeichnungen von unterschiedlicher Audio-<br />

Qualität, so daß auch festgestellt werden kann, inwiefern die Verfahren von der Aufzeichnungsqualität<br />

abhängen. Außerdem wurden zu Vergleichszwecken zwei Radio-Nachrichtensendungen<br />

aufgenommen. In Anhang B befindet sich die Auswertung <strong>für</strong> diese Aufnahmen. Um die in<br />

Kapitel 3.4 vorgestellten Pitch-Detektions-<strong>Algorithmen</strong> zu testen, wurden zudem Sprachdateien<br />

verwendet, die der CD zum Buch Prinzipien des <strong>Algorithmen</strong>entwurfs entstammen [23].<br />

Die Sprachdateien wurden auf eine Länge von 15 Minuten gekürzt und enthalten jeweils die<br />

ersten 15 Minuten des entsprechenden Vortrags. Bei der Aufnahme waren die Dozenten mit<br />

einem Ansteck-Funkmikrofon ausgestattet. Das Mikrofonsignal lief über ein Mischpult in eine<br />

SGI-Workstation, die das Signal aufzeichnete. Prinzipbedingt schleichen sich hier die größten<br />

Fehler ein:<br />

1. Der Abstand vom Mund zum Mikrofon ist nicht konstant, so daß die Amplitude des Signals<br />

sehr stark schwankt. Eine gute Aussteuerung ist deshalb nur schwer möglich.<br />

2. Das Signal muß im Mischpult <strong>für</strong> jeden Dozenten neu ausgesteuert werden. Geschieht<br />

dies nicht, so können beispielweise Übersteuerungen die Folge sein. Die Folge sind hörbare<br />

Beeinträchtigungen des Signals, die sich durch sogenannte Klicks und Verzerrungen<br />

bemerkbar machen. Eine andere mögliche Folge von schlechter Aussteuerung ist, daß das<br />

Sprachsignal zu schwach und durch die Technik bedingtes Rauschen im Vergleich zum<br />

Nutzsignal zu stark ist.<br />

Das Gleiche gilt <strong>für</strong> die Aussteuerung im Rechner. Dieses Problem läßt sich aber einfach<br />

umgehen.<br />

Die <strong>für</strong> die Evaluation herangezogenen Sprachdateien sind also alles andere als ideal. Schwierigkeiten<br />

hieraus ergeben sich hauptsächlich bei der Bestimmung der Fundamentalfrequenzverläufe<br />

(siehe Kapitel 3.4) und der Unterscheidung von Sprache und Stille.<br />

1.5 Zusammenfasssung<br />

Dieses Kapitel lieferte einen Einblick in die Möglichkeiten, die sich <strong>für</strong> die Infomationsssuche<br />

in Sprachdateien ergeben. Verschiedene Ansätze wurden vorgestellt, der Rahmen, die zugrundeliegende<br />

Datenbasis und das Ziel der vorliegenden Diplomarbeit wurden umrissen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!