Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kapitel 4<br />
Segmentierungsverfahren<br />
In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von<br />
low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features,<br />
wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun<br />
geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die<br />
zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im<br />
Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand<br />
dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente,<br />
die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet<br />
werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung<br />
von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand<br />
des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue<br />
inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der<br />
Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber<br />
nicht Teil dieser Arbeit.<br />
4.1 Pausenbasierte Segmentierung (PBS)<br />
Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz,<br />
einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die<br />
Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen-<br />
¥<br />
¢ £ ¢ ¢ <br />
dauer reicht typischerweise von . Die Mehrzahl der Pausen haben<br />
von¦<br />
eine<br />
¢<br />
Länge von<br />
¢£¢ <br />
etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und<br />
¥ ¥<br />
nicht unter der Kontrolle etwa¦<br />
¢£¢ <br />
des ¥<br />
¢ <br />
Sprechers liegen, dauern . Sogenannte Juncture-<br />
Pausen, die der Sprecher kontrollieren kann, haben ¥<br />
¢£¢ <br />
<br />
¢ ¢£¢ <br />
eine Länge von .<br />
¢ ¢<br />
Atempausen<br />
<br />
dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen<br />
<br />
und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue<br />
Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere<br />
bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit.<br />
¦<br />
70