28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kapitel 4<br />

Segmentierungsverfahren<br />

In den vorangegangenen Kapiteln wurden Grundlagen und Konzepte zur Extraktion von<br />

low level-Informationen aus dem Sprachsignal vorgestellt. Die sogenannten Audio-Features,<br />

wie beispielsweise short-term energy und short-term zero crossing rate und Pitch, werden nun<br />

geeignet kombiniert, um high level-Informationen aus dem Sprachsignal zu extrahieren. Die<br />

zwei erstgenannten Audio-Features werden bei der pausenbasierten Segmentierung, die im<br />

Abschnitt 4.1 vorgestellt wird, intensiv eingesetzt. Bei diesem Ansatz wird versucht, anhand<br />

dieser Features das Sprachsignal eindeutig in Segmente, die Sprache enthalten, und Segmente,<br />

die Sprachpausen enthalten, zu klassifzieren. Aus der Länge der Pausen soll dann abgeleitet<br />

werden, wann der Sprecher neue inhaltliche Einheiten beginnt. Im zweiten Ansatz zur Segmentierung<br />

von Sprachsignalen, der Betonungs-(Emphasis) basierten Segmentierung, sollen anhand<br />

des Verlaufs der Pitch Informationen darüber gewonnen werden, wann der Sprecher neue<br />

inhaltliche Einheiten beginnt. Zudem läßt sich möglicherweise feststellen, welche Stellen der<br />

Sprecher aufgrund der Betonung als besonders wichtig ansieht. Dies zu untersuchen ist aber<br />

nicht Teil dieser Arbeit.<br />

4.1 Pausenbasierte Segmentierung (PBS)<br />

Die Dauer einer Pause kann Aufschluß darüber geben, an welcher Stelle der Sprecher einen Satz,<br />

einen Gedanken oder ein neues Thema beginnt. Verschiedene Studien haben gezeigt, daß die<br />

Pausenlänge mit dem Typ der Pause korreliert. Die in der Literatur betrachtete minimale Pausen-<br />

¥<br />

¢ £ ¢ ¢ <br />

dauer reicht typischerweise von . Die Mehrzahl der Pausen haben<br />

von¦<br />

eine<br />

¢<br />

Länge von<br />

¢£¢ <br />

etwa . Pausen, die durch ein Zögern (Hesitation) des Sprechers entstehen und<br />

¥ ¥<br />

nicht unter der Kontrolle etwa¦<br />

¢£¢ <br />

des ¥<br />

¢ <br />

Sprechers liegen, dauern . Sogenannte Juncture-<br />

Pausen, die der Sprecher kontrollieren kann, haben ¥<br />

¢£¢ <br />

<br />

¢ ¢£¢ <br />

eine Länge von .<br />

¢ ¢<br />

Atempausen<br />

<br />

dauern etwa [2]. Die Idee ist nun, die Pausenlängen eines Sprachsignals zu berechnen<br />

<br />

und anhand der berechneten Pausendauer zu bestimmen, an welchen Stellen der Sprecher neue<br />

Themen beginnt. Die Untersuchung, ob diese Idee zu verwertbaren Ergebnissen führt, insbesondere<br />

bei den vorliegenden Daten, ist ein Hauptbestandteil dieser Arbeit.<br />

¦<br />

70

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!