28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 71<br />

Es soll jetzt ein erstes Verfahren zur Segmentierung eines Sprachsignals vorgestellt werden. Es<br />

beruht darauf, das Sprachsignal in Segmente aufzuteilen, die Sprache enthalten, und solche, die<br />

Sprachpausen beinhalten. Die jeweiligen Segmente bestehen in der Regel aus mehreren Frames.<br />

In den Pausen-Segmenten muß nicht völlige Stille herrschen. Sie können allerlei Hintergrundgeräusche<br />

enthalten. Hierin besteht auch eine Schwierigkeit bei der Klassifikation und Zuweisung<br />

der Frames zu den entsprechenden Segmenten. Wie in der Einleitung zu diesem Kapitel angedeutet<br />

wurde, wird zur Klassifikation der Frames des Sprachsignals die short-term energy und<br />

die short-term zero crossing rate herangezogen. Mit Hilfe der Energie-Werte werden Bereiche<br />

lokalisiert, die stimmhafte Laute beinhalten. Die Nulldurchgangsrate dient dazu, Bereiche mit<br />

stimmlosen Lauten zu identifizieren. Ein Merkmal stimmloser Laute ist, daß die zu ihnen korres-<br />

¡<br />

¥ pondierende hoch ist, da sie in der Regel einen hohen Rauschanteil enthalten. Leider kann<br />

¨<br />

das Sprachsignal insgesamt sehr verrauscht sein. Dies kann zum einen durch die Aufnahmetechnik<br />

bedingt sein, zum anderen aber auch durch Hintergrundgeräusche wie beispielsweise<br />

¡<br />

laute Lüfter. Unter Umständen ist es bei ¨ ¥ einer hohen schwierig zu entscheiden, ob nun<br />

ein stimmloser Laut oder einfach nur Hintergrundrauschen vorliegt. Ein möglicher Ansatz zum<br />

Umgang mit diesem Problem wird im Laufe dieses Abschnitts vorgestellt.<br />

Die Identifizierung von Sprachsegmenten entspricht dem klassischen Problem der Endpunkt-<br />

Detektion innerhalb der Sprachverarbeitung. Zu diesem Thema gibt es eine Vielzahl von<br />

Arbeiten. Im Rahmen dieser Arbeit wurde ein Algorithmus verwendet, der von LAMEL ET. AL<br />

[20] stammt und von ARONS [2] modifiziert wurde. Dieser Algorithmus zur Endpunkt-Detektion<br />

wurde ursprünglich <strong>für</strong> Aufnahmen von Telefongesprächen entwickelt. Das Telefonsignal ist im<br />

allgemeinen mehr oder weniger stark verrauscht. Ein Algorithmus, der <strong>für</strong> solche Signale gute<br />

Ergebnisse erzielt, sollte auch <strong>für</strong> den Einsatz bei aufgezeichneten Vorlesungen geeignet sein,<br />

da es auch hier durch die Aufnahmetechnik oder durch Hintergrundgeräusche bedingt, zu einem<br />

starkem Rauschanteil im aufgezeichneten Signal kommen kann.<br />

4.1.1 Der Pausen-Detektions-Algorithmus<br />

Im folgenden soll der verwendete Algorithmus genauer erläutert werden, der eine leicht modifizierte<br />

Version des in [2] (Kap. 5.9.3) verwendeten Algorithmus ist, welcher wiederum eine<br />

modifizierte Version des oben genannten Ansatzes von LAMEL ET. AL darstellt. Die vorgestellte<br />

Technik arbeitet laut den Autoren unter einer Vielzahl von Umgebungsbedingungen. Die Autoren<br />

zeichneten Sprache in einer Büroumgebung mit Lüftergeräuschen von Computern und Vorträge<br />

in Vorlesungssäalen mit über 40 Studenten auf und behaupten, daß diese Aufnahmen erfolgreich<br />

mit ihrer Methode in Sprache und Hintergrundgeräusche segmentiert wurden.<br />

Abbildung 4.1 zeigt die schematische Darstellung des pausenbasierten Segmentierungsverfahrens.<br />

Bei diesem Ansatz werden die durch einen Windowing-Prozeß erzeugten Frames, die sich nicht<br />

überlappen, mehrere Male durchlaufen. Jeder Frame hat eine Länge <br />

¢ <br />

von und wurde mit<br />

Hilfe eines Rechteck-Fensters aus dem Sprachsignal ausgeschnitten. Im ersten Schritt werden<br />

short-term energy und short-term zero crossing rate <strong>für</strong> jeden dieser Frames bestimmt. Um<br />

den Level der Hintergrundgeräusche zu bestimmen, wird ein Histogramm der Energie-Werte be-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!