28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 73<br />

% Frames<br />

0.09<br />

0.08<br />

0.07<br />

0.06<br />

0.05<br />

0.04<br />

0.03<br />

0.02<br />

0.01<br />

Offset<br />

Schwellwert<br />

0<br />

0 5 10 15 20<br />

0.5 * x [dB]<br />

25 30 35 40<br />

(a) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />

mit hohem Rauschanteil und insgesamt hoher<br />

Aussteuerung<br />

% Frames<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

Offset<br />

Schwellwert<br />

0<br />

0 5 10 15 20 25 30 35 40 45<br />

0.5 * x [dB]<br />

(b) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />

mit niedrigem Rauschanteil und insgesamt hoher<br />

Aussteuerung<br />

Abbildung 4.2: Energie-Histogramme <strong>für</strong> verschiedene Sprecher<br />

rechnet, welches mit einem 3-Punkt FIR-Average-Filter geglättet wird. Das resultierende Histogramm<br />

hat im allgemeinen eine bimodale Verteilung; es besitzt zwei mehr oder weniger weit<br />

auseinander liegende Spitzenwerte. Abbildung 4.2 zeigt Beispiele von Energie-Histogrammen,<br />

die <strong>für</strong> zwei verschiedene Sprecher ermittelt wurden. Der erste (am weitesten links liegende)<br />

Spitzenwert korrespondiert zu den Hintergrundgeräuschen, der zweite Spitzenwert zur Sprache.<br />

Der erste Spitzenwert wird aus dem Histogramm ermittelt und dient fortan zur Festlegung eines<br />

Schwellwertes, der Hintergrundgeräusche und Sprache trennt. In Abhängigkeit der Stärke<br />

der Hintergrundgeräusche wird ein Offset zum ermittelten Hintergrundgeräuschpegel addiert. Ist<br />

dieser <br />

Pegel hoch ), wird ein Offset von addiert, andernfalls ein Offset von . ¨¢ ¡<br />

Anhand dieses Schwellwertes und der ¨ ¥ des Frames wird nun entschieden, ob der Frame<br />

¨¢ ¨¢ (¤<br />

Sprache oder Hintergrundgeräusche enthält. Hier setzt nun die oben erwähnte Modifikation des<br />

Ansatzes an. In der Arbeit von ARONS wird als Schwellwert <strong>für</strong> die Nulldurchgangsrate ein<br />

fester Wert von 2500 zcr/s verwendet [4]. Da der Hintergrundgeräuschpegel von Aufnahme zu<br />

Aufnahme stark variieren kann und der Schwellwert <strong>für</strong> die Nulldurchgangsrate nicht von mal<br />

zu mal manuell angepasst werden soll, wurde der Algorithmus <strong>für</strong> diese Arbeit modifiziert. Aus<br />

¡<br />

¥ den -Werten aller Frames wird ein Histogramm erstellt. Dieses Histogramm hat nur einen,<br />

¨<br />

da<strong>für</strong> aber sehr ausgeprägten Spitzenwert. Dieser Spitzenwert und die hiermit korrespondierende<br />

Nulldurchgangsrate wird zur Schwellwertbestimmung herangezogen. Zu diesem Wert wird noch<br />

ein Offset von hinzuaddiert. Dieses Verfahren hat den Vorteil, daß es adaptiv ist. Es ist nicht<br />

nötig, den Schwellwert <strong>für</strong> die Nulldurchgangsrate manuell an das Sprachsignal anzupassen.<br />

¡<br />

Abbildung 4.3 zeigt Beispiele ¨ ¥ von -Histogramme, die <strong>für</strong> zwei verschiedene Sprecher ermittelt<br />

wurden.<br />

¨¢

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!