Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.1. PAUSENBASIERTE SEGMENTIERUNG (PBS) 73<br />
% Frames<br />
0.09<br />
0.08<br />
0.07<br />
0.06<br />
0.05<br />
0.04<br />
0.03<br />
0.02<br />
0.01<br />
Offset<br />
Schwellwert<br />
0<br />
0 5 10 15 20<br />
0.5 * x [dB]<br />
25 30 35 40<br />
(a) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />
mit hohem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
% Frames<br />
0.3<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
Offset<br />
Schwellwert<br />
0<br />
0 5 10 15 20 25 30 35 40 45<br />
0.5 * x [dB]<br />
(b) Energie-Histogramm <strong>für</strong> ein Sprachsignal<br />
mit niedrigem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
Abbildung 4.2: Energie-Histogramme <strong>für</strong> verschiedene Sprecher<br />
rechnet, welches mit einem 3-Punkt FIR-Average-Filter geglättet wird. Das resultierende Histogramm<br />
hat im allgemeinen eine bimodale Verteilung; es besitzt zwei mehr oder weniger weit<br />
auseinander liegende Spitzenwerte. Abbildung 4.2 zeigt Beispiele von Energie-Histogrammen,<br />
die <strong>für</strong> zwei verschiedene Sprecher ermittelt wurden. Der erste (am weitesten links liegende)<br />
Spitzenwert korrespondiert zu den Hintergrundgeräuschen, der zweite Spitzenwert zur Sprache.<br />
Der erste Spitzenwert wird aus dem Histogramm ermittelt und dient fortan zur Festlegung eines<br />
Schwellwertes, der Hintergrundgeräusche und Sprache trennt. In Abhängigkeit der Stärke<br />
der Hintergrundgeräusche wird ein Offset zum ermittelten Hintergrundgeräuschpegel addiert. Ist<br />
dieser <br />
Pegel hoch ), wird ein Offset von addiert, andernfalls ein Offset von . ¨¢ ¡<br />
Anhand dieses Schwellwertes und der ¨ ¥ des Frames wird nun entschieden, ob der Frame<br />
¨¢ ¨¢ (¤<br />
Sprache oder Hintergrundgeräusche enthält. Hier setzt nun die oben erwähnte Modifikation des<br />
Ansatzes an. In der Arbeit von ARONS wird als Schwellwert <strong>für</strong> die Nulldurchgangsrate ein<br />
fester Wert von 2500 zcr/s verwendet [4]. Da der Hintergrundgeräuschpegel von Aufnahme zu<br />
Aufnahme stark variieren kann und der Schwellwert <strong>für</strong> die Nulldurchgangsrate nicht von mal<br />
zu mal manuell angepasst werden soll, wurde der Algorithmus <strong>für</strong> diese Arbeit modifiziert. Aus<br />
¡<br />
¥ den -Werten aller Frames wird ein Histogramm erstellt. Dieses Histogramm hat nur einen,<br />
¨<br />
da<strong>für</strong> aber sehr ausgeprägten Spitzenwert. Dieser Spitzenwert und die hiermit korrespondierende<br />
Nulldurchgangsrate wird zur Schwellwertbestimmung herangezogen. Zu diesem Wert wird noch<br />
ein Offset von hinzuaddiert. Dieses Verfahren hat den Vorteil, daß es adaptiv ist. Es ist nicht<br />
nötig, den Schwellwert <strong>für</strong> die Nulldurchgangsrate manuell an das Sprachsignal anzupassen.<br />
¡<br />
Abbildung 4.3 zeigt Beispiele ¨ ¥ von -Histogramme, die <strong>für</strong> zwei verschiedene Sprecher ermittelt<br />
wurden.<br />
¨¢