Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
74 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
% Frames<br />
0.16<br />
0.14<br />
0.12<br />
0.1<br />
0.08<br />
0.06<br />
0.04<br />
0.02<br />
0<br />
0 5 10 15 20 25<br />
[dB]<br />
Offset<br />
Schwellwert<br />
¢¡¢£<br />
(a) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />
hohem Rauschanteil und insgesamt hoher Aussteuerung<br />
% Frames<br />
0.18<br />
0.16<br />
0.14<br />
0.12<br />
0.1<br />
0.08<br />
0.06<br />
0.04<br />
0.02<br />
0<br />
0 5 10 15 20 25<br />
[dB]<br />
Offset<br />
Schwellwert<br />
¢¡¢£<br />
(b) -Histogramm <strong>für</strong> ein Sprachsignal mit<br />
niedrigem Rauschanteil und insgesamt hoher<br />
Aussteuerung<br />
Abbildung 4.3: ¢¡¦£ ¥ -Histogramme <strong>für</strong> verschiedene Sprecher<br />
Dieser erste Durchgang liefert nun eine sehr feine Segmentierung. Selbst bei sehr sorgfältiger<br />
Wahl der Schwellwerte macht dieses Verfahren jedoch noch Klassifikationsfehler:<br />
1. Es bleiben kurze Lücken ( ¢ ¢ <br />
) innerhalb von längeren Sprachsegmenten, die eigent-<br />
<br />
lich als Sprache klassifiziert werden müßten.<br />
2. Es verbleiben Sprachsegmente ( ¢£¢ <br />
), die zu kurz sind, um Wörter zu enthalten.<br />
<br />
3. Sprachsegmente werden versehentlich zu spät oder zu früh abgeschnitten.<br />
Deshalb wird die zuvor gewonnene Segmentierung in den Durchgängen 2–4 von diesen<br />
Klassifikationsfehlern befreit. Im Durchgang 2 werden zu kurze Lücken zwischen Sprachsegmenten<br />
entfernt, Durchgang 3 beseitigt zu kurze Sprachsegmente und Durchgang 4 erweitert die<br />
verbleibenden Sprachsegmente um jeweils¦ ¢ <br />
in beide Richtungen. Dadurch ergeben sich<br />
größere Pausen- bzw. Sprachsegmente. Die Ausgabe des PBS-Algorithmus enthält <strong>für</strong> jedes gefundene<br />
Segment den Beginn (in Sek.), die Dauer (in Sek.) und die Klassifikation (0=Pause,<br />
1=Sprache). Die Abbildungen 4.4 und 4.5 verdeutlichen den Ablauf der PBS anhand von Beispieldaten.