Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
78 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />
4.2.1 Der Emphasis-Detection-Algorithmus<br />
Der Algorithmus läßt sich in fünf Schritte zerlegen, die nun beschrieben werden sollen:<br />
1. Die zu untersuchende Sprachdatei wird mittels Windowing (vergleiche Kap.<br />
¥<br />
3.1) in Frames<br />
mit einer Länge von ¥<br />
¢ <br />
unterteilt, die sich um jeweils<br />
¢ <br />
überlappen. Die<br />
<br />
Frames werden also in einem Zeitabstand von ©¡ ¢ ¢ <br />
erzeugt. In der Original-<br />
©<br />
<br />
<br />
gewählt. Allerdings wurde dort<br />
¢<br />
ein<br />
Arbeit von ARONS wurde eine Framelänge von <br />
anderer PDA verwendet.<br />
2. Für jeden dieser Frames ¥ ermittelt ein PDA die Pitch .<br />
3. Da der Pitch-Umfang <strong>für</strong> jeden Sprecher unterschiedlich ist, muß ein sprecherunabhängiger<br />
Schwellwert ermittelt werden, anhand dessen die Pitch-Aktivität gemessen werden kann.<br />
Hierzu wird aus den ermittelten Pitch-Werten ein Histogramm erstellt, das die Variabilität<br />
des Sprechers normalisiert. Anhand dieses Histogramms wird ein ¥ ¢£¢<br />
¢ ¥<br />
Pitch-Schwellwert<br />
definiert, der die <br />
¤<br />
obersten der Pitch-Werte auswählt. Genauer: Man beginnt am oberen<br />
Ende des Histogramms die Anzahl der Pitch-Werte zu zählen, bis <br />
¤<br />
aller Pitch-Werte<br />
erfaßt wurden. Aus dem erreichten "Behälter" des Histogramms wird dann die zugehörige<br />
Frequenz und damit der Schwellwert ermittelt. Dieser Schwellwert stellt einen Ausgangspunkt<br />
<strong>für</strong> Experimente dar und kann variiert werden, um eine größere oder kleinere Anzahl<br />
von betonten Segmenten zu finden. Abbildung 4.6 zeigt Pitch-Histogramme <strong>für</strong> Dozenten<br />
beiderlei Geschlechts. Der geschlechtsspezifisch unterschiedliche Frequenzbereich ist in<br />
den Abbildungen sehr gut zu sehen.<br />
4. In einem Superframe ¢ mit einer Länge von ¥¤ <br />
wird nun die Pitch-Aktivität<br />
<br />
<br />
bestimmt. Es wird vereinfachend angenommen, daß die Länge eines Superframes immer<br />
ein ganzzahliger Wert ist.<br />
Definition 4.1 Ein Superframe ¢ ¡<br />
<br />
von Pitch-Werten mit<br />
¡<br />
¢ ¡<br />
<br />
<br />
der<br />
§ £ £¡ ¡<br />
¦¤<br />
<br />
<br />
<br />
© ¢ ©¡ ¡ <br />
Länge ¦¤<br />
ist eine endliche Folge<br />
<br />
£ ¤ ¡<br />
und ¤ <br />
¢<br />
§¤<br />
<br />
<br />
<br />
© ¢ ©¡ ¡ <br />
die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />
<br />
Pitch-Aktivität©¨<br />
bezeichnet<br />
Definition 4.2 Die innerhalb eines Superframes der Länge ¤<br />
<br />
¢<br />
¢¢ ¥ ¥<br />
ist<br />
gleich der Anzahl der Pitch-Werte innerhalb des Superframes, die größer als ein Pitch-<br />
Schwellwert sind.<br />
bezeichnet<br />
¢£¢<br />
¢ ¥<br />
¤ ¢ ¢ ¥<br />
<br />
¨<br />
die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />
©<br />
¨<br />
¤ ¤ ¤