28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

78 KAPITEL 4. SEGMENTIERUNGSVERFAHREN<br />

4.2.1 Der Emphasis-Detection-Algorithmus<br />

Der Algorithmus läßt sich in fünf Schritte zerlegen, die nun beschrieben werden sollen:<br />

1. Die zu untersuchende Sprachdatei wird mittels Windowing (vergleiche Kap.<br />

¥<br />

3.1) in Frames<br />

mit einer Länge von ¥<br />

¢ <br />

unterteilt, die sich um jeweils<br />

¢ <br />

überlappen. Die<br />

<br />

Frames werden also in einem Zeitabstand von ©¡ ¢ ¢ <br />

erzeugt. In der Original-<br />

©<br />

<br />

<br />

gewählt. Allerdings wurde dort<br />

¢<br />

ein<br />

Arbeit von ARONS wurde eine Framelänge von <br />

anderer PDA verwendet.<br />

2. Für jeden dieser Frames ¥ ermittelt ein PDA die Pitch .<br />

3. Da der Pitch-Umfang <strong>für</strong> jeden Sprecher unterschiedlich ist, muß ein sprecherunabhängiger<br />

Schwellwert ermittelt werden, anhand dessen die Pitch-Aktivität gemessen werden kann.<br />

Hierzu wird aus den ermittelten Pitch-Werten ein Histogramm erstellt, das die Variabilität<br />

des Sprechers normalisiert. Anhand dieses Histogramms wird ein ¥ ¢£¢<br />

¢ ¥<br />

Pitch-Schwellwert<br />

definiert, der die <br />

¤<br />

obersten der Pitch-Werte auswählt. Genauer: Man beginnt am oberen<br />

Ende des Histogramms die Anzahl der Pitch-Werte zu zählen, bis <br />

¤<br />

aller Pitch-Werte<br />

erfaßt wurden. Aus dem erreichten "Behälter" des Histogramms wird dann die zugehörige<br />

Frequenz und damit der Schwellwert ermittelt. Dieser Schwellwert stellt einen Ausgangspunkt<br />

<strong>für</strong> Experimente dar und kann variiert werden, um eine größere oder kleinere Anzahl<br />

von betonten Segmenten zu finden. Abbildung 4.6 zeigt Pitch-Histogramme <strong>für</strong> Dozenten<br />

beiderlei Geschlechts. Der geschlechtsspezifisch unterschiedliche Frequenzbereich ist in<br />

den Abbildungen sehr gut zu sehen.<br />

4. In einem Superframe ¢ mit einer Länge von ¥¤ <br />

wird nun die Pitch-Aktivität<br />

<br />

<br />

bestimmt. Es wird vereinfachend angenommen, daß die Länge eines Superframes immer<br />

ein ganzzahliger Wert ist.<br />

Definition 4.1 Ein Superframe ¢ ¡<br />

<br />

von Pitch-Werten mit<br />

¡<br />

¢ ¡<br />

<br />

<br />

der<br />

§ £ £¡ ¡<br />

¦¤<br />

<br />

<br />

<br />

© ¢ ©¡ ¡ <br />

Länge ¦¤<br />

ist eine endliche Folge<br />

<br />

£ ¤ ¡<br />

und ¤ <br />

¢<br />

§¤<br />

<br />

<br />

<br />

© ¢ ©¡ ¡ <br />

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />

<br />

Pitch-Aktivität©¨<br />

bezeichnet<br />

Definition 4.2 Die innerhalb eines Superframes der Länge ¤<br />

<br />

¢<br />

¢¢ ¥ ¥<br />

ist<br />

gleich der Anzahl der Pitch-Werte innerhalb des Superframes, die größer als ein Pitch-<br />

Schwellwert sind.<br />

bezeichnet<br />

¢£¢<br />

¢ ¥<br />

¤ ¢ ¢ ¥<br />

<br />

¨<br />

die Anzahl der Superframes, die sich aus einer Sprachdatei bilden lassen.<br />

©<br />

¨<br />

¤ ¤ ¤

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!