28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

44 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />

das Signal nicht so abrupt ab wie das Rechteck-Fenster, sondern verwenden einen sanfteren<br />

Übergang zu Null. Die spektralen Eigenschaften dieser Windows werden in Abbildung 3.3 verdeutlicht<br />

und können allgemein so beschrieben werden:<br />

Für gegebenes haben alle einen breiteren mainlobe als das Rechteck-Fenster. Auch hier<br />

gilt, daß die Breite abnimmt, wenn vergrößert wird.<br />

Alle besitzen eine bessere Abschwächung der sidelobes, typischerweise <br />

¢ ¦<br />

¢ dB besser.<br />

Bei der Analyse von nichtstationären Signalen wie Sprache, müssen folgende Überlegungen angestellt<br />

werden: Aus der obigen Diskussion folgt, daß eine Verlängerung der Fensterfolge unabhängig<br />

vom Typ nur positive Konsequenzen hat. Wenn ein Fenster jedoch dazu benutzt wird, um<br />

sequentiell Teile aus dem nichtstationären Signal auszuschneiden, in dem es zeitlich verschoben<br />

wird, benötigt ein längeres Fenster eine längere Periode um über Grenzübergänge im Signal<br />

hinwegzugehen. Ereignisse aus verschiedenen quasi-stationären Bereichen verschwimmen dann<br />

eher miteinander, als bei kurzen Fenstern. Ein Trade-Off betrifft also die Fensterlänge. Ein langes<br />

Fenster produziert ein besseres spektrales Bild des Signals, während ein kurzes Fenster die<br />

zeitlichen Ereignisse im Signal besser auflöst. Dieser Trade-Off wird auch spectral temporal<br />

resolution trade-off genannt.<br />

3.1.2 Frames<br />

Ein Frame stellt einen Ausschnitt aus einem Sprachsignal dar, der mittels Windowing erzeugt<br />

wird. Formal ist er eine neue Sequenz bezüglich <br />

, deren Werte Null sind außerhalb des Intervalls<br />

<br />

<br />

<br />

. Der durch diesen Prozeß entstandene Frame hängt auch von der Zeit<br />

ab, so daß er ein zweites Argument erhält (und ein implizites Argument ).<br />

<br />

Definition 3.1 Einen Frame ¥ ©<br />

endet, erhält man durch <br />

wobei<br />

<br />

© <br />

¥<br />

ein Window darstellt.<br />

<br />

3.1.3 Extraktion von Audio-Features<br />

eines Signals der Länge , der zum Zeitpunkt<br />

<br />

Auf den beschriebenen Konzepten Windowing und Frames aufbauend soll nun die Extraktion<br />

von Audio-Features formalisiert ¥ werden. Angenommen, sei eine Langzeit-Eigenschaft, die<br />

helfen soll, ein Problem zu lösen. Im allgemeinen kann es eine ganze Familie von Eigenschaften<br />

geben, von denen jede von ¡ einem Index abhängt. Die allgemeine Langzeit-Eigenschaft der<br />

Folge wird im folgenden ¥<br />

¡ <br />

mit bezeichnet. Eine weitere Annahme besteht darin,<br />

<br />

daß<br />

¡ <br />

sich<br />

<br />

aus ¥<br />

durch<br />

¥<br />

¡ ¢<br />

£ ¡ <br />

¨<br />

© ¥¤ ¨<br />

£ ¡ <br />

¨<br />

© ©<br />

(3.1)<br />

(3.2)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!