Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
44 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES<br />
das Signal nicht so abrupt ab wie das Rechteck-Fenster, sondern verwenden einen sanfteren<br />
Übergang zu Null. Die spektralen Eigenschaften dieser Windows werden in Abbildung 3.3 verdeutlicht<br />
und können allgemein so beschrieben werden:<br />
Für gegebenes haben alle einen breiteren mainlobe als das Rechteck-Fenster. Auch hier<br />
gilt, daß die Breite abnimmt, wenn vergrößert wird.<br />
Alle besitzen eine bessere Abschwächung der sidelobes, typischerweise <br />
¢ ¦<br />
¢ dB besser.<br />
Bei der Analyse von nichtstationären Signalen wie Sprache, müssen folgende Überlegungen angestellt<br />
werden: Aus der obigen Diskussion folgt, daß eine Verlängerung der Fensterfolge unabhängig<br />
vom Typ nur positive Konsequenzen hat. Wenn ein Fenster jedoch dazu benutzt wird, um<br />
sequentiell Teile aus dem nichtstationären Signal auszuschneiden, in dem es zeitlich verschoben<br />
wird, benötigt ein längeres Fenster eine längere Periode um über Grenzübergänge im Signal<br />
hinwegzugehen. Ereignisse aus verschiedenen quasi-stationären Bereichen verschwimmen dann<br />
eher miteinander, als bei kurzen Fenstern. Ein Trade-Off betrifft also die Fensterlänge. Ein langes<br />
Fenster produziert ein besseres spektrales Bild des Signals, während ein kurzes Fenster die<br />
zeitlichen Ereignisse im Signal besser auflöst. Dieser Trade-Off wird auch spectral temporal<br />
resolution trade-off genannt.<br />
3.1.2 Frames<br />
Ein Frame stellt einen Ausschnitt aus einem Sprachsignal dar, der mittels Windowing erzeugt<br />
wird. Formal ist er eine neue Sequenz bezüglich <br />
, deren Werte Null sind außerhalb des Intervalls<br />
<br />
<br />
<br />
. Der durch diesen Prozeß entstandene Frame hängt auch von der Zeit<br />
ab, so daß er ein zweites Argument erhält (und ein implizites Argument ).<br />
<br />
Definition 3.1 Einen Frame ¥ ©<br />
endet, erhält man durch <br />
wobei<br />
<br />
© <br />
¥<br />
ein Window darstellt.<br />
<br />
3.1.3 Extraktion von Audio-Features<br />
eines Signals der Länge , der zum Zeitpunkt<br />
<br />
Auf den beschriebenen Konzepten Windowing und Frames aufbauend soll nun die Extraktion<br />
von Audio-Features formalisiert ¥ werden. Angenommen, sei eine Langzeit-Eigenschaft, die<br />
helfen soll, ein Problem zu lösen. Im allgemeinen kann es eine ganze Familie von Eigenschaften<br />
geben, von denen jede von ¡ einem Index abhängt. Die allgemeine Langzeit-Eigenschaft der<br />
Folge wird im folgenden ¥<br />
¡ <br />
mit bezeichnet. Eine weitere Annahme besteht darin,<br />
<br />
daß<br />
¡ <br />
sich<br />
<br />
aus ¥<br />
durch<br />
¥<br />
¡ ¢<br />
£ ¡ <br />
¨<br />
© ¥¤ ¨<br />
£ ¡ <br />
¨<br />
© ©<br />
(3.1)<br />
(3.2)