28.06.2013 Aufrufe

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47<br />

Der Leistungstest <strong>für</strong> einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit-<br />

Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad <strong>für</strong> den gilt:<br />

<br />

¥ ¥<br />

¡ <br />

Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie<br />

oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und<br />

die<br />

¡<br />

. Für ein festes ergeben sich zwei konkurrierende Faktoren <strong>für</strong> die Wahl des<br />

Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen<br />

Länge<br />

die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei<br />

gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert<br />

die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt<br />

wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht<br />

so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann <strong>für</strong> einen<br />

kurzen von¦<br />

¢ <br />

Zeitraum als stationär angenommen werden, so daß Länge die entsprechend<br />

gewählt werden kann.<br />

¡<br />

(3.10)<br />

In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik<br />

können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht<br />

werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen.<br />

Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet<br />

werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen,<br />

sind zur Bestimmung von high level-Informationen sehr hilfreich.<br />

3.2 Short-term energy und short-term power<br />

Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert.<br />

Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht<br />

werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben<br />

die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße<br />

können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur<br />

Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal<br />

(engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen<br />

mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung<br />

von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte <strong>für</strong><br />

stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten,<br />

so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit<br />

Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel<br />

4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der<br />

Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!