Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47<br />
Der Leistungstest <strong>für</strong> einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit-<br />
Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad <strong>für</strong> den gilt:<br />
<br />
¥ ¥<br />
¡ <br />
Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie<br />
oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und<br />
die<br />
¡<br />
. Für ein festes ergeben sich zwei konkurrierende Faktoren <strong>für</strong> die Wahl des<br />
Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen<br />
Länge<br />
die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei<br />
gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert<br />
die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt<br />
wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht<br />
so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann <strong>für</strong> einen<br />
kurzen von¦<br />
¢ <br />
Zeitraum als stationär angenommen werden, so daß Länge die entsprechend<br />
gewählt werden kann.<br />
¡<br />
(3.10)<br />
In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik<br />
können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht<br />
werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen.<br />
Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet<br />
werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen,<br />
sind zur Bestimmung von high level-Informationen sehr hilfreich.<br />
3.2 Short-term energy und short-term power<br />
Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert.<br />
Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht<br />
werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben<br />
die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße<br />
können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur<br />
Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal<br />
(engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen<br />
mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung<br />
von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte <strong>für</strong><br />
stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten,<br />
so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit<br />
Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel<br />
4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der<br />
Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.