Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Weitere Magazine

Empfehlungen

Info

$(LMS\) an der Universität Freiburg - Lehrstuhl Algorithmen ...$

46 KAPITEL 3. EXTRAKTION VON AUDIO-FEATURES berechnen läßt, wobei ¢ £ ¡ eine Operation ist, die im allgemeinen nichtlinear und abhängig von ¡ ist. ¤ steht für einen Langzeit-Mittelwert ¤ ¨ ©¡ ¥ £¢ ¦ Für die gebräuchlichsten Langzeit-Eigenschaften hat sich gezeigt, daß ¢ ¢ £ ¡ ¥¤¥¤ £ ¡ ¨ £ ¡ zerlegt werden kann, wobei eine Operation ist, die eine neue Folge bezüglich produziert und ¤ ¥ ¡ für ¥ einen kurzen Zeitraum ¡ der zeitliche Mittelwertoperator ist. Für die Berechnung einer " "-Eigenschaft kann das folgende Konstruktionsprinzip verwendet werden [9]: © £ ¡ 1. Wähle einen gewünschten Frame Länge der mit Hilfe eines Windows Signal aus, 2. Wende eine “ ¢ ¡ ”-Operation ¢ ¦ ¡ auf diesen Frame an: £ ¥ ¡ ¥ wobei angenommen wird, daß ¢ ¦ ¡ ¢ ¡ ¦ ¨ in ¦ ¦ ¢ ¡ ¢ zerlegt werden kann, wie ¢ £ ¡ ¤§¤ £ ¡ ¡ ¡ ¤ ¢ ¢ © ¨ ¨ ¥ © ¦ ¡ im Langzeit-Fall. ¢ © in (3.3) (3.4) aus dem Es ist zu bemerken, daß ¦ ¡ oftmals dieselbe Operation wie £ ¡ ist. Wir beschränken uns nun auf solche Fälle ¥ ¡ £ ¡ ¨ ¢ © Mit Hilfe eines Windows wurde ein Frame aus dem Sprachsignal herausgeschnitten und eine ähnliche Operation angewendet, wie dies im Langzeit-Fall getan wurde. (3.5) (3.6) (3.7) (3.8) (3.9)
3.2. SHORT-TERM ENERGY UND SHORT-TERM POWER 47 Der Leistungstest für einen Kurzzeit-Schätzer besteht in der Genauigkeit mit der er das Langzeit- Äquivalent schätzen kann, vorausgesetzt bleibt stationär, das heißt den Grad für den gilt: ¥ ¥ ¡ Diese Approximation steht in direkter Beziehung zur Wahl des Windows bei der Analyse. Wie oben erwähnt, müssen zwei Dinge bei der Wahl eines Windows betrachtet werden: der Typ und die ¡ . Für ein festes ergeben sich zwei konkurrierende Faktoren für die Wahl des Typs: einerseits dürfen die ausgewählten Samples nicht verändert werden, andererseits müssen Länge die abrupten Übergänge an den Fenstergrenzen geglättet werden. Für die Wahl Länge der bei gegebenem Typ gibt es wiederum zwei konkurrierende Faktoren. Die von Vergrößerung verbessert die spektrale Auflösung, indem mehr Information zur Berechnung zur Verfügung gestellt wird. Wenn das Window nun zeitlich wandert, werden aber Ereignisse im Sprachsignal nicht so gut aufgelöst. Die von Wahl ist problemabhängig. Sprache beispielsweise kann für einen kurzen von¦ ¢ Zeitraum als stationär angenommen werden, so daß Länge die entsprechend gewählt werden kann. ¡ (3.10) In diesem Kapitel wurde das Windowing/Frame-Konzept eingeführt. Mit Hilfe dieser Technik können nun kurze Ausschnitte eines Audiosignals auf verschiedene Eigenschaften hin untersucht werden. Hierbei wird angenommen, daß diese kurzen Ausschnitte stationäre Signale darstellen. Nur unter dieser Annahme können die in den folgenden Abschnitten vorgestellten Operatoren angewendet werden. Diese Operatoren, die im folgenden Audio-Features genannt werden sollen, sind zur Bestimmung von high level-Informationen sehr hilfreich. 3.2 Short-term energy und short-term power Im Abschnitt 2.3.3 wurden Energie und Leistung eines zeitlich unbegrenzten Signals definiert. Nun sollen mit Hilfe des Windowing-Konzepts Signale mit endlicher Dauer untersucht werden. Die zwei folgenden Definitionen der short-term energy und der short-term power erlauben die Bestimmung der Energie und der Leistung auf endlichen Intervallen. Die beiden Maße können zu verschiedenen Aufgaben herangezogen werden. Man benutzt sie beispielsweise zur Unterscheidung von Stille und hörbaren Geräuschen, wenn das Verhältnis von Nutz- zu Rauschsignal (engl: signal-to-noise-ratio) hoch ist. Zudem können sie in der Sprachanalyse zusammen mit der Nulldurchgangsrate, die im nächsten Abschnitt vorgestellt wird, zur Bestimmung von Wortgrenzen (Endpunkt-Detektion) eingesetzt werden. Die Energie-/Leistungswerte für stimmlose Segmente sind im allgemeinen signifikant kleiner als die von stimmhaften Segmenten, so daß die Energie-/Leistungswerte eine erste, grobe Klassifikation des Signals ermöglichen. Mit Hilfe der Nulldurchgangsrate können dann Wortgrenzen genauer bestimmt werden. In Kapitel 4.1 wird ein Verfahren zur pausenbasierten-Segmentierung erläutert, das ausschließlich auf der Grundlage von Energie/Leistung und Nulldurchgangsrate operiert.
Seite 1 und 2: ALBERT-LUDWIGS-UNIVERSITÄT FREIBUR
Seite 3: Vorwort Ich möchte mich bei Prof.
Seite 6 und 7: 6 INHALTSVERZEICHNIS 3 Extraktion v
Seite 8 und 9: Abbildungsverzeichnis 1.1 Story Seg
Seite 10 und 11: Tabellenverzeichnis 3.1 Mathematisc
Seite 12 und 13: 12 KAPITEL 1. EINLEITUNG, MOTIVATIO
Seite 20 und 21: Kapitel 2 Grundlagen der Sprachanal
Seite 22 und 23: 22 KAPITEL 2. GRUNDLAGEN DER SPRACH
Seite 40 und 41: Kapitel 3 Extraktion von Audio-Feat
Seite 42 und 43: 42 KAPITEL 3. EXTRAKTION VON AUDIO-
Seite 70 und 71: Kapitel 4 Segmentierungsverfahren I
Seite 72 und 73: 72 KAPITEL 4. SEGMENTIERUNGSVERFAHR
Seite 86 und 87: 86 KAPITEL 5. EVALUATION grobe Segm
Seite 88 und 89: 88 KAPITEL 5. EVALUATION Topic Begi
Seite 90 und 91: 90 KAPITEL 5. EVALUATION Die folgen
Seite 92 und 93: 92 KAPITEL 5. EVALUATION Datei: ga7
Seite 94 und 95: 94 KAPITEL 5. EVALUATION Analyse Ei
Seite 96 und 97:
96 KAPITEL 5. EVALUATION dsaas §
Seite 98 und 99:
98 KAPITEL 5. EVALUATION Präferenz
Seite 100 und 101:
100 KAPITEL 5. EVALUATION Segment-L
Seite 102 und 103:
102 KAPITEL 5. EVALUATION Precision
Seite 104 und 105:
Kapitel 6 Zusammenfassung und Ausbl
Seite 106 und 107:
Anhang A Beispiel einer Text-Transk
Seite 108 und 109:
108 ANHANG A. BEISPIEL EINER TEXT-T
Seite 110 und 111:
Anhang B Segmentierung am Beispiel
Seite 112 und 113:
112ANHANG B. SEGMENTIERUNG AM BEISP
Seite 114 und 115:
114ANHANG B. SEGMENTIERUNG AM BEISP
Seite 116 und 117:
Literaturverzeichnis [1] AOF - Auth
Seite 118 und 119:
118 LITERATURVERZEICHNIS [23] OTTMA
Alle anzeigen

Jürgen Dick - Lehrstuhl Algorithmen & Datenstrukturen, Institut für ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?