31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3.4 Verbinden der Komponenten<br />

Nach dem obigen try‐catch‐Block wird folgende Verzweigung eingefügt:<br />

if (data == 0){<br />

num = buffer.length-12;<br />

for (int i=12; i < buffer.length-12; ++i){<br />

buffer[i] = (byte)255;<br />

}<br />

}<br />

else {<br />

num=in2.read(buffer,12,buffer.length-12);<br />

}<br />

Für den Fall, das keine Daten gelesen werden können, wird der komplette Buffer mit Bytes vom Wert<br />

255 gefüllt. Dies entspricht bei der ULAW‐Kodierung einer Amplitude von Null. Können jedoch Daten<br />

gelesen werden, dann werden ganz normal die gelesenen Daten in den Buffer geschrieben.<br />

Mit diesem letzten Schritt ist die Voice‐over‐IP‐Anbindung des Sprachservers komplett und Audioda‐<br />

ten können über eine VoIP‐Verbindung sowohl empfangen als auch gesendet werden.<br />

3.5 Anpassung<br />

3.5.1 Samplefrequenz des Erkenners<br />

3.5.1.1 Einleitung<br />

Da der Sprachserver ursprünglich auf die Erkennung von Eingangsdaten mit einer Abtastrate von 16<br />

kHz ausgelegt war, bleibt die Erkennungsgenauigkeit trotz des durchgeführten Resamplings unter<br />

dem zu erwartenden Wert. Verantwortlich dafür sind Frequenzbereiche im Signal, die der Erkenner<br />

erwartet, die aber nicht in dem neuabgetasteten Signal vorhanden sind. Um die Erkennungsgenauig‐<br />

keit zu verbessern muss der Erkenner auf die neue Abtastrate von 8 kHz angepasst werden. Dazu sind<br />

mehrere Schritte notwendig.<br />

3.5.1.2 Anpassen der Audioaufzeichnung<br />

Die Digitalisierung des analogen Sprachsignals wurde bisher mit 16 kHz durchgeführt. Um die Abtast‐<br />

rate zu ändern wurde eine neue Einstellung in die Konfigurationsdatei „fbsv.ini“ mit der Bezeichnung<br />

„sampleRate“ aufgenommen. Der Quellcode wurde an den entsprechenden Stellen so geändert, dass<br />

anstatt einem festen Wert von 16 kHz die Einstellung aus der Konfigurationsdatei verwendet wird.<br />

Mit der Zeile „sampleRate=8000“ in der Konfigurationsdatei zeichnet der Sprachserver nun die Au‐<br />

diodaten mit einer Rate von 8 kHz auf.<br />

3.5.1.3 Anpassen der Hidden Markov Modelle<br />

Die vorhandenen Hidden Markov Modelle (HMMs) müssen durch neue ersetzt werden, die mit 8 kHz<br />

Audiodaten antrainiert wurden. Dazu werden die originalen Audiodaten neu abgetastet und das<br />

Training wird anschließend nochmal wiederholt. In der Konfigurationsdatei muss nun nur noch über<br />

den Wert „htkHMMMacro“ die Datei mit den 8 kHz‐Modellen angegeben werden.<br />

77

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!