DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3.4 Verbinden der Komponenten<br />
Nach dem obigen try‐catch‐Block wird folgende Verzweigung eingefügt:<br />
if (data == 0){<br />
num = buffer.length-12;<br />
for (int i=12; i < buffer.length-12; ++i){<br />
buffer[i] = (byte)255;<br />
}<br />
}<br />
else {<br />
num=in2.read(buffer,12,buffer.length-12);<br />
}<br />
Für den Fall, das keine Daten gelesen werden können, wird der komplette Buffer mit Bytes vom Wert<br />
255 gefüllt. Dies entspricht bei der ULAW‐Kodierung einer Amplitude von Null. Können jedoch Daten<br />
gelesen werden, dann werden ganz normal die gelesenen Daten in den Buffer geschrieben.<br />
Mit diesem letzten Schritt ist die Voice‐over‐IP‐Anbindung des Sprachservers komplett und Audioda‐<br />
ten können über eine VoIP‐Verbindung sowohl empfangen als auch gesendet werden.<br />
3.5 Anpassung<br />
3.5.1 Samplefrequenz des Erkenners<br />
3.5.1.1 Einleitung<br />
Da der Sprachserver ursprünglich auf die Erkennung von Eingangsdaten mit einer Abtastrate von 16<br />
kHz ausgelegt war, bleibt die Erkennungsgenauigkeit trotz des durchgeführten Resamplings unter<br />
dem zu erwartenden Wert. Verantwortlich dafür sind Frequenzbereiche im Signal, die der Erkenner<br />
erwartet, die aber nicht in dem neuabgetasteten Signal vorhanden sind. Um die Erkennungsgenauig‐<br />
keit zu verbessern muss der Erkenner auf die neue Abtastrate von 8 kHz angepasst werden. Dazu sind<br />
mehrere Schritte notwendig.<br />
3.5.1.2 Anpassen der Audioaufzeichnung<br />
Die Digitalisierung des analogen Sprachsignals wurde bisher mit 16 kHz durchgeführt. Um die Abtast‐<br />
rate zu ändern wurde eine neue Einstellung in die Konfigurationsdatei „fbsv.ini“ mit der Bezeichnung<br />
„sampleRate“ aufgenommen. Der Quellcode wurde an den entsprechenden Stellen so geändert, dass<br />
anstatt einem festen Wert von 16 kHz die Einstellung aus der Konfigurationsdatei verwendet wird.<br />
Mit der Zeile „sampleRate=8000“ in der Konfigurationsdatei zeichnet der Sprachserver nun die Au‐<br />
diodaten mit einer Rate von 8 kHz auf.<br />
3.5.1.3 Anpassen der Hidden Markov Modelle<br />
Die vorhandenen Hidden Markov Modelle (HMMs) müssen durch neue ersetzt werden, die mit 8 kHz<br />
Audiodaten antrainiert wurden. Dazu werden die originalen Audiodaten neu abgetastet und das<br />
Training wird anschließend nochmal wiederholt. In der Konfigurationsdatei muss nun nur noch über<br />
den Wert „htkHMMMacro“ die Datei mit den 8 kHz‐Modellen angegeben werden.<br />
77