14.11.2012 Views

autoreferat rozprawy doktorskiej - Politechnika Warszawska

autoreferat rozprawy doktorskiej - Politechnika Warszawska

autoreferat rozprawy doktorskiej - Politechnika Warszawska

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

POLITECHNIKA WARSZAWSKA<br />

Wydział Elektroniki<br />

i Technik Informacyjnych<br />

AUTOREFERAT ROZPRAWY<br />

DOKTORSKIEJ<br />

mgr in˙z. Rafał Pietruch<br />

Badanie zrozumiało´sci mowy u osób laryngektomowanych na<br />

podstawie obrazów akustycznych oraz ekspresji twarzy<br />

Warszawa 2009<br />

Promotor<br />

Prof. nzw. dr hab. in˙z. Antoni Grzanka


Streszczenie<br />

W pracy zaprezentowano metody i narz˛edzia do analizy wypowiedzi pacjentów po<br />

całkowitym wyci˛eciu krtani. Badania przeprowadzono u osób zdrowych i laryngektomowanych<br />

na podstawie zapisów sygnału mowy oraz nagrań wideo twarzy. Opracowany i prezentowany<br />

system badań parametrów głosu stosowany jest do wyznaczania post˛epów rehabilitacji<br />

foniatrycznej. Przeprowadzone analizy sygnału audio dotyczyły cz˛estotliwo´sci podstawowej,<br />

formantów F1 i F2 oraz czasu artykulacji sze´sciu samogłosek polskich. Napisany został<br />

program wizualizuj ˛acy widmo czasowo-cz˛estotliwo´sciowe mowy oraz ´sledz ˛acy parametry<br />

ekspresji twarzy. Wykonano tak˙ze analiz˛e parametrów ekspresji twarzy w czasie wypowiedzi.<br />

Wyznaczono szeroko´sć i wysoko´sć otwarcia ust oraz rozwarcie ˙zuchwy. Analizie poddano<br />

zapisy pochodz ˛ace od trzech grup osób posługuj ˛acych si˛e pseudoszeptem, mow ˛a zast˛epcz ˛a<br />

oraz głosem naturalnym. W pracy zaobserwowano i opisano wymierne ró˙znice mi˛edzy<br />

tymi trzema rodzajami głosu. Wykazano, ˙ze najwi˛eksza trudno´sć jest obserwowana podczas<br />

wypowiadania samogłosek izolowanych w pseudoszepcie. Natomiast w ekspresji nie<br />

znaleziono patologicznych oznak pooperacyjnych zarówno u pacjentów z wykształcon ˛a<br />

mow ˛a zast˛epcz ˛a jak i posługuj ˛acych si˛e pseudoszeptem. Wyniki ukazuj ˛a wielkie mo˙zliwo´sci<br />

wykorzystania ´scie˙zki wideo przy automatycznym rozpoznawaniu lub poprawie zrozumiało´sci<br />

głosu pooperacyjnego.<br />

Słowa kluczowe: analiza mowy, ekspresja twarzy, laryngektomia, zrozumiało´sć mowy<br />

zast˛epczej<br />

2


Spis tre´sci<br />

1. Wst˛ep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.1. Podstawy medyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.2. Cel pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

2. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

2.1. Model wytwarzania mowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

2.1.1. Mowa naturalna i przełykowa . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

2.1.2. Pseudoszept i model zakłóceń . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.2. Stanowisko pomiarowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.2.1. Mikrofon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.2.2. Kamera wideo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.2.3. Zapis nagrań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.3. Materiał badawczy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

3. Algorytmy i implementacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

3.1. Metody analizy ´scie˙zki d´zwi˛ekowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

3.1.1. Estymacja widma czasowo-cz˛estotliwo´sciowgo . . . . . . . . . . . . . . . . . 13<br />

3.1.2. ´Sledzenie formantów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

3.1.3. Analiza statystyczna formantów . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

3.2. Metody analizy ruchomych obrazów twarzy . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3.2.1. Wyszukiwanie i ´sledzenie elementów twarzy . . . . . . . . . . . . . . . . . . . 15<br />

3.2.2. Ekstrakcja parametrów ekspresji . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.3. Rozpoznawanie samogłosek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

4. Wyniki eksperymentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

4.1. Analiza sygnału mowy bezkrtaniowców . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

4.2. Wyniki dla parametrów ekspresji twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

4.3. Badanie korelacji parametrów audio i wideo . . . . . . . . . . . . . . . . . . . . . . . 21<br />

5. Dyskusja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

3


6. Podsumowanie <strong>rozprawy</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28


1. Wst˛ep<br />

Utrata krtani, a wi˛ec brak mo˙zliwo´sci porozumiewania si˛e głosem, jest dla wielu ludzi<br />

ci˛e˙zkim do zaakceptowania kalectwem. Zmienia całkowicie ˙zycie pacjentów przyczyniaj ˛ac<br />

si˛e do zmniejszenia aktywno´sci zawodowej oraz izolacji od społeczeństwa. Ogromn ˛a pomoc<br />

w zaakceptowaniu nowej sytuacji przynosi ponad wszystko skuteczna rehabilitacja głosu.<br />

Proponowana tematyka <strong>rozprawy</strong> <strong>doktorskiej</strong> dotyczy badania mowy osób po operacji<br />

usuni˛ecia krtani. W pracy podj˛eto si˛e zadania poł ˛aczenia ´scie˙zki d´zwi˛ekowej z obrazami<br />

ekspresji twarzy. Uwzgl˛edniono analiz˛e ruchów elementów twarzy podczas wypowiedzi<br />

bezkrtaniowców. Informacje wizualne odgrywaj ˛a znaczn ˛a rol˛e przy odbiorze i zrozumieniu<br />

głosu ludzkiego przez otoczenie. Zaproponowano metodyk˛e badań zmierzaj ˛ac ˛a do znalezienia<br />

zale˙zno´sci mi˛edzy ekspresj ˛a twarzy a mow ˛a, które mog ˛a znale´zć zastosowanie praktyczne<br />

podczas rehabilitacji i oceny zrozumiało´sci wypowiedzi pacjentów.<br />

Na cele pracy powstało stanowisko pomiarowe oraz oprogramowanie komputerowe.<br />

Oprogramowanie, które oznaczono skrótem AVW jest innowacyjn ˛a aplikacj ˛a komputerow ˛a<br />

do przetwarzania strumieni audio i wideo. Program mo˙ze być stosowany w rehabilitacji<br />

pacjentów po operacji krtani.<br />

1.1. Podstawy medyczne<br />

Rak krtani kończy si˛e najcz˛e´sciej jej cz˛e´sciowym lub całkowitym usuni˛eciem. Kalectwo<br />

to znacznie utrudnia, w wielu przypadkach uniemo˙zliwia, wytwarzanie d´zwi˛ecznego głosu.<br />

Mimo, i˙z patologia nie dotyka samych artykulatorów to zamyka ´zródło strumienia powietrza<br />

i fal akustycznych. Układ potrzebuje wtedy alternatywnego ´zródła energii. Układ rezonansowy,<br />

czyli nasada, jest nadal sprawny czynno´sciowo.<br />

Najprostsz ˛a form ˛a wytworzenia mowy przez pacjentów po operacji usuni˛ecia krtani<br />

jest wykształcenie pseudoszeptu ustno-gardłowego. Mowa ta wytwarzana jest za pomoc ˛a<br />

powietrza zawartego w jamie ustnej. Pseudoszept charakteryzuje si˛e brakiem d´zwi˛eczno´sci,<br />

a głoski wypowiadane przez chorego maj ˛a krótki czas trwania. Samogłoski praktycznie nie<br />

5


s ˛a wypowiadane ze wzgl˛edu na brak cz˛estotliwo´sci harmonicznych. Mowa ta charakteryzuje<br />

si˛e słab ˛a dynamik ˛a i jest mało zrozumiała przez otoczenie. Upo´sledzenie o tym charakterze<br />

znacznie komplikuje komunikowanie si˛e ludzi larynkektomowanych z otoczeniem.<br />

W mowie przełykowej rol˛e generatora drgań przejmuj ˛a fałdy ´sluzówki górnego odcinka<br />

przełyku. W tym miejscu powstaje gło´snia rzekoma czyli pseudogło´snia. Fale akustyczne<br />

powstaj ˛ace w pseudogło´sni podlegaj ˛a formowaniu w jamach rezonansowych przy pomocy<br />

ruchów narz ˛adów artykulacyjnych podobnie do mowy naturalnej. Niezb˛edne do artykulacji<br />

powietrze dostaje si˛e do gardła dolnego na drodze inspiracji lub połkni˛ecia [11, 4]. Nast˛epnie<br />

w wyniku fali antyperystaltycznej wypchni˛ete powietrze przeciska si˛e przez usta przełyku<br />

tworz ˛ac fonacj˛e.<br />

1.2. Cel pracy<br />

Poszukiwanie metod poprawy zrozumiało´sci nale˙zało zacz ˛ać od wypracowania<br />

wska´zników jako´sci interwencji pooperacyjnej. To wyznaczyło cel tej pracy, jakim jest<br />

znalezienie dobrych wska´zników stopnia zrozumiało´sci mowy poprzez poł ˛aczenie informacji<br />

uzyskanej z toru głosowego z obrazami wideo. W niniejszej pracy wykonano eksperymenty<br />

ł ˛acz ˛ace oba zbiory danych, wyznaczaj ˛ac wpływ ekspresji twarzy na parametry mowy<br />

zast˛epczej i pseudoszeptu. Prezentowane rozwi ˛azania stanowi ˛a baz˛e do wykonania urz ˛adzeń<br />

wykorzystuj ˛acych analizy wideo do poprawy zrozumiało´sci mowy ludzi po operacji wyci˛ecia<br />

krtani. W przyszło´sci implementacja sprz˛etowa cz˛e´sci omawianego systemu mo˙ze ułatwić<br />

swobodne komunikowanie si˛e bezkrtaniowców z otoczeniem.<br />

Celami niniejszej pracy były nast˛epuj ˛ace zadania:<br />

— opracowanie hybrydowego systemu analizy mowy bezkrtaniowców opieraj ˛acego si˛e<br />

na ´scie˙zce wideo oraz sygnale audio,<br />

— implementacja algorytmów ekstrakcji cech samogłosek polskich z uwzgl˛ednieniem mowy<br />

pacjentów po laryngektomii,<br />

— badania statystyczne charakteru głosu bezkrtaniowców i ró˙znic wzgl˛edem mowy naturalnej<br />

na podstawie obiektywnych parametrów,<br />

— ukazanie skuteczno´sci prezentowanych metod przy rozpoznawaniu i poprawie<br />

zrozumiało´sci mowy patologicznej.<br />

Metodologia pracy została oparta na nast˛epuj ˛acych tezach.<br />

6


— Patologia narz ˛adu mowy nie wpływa na sposób poruszania zewn˛etrznymi artykulatorami<br />

mowy i tym samym ekspresja twarzy u osób po laryngektomii pozostaje niezmieniona.<br />

— Parametry wideo uzupełniaj ˛a informacj˛e akustyczn ˛a, niweluj ˛a wpływ niedoskonało´sci<br />

mowy patologicznej, poprawiaj ˛a skuteczno´sć estymacji parametrów głosek oraz<br />

rozpoznawania mowy.<br />

Praca zawiera wyniki badań, uzyskane w ramach realizacji projektu badawczego<br />

promotorskiego numer N N518 0929 33, finansowanego przez Ministerstwo Nauki<br />

i Szkolnictwa Wy˙zszego.


2. Metodologia<br />

Model powstawania fali akustycznej w trakcie głosowym powinien ł ˛aczyć w sobie cechy<br />

mowy naturalnej i głosu ludzi laryngektomowanych. Pomiary wykonane w pracy, ograniczono<br />

do analiz sze´sciu podstawowych samogłosek polskich. Pozwoliło to na uproszczenie modelu i<br />

zastosowanie go dla dwóch rodzajów mowy, naturalnej i przełykowej.<br />

2.1. Model wytwarzania mowy<br />

W rozprawie <strong>doktorskiej</strong> do zamodelowania procesu wytwarzania mowy zastosowano<br />

znany szeroko w literaturze proces aurotegresji, którego współczynniki estymowane s ˛a<br />

z wykorzystaniem algorytmu adaptacyjnego. W przypadku formowania si˛e samogłosek<br />

zazwyczaj pomija si˛e wpływ jamy nosowej [5, 12]. Taki model pozwala na wykorzystanie<br />

szeroko stosowanej predykcji liniowej do wyznaczania parametrów filtru modeluj ˛acego<br />

trakt głosowy [25]. Filtr ma wtedy równanie procesu autoregresywnego (AR), w którym<br />

charakterystyk˛e widma wyznaczaj ˛a bieguny filtru. W modelu traktu głosowego przyj˛ete<br />

zostało, i˙z szum biały jest ´zródłem procesu autoregresji. Do wyznaczania parametrów modelu<br />

u˙zyto algorytmu adaptacyjnego WRLS [10].<br />

2.1.1. Mowa naturalna i przełykowa<br />

W pracy podzielono trakt głosowy na N = 10 jednakowo długich elementów<br />

o ró˙znych przekrojach poprzecznych (podobnie jak w ksi ˛a˙zce [23]). W pracy pomini˛eto<br />

wpływ przestrzeni jam nosowych na kształtowanie charakterystyki sygnału mowy<br />

[9]. Wyprowadzenie równania elementu transmitancji traktu mo˙zna znale´zć w [23].<br />

Przyporz ˛adkowanie współczynników odbicia do odpowiednich sekcji przedstawione jest w [8].<br />

Uproszczony model tworzenia sygnału mowy pozwala na zastosowanie filtru kratowego<br />

estymuj ˛acego parametry traktu głosowego. Przy przekształcaniu współczynników odbicia<br />

na odpowiednie przekroje poprzeczne traktu głosowego, przyj˛eto, i˙z w miejscu powstawania<br />

fali akustycznej przekrój poprzeczny wynosi 1. W [3] autorzy zauwa˙zaj ˛a, i˙z rejon ten<br />

8


jest najmniej czuły na zmiany obj˛eto´sciowe w trakcie generowania mowy w porównaniu<br />

z pozostałymi elementami traktu. W pracy przyj˛eto, i˙z przy przej´sciu fali przez usta na zewn ˛atrz<br />

traktu głosowego nast˛epuje całkowite ujemne odbicie fali akustycznej (współczynnik odbicia<br />

wynosi 1). Filtr kratowy równowa˙zny jest filtrowi transwersalnemu. Przekształcenie mi˛edzy<br />

parametrami obu modeli opisane w [29]. Dla cz˛estotliwo´sci próbkowania 8kHz, przyj˛eto<br />

liczb˛e współczynników filtru równ ˛a 10. Na drodze mi˛edzy ustami a mikrofonem pomija si˛e<br />

wszelkie zjawiska odbicia fali. Przyjmuje si˛e jedynie opó´znienie sygnału, które mo˙zna pomin ˛ać<br />

w dalszych rozwa˙zaniach. Zaniedbuje si˛e tak˙ze charakterystyk˛e cz˛estotliwo´sciow ˛a mikrofonu.<br />

Miejscem wytwarzania zast˛epczych drgań w przypadku mowy zast˛epczej s ˛a usta przełyku.<br />

Podobnie jak dla mowy naturalnej ´zródło fali d´zwi˛ekowej znajduje si˛e na pocz ˛atku<br />

modelowanego traktu głosowego. Istnieje wi˛ec mo˙zliwo´sć zastosowania tego samego modelu<br />

tworzenia samogłosek jak w przypadku mowy naturalnej.<br />

2.1.2. Pseudoszept i model zakłóceń<br />

Proponowany model wyznaczania parametrów akustycznych jest niewystarczaj ˛acy<br />

w przypadku analizy pseudoszeptu. Dotyczy to szczególnie artykulacji głosek z jednoczesnym<br />

wydychaniem powietrza przez otwór tracheotomijny. W [21] autor wykazał konieczno´sć<br />

wyznaczania parametrów akustycznych samogłosek z poł ˛aczeń spółgłoska-samogłoska (CV).<br />

Tak˙ze w tym przypadku, zaproponowany model akustyczny nie odpowiada rzeczywistemu<br />

sposobowi tworzenia si˛e głosu, w którym ´zródłem fali d´zwi˛ekowej mog ˛a być ró˙zne<br />

artykulatory w zale˙zno´sci od wypowiadanej spółgłoski poprzedzaj ˛acej.<br />

W modelu nale˙załoby uwzgl˛ednić ruchome poło˙zenie ´zródła fali d´zwi˛ekowej wzdłu˙z<br />

traktu. Zjawisko to zostało zbadane w [16], gdzie zostały wskazane ró˙znice wzgl˛edem modelu<br />

mowy naturalnej. Autor wykazał, i˙z w tym przypadku na charakterystyk˛e mowy wpływaj ˛a<br />

w znacznym stopniu zera filtru głosowego. Dlatego dla dokładnego odzwierciedlenia procesów<br />

zachodz ˛acych w tym przypadku nale˙załoby zmienić model filtru na ARMA.<br />

Model traktu głosowego dla osób laryngektomowanych powinien uwzgl˛edniać wpływ<br />

otworu tracheotomijnego. Na podstawie widm samogłosek przedstawionych w [21] autor<br />

wyci ˛agn ˛ał wniosek, ˙ze cichy pseudoszept podczas wymawiania samogłosek zamaskowany<br />

jest szumami wydobywaj ˛acymi si˛e z rurki tracheotomijnej. Odgłosy oddychania, nakładaj ˛ac<br />

si˛e na mow˛e, czyni ˛a j ˛a mniej zrozumiał ˛a, dlatego wa˙zn ˛a umiej˛etno´sci ˛a bezkrtaniowców jest<br />

synchronizacja oddechu z mow ˛a.<br />

9


Przegl ˛ad stosowanych rurek tracheotomijnych pozwala na przyj˛ecie bardzo prostego<br />

modelu generacji szumu wydostaj ˛acego si˛e z tracheostomy. Szumy powstaj ˛a w wi˛ekszo´sci<br />

u wej´scia rurki podczas turbulencji powietrza dostaj ˛acego si˛e do jej wn˛etrza. Strumień<br />

powietrza oraz powstałe szumy przebywaj ˛a nast˛epnie długo´sć rurki LR o stałej ´srednicy<br />

by wydostać si˛e u jej wylotu na zewn ˛atrz. Taki prosty model generacji szumów pozwala<br />

nam przewidzieć widmo zakłóceń wydobywaj ˛acych si˛e z otworu. Widmo to powinno<br />

mieć maksima powtarzaj ˛ace si˛e w odst˛epach b˛ed ˛acych odwrotno´sci ˛a czasu potrzebnego<br />

na przebycie dwóch długo´sci rurki tracheotomijnej przez fal˛e d´zwi˛ekow ˛a. Równanie 2.1<br />

opisuje model kształtowania widma szumów powstaj ˛acych podczas turbulencji u wylotu rurki<br />

tracheotomijnej.<br />

2.2. Stanowisko pomiarowe<br />

He(z) = φ+<br />

NR+1 (z)<br />

φ + 0 (z) = (1 + γ0)(1 + γNR )<br />

1 + z −NRγ0γNR<br />

(2.1)<br />

Stanowisko pomiarowe wykorzystane na cele <strong>rozprawy</strong> <strong>doktorskiej</strong> powstało we<br />

współpracy z Zakładem Audiologii Foniatrii i Otoneurologii Uniwersytetu Medycznego<br />

w Łodzi. Słu˙zy ono do rejestracji nagrań audio-wideo bezkrtaniowców, wizualizacji próbek<br />

głosu oraz ´sledzenia ekspresji twarzy. Rejestracji nagrań wykonano w dwóch cz˛e´sciach.<br />

Pierwsz ˛a seri˛e nagrań wykonano w wyciszonej kabinie. W drugim etapie wykorzystano mały<br />

pokój z d´zwi˛ekochłonnymi drzwiami oraz szczelnym okienkiem mi˛edzy pokojem operatora.<br />

W pomieszczeniu z pierwszego etapu nagrań poziom sygnału wzgl˛edem szumów wahał si˛e<br />

w granicach 42±2dB (SNR). W modelu zostało przyj˛ete, ˙ze tor foniczny nie zniekształca<br />

charakterystyki sygnału w badanym zakresie cz˛estotliwo´sci (20Hz do 4kHz). W obu etapach<br />

nagrań kamera ustawiona była na statywie w odległo´sci 1.5 metra od siedz ˛acego pacjenta.<br />

Podczas rejestracji zoom kamery ustawiono tak, aby w czasie całego nagrania widoczna była<br />

cz˛e´sć twarzy pacjentów od wysoko´sci łuku brwiowego do podbródka.<br />

2.2.1. Mikrofon<br />

Mikrofon zewn˛etrzny podł ˛aczony został do kanału lewego wej´scia mikrofonowego kamery.<br />

Rejestracje mowy w zale˙zno´sci od etapów nagrań wykonano przy u˙zyciu trzech rodzajów<br />

mikrofonów. W pierwszej cz˛e´sci nagrań u˙zyto zewn˛etrznego mikrofonu elektretowego.<br />

10


Do zasilenia mikrofonu u˙zyto baterii 1.5V. W celu wytłumienia gło´snych fragmentów<br />

i przystosowania mocy sygnału do wej´scia kamery (wzmocnienie 20dB) zastosowano<br />

dodatkowy potencjometr. Mikrofon umieszczono w odległo´sci 12 ± 4cm od ust badanych<br />

osób. Po awarii skonstruowanego mikrofonu w czasie prowadzenia nagrań zdecydowano si˛e na<br />

u˙zycie dwóch mikrofonów wbudowanych w kamer˛e wideo, która znajdowała si˛e w odległo´sci<br />

1.5m od głowy pacjentów. Aby unikn ˛ać niespodziewanych awarii na cele drugiego etapu<br />

nagrań zakupiono mikrofon zewn˛etrzny dedykowany dla kamer wideo [22]. Ustawiono go<br />

w odległo´sci 20cm od kamery oraz w odległo´sci 1.5m od ust osób nagrywanych. Mikrofon<br />

wykorzystany w drugim etapie nagrań jest opisany w instrukcji [22].<br />

2.2.2. Kamera wideo<br />

Nagrań dokonano za pomoc ˛a kamery cyfrowej Panasonic NV-DS63EGE [19].<br />

Pozostawiono domy´slne ustawienia kamery z wyj ˛atkiem zbli˙zenia, które ustawiono tak,<br />

aby spełnić wymagania co do widoczno´sci całej twarzy pacjenta z jednoczesn ˛a minimalizacj ˛a<br />

obszaru tła. Dane zapisano na karcie MiniDV, z zapisanym d´zwi˛ekiem w formacie PCM<br />

z rozdzielczo´sci ˛a 16 bitów i cz˛estotliwo´sci ˛a próbkowania 48 kHz. Rozdzielczo´sć obrazu<br />

zapisanego na karcie w formacie AVI wynosiła 720x576. Uzyskano cz˛esto´sć od´swie˙zania<br />

równ ˛a 25fps. Kopiowania filmu z kamery na komputer wykonano przy u˙zyciu interfejsu<br />

IEEE1394.<br />

2.2.3. Zapis nagrań<br />

Nagrania zostały zarchiwizowane na płytach CD i DVD. Podzielone zostały na oddzielne<br />

pliki dla ka˙zdego pacjenta. W pierwszym etapie nagrania skomprymowane zostały do formatu<br />

MPEG2 w rozdzielczo´sci 352x288 pikseli. D´zwi˛ek o 16-bitowej kwantyzacji został poddany<br />

konwersji cz˛estotliwo´sci próbkowania z 48 do 8kHz. W tym przypadku zapis d´zwi˛eku<br />

uległ kompresji do formatu MPEG Audio (wersja 1, warstwa 2) bazuj ˛acym na modelu<br />

psychoakustycznym.<br />

2.3. Materiał badawczy<br />

W pracy wykorzystanych zostało 62 nagrań pacjentów po całkowitym usuni˛eciu krtani<br />

oraz 11 zdrowych osób z grupy kontrolnej. Materiał lingwistyczny stanowiły samogłoski<br />

11


izolowane oraz dodatkowo wybrane słowa jednosylabowe i dwusylabowe z list wg<br />

Zakrzewskiego, Pruszewicza i Kubzdeli [28]. Nale˙zy podkre´slić, ˙ze badania na cele<br />

prowadzonej pracy zostały zaakceptowane przez komisj˛e etyczn ˛a. Wszyscy pacjenci bior ˛acy<br />

udział w projekcie wyrazili zgod˛e na korzystanie z zebranych nagrań w celach naukowych.


3. Algorytmy i implementacja<br />

3.1. Metody analizy ´scie˙zki d´zwi˛ekowej<br />

W ramach pracy powstał program komputerowy o nazwie AVW. Jest to aplikacja, która<br />

analizuje zapis mowy z plików audio lub wideo. Analizie podlega tylko kanał lewy sygnału<br />

audio. Program wy´swietla widmo czasowo-cz˛estotliwo´sciowe w oknie w czasie odtwarzania<br />

pliku. Posiada szereg funkcjonalno´sci ułatwiaj ˛acych analiz˛e materiału. Aplikacja napisana<br />

została w j˛ezyku C++ za pomoc ˛a graficznego ´srodowiska programistycznego Visual C++.<br />

Program jest wielodokumentow ˛a aplikacj ˛a MFC korzystaj ˛ac ˛a z bibliotek DirectX 9.0 SDK<br />

[20]. Aplikacja AVW umo˙zliwia analiz˛e sygnałów mowy zapisanych w plikach w formatach<br />

WAV, AVI, MPEG.<br />

Pomiary na cele <strong>rozprawy</strong> obejmowały takie parametry artykulacji samogłosek, jak<br />

formanty F 1 i F 2 b˛ed ˛ace według [13] głównymi parametrami nosz ˛acymi informacj˛e<br />

o samogłoskach.<br />

Na cele <strong>rozprawy</strong> zaimplementowano skrypt w ´srodowisku MatLab wyznaczaj ˛acy<br />

cz˛estotliwo´sci podstawowe dla mowy naturalnej jak i przełykowej. Algorytm wykorzystuje<br />

pierwszy wiersz macierzy autokorelacji sygnału przefiltrowany z u˙zyciem filtru<br />

dolnoprzepustowego.<br />

3.1.1. Estymacja widma czasowo-cz˛estotliwo´sciowgo<br />

Odwrotny model traktu głosowego przekształcony jest do filtru transwersalnego opartego<br />

o liniow ˛a predykcj˛e. Mamy tu do czynienia z problemem wybielania sygnału, który sprowadza<br />

si˛e do znalezienia transmitancji filtru odwrotnego. Do wyznaczenia estymat współczynników<br />

zastosowano adaptacyjny algorytm rekurencyjny WRLS (z ang. Weighted Recursive Least<br />

Square) podany przez Haykin’a [10]. W algorytmie korzysta si˛e z kryterium LS, najmniejszych<br />

kwadratów. Z otrzymanej charakterystyki cz˛estotliwo´sciowej filtru, posiadaj ˛acego jedynie<br />

bieguny, obliczane s ˛a cz˛estotliwo´sci formantowe. W przypadku grupy kontrolnej sygnał mowy<br />

13


poddany był preemfazie z u˙zyciem filtru górnoprzepustowego o transmitancji Hpre(z) =<br />

1 − 0.9735z −1 . W przypadku mowy zast˛epczej wykonanie preemfazy nie jest wymagane<br />

ze wzgl˛edu na wyrównan ˛a charakterystyk˛e cz˛estotliwo´sciow ˛a ´zródła głosu przełykowego.<br />

3.1.2. ´Sledzenie formantów<br />

W pracy zastosowano algorytm Christensena [6] do znajdowania w widmie LPC kolejnych<br />

kandydatów na cz˛estotliwo´sci formantowe. Metoda polega na wyszukaniu minimów drugiej<br />

pochodnej widma. Maksymalna liczba kandydatów równa jest liczbie biegunów w modelu<br />

filtru głosowego i dla 10 współczynników filtra wynosi 5. Według [25] w pa´smie cz˛estotliwo´sci<br />

do 4kHz mog ˛a wyst ˛apić maksymalnie 4 formanty. Mo˙ze si˛e wi˛ec zdarzyć, ˙ze liczba<br />

kandydatów na formanty jest mniejsza lub wi˛eksza (maksymalnie o 1) od liczby szukanych<br />

formantów. Do odrzucenia kandydata b ˛ad´z przydzielenia mniejszej ilo´sci kandydatów<br />

do formantów zaimplementowany został algorytm najmniejszego kosztu przej´scia mi˛edzy<br />

kolejnymi warto´sciami formantów. Algorytm ten bierze pod uwag˛e cz˛estotliwo´sci kandydatów<br />

na formanty oraz ´srednie z warto´sci 9-ciu poprzednich formantów.<br />

3.1.3. Analiza statystyczna formantów<br />

Do wyznaczenia formantów dla wypowiedzianej samogłoski, nale˙zy wybrać<br />

reprezentatywny fragment nagrania. Najprostsz ˛a metod ˛a jest r˛eczne zaznaczenie<br />

na periodogramie granic samogłoski analizuj ˛ac widmo czasowo-cz˛estotliwo´sciowe i nat˛e˙zenie<br />

d´zwi˛eku.<br />

W programie AVW zaznaczony fragment mo˙ze być dalej automatycznie zaw˛e˙zony<br />

uwzgl˛edniaj ˛ac energi˛e sygnału. W niniejszej pracy zaimplementowano metod˛e wyznaczaj ˛ac ˛a<br />

w zaznaczonym fragmencie maksimum oraz minimum pochodnej energii sygnału po czasie.<br />

Punkt maksymalnej pochodnej powinien poprzedzać punkt minimalnej pochodnej a czas<br />

mi˛edzy obydwoma punktami powinien stanowić co najmniej połow˛e długo´sci zaznaczonego<br />

fragmentu.<br />

Z opisanej operacji wynikaj ˛a cztery zbiory punktów zmienno´sci poszczególnych<br />

formantów. Dla ka˙zdego formantu wyznaczany jest rozkład jego warto´sci w danym fragmencie,<br />

a z niego obliczana jest mediana oraz rozst˛ep mi˛edzykwartylowy. Mediana warto´sci formantów<br />

z odcinka czasowego brana jest pod uwag˛e jako warto´sć formantu dla wypowiadanej w danym<br />

momencie samogłoski. Warto´sć ta brana jest dalej do obliczeń statystycznych.<br />

14


3.2. Metody analizy ruchomych obrazów twarzy<br />

Poł ˛aczenie analizy sygnału mowy ze ´scie˙zk ˛a wideo jest coraz szerzej stosowan ˛a metod ˛a<br />

przy automatycznym rozpoznawaniu mowy w trudnych warunkach akustycznych [7, 14, 15].<br />

Wykazano, i˙z przy zakłóceniach i szumach w torze audio, analiza wideo niesie ze sob ˛a wiele<br />

korzystnych informacji.<br />

Algorytmy lokalizacji elementów twarzy w obrazie i metody ´sledzenia zmian parametrów<br />

ekspresji zaimplementowano w formie filtra DirectShow doł ˛aczanego do systemu jako<br />

biblioteka dynamiczna. Zestaw funkcji filtra implementuje poszczególne kroki segmentacji<br />

obrazu w celu rozpoznania i umiejscowienia twarzy i ust. Filtr analizuje obraz podczas<br />

odtwarzania ´scie˙zki wideo i przesyła aktualne parametry do programu głównego. Jako<br />

deskryptory wizualne wybrano iloczyn wysoko´sci i szeroko´sci otwarcia ust oraz wielko´sć<br />

opisuj ˛ac ˛a rozwarcie ˙zuchwy.<br />

3.2.1. Wyszukiwanie i ´sledzenie elementów twarzy<br />

W systemie opracowanym przez autora <strong>rozprawy</strong> zaimplementowano własne metody<br />

lokalizacji elementów twarzy w obrazach. Obraz wst˛epnie przetworzony jest z przestrzeni<br />

RGB do HSV [17]. Dla kolejnych klatek wideo algorytm wyznacza charakterystyczne obszary.<br />

Dla ka˙zdego piksela wyznaczane s ˛a takie cechy, jak nat˛e˙zenie koloru czerwonego, stopień<br />

zaciemnienia, ruch odzwierciedlany poprzez lokalne ró˙znice mi˛edzy kolejnymi klatkami,<br />

ró˙znice mi˛edzy pikselami w pionie oraz poziomie. Ka˙zda z cech jest porównywana z warto´sci ˛a<br />

graniczn ˛a w celu jednoznacznego przydzielenia piksela do obszaru lub otoczenia. Warto´sć<br />

granicy ustalana jest dynamicznie tak, aby wielko´sci obszarów d ˛a˙zyły do zdefiniowanej<br />

proporcji w stosunku do całego obrazu.<br />

Do poprawnego działania algorytmu liczba pikseli dla ka˙zdego regionu powinna być<br />

stała dla wszystkich klatek. W zwi ˛azku z tym granice przyporz ˛adkowuj ˛ace ka˙zdy piksel<br />

do ka˙zdej z grup lub ich otoczeń, s ˛a dynamicznie zmieniane. Z góry zakłada si˛e, ˙ze histogramy<br />

s ˛a wyrównane dla wszystkich warto´sci. Warto´sci graniczne uaktualniane s ˛a liniowo wzgl˛edem<br />

bł˛edu b˛ed ˛acym ró˙znic ˛a mi˛edzy warto´sci ˛a zadan ˛a liczby pikseli a warto´sci ˛a otrzyman ˛a w<br />

aktualnej klatce. Przynale˙zno´sć piksela do elementu twarzy wyliczana jest jako warto´sć<br />

logiczna z przynale˙zno´sci do zbiorów b˛ed ˛acych sum ˛a logiczn ˛a pikseli zaczerwienionych i<br />

zró˙znicowanych w pionie plus ciemnych i poruszaj ˛acych si˛e.<br />

15


Obrys twarzy znajdowany jest z wykorzystaniem faktu, i˙z obszar twarzy stanowi<br />

najbardziej zaczerwieniony region obrazu i ograniczony jest konturem ró˙znicowym z lewej<br />

i prawej strony. Warunki te brane s ˛a pod uwag˛e przy zało˙zeniach dotycz ˛acych umiejscowienia<br />

i wielko´sci twarzy w obrazie oraz jednolitego białego tła.<br />

W celu wypełnienia luk dla wysoko´sci, gdzie obrys nie został znaleziony, obrysy poddane<br />

zostały filtracji z u˙zyciem filtru dolnoprzepustowego. Punkty lewego i prawego obrysu twarzy<br />

ł ˛aczone s ˛a nast˛epnie odcinkami. Z punktów ´srodkowych odcinków mi˛edzy prawym a lewym<br />

obrysem (dla poszczególnych wysoko´sci) za pomoc ˛a transformaty Hought’a [17] znajdowana<br />

jest linia główna symetrii obrysu twarzy. Punkty najbardziej oddalone od linii głównej<br />

s ˛a eliminowane, aby nie wprowadzały zaburzeń. Końcowe równanie linii symetrii twarzy<br />

estymowane jest za pomoc ˛a metody najmniejszych kwadratów.<br />

Linia symetrii obrysu głowy wykorzystana jest dalej do znajdowania punktów symetrii<br />

elementów twarzy. W tym celu tworzone s ˛a odcinki obrazu ograniczone przez kontur<br />

głowy i prostopadłe do symetrii obrysu twarzy. Dla ka˙zdego odcinka wyznacza si˛e wektor<br />

autokorelacji. Nast˛epnie znajdowany jest punkt b˛ed ˛acy ´srodkiem ci˛e˙zko´sci tego wektora.<br />

Nast˛epnie bada si˛e otoczenie punktu ci˛e˙zko´sci w badanym odcinku. Je´sli suma punktów<br />

otoczenia osi ˛aga zało˙zony pułap przyjmuje si˛e tzw. symetri˛e „nieparzyst ˛a”, oznaczaj ˛ac ˛a<br />

wyst˛epowanie nieparzystej liczby skupień obszarów symetrycznych. Je´sli suma punktów<br />

jest mniejsza od zadanej liczby, wtedy zakłada si˛e tzw. „parzyst ˛a” symetri˛e, która oznacza<br />

wyst˛epowanie parzystej liczby skupień obszarów symetrycznych. Ze znalezionych punktów<br />

symetrii dla ka˙zdego odcinka wylicza si˛e równanie linii symetrii twarzy w taki sam sposób jak<br />

dla symetrii obrysu.<br />

Znajdowanie konkretnych elementów twarzy nast˛epuje na podstawie informacji<br />

o pseudo-parzysto´sci punktów symetrii. Przykładowo usta powinny stanowić jeden obszar<br />

(nieparzysta liczba), a oczy dwa obszary (parzysta liczba).<br />

3.2.2. Ekstrakcja parametrów ekspresji<br />

Z modelu akustycznego znane s ˛a stosunki pomi˛edzy kolejnymi polami przekrojów<br />

poprzecznych. Aby podać wymiary traktu głosowego w jednostkach odpowiadaj ˛acym długo´sci,<br />

nale˙zy przyj ˛ać za wiadome jedno z pól przekroju. Przekrój pierwszego elementu traktu<br />

głosowego, czyli powierzchnia otwarcia ust SL, jest głównym elementem wideo maj ˛acym swój<br />

odpowiednik w parametrach akustycznych. Parametr ten podany jest w stosunku do kwadratu<br />

16


odległo´sci mi˛edzy oczyma osoby na obrazie L 2 0. Parametr L0 jest niezmienny i mo˙ze być łatwo<br />

zmierzony w jednostce długo´sci dla ka˙zdego pacjenta. Na potrzeby rozpoznawania samogłosek<br />

z parametrów wideo mierzono w pracy tak˙ze szeroko´sć rozwarcia ˙zuchwy LJ. Nie został<br />

jednak zaimplementowany ˙zaden algorytm do ´sledzenia tej warto´sci w obrazie wideo. Parametr<br />

ten nie jest wykorzystywany przy fuzji ze współczynnikami akustycznymi.<br />

Jako deskryptory wizualne {v1, v2} samogłosek wybrane zostały: iloczyn wysoko´sci (LH)<br />

i szeroko´sci (LW ) otwarcia ust oraz rozwarcie ˙zuchwy. Oba parametry znormalizowane zostały<br />

w stosunku do odległo´sci mi˛edzy oczyma pacjenta (L0) zgodnie z 3.1.<br />

v1 = 4LHLW<br />

L0 2<br />

v2 = LJ − LJ m<br />

L0<br />

− 1<br />

(3.1)<br />

Rozwarcie ˙zuchwy liczono jako przyrost odległo´sć od linii ł ˛acz ˛acej oczy do czubka brody<br />

(LJ) w stosunku do tej warto´sci w pozycji neutralnej (LJ m).<br />

Równocze´snie z automatycznym ´sledzeniem elementów twarzy pomiary parametrów<br />

wideo musiały być dodatkowo wykonane r˛ecznie. Klatki filmowe odpowiadaj ˛ace fragmentom<br />

akustycznym o tym samym czasie w ´scie˙zce wideo zapisywane były do plików obrazkowych.<br />

Za pomoc ˛a programu GIMP wykonano pomiary odległo´sci charakterystycznych twarzy (w<br />

pikselach) i znormalizowano wymiary do odległo´sci mi˛edzy oczyma nagrywanych osób.<br />

3.3. Rozpoznawanie samogłosek<br />

Do rozpoznawania samogłosek u˙zyto dwóch jednokierunkowych sieci neuronowych o<br />

dwóch wej´sciach. Dla parametrów akustycznych na wej´scie sieci podawano odpowiednio<br />

znormalizowane warto´sci formantów F1, F2 (3.2).<br />

a1 =<br />

a2 =<br />

F 2<br />

− 1.5<br />

1000<br />

F 1<br />

− 0.7 (3.2)<br />

1000<br />

Funkcj ˛a przej´scia w pierwszej warstwie była funkcja tansig. Na wyj´sciu sieci skorzystano z<br />

funkcji liniowej. Do uczenia sieci u˙zyto algorytmu propagacji wstecznej opartego na kryterium<br />

minimalizacji bł˛edu ´sredniokwadratowego (MSE). Obydwie sieci neuronowe dla parametrów<br />

audio i wideo zostały nauczone na podstawie danych z grupy kontrolnej tak, aby warto´sć<br />

17


na wyj´sciu sieci odpowiadaj ˛acym wypowiadanej samogłosce wyniosła 1 a na pozostałych<br />

wyj´sciach -1. Dla sieci klasyfikuj ˛acej samogłoski na podstawie deskryptorów akustycznych<br />

liczba wyj´sć sieci była równa liczbie samogłosek. W przypadku parametrów wideo liczba<br />

wyj´sć została zredukowana do czterech. Sieć nie potrafiła rozró˙znić samogłosek ’a’ od ’e’ oraz<br />

i od y, poniewa˙z parametry wideo przyjmowały podobne warto´sci przy ich wypowiadaniu. Dla<br />

ka˙zdej z podanych par przydzielono jedno z wyj´sć sieci.


4. Wyniki eksperymentów<br />

W rozdziale przedstawione zostały wyniki badań statystycznych charakteru<br />

głosu bezkrtaniowców. Uwzgl˛edniono ró˙znice mi˛edzy mow ˛a naturaln ˛a, przełykow ˛a<br />

a pseudoszeptem. Rezultaty zamieszczone w tej cz˛e´sci rozszerzaj ˛a dotychczasow ˛a wiedz˛e<br />

o informacje na temat skuteczno´sci analizy i rozpoznawania mowy w oparciu o parametry<br />

akustyczne oraz wizualne. Przedstawione s ˛a tak˙ze wzajemne korelacje tych hybrydowych<br />

parametrów.<br />

4.1. Analiza sygnału mowy bezkrtaniowców<br />

Wst˛epna analiza widmowa zapisów audio samogłosek w pseudoszepcie ukazała<br />

mi˛edzyosobnicze ró˙znice w widmach poszczególnych samogłosek. Widma nie wykazuj ˛a tak˙ze<br />

podobieństwa do widm wyliczonych dla odpowiednich samogłosek mowy naturalnej. Mo˙zna<br />

natomiast zauwa˙zyć podobieństwa w kształtach widm dla ró˙znych samogłosek w ramach<br />

wypowiedzi jednego pacjenta.<br />

Cz˛estotliwo´sci formantowe s ˛a w przybli˙zeniu harmonicznymi pierwszego formantu.<br />

Dla pacjenta posiadaj ˛acego rurk˛e tracheotomijn ˛a współczynniki proporcji poszczególnych<br />

cz˛estotliwo´sci formantów wynosz ˛a w przybli˙zeniu 1:2:3:4:5. Inny charakter widma<br />

otrzymujemy dla pacjenta nieposiadaj ˛acego rurki tracheotomijnej. W tym przypadku<br />

widmo samogłosek przesuni˛ete jest ku ni˙zszym cz˛estotliwo´sciom a współczynniki proporcji<br />

poszczególnych cz˛estotliwo´sci formantowych wynosz ˛a w przybli˙zeniu 1:3:5:7:9.<br />

´Srednia cz˛estotliwo´sć podstawowa wyniosła dla mowy przełykowej 50Hz a dla mowy<br />

naturalnej 165Hz. Zaobserwowano ni˙zsz ˛a ´sredni ˛a cz˛estotliwo´sć podstawow ˛a F 0, ni˙z<br />

podawana w literaturze.<br />

W celu udowodnienia statystycznych ró˙znic mi˛edzy cz˛estotliwo´sciami formantowymi F 1<br />

i F 2 dla poszczególnych samogłosek mi˛edzy grup ˛a kontroln ˛a a pacjentami wykorzystano test<br />

T 2 (t - kwadrat) Hotelling’a [18]. Ró˙znice na poziomie wiarygodno´sci p < 0.05 osi ˛agni˛eto<br />

w przypadku samogłosek ’a’, ’o’ oraz ’u’. W przypadku samogłoski ’a’ F 1 przesuwa si˛e<br />

19


ku górnym cz˛estotliwo´sciom o około 20%. W przypadku tej samogłoski osi ˛agni˛eto ró˙znic˛e<br />

w F 1 na poziomie istotno´sci statystycznej p < 0.02 oraz p < 0.005 dla F 2.<br />

Przy zało˙zeniu kołowych przekrojów poprzecznych tuby akustycznej traktu głosowego,<br />

wykonane zostały analizy statystyczne dotycz ˛ace ´srednic przekrojów wynikaj ˛acych<br />

bezpo´srednio ze współczynników modelu akustycznego. Analizy statystyczne ´srednic<br />

przekrojów poprzecznych traktu głosowego wykonano za pomoc ˛a testu T 2 Hotelling’a. Istotne<br />

statystycznie ró˙znice w przekrojach poprzecznych mi˛edzy grup ˛a kontroln ˛a a pacjentami<br />

posługuj ˛acymi si˛e mow ˛a przełykow ˛a wyst ˛apiły dla samogłosek ’e’ oraz ’u’. W pracy wykonano<br />

tak˙ze analiz˛e składowych głównych przekrojów poprzecznych traktu głosowego.<br />

Wykonano uczenie sieci neuronowej rozpoznaj ˛acej sze´sć samogłosek polskich na<br />

podstawie dwóch pierwszych formantów. Dla mowy naturalnej b˛ed ˛acej zbiorem ucz ˛acym<br />

otrzymano wysok ˛a 98% skuteczno´sć rozpoznawania ka˙zdej z sze´sciu samogłosek polskich.<br />

W czasie symulacji sieci na zbiorze testowym dla mowy przełykowej skuteczno´sć ta wyniosła<br />

75%.<br />

4.2. Wyniki dla parametrów ekspresji twarzy<br />

Rysunki 4.1 pokazuj ˛a skuteczno´sć działania filtru ´sledz ˛acego elementy twarzy. Widać<br />

na nich, ˙ze wykorzystany algorytm jest silnie zale˙zny od warunków nagrania, a zwłaszcza<br />

od ró˙znic w wygl ˛adzie osób. Wra˙zliwy jest na takie czynniki jak długie włosy, noszenie brody<br />

lub zało˙zone okulary.<br />

W rozdziale 3.3 ukazano mo˙zliwo´sć rozpoznawania czterech klas samogłosek na podstawie<br />

samych parametrów wideo za pomoc ˛a sieci neuronowej. Parametry wizualne zawieraj ˛ace<br />

powierzchni˛e ust i szeroko´sć rozwarcia szcz˛eki podzieliły samogłoski na cztery grupy<br />

{’a’, ’e’}, {’i’, ’y’}, {’u’}, {’o’} . Sieć została nauczona na podstawie danych z grupy<br />

porównawczej i klasyfikowała dane ucz ˛ace ze skuteczno´sci ˛a 93%. Skuteczno´sć rozpoznawania<br />

grup samogłosek dla grup eksperymentalnych w przypadku mowy przełykowej wyniosła 77%<br />

a dla pseudoszeptu 75%. Otrzymano zbli˙zone wyniki skuteczno´sci rozpoznawania dla obu grup<br />

pacjentów.<br />

20


4.3. Badanie korelacji parametrów audio i wideo<br />

Okre´slone zostało powi ˛azanie analiz audio z parametrami wizualnymi dla mowy<br />

naturalnej i zast˛epczej. Przedstawione zostały analizy składowych głównych zmian przekrojów<br />

poprzecznych traktu głosowego w zale˙zno´sci od pacjentów i samogłosek. Porównano wyniki<br />

analiz parametrów wideo w przypadku kolejnych grup, kontrolnej, pseudoszeptu i mowy<br />

przełykowej. Dla parametrów audio i hybrydowych umieszczono porównanie wyników analiz<br />

składowych głównych mi˛edzy grup ˛a kontroln ˛a a eksperymentaln ˛a. Z poł ˛aczonych danych<br />

dla grupy K i grupy EZ wykonano porównanie składowych głównych w przypadku analiz<br />

samych przekrojów poprzecznych z parametrami hybrydowymi zawieraj ˛acymi dodatkowo SL<br />

oraz LJ. W przypadku analizy składowych głównych pól przekrojów traktu głosowego pole<br />

w pobli˙zu ´zródła fonacji przyj˛eto jako warto´sć stał ˛a, niezmienn ˛a dla wszystkich pacjentów<br />

i samogłosek.<br />

Wyniki analiz ładunków składowych głównych pokazuj ˛a, które parametry s ˛a ze sob ˛a<br />

skorelowane. W kierunku okre´slonym przez pierwsz ˛a składow ˛a główn ˛a najwi˛eksze zmiany<br />

widoczne s ˛a dla wszystkich przekrojów poprzecznych. Natomiast w kierunku wyznaczonym<br />

przez drug ˛a składow ˛a zmieniaj ˛a si˛e oba parametry wizualne.


Rysunek 4.1. Wyniki działania filtru FaceFilter ´sledz ˛acego oczy i obrys ust.<br />

22


5. Dyskusja<br />

W mowie przełykowej obszary wyst˛epowania samogłosek polskich na płaszczy´znie<br />

F 1 − F 2 układaj ˛a si˛e podobnie jak w mowie naturalnej. ´Swiadczy to o ich wła´sciwej<br />

artykulacji. Zaobserwowano jednak w tym przypadku, ˙ze warto´sci formantów dla trzech<br />

samogłosek s ˛a podwy˙zszone w porównaniu z mow ˛a naturaln ˛a na statystycznym poziomie<br />

istotno´sci. Na podstawie rezultatów mo˙zna stwierdzić, i˙z wyci˛ecie krtani i zast ˛apienie jej<br />

alternatywnym ´zródłem fonacji wpływa na charakterystyk˛e akustyczn ˛a traktu głosowego.<br />

Na przykładzie formantu F 1 stwierdzono, ˙ze skraca si˛e efektywna długo´sć traktu głosowego<br />

[24]. Wyniki analiz statystycznych formantów F 1 i F 2 oraz przekrojów poprzecznych<br />

pokazały, ˙ze w zale˙zno´sci od tego, czy analizowano formanty, czy te˙z przekroje poprzeczne,<br />

inne samogłoski zró˙znicowane były mi˛edzy grup ˛a kontroln ˛a a mow ˛a przełykow ˛a. Potwierdza<br />

to wpływ efektywnej długo´sci traktu głosowego na przesuni˛ecie si˛e formantów w wy˙zsze<br />

cz˛estotliwo´sci.<br />

Za pomoc ˛a konwencjonalnej metody wyznaczania cz˛estotliwo´sci formantowych nie udało<br />

si˛e wyznaczyć warto´sci dla pseudoszeptu. Pojawiaj ˛ace si˛e maksima widma zwi ˛azane były z<br />

szumami wydostaj ˛acymi si˛e z otworu tracheotomijnego i nie odzwierciedlały zmian kształtów<br />

traktu głosowego. Wi˛eksz ˛a rozró˙znialno´sć poszczególnych samogłosek dla pseudoszeptu<br />

uzyskano w przypadku zł ˛aczeń CV, lecz w tym przypadku ze wzgl˛edu na bardzo krótki czas<br />

trwania samogłosek nie udało si˛e zebrać wystarczaj ˛acej ilo´sci danych.<br />

Zmiany charakteru głosu po laryngektomii widoczne s ˛a przede wszystkim w cz˛estotliwo´sci<br />

podstawowej, której warto´sć obni˙za si˛e znacznie po zast ˛apieniu krtani ustami przełyku.<br />

Pomiary tonu podstawowego mowy przełykowej wykazały du˙zo ni˙zsze cz˛estotliwo´sci<br />

w porównaniu z mow ˛a naturaln ˛a. Wyznaczona ´srednia formantu F 0, wynosz ˛aca 50Hz, jest<br />

ni˙zsza od raportowanej w [27], gdzie otrzymano wynik równy 69Hz. Zakres zmienno´sci<br />

F 0 od 30 do 75Hz zawiera si˛e w danych raportowanym przez innych autorów. Według [1]<br />

ton przełykowy mo˙ze osi ˛agać cz˛estotliwo´sci od 32 do 233Hz. W przypadku rejestracji<br />

głosu pacjenci mówili swobodnie wytwarzaj ˛ac naturaln ˛a barw˛e głosu. Mo˙ze to ´swiadczyć,<br />

23


i˙z ni˙zsze cz˛estotliwo´sci tonu przełykowego s ˛a łatwiejsze do wytworzenia i bardziej naturalne<br />

dla pacjentów.<br />

Wyniki analizy składowych głównych zmian przekrojów poprzecznych traktu głosowego<br />

pokazały, ˙ze głównym czynnikiem wpływaj ˛acym na wielko´sci pól przekrojów jest przyj˛ecie<br />

jednego z nich jako wielko´sci znanej. Zauwa˙zono, ˙ze estymowane wymiary pól przekrojów<br />

poprzecznych traktu głosowego ró˙zni ˛a si˛e w znacznym stopniu od ich rzeczywistych<br />

odpowiedników.<br />

Algorytm ´sledzenia elementów twarzy jest silnie zale˙zny od warunków nagrania,<br />

a zwłaszcza od ró˙znic w wygl ˛adzie osób. Wra˙zliwy jest na takie czynniki jak długie włosy,<br />

noszenie brody lub zało˙zone okulary. Kompresja obrazów wpływa negatywnie na skuteczno´sć<br />

prezentowanych metod, powoduje przekłamania w kształcie wyznaczanych elementów twarzy,<br />

takich jak usta. Wielo´sć artefaktów powoduje wi˛eksze bł˛edy w estymacji linii symetrii z obrysu<br />

twarzy i jej elementów.<br />

Badania wykazały, ˙ze przy analizie pseudoszeptu dla głosek izolowanych ´scie˙zka wizualna<br />

daje o wiele lepsze efekty ni˙z analiza mowy. Wyniki eksperymentu ukazały du˙ze znaczenie<br />

pomiarów parametrów ekspresji twarzy przy analizie mowy patologicznej.<br />

Jak wykazały pomiary, sygnał wideo nie niesie ze sob ˛a wystarczaj ˛acej ilo´sci<br />

informacji, potrzebnej do rozpoznania ka˙zdej z samogłosek polskich. Mo˙ze być za to<br />

uzupełnieniem informacji akustycznej w warunkach zniekształcenia, b ˛ad´z zaszumienia sygnału<br />

mowy. Prezentowana metoda wprowadza znaczne polepszenie wska´zników skuteczno´sci<br />

rozpoznawania samogłosek w porównaniu z analiz ˛a samego toru audio, zwłaszcza dla<br />

pacjentów posługuj ˛acych si˛e pseudoszeptem.<br />

Uzyskane rezultaty klasyfikacji zbli˙zone s ˛a do skuteczno´sci rozpoznawania mowy<br />

bazuj ˛acego na współczynnikach akustycznych. Problemy z rozró˙znianiem dwóch par<br />

samogłosek {’a’, ’e’} oraz {’i’, ’y’}, wynikaj ˛a ze sposobu ich kształtowania polegaj ˛acym<br />

na innym poło˙zeniu j˛ezyka, nie maj ˛acym znacz ˛acego odzwierciedlenia w ruchach<br />

zewn˛etrznych cz˛e´sci twarzy.<br />

Nie stwierdzono istnienia bezpo´srednich korelacji mi˛edzy parametrami wideo<br />

a przekrojami poprzecznymi, choć w rzeczywisto´sci mo˙zna było si˛e ich spodziewać.<br />

Prawdopodobnie jest to spowodowane wadami metody wyznaczania przekrojów traktu<br />

ze współczynników predykcji. Wady te omówione zostały w [26]. Próba zało˙zenia,<br />

i˙z pole ostatniego przekroju poprzecznego traktu równe jest polu powierzchni otwarcia<br />

24


ust oraz korekcja pozostałych przekrojów proporcjonalnie do pierwszego nie przyniosła<br />

zadowalaj ˛acych rezultatów. Osi ˛agni˛ete nowe przekroje nie odpowiadały rzeczywistym<br />

przekrojom traktu.


6. Podsumowanie <strong>rozprawy</strong><br />

Przedstawiony system analizy mowy bezkrtaniowców, został opracowany<br />

z wykorzystaniem algorytmów ekstrakcji parametrów hybrydowych akustycznych i wideo.<br />

W przypadku analizy samogłosek mowy przełykowej wykazano przesuni˛ecie dwóch<br />

pierwszych formantów w wy˙zsze cz˛estotliwo´sci w porównaniu z mow ˛a naturaln ˛a. Ró˙znice<br />

na statystycznym poziomie istotno´sci osi ˛agni˛eto w przypadku głosek ’a’, ’o’ oraz ’u’. Zjawisko<br />

to zwi ˛azane jest ze skróceniem traktu głosowego u osób laryngektomowanych. Sprawia, i˙z w<br />

celu rozpoznawania samogłosek nale˙zy zastosować inne parametry klasyfikacji w zale˙zno´sci<br />

od rodzaju mowy, naturalnej lub przełykowej. Ni˙zsza rozpoznawalno´sć mowy zast˛epczej<br />

zwi ˛azana jest przede wszystkim z przesuni˛eciem cz˛estotliwo´sci formantowych. Wpływa te˙z<br />

na ni ˛a wi˛eksza nieregularno´sć, zniekształcenia oraz wi˛eksze szumy wyst˛epuj ˛ace w mowie<br />

bezkrtaniowców. Do systemu rozpoznawania mowy laryngektomowanych nale˙zy zastosować<br />

sieć neuronow ˛a nauczon ˛a na podstawie zbioru składaj ˛acego si˛e z próbek dla tego samego<br />

rodzaju mowy.<br />

Zaobserwowano ni˙zsz ˛a ´sredni ˛a cz˛estotliwo´sć podstawow ˛a F 0, ni˙z podawana w literaturze.<br />

Mimo, i˙z pomi˛edzy poszczególnymi pracami istniej ˛a zasadnicze ró˙znice, nie mo˙zna odrzucić<br />

mo˙zliwo´sci, ˙ze na wyniki wpływa zastosowanie własnej wersji algorytmu opartego na analizie<br />

macierzy kowariancji opisanego w rozdziale 3.1.2.<br />

Zostało stwierdzone, i˙z formanty samogłosek izolowanych w pseudoszepcie<br />

ustno-gardłowym s ˛a trudne do wykrycia ze wzgl˛edu na maskuj ˛acy efekt odgłosów oddychania<br />

w postaci szumów z otworu tracheotomijnego. Zaobserwowano wy˙zsz ˛a skuteczno´sć<br />

rozpoznawania samogłosek wyst˛epuj ˛acych w sylabach z poprzedzaj ˛acymi spółgłoskami.<br />

Niestety nie zebrano wystarczaj ˛acej liczby próbek, aby było mo˙zliwe porównanie statystyczne<br />

pseudoszeptu z mow ˛a naturaln ˛a lub przełykow ˛a.<br />

Zadaniem eksperymentu było zbadanie w jakim stopniu patologia narz ˛adu głosowego<br />

wpływa na ekspresj˛e mowy. W pracy potwierdzono tez˛e o niezmienno´sci ekspresji twarzy<br />

bezkrtaniowców ze wzgl˛edu na rodzaj mowy. Za pomoc ˛a sieci neuronowej klasyfikuj ˛acej<br />

grupy samogłosek ze wzgl˛edu na parametry wideo otrzymano zbli˙zone wyniki skuteczno´sci<br />

26


ozpoznawania dla obu grup pacjentów. Ró˙znica pomi˛edzy skuteczno´sci ˛a rozpoznawania<br />

w grupie posługuj ˛acej si˛e pseudoszeptem a mow ˛a przełykow ˛a wyniosła 2%. Parametry<br />

wideo uzupełniaj ˛a informacje akustyczn ˛a. Niweluj ˛a wpływ niedoskonało´sci pseudoszeptu.<br />

Zwi˛ekszaj ˛a skuteczno´sć rozpoznawania pseudoszeptu. Zaprezentowane wyniki badań ukazuj ˛a<br />

skuteczno´sć analizy ekspresji twarzy przy rozpoznawaniu samogłosek w pseudoszepcie<br />

ustno-gardłowym. Prezentowane metody mog ˛a być przydatne w poprawie zrozumiało´sci<br />

pseudoszeptu.<br />

Na podstawie informacji z obrazu wideo na temat otwarcia ust nie udało si˛e ustalić<br />

przekroju traktu głosowego na jego pocz ˛atku. Nie została potwierdzona bezpo´srednia zale˙zno´sć<br />

mi˛edzy współczynnikami akustycznymi a parametrami wideo. Na aktualnym etapie badań nie<br />

zostało wyeliminowane z modelu zało˙zenie o jednakowym, ostatnim przekroju poprzecznym<br />

u wszystkich osób. Zało˙zenie to wprowadza do modelu znaczny bł ˛ad.<br />

Warto wspomnieć, i˙z w przypadku rozpoznawania j˛ezyka polskiego badania znajduj ˛a si˛e<br />

na etapie pocz ˛atkowym [14]. W pracy wykorzystano bardzo obszerny materiał badawczy<br />

nagrań audio-wideo głosu osób laryngektomowanych. Dotychczas nie pojawiła si˛e praca<br />

badaj ˛aca tak du˙z ˛a grup˛e polskich pacjentów ze wzgl˛edu na parametry akustyczne mowy<br />

zwi ˛azane z ekspresj ˛a twarzy. W systemie zaimplementowano własn ˛a metod˛e ´sledzenia<br />

elementów twarzy, która po dopracowaniu powinna konkurować z innymi rozwi ˛azaniami.<br />

Jedynie subiektywne, statystyczne analizy słuchowe mog ˛a stwierdzić przydatno´sć<br />

opracowanych metod w poprawie zrozumiało´sci mowy patologicznej. Najwa˙zniejszym<br />

kryterium oceny zrozumiało´sci mowy jest liczba słów rozpoznawana przez osoby słuchaj ˛ace<br />

wypowiedzi ludzi laryngektomowanych. Niestety w dotychczasowych badaniach nie<br />

uwzgl˛edniono subiektywnych ocen zrozumiało´sci mowy. Kolejnym krokiem, jaki nale˙załoby<br />

podj ˛ać w pracy jest zweryfikowanie zaproponowanych wska´zników zrozumiało´sci mowy<br />

za pomoc ˛a znormalizowanych testów, w których mowa rozpoznawana jest przez grup˛e<br />

osób słuchaj ˛acy lub ogl ˛adaj ˛acych materiał badawczy. Subiektywne pomiary zrozumiało´sci<br />

mowy z wykorzystaniem materiału audiowizualnego (mówi ˛acej twarzy) były ju˙z wcze´sniej<br />

wykonywane [2].


Bibliografia<br />

[1] C. B. Angermeier and B. Weinberg. Some Aspects of Fundamental Frequency Control Esophageal<br />

Speakers. Journal of Speech and Hearing Research, 46:85–91, 1981.<br />

[2] J. Beskow, K. Elenius, and S. MacGlashan. Olga - a dialogue system with an animated talking<br />

agent. In Proceedings of EUROSPEECH’97, Rhodes, Greece, 1997.<br />

[3] W. Borodziewicz and K. Jaszczak. Cyfrowe przetwarzanie sygnałów. WNT, Warszawa, 1987.<br />

[4] D.H. Brown, F.J.M. Hilgers, J.C. Irish, and A.J.M. Balm. Potlaryngectomy voice rehabilitation:<br />

state of the art at the millenium. World J. Surg., 27:824–831, 2003.<br />

[5] T. Cervera, J. L. Miralles, and J. González A. Acoustical analysis of spanish vowels produced<br />

by laryngectomized subjects. Journal of Speech, Language, and Hearing Research, 44:988–996,<br />

2001.<br />

[6] J. M. Christensen and B. Weinberg. Vowel duration characteristics of esphageal speech. Journal<br />

of Speech and Hearing Research, 19:678–689, 1976.<br />

[7] B. Dalton, R. Kaucic, and A. Blake. Automatic Speechreeding Using Dynamic Contours, volume<br />

150 of NATO ASI. Series F, Computer and systems sciences, pages 373–382. Springer-Verlag,<br />

Berlin Heidelberg, 1996.<br />

[8] G. Fant. The relationship between area functions and the acoustic signal. Phonetica, 37:55–86,<br />

1980.<br />

[9] J. L. Flanagan. Speech Analysis, Synthesis and Perception. Springer-Verlag, New York, 2 edition,<br />

1972.<br />

[10] S. Haykin. Adaptive filter theory. Prentice Hall, Inc., Upper Saddle River, 1991.<br />

[11] M. Hołejko-S. Rehabilitacja głosu i mowy bezkrtaniowców metod ˛a wokalistyczn ˛a. Master’s<br />

thesis, Akademia Medyczna, Warszawa, 1971. praca dyplomowa.<br />

[12] R. A. Kazi, V. M. N. Prasad, J. Kanagalingam, C. M. Nutting, P. Clarke, P. Rhys-Evans, and K. J.<br />

Harrington. Assesment of the formant frequencies in normal and laryngectomized individuals<br />

using linear predictive coding. Journal of Voice, 21(6):661–8., 2007.<br />

[13] W. Klein, R. Plomp, and W. Pols. Vowel spectra, vowel spacer, and vowel identification. Journal<br />

of Acoustical Society of America, 48(4):999–1009, 1970.<br />

[14] M. Kubanek. METODA ROZPOZNAWANIA AUDIO-WIDEO MOWY POLSKIEJ W OPARCIU O<br />

UKRYTE MODELE MARKOWA. PhD thesis, Cz˛estochowa, 2005.<br />

28


[15] J. Luettin, N. A. Thacker, and S. W. Beet. Active Shape Models for Visual Speech Feature<br />

Extraction, volume 150 of NATO ASI. Series F, Computer and systems sciences, pages 383–390.<br />

Springer-Verlag, Berlin Heidelberg, 1996.<br />

[16] R. Myrick and R. Yantorno. Vocal tract modeling as related to the use of an artificial larynx.<br />

Bioengineering Conference, 1993., Proceedings of the 1993 IEEE Nineteenth Annual Northeast,<br />

pages 75–77, Mar 1993.<br />

[17] M. Nixon and A. Aguado. Feature Extraction & Image Processing. Newnes, Oxford, 2002.<br />

[18] W. Oktaba. Metody statystyki matematycznej w do´swiadczalnictwie. Państwowe Wydawnictwo<br />

Naukowe, Warszawa, 1980.<br />

[19] Panasonic. Service Manual, Digital Video Camcorder NV-DS65EGE. Matsushita Electric<br />

Industrial Co., Ltd., 2003.<br />

[20] M. Pence. Programming Microsoft DirectShow for Digital Video and Television. Microsoft<br />

Corporation, 2003.<br />

[21] R. Pietruch, M. Michalska, W. Konopka, and A. Grzanka. Methods for formant extraction<br />

in speech of patients after total laryngectomy. Biomedical Signal Processing and Control,<br />

1/2:107–112, 2006.<br />

[22] Rode. VideoMic Instruction Manual. Rode Microphones.<br />

[23] S. Saito. Speech Science and Technology. Ohmsha, Ltd., Tokyo, 1992.<br />

[24] M. Sisty and B. Weinberg. Formant frequency characteristics of esophageal speech. Journal of<br />

Speech and Hearing Research, 15:439–448, 1972.<br />

[25] R. Tadeusiewicz. Sygnał mowy. Wydawnictwa Komunikacji i Ł ˛aczno´sci, Warszawa, 1988.<br />

[26] H. Wakita. Normalization of vowels by vocal-tract length and its application to<br />

vowel identification. IEEE Transactions on Acoustics, Speech and Signal Processing,<br />

ASSP-25(2):183–192, April 1977.<br />

[27] Bernd Weinberg and Suzanne Bennett. Selected acoustic characteristics of esophageal speech<br />

produced by female laryngectomees. Journal of Speech and Hearing Research, 15:211–216,<br />

March 1972.<br />

[28] A. Zakrzewski, A. Pruszewicz, and H. Kubzdela. New articulation lists matched phonematically<br />

and structurally. Otolaryngol Pol., 25(3):297–306, 1971.<br />

[29] T. Zieliński. Od teorii do cyfrowego przetwarzania sygnałów. WEAIiE AGH, Kraków, 2002.<br />

29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!