autoreferat rozprawy doktorskiej - Politechnika Warszawska

POLITECHNIKA WARSZAWSKA 

Wydział Elektroniki 

i Technik Informacyjnych 

AUTOREFERAT ROZPRAWY 

DOKTORSKIEJ 

mgr in˙z. Rafał Pietruch 

Badanie zrozumiało´sci mowy u osób laryngektomowanych na 

podstawie obrazów akustycznych oraz ekspresji twarzy 

Warszawa 2009 

Promotor 

Prof. nzw. dr hab. in˙z. Antoni Grzanka

Streszczenie 

W pracy zaprezentowano metody i narz˛edzia do analizy wypowiedzi pacjentów po 

całkowitym wyci˛eciu krtani. Badania przeprowadzono u osób zdrowych i laryngektomowanych 

na podstawie zapisów sygnału mowy oraz nagrań wideo twarzy. Opracowany i prezentowany 

system badań parametrów głosu stosowany jest do wyznaczania post˛epów rehabilitacji 

foniatrycznej. Przeprowadzone analizy sygnału audio dotyczyły cz˛estotliwo´sci podstawowej, 

formantów F1 i F2 oraz czasu artykulacji sze´sciu samogłosek polskich. Napisany został 

program wizualizuj ˛acy widmo czasowo-cz˛estotliwo´sciowe mowy oraz ´sledz ˛acy parametry 

ekspresji twarzy. Wykonano tak˙ze analiz˛e parametrów ekspresji twarzy w czasie wypowiedzi. 

Wyznaczono szeroko´sć i wysoko´sć otwarcia ust oraz rozwarcie ˙zuchwy. Analizie poddano 

zapisy pochodz ˛ace od trzech grup osób posługuj ˛acych si˛e pseudoszeptem, mow ˛a zast˛epcz ˛a 

oraz głosem naturalnym. W pracy zaobserwowano i opisano wymierne ró˙znice mi˛edzy 

tymi trzema rodzajami głosu. Wykazano, ˙ze najwi˛eksza trudno´sć jest obserwowana podczas 

wypowiadania samogłosek izolowanych w pseudoszepcie. Natomiast w ekspresji nie 

znaleziono patologicznych oznak pooperacyjnych zarówno u pacjentów z wykształcon ˛a 

mow ˛a zast˛epcz ˛a jak i posługuj ˛acych si˛e pseudoszeptem. Wyniki ukazuj ˛a wielkie mo˙zliwo´sci 

wykorzystania ´scie˙zki wideo przy automatycznym rozpoznawaniu lub poprawie zrozumiało´sci 

głosu pooperacyjnego. 

Słowa kluczowe: analiza mowy, ekspresja twarzy, laryngektomia, zrozumiało´sć mowy 

zast˛epczej 

2

Spis tre´sci 

1. Wst˛ep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.1. Podstawy medyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.2. Cel pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.1. Model wytwarzania mowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.1.1. Mowa naturalna i przełykowa . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.1.2. Pseudoszept i model zakłóceń . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.2. Stanowisko pomiarowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.2.1. Mikrofon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.2.2. Kamera wideo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.2.3. Zapis nagrań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.3. Materiał badawczy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

3. Algorytmy i implementacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3.1. Metody analizy ´scie˙zki d´zwi˛ekowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3.1.1. Estymacja widma czasowo-cz˛estotliwo´sciowgo . . . . . . . . . . . . . . . . . 13 

3.1.2. ´Sledzenie formantów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3.1.3. Analiza statystyczna formantów . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3.2. Metody analizy ruchomych obrazów twarzy . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.2.1. Wyszukiwanie i ´sledzenie elementów twarzy . . . . . . . . . . . . . . . . . . . 15 

3.2.2. Ekstrakcja parametrów ekspresji . . . . . . . . . . . . . . . . . . . . . . . . . 16 

3.3. Rozpoznawanie samogłosek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

4. Wyniki eksperymentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

4.1. Analiza sygnału mowy bezkrtaniowców . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

4.2. Wyniki dla parametrów ekspresji twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

4.3. Badanie korelacji parametrów audio i wideo . . . . . . . . . . . . . . . . . . . . . . . 21 

5. Dyskusja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

3

6. Podsumowanie rozprawy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1. Wst˛ep 

Utrata krtani, a wi˛ec brak mo˙zliwo´sci porozumiewania si˛e głosem, jest dla wielu ludzi 

ci˛e˙zkim do zaakceptowania kalectwem. Zmienia całkowicie ˙zycie pacjentów przyczyniaj ˛ac 

si˛e do zmniejszenia aktywno´sci zawodowej oraz izolacji od społeczeństwa. Ogromn ˛a pomoc 

w zaakceptowaniu nowej sytuacji przynosi ponad wszystko skuteczna rehabilitacja głosu. 

Proponowana tematyka rozprawy doktorskiej dotyczy badania mowy osób po operacji 

usuni˛ecia krtani. W pracy podj˛eto si˛e zadania poł ˛aczenia ´scie˙zki d´zwi˛ekowej z obrazami 

ekspresji twarzy. Uwzgl˛edniono analiz˛e ruchów elementów twarzy podczas wypowiedzi 

bezkrtaniowców. Informacje wizualne odgrywaj ˛a znaczn ˛a rol˛e przy odbiorze i zrozumieniu 

głosu ludzkiego przez otoczenie. Zaproponowano metodyk˛e badań zmierzaj ˛ac ˛a do znalezienia 

zale˙zno´sci mi˛edzy ekspresj ˛a twarzy a mow ˛a, które mog ˛a znale´zć zastosowanie praktyczne 

podczas rehabilitacji i oceny zrozumiało´sci wypowiedzi pacjentów. 

Na cele pracy powstało stanowisko pomiarowe oraz oprogramowanie komputerowe. 

Oprogramowanie, które oznaczono skrótem AVW jest innowacyjn ˛a aplikacj ˛a komputerow ˛a 

do przetwarzania strumieni audio i wideo. Program mo˙ze być stosowany w rehabilitacji 

pacjentów po operacji krtani. 

1.1. Podstawy medyczne 

Rak krtani kończy si˛e najcz˛e´sciej jej cz˛e´sciowym lub całkowitym usuni˛eciem. Kalectwo 

to znacznie utrudnia, w wielu przypadkach uniemo˙zliwia, wytwarzanie d´zwi˛ecznego głosu. 

Mimo, i˙z patologia nie dotyka samych artykulatorów to zamyka ´zródło strumienia powietrza 

i fal akustycznych. Układ potrzebuje wtedy alternatywnego ´zródła energii. Układ rezonansowy, 

czyli nasada, jest nadal sprawny czynno´sciowo. 

Najprostsz ˛a form ˛a wytworzenia mowy przez pacjentów po operacji usuni˛ecia krtani 

jest wykształcenie pseudoszeptu ustno-gardłowego. Mowa ta wytwarzana jest za pomoc ˛a 

powietrza zawartego w jamie ustnej. Pseudoszept charakteryzuje si˛e brakiem d´zwi˛eczno´sci, 

a głoski wypowiadane przez chorego maj ˛a krótki czas trwania. Samogłoski praktycznie nie 

5

s ˛a wypowiadane ze wzgl˛edu na brak cz˛estotliwo´sci harmonicznych. Mowa ta charakteryzuje 

si˛e słab ˛a dynamik ˛a i jest mało zrozumiała przez otoczenie. Upo´sledzenie o tym charakterze 

znacznie komplikuje komunikowanie si˛e ludzi larynkektomowanych z otoczeniem. 

W mowie przełykowej rol˛e generatora drgań przejmuj ˛a fałdy ´sluzówki górnego odcinka 

przełyku. W tym miejscu powstaje gło´snia rzekoma czyli pseudogło´snia. Fale akustyczne 

powstaj ˛ace w pseudogło´sni podlegaj ˛a formowaniu w jamach rezonansowych przy pomocy 

ruchów narz ˛adów artykulacyjnych podobnie do mowy naturalnej. Niezb˛edne do artykulacji 

powietrze dostaje si˛e do gardła dolnego na drodze inspiracji lub połkni˛ecia [11, 4]. Nast˛epnie 

w wyniku fali antyperystaltycznej wypchni˛ete powietrze przeciska si˛e przez usta przełyku 

tworz ˛ac fonacj˛e. 

1.2. Cel pracy 

Poszukiwanie metod poprawy zrozumiało´sci nale˙zało zacz ˛ać od wypracowania 

wska´zników jako´sci interwencji pooperacyjnej. To wyznaczyło cel tej pracy, jakim jest 

znalezienie dobrych wska´zników stopnia zrozumiało´sci mowy poprzez poł ˛aczenie informacji 

uzyskanej z toru głosowego z obrazami wideo. W niniejszej pracy wykonano eksperymenty 

ł ˛acz ˛ace oba zbiory danych, wyznaczaj ˛ac wpływ ekspresji twarzy na parametry mowy 

zast˛epczej i pseudoszeptu. Prezentowane rozwi ˛azania stanowi ˛a baz˛e do wykonania urz ˛adzeń 

wykorzystuj ˛acych analizy wideo do poprawy zrozumiało´sci mowy ludzi po operacji wyci˛ecia 

krtani. W przyszło´sci implementacja sprz˛etowa cz˛e´sci omawianego systemu mo˙ze ułatwić 

swobodne komunikowanie si˛e bezkrtaniowców z otoczeniem. 

Celami niniejszej pracy były nast˛epuj ˛ace zadania: 

— opracowanie hybrydowego systemu analizy mowy bezkrtaniowców opieraj ˛acego si˛e 

na ´scie˙zce wideo oraz sygnale audio, 

— implementacja algorytmów ekstrakcji cech samogłosek polskich z uwzgl˛ednieniem mowy 

pacjentów po laryngektomii, 

— badania statystyczne charakteru głosu bezkrtaniowców i ró˙znic wzgl˛edem mowy naturalnej 

na podstawie obiektywnych parametrów, 

— ukazanie skuteczno´sci prezentowanych metod przy rozpoznawaniu i poprawie 

zrozumiało´sci mowy patologicznej. 

Metodologia pracy została oparta na nast˛epuj ˛acych tezach. 

6

— Patologia narz ˛adu mowy nie wpływa na sposób poruszania zewn˛etrznymi artykulatorami 

mowy i tym samym ekspresja twarzy u osób po laryngektomii pozostaje niezmieniona. 

— Parametry wideo uzupełniaj ˛a informacj˛e akustyczn ˛a, niweluj ˛a wpływ niedoskonało´sci 

mowy patologicznej, poprawiaj ˛a skuteczno´sć estymacji parametrów głosek oraz 

rozpoznawania mowy. 

Praca zawiera wyniki badań, uzyskane w ramach realizacji projektu badawczego 

promotorskiego numer N N518 0929 33, finansowanego przez Ministerstwo Nauki 

i Szkolnictwa Wy˙zszego.

2. Metodologia 

Model powstawania fali akustycznej w trakcie głosowym powinien ł ˛aczyć w sobie cechy 

mowy naturalnej i głosu ludzi laryngektomowanych. Pomiary wykonane w pracy, ograniczono 

do analiz sze´sciu podstawowych samogłosek polskich. Pozwoliło to na uproszczenie modelu i 

zastosowanie go dla dwóch rodzajów mowy, naturalnej i przełykowej. 

2.1. Model wytwarzania mowy 

W rozprawie doktorskiej do zamodelowania procesu wytwarzania mowy zastosowano 

znany szeroko w literaturze proces aurotegresji, którego współczynniki estymowane s ˛a 

z wykorzystaniem algorytmu adaptacyjnego. W przypadku formowania si˛e samogłosek 

zazwyczaj pomija si˛e wpływ jamy nosowej [5, 12]. Taki model pozwala na wykorzystanie 

szeroko stosowanej predykcji liniowej do wyznaczania parametrów filtru modeluj ˛acego 

trakt głosowy [25]. Filtr ma wtedy równanie procesu autoregresywnego (AR), w którym 

charakterystyk˛e widma wyznaczaj ˛a bieguny filtru. W modelu traktu głosowego przyj˛ete 

zostało, i˙z szum biały jest ´zródłem procesu autoregresji. Do wyznaczania parametrów modelu 

u˙zyto algorytmu adaptacyjnego WRLS [10]. 

2.1.1. Mowa naturalna i przełykowa 

W pracy podzielono trakt głosowy na N = 10 jednakowo długich elementów 

o ró˙znych przekrojach poprzecznych (podobnie jak w ksi ˛a˙zce [23]). W pracy pomini˛eto 

wpływ przestrzeni jam nosowych na kształtowanie charakterystyki sygnału mowy 

[9]. Wyprowadzenie równania elementu transmitancji traktu mo˙zna znale´zć w [23]. 

Przyporz ˛adkowanie współczynników odbicia do odpowiednich sekcji przedstawione jest w [8]. 

Uproszczony model tworzenia sygnału mowy pozwala na zastosowanie filtru kratowego 

estymuj ˛acego parametry traktu głosowego. Przy przekształcaniu współczynników odbicia 

na odpowiednie przekroje poprzeczne traktu głosowego, przyj˛eto, i˙z w miejscu powstawania 

fali akustycznej przekrój poprzeczny wynosi 1. W [3] autorzy zauwa˙zaj ˛a, i˙z rejon ten 

8

jest najmniej czuły na zmiany obj˛eto´sciowe w trakcie generowania mowy w porównaniu 

z pozostałymi elementami traktu. W pracy przyj˛eto, i˙z przy przej´sciu fali przez usta na zewn ˛atrz 

traktu głosowego nast˛epuje całkowite ujemne odbicie fali akustycznej (współczynnik odbicia 

wynosi 1). Filtr kratowy równowa˙zny jest filtrowi transwersalnemu. Przekształcenie mi˛edzy 

parametrami obu modeli opisane w [29]. Dla cz˛estotliwo´sci próbkowania 8kHz, przyj˛eto 

liczb˛e współczynników filtru równ ˛a 10. Na drodze mi˛edzy ustami a mikrofonem pomija si˛e 

wszelkie zjawiska odbicia fali. Przyjmuje si˛e jedynie opó´znienie sygnału, które mo˙zna pomin ˛ać 

w dalszych rozwa˙zaniach. Zaniedbuje si˛e tak˙ze charakterystyk˛e cz˛estotliwo´sciow ˛a mikrofonu. 

Miejscem wytwarzania zast˛epczych drgań w przypadku mowy zast˛epczej s ˛a usta przełyku. 

Podobnie jak dla mowy naturalnej ´zródło fali d´zwi˛ekowej znajduje si˛e na pocz ˛atku 

modelowanego traktu głosowego. Istnieje wi˛ec mo˙zliwo´sć zastosowania tego samego modelu 

tworzenia samogłosek jak w przypadku mowy naturalnej. 

2.1.2. Pseudoszept i model zakłóceń 

Proponowany model wyznaczania parametrów akustycznych jest niewystarczaj ˛acy 

w przypadku analizy pseudoszeptu. Dotyczy to szczególnie artykulacji głosek z jednoczesnym 

wydychaniem powietrza przez otwór tracheotomijny. W [21] autor wykazał konieczno´sć 

wyznaczania parametrów akustycznych samogłosek z poł ˛aczeń spółgłoska-samogłoska (CV). 

Tak˙ze w tym przypadku, zaproponowany model akustyczny nie odpowiada rzeczywistemu 

sposobowi tworzenia si˛e głosu, w którym ´zródłem fali d´zwi˛ekowej mog ˛a być ró˙zne 

artykulatory w zale˙zno´sci od wypowiadanej spółgłoski poprzedzaj ˛acej. 

W modelu nale˙załoby uwzgl˛ednić ruchome poło˙zenie ´zródła fali d´zwi˛ekowej wzdłu˙z 

traktu. Zjawisko to zostało zbadane w [16], gdzie zostały wskazane ró˙znice wzgl˛edem modelu 

mowy naturalnej. Autor wykazał, i˙z w tym przypadku na charakterystyk˛e mowy wpływaj ˛a 

w znacznym stopniu zera filtru głosowego. Dlatego dla dokładnego odzwierciedlenia procesów 

zachodz ˛acych w tym przypadku nale˙załoby zmienić model filtru na ARMA. 

Model traktu głosowego dla osób laryngektomowanych powinien uwzgl˛edniać wpływ 

otworu tracheotomijnego. Na podstawie widm samogłosek przedstawionych w [21] autor 

wyci ˛agn ˛ał wniosek, ˙ze cichy pseudoszept podczas wymawiania samogłosek zamaskowany 

jest szumami wydobywaj ˛acymi si˛e z rurki tracheotomijnej. Odgłosy oddychania, nakładaj ˛ac 

si˛e na mow˛e, czyni ˛a j ˛a mniej zrozumiał ˛a, dlatego wa˙zn ˛a umiej˛etno´sci ˛a bezkrtaniowców jest 

synchronizacja oddechu z mow ˛a. 

9

Przegl ˛ad stosowanych rurek tracheotomijnych pozwala na przyj˛ecie bardzo prostego 

modelu generacji szumu wydostaj ˛acego si˛e z tracheostomy. Szumy powstaj ˛a w wi˛ekszo´sci 

u wej´scia rurki podczas turbulencji powietrza dostaj ˛acego si˛e do jej wn˛etrza. Strumień 

powietrza oraz powstałe szumy przebywaj ˛a nast˛epnie długo´sć rurki LR o stałej ´srednicy 

by wydostać si˛e u jej wylotu na zewn ˛atrz. Taki prosty model generacji szumów pozwala 

nam przewidzieć widmo zakłóceń wydobywaj ˛acych si˛e z otworu. Widmo to powinno 

mieć maksima powtarzaj ˛ace si˛e w odst˛epach b˛ed ˛acych odwrotno´sci ˛a czasu potrzebnego 

na przebycie dwóch długo´sci rurki tracheotomijnej przez fal˛e d´zwi˛ekow ˛a. Równanie 2.1 

opisuje model kształtowania widma szumów powstaj ˛acych podczas turbulencji u wylotu rurki 

tracheotomijnej. 

2.2. Stanowisko pomiarowe 

He(z) = φ+ 

NR+1 (z) 

φ + 0 (z) = (1 + γ0)(1 + γNR ) 

1 + z −NRγ0γNR 

(2.1) 

Stanowisko pomiarowe wykorzystane na cele rozprawy doktorskiej powstało we 

współpracy z Zakładem Audiologii Foniatrii i Otoneurologii Uniwersytetu Medycznego 

w Łodzi. Słu˙zy ono do rejestracji nagrań audio-wideo bezkrtaniowców, wizualizacji próbek 

głosu oraz ´sledzenia ekspresji twarzy. Rejestracji nagrań wykonano w dwóch cz˛e´sciach. 

Pierwsz ˛a seri˛e nagrań wykonano w wyciszonej kabinie. W drugim etapie wykorzystano mały 

pokój z d´zwi˛ekochłonnymi drzwiami oraz szczelnym okienkiem mi˛edzy pokojem operatora. 

W pomieszczeniu z pierwszego etapu nagrań poziom sygnału wzgl˛edem szumów wahał si˛e 

w granicach 42±2dB (SNR). W modelu zostało przyj˛ete, ˙ze tor foniczny nie zniekształca 

charakterystyki sygnału w badanym zakresie cz˛estotliwo´sci (20Hz do 4kHz). W obu etapach 

nagrań kamera ustawiona była na statywie w odległo´sci 1.5 metra od siedz ˛acego pacjenta. 

Podczas rejestracji zoom kamery ustawiono tak, aby w czasie całego nagrania widoczna była 

cz˛e´sć twarzy pacjentów od wysoko´sci łuku brwiowego do podbródka. 

2.2.1. Mikrofon 

Mikrofon zewn˛etrzny podł ˛aczony został do kanału lewego wej´scia mikrofonowego kamery. 

Rejestracje mowy w zale˙zno´sci od etapów nagrań wykonano przy u˙zyciu trzech rodzajów 

mikrofonów. W pierwszej cz˛e´sci nagrań u˙zyto zewn˛etrznego mikrofonu elektretowego. 

10

Do zasilenia mikrofonu u˙zyto baterii 1.5V. W celu wytłumienia gło´snych fragmentów 

i przystosowania mocy sygnału do wej´scia kamery (wzmocnienie 20dB) zastosowano 

dodatkowy potencjometr. Mikrofon umieszczono w odległo´sci 12 ± 4cm od ust badanych 

osób. Po awarii skonstruowanego mikrofonu w czasie prowadzenia nagrań zdecydowano si˛e na 

u˙zycie dwóch mikrofonów wbudowanych w kamer˛e wideo, która znajdowała si˛e w odległo´sci 

1.5m od głowy pacjentów. Aby unikn ˛ać niespodziewanych awarii na cele drugiego etapu 

nagrań zakupiono mikrofon zewn˛etrzny dedykowany dla kamer wideo [22]. Ustawiono go 

w odległo´sci 20cm od kamery oraz w odległo´sci 1.5m od ust osób nagrywanych. Mikrofon 

wykorzystany w drugim etapie nagrań jest opisany w instrukcji [22]. 

2.2.2. Kamera wideo 

Nagrań dokonano za pomoc ˛a kamery cyfrowej Panasonic NV-DS63EGE [19]. 

Pozostawiono domy´slne ustawienia kamery z wyj ˛atkiem zbli˙zenia, które ustawiono tak, 

aby spełnić wymagania co do widoczno´sci całej twarzy pacjenta z jednoczesn ˛a minimalizacj ˛a 

obszaru tła. Dane zapisano na karcie MiniDV, z zapisanym d´zwi˛ekiem w formacie PCM 

z rozdzielczo´sci ˛a 16 bitów i cz˛estotliwo´sci ˛a próbkowania 48 kHz. Rozdzielczo´sć obrazu 

zapisanego na karcie w formacie AVI wynosiła 720x576. Uzyskano cz˛esto´sć od´swie˙zania 

równ ˛a 25fps. Kopiowania filmu z kamery na komputer wykonano przy u˙zyciu interfejsu 

IEEE1394. 

2.2.3. Zapis nagrań 

Nagrania zostały zarchiwizowane na płytach CD i DVD. Podzielone zostały na oddzielne 

pliki dla ka˙zdego pacjenta. W pierwszym etapie nagrania skomprymowane zostały do formatu 

MPEG2 w rozdzielczo´sci 352x288 pikseli. D´zwi˛ek o 16-bitowej kwantyzacji został poddany 

konwersji cz˛estotliwo´sci próbkowania z 48 do 8kHz. W tym przypadku zapis d´zwi˛eku 

uległ kompresji do formatu MPEG Audio (wersja 1, warstwa 2) bazuj ˛acym na modelu 

psychoakustycznym. 

2.3. Materiał badawczy 

W pracy wykorzystanych zostało 62 nagrań pacjentów po całkowitym usuni˛eciu krtani 

oraz 11 zdrowych osób z grupy kontrolnej. Materiał lingwistyczny stanowiły samogłoski 

11

izolowane oraz dodatkowo wybrane słowa jednosylabowe i dwusylabowe z list wg 

Zakrzewskiego, Pruszewicza i Kubzdeli [28]. Nale˙zy podkre´slić, ˙ze badania na cele 

prowadzonej pracy zostały zaakceptowane przez komisj˛e etyczn ˛a. Wszyscy pacjenci bior ˛acy 

udział w projekcie wyrazili zgod˛e na korzystanie z zebranych nagrań w celach naukowych.

3. Algorytmy i implementacja 

3.1. Metody analizy ´scie˙zki d´zwi˛ekowej 

W ramach pracy powstał program komputerowy o nazwie AVW. Jest to aplikacja, która 

analizuje zapis mowy z plików audio lub wideo. Analizie podlega tylko kanał lewy sygnału 

audio. Program wy´swietla widmo czasowo-cz˛estotliwo´sciowe w oknie w czasie odtwarzania 

pliku. Posiada szereg funkcjonalno´sci ułatwiaj ˛acych analiz˛e materiału. Aplikacja napisana 

została w j˛ezyku C++ za pomoc ˛a graficznego ´srodowiska programistycznego Visual C++. 

Program jest wielodokumentow ˛a aplikacj ˛a MFC korzystaj ˛ac ˛a z bibliotek DirectX 9.0 SDK 

[20]. Aplikacja AVW umo˙zliwia analiz˛e sygnałów mowy zapisanych w plikach w formatach 

WAV, AVI, MPEG. 

Pomiary na cele rozprawy obejmowały takie parametry artykulacji samogłosek, jak 

formanty F 1 i F 2 b˛ed ˛ace według [13] głównymi parametrami nosz ˛acymi informacj˛e 

o samogłoskach. 

Na cele rozprawy zaimplementowano skrypt w ´srodowisku MatLab wyznaczaj ˛acy 

cz˛estotliwo´sci podstawowe dla mowy naturalnej jak i przełykowej. Algorytm wykorzystuje 

pierwszy wiersz macierzy autokorelacji sygnału przefiltrowany z u˙zyciem filtru 

dolnoprzepustowego. 

3.1.1. Estymacja widma czasowo-cz˛estotliwo´sciowgo 

Odwrotny model traktu głosowego przekształcony jest do filtru transwersalnego opartego 

o liniow ˛a predykcj˛e. Mamy tu do czynienia z problemem wybielania sygnału, który sprowadza 

si˛e do znalezienia transmitancji filtru odwrotnego. Do wyznaczenia estymat współczynników 

zastosowano adaptacyjny algorytm rekurencyjny WRLS (z ang. Weighted Recursive Least 

Square) podany przez Haykin’a [10]. W algorytmie korzysta si˛e z kryterium LS, najmniejszych 

kwadratów. Z otrzymanej charakterystyki cz˛estotliwo´sciowej filtru, posiadaj ˛acego jedynie 

bieguny, obliczane s ˛a cz˛estotliwo´sci formantowe. W przypadku grupy kontrolnej sygnał mowy 

13

poddany był preemfazie z u˙zyciem filtru górnoprzepustowego o transmitancji Hpre(z) = 

1 − 0.9735z −1 . W przypadku mowy zast˛epczej wykonanie preemfazy nie jest wymagane 

ze wzgl˛edu na wyrównan ˛a charakterystyk˛e cz˛estotliwo´sciow ˛a ´zródła głosu przełykowego. 

3.1.2. ´Sledzenie formantów 

W pracy zastosowano algorytm Christensena [6] do znajdowania w widmie LPC kolejnych 

kandydatów na cz˛estotliwo´sci formantowe. Metoda polega na wyszukaniu minimów drugiej 

pochodnej widma. Maksymalna liczba kandydatów równa jest liczbie biegunów w modelu 

filtru głosowego i dla 10 współczynników filtra wynosi 5. Według [25] w pa´smie cz˛estotliwo´sci 

do 4kHz mog ˛a wyst ˛apić maksymalnie 4 formanty. Mo˙ze si˛e wi˛ec zdarzyć, ˙ze liczba 

kandydatów na formanty jest mniejsza lub wi˛eksza (maksymalnie o 1) od liczby szukanych 

formantów. Do odrzucenia kandydata b ˛ad´z przydzielenia mniejszej ilo´sci kandydatów 

do formantów zaimplementowany został algorytm najmniejszego kosztu przej´scia mi˛edzy 

kolejnymi warto´sciami formantów. Algorytm ten bierze pod uwag˛e cz˛estotliwo´sci kandydatów 

na formanty oraz ´srednie z warto´sci 9-ciu poprzednich formantów. 

3.1.3. Analiza statystyczna formantów 

Do wyznaczenia formantów dla wypowiedzianej samogłoski, nale˙zy wybrać 

reprezentatywny fragment nagrania. Najprostsz ˛a metod ˛a jest r˛eczne zaznaczenie 

na periodogramie granic samogłoski analizuj ˛ac widmo czasowo-cz˛estotliwo´sciowe i nat˛e˙zenie 

d´zwi˛eku. 

W programie AVW zaznaczony fragment mo˙ze być dalej automatycznie zaw˛e˙zony 

uwzgl˛edniaj ˛ac energi˛e sygnału. W niniejszej pracy zaimplementowano metod˛e wyznaczaj ˛ac ˛a 

w zaznaczonym fragmencie maksimum oraz minimum pochodnej energii sygnału po czasie. 

Punkt maksymalnej pochodnej powinien poprzedzać punkt minimalnej pochodnej a czas 

mi˛edzy obydwoma punktami powinien stanowić co najmniej połow˛e długo´sci zaznaczonego 

fragmentu. 

Z opisanej operacji wynikaj ˛a cztery zbiory punktów zmienno´sci poszczególnych 

formantów. Dla ka˙zdego formantu wyznaczany jest rozkład jego warto´sci w danym fragmencie, 

a z niego obliczana jest mediana oraz rozst˛ep mi˛edzykwartylowy. Mediana warto´sci formantów 

z odcinka czasowego brana jest pod uwag˛e jako warto´sć formantu dla wypowiadanej w danym 

momencie samogłoski. Warto´sć ta brana jest dalej do obliczeń statystycznych. 

14

3.2. Metody analizy ruchomych obrazów twarzy 

Poł ˛aczenie analizy sygnału mowy ze ´scie˙zk ˛a wideo jest coraz szerzej stosowan ˛a metod ˛a 

przy automatycznym rozpoznawaniu mowy w trudnych warunkach akustycznych [7, 14, 15]. 

Wykazano, i˙z przy zakłóceniach i szumach w torze audio, analiza wideo niesie ze sob ˛a wiele 

korzystnych informacji. 

Algorytmy lokalizacji elementów twarzy w obrazie i metody ´sledzenia zmian parametrów 

ekspresji zaimplementowano w formie filtra DirectShow doł ˛aczanego do systemu jako 

biblioteka dynamiczna. Zestaw funkcji filtra implementuje poszczególne kroki segmentacji 

obrazu w celu rozpoznania i umiejscowienia twarzy i ust. Filtr analizuje obraz podczas 

odtwarzania ´scie˙zki wideo i przesyła aktualne parametry do programu głównego. Jako 

deskryptory wizualne wybrano iloczyn wysoko´sci i szeroko´sci otwarcia ust oraz wielko´sć 

opisuj ˛ac ˛a rozwarcie ˙zuchwy. 

3.2.1. Wyszukiwanie i ´sledzenie elementów twarzy 

W systemie opracowanym przez autora rozprawy zaimplementowano własne metody 

lokalizacji elementów twarzy w obrazach. Obraz wst˛epnie przetworzony jest z przestrzeni 

RGB do HSV [17]. Dla kolejnych klatek wideo algorytm wyznacza charakterystyczne obszary. 

Dla ka˙zdego piksela wyznaczane s ˛a takie cechy, jak nat˛e˙zenie koloru czerwonego, stopień 

zaciemnienia, ruch odzwierciedlany poprzez lokalne ró˙znice mi˛edzy kolejnymi klatkami, 

ró˙znice mi˛edzy pikselami w pionie oraz poziomie. Ka˙zda z cech jest porównywana z warto´sci ˛a 

graniczn ˛a w celu jednoznacznego przydzielenia piksela do obszaru lub otoczenia. Warto´sć 

granicy ustalana jest dynamicznie tak, aby wielko´sci obszarów d ˛a˙zyły do zdefiniowanej 

proporcji w stosunku do całego obrazu. 

Do poprawnego działania algorytmu liczba pikseli dla ka˙zdego regionu powinna być 

stała dla wszystkich klatek. W zwi ˛azku z tym granice przyporz ˛adkowuj ˛ace ka˙zdy piksel 

do ka˙zdej z grup lub ich otoczeń, s ˛a dynamicznie zmieniane. Z góry zakłada si˛e, ˙ze histogramy 

s ˛a wyrównane dla wszystkich warto´sci. Warto´sci graniczne uaktualniane s ˛a liniowo wzgl˛edem 

bł˛edu b˛ed ˛acym ró˙znic ˛a mi˛edzy warto´sci ˛a zadan ˛a liczby pikseli a warto´sci ˛a otrzyman ˛a w 

aktualnej klatce. Przynale˙zno´sć piksela do elementu twarzy wyliczana jest jako warto´sć 

logiczna z przynale˙zno´sci do zbiorów b˛ed ˛acych sum ˛a logiczn ˛a pikseli zaczerwienionych i 

zró˙znicowanych w pionie plus ciemnych i poruszaj ˛acych si˛e. 

15

Obrys twarzy znajdowany jest z wykorzystaniem faktu, i˙z obszar twarzy stanowi 

najbardziej zaczerwieniony region obrazu i ograniczony jest konturem ró˙znicowym z lewej 

i prawej strony. Warunki te brane s ˛a pod uwag˛e przy zało˙zeniach dotycz ˛acych umiejscowienia 

i wielko´sci twarzy w obrazie oraz jednolitego białego tła. 

W celu wypełnienia luk dla wysoko´sci, gdzie obrys nie został znaleziony, obrysy poddane 

zostały filtracji z u˙zyciem filtru dolnoprzepustowego. Punkty lewego i prawego obrysu twarzy 

ł ˛aczone s ˛a nast˛epnie odcinkami. Z punktów ´srodkowych odcinków mi˛edzy prawym a lewym 

obrysem (dla poszczególnych wysoko´sci) za pomoc ˛a transformaty Hought’a [17] znajdowana 

jest linia główna symetrii obrysu twarzy. Punkty najbardziej oddalone od linii głównej 

s ˛a eliminowane, aby nie wprowadzały zaburzeń. Końcowe równanie linii symetrii twarzy 

estymowane jest za pomoc ˛a metody najmniejszych kwadratów. 

Linia symetrii obrysu głowy wykorzystana jest dalej do znajdowania punktów symetrii 

elementów twarzy. W tym celu tworzone s ˛a odcinki obrazu ograniczone przez kontur 

głowy i prostopadłe do symetrii obrysu twarzy. Dla ka˙zdego odcinka wyznacza si˛e wektor 

autokorelacji. Nast˛epnie znajdowany jest punkt b˛ed ˛acy ´srodkiem ci˛e˙zko´sci tego wektora. 

Nast˛epnie bada si˛e otoczenie punktu ci˛e˙zko´sci w badanym odcinku. Je´sli suma punktów 

otoczenia osi ˛aga zało˙zony pułap przyjmuje si˛e tzw. symetri˛e „nieparzyst ˛a”, oznaczaj ˛ac ˛a 

wyst˛epowanie nieparzystej liczby skupień obszarów symetrycznych. Je´sli suma punktów 

jest mniejsza od zadanej liczby, wtedy zakłada si˛e tzw. „parzyst ˛a” symetri˛e, która oznacza 

wyst˛epowanie parzystej liczby skupień obszarów symetrycznych. Ze znalezionych punktów 

symetrii dla ka˙zdego odcinka wylicza si˛e równanie linii symetrii twarzy w taki sam sposób jak 

dla symetrii obrysu. 

Znajdowanie konkretnych elementów twarzy nast˛epuje na podstawie informacji 

o pseudo-parzysto´sci punktów symetrii. Przykładowo usta powinny stanowić jeden obszar 

(nieparzysta liczba), a oczy dwa obszary (parzysta liczba). 

3.2.2. Ekstrakcja parametrów ekspresji 

Z modelu akustycznego znane s ˛a stosunki pomi˛edzy kolejnymi polami przekrojów 

poprzecznych. Aby podać wymiary traktu głosowego w jednostkach odpowiadaj ˛acym długo´sci, 

nale˙zy przyj ˛ać za wiadome jedno z pól przekroju. Przekrój pierwszego elementu traktu 

głosowego, czyli powierzchnia otwarcia ust SL, jest głównym elementem wideo maj ˛acym swój 

odpowiednik w parametrach akustycznych. Parametr ten podany jest w stosunku do kwadratu 

16

odległo´sci mi˛edzy oczyma osoby na obrazie L 2 0. Parametr L0 jest niezmienny i mo˙ze być łatwo 

zmierzony w jednostce długo´sci dla ka˙zdego pacjenta. Na potrzeby rozpoznawania samogłosek 

z parametrów wideo mierzono w pracy tak˙ze szeroko´sć rozwarcia ˙zuchwy LJ. Nie został 

jednak zaimplementowany ˙zaden algorytm do ´sledzenia tej warto´sci w obrazie wideo. Parametr 

ten nie jest wykorzystywany przy fuzji ze współczynnikami akustycznymi. 

Jako deskryptory wizualne {v1, v2} samogłosek wybrane zostały: iloczyn wysoko´sci (LH) 

i szeroko´sci (LW ) otwarcia ust oraz rozwarcie ˙zuchwy. Oba parametry znormalizowane zostały 

w stosunku do odległo´sci mi˛edzy oczyma pacjenta (L0) zgodnie z 3.1. 

v1 = 4LHLW 

L0 2 

v2 = LJ − LJ m 

L0 

− 1 

(3.1) 

Rozwarcie ˙zuchwy liczono jako przyrost odległo´sć od linii ł ˛acz ˛acej oczy do czubka brody 

(LJ) w stosunku do tej warto´sci w pozycji neutralnej (LJ m). 

Równocze´snie z automatycznym ´sledzeniem elementów twarzy pomiary parametrów 

wideo musiały być dodatkowo wykonane r˛ecznie. Klatki filmowe odpowiadaj ˛ace fragmentom 

akustycznym o tym samym czasie w ´scie˙zce wideo zapisywane były do plików obrazkowych. 

Za pomoc ˛a programu GIMP wykonano pomiary odległo´sci charakterystycznych twarzy (w 

pikselach) i znormalizowano wymiary do odległo´sci mi˛edzy oczyma nagrywanych osób. 

3.3. Rozpoznawanie samogłosek 

Do rozpoznawania samogłosek u˙zyto dwóch jednokierunkowych sieci neuronowych o 

dwóch wej´sciach. Dla parametrów akustycznych na wej´scie sieci podawano odpowiednio 

znormalizowane warto´sci formantów F1, F2 (3.2). 

a1 = 

a2 = 

F 2 

− 1.5 

1000 

F 1 

− 0.7 (3.2) 

1000 

Funkcj ˛a przej´scia w pierwszej warstwie była funkcja tansig. Na wyj´sciu sieci skorzystano z 

funkcji liniowej. Do uczenia sieci u˙zyto algorytmu propagacji wstecznej opartego na kryterium 

minimalizacji bł˛edu ´sredniokwadratowego (MSE). Obydwie sieci neuronowe dla parametrów 

audio i wideo zostały nauczone na podstawie danych z grupy kontrolnej tak, aby warto´sć 

17

na wyj´sciu sieci odpowiadaj ˛acym wypowiadanej samogłosce wyniosła 1 a na pozostałych 

wyj´sciach -1. Dla sieci klasyfikuj ˛acej samogłoski na podstawie deskryptorów akustycznych 

liczba wyj´sć sieci była równa liczbie samogłosek. W przypadku parametrów wideo liczba 

wyj´sć została zredukowana do czterech. Sieć nie potrafiła rozró˙znić samogłosek ’a’ od ’e’ oraz 

i od y, poniewa˙z parametry wideo przyjmowały podobne warto´sci przy ich wypowiadaniu. Dla 

ka˙zdej z podanych par przydzielono jedno z wyj´sć sieci.

4. Wyniki eksperymentów 

W rozdziale przedstawione zostały wyniki badań statystycznych charakteru 

głosu bezkrtaniowców. Uwzgl˛edniono ró˙znice mi˛edzy mow ˛a naturaln ˛a, przełykow ˛a 

a pseudoszeptem. Rezultaty zamieszczone w tej cz˛e´sci rozszerzaj ˛a dotychczasow ˛a wiedz˛e 

o informacje na temat skuteczno´sci analizy i rozpoznawania mowy w oparciu o parametry 

akustyczne oraz wizualne. Przedstawione s ˛a tak˙ze wzajemne korelacje tych hybrydowych 

parametrów. 

4.1. Analiza sygnału mowy bezkrtaniowców 

Wst˛epna analiza widmowa zapisów audio samogłosek w pseudoszepcie ukazała 

mi˛edzyosobnicze ró˙znice w widmach poszczególnych samogłosek. Widma nie wykazuj ˛a tak˙ze 

podobieństwa do widm wyliczonych dla odpowiednich samogłosek mowy naturalnej. Mo˙zna 

natomiast zauwa˙zyć podobieństwa w kształtach widm dla ró˙znych samogłosek w ramach 

wypowiedzi jednego pacjenta. 

Cz˛estotliwo´sci formantowe s ˛a w przybli˙zeniu harmonicznymi pierwszego formantu. 

Dla pacjenta posiadaj ˛acego rurk˛e tracheotomijn ˛a współczynniki proporcji poszczególnych 

cz˛estotliwo´sci formantów wynosz ˛a w przybli˙zeniu 1:2:3:4:5. Inny charakter widma 

otrzymujemy dla pacjenta nieposiadaj ˛acego rurki tracheotomijnej. W tym przypadku 

widmo samogłosek przesuni˛ete jest ku ni˙zszym cz˛estotliwo´sciom a współczynniki proporcji 

poszczególnych cz˛estotliwo´sci formantowych wynosz ˛a w przybli˙zeniu 1:3:5:7:9. 

´Srednia cz˛estotliwo´sć podstawowa wyniosła dla mowy przełykowej 50Hz a dla mowy 

naturalnej 165Hz. Zaobserwowano ni˙zsz ˛a ´sredni ˛a cz˛estotliwo´sć podstawow ˛a F 0, ni˙z 

podawana w literaturze. 

W celu udowodnienia statystycznych ró˙znic mi˛edzy cz˛estotliwo´sciami formantowymi F 1 

i F 2 dla poszczególnych samogłosek mi˛edzy grup ˛a kontroln ˛a a pacjentami wykorzystano test 

T 2 (t - kwadrat) Hotelling’a [18]. Ró˙znice na poziomie wiarygodno´sci p < 0.05 osi ˛agni˛eto 

w przypadku samogłosek ’a’, ’o’ oraz ’u’. W przypadku samogłoski ’a’ F 1 przesuwa si˛e 

19

ku górnym cz˛estotliwo´sciom o około 20%. W przypadku tej samogłoski osi ˛agni˛eto ró˙znic˛e 

w F 1 na poziomie istotno´sci statystycznej p < 0.02 oraz p < 0.005 dla F 2. 

Przy zało˙zeniu kołowych przekrojów poprzecznych tuby akustycznej traktu głosowego, 

wykonane zostały analizy statystyczne dotycz ˛ace ´srednic przekrojów wynikaj ˛acych 

bezpo´srednio ze współczynników modelu akustycznego. Analizy statystyczne ´srednic 

przekrojów poprzecznych traktu głosowego wykonano za pomoc ˛a testu T 2 Hotelling’a. Istotne 

statystycznie ró˙znice w przekrojach poprzecznych mi˛edzy grup ˛a kontroln ˛a a pacjentami 

posługuj ˛acymi si˛e mow ˛a przełykow ˛a wyst ˛apiły dla samogłosek ’e’ oraz ’u’. W pracy wykonano 

tak˙ze analiz˛e składowych głównych przekrojów poprzecznych traktu głosowego. 

Wykonano uczenie sieci neuronowej rozpoznaj ˛acej sze´sć samogłosek polskich na 

podstawie dwóch pierwszych formantów. Dla mowy naturalnej b˛ed ˛acej zbiorem ucz ˛acym 

otrzymano wysok ˛a 98% skuteczno´sć rozpoznawania ka˙zdej z sze´sciu samogłosek polskich. 

W czasie symulacji sieci na zbiorze testowym dla mowy przełykowej skuteczno´sć ta wyniosła 

75%. 

4.2. Wyniki dla parametrów ekspresji twarzy 

Rysunki 4.1 pokazuj ˛a skuteczno´sć działania filtru ´sledz ˛acego elementy twarzy. Widać 

na nich, ˙ze wykorzystany algorytm jest silnie zale˙zny od warunków nagrania, a zwłaszcza 

od ró˙znic w wygl ˛adzie osób. Wra˙zliwy jest na takie czynniki jak długie włosy, noszenie brody 

lub zało˙zone okulary. 

W rozdziale 3.3 ukazano mo˙zliwo´sć rozpoznawania czterech klas samogłosek na podstawie 

samych parametrów wideo za pomoc ˛a sieci neuronowej. Parametry wizualne zawieraj ˛ace 

powierzchni˛e ust i szeroko´sć rozwarcia szcz˛eki podzieliły samogłoski na cztery grupy 

{’a’, ’e’}, {’i’, ’y’}, {’u’}, {’o’} . Sieć została nauczona na podstawie danych z grupy 

porównawczej i klasyfikowała dane ucz ˛ace ze skuteczno´sci ˛a 93%. Skuteczno´sć rozpoznawania 

grup samogłosek dla grup eksperymentalnych w przypadku mowy przełykowej wyniosła 77% 

a dla pseudoszeptu 75%. Otrzymano zbli˙zone wyniki skuteczno´sci rozpoznawania dla obu grup 

pacjentów. 

20

4.3. Badanie korelacji parametrów audio i wideo 

Okre´slone zostało powi ˛azanie analiz audio z parametrami wizualnymi dla mowy 

naturalnej i zast˛epczej. Przedstawione zostały analizy składowych głównych zmian przekrojów 

poprzecznych traktu głosowego w zale˙zno´sci od pacjentów i samogłosek. Porównano wyniki 

analiz parametrów wideo w przypadku kolejnych grup, kontrolnej, pseudoszeptu i mowy 

przełykowej. Dla parametrów audio i hybrydowych umieszczono porównanie wyników analiz 

składowych głównych mi˛edzy grup ˛a kontroln ˛a a eksperymentaln ˛a. Z poł ˛aczonych danych 

dla grupy K i grupy EZ wykonano porównanie składowych głównych w przypadku analiz 

samych przekrojów poprzecznych z parametrami hybrydowymi zawieraj ˛acymi dodatkowo SL 

oraz LJ. W przypadku analizy składowych głównych pól przekrojów traktu głosowego pole 

w pobli˙zu ´zródła fonacji przyj˛eto jako warto´sć stał ˛a, niezmienn ˛a dla wszystkich pacjentów 

i samogłosek. 

Wyniki analiz ładunków składowych głównych pokazuj ˛a, które parametry s ˛a ze sob ˛a 

skorelowane. W kierunku okre´slonym przez pierwsz ˛a składow ˛a główn ˛a najwi˛eksze zmiany 

widoczne s ˛a dla wszystkich przekrojów poprzecznych. Natomiast w kierunku wyznaczonym 

przez drug ˛a składow ˛a zmieniaj ˛a si˛e oba parametry wizualne.

Rysunek 4.1. Wyniki działania filtru FaceFilter ´sledz ˛acego oczy i obrys ust. 

22

5. Dyskusja 

W mowie przełykowej obszary wyst˛epowania samogłosek polskich na płaszczy´znie 

F 1 − F 2 układaj ˛a si˛e podobnie jak w mowie naturalnej. ´Swiadczy to o ich wła´sciwej 

artykulacji. Zaobserwowano jednak w tym przypadku, ˙ze warto´sci formantów dla trzech 

samogłosek s ˛a podwy˙zszone w porównaniu z mow ˛a naturaln ˛a na statystycznym poziomie 

istotno´sci. Na podstawie rezultatów mo˙zna stwierdzić, i˙z wyci˛ecie krtani i zast ˛apienie jej 

alternatywnym ´zródłem fonacji wpływa na charakterystyk˛e akustyczn ˛a traktu głosowego. 

Na przykładzie formantu F 1 stwierdzono, ˙ze skraca si˛e efektywna długo´sć traktu głosowego 

[24]. Wyniki analiz statystycznych formantów F 1 i F 2 oraz przekrojów poprzecznych 

pokazały, ˙ze w zale˙zno´sci od tego, czy analizowano formanty, czy te˙z przekroje poprzeczne, 

inne samogłoski zró˙znicowane były mi˛edzy grup ˛a kontroln ˛a a mow ˛a przełykow ˛a. Potwierdza 

to wpływ efektywnej długo´sci traktu głosowego na przesuni˛ecie si˛e formantów w wy˙zsze 

cz˛estotliwo´sci. 

Za pomoc ˛a konwencjonalnej metody wyznaczania cz˛estotliwo´sci formantowych nie udało 

si˛e wyznaczyć warto´sci dla pseudoszeptu. Pojawiaj ˛ace si˛e maksima widma zwi ˛azane były z 

szumami wydostaj ˛acymi si˛e z otworu tracheotomijnego i nie odzwierciedlały zmian kształtów 

traktu głosowego. Wi˛eksz ˛a rozró˙znialno´sć poszczególnych samogłosek dla pseudoszeptu 

uzyskano w przypadku zł ˛aczeń CV, lecz w tym przypadku ze wzgl˛edu na bardzo krótki czas 

trwania samogłosek nie udało si˛e zebrać wystarczaj ˛acej ilo´sci danych. 

Zmiany charakteru głosu po laryngektomii widoczne s ˛a przede wszystkim w cz˛estotliwo´sci 

podstawowej, której warto´sć obni˙za si˛e znacznie po zast ˛apieniu krtani ustami przełyku. 

Pomiary tonu podstawowego mowy przełykowej wykazały du˙zo ni˙zsze cz˛estotliwo´sci 

w porównaniu z mow ˛a naturaln ˛a. Wyznaczona ´srednia formantu F 0, wynosz ˛aca 50Hz, jest 

ni˙zsza od raportowanej w [27], gdzie otrzymano wynik równy 69Hz. Zakres zmienno´sci 

F 0 od 30 do 75Hz zawiera si˛e w danych raportowanym przez innych autorów. Według [1] 

ton przełykowy mo˙ze osi ˛agać cz˛estotliwo´sci od 32 do 233Hz. W przypadku rejestracji 

głosu pacjenci mówili swobodnie wytwarzaj ˛ac naturaln ˛a barw˛e głosu. Mo˙ze to ´swiadczyć, 

23

i˙z ni˙zsze cz˛estotliwo´sci tonu przełykowego s ˛a łatwiejsze do wytworzenia i bardziej naturalne 

dla pacjentów. 

Wyniki analizy składowych głównych zmian przekrojów poprzecznych traktu głosowego 

pokazały, ˙ze głównym czynnikiem wpływaj ˛acym na wielko´sci pól przekrojów jest przyj˛ecie 

jednego z nich jako wielko´sci znanej. Zauwa˙zono, ˙ze estymowane wymiary pól przekrojów 

poprzecznych traktu głosowego ró˙zni ˛a si˛e w znacznym stopniu od ich rzeczywistych 

odpowiedników. 

Algorytm ´sledzenia elementów twarzy jest silnie zale˙zny od warunków nagrania, 

a zwłaszcza od ró˙znic w wygl ˛adzie osób. Wra˙zliwy jest na takie czynniki jak długie włosy, 

noszenie brody lub zało˙zone okulary. Kompresja obrazów wpływa negatywnie na skuteczno´sć 

prezentowanych metod, powoduje przekłamania w kształcie wyznaczanych elementów twarzy, 

takich jak usta. Wielo´sć artefaktów powoduje wi˛eksze bł˛edy w estymacji linii symetrii z obrysu 

twarzy i jej elementów. 

Badania wykazały, ˙ze przy analizie pseudoszeptu dla głosek izolowanych ´scie˙zka wizualna 

daje o wiele lepsze efekty ni˙z analiza mowy. Wyniki eksperymentu ukazały du˙ze znaczenie 

pomiarów parametrów ekspresji twarzy przy analizie mowy patologicznej. 

Jak wykazały pomiary, sygnał wideo nie niesie ze sob ˛a wystarczaj ˛acej ilo´sci 

informacji, potrzebnej do rozpoznania ka˙zdej z samogłosek polskich. Mo˙ze być za to 

uzupełnieniem informacji akustycznej w warunkach zniekształcenia, b ˛ad´z zaszumienia sygnału 

mowy. Prezentowana metoda wprowadza znaczne polepszenie wska´zników skuteczno´sci 

rozpoznawania samogłosek w porównaniu z analiz ˛a samego toru audio, zwłaszcza dla 

pacjentów posługuj ˛acych si˛e pseudoszeptem. 

Uzyskane rezultaty klasyfikacji zbli˙zone s ˛a do skuteczno´sci rozpoznawania mowy 

bazuj ˛acego na współczynnikach akustycznych. Problemy z rozró˙znianiem dwóch par 

samogłosek {’a’, ’e’} oraz {’i’, ’y’}, wynikaj ˛a ze sposobu ich kształtowania polegaj ˛acym 

na innym poło˙zeniu j˛ezyka, nie maj ˛acym znacz ˛acego odzwierciedlenia w ruchach 

zewn˛etrznych cz˛e´sci twarzy. 

Nie stwierdzono istnienia bezpo´srednich korelacji mi˛edzy parametrami wideo 

a przekrojami poprzecznymi, choć w rzeczywisto´sci mo˙zna było si˛e ich spodziewać. 

Prawdopodobnie jest to spowodowane wadami metody wyznaczania przekrojów traktu 

ze współczynników predykcji. Wady te omówione zostały w [26]. Próba zało˙zenia, 

i˙z pole ostatniego przekroju poprzecznego traktu równe jest polu powierzchni otwarcia 

24

ust oraz korekcja pozostałych przekrojów proporcjonalnie do pierwszego nie przyniosła 

zadowalaj ˛acych rezultatów. Osi ˛agni˛ete nowe przekroje nie odpowiadały rzeczywistym 

przekrojom traktu.

6. Podsumowanie rozprawy 

Przedstawiony system analizy mowy bezkrtaniowców, został opracowany 

z wykorzystaniem algorytmów ekstrakcji parametrów hybrydowych akustycznych i wideo. 

W przypadku analizy samogłosek mowy przełykowej wykazano przesuni˛ecie dwóch 

pierwszych formantów w wy˙zsze cz˛estotliwo´sci w porównaniu z mow ˛a naturaln ˛a. Ró˙znice 

na statystycznym poziomie istotno´sci osi ˛agni˛eto w przypadku głosek ’a’, ’o’ oraz ’u’. Zjawisko 

to zwi ˛azane jest ze skróceniem traktu głosowego u osób laryngektomowanych. Sprawia, i˙z w 

celu rozpoznawania samogłosek nale˙zy zastosować inne parametry klasyfikacji w zale˙zno´sci 

od rodzaju mowy, naturalnej lub przełykowej. Ni˙zsza rozpoznawalno´sć mowy zast˛epczej 

zwi ˛azana jest przede wszystkim z przesuni˛eciem cz˛estotliwo´sci formantowych. Wpływa te˙z 

na ni ˛a wi˛eksza nieregularno´sć, zniekształcenia oraz wi˛eksze szumy wyst˛epuj ˛ace w mowie 

bezkrtaniowców. Do systemu rozpoznawania mowy laryngektomowanych nale˙zy zastosować 

sieć neuronow ˛a nauczon ˛a na podstawie zbioru składaj ˛acego si˛e z próbek dla tego samego 

rodzaju mowy. 

Zaobserwowano ni˙zsz ˛a ´sredni ˛a cz˛estotliwo´sć podstawow ˛a F 0, ni˙z podawana w literaturze. 

Mimo, i˙z pomi˛edzy poszczególnymi pracami istniej ˛a zasadnicze ró˙znice, nie mo˙zna odrzucić 

mo˙zliwo´sci, ˙ze na wyniki wpływa zastosowanie własnej wersji algorytmu opartego na analizie 

macierzy kowariancji opisanego w rozdziale 3.1.2. 

Zostało stwierdzone, i˙z formanty samogłosek izolowanych w pseudoszepcie 

ustno-gardłowym s ˛a trudne do wykrycia ze wzgl˛edu na maskuj ˛acy efekt odgłosów oddychania 

w postaci szumów z otworu tracheotomijnego. Zaobserwowano wy˙zsz ˛a skuteczno´sć 

rozpoznawania samogłosek wyst˛epuj ˛acych w sylabach z poprzedzaj ˛acymi spółgłoskami. 

Niestety nie zebrano wystarczaj ˛acej liczby próbek, aby było mo˙zliwe porównanie statystyczne 

pseudoszeptu z mow ˛a naturaln ˛a lub przełykow ˛a. 

Zadaniem eksperymentu było zbadanie w jakim stopniu patologia narz ˛adu głosowego 

wpływa na ekspresj˛e mowy. W pracy potwierdzono tez˛e o niezmienno´sci ekspresji twarzy 

bezkrtaniowców ze wzgl˛edu na rodzaj mowy. Za pomoc ˛a sieci neuronowej klasyfikuj ˛acej 

grupy samogłosek ze wzgl˛edu na parametry wideo otrzymano zbli˙zone wyniki skuteczno´sci 

26

ozpoznawania dla obu grup pacjentów. Ró˙znica pomi˛edzy skuteczno´sci ˛a rozpoznawania 

w grupie posługuj ˛acej si˛e pseudoszeptem a mow ˛a przełykow ˛a wyniosła 2%. Parametry 

wideo uzupełniaj ˛a informacje akustyczn ˛a. Niweluj ˛a wpływ niedoskonało´sci pseudoszeptu. 

Zwi˛ekszaj ˛a skuteczno´sć rozpoznawania pseudoszeptu. Zaprezentowane wyniki badań ukazuj ˛a 

skuteczno´sć analizy ekspresji twarzy przy rozpoznawaniu samogłosek w pseudoszepcie 

ustno-gardłowym. Prezentowane metody mog ˛a być przydatne w poprawie zrozumiało´sci 

pseudoszeptu. 

Na podstawie informacji z obrazu wideo na temat otwarcia ust nie udało si˛e ustalić 

przekroju traktu głosowego na jego pocz ˛atku. Nie została potwierdzona bezpo´srednia zale˙zno´sć 

mi˛edzy współczynnikami akustycznymi a parametrami wideo. Na aktualnym etapie badań nie 

zostało wyeliminowane z modelu zało˙zenie o jednakowym, ostatnim przekroju poprzecznym 

u wszystkich osób. Zało˙zenie to wprowadza do modelu znaczny bł ˛ad. 

Warto wspomnieć, i˙z w przypadku rozpoznawania j˛ezyka polskiego badania znajduj ˛a si˛e 

na etapie pocz ˛atkowym [14]. W pracy wykorzystano bardzo obszerny materiał badawczy 

nagrań audio-wideo głosu osób laryngektomowanych. Dotychczas nie pojawiła si˛e praca 

badaj ˛aca tak du˙z ˛a grup˛e polskich pacjentów ze wzgl˛edu na parametry akustyczne mowy 

zwi ˛azane z ekspresj ˛a twarzy. W systemie zaimplementowano własn ˛a metod˛e ´sledzenia 

elementów twarzy, która po dopracowaniu powinna konkurować z innymi rozwi ˛azaniami. 

Jedynie subiektywne, statystyczne analizy słuchowe mog ˛a stwierdzić przydatno´sć 

opracowanych metod w poprawie zrozumiało´sci mowy patologicznej. Najwa˙zniejszym 

kryterium oceny zrozumiało´sci mowy jest liczba słów rozpoznawana przez osoby słuchaj ˛ace 

wypowiedzi ludzi laryngektomowanych. Niestety w dotychczasowych badaniach nie 

uwzgl˛edniono subiektywnych ocen zrozumiało´sci mowy. Kolejnym krokiem, jaki nale˙załoby 

podj ˛ać w pracy jest zweryfikowanie zaproponowanych wska´zników zrozumiało´sci mowy 

za pomoc ˛a znormalizowanych testów, w których mowa rozpoznawana jest przez grup˛e 

osób słuchaj ˛acy lub ogl ˛adaj ˛acych materiał badawczy. Subiektywne pomiary zrozumiało´sci 

mowy z wykorzystaniem materiału audiowizualnego (mówi ˛acej twarzy) były ju˙z wcze´sniej 

wykonywane [2].

Bibliografia 

[1] C. B. Angermeier and B. Weinberg. Some Aspects of Fundamental Frequency Control Esophageal 

Speakers. Journal of Speech and Hearing Research, 46:85–91, 1981. 

[2] J. Beskow, K. Elenius, and S. MacGlashan. Olga - a dialogue system with an animated talking 

agent. In Proceedings of EUROSPEECH’97, Rhodes, Greece, 1997. 

[3] W. Borodziewicz and K. Jaszczak. Cyfrowe przetwarzanie sygnałów. WNT, Warszawa, 1987. 

[4] D.H. Brown, F.J.M. Hilgers, J.C. Irish, and A.J.M. Balm. Potlaryngectomy voice rehabilitation: 

state of the art at the millenium. World J. Surg., 27:824–831, 2003. 

[5] T. Cervera, J. L. Miralles, and J. González A. Acoustical analysis of spanish vowels produced 

by laryngectomized subjects. Journal of Speech, Language, and Hearing Research, 44:988–996, 

2001. 

[6] J. M. Christensen and B. Weinberg. Vowel duration characteristics of esphageal speech. Journal 

of Speech and Hearing Research, 19:678–689, 1976. 

[7] B. Dalton, R. Kaucic, and A. Blake. Automatic Speechreeding Using Dynamic Contours, volume 

150 of NATO ASI. Series F, Computer and systems sciences, pages 373–382. Springer-Verlag, 

Berlin Heidelberg, 1996. 

[8] G. Fant. The relationship between area functions and the acoustic signal. Phonetica, 37:55–86, 

1980. 

[9] J. L. Flanagan. Speech Analysis, Synthesis and Perception. Springer-Verlag, New York, 2 edition, 

1972. 

[10] S. Haykin. Adaptive filter theory. Prentice Hall, Inc., Upper Saddle River, 1991. 

[11] M. Hołejko-S. Rehabilitacja głosu i mowy bezkrtaniowców metod ˛a wokalistyczn ˛a. Master’s 

thesis, Akademia Medyczna, Warszawa, 1971. praca dyplomowa. 

[12] R. A. Kazi, V. M. N. Prasad, J. Kanagalingam, C. M. Nutting, P. Clarke, P. Rhys-Evans, and K. J. 

Harrington. Assesment of the formant frequencies in normal and laryngectomized individuals 

using linear predictive coding. Journal of Voice, 21(6):661–8., 2007. 

[13] W. Klein, R. Plomp, and W. Pols. Vowel spectra, vowel spacer, and vowel identification. Journal 

of Acoustical Society of America, 48(4):999–1009, 1970. 

[14] M. Kubanek. METODA ROZPOZNAWANIA AUDIO-WIDEO MOWY POLSKIEJ W OPARCIU O 

UKRYTE MODELE MARKOWA. PhD thesis, Cz˛estochowa, 2005. 

28

[15] J. Luettin, N. A. Thacker, and S. W. Beet. Active Shape Models for Visual Speech Feature 

Extraction, volume 150 of NATO ASI. Series F, Computer and systems sciences, pages 383–390. 

Springer-Verlag, Berlin Heidelberg, 1996. 

[16] R. Myrick and R. Yantorno. Vocal tract modeling as related to the use of an artificial larynx. 

Bioengineering Conference, 1993., Proceedings of the 1993 IEEE Nineteenth Annual Northeast, 

pages 75–77, Mar 1993. 

[17] M. Nixon and A. Aguado. Feature Extraction & Image Processing. Newnes, Oxford, 2002. 

[18] W. Oktaba. Metody statystyki matematycznej w do´swiadczalnictwie. Państwowe Wydawnictwo 

Naukowe, Warszawa, 1980. 

[19] Panasonic. Service Manual, Digital Video Camcorder NV-DS65EGE. Matsushita Electric 

Industrial Co., Ltd., 2003. 

[20] M. Pence. Programming Microsoft DirectShow for Digital Video and Television. Microsoft 

Corporation, 2003. 

[21] R. Pietruch, M. Michalska, W. Konopka, and A. Grzanka. Methods for formant extraction 

in speech of patients after total laryngectomy. Biomedical Signal Processing and Control, 

1/2:107–112, 2006. 

[22] Rode. VideoMic Instruction Manual. Rode Microphones. 

[23] S. Saito. Speech Science and Technology. Ohmsha, Ltd., Tokyo, 1992. 

[24] M. Sisty and B. Weinberg. Formant frequency characteristics of esophageal speech. Journal of 

Speech and Hearing Research, 15:439–448, 1972. 

[25] R. Tadeusiewicz. Sygnał mowy. Wydawnictwa Komunikacji i Ł ˛aczno´sci, Warszawa, 1988. 

[26] H. Wakita. Normalization of vowels by vocal-tract length and its application to 

vowel identification. IEEE Transactions on Acoustics, Speech and Signal Processing, 

ASSP-25(2):183–192, April 1977. 

[27] Bernd Weinberg and Suzanne Bennett. Selected acoustic characteristics of esophageal speech 

produced by female laryngectomees. Journal of Speech and Hearing Research, 15:211–216, 

March 1972. 

[28] A. Zakrzewski, A. Pruszewicz, and H. Kubzdela. New articulation lists matched phonematically 

and structurally. Otolaryngol Pol., 25(3):297–306, 1971. 

[29] T. Zieliński. Od teorii do cyfrowego przetwarzania sygnałów. WEAIiE AGH, Kraków, 2002. 

29

autoreferat rozprawy doktorskiej - Politechnika Warszawska

Create successful ePaper yourself

Delete template?

Save as template?