13.07.2015 Views

Rozpoznawanie stanu emocjonalnego mówcy z wykorzystaniem ...

Rozpoznawanie stanu emocjonalnego mówcy z wykorzystaniem ...

Rozpoznawanie stanu emocjonalnego mówcy z wykorzystaniem ...

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Politechnice Łódzkiej [3], z kolei w Instytucie Telekomunikacji PW prowadzono prace nadodzwierciedleniem <strong>stanu</strong> <strong>emocjonalnego</strong> przy syntezie mowy [10].Badania dotyczące rozpoznawania emocji są bardzo róŜnorodne: róŜnią się one następującymiaspektami: zbiorami emocji, które są rozpoznawane; analizowanym materiałem badawczym (mowa spontaniczna lub nagrania aktorskie); zestawem wykorzystywanych parametrów sygnału mowy; jeŜeli przeprowadzana jest selekcja parametrów - sposobem ich selekcji; stosowanym algorytmem klasyfikacji.W następnych rozdziałach opisano szerzej te zagadnienia.2.1. Rozpoznawane emocjePsychologowie są w stanie wyróŜnić setki róŜnych stanów emocjonalnych. Systemyautomatycznego rozpoznawania emocji ograniczają się do zaledwie kilku-kilkunastu podstawowychemocji. JeŜeli system rozpoznaje jeden stan z zamkniętego zbioru enumeratywnie wymienionychemocji, wówczas mówimy o podejściu jednowymiarowym (skalarnym, dyskretnym). JeŜeli zaś systemrozpoznaje intensywność pewnych składników rozpoznawanych emocji, zwanych w literaturzeprymitywami, wówczas mamy do czynienia z podejściem wielowymiarowym (wektorowym). Obaprzypadki opisano poniŜej.2.1.1 Podejście jednowymiarowePowołując się na interpretacje psychologiczne (mające swe odzwierciedlenie takŜe w zestawieemocji w standardzie MPEG-4), w podejściu jednowymiarowym najczęściej rozpoznaje się emocjespośród następującej listy stanów (w nawiasach podano zwykle stosowane skróty, pochodzące z językaangielskiego): stan neutralny (ozn. N) – czyli brak zaangaŜowania <strong>emocjonalnego</strong>; złość (ozn. A – ang. anger); radość (H – happiness); smutek (S – sorrow); znudzenie (B – boredom); strach (F – fear).Taki inwentarz emocji (lub jego podzbiór) występuje najczęściej (np. [3],[9],[16]). Ponadto wwielu badaniach, dodatkowo lub jako zamienniki emocji z głównej listy, rozpoznaje się takŜe: poirytowanie (Ac – anger-cold); rozbawienie (Hc – happiness-cold); niesmak (D – disgust); zaskoczenie (Sur – surprise); niepokój (Anx – anxiety).Dodawane literki c (cold) lub h (hot) osłabiają lub wzmacniają podstawową emocję.Niektóre badania ograniczają się jedynie do rozpoznawania emocji pozytywnych i negatywnych[22].


2.1.2 Podejście wielowymiaroweW podejściu wielowymiarowym (wektorowym) bada się intensywność występowaniaposzczególnych składowych (prymitywów) emocji, często na ciągłej skali. W literaturze spotyka się naprzykład analizę 3-wymiarową, w której emocje umiejscawia się w przestrzeni, której poszczególnewspółrzędne to wartościowość (ang. valence), aktywacja (activation) i dominacja (dominance) [8].Inny sposób zdefiniowania przestrzeni emocji wykorzystano w pracy [16], gdzie poszczególnymiwymiarami były aktywacja, potencja i ewaluacja.Inne prace wykorzystują 2 wymiary, na przykład aktywność i wartościowość [19][20], takie teŜpodejście wykorzystano w niniejszej pracy. Rys. 1 przedstawia jedną z moŜliwych projekcjiposzczególnych stanów emocjonalnych na płaszczyznę aktywność-wartościowość.Rys. 1. Wizualizacja połoŜenia róŜnych stanów emocjonalnych na płaszczyźnie aktywnośćwartościowość.2.2. Materiały badawczeBazy nagrań uŜywane do badań moŜna podzielić na 2 grupy: bazy nagrań mowy spontanicznej; nagrania przygotowane z udziałem aktorów.Bazy mowy spontanicznej są trudne do utworzenia, natomiast zawierają bardzo cenny materiał –zbiór sygnału mowy odzwierciedlający naturalne reakcje emocjonalne mówców. Zwykle tworzy się je,prowokując odpowiednie reakcje (na przykład sterując scenariuszem gry komputerowej) albonagrywając mówców w naturalnych sytuacjach, takich jak np. rozmowa z dyspozytorem pomocymedycznej jak w [22] czy interakcja z robotem [20]. Nagrania te zawierają jednak zwykle tylko wąski


zbiór stanów emocjonalnych, nie zawsze są teŜ dobrej jakości (szum otoczenia, wpływ kanałutelekomunikacyjnego itp.).Nagrania aktorskie są zwykle staranne i dobrej jakości. Dzięki nim moŜemy łatwo uzyskaćnagrania, w których jeden mówca, a nawet ta sama wypowiedź występuje w róŜnych kontekstachemocjonalnych, co jest przydatne przy analizach. Przykładem takiej bazy jest baza emocji dla językaniemieckiego EMO-DB (Berlin Emotional Speech Database) [2], zawierająca 525 nagrańpochodzących od 10 mówców (5 męŜczyzn, 5 kobiet). Próbki sklasyfikowano na testowej grupiesłuchaczy, przypisując im 7 stanów emocjonalnych ze zbioru N, A, H, S, B, F, D. W [3] do nagrańwykorzystano 8 aktorów, którzy nagrali 240 zdań w 6 emocjach.2.3. Wykorzystywane parametryProces rozpoznawania emocji w głosie wymaga przeprowadzenia parametryzacji sygnału mowy, awięc zamiany go na wektor cech. Badania wpływu emocji na charakter sygnału mowy nie pozwoliłystworzyć jednego, uniwersalnego zbioru parametrów, właściwego dla rozpoznawania emocji. Wobectego najczęściej spotyka się podejście heurystyczne – z sygnału mowy wyodrębnia się jak największąliczbę opisujących go parametrów, a następnie z tej grupy eksperymentalnie lub za pomocąalgorytmów selekcji wybiera się zbiór, którego właściwości są najbardziej powiązane zodzwierciedlającymi się w głosie emocjami.Parametry ekstrahowane z sygnału mowy są najczęściej powiązane z: tonem krtaniowym (F0) (wartości: średnia, mediana, max, min, odchylenie standardowe,przedziały zmienności, ∆ i ∆2); energią sygnału (wartości: średnia, mediana, max, min, odchylenie standardowe, przedziałyzmienności, ∆ i ∆2); zaleŜnościami czasowymi sygnału mowy (tempo mówienia, stosunek mowy dźwięcznej dobezdźwięcznej i ciszy, liczba fragmentów dźwięcznych przypadających na jednostkę czasu); wartościami częstotliwości formantowych F1-F4 (wartości: średnia, mediana, max, min,przedziały zmienności, odchylenie standardowe, ∆ i ∆2, szerokości pasm formantów B1-B4); współczynnikami mel-cepstrum (MFCC - Mel Frequency Cepstral Coefficients), predykcjiliniowej (LPC - Linear Predictive Coefficients) i współczynnikami Log Frequency PowerCoefficients (LFPC); parametrami jakości głosu (voice quality) [16] (np. niedokładność zamknięcia krtani, momentywidmowe).2.4. Algorytmy selekcji parametrówPoniewaŜ wektor cech, ekstrahowanych z sygnału mowy, zawiera wiele parametrów, istnieje duŜeprawdopodobieństwo, Ŝe wiele z tych parametrów nie jest istotnych dla procesu rozpoznawania emocjilub wręcz pogarsza wyniki klasyfikacji. Aby ograniczyć zbiór cech i wybrać parametry najbardziejprzydatne dla procesu klasyfikacji, korzysta się z sekwencyjnych algorytmów selekcji. Do najbardziejznanych i najczęściej wykorzystywanych w badaniach (np. [8][16][19]) algorytmów naleŜą: Sekwencyjna selekcja postępująca (SFS - Sequential Forward Selection); Sekwencyjna selekcja wsteczna (SBS - Sequential Backward Selection); Sekwencyjna płynna selekcja postępująca (SFFS - Sequential Floating Forward Selection); Sekwencyjna płynna selekcja wsteczna (SFBS - Sequential Floating Backward Selection).Algorytmy selekcji postępującej zaczynają od pustego zbioru parametrów i sekwencyjniedokładają te cechy, które zapewniają największy poziom rozróŜnienia poszczególnych klas. Algorytmkończy swoje działanie, gdy osiągnie zakładaną liczbę parametrów lub gdy dokładanie kolejnych


parametrów nie polepsza znacząco dokładności dyskryminacji klas. Algorytmy selekcji wstecz działająw drugą stronę – zaczynają od pełnego zbioru parametrów i kolejno eliminują te parametry, które mająnajmniejszy wpływ na właściwą dyskryminację klas. Algorytmy selekcji płynnej pozwalają nadodatkowe sprawdzenie poprawności wybieranych parametrów. W algorytmie postępującym, pokaŜdym dołoŜeniu parametru przeprowadzana jest dodatkowa selekcja wstecz, aby sprawdzić czyodrzucenie któregoś z wcześniej wybranych parametrów nie poprawi dokładności klasyfikacji.Podobnie w algorytmie wstecz, po kaŜdym odrzuceniu parametru jest przeprowadzana dodatkowaselekcja postępująca, dla sprawdzenia czy dołoŜenie któregoś z parametrów wcześniej odrzuconych niezwiększy poziomu dyskryminacji klas.Wykorzystanie algorytmów selekcji parametrów, oprócz poprawienia dokładności klasyfikacji,pozwala takŜe na ograniczenie operacji obliczeniowych potrzebnych w procesie ekstrakcji parametrów,co pociąga za sobą skrócenie czasu pracy algorytmu klasyfikującego emocje.2.5. Algorytmy klasyfikacjiDo rozpoznawania emocji wykorzystuje się powszechnie stosowane algorytmy klasyfikacji ialgorytmy rozpoznawania wzorca, takie jak: algorytm k-najbliŜszych sąsiadów (k-NN) [11][24]; drzewa decyzyjne [24]; modele z liniową kombinacją rozkładów normalnych (Gaussian Mixture Models, GMM)[9][15]; ukryte modele Markowa (Hidden Markov Models, HMM) [11]; naiwny klasyfikator Bayesa [23]; sztuczne sieci neuronowe (ANN) [24]; maszynę wektorów wspierających (Support Vector Machine, SVM) [8][9][15][24].Algorytmem klasyfikacyjnym, często wykorzystywanym w najnowszych badaniach, dotyczącychrozpoznawania emocji, jest maszyna wektorów wspierających (Support Vector Machine) [1]. AlgorytmSVM określa sposób rozdzielenia dwóch klas obiektów w przestrzeni wielowymiarowej za pomocąoptymalnej hiperpłaszczyzny separującej. Hiperpłaszczyzna separująca jest optymalna, jeśli marginespomiędzy rozdzielanymi klasami jest jak największy. JeŜeli nie jest moŜliwe skonstruowanieoptymalnego separatora klas w przestrzeni, w której znajdują się obiekty (wektory cech), algorytmSVM konstruuje przestrzeń o większym wymiarze, w której klasy stają się liniowo separowane.W wypadku występowania większej liczby klas, stosowana jest metoda One-Against-All, w którejkaŜda z klas jest oddzielana własną hiperpłaszczyzną od zbioru pozostałych. W ten sposób wprzestrzeni powstają granice separujące poszczególne klasy.Metoda SVM pozwala na osiągniecie dobrych rezultatów klasyfikowania emocji. Badaniawykorzystujące róŜne algorytmy klasyfikacyjne pokazują, Ŝe SVM osiąga lepsze rezultaty odwiększości innych metod (zbliŜone wyniki osiąga tylko algorytm HMM). Skuteczność algorytmu, wzaleŜności od uŜytego materiału badawczego i zbioru parametrów, wyekstrahowanych z sygnałumowy, waha się od 50% do 90%. Jest teŜ zwykle sporo niŜsza dla systemów niezaleŜnych od mówcy.3. Materiał badawczyDo eksperymentów zdecydowano się wykorzystać dwie bazy nagrań: jedna to utworzona wramach tej pracy baza emocji spontanicznych (zwana dalej BES) oraz baza zawierająca nagraniaaktorskie – wspomniany wcześniej korpus EMO-DB.


W badaniach nad klasyfikacją jednowymiarową wykorzystano podzbiór bazy EMO-DB,zawierający 5 podstawowych emocji N, A, H, S, B. Liczbę nagrań zgromadzonych dla tych 5 emocjiprzedstawia Tabela 1.Stan emocjonalny N A H S BLiczba nagrań 79 126 71 62 81Tabela 1. Liczba nagrań przypisanych do poszczególnych emocji dla bazy EMO-DB.Dla badań nad klasyfikacją dwuwymiarową uŜyto wszystkich 525 nagrań – liczbę nagrańprzypisanych do poziomów aktywności i wartościowości obrazuje Tabela 2.Aktywność -2 -1 0 1 2Liczba nagrań 139 49 79 66 192Wartościowość -2 -1 0 1 2Liczba nagrań 252 47 158 12 56Tabela 2. Liczba nagrań przypisanych do poszczególnych poziomów aktywności i wartościowościdla bazy EMO-DB.Bazę emocji spontanicznych BES utworzono, przesłuchując dziesiątki godzin nagrań audycjiradiowych: reportaŜy Polskiego Radia, programów rozrywkowych, transmisji sportowych (równieŜ zTVP), a takŜe debat politycznych, pochodzących głównie z okresu kampanii przedwyborczej do Sejmuw roku 2007. Taki zestaw nagrań gwarantował spore nacechowanie emocjonalne mówców. Wyjściowyzbiór zawierał 600 nagrań o czasie trwania kilka-kilkanaście sekund, w których występowało 104mówców (53 męŜczyzn i 51 kobiet). Nagrania zapisano w formacie WAV 44,1 kHz / 16 bit. NaleŜypamiętać, Ŝe pliki wcześniej były kodowane koderem MP3, tak więc uŜyteczne przenoszone pasmobyło ograniczone do 16 kHz. W toku dalszej selekcji wybrano 370 nagrań o najlepszej jakości, toznaczy z małym szumem otoczenia i bez występowania dodatkowych głosów w nagraniu.Aby utworzyć zbiór danych odniesienia, przeprowadzono testy na słuchaczach, którychpoproszono o klasyfikację poszczególnych nagrań do jednej z 6 emocji (N, Ac, Ah, Hc, Hh, S). W tymcelu utworzono specjalną stronę internetową z odpowiednimi formularzami. Dane z formularzy byłygromadzone centralnie na serwerze. KaŜde z nagrań zostało ocenione przez co najmniej 20 osób iprzypisane do jednego <strong>stanu</strong> <strong>emocjonalnego</strong> na zasadzie głosowania. Dla celów klasyfikacjiwielowymiarowej z <strong>wykorzystaniem</strong> skali ciągłej informacja o proporcjach ocen słuchaczy byłazapisywana, gdyŜ później wpływała ona na połoŜenie danego nagrania na płaszczyźnie prymitywów.Do klasyfikacji jednowymiarowej wybrano 340 nagrań, które zostały najbardziej jednoznacznieocenione przez słuchaczy (co najmniej 60% zgodnych opinii co do występującej w nagraniu emocji).Rozkład emocji dla bazy BES przedstawia Tabela 3.Stan emocjonalny N Ac Ah Hc Hh SLiczba nagrań 67 46 40 74 47 66Tabela 3. Liczba nagrań przypisanych do poszczególnych emocji dla bazy BES.Natomiast do klasyfikacji dwuwymiarowej uŜyto wszystkie 370 próbek. Rozkład liczby próbek dlapoziomów aktywności i wartościowości prezentuje Tabela 4.


Aktywność -2 -1 0 1 2Liczba nagrań 24 54 110 142 40Wartościowość -2 -1 0 1 2Liczba nagrań 40 110 117 79 24Tabela 4. Liczba nagrań przypisanych do poszczególnych poziomów aktywności i wartościowościdla bazy BES.4. Proponowany system rozpoznawania emocjiCzerpiąc z przykładów innych badań, zdecydowano się ekstrahować z sygnału duŜą liczbęparametrów, aby później dokonać ich selekcji, biorąc pod uwagę poprawność klasyfikacji względemdanych odniesienia. Wśród wyliczanych parametrów znalazły się między innymi: częstotliwość F0 i wartości od niej pochodne (wartość średnia, minimalna, maksymalna, ∆ i ∆ 2całego zakresu zmienności F0, a takŜe przedziałów zawierających środkowe 95%, 90%, 80%,25% wszystkich wartości); energia (średnia, maksymalna, przedział zawierający 95%, 90%, 80%, 25% wartości); informacja o dźwięczności (stosunek między częścią harmoniczną i szumową, liczba zmiandźwięczności w jednostce czasu); połoŜenie i szerokość pasm formantów F1-F4; średnia, maksymalna i minimalna wartość kaŜdego z 12 parametrów mel-cepstrum (MFCC)oraz parametry dynamiczne; parametry jakości głosu – niedokładność zamknięcia krtani, gradienty widmowe (kierując sięobiecującymi wynikami z [16]).Parametry znormalizowano do przedziału (0,1). Wyliczając je posługiwano się skryptaminapisanymi w środowisku Matlab, z <strong>wykorzystaniem</strong> biblioteki Voicebox [26]. W sumie dla kaŜdegonagrania wyliczono 431 parametrów.Rys. 2. Rozmieszczenie rozpoznawanych emocji na płaszczyźnie aktywność-wartościowość.


Zdecydowano się wypróbować dwa sposoby klasyfikacji: jednowymiarowy (dyskretny) i 2-wymiarowy (ciągły) na płaszczyźnie aktywność-wartościowość. W podejściu 2-wymiarowymzaproponowano rozmieszczenie stanów emocjonalnych na płaszczyźnie aktywność-wartościowość jakna Rys. 2. W obu tych przypadkach jako algorytm klasyfikujący wykorzystano maszynę wektorówwspierających pochodzącą z OSU-SVM [27], wykorzystującą przekształcenie wielomianowe 3-ciegostopnia (stopień wielomianu dobrano eksperymentalnie).Do zawęŜenia zbioru parametrów wykorzystano algorytm Sequential Forward Selection (SFS)[21] zaimplementowany w bibliotece PRTools [7] w środowisku Matlab. Po zastosowaniu tegoalgorytmu zmniejszono liczbę wykorzystywanych parametrów z 431 do 37/38 (BES/EMO-DB) wpodejściu jednowymiarowym, zaś w podejściu 2-wymiarowym do 35/45 (BES/EMO-DB) dlaaktywności i 31/42 (BES/EMO-DB) dla wartościowości.5. Eksperymenty i ich rezultatyJako metodę testów wybrano 10-krotną walidację krzyŜową (ang. cross-validation) [13],polegającą na tym, Ŝe badany zbiór nagrań dzielimy na 10 zbiorów, a następnie 9 z nich traktujemyjako zbiór uczący, a jeden z nich uŜywamy do testowania poprawności rozwiązania. Podobniepostępujemy 10 razy, zmieniając zbiory testowe, na końcu zaś wyniki sumujemy. Dzieląc bazę BES nazbiory zadbano o to, Ŝeby w zbiorze testowym nie pojawiały się nagrania mówców, którzy byli wzbiorze uczącym – w ten sposób otrzymujemy warunki rozpoznawania niezaleŜnego od mówcy. TakŜedla bazy EMO-DB zastosowano metodę „leave-one-speaker-out”, czyli jednego mówcęwykorzystywano do testów, a pozostałymi uczono algorytm. KaŜde nagranie traktowano jako całość,bez dzielenia na segmenty.Wyniki rozpoznawania emocji dla podejścia jednowymiarowego przedstawia Tabela 5 – wyniki naprzekątnej oznaczają poprawność rozpoznania danego <strong>stanu</strong> <strong>emocjonalnego</strong>. W celu lepszegoporównania wyników, z bazy EMO-DB wykorzystano tylko podzbiór emocji, który pokrywał się zemocjami z bazy BES. Zgodnie z oczekiwaniem wyniki rozpoznawania dla bazy EMO-DB,zawierającej staranne nagrania aktorskie, są wyraźnie lepsze niŜ dla bazy BES, zawierającej „z Ŝyciawzięte” emocje spontaniczne. Średnia poprawność rozpoznania wyniosła 49,3% dla BES i aŜ 78,8%dla EMO-DB.BESEMO-DBN Ac Ah Hc Hh S N A H S BN 68,66% 10,45% 4,48% 11,94% 0,00% 4,48% N 82,05% 1,28% 7,69% 2,56% 6,41%Ac 13,04% 47,83% 13,04% 17,39% 6,52% 2,17% A 1,60% 79,20% 19,20% 0,00% 0,00%Ah 10,00% 35,00% 27,50% 20,00% 5,00% 2,50% H 0,00% 25,00% 73,53% 0,00% 1,47%Hc 20,27% 24,32% 8,11% 31,08% 6,76% 9,46% S 3,23% 0,00% 0,00% 85,48% 11,29%Hh 4,26% 8,51% 6,38% 21,28% 51,06% 8,51% B 11,25% 1,25% 7,50% 6,25% 73,75%S 1,52% 12,12% 3,03% 12,12% 1,52% 69,70%Tabela 5. Wyniki klasyfikacji emocji w podejściu jednowymiarowym.


Jak widać dla obu baz najlepiej rozpoznawanymi emocjami był smutek (69,70% i 85,48%,odpowiednio dla BES i EMO-DB), a takŜe stan neutralny (odpowiednio 68,66% i 85,05%).Stosunkowo często w bazie BES zdarzały się błędy w rozpoznaniu pomiędzy „odcieniami” złości (Ac iAh) oraz „odcieniami” radości (Hc i Hh), a takŜe między poirytowaniem a lekkim rozbawieniem (Ac iHc). TakŜe w bazie EMO-DB pomyłek między A i H było najwięcej.W podejściu 2-wymiarowym algorytm SVM klasyfikował wartości kaŜdego prymitywuoddzielnie. Tabela 6 przedstawia wyniki rozpoznawania dla bazy BES, zaś Tabela 7 dla bazy EMO-DB. W tym podejściu daje się zauwaŜyć, Ŝe najlepiej rozpoznawalne są wartości skrajne, na przykładaktywność +2 i -2 (odpowiednio 70,83% i 75% dla BES, 66,19% i 93,75% dla EMO-DB). RównieŜ wtym podejściu sporo jest pomyłek między „odcieniami”, zaznaczonymi cieniowaniem w tabelach – wdziedzinie prymitywów będą to pomyłki między -1 i -2, oraz +1 i +2. „Umiarkowane” wartościprymitywów (-1 i +1) stosunkowo często bywają teŜ rozpoznane jako stan neutralny (0). Średniawartość poprawności rozpoznania aktywności wyniosła 62% dla BES i 65% dla EMO-DB, natomiastwartościowości odpowiednio 53% i 51%. Wartości te rosną wyraźnie, gdy pominiemy rozróŜnianieodcieni – dla bazy BES wyniosą one 75,7% i 70,5% odpowiednio dla aktywności i wartościowości, adla bazy EMO-DB nawet 85,0% i 77,7%.BES – aktywnośćBES – wartościowość-2 -1 0 1 2 -2 -1 0 1 2-2 70,83% 25,00% 0,00% 4,17% 0,00% -2 65,00% 35,00% 0,00% 0,00% 0,00%-1 7,41% 59,26% 25,93% 7,41% 0,00% -1 8,18% 60,00% 25,45% 6,36% 0,00%0 0,00% 11,82% 60,00% 28,18% 0,00% 0 0,00% 28,21% 60,68% 11,11% 0,00%1 0,70% 0,70% 16,90% 76,76% 4,93% 1 1,27% 7,59% 26,58% 62,03% 2,53%2 0,00% 0,00% 2,50% 22,50% 75,00% 2 0,00% 0,00% 0,00% 12,50% 87,50%Tabela 6. Wyniki klasyfikacji emocji w podejściu dwuwymiarowym dla bazy BES.EMO-DB – aktywnośćEMO-DB – wartościowość-2 -1 0 1 2 -2 -1 0 1 2-2 66,19% 15,11% 14,39% 3,60% 0,72% -2 78,97% 4,76% 6,75% 0,40% 9,13%-1 20,41% 57,14% 8,16% 0,00% 14,29% -1 21,28% 44,68% 21,28% 0,00% 12,77%0 20,25% 7,59% 65,82% 3,80% 2,53% 0 12,03% 7,59% 75,95% 0,00% 4,43%1 4,55% 0,00% 10,61% 60,61% 24,24% 1 25,00% 0,00% 8,33% 8,33% 58,33%2 0,00% 1,56% 1,04% 3,65% 93,75% 2 26,79% 0,00% 5,36% 10,71% 57,14%Tabela 7. Wyniki klasyfikacji emocji w podejściu dwuwymiarowym dla bazy EMO-DB.


60%50%"BES""EMO-DB"40%% populacji30%20%10%0%0 1 1,41 2 2,24 2,83 3 3,16 4błąd rozpoznaniaRys. 3. Błąd rozpoznania na płaszczyźnie aktywność-wartościowość w podejściudwuwymiarowym.Warto równieŜ sprawdzić, czy błędy rozpoznania obu prymitywów zdarzają się dla tych samychpróbek, czy dla róŜnych. Okazało się (patrz Rys. 3), Ŝe odsetek idealnych rozpoznań (odległość napłaszczyźnie prymitywów równa 0) dla bazy BES wynosi 45%, a więc jest niŜsza niŜ dlaposzczególnych prymitywów, czyli Ŝe niestety błędy rozpoznań obu wymiarów nie pokrywają się.Tym niemniej moŜna dokonać operacji odwrotnej, czyli rozpoznanym parom prymitywówprzypisać enumeratywnie stan emocjonalny, inaczej mówiąc dokonać kwantyzacji płaszczyzny na 5emocji. Okazało się, Ŝe poprawność rozpoznania emocji w ten sposób wyniosła 58,9% dla bazy BES i62,7% dla EMO-DB, czyli wyraźnie poprawiła się względem podejścia jednowymiarowego dla bazyBES, natomiast znacznie się pogorszyła dla bazy EMO-DB.6. WnioskiTak jak wskazywały wyniki innych prac, rozpoznawanie stanów emocjonalnych na podstawiesygnału mowy jest duŜym wyzwaniem, a osiągane wyniki zwykle są dalekie od ideału –rozpoznawanie juŜ na poziomie 60-70% uwaŜa się za dobre. Przyczyna tego tkwi w mocnosubiektywnym charakterze odbioru emocji – duŜa niepewność pojawia się juŜ na etapie gromadzeniadanych referencyjnych. Badania [18] wskazują, Ŝe poprawność rozpoznania przez człowieka <strong>stanu</strong><strong>emocjonalnego</strong> nieznanego mówcy osiąga poziom zaledwie 60% i w tym kontekście naleŜy oceniaćskuteczność algorytmów rozpoznawania emocji niezaleŜnego od mówcy. Poza tym słuchacze mimowszystko mają tendencję do uwzględniania treści wypowiedzi przy ocenie emocji, podczas gdytestowany w tej pracy algorytm rozpoznawania oczywiście warstwy semantycznej nie uwzględnia.Osiągnięte wyniki pokazują, Ŝe algorytm wykorzystujący maszynę wektorów wspierających SVMna podstawie parametrów wyselekcjonowanych algorytmem sekwencyjnej selekcji postępującej SFS,okazał się przydatny do rozróŜniania stanów emocjonalnych w utworzonej bazie emocjispontanicznych BES dla języka polskiego. Osiągnięta poprawność rozpoznawania przy zastosowaniu


mapowania na 2-wymiarową przestrzeń aktywość-wartościowość to 58,9%. Stosując podejściejednowymiarowe uzyskano wynik znacznie gorszy: 49,3%.Wyniki te porównano z wynikami dla nagrań aktorskich w języku niemieckim – tu uzyskanopoprawność aŜ 78,8% przy podejściu jednowymiarowym (dla 5 emocji) ze względu na większąwyrazistość tych emocji niŜ w nagraniach naturalnych. Przy podejściu 2-wymiarowym poprawnośćrozpoznawania dla bazy EMO-DB okazała się gorsza: 66,5%. Przyczyną moŜe być pewna róŜnica winwentarzu stanów emocjonalnych w obu bazach: w odróŜnieniu od EMO-DB, w bazie BESwystępowały odcienie tej samej emocji (Ac, Ah oraz Hc, Hh) – w tym wypadku mapowanie na 2wymiary przyniosło poprawę.JeŜeli zawęzimy wymagania stawiane algorytmowi do rozpoznawania jedynie emocjipozytywnych/negatywnych, jak w [22], lub do rozpoznawania podwyŜszonej aktywności, jak pokazanow rozdziale 5, to wówczas poprawność rozpoznania rośnie wyraźnie i sięga 75,7% dla BES i nawet85% dla EMO-DB, a to pozwala z duŜą dokładnością wyselekcjonować nagrania zawierające złość iradość (na przykład jeśli chodzi o rozmowy z operatorem infolinii, to występuje ona duŜo rzadziej), dopóźniejszej weryfikacji przez człowieka.Dalsze prace nad tym zagadnieniem mogą uwzględniać eksperymenty z innym mapowaniememocji na płaszczyznę aktywność-wartościowość.7. Literatura1. C. Burges, A tutorial on Support Vector Machines for pattern recognition, Kluwer AcademicPublishers, 1998.2. F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, B. Weiss, A database of Germanemotional speech, in Proc. Eurospeech 2005, Lizbona, 2005.3. J. Cichosz, K. Ślot, Low-Dimensional Feature Space Derivation for Emotion Recognition,ICSES 2006, Łódź, 20064. E. Crane, C. Peter, A working definition for HCI specific emotion research, Emotion in HCI.Joint proceedings of the 2005, 2006, and 2007 International Workshops, ss. 62-69.5. R. Cowie et al., Emotion recognition in human-computer interaction, IEEE Signal ProcessingMagazine, 2001, 1 (18), ss. 32–80.6. Y. Dong-Mei, F. Jian-An, Research on a methodology to model speech emotion. Journal ofEngineering and Applied Sciences. 2007, 2 (8), ss. 1262-1267.7. R.P.W. Duin, P. Juszczak, P. Paclik, E. Pekalska, D. de Ridder, D.M.J. Tax, PRTools4. AMatlab Toolbox for Pattern Recognition, Delft University of Technology, February 2004.8. M. Grimm, K. Kroeschel, S. Narayanan, Support vector regression for automatic recognitionof spontaneous emotions in speech, In Proc. ICASSP 2007, IV: 1085-1088, 2007.9. H.Hu, M.-X. Xu, W.Wu, GMM supervector based SVM with spectral features for speechemotion recognition, in Proc. ICASSP 2007, IV: 413-416, 2007.10. A. Janicki, P. Dymarski, S. Kula, Modelowanie stanów emocjonalnych w syntezerze tekstowymmowy polskiej, Krajowe Sympozjum Telekomunikacji i Teleinformatyki (KSTiT 2005),Bydgoszcz, 2005.11. B. Kang, C. Han, S. Lee, D. Youn, C. Lee, Speaker Dependent Emotion Recognition UsingSpeech Signals, In Proc. ICSLP 2000.12. E. Kim, K. Hyun, S. Kim, Y. Kwak, Emotion Interactive Robot Focus on SpeakerIndependently Emotion Recognition, IEEE/ASME International Conference on AdvancedIntelligent Mechatronics, Zurich 2007.


13. R. Kohavi, A study of cross-validation and bootstrap for accuracy estimation and modelselection, in Proc. of the Fourteenth International Joint Conference on Artificial Intelligence 2(12): 1137–1143, Morgan Kaufmann, San Mateo, 1995.14. O. Kwon, K. Chan, J. Hao, T. Lee, Emotion Recognition by Speech Signals, in Proc. ofEurospeech, 2003.15. I. Luengo, E. Navas, I. Hernáez, J.Sánchez, Automatic Emotion Recognition using ProsodicParameters, In Proc. Eurospeech 2005, Lizbona, 2005.16. M. Lugger, B. Yang, The relevance of voice quality features in speaker independent emotionrecognition, in Proc. ICASSP 2007, IV: 17-20, 2007.17. V. Petrushin, Emotion recognition in speech signal: experiment, study, development andapplication, Proceedings of the Sixth International Conference on Spoken LanguageProcessing (ICSLP 2000), Pekin, 2000.18. K. Scherer, Vocal Communication of Emotion: A Review of Research Paradigms, in SpeechCommunication, 40(2003), 227-256, Elsevier 2003.19. B. Schuller, S. Reiter, R. Muller, M. Al-Hames, M. Lang, G. Rigoll, Speaker IndependentSpeech Emotion Recognition by Ensemble Classification, In Proc. ICME 2005.20. B. Schuller, D. Seppi, A. Batliner, A. Maier, S. Steidl, Towards more reality in the recognitionof emotional speech, In Proc. ICASSP 2007, IV: 941-944, 2007.21. D. Ververidis, C. Kotropoulos, Sequential forward feature selection with low computationalcost, In Proc. EUSIPCO 2005.22. L. Vidrascu, L. Devillers, Detection of real-life emotions in call centers, in Proc. Eurospeech2005, Lizbona, 2005.23. T. Vogt, E. Andre, Comparing Feature Sets for Acted and Spontaneous Speech in View ofAutomatic Emotion Recognition, In Proc. ICME 2005.24. S. Yacoub, S. Simske, X. Lin, J. Burns, Recognition of Emotions in Interactive Voice ResponseSystems, In Proc. EUROSPEECH 2003.25. D.Yu, J. Fang, Research on a methodology to model speech emotion, Proceedings of the 2007International Conference on Wavelet Analysis and Pattern Recognition, Pekin, 2007.26. http://www.ee.imperial.ac.uk/hp/staff/dmb/voicebox/voicebox.html, 26.05.2008.27. http://svm.sourceforge.net/docs.shtml, 26.05.2008.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!