Wykrywanie i Åledzenie twarzy na obrazie z kamery

POLITECHNIKA WROCŁAWSKAWYDZIAŁ ELEKTRONIKIKierunek:Specjalność:Automatyka i Robotyka (AiR)Robotyka (ARR)PRACA DYPLOMOWAMAGISTERSKAWykrywanie i śledzenie twarzy naobrazie z kamery.Face detection and tracking on a camera image.Autor:Łukasz KucharczykProwadzący pracę:dr inż. Marek Wnuk, Instytut Informatyki,Automatyki i RobotykiOcena pracy:WROCŁAW 2011

Dziękuję Panu Dr. MarkowiWnukowi za pomoc, poświęconyczas i cierpliwość.

Spis treściWstęp 51 Przegląd algorytmów wykrywania twarzy 91.1 Detekcja z wykorzystaniem wzorców . . . . . . . . . . . . . . . . . . . . . 91.1.1 Tworzenie szablonu twarzy . . . . . . . . . . . . . . . . . . . . . . . 91.1.2 Wykrywanie twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1.3 Przyśpieszanie algorytmów opartych na wzorcach . . . . . . . . . . 111.2 Wykrywanie twarzy z wykorzystaniem aktywnych konturów . . . . . . . . 111.2.1 Przypadek ciągły . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2.2 Rozwinięcie wyrażeń przypadku ciągłego . . . . . . . . . . . . . . . 121.2.3 Wykorzystanie aktywnych konturów w wykrywaniu twarzy . . . . . 131.3 Wykorzystanie kaskad wzorców . . . . . . . . . . . . . . . . . . . . . . . . 141.3.1 Cechy charakterystyczne . . . . . . . . . . . . . . . . . . . . . . . . 141.3.2 Obraz scałkowany . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.3 Uczenie klasyfikatora . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3.4 Kaskada klasyfikatorów . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.5 Trenowanie kaskady klasyfikatorów . . . . . . . . . . . . . . . . . . 181.4 Algorytm PittPatt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4.1 Obliczanie wartości cech charakterystycznych . . . . . . . . . . . . 181.4.2 Transformacja falkowa . . . . . . . . . . . . . . . . . . . . . . . . . 191.4.3 Wykorzystanie sieci bayesowskich . . . . . . . . . . . . . . . . . . . 202 Detekcja twarzy w oparciu o wykrywanie obszarów o kolorze skóry 232.1 Kompensacja oświetlenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1.1 Korekcja kolorów . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2 Wykrycie pikseli o kolorze skóry . . . . . . . . . . . . . . . . . . . . . . . . 242.2.1 Nieliniowa transformacja chrominancji . . . . . . . . . . . . . . . . 252.3 Detekcja oczu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4 Detekcja ust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.5 Końcowa weryfikacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.5.1 Segmentacja obszarów o kolorze skóry . . . . . . . . . . . . . . . . . 292.5.2 Ekstrakcja położenia oczu . . . . . . . . . . . . . . . . . . . . . . . 292.5.3 Ekstrakcja położenia ust . . . . . . . . . . . . . . . . . . . . . . . . 302.5.4 Weryfikacja istnienia twarzy . . . . . . . . . . . . . . . . . . . . . . 303 Implementacja algorytmu 333.1 Pierwszy etap implementacji algorytmu . . . . . . . . . . . . . . . . . . . . 333.1.1 Korekcja gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.2 Korekcja barw . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2 SPIS TREŚCI3.1.3 Wykrycie koloru skóry . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.4 Segmentacja wykrytych obszarów skóry . . . . . . . . . . . . . . . . 363.1.5 Wykrywanie oczu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.6 Wykrywanie ust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2 Nakładka graficzna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3 Drugi etap implementacji algorytmu . . . . . . . . . . . . . . . . . . . . . 413.4 Aplikacja stworzona w trakcie drugiego etapu implementacji . . . . . . . . 443.4.1 Problem opóźnienia przy pobieraniu obrazu z kamery . . . . . . . . 454 Badania 494.1 Pierwsza wersja biblioteki . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.1.1 Współrzędne elipsy na płaszczyźnie C b C r . . . . . . . . . . . . . . 504.2 Druga wersja biblioteki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2.1 Parametr gammaGlobCorr . . . . . . . . . . . . . . . . . . . . . . . 524.2.2 Parametr lightCorrCoef . . . . . . . . . . . . . . . . . . . . . . . 524.2.3 Parametr maxSkinAreaRatio . . . . . . . . . . . . . . . . . . . . . 554.2.4 Parametr minSkinContourRatio . . . . . . . . . . . . . . . . . . . 554.2.5 Parametr firstErosion . . . . . . . . . . . . . . . . . . . . . . . . 554.2.6 Parametr extensionRatio . . . . . . . . . . . . . . . . . . . . . . . 554.2.7 Parametry eyesMergeRatio i lipsMergeRatio . . . . . . . . . . . 564.2.8 Parametry eyeMouthDistCoef i eyeEyeDistCoef . . . . . . . . . . 564.2.9 Parametr maxLipsNormalDistRatio . . . . . . . . . . . . . . . . . 564.2.10 Parametry eyesLumMapGammaCorr i eyesColMapGammaCorr . . . . . 604.2.11 Parametr eyesMaskErodeRatio . . . . . . . . . . . . . . . . . . . . 604.2.12 Parametr eyesLipsMaskCoef . . . . . . . . . . . . . . . . . . . . . 604.2.13 Parametr eyesCutoff . . . . . . . . . . . . . . . . . . . . . . . . . 604.2.14 Podsumowanie badań dotyczących samodzielnie zaimplementowanegoalgorytmu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.3 Algorytm oparty na kaskadach klasyfikatorów Haara . . . . . . . . . . . . . 644.3.1 Parametr HaarScale . . . . . . . . . . . . . . . . . . . . . . . . . . 654.3.2 Parametr HaarMinNeigh . . . . . . . . . . . . . . . . . . . . . . . . 654.3.3 Parametr scale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.3.4 Parametry HaarMinWidth i HaarMinHeight . . . . . . . . . . . . . 684.3.5 Wykorzystanie biblioteki TBB . . . . . . . . . . . . . . . . . . . . 684.3.6 Wnioski z przeprowadzonych badań . . . . . . . . . . . . . . . . . . 714.4 PittPatt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.4.1 Parametr Minimum Size . . . . . . . . . . . . . . . . . . . . . . . . 744.4.2 Parametr Maximum Size . . . . . . . . . . . . . . . . . . . . . . . . 744.4.3 Parametr Search Prunning . . . . . . . . . . . . . . . . . . . . . . . 744.4.4 Parametr Search Threshold . . . . . . . . . . . . . . . . . . . . . . . 774.4.5 Liczba wątków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.4.6 Śledzenie twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 814.4.7 Wnioski z przeprowadzonych badań . . . . . . . . . . . . . . . . . . 824.5 Porównanie trzech algorytmów . . . . . . . . . . . . . . . . . . . . . . . . . 82Podsumowanie 85

SPIS TREŚCI 3A Analiza map oczu i ust, wykrywanie twarzy 87A.1 Ekstrakcja oczu i ust na podstawie map . . . . . . . . . . . . . . . . . . . 87A.2 Weryfikacja istnienia twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . 88A.2.1 Obliczenie wag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89B Segmentacja i wyznaczanie konturów sylwetek na obrazie 91B.1 Algorytm wyznaczania konturów . . . . . . . . . . . . . . . . . . . . . . . 91B.1.1 Algorytm segmentacji . . . . . . . . . . . . . . . . . . . . . . . . . 91C Opis środowiska 93D Implementacja skryptów ułatwiających tworzenie pracy 95D.1 Budowanie pliku wynikowego . . . . . . . . . . . . . . . . . . . . . . . . . 95D.2 Przeprowadzanie badań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96D.3 Pomiary czasu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

WstępWykrywanie, śledzenie i rozpoznawanie twarzy stało się w ostatnich latach ważnągałęzią przetwarzania obrazów i znajduje zastosowanie w wielu dziedzinach:Robotyka, roboty społeczne Przykładem robota społecznego wykorzystującego wykrywanietwarzy może być Samuel stworzony na Politechnice Wrocławskiej. Omawianafunkcjonalność jest niezbędna, aby robot mógł wykryć obecność człowieka,rozpocząć z nim interakcję, określić ile osób znajduję się w jego pobliżu [9].Klasyfikacja emocji na podstawie obrazu twarzy (facial expression). Implementacjatego rodzaju funkcjonalności przydatna może być we wszelkiego rodzaju aplikacjachzawierających element interakcji człowieka z komputerem, a więc na przykład wewspomnianych wcześniej robotach społecznych czy inteligentnych domach. Systempotrafiący rozpoznać emocje człowieka na podstawie jego mimiki, może próbowaćdopasować swoje zachowanie do nastroju użytkownika lub próbować przewidziećjakich akcji oczekuje od niego człowiek, podobnie jak ma to miejsce w przypadkudialogu dwóch osób[21].Rozrywka Wraz z systemem rozpoznawania emocji, algorytmy rozpoznawania twarzymogą znaleźć potencjalne zastosowanie w internetowych grach komputerowych [32].Obraz twarzy gracza może być pobierany z wykorzystaniem kamery dołączonej dokomputera, jego emocję mogą być rozpoznane i przełożone na wirtualnego awatara,który widoczny jest dla innych gracza. System taki może ograniczyć ilość wysyłanychkomunikatów tekstowych.Inteligentne domy w inteligentnych domach [20, 4] detekcja twarzy znajduje wiele zastosowań:wykrywanie obecności osób w celu dopasowania nastawów urządzeń regulującychtemperaturę (np. wyłączenie klimatyzacji czy grzejników, kiedy nikogo niema w domu w celu oszczędzania energii); zapewnianie bezpieczeństwa – w połączeniuz funkcją rozpoznawania twarzy, system może wszcząć alarm w przypadku wykryciaw domu obcych osób pod nieobecność właścicieli; dopasowanie nastaw urządzeńkontrolujących temperaturę, światło i muzykę zgodnie z preferencjami osoby przebywającejw danym pomieszczeniu.Przemysł fotograficzny Auto-wyzwalacz oparty na warunku wykrycia odpowiedniejliczby twarzy, zamiast sztywno ustawionego czasu. Inną innowacją jest automatycznaregulacja obiektywu tak, aby ostrość ustawiona była na twarzach osób pozującychdo zdjęcia. Obecnie większość telefonów dostępnych na rynku wyposażonych jestw aparat fotograficzny, wykrywanie twarzy znajduje podobne zastosowanie równieżw tej branży.Bezpieczeństwo Algorytmy wykrywania twarzy są podstawą działania automatycznychsystemów bezpieczeństwa w obiektach użyteczności publicznej, takich jak lotniska

6 Wstęp(np. w celu wyszukiwania osób mogących potencjalnie stwarzać zagrożenie) czy stadiony(namierzanie osób, które objęte są zakazem stadionowym). Drugim niezbędnymelementem takich systemów jest oczywiście algorytm rozpoznawania twarzy.Można spodziewać się, że wraz ze wzrostem efektywności ich działania pojawiaćbędą się pytania dotyczące ochrony prywatności w systemach tego typu.Ochrona prywatności W systemach automatycznej akwizycji obrazów, jaki stosuje np.firma Google do tworzenia swojej powszechnie dostępnej usługi Street View, algorytmywykrywania twarzy stosowane są do ochrony prywatności osób postronnych. Nauzyskanych zdjęciach twarze wszystkich wykrytych ludzi są zamazywane, tak abynie dało ustalić się tożsamości danej osoby.We wszystkich tych zastosowaniach, w celu osiągnięcia większej wydajności, wykorzystywanemogą być algorytmy śledzenia twarzy w sekwencjach wideo. Podstawą ich działaniajest wykrycie, za pomocą algorytmu detekcji, twarzy która następnie jest śledzona z wykorzystaniemmniej złożonych obliczeniowo algorytmów.Ludzie bez problemu potrafią dostrzec twarz innego człowieka w różnych warunkachoświetlenia i pod różnym kątem, zarówno jeśli chodzi o przechylenie głowy, jak i jej obrótwzględem osi szyi. Zaimplementowanie algorytmów zapewniających skuteczność zbliżonądo tej, którą charakteryzują się ludzie, okazało się dużym wyzwaniem. Szybki rozwójomawianej dziedziny w ostatnich latach spowodowany jest przez:Wzrost mocy obliczeniowej komputerów Algorytmy wykorzystywane do wykrywaniatwarzy są bardzo złożone obliczeniowo, wydajność powszechnie dostępnych komputerówosobistych stosunkowo niedawno osiągnęła poziom umożliwiający tworzenieaplikacji wykrywających twarz w czasie rzeczywistym. Niemożliwy do przeoczeniajest także wzrost mocy obliczeniowej tzw. urządzeń mobilnych, czyli zaawansowanychtelefonów komórkowych, smartfonów i tabletów. Ze względu na fakt, że urządzeniate zwykle wyposażone są także w kamerę, algorytmy wykrywania twarzyumożliwiające tworzenie efektownych aplikacji, można zaobserwować zwiększone zainteresowanieproducentów telefonów tą dziedziną przetwarzania obrazów.Duża dostępność przetworników optycznych Spadek cen i duża poprawa jakościdostępnych na rynku cyfrowych matryc fotograficznych na pewno przyczyniły siędo rozwoju wszystkich dziedzin przetwarzania obrazu, w szczególności wykrywaniatwarzy.Komercjalizacja Ze względu na wiele potencjalnych zastosowań algorytmów wykrywaniatwarzy, ta dziedzina przetwarzania obrazów w naturalny sposób wzbudziła zainteresowanietwórców komercyjnego oprogramowania. Wraz z wprowadzeniem tegotypu produktów na rynek, zaczęły działać w stosunku do nich prawa rynku. Do pozytywnychobjawów tego zjawiska na pewno zaliczyć można ciągłą poprawę jakościi obniżanie ceny, z drugiej jednak strony uzyskane przez firmy rezultaty są pilniestrzeżone i zasada ich działania jest nieznana.Przy tworzeniu pierwszych algorytmów wykrywania twarzy często zakładano, że naobrazie potencjalnie znajduje się tylko jeden poszukiwany obiekt. Zadanie detekcji sprowadzałosię do dostarczenia odpowiedzi na pytanie, czy na obrazie znajduje się twarz.W tamtych czasach doprowadziło to do wyróżnienia dwóch głównych kierunków rozwojualgorytmów [17]. Pierwszy z nich opiera się na wyróżnieniu na obrazie charakterystycznych

dla twarzy fragmentów, np. oczu, nosa, ust, kości policzkowych. Następnie wykorzystujesię zależności geometryczne między tymi elementami w celu przeprowadzenia selekcjii ostatecznej decyzji co do obecności twarzy na analizowanym obrazie. Drugie podejściepolega na sprowadzeniu wzorca obrazu twarzy do wektora i opiera analizę na dekompozycjiwartości własnych macierzy kowariancji obrazu wejściowego (w literaturze anglojęzycznejznane jako „eigenface”). Wraz z rozwojem przetwarzania obrazów pojawiały sięnowe pomysły i algorytmy: statystyczny model koloru skóry [15], dopasowywanie elastycznychgrafów [16], wykorzystanie sieci neuronowych [30], kaskady Haara [31]. Algorytmyrealizujące zadanie śledzenia twarzy można podzielić na dwie grupy. Algorytmy należącedo pierwszej z nich opierają się na analizie przepływu optycznego, w jej skład wchodząm.in. metoda Lucasa-Kanade i Horn-Schunck’a. Drugą grupę tworzą algorytmy oparteo analizę histogramu, zaliczają się do niej metody Mean-Shift i Camshift [5]. Pierwszym,najważniejszym krokiem, zawsze podejmowanym w trakcie realizacji zadania śledzeniatwarzy jest jej wykrycie. Ze względu na dużą wydajność znanych obecnie algorytmów,zadanie śledzenia twarzy może być z powodzeniem realizowane poprzez jej wykrywaniena kolejnych klatkach sekwencji wideo.Dynamika rozwoju i ilość potencjalnych zastosowań omawianej dziedziny sprawiają,że jest ona interesującym tematem rozważań. Różnorodność stosowanych rozwiązań uzasadniapotrzebę wykonania analizy wykorzystywanych metod pod względem szybkościi jakości działania. W pracy podjęta została próba przeprowadzenia takich badań.W rozdziale 1 dokonany został przegląd obecnie wykorzystywanych algorytmów, z którychjeden został samodzielnie zaimplementowany. W rozdziale 2 przedstawiona jest zasadajego działania, szczegóły dotyczące implementacji znajdują się w rozdziale 3. Wrozdziale 4 opisane są wyniki badań zaimplementowanego algorytmu oraz dwóch innych,znajdujących się w dostępnych bibliotekach. W dodatku C zamieszczona jest dokładanaspecyfikacja środowiska w którym tworzona i wykorzystywana była praca. Dodatek D zawieraopis dodatkowych narzędzi zaimplementowanych w trakcie tworzenia pracy, którenie są bezpośrednio zawiązane z wykrywaniem twarzy.7

Rozdział 1Przegląd algorytmów wykrywaniatwarzyObecnie wyróżnić można kilka głównych nurtów wykrywania twarzy na obrazie. Wtym rozdziale podjęta została próba przedstawienia najważniejszych z nich.Algorytmy opisane w podrozdziałach 1.1 i 1.2 nie były analizowane w dalszej częścipracy. Zbadana została metoda opisana w 1.3, której implementacja dostępna jest wdarmowej bibliotece OpenCV oraz algorytm, który został zaimplementowany na potrzebypracy – jego dokładny opis znajduje się w rozdziale 2. Dodatkowo, w podrozdziale 1.4zaprezentowane jest jedno z rozwiązań dostępnych komercyjnie, badania przeprowadzonez jego wykorzystaniem przedstawione są w dalszej części pracy.1.1 Detekcja z wykorzystaniem wzorcówOpisywana grupa algorytmów wykrywania twarzy bazuje na istnieniu pewnej liczbycharakterystycznych cech geometrycznych twarzy. W podejściu tym prawdopodobieństwowystąpienia określonej jasności lub koloru piksela w danym obszarze twarzy obliczane jestna podstawie zbioru wybranych obrazów uczących. Następnie analizowany obszar sprawdzanyjest pod kątem zgodności ze stworzonym na etapie przygotowywania algorytmuwzorcem.1.1.1 Tworzenie szablonu twarzyProces tworzenia wzorca twarzy składa się z następujących kroków:1. Wybranie obrazów z twarzami, które posłużą do stworzenia wzorca.2. Określenie rozmiaru i położenia regionu zawierającego twarz dla każdego z wybranychobszarów.3. Sprowadzenie wybranych obszarów do tego samego rozmiaru.4. Obliczenie średniej wartości piksela dla każdego z punktów obszaru na podstawieprzetransformowanych fragmentów obrazów.Oznaczając przez n liczbę wybranych obrazów uczących, przez f k (i, j) wartość piksela napozycji (i, j) w k-tym obrazie (k = 1, . . . , n) oraz przez w k czynnik skalujący k-ty obraz,

10 1. Przegląd algorytmów wykrywania twarzyuzyskujemy następujący wzór na wyliczenie wzorca twarzy:T (i, j) = 1 n∑w k f k (i, j) (1.1)nk=1Jeśli wartości pikseli f k (i, j) mają rozkład normalny N(µ, σ 2 ), gdzie µ jest średnią wartościąpiksela f k (i, j) dla 1 k n, a σ jest wariancją tego piksela, to T (i, j) ma rozkładnormalny N(µ, σ2 ). Tak więc zakłócenia występujące w poszczególnych obrazach wybranychdo stworzenia szablonu mają niewielki wpływ na uzyskany tą metodą wzorzec.nLudzka twarz zawiera zwykle fragmenty charakterystyczne, takie jak oczy, usta, nos,obrys szczęki. Charakter rozkładu jasności pikseli jaki mają te fragmenty twarzy możebyć wykorzystany do sprawdzania warunku obecności twarzy na analizowanym obrazie.Zwykle więc do tworzenia wzorców twarzy wybierana jest właśnie jej centralna część,zawierająca najwięcej elementów charakterystycznych.1.1.2 Wykrywanie twarzyStworzony wzorzec twarzy jest przyrównywany do analizowanego obrazu. Prosta funkcjaodległości danego fragmentu analizowanego obrazu od wzorca może być zdefiniowanana przykład jako:I∑ J∑ [S(m, n) = P (m,n) (i, j) − T (i, j) ] 2, (1.2)i=1 j=1gdzie I oznacza wysokość stworzonego wzorca, J jego szerokość, indeksy (m, n) oznaczająpozycję analizowanego fragmentu obrazu na tym obrazie. P (m,n) (i, j) odnosi się więcdo jasności lub koloru piksela znajdującego się na pozycji (m + i, n + j) na analizowanymobrazie. T (i, j) oznacza jasność piksela na pozycji (i, j) w utworzonym wzorcu. Analizowanyfragment obrazu jest klasyfikowany jako twarz, jeśli wartość funkcji podobieństwajest mniejsza od pewnego arbitralnie wybranego progu.Po rozwinięciu (1.2) otrzymujemy:I∑ J∑ [S(m, n) = P (m,n) (i, j) ] 2I∑ J∑I∑ J∑− 2 P (m,n) (i, j) · T (i, j) + [T (i, j)] 2 , (1.3)i=1 j=1i=1 j=1i=1 j=1gdzie składnikI∑J∑ [P (m,n) (i, j) ] 2, (1.4)i=1 j=1zmienia się powoli wraz z obliczaniem funkcji podobieństwa dla kolejnych fragmentówanalizowanego obrazu, jego obliczanie może być w prosty sposób zoptymalizowane, składnikI∑ J∑[T (i, j)] 2 , (1.5)i=1 j=1jest stały dla stworzonego wzorca twarzy, musi być więc policzony tylko raz, natomiastI∑ J∑2 P (m,n) (i, j) · T (i, j) , (1.6)i=1 j=1odpowiada korelacji wzorca z badanym fragmentem – im jest on większy, tym bardziejzbliżony jest analizowany fragment do przyjętego wzorca.

1.2. Wykrywanie twarzy z wykorzystaniem aktywnych konturów 111.1.3 Przyśpieszanie algorytmów opartych na wzorcachJednym z podejść mających na celu przyśpieszenie algorytmów detekcji twarzy opartychna metodzie wzorców jest stosowanie wzorców połówkowych. Podejście to uzasadniafakt, że ludzka twarz jest symetryczna. Szablon twarzy tworzony jest tak samo jak wnormalnym przypadku, a następnie do wykrywania twarzy wybierana jest tylko jedna zpołówek stworzonego wzorca. Powoduje to zmniejszenie obszaru wykorzystywanego do obliczaniafunkcji podobieństwa szablonu, co wpływa na zmniejszenie koniecznych do przeprowadzeniaobliczeń. Eksperymenty opisane w [8] wskazują również, że wykorzystaniepołówkowych szablonów zwiększa szansę wykrycia twarzy sfotografowanych pod dużymkątem oraz wpływa korzystnie na poprawność działania algorytmu.1.2 Wykrywanie twarzy z wykorzystaniem aktywnychkonturówJedną z efektywnych metod wykrywania na obrazach konturów obiektów jest metodaaktywnych konturów, znana również w literaturze anglojęzycznej jako „snake” [17].Aktywne kontury mogą zmieniać kształt pod wpływem tak zwanych sił zewnętrznych,wynikających z położenia konturu na obrazie oraz z sił wewnętrznych, determinowanychprzez kształt jaki przybiera kontur. Początkowe położenia i kształty konturów wybieranesą w pewien arbitralnie wybrany sposób (np. taka sama liczba konturów o takich samychkształtach dla każdego obrazu), następnie kontury ewoluują aż do osiągnięcia minimumenergii w punkcie równowagi między siłami zewnętrznymi i wewnętrznymi.1.2.1 Przypadek ciągłyWprowadźmy funkcjęφ(t, x) : t ∈ [0, ∞), x ∈ R 2 , (1.7)gdzie t oznacza czas, zaś x określa położenie punktu na obrazie [6]. Zakładamy warunekpoczątkowy φ(0, x) = φ 0 (x), który związany jest z początkowym kształtem konturóww sposób wynikający z równania 1.10. Wyrażenie na ewolujcę konturu, zgodnie z [13],przyjmuje postać:∂φ= g(|∇I|)(κ + ν)|∇φ|, (1.8)∂tgdzie κ jest krzywizną konturu, ν jest stałą, g(|∇I|) jest energią potencjalną otrzymanąz obrazu I:g(|∇I|) =11 + |∇G σ ∗ I| , (1.9)gdzie G σ jest funkcją Gaussa z wariancją σ, ∗ oznacza operację splotu. Ewolucja krzywejΓ w czasie przebiega zgodnie ze zmianami zerowej poziomicy funkcji φ:Γ(t) = {⃗x | φ(⃗x, t) = 0} (1.10)Ta metoda sprawdza się dla obiektów, które dobrze kontrastują z tłem. Kiedy brzegobiektu jest niewyraźny i zawiera przerwy, kontur ewoluujący zgodnie z podanym wyżejalgorytmem często nie zatrzymuje się na właściwej krawędzi. Przyczyną może być fakt,że warunek stopu zależny jest od zmiany gradientu obrazu – może więc wykrywać tylkokrawędzie będące w takiej właśnie postaci. Rozwiązaniem tego problemu może być

12 1. Przegląd algorytmów wykrywania twarzyzastosowanie modelu zaproponowanego przez Chana i Vese’a [7]:∂φ∂t = δ(φ) ( µκ − ν − λ 1 (I − c 1 ) 2 + λ 2 (I − c 2 ) 2) , (1.11)gdzie µ 0, ν 0, λ 1 , λ 2 > 0 są ustalonymi parametrami, natomiast c 1 i c 2 obliczane sąz zależności:⎧⎪⎨⎪⎩∫I(x, y)H(φ) dxdyΩc 1 = ∫H(φ) dxdyΩ∫I(x, y) (1 − H(φ)) dxdyΩc 2 = ∫(1 − H(φ)) dxdyΩFunkcja Heaviside’a oraz delta Diraca zdefiniowane są standardowo:H(z) =(1.12){1 dla z 00 dla z < 0 , δ(z) = d H(z). (1.13)dzTen model pozwala na wykrycie obiektów z rozmytymi lub nieciągłymi krawędziami. Jesttakże w pewnym zakresie odporny na zakłócenia.1.2.2 Rozwinięcie wyrażeń przypadku ciągłegoKiedy na obrazie wymagane jest wyróżnienie więcej niż dwóch obszarów, należy wykorzystaćwiększą liczbę funkcji, na podstawie których będą ewoluować krzywe. Bazując nawłasności czterech kolorów (dwuwymiarową płaszczyznę dowolnie podzieloną na obszarymożna wypełnić czterema kolorami tak, aby żadne z sąsiadujących obszarów nie miałytakiego samego koloru) Vese i Chan zaproponowali podejście, zgodnie z którym wystarcządwie takie funkcje. Rozwiązanie to zapewnia możliwość wykrycia różnej liczby obiektówo różnej intensywności bez wcześniejszej znajomości liczby poziomów szarości występującychna obrazie. Wykorzystywane są 2 funkcje na podstawie których ewoluują kontury φ 1i φ 2 . Można z ich pomocą wyróżnić 4 obszary u ++ , u +− , u −+ i u −− :⎧⎪⎨u(x, y) =⎪⎩u ++ (x, y) dla φ 1 (x, y) > 0 i φ 2 (x, y) > 0u +− (x, y) dla φ 1 (x, y) > 0 i φ 2 (x, y) < 0u −+ (x, y) dla φ 1 (x, y) < 0 i φ 2 (x, y) > 0u −− (x, y) dla φ 1 (x, y) < 0 i φ 2 (x, y) < 0(1.14)Po rozwinięciu równań na ewolucję φ 1 i φ 2 otrzymujemy:(∂φ ∣ 1∂t = δ(φ ∣1) νκ 1 − ∣u ++ ∣∣ 2− u 0 H(φ2 )− µ ∣ ∣ ∣∇u++ ∣ ∣ ∣2H(φ2 ) − ∣ ∣ ∣u +− − u 0∣ ∣∣ 2(1 − H(φ2 ))− µ ∣ ∣ ∣∇u+− ∣ ∣ ∣2(1 − H(φ2 )) + ∣ ∣ ∣u −+ − u 0∣ ∣∣ 2H(φ2 )(1.15)+ µ ∣ ∣ ∣∇u−+ 2∣ H(φ2 ) + ∣ ∣ ∣u −− ∣∣ 2− u 0 (1 − H(φ2 ))∣+µ ∣∇u −−∣ )∣2 (1 − H(φ2 ))

1.2. Wykrywanie twarzy z wykorzystaniem aktywnych konturów 13(∂φ 2∂t = δ(φ 2) νκ 2 − ∣ ∣ ∣u ++ − u ∣∣ 20 H(φ1 )∣− µ ∣∇u ++∣ ∣2 ∣∣H(φ1 ) − ∣u +− ∣∣ 2− u 0 (1 − H(φ1 ))− µ ∣ ∣ ∣∇u+− ∣ ∣ ∣2(1 − H(φ1 )) + ∣ ∣ ∣u −+ − u 0∣ ∣∣ 2H(φ1 )+ µ ∣ ∣ ∣∇u−+ 2∣ H(φ1 ) + ∣ ∣ ∣u −− − u ∣∣ 20 (1 − H(φ1 ))+µ ∣ ∣ )∣∇u−− 2∣ (1 − H(φ1 )) .Wartości u ++ , u +− , u −+ i u −− obliczane są według zależności:⎧u ++ − u 0 = µ∆u ++ dla φ 1 > 0, φ 2 > 0⎪⎨ u +− − u 0 = µ∆u +− dla φ 1 > 0, φ 2 < 0u⎪⎩−+ − u 0 = µ∆u −+ dla φ 1 < 0, φ 2 > 0u −− − u 0 = µ∆u −− dla φ 1 < 0, φ 2 < 0(1.16)(1.17)Model stworzony na podstawie równań ewolucji krzywych wyprowadzonych z wykorzystaniempowyższych funkcji łączy w sobie wiele zalet: pozwala na wykrywanie zarównoostrych jak i rozmytych krawędzi, wykrywanie konturów wewnętrznych oraz odpornośćna zakłócenia.1.2.3 Wykorzystanie aktywnych konturów w wykrywaniu twarzyAlgorytm aktywnych konturów może być zastosowany do detekcji twarzy na obrazie.W opisywanej metodzie najpierw wykonywana jest segmentacja obrazu z wykorzystaniemaktywnych konturów. Część kandydatów odrzucana jest na podstawie parametrów dopasowanychdo tych konturów elips. Następnie do obliczenia stopnia podobieństwa międzywzorcowym eliptycznym modelem kształtu twarzy, a konturami otrzymanymi w pierwszymkroku wykorzystywana jest odległość Hausdorffa.To, czy algorytm aktywnych konturów znajdzie globalne minimum, w którym danykontur będzie miał najniższą możliwą energię, zależne jest od początkowego kształtu ipołożenia konturu. Zwykle w rzeczywistych implementacjach w początkowym kroku algorytmuna obraz nakłada się wiele małych równo odległych od siebie konturów (np. wpostaci okręgów), co realizowane jest przez przyjęcie odpowiedniego warunku początkowegodla funkcji określonej w równaniu 1.7. W następnych krokach kontury ewoluują dodocelowej postaci.W kolejnej fazie algorytmu dla każdego z wykrytych konturów obliczane są parametry(środek, długości osi i nachylenie) elipsy najlepiej pasującej do tego konturu. Częśćkonturów odrzucana jest na podstawie empirycznie dobranych reguł dotyczących wartościdopasowanych do tych konturów elips (np. dopuszczalny przedział dla stosunku długościosi lub nachylenie).Następnie obliczana jest zmodyfikowana odległość Hausdorffa między danym konturema wzorcowym modelem twarzy w celu wytypowania konturów, które potencjalnieoznaczyły znajdującą się na obrazie twarz. Odległość Hausdorffa obliczana jest międzydwoma zbiorami punktów A = a 1 , a 2 , . . . , a m , i B = b 1 , b 2 , . . . , b n z zależności:H(A, B) = max (h(A, B), h(B, A)) , (1.18)gdzieh(A, B) = maxmina∈A b∈B||a − b|| (1.19)

14 1. Przegląd algorytmów wykrywania twarzyh(B, A) = maxminb∈B a∈A||b − a||. (1.20)Odległość h(A, B) nazywana jest skierowaną odległością Hausdorffa A od B liczoną zgodniez daną normą || · ||. W celach przetwarzania obrazu często stosuje się zmodyfikowanąodległość w postaci:h(A, B) = 1 ∑|A|a∈Amin ||a − b||, (1.21)b∈Bgdzie |A| to liczba punktów zbioru A. Tak zmodyfikowane wyrażenie zmniejsza wpływniepoprawnych punktów, które pojawiają się na przykład w wyniku obecności szumów nainterpretowanym obrazie.Analizowany kontur klasyfikowany jest jako twarz, kiedy odległość Hausdorffa jestmniejsza od arbitralnie wybranego progu.1.3 Wykorzystanie kaskad wzorcówViola i Jones wprowadzają w [31] pojęcie obrazu scałkowanego. Na podstawie tegoobrazu obliczane są tzw. cechy charakterystyczne, dzięki czemu wartości jasności pikseliwykorzystywane są tylko w początkowej fazie algorytmu.Na etapie uczenia algorytmu, wykorzystywana jest metoda AdaBoost [10], przy pomocyktórej wybierane są najbardziej istotne cechy – tylko one wykorzystywane są poźniejw trakcie detekcji twarzy. Sama detekcja przeprowadzana jest z wykorzystaniem kaskadyklasyfikatorów, która pozwala na szybkie odrzucenie obszarów, w których twarz na pewnosię nie znajduje. Dokładana analiza przeprowadzana jest tylko w regionach, dla którychzgrubne klasyfikatory wykażą potencjalną możliwość znalezienia twarzy.1.3.1 Cechy charakterystyczneViola i Jones dokonują analizy obrazu z wykorzystaniem cech charakterystycznychobrazu (detektorów) (rysunek 1.3.1), które przypominają podstawowe cechy charakterystycznestworzone na bazie falek Haara. Wyróżnione są trzy rodzaje cech, składające sięodpowiednio z:(a) (b) (c) (d)Rysunek 1.1 Przykładowe cechy charakterystyczne.1. dwóch prostokątów, wartość tej cechy obliczana jest jako różnica sumy jasnościpikseli w każdym z dwóch prostokątów (rysunki 1.1(a), 1.1(b)),2. trzech prostokątów, wartość tej cechy obliczana jest jako różnica sumy pikseli dwóchzewnętrznych prostokątów i prostokąta środkowego (rysunek 1.1(c))

1.3. Wykorzystanie kaskad wzorców 153. czterech prostokątów, wartość tej cechy obliczana jest jako różnica sum prostokątówznajdujących się na przekątnych detektora(rysunek 1.1(d)).Przy przyjęciu rozmiaru detektora jako 24x24 piksele, liczba możliwych do wygenerowaniacech przekracza 180 000.1.3.2 Obraz scałkowanyCechy obrazu o kształcie prostokąta mogą być szybko obliczone dzięki zastosowaniuprzejściowej reprezentacji obrazu, nazywanej obrazem scałkowanym. Wartość tego obrazuw punkcie (x, y) równa się sumie jasności pikseli na lewo i powyżej tego punktu i wynosi:ii(x, y) =∑x ′ x,y ′ yi(x ′ , y ′ ), (1.22)gdzie ii oznacza obraz scałkowany, a i obraz oryginalny. Wykorzystując rekurencję:s(x, y) = s(x, y − 1) + i(x, y), (1.23)ii(x, y) = ii(x − 1, y) + s(x, y), (1.24)gdzie s(x, y) jest sumą dla poszczególnych kolumn, s(x, −1) = 0, ii(x, −1) = 0, cały obrazscałkowany może być obliczony w jednym przebiegu.ACB1 2D3 4Rysunek 1.2 Podział na obszary obrazu scałkowanego.Dzięki wykorzystaniu obrazu scałkowanego suma jasności pikseli zawartych w dowolnymprostokącie obrazu może być obliczona na podstawie 4 przechowywanych w pamięciwartości. Na rysunku 1.3, w punkcie 1 obraz scałkowany ma wartość sumy jasności pikseliobszaru A, wartość w punkcie 2 odpowiada sumie jasności pikseli z obszarów A i B, analogiczniepunkt 3 powiązany jest z obszarami A i C, natomiast punkt 4 to suma jasnościpikseli ze wszystkich 4 obszarów: A, B, C i D. Jasność pikseli w obszarze D może być więcobliczona jako:I D = ii(x 4 , y 4 ) − ii(x 2 , y 2 ) − (ii(x 3 , y 3 ) − ii(x 1 , y 1 )). (1.25)Detektory składające się z dwóch prostokątów mogą być obliczone na podstawie 6 punktówobrazu (ponieważ dwa punkty są wspólne). Odpowiednio, dla detektorów składającychsię z 3 i 4 prostokątów (rysunek 1.3.1), potrzebnych jest 8 i 9 punktów.

16 1. Przegląd algorytmów wykrywania twarzy1.3.3 Uczenie klasyfikatoraDo wyznaczenia funkcji klasyfikujących potrzebny jest zestaw obrazów przedstawiającychtwarz (próbki pozytywne), zestaw obrazów nie przedstawiających twarzy (próbkinegatywne) oraz zbiór detektorów. Viola i Jones wykorzystują algorytm AdaBoost zarównodo wyznaczenia zbioru najlepszych detektorów, jak i do nauki klasyfikatora. Wspomnianawcześniej liczba możliwych detektorów (180 000) o określonym rozmiarze (24x24),znacznie przekracza liczbę pikseli wchodzących w skład tego detektora. Obliczanie ich wartościnawet z wykorzystaniem obrazu scałkowanego byłoby nieefektywne – Viola i Jonesna drodze eksperymentów doszli do wniosku, że znacznie mniejsza liczba detektorów możebyć skuteczna.Wprowadźmy pojęcie słabego klasyfikatora h j (x), jako funkcji, która zwraca 1, kiedyuzna analizowany fragment obrazu za potencjalną twarz, a 0 w przeciwnym wypadku:⎧⎨1 jeśli p j f j (x) nacza detektor, θ j próg klasyfikatora, p j polaryzację, określającą kierunek znakunierówności, a x to fragment obrazu o rozmiarze 24x24 piksele. Należy przyjąć tzw. słabąfunkcję uczącą, której zadaniem jest wyznaczenie θ j i p j dla danego detektora f j , przydanym zbiorze obrazów uczących. To zadanie sprowadza się więc do wyznaczenia granicypodziału zbioru punktów leżących na prostej na dwie klasy.Dla każdej z cech, słaby algorytm uczący powinien zostać wykorzystany do obliczeniaoptymalnego progu, dla którego najmniejsza ilość próbek jest błędnie interpretowana.Przy podejmowaniu finalnej decyzji, czy dany fragment przedstawia twarz, wykorzystywanajest kaskada mocnych klasyfikatorów. Do nauki każdego z nich potrzebny jestzbiór n obrazów (x 1 , y 1 ), ..., (x n , y n ), gdzie x i to obraz, odpowiadająca mu wartość y iokreśla czy przedstawia on twarzy (y i = 1), czy nie (y i = 0). Początkowe wartości wagobrazów wynoszą:⎧⎨ 1w 1,i =dla y 2m i = 0; i ∈ [1, n], (1.27)⎩ 1dla y2l i = 1gdzie m to liczba obrazów nie przedstawiających twarzy, l określa liczbę obrazów przedstawiającychtwarz, n = m + l. Następnie wykonywana jest arbitralnie przyjęta liczbaiteracji (dla t = 1, ..., T ) poniższego algorytmu.1. Normalizacja wag,w t,i ←w t,in∑ .w t,jj=12. Obliczenie błędu ɛ j dla każdego klasyfikatora h j i odpowiadającej mu cechy:ɛ j = ∑ iw i |h j (x i ) − y i |.3. Wybranie klasyfikatora h t o najmniejszym błędzie ɛ t .4. Uaktualnienie wag obrazów:w t+1,i = w t,i · β 1−e it ,gdzie e i = 0 jeśli obraz x i został zaklasyfikowany poprawnie, e i = 1 w przeciwnymwypadku, β =et1−e t.

1.3. Wykorzystanie kaskad wzorców 17Ostateczne wyrażenie na mocny klasyfikator przyjmuje postać:⎧⎨1 jeśli ∑ Th(x) =t=1 α t h t (x) 1 ∑ Tt=1α2 t, (1.28)⎩0 w przeciwnym przypadkugdzie α t = log 1 β t.1.3.4 Kaskada klasyfikatorówpróbkitak takh 1h 2h 3nie nie nietakViola i Jones proponują utworzenie kaskady klasyfikatorów, która pozwala na przyśpieszenieobliczeń i poprawę jakości detekcji. Postępowanie to uzasadnione jest faktem,że możliwe jest utworzenie małego (a tym samym szybkiego) mocnego klasyfikatora, którybędzie w stanie odrzucić większość próbek negatywnych, utrzymując przy tym wysokąskuteczność detekcji. Można więc tak wytrenować niezbyt złożony mocny klasyfikator,aby stosunek liczby niepoprawnie odrzuconych obrazów przedstawiających twarz do liczbywszystkich analizowanych obrazów (tzw. fałszywe decyzje negatywne) był bliski zeru.Pozwala to na wyeliminowanie dużej części obrazu z dalszych obliczeń, w trakcie którychbardziej złożone klasyfikatory mogą podjąć ostateczną decyzję co do obecności twarzy wdanym obszarze. Kaskada klasyfikatorów jest więc rodzajem drzewa decyzyjnego, w któdalszeprzetwarzanieodrzucenie próbkiRysunek 1.3 Zasada działania kaskady klasyfikatorów. Przedstawiony jest początek drzewadecyzyjnego. W celu „dalszego przetwarzania” może być wykorzystany inny algorytmweryfikujący obecność twarzy, lub zbiór kolejnych klasyfikatorów.rym początkowymi węzłami są wspomniane mało złożone klasyfikatory, pozwalające naszybką detekcję obszarów, które twarzą na pewno się są. Jeśli decyzja klasyfikatora będzienegatywna, analizowany fragment obrazu (próbka) jest odrzucany i nie poddawany dalszejanalizie. Kiedy decyzja klasyfikatora jest pozytywna, wykonywane są obliczenia dlanastępnego w kolejności, bardziej złożonego klasyfikatora. Jeśli dany fragment zostaniepozytywnie zaklasyfikowany na wszystkich etapach, oznaczany jest jako twarz. Klasyfikatorydla kolejnych kroków tworzone są z wykorzystaniem algorytmu AdaBoost, uzyskaneprogi są lekko obniżane, aby podejmowanych było jak najmniej fałszywych decyzjinegatywnych. Struktura kaskady odzwierciedla fakt, że większość obszarów obrazu niezawiera twarzy. Powinna więc odrzucać większość próbek na podstawie decyzji podjętychw początkowych węzłach.

18 1. Przegląd algorytmów wykrywania twarzy1.3.5 Trenowanie kaskady klasyfikatorówDuża skuteczność kaskady jest zależna od liczby wykorzystywanych w niej detektorów– im jest ich więcej, tym lepiej ona działa. Z drugiej strony, wiąże się to z wydłużeniemczasu działania algorytmu. Zadanie wytrenowania kaskady można przyrównać dopróby minimalizacji liczby wykorzystywanych detektorów, przy czym parametrami optymalizowanymijest liczba węzłów drzewa, liczba detektorów i progi wykorzystywane wposzczególnych węzłach. W rzeczywistości zadanie to jest bardzo trudne do rozwiązania,dlatego stosowane jest uproszczone podejście. Optymalizacji podlega liczba fałszywychdecyzji pozytywnych i współczynnik poprawnie wykrytych twarzy. Do każdego z mocnychklasyfikatorów (węzłów drzewa) dodawane są detektory, dopóki wyniki uzyskane na zbiorzeweryfikacyjnym nie osiągną założonych poziomów. Do drzewa dodawane są kolejnewęzły, dopóki cała kaskada nie osiągnie założonych dla niej współczynników.1.4 Algorytm PittPattAlgorytm PittPatt jest algorytmem komercyjnym firmy Pittsburgh PatternRecognition, którego zasada działania nie jest publicznie znana, a kod źródłowy niejest dostępny. Z informacji zawartych w [2] wynika, że jest to algorytm uczący się, jegoparametry są dobrane na podstawie zestawów danych treningowych. Wspomniane jest,że działa zarówno dla obrazów kolorowych, jak i dla obrazów opisanych skalą szarości, copozwala przypuszczać, że przetwarzanie oparte jest w głównej mierze na analizie średnichwartości jasności pikseli. Autorami algorytmu są Henry Schneiderman, Michael Nechyba,Michael A. Sipe, wszyscy trzej mający tytuł doktora Carnegie Mellon University. Firmasprzedająca algorytm PittPatt została przez nich założona, jako spółka-córka uniwersytetuCanegie Mellon w roku 2004. Z okresu, w którym prowadzone były prace nad algorytmem,pochodzą publikacje Schneidermana dotyczące wykrywania twarzy, m.in. [23], [22],[24]. Nie ma żadnej pewności, że opisywane we wspomnianych artykułach metody zostałyzastosowane w algorytmie PittPatt. Nie jest tutaj podjęta próba dokładnego opisaniaalgorytmu detekcji twarzy, tak jak to miało miejsce w poprzednich sekcjach. Przedstawionesą jedynie niektóre elementy zaproponowanych przez Schneidermana algorytmów,które wydają się być istotnym, z punktu widzenia skuteczności detekcji, rezultatem jegobadań.1.4.1 Obliczanie wartości cech charakterystycznychMetoda opisana przez Schneidermana w [22], bazuje na algorytmie kaskad klasyfikatorów,przedstawionej w sekcji 1.3. Podany jest jednak alternatywny sposób obliczaniawartości cech charakterystycznych. W oryginalnej pracy Viola i Jonesa [31], okno klasyfikatoraprzesuwane jest po całym obrazie w różnych skalach. W każdym z punktówobrazu, w którym jest przykładane, i dla każdej skali, wartości cech charakterystycznychsą obliczane od nowa. Dla przypadku jednowymiarowego:f 1 =f(r 1 ) → c[1] = c(f 1 )f 2 =f(r 2 ) → c[2] = c(f 2 ).f n =f(r n ) → c[n] = c(f n ),(1.29)

1.4. Algorytm PittPatt 19gdzie f 1 ...f n to wartości cechy charakterystycznej f w kolejnych punktach przyłożeniaokna r 1 ...r n . c[1]...c[n] to wartości, które zwraca klasyfikator dla kolejnych współrzędnychokna.Innowacja Schneidermana polega na tym, że najpierw wylicza on wartości cech charakterystycznychdla określonej siatki obejmującej cały obraz. W momencie obliczaniawartości klasyfikatora dla danego okna, wykorzystywane są wszystkie cechy będące wjego zasięgu:c[1] =c(f[1], f[2], ..., f[m])c[2] =c(f[2], f[3], ..., f[m + 1]).c[l] =c(f[l], f[l + 1], ..., f[m + l]),(1.30)gdzie m to liczba cech będących w zasięgu okna klasyfikatora.Liczba obliczanych cech nie zmienia się, jednak klasyfikacja regionów dla kolejnychwspółrzędnych okna odbywa się z wykorzystaniem większej liczby cech. W ten sposóbwykorzystywanych jest więcej informacji, co stanowi istotną zaletę w pierwszej fazie działaniakaskady. Warunkiem zachowania dobrej wydajności algorytmu jest zastosowanieklasyfikatora w postaci sumy:c[l] = c(f[l], f[l+1], ..., f[l+m−1]) = h(f[l], 0)+h(f[l+1], 1)+...+h(f[l+m−1], l+m−1).(1.31)Należy podkreślić, że drugim z argumentów h(·) jest położenia okna na obrazie, co pozwalana uwzględnienie tego czynnika przy obliczaniu wyniku działania klasyfikatora.Wprowadzone jest także następujące uproszczenie: wartości cech charakterystycznych f[·]są dyskretne. Dzięki temu, wartości wyrażenia h[·] mogą być przechowywane w tablicy,której indeksami są wartość cechy i położenie względem okna klasyfikatora.Obliczanie cech w ten sposób wykorzystywane jest tylko w pierwszej iteracji algorytmui pozwala na odrzucenie 99% regionów, które nie są dalej badane pod względem obecnościtwarzy.1.4.2 Transformacja falkowaSchneider i Kanade [24] próbują wykorzystywać informacje zawarte w obrazie, uwzględniającpołożenie, orientację i charakterystykę w dziedzinie częstotliwości wybranych częścitwarzy. W procesie dekompozycji przestrzennej wybierane są tak zwane atrybuty, będącezbiorami współczynników uzyskanych poprzez transformację obrazu oryginalnego dodziedziny częstotliwości. Cechy takie jak oczy czy usta odpowiadają wysokim częstotliwościom,atrybuty z nimi związane mogą być nieliczne. Z kolei niskie częstotliwościodpowiadają ogólnej charakterystyce twarzy, np. czoło jest jaśniejsze niż oczodoły, atrybutyz nimi związane muszą być bardziej liczne. Atrybuty tworzone są z uwzględnieniemorientacji – dany atrybut jest bardziej skuteczny, jeśli jest wyspecjalizowany tylko doopisywania np. cech poziomych. Ważnym elementem przeprowadzanej dekompozycji jesttakże zachowanie zależności geometrycznych między poszczególnymi częściami twarzy.Aby osiągnąć założone cele, wykorzystywana jest transformacja falkowa obrazu. Falkito rodzina funkcji generowana z funkcji skalującej φ(x) [26]:φ(x) ={ 1 dla 0 x < 1,0 dla pozostałych x.(1.32)

20 1. Przegląd algorytmów wykrywania twarzyUmożliwiają one reprezentację aproksymowanej funkcji z różnym poziomem szczegółowości.Są także wielorozdzielcze, co pozwala na zgrubne przeszukiwanie obrazu w pierwszejfazie działania algorytmu. Transformacja falkowa zastosowana na obrazie organizuje jegostrukturę w pasma, tak jak przedstawiono na rysunku 1.4. Wzory transformacyjnedla przypadku dyskretnego stanowią sploty ciągów liczbowych, co odpowiada operacjifiltracji. Obraz 1.4 złożony jest ze współczynników będących wynikiem transformacji fal-P1LLP1LHP1HLHHP1Poziom 2LHPoziom 2HLPoziom 2HHPoziom 3HLPoziom 3LHPoziom 3HHRysunek 1.4 Reprezentacja falkowa obrazu.kowej. Każdy z poziomów reprezentuje wyższe częstotliwości. Pojedynczy współczynnikna poziomie pierwszym opisuje obszar cztery razy większy niż współczynnik na poziomiedrugim, który opisuje obszar cztery razy większy niż współczynnik na poziomie trzecim.Oznaczenie LH, określa, że transformacja na tym obszarze jest wynikiem zastosowaniafiltru dolnoprzepustowego w kierunku poziomym i filtru górnoprzepustowego w kierunkupionowym. Analogicznie interpretowane są oznaczania HL i HH.Na podstawie tak otrzymanego obrazu dobierane są wcześniej wspomniane atrybuty.Przykładowym atrybutem może być okno wielkości 3x3 pochodzące z pasma LH poziomutrzeciego. Ten atrybut odpowiadałby wzorcom poziomym występującym z dużą częstotliwościąw niewielkim zakresie oryginalnego obrazu. Atrybuty z poziomu pierwszegoodpowiadają dużym obszarom o małej zmienności.Schneider do stworzenia kaskady wybiera 17 atrybutów, każdy składający się z 8 współczynnikówtransformaty obrazu [24].1.4.3 Wykorzystanie sieci bayesowskichSchneider [23] odnotowuje, że poszczególne współczynniki obrazu uzyskane przez transformacjęfalkową obrazu, są silnie zależne w sensie statystycznym tylko od niewielkiegozbioru innych współczynników. We wspomnianej pracy przytoczony jest również przykład:rozważmy dwa współczynniki x 1 i x 2 , które są silnie od siebie zależne. Oznaczmy zbiór

1.4. Algorytm PittPatt 21współczynników silnie zależnych od x 1 przez S 1 , a zbiór współczynników silnie zależnychod x 2 2 przez S 2 . Może okazać się, że zależności pomiędzy x 1 a S 2 oraz pomiędzy x 2 a S 1są słabe.Taka własność obrazu utrudnia wydzielenie zbiorów współczynników, które byłybyniezależne od pozostałych współczynników na obrazie. Schneider proponuje zastosowaniesieci bayesowskiej do znalezienia zależności pomiędzy poszczególnymi zbiorami współczynników.Na tej podstawie tworzony jest klasyfikator podejmujący decyzje, czy w danymobszarze obrazu znajduje się twarz. Zbudowanie sieci Bayessowskiej jest problemem NPzupełnym,jedynym sposobem znalezienia optymalnego rozwiązania jest przegląd wszystkichmożliwości. W rzeczywistych zastosowaniach stosuje się metody heurystyczne, w tymprzypadku metoda polega na optymalizacji dwóch funkcji kosztu.Pierwsza z nich odpowiada za wydzielenie zbiorów współczynników. Minimalizuje onalokalny błąd, składający się z 3 składowych, skonstruowanych na bazie funkcji częstościC(x i , x j ) = (log P (x i, x j |ω 1 )P (x i , x j )ω 2),gdzie ω 1 określa przynależność do zbioru współczynników reprezentujących twarz, ω 2określa przynależność do zbioru współczynników nie reprezentujących twarzy. RozkładyP (x i , x j |ω 1 ) oraz P (x i , x j |ω 2 ) określane są na podstawie zbioru obrazów uczących dlakażdej pary współczynników (x i , x 2 ). Zakłada się przy tym, że każda z par jest niezależnaod pozostałych. Zapewnia to, że finalna struktura sieci będzie odzwierciedlała zależnościtylko pomiędzy zbiorami współczynników. Druga z funkcji kosztu minimalizuje błędyklasyfikacji wykonywanej na próbie obrazów, tworząc strukturę sieci Bayessowskiej z wykorzystaniemzbiorów współczynników uzyskanych w pierwszym kroku.Aby uprościć zadanie budowania struktury sieci, założone zostało, że sieć składa siętylko z dwóch warstw węzłów. Węzły w pierwszej warstwie składają się z jednego współczynnika,węzły w drugiej warstwie ze zbioru współczynników. Zakłada się jednocześnie,że dla danego węzła drugiej warstwy, wszystkie połączone z nim węzły pierwszej warstwysą niezależne. Sieć przyjmuje postać:P (x 1 , ..., x n ) = P (S j(1))P (S j(2) )...P (S j(r) ), (1.33)[P (x 1 )] α 1 [P (x2 )] α 2 ...[P (xnαn)]gdzie S 1 , S 2 , ..., S q ⊂ x 1 , ..., x n są zbiorami współczynników wybranych w trakcie optymalizacjipierwszej funkcji kosztu, natomiast j(k) ∈ 1, 2, ..., q. Wartości α k odpowiadająliczbie wystąpień danego współczynnika w r zbiorach. Dla przykładu, jeśli x k występujew 3 zbiorach, to α k = 2.Finalny klasyfikator, tak jak w przypadku kaskad Haara skanuje cały obraz, w kolejnychiteracjach zmieniając skalę. Jego postać jest następująca:f(x 1 , ..., x n ) = log P (x 1, ..., x n |ω 1 )P (x 1 , ..., x n |ω 2 )> λ, (1.34)gdzie x 1 , ..., x n to kolejne współczynniki uzyskane w wyniku transformacji falkowej, λ toustalony próg. Dany obszar jest klasyfikowany jako twarz, jeśli f(x 1 , ..., x n ) > λ. WyrażeniaP (x 1 , ..., x n |ω 2 ) i P (x 1 , ..., x n |ω 2 ) otrzymywane są zgodnie z równaniem 1.33.

Rozdział 2Detekcja twarzy w oparciu owykrywanie obszarów o kolorzeskóryW niniejszym rozdziale opisany jest algorytm wykrywania twarzy przedstawiony w [12]i [11]. Jego działanie podzielić można na dwa główne etapy: wykrywanie potencjalnychtwarzy (kandydatów) oraz filtrację kandydatów opartą na wykrytych cechach charakterystycznychtwarzy w celu uzyskania ostatecznych wyników. W dalszej części pracy opisanyjest sposób implementacji tego algorytmu oraz otrzymane rezultaty.2.1 Kompensacja oświetleniaZdjęcia czy strumienie wideo, które poddawane są analizie w celu wykrycia twarzyczęsto pobierane są w niekorzystnych warunkach oświetlenia. Jedną z przyczyn może byćnietypowe umiejscowienie źródła światła (kiedy twarz nie jest oświetlona frontalnie, alenp. ostrym światłem od góry), co może powodować powstawanie niekorzystnych z punktuwidzenia działania algorytmów cieni na twarzach. Cienie te mogą utrudniać pracę m.in.algorytmów opartych na wzorcach i aktywnych konturach. Innym czynnikiem kształtującymniekorzystne warunki oświetleniowe może być nietypowa barwa światła – może miećono różny kolor (np. żółte żarówkowe czy niebieskie jarzeniowe). Na ten rodzaj zakłóceń wnaturalny sposób szczególnie podatne są algorytmy oparte na metodach analizy kolorów.Z tego powodu próbuje się przeprowadzać kompensację oświetlenia.Pierwszym krokiem wykonywanym w procesie kompensacji oświetlenia jest przeprowadzenienieliniowej korekcji luminancji gamma [25]. Polega ona na modyfikacji jasnościpikseli zgodnie z funkcją w postaci:g(x) = 255(x/255) 1/h(x) , (2.1)h(x) = 1 + f(x), (2.2)f(x) = a cos(φ(x)), (2.3)φ(x) = πx/255, (2.4)gdzie a jest współczynnikiem determinującym intensywność korekcji. Działanie tej funkcjipolega na rozjaśnieniu ciemnych pikseli obrazu oraz na przyciemnieniu jasnych pikseli.Intensywność tych operacji zależna jest od wielkości współczynnika a. Dla a = 0, przekształceniejest tożsamościowe, im wartość a jest większa, tym bardziej przekształcenie

24 2. Detekcja twarzy w oparciu o wykrywanie obszarów o kolorze skóryRysunek 2.1 Nieliniowa korekcja gamma.nabiera nieliniowego charakteru. Przebiegi funkcji g(x) w zależności od wartości a przedstawionesą na rysunku 2.1.2.1.1 Korekcja kolorówW kolejnym kroku należy wyszukać referencyjny kolor biały, za który uznawana jestśrednia z 5% pikseli o największej średniej wartości jasności. Idee tę można wyjaśnić następująco:najpierw należy przekształcić obraz tak, aby zakodowany był tylko na jednymkanale (a więc uśrednić wartość każdego piksela bazując na jego trzech składowych). Następnienależy obliczyć wartość γ, która będzie średnią jasnością z 5% najjaśniejszych pikselina tym obrazie. Na tej podstawie obliczany jest współczynnik λ, przez który mnożonesą wartości pikseli wszystkich trzech kanałów oryginalnego obrazu. Celem tego działaniajest doprowadzenie do stanu, w którym średnia jasność 5% pikseli definiujących referencyjnykolor biały osiąga maksymalną wartość w wykorzystywanym formacie kodowaniaobrazu (np. 255 w przypadku obrazu kodowanego z wykorzystaniem 24 bitów na piksel).Przykładowo, współczynnik ten może być więc obliczony w następujący sposób:λ = 255γ(2.5)2.2 Wykrycie pikseli o kolorze skóryAby wykrywać skórę ludzi na obrazach, należy przyjąć model kolorów skóry. W tymcelu należy najpierw wybrać przestrzeń kolorów, dla której model ten będzie wyprowadzony.Zgodnie z [28] najlepszą z punktu widzenia wykrywania skóry przestrzenią kolorówjest przestrzeń T SL (tint-saturation-luma).W opisywanym algorytmie wybrana została przestrzeń Y C b C r , ze względu na jej podobieństwoto przestrzeni T SL – w obu chrominancja i luminancja nie są od siebie zależne,a podprzestrzeń zawierająca kolory skóry jest spójna. Dodatkową zaletą jest popularność

2.2. Wykrycie pikseli o kolorze skóry 25modelu Y C b C r – jest on powszechnie stosowany w systemach kodowania i przetwarzaniaobrazów. Następnie należy zdefiniować podprzestrzeń zawierającą kolor skóry. W tymcelu ręcznie wybiera się z wielu fotografii fragmenty zawierające skórę. W ten sposób wyselekcjonowanepiksele tworzą szukaną podprzestrzeń. W tym wypadku, wykorzystanychzostało 137 fotografii 9 osób, z których uzyskanych zostało 853 571 pikseli, które stworzyłypodprzestrzeń kolorów określającą kolor skóry. Przedstawiona jest ona na rysunku2.2. Następnym krokiem jest stworzenie modelu matematycznego, który opisze uzyskanąpodprzestrzeń.Rysunek 2.2 Klaster koloru skóry [12].2.2.1 Nieliniowa transformacja chrominancjiAutorzy artykułu zauważyli, że podprzestrzeń koloru skóry tworzy bryłę przypominającązdeformowany walec, którego podstawy leżą w płaszczyźnie C b C r , wysokość rozciągasię wzdłuż osi Y . Deformacja walca dotyczy jego dolnej i górnej części, które są zwężone.Środkowa część jest najbardziej regularna i zbliżona do walca. Środek bryły przebiega napłaszczyźnie C b Y zgodnie z zależnością:natomiast w płaszczyźnie C r Y :⎧⎪⎨ 108 + (K l−Y )(118−108)K¯C b (Y ) =l −Y minY < K l⎪⎩ 108 + (Y −K h)(118−108)Y max−K hK h < Y , (2.6)⎧⎪⎨ 154 + (K l−Y )(154−144)K¯C r (Y ) =l −Y minY < K l⎪⎩ 154 + (Y −K h)(154−132)Y max−K hK h < Y , (2.7)gdzie Y min = 16, Y max = 235 oznaczają minimalną i maksymalną wartość luminancji wprzestrzeni kolorów Y C b C r . K l = 125 może być interpretowana jako wartość na osi Y ,poniżej której walec jest zdeformowany, natomiast K h = 188 jest wartością, powyżej której

26 2. Detekcja twarzy w oparciu o wykrywanie obszarów o kolorze skórywalec jest zdeformowany. Tak więc dla zakresu wartości Y ∈ [K l , K h ] bryła definiującakolory skóry jest najbardziej zbliżona walca.Szerokość (odległość skrajnego punktu od środka, biorąc pod uwagę przekrój w płaszczyźnieC b C r ) bryły w najszerszym miejscu przybliżona może być funkcją:⎧⎪⎨ W L ci + (Y −Y min)(W ci −W L ci )KW ci =l −Y minY < K l, (2.8)⎪⎩ W H ci + (Ymax−Y )(Wc i −W Hc i )Y max−K hY > K hgdzie i ∈ r, b, oznacza parametry dotyczące odpowiednio charakterystyki bryły w płaszczyznachC r Y i C b Y . Ich wartości, estymowane na podstawie kształtu analizowanej bryły,są następujące: W Cb = 46.97, W Cr = 38.76, W L Cb = 23, W H Cb = 14, W L Cr = 20,W H Cr = 10.Aby ułatwić rozpoznawanie pikseli koloru skóry, wykonywana jest nieliniowa transformacjaw postaci:⎧( ⎪⎨ Ci (Y ) − ¯C i (Y ) ) W·ciC i(Y ′ ) =+ ¯C W ci (Y ) i (K h ) Y /∈ [K l , K h ]. (2.9)⎪⎩ C i (Y ) Y ∈ [K l , K h ]Ma ona na celu przekształcenie przestrzeni w taki sposób, żeby bryła definiująca interesującynas obszar zmieniła kształt na taki, który bardziej przypomina walec. W tensposób eliminowane są deformacje zwężające walec w dolnej i górnej części. Ten zabiegpozwala na łatwą selekcję pikseli definiujących kolor skóry: wystarczy rzutować przekształconepunkty na płaszczyznę C b C r i sprawdzić, czy znajdują się w obszarze podstawywalca. W tym celu przekształcony punkt należy przesunąć tak, żeby środek osi bryły(c x , c y ) = (109.38, 152.02) znajdował się w punkcie (0, 0) i obrócić wokół tego punktu okąt θ = 2, 53 radiana: [ [ ] [ ]x cos θ sin θ C′=b − c xy]− sin θ cos θ C r ′ . (2.10)− c yObrót ten pozwala łatwo sprawdzić warunek zawierania się punktu w analizowanej bryle:wystarczy sprawdzić, czy otrzymany punkt (x, y) zawiera się w elipsie o środku w punkcie(ec x , ec y ) = (1.60, 2.41) i półosiach a = 25.39, b = 14.03:(x − ec x ) 2a 2 + (y − ec y) 2b 2 1. (2.11)Powyższą procedurę należy przeprowadzić dla wszystkich pikseli obrazu. Te, które spełniąwarunek 2.11 powinno zaklasyfikować się jako piksele przedstawiające skórę. Rozważaniadotyczące możliwości zrealizowania końcowego przesunięcie o (ec x , ec y ) przy przesunięciuo (c x , c y ) (wzór 2.10) zawarte są w sekcji 4.1. Otrzymaną w ten sposób mapę należypoddać dalszej analizie, która ma na celu wyróżnienie potencjalnych kandydatur twarzy.W tym celu konieczne jest zgrupowanie leżących obok siebie pikseli koloru skóry, tak, abystworzyć maski, które poddawane będą dalszej weryfikacji.2.3 Detekcja oczuKolejnym krokiem na drodze do wykrycia twarzy jest analiza znalezionych masek podkątem zawartości charakterystycznych dla twarzy elementów. Najbardziej wyróżniającymisię cechami twarzy są oczy i usta, na nich właśnie skupiła się uwaga autorów artykułu.

2.3. Detekcja oczu 27Tworzone są dwie mapy wykorzystywane do detekcji oczu, pierwsza z nich na podstawiechrominancji:M c = 1 [(C23 b ) + ( ˜C2r ) + (Cb /C r ) ] , (2.12)gdzie, zakładając że maksymalna wartość chrominancji wynosi 255:˜C r = 255 − C r . (2.13)Wartości (C 2 b ), ( ˜C r2) oraz (Cb /C r ) znormalizowane są do przedziału [0, 255]. Stworzona wten sposób mapa przyjmie największe wartości w miejscach, w których wartość niebieskiejchrominancji jest największa, natomiast mała jest wartość chrominancji czerwonej.Druga mapa uzyskiwana jest na podstawie wartości luminancji:M l = Y (x, y) ⊕ g σ(x, y)Y (x, y) ⊖ g σ (x, y) + 1 , (2.14)gdzie ⊕ oznacza operator dylatacji, zdefiniowany w [14] jako operator działający na funkcjęf(x) funkcją strukturyzującą (structuring function) g(x):(f ⊕ g)(x) = supt∈G∩ ˆD −x{f(x − t) + g(t)} . (2.15)Natomiast ⊖ oznacza operator erozji, zdefiniowany jako:(f ⊖ g)(x) = inft∈G∩D −x{f(x + t) − g(t)} . (2.16)Oznaczenie D x określa przesunięcie D, D x = x + t : x ∈ D, ˆD oznacza odwrócenie D,ˆD = x : −x ∈ D. Funkcja f i g zdefiniowane są odpowiednio: f : D ⊂ R n → R,g : G ⊂ R n → R . W przypadku omawianego algorytmu, funkcje f i g są dwuwymiarowe,określają obraz i element strukturyzujący przedstawione w skali szarości. W wersji dyskretnej,zamiast operatora sup (supremum), wykorzystywany jest operator max, zamiastoperatora inf (infimum) wykorzystywany jest operator min. Funkcja strukturyzująca jestmacierzą o określonych wymiarach (zarówno wysokość jak i szerokość powinny być nieparzyste).Operacja dylatacji w wersji dyskretnej polega więc na przykładaniu środkamacierzy strukturyzującej do każdego piksela na obrazie, dodawaniu odpowiednich elementówz macierzy do odpowiednich elementów z otoczenia piksela i wybieraniu spośródtych wartości maksimum. Analogicznie działa operator erozji.W opisywanym algorytmie wykorzystywana jest funkcja strukturyzująca w postacipółsfery, przykład takiej funkcji w postaci ciągłej przedstawiony jest na rysunku 2.3.Wyrażenie 2.14 przyjmie największe wartości dla pikseli, w których otoczeniu znajdująsię zarówno piksele o dużej wartości jasności, jak i piksele o małej wartości jasności.W rezultacie powstanie mapa, która największe wartości będzie przyjmować w mocnozmiennych fragmentach obrazu. Zgadza się to z intuicyjnym przypuszczeniem – fragmentyzdjęć zawierające oczy są zwykle mocno kontrastowe.Otrzymane mapy M c i M l są normalizowane do przedziału [0, 255], a następnie mnożoneprzez siebie w celu uzyskania finalnej mapy oczu:M e = M c · M l . (2.17)Uzyskana w ten sposób mapa ma największe wartości w miejscach, w których przypuszczalnieznajdują się oczy.

28 2. Detekcja twarzy w oparciu o wykrywanie obszarów o kolorze skóryRysunek 2.3 Przykładowa funkcja strukturyzująca w postaci półsfery.2.4 Detekcja ustUsta poszukiwane są na potencjalnym obszarze twarzy zgodnie z intuicyjną przesłanką– usta są zwykle najbardziej czerwonym fragmentem twarzy. Autorzy artykułu zauważyli,że wyrażenie C 2 r przyjmuje duże wartości w obszarach obrazu reprezentujących usta, natomiastwyrażenie C r /C b przyjmuje w tych regionach małe wartości w porównaniu z resztąobszaru twarzy. Mapa ust, stworzona z uwzględnieniem powyższych obserwacji przybierapostać:gdzie η jest określone jako:M m = C 2 r · (C 2 r − η · C r /C b) 2, (2.18)η = 0.95 ·1n∑1n(x,y)∈FG∑(x,y)∈FGC r (x, y) 2C r (x, y)/C b (x, y) , (2.19)gdzie n oznacza liczbę pikseli w obrębie analizowanego regionu skóry FG (maski twarzy).Wartości Cr2 i C r /C b są normalizowane do przedziału [0, 255]. Współczynnik η uzależniawartości tworzonej mapy od średniej wielkości składowej czerwonej i odwrotności jejśredniego stosunku do składowej niebieskiej w analizowanym obszarze. Zabieg ten ma nacelu dopasowanie zachowania algorytmu do różnych twarzy – dzięki temu usta wykrytezostaną zarówno na mocno rumianej, jak i na bladej twarzy.2.5 Końcowa weryfikacjaW ostatniej fazie algorytmu informacje o potencjalnych regionach obrazu przedstawiającychtwarze, oczy i usta są ze sobą wiązane, w rezultacie otrzymywana jest informacja opołożeniu twarzy na obrazie. Dokładne informacje na ten temat podane są w [11], artykułten nie był jednak dostępny, kiedy algorytm był implementowany. Zastosowane zostałasamodzielnie opracowana metoda, która przedstawiona jest poniżej. Wgląd do artykułuudało się uzyskać tuż przed końcem tworzenia pracy, opis metod w nim zawartychprzedstawiony jest z w dodatku A.

2.5. Końcowa weryfikacja 292.5.1 Segmentacja obszarów o kolorze skóryW pierwszej kolejności wykonywany jest podział obrazu na obszary, które będą dalejanalizowane. Segmentacja ta przeprowadzana jest w oparciu o uzyskany obraz pikseli koloruskóry z wykorzystaniem algorytmu wyszukiwania konturów, opisanego w [27]. Jegoimplementacja dostępna jest w bibliotece OpenCV. Nie jest wykorzystywana topologiakonturów, jedynie informacja o tym, że dany zbiór pikseli tworzy spójny obszar. Z uzyskanegokonturu wybierane są cztery skrajne piksele, tworzące prostokąt opisany na danymregionie skóry. Jeden z prostych algorytmów, który może być wykorzystany w celu przeprowadzeniasegmentacji i ekstrakcji konturów tak uzyskanych sylwetek, opisany jest wzałączniku B.Regiony skóry w kształcie prostokątów, które mają być dalej analizowane są najpierwsprawdzane pod kątem wielkości. Jeśli spełniony jest poniższy warunek, dany region jestodrzucany:S w > I w · α s lub S h > I h · α s , (2.20)gdzie S w oznacza szerokość analizowanego regionu, S h jego wysokość, I h to wysokośćcałego obrazu, I w jego szerokość, α s to współczynnik algorytmu.Kontury uzyskane w dalszej części działania algorytmu również są sprawdzane podkątem wielkości:Cont count < S w · S h · α c . (2.21)Jeśli warunek ten jest spełniony, dany kontur nie jest dalej analizowany. Cont count określaliczbę pikseli wchodzących w skład sylwetki, na podstawie której otrzymany został kontur,α c jest parametrem algorytmu.2.5.2 Ekstrakcja położenia oczuW celu wykrycia dokładnego położenia oczu, na podstawie uzyskanych wcześniej maptworzona jest nowa mapa:M = (M c · M l )/255 + α m · M m ; α m < 0. (2.22)Od iloczynu map oczu uzyskanych na podstawie luminancji i koloru (znormalizowanychdo przedziału wartości [0, 255]), odejmowana jest mapa ust, ze współczynnikiem α m , któryprzekazywany jest jako parametr algorytmu, jego domyślna wartość to α m = −2. Uzasadnionejest to obserwacją, że czasami oczy wykrywane były w obszarze ust – wprowadzenietego dodatkowego elementu do wyrażenia na finalną mapę oczu eliminuje ten niekorzystnyefekt. Mapa M tworzona jest tylko na obszarach, które zaklasyfikowane zostały jakoskóra, dodatkowo zwężonych przy pomocy morfologicznej operacji erozji. Ogranicza toliczbę wykrytych fałszywych oczu na granicy twarzy.Dla tak uzyskanej mapy M obliczany jest histogram. Na podstawie histogramu wyszukiwanajest wartość maksymalnej jasności uzyskanej w tym obszarze I max . W celu usunięciazakłóceń przyjęte jest założenie, że na analizowanym obszarze powinny znajdowaćsię co najmniej 3 piksele o jasności, która przyjęta zostanie jako maksymalna. Następniemapa M jest poddawana półprogowaniu, zerowane są wszystkie piksele, których jasnośćjest mniejsza niż I max − I eye interval :⎧⎨i(x, y) jeśli i(x, y) > I max − I eye intervali(x, y) =. (2.23)⎩0 w przeciwnym wypadku

30 2. Detekcja twarzy w oparciu o wykrywanie obszarów o kolorze skóryWartość I eye interval przekazywana jest jako parametr algorytmu, jej domyślna wartośćwynosi I eye interval = 30.Uzyskane w ten sposób piksele są grupowane w celu ostatecznego ustalenia pozycjioczu na obrazie. Spsób postępowania jest podobny jak w przypadku segmentacji obrazuna obszary skóry. Jako środek oka przyjmowany jest środek prostokąta opisanego nawyselekcjonowanym obszarze oka.2.5.3 Ekstrakcja położenia ustPołożenie ust obliczane jest analogicznie do położenia oczu, jako mapa wejściowa przyjmowanajest niezmodyfikowana mapa ust:2.5.4 Weryfikacja istnienia twarzyM = M m (2.24)Obszary obrazu, na których wykryta została skóra, a następnie cechy charakterystycznetwarzy, czyli oczy i usta, poddawane są dalszej analizie w celu podjęcia ostatecznejdecyzji czy dany region przedstawia twarz.Eksperymenty pokazały, że czasami jedno oko znajdujące się na obrazie było wykrywanejako dwoje lub więcej oczu. Ta sama sytuacja dotyczyła ust. Aby pozbyć się tegoniekorzystnego zjawiska, wprowadzona została filtracja. Przyjęta została wartość progowa:√T dist = C x · Sw 2 + Sh 2, (2.25)gdzie S w oznacza szerokość analizowanego podobrazu, S h jego wysokość, C x ∈ {C e , C m }są współczynnikami algorytmu odpowiednio dla łączenia oczu i ust. Para oczu (ust) znajdującesię w odległości mniejszej od ustalonego progu T dist przekształcana jest do pojedynczegooka (ust). Położenie nowego elementu obliczane jest jako średnia współrzędnychelementów, z których został on stworzony.Dalszej analizie poddawane są tylko te obszary, dla których wykrytych zostało więcejniż jedno, ale mniej niż pięcioro oczu, oraz więcej niż jedne, ale mniej niż cztery usta.Zasada ta, ustalona na drodze eksperymentu, ma na celu odfiltrowanie obszarów, którenie przedstawiają twarzy. Dla takich obszarów oczy i usta zostaną wykryte, ze względuna sposób w jaki jest to realizowane: wybierane są najjaśniejsze miejsca na uzyskanychmapach. W obszarach obrazu nie przedstawiających twarzy miejsc takich może być sporo,ze względu na brak poszukiwanych cech, których duże wartości na obliczonych mapachpowodują wyeliminowanie przypadkowych pozycji (zgodnie ze wzorem 2.23)Dla każdej trójki (dwojga oczu i pojedynczych ust) przeprowadzana jest następującaprocedura:1. obliczenie wzajemnych odległości i sprawdzenie, czy mieszczą się one w ustalonychprzedziałach:d ee ∈ [1 − c ee · d avg em , 1 + c ee · d avg em ], (2.26)orazd e1 m ∈ [1 − c em · d e2 m, 1 + c em · d e2 m], (2.27)gdzie d ee to odległość między oczyma, d e1 m i d e2 m określają odległości oczu od ust,c ee i c em to współczynniki algorytmu,d avg em = (d e1 m + d e2 m)/2, (2.28)

2.5. Końcowa weryfikacja 312. znalezienie symetralnej odcinka łączącego oczy i obliczenie √ odległości ust od niej;sprawdzenie, czy odległość ta jest mniejsza od C nm· Sw 2 + Sh 2, gdzie C nm jest współczynnikiemalgorytmu, jego domyślna wartość to 0.01.Jeśli powyższe postępowania da pozytywny wynik, analizowany obszar klasyfikowany jestjako twarz.

Rozdział 3Implementacja algorytmuW celu zweryfikowania jakości działania algorytmu opisanego w rozdziale 2, sprawdzeniamożliwości jego modyfikacji i ewentualnych ulepszeń, podjęta została próba jegoimplementacji. Można wyróżnić dwa jej etapy – podczas pierwszego uwaga skupiona byłagłównie na realizacji operacji związanych z przetwarzaniem informacji niesionych przezmapy kolorów obrazu, w czasie realizacji drugiej części zadania implementacja zostaładoprowadzona do ostatecznej postaci.3.1 Pierwszy etap implementacji algorytmuW pierwszym podejściu podjęta została próba implementacji wybranego algorytmubez wykorzystania wysokopoziomowych bibliotek do przetwarzania obrazów, wyłączniez wykorzystaniem języka C. Cała funkcjonalność została zawarta w bibliotece współdzielonej.Znacznie ułatwia to twórcom aplikacji wykorzystanie zaimplementowanych metod.Wystarczy, że dołączą oni do swojego programu pliki nagłówkowe biblioteki, oraz umieszcząpliki binarne biblioteki w odpowiednim miejscu systemu operacyjnego. Podstawowąstrukturą wykorzystywaną do opisywania przetwarzanych obrazów jest struktura image,której pola wyszczególnione są w tabeli 3.1.widthheightbytes per pixelimageokreśla szerokość obrazu w pikselachokreśla wysokość obrazu w pikselachokreśla liczbę bajtów, na ilu kodowana jest informacjao jednym pikseluzawiera wskaźnik na obszar pamięci zawierający obraz;wielkość tego obszaru może być obliczona na podstawiepozostałych parametrówTabela. 3.1 Struktura image wykorzystywana do opisywania obrazów.3.1.1 Korekcja gammaAby przyśpieszyć operację korekcji gamma, charakterystyka, według której ta operacjajest przeprowadzana, obliczana może być funkcją eval gamma correction() (tabela 3.2).Obliczoną w ten sposób charakterystykę można zastosować do przekształcenia obrazu zapomocą funkcji apply gamma correction(), której argumenty przedstawione są w tabeli3.3

34 3. Implementacja algorytmua współczynnik a determinujący intensywność korekcji(wzór 2.3)array wskaźnik na tablicę, która zostanie zarezerwowana w pamięcii w której zapisane będą poszczególne punkty charakterystykilength długość powyższej tablicyTabela. 3.2Parametry funkcji eval gamma correction().imgarraylengthstepreprezentuje obraz, który ma być poddany przekształceniutablica zawierająca poszczególne punkty charakterystyki,wg której obraz zostanie przekształconydługość powyższej tablicyskok przetwarzania obrazuTabela. 3.3Argumenty funkcji apply gamma correction().3.1.2 Korekcja barwStuktura rgb correction factors jest wykorzystywana do przekazywania informacjio korekcji barw. Jej pola przedstawione są w tabeli 3.5. Pola red, green i blue zaredgreenbluered lumgreen lumblue lumref pixels volumewspółczynnik korekcji koloru czerwonegowspółczynnik korekcji koloru zielonegowspółczynnik korekcji koloru niebieskiegowaga kanału czerwonego używana przy obliczaniu najjaśniejszychpikseliwaga kanału zielonego używana przy obliczaniu najjaśniejszychpikseliwaga kanału niebieskiego używana przy obliczaniu najjaśniejszychpikseliliczba najjaśniejszych pikseli, które uznane zostaną za referencyjnykolor biały (zgodnie z opisem w 2.1.1)Tabela. 3.4 Pola struktury rgb correction factorswierają współczynniki, które wykorzystane będą do przeprowadzenia korekcji kolorów.Mogą one zostać obliczone z wykorzystaniem funkcji eval lum corr factors char() lubeval rgb corr factors char(). Działanie funkcji eval rgb corr factors char() polegana rozciągnięciu histogramów poszczególnych kanałów obrazu tak, aby liczba pikselio jasności 255 w każdym z nich wynosiła ref pixels volume. Działanie funkcjieval lum corr factors char() jest podobne, referencyjny kolor biały obliczany jest jednakjako suma jasności z trzech kanałów z wagami red lum, green lum i blue lum.

3.1. Pierwszy etap implementacji algorytmu 35imgfactorsstepsstruktura opisująca obraz dla którego wyliczone mają byćparametry korekcjistruktura rgb correction factors, przez którą przekazywanesą parametry wejściowe do obliczenia współczynnikówkorekcji oraz wynik tych obliczeńskok przetwarzania obrazuTabela. 3.5 Argumenty przyjmowane przez funkcje eval lum corr factors char()i eval rgb corr factors char()3.1.3 Wykrycie koloru skóryKlasyfikacja pikseli jako potencjalnie przedstawiających kolor skóry, odbywa się zgodnieze wzorami 2.9, 2.11. Zarówno parametry nieliniowej transformacji chrominancji, jaki parametry elipsy przekazywane są w strukturach jako argumenty funkcji find skin(),która rozpoznaje piksele koloru skóry (jej argumenty przedstawione są w tabeli 3.6). Każdypiksel obrazu powinien opisany być 3 bajtami: pierwszy definiuje luminancję, drugi składowąniebieską, trzeci składową czerwoną. Po zakończonym działaniu każdemu pikselowina wszystkich 3 bajtach go definiujących, przypisywana jest wartość 255, jeśli wykrytypiksel oznaczony został jako skóra, lub 0 w przeciwnym wypadku. Pole steps umożliwiazdefiniowanie skoku przetwarzania obrazu, a więc na przykład określenie, że przetwarzanyma być co drugi piksel w poziomie i co trzeci w pionie. W zamyśle funkcjonalność ta miałabyć wykorzystywana w celu przyśpieszenia obliczeń dla dużych obrazów bez koniecznościzmieniania ich rozmiarów.image informacje o obrazie, w postaci struktury opisanej w tabeli3.1steps skok przetwarzania obrazuclus params parametry opisujące klaster koloru skóry (2.8, 2.6, 2.7)ellipse params parametry opisujące elipsę (2.11)Cb spre wskaźnik na tablicę zawierającą wartości określające szerokośćklastra składowej niebieskiejCr spre wskaźnik na tablicę zawierającą wartości określające szerokośćklastra składowej czerwonejCb cen wskaźnik na tablicę zawierającą wartości określające środekklastra składowej niebieskiejCr cen wskaźnik na tablicę zawierającą wartości określające środekklastra składowej czerwonejclust size rozmiar czterech powyższych tablic (są one jednakowejdługości)Tabela. 3.6 Argumenty funkcji find skin() wykorzystywanej do detekcji koloru skóry.Wskaźniki na tablice opisujące środki i szerokości klastrów składowej niebieskiej iczerwonej powinny być obliczone z wykorzystaniem funkcji eval clusters(), której argumentyprzedstawione są w tabeli 3.7.W skład struktury params, zawierającej parametry definiujące kształt obliczanychklastrów wchodzą W Cb , W Cr , W L Cb , W H Cb , W L Cr , W H Cr , K l , K h , Y min , Y max , które

36 3. Implementacja algorytmuparamsCb spreCr spreCb cenCr cenclust sizeparametry definiujące kształt obliczanych klastrówwskaźniki na tablice określające szerokości i środki klastrówskładowej niebieskiej i czerwonej, analogicznie jak wtabeli 3.6Tabela. 3.7 Argumenty funkcji eval clusters() inicjalizującej klastry.jawnie wykorzystywane są we wzorach 2.8 i 2.9. Dodatkowo, zawarte są w niej parametryCc b = 108, Cc r = 154, Ca r = −10, Ca b = 10, Cb r = −22, Cb b = 10, któreodpowiadają liczbowym wartościom we wzorach 2.6, 2.7.Ich inicjalizacja domyślnymi wartościami (przedstawionymi w rozdziale 2), może byćprzeprowadzona z wykorzystaniem funkcji init clus params(), która jako argumentprzyjmuje wskaźnik na strukturę params.Wydzielenie zadania obliczenia kształtu klastrów do osobnej funkcji ma na celu przyśpieszeniedziałania biblioteki. Dzięki temu twórca aplikacji może zainicjalizować klastrytylko raz w trakcie działania programu, a następnie korzystać z wartości przechowywanychw pamięci.Struktura ellipse params przekazywana jako argument do funkcji find skin() zawieraparametry elipsy: c x , c y , θ, ec x , ec y , a, b. Elipsa ta wykorzystywana jest do wyodrębnieniapikseli koloru skóry po zrzutowaniu analizowanego punktu na płaszczyznę C b C r ,zgodnie ze wzorem 2.11. Inicjalizacja parametrów elipsy może być przeprowadzona z wykorzystaniemfunkcji init ellipse params(), która jako argument przyjmuje wskaźnikna strukturę ellipse params.3.1.4 Segmentacja wykrytych obszarów skóryW celu podziału obrazu z wykrytymi kolorami skóry zaimplementowana została funkcjasegmentation(), z argumentami przedstawionymi w tabeli 3.9. Każdy wyróżnionyregion otrzymuje unikalny identyfikator. Numer regionu do którego przynależy każdy pikselzapamiętywany jest w strukturze image regions (tabela 3.8).datawidthheightwskaźnik na obszar pamięci zawierający identyfikatory segmentówdla poszczególnych pikseli obrazuwysokość obrazuszerokość obrazuTabela. 3.8 Pola struktury image regions zawierającej identyfikatory wyróżnionych obszarówdla poszczególnych pikseli obrazy3.1.5 Wykrywanie oczuObliczanie mapy oczu na podstawie chrominancji (2.12) zaimplementowane jest wfunkcji find eyes() (tabela 3.10).

3.1. Pierwszy etap implementacji algorytmu 37processed imageregions resultregions countregions numberresultstepsobraz uzyskany w wyniku działania funkcji find skin()wskaźnik na strukturę image regions, zawiera informacjeo identyfikatorze przypisanym do każdego z pikseli obrazuwskaźnik na tablicę, która zostanie stworzona w trakciedziałania funkcji, zapisane zostaną w niej identyfikatoryprzydzielona poszczególnym obszaromzmienna, w której zapisanych zostanie liczba znalezionychobszarówstruktura typu image char, zawierać będzie ona obraz, wktórym każdy wydzielony obszar będzie miał inny kolor;obraz może być wykorzystany w celu graficznej reprezentacjiwydzielonych obszarówskok przetwarzania obrazuTabela. 3.9 Argumenty funkcji segmentation() dokonującej podziału obrazu na regiony.orig imageprocessed imageresultstepsoryginalny obraz w formacie Y C b Crobraz przedstawiający wykryte piksele koloru skóry, wykorzystywanyjako maska, obliczenia przeprowadzane sątylko w regionach, które zaklasyfikowane zostały jako skórastruktura typu image char, w której zawarty będzie rezultatdziałania funkcjiskok przetwarzania obrazuTabela. 3.10 Argumenty funkcji find eyes() obliczającej mapę oczu na podstawie składowychchrominacji.

38 3. Implementacja algorytmuObliczanie mapy oczu na podstawie luminancji (2.14) zaimplementowane jest w funkcjidilation erosion() (tabela 3.12). Funkcja strukturyzująca wykorzystywana w tejoperacji definiowana jest z wykorzystaniem struktury struc func (tabela 3.11).radiuscoefsliczba całkowita definiująca w pikselach promień otoczeniana którym działa funkcja strukturyzującawskaźnik na tablicę zawierająca wagi poszczególnych pikseliz otoczenia; pierwsza wartość określa wagę lewego górnegopunktu otoczenia; następne wartości definiują wagikolejnych punktów górnego oraz pozostałych wierszyTabela. 3.11 Pola struktury struc func.orig imageprocessed imageresultstepsparamsoryginalny obraz w formacie Y C b Crobraz przedstawiający wykryte piksele koloru skóry, wykorzystywanyjako maska, obliczenia przeprowadzane sątylko w regionach, które zaklasyfikowane zostały jako skórastruktura typu image char, w której zawarty będzie rezultatdziałania funkcjiskok przetwarzania obrazustruktura typu struc func definiująca funkcję strukturyzującą.Tabela. 3.12 Argumenty funkcji dilation erosion() obliczającej mapę oczu na podstawieluminancji.Obie uzyskane mapy oczu mogą być połączone w jedną z wykorzystaniem funkcjimerge eyes maps() (tabela 3.13). Wynikiem działania funkcji jest obraz powstały w poprzezpołączenie map, oraz lista ze współrzędnymi wykrytych oczu. Sposób reprezentacjitej listy przedstawiony jest w tabeli 3.14.3.1.6 Wykrywanie ustObliczanie mapy ust zaimplementowane jest w funkcji find mouth var eta(). Wynikiemjej działania jest obraz przedstawiający uzyskaną mapę oraz lista wykrytych ust(tabela 3.15).3.2 Nakładka graficznaW celu przetestowania biblioteki opisanej w sekcji 3.1 zaimplementowana została aplikacjagraficzna. Stworzona została ona z wykorzystaniem biblioteki Qt. Umożliwia onawczytanie wielu obrazów, które wyświetlane są w dwóch kolumnach (rysunek 3.2), przyczym każdy z nich prezentowany jest w dwóch wersjach. Wybór trybu w jakim wyświetlanyjest obraz dokonywany jest z wykorzystaniem dwóch osobnych rozwijanych list, widocznychw lewym dolnym rogu okna aplikacji. Na zamieszczonym rysunku są one zwinięte.Dostępne są następujące tryby prezentacji obrazów:

3.2. Nakładka graficzna 39color imgdil er imglips imgregions imgregions numberregions countresult imgregions listmapa oczu uzyskana na podstawie chrominancjimapa oczu uzyskana na podstawie luminancjimapa uststruktura zawierająca podział obrazu na regiony skóryliczba regionówwskaźnik na tablicę zawierająca identyfikatory regionówstruktura w której zawarty będzie obraz przedstawiającypołączone mapy oczulista region data zawierająca współrzędne wykrytychoczuTabela. 3.13 Argumenty funkcji merge eyes map() łączącej mapy oczu.listparent region idxyregion countstruktura typu list head pochodząca z jądra Linuxa; dołączeniejej do innej struktury umożliwia wygodne tworzeniei zarządzanie listami tych strukturidentyfikator regionu do którego przynależy znaleziony elementwspółrzędna pozioma elementuwspółrzędna pionowa elementuliczba pikseli wchodzących w skład elementuTabela. 3.14 Pola struktury region data wykorzystywanej do przekazywania informacjio znalezionych elementach.orig imgregions imgregions numberregions countresultregions resultregions listobraz oryginalnystruktura zawierająca podział obrazu na regiony skóryliczba regionówwskaźnik na tablicę zawierająca identyfikatory regionówobraz, który przedstawiał będzie mapę ustobraz, na którym każdemu z obszarów wyróżnionych jakousta przyporządkowany będzie inny kolorlista region data zawierająca współrzędne wykrytych ustTabela. 3.15 Argumenty funkcji find mouth var eta() wyszukującej usta.

40 3. Implementacja algorytmuRysunek 3.1 Główne okno aplikacji graficznej wykorzystującej stworzoną bibliotekę.Original oryginalny obraz,Balanced obraz poddany korekcji kolorów,Processed obraz przedstawiający wynik wyszukiwania koloru skóry,Post processed obraz poddany dodatkowym transformacjom koloru,Segmented obraz przedstawiający wydzielone regiony koloru skóry, każdy z nich ma natym obrazie inną barwę,Eroded obraz przedstawiający wynik wyszukiwania koloru skóry, poddany dylatacji,Eyes - color map obraz przedstawiający mapę oczu uzyskaną na podstawie chrominancji,Eyes - dilation&erosion obraz przedstawiający mapę oczu uzyskaną na podstawie luminancji,Eyes - both methods merged obraz uzyskany w wyniku połączeniu obu map oczu,

3.3. Drugi etap implementacji algorytmu 41Lips map obraz przedstawiający mapę ust.Jednym z celów, dla którego aplikacja została stworzona, było zbadanie zmian w działaniualgorytmu spowodowanych modyfikacją wartości jego ustawień. Program umożliwiaustawianie następujących parametrów:• kształtu klastrów koloru skóry,• kształtu i położenia elipsy,• ustawień wykorzystywanych przy tworzeniu mapy oczu na podstawie luminancji.Edycja parametrów przeprowadzana jest w osobnych oknach, których pojawienie się wywoływanejest z menu widocznego w lewym górnym rogu aplikacji (przykładowe oknoprzedstawione jest na rysunku 3.2). Po ustawieniu nowych parametrów, obrazy uaktualniająsię automatycznie w przypadku ustawień dotyczących klastrów, w pozostałychprzypadkach wymagane jest wciśnięcie odpowiedniego przycisku. Stan aplikacji (processing/done)wyświetlany jest w lewej dolnej części głównego okna.Rysunek 3.2 Okno umożliwiające modyfikację parametrów elipsy.3.3 Drugi etap implementacji algorytmuNastępna część implementacji algorytmu przeprowadzona została z wykorzystaniembiblioteki OpenCV. Jedyną funkcjonalnością biblioteki opisanej w sekcji 3.1, która wykorzystanazostała w drugim etapie, jest wykrywanie koloru skóry. Pozostała część algorytmuzostała przepisana z wykorzystaniem bazowych funkcji przetwarzania obrazu dostępnychw OpenCV. Tak jak w pierwszej fazie, w tym przypadku również cała funkcjonalnośćwykrywania twarzy zaimplementowana została w bibliotece współdzielonej.Interfejs programowy tej biblioteki jest o wiele prostszy, składa się tylko z jednej funkcjiFaceDetect(), przyjmującej jako parametry obraz na którym wyszukane mają być twarzeoraz strukturę konfiguracyjną FaceDetectionParams. Pola tej struktury przedstawionesą w tabeli 3.16. W przypadku argumentów funkcjonujących jako przełączniki wartość0 oznacza wyłączenie danej funkcji, wartość różna od 0 oznacza jej włączenie.

42 3. Implementacja algorytmuskinParams struktura SkinDetectionParams, opisana w tabeli 3.18eyesParams struktura EyesDetectionParams, opisana w tabeli 3.17showEyesLumMap włączenie wyświetlania obrazów przedstawiających mapyoczu utworzone na podstawie luminancji dla poszczególnychregionów skóryshowEyesColMap włączenie wyświetlania obrazów z mapami oczu utworzonymina podstawie składowych chrominancji dla poszczególnychregionów skóryshowLipsMap włączenie wyświetlania obrazów z mapami ust utworzonymidla poszczególnych obszarów skóryshowEyesMap włączenie wyświetlania obrazów przedstawiających finalnemapy oczu dla poszczególnych obszarów skórysaveImages włączenie zapisywania obrazów; zapisywane są tylko te obrazy,których wyświetlenie włączone jest odpowiednimi parametramidrawFaceTriangle włączenie rysowania trójkąta łączącego oczy i usta, napodstawie których dany region zaklasyfikowany został jakotwarzdrawHelpers włączenie rysowania punktów w których wykryte zostałyoczy (kolor niebieski) i usta (kolor zielony)markSkinRegions włączenie rysowania prostokątów wokół obszarów skóry,które poddawane są analizieshowOriginalImage wyświetlenie/zapisanie oryginalnego obrazuprintTimes włączenie wypisywania czasu trwania fazy wyszukiwaniapikseli koloru skóry i całej operacji detekcji twarzynoImagesShow całkowite wyłączenie wyświetlania obrazów, nie wyłączazapisywania obrazóweyesMergeRatio współczynnik C e definiujący maksymalną odległość międzywykrytymi oczami, dla której nie są one łączone (sekcja2.5.4)lipsMergeRatio współczynnik C m definiujący maksymalną odległość międzywykrytymi ustami, dla której nie są one łączone (sekcja2.5.4)eyeMouthDistCoef współczynnik c em określający maksymalny stosunek odległościoczu od ust (sekcja 2.5.4)eyeEyeDistCoef współczynnik c ee określający maksymalną odległość miedzyoczyma względem rozmiaru twarzy (sekcja 2.5.4)maxLipsNormalDistRatio współczynnik C nm definiujący maksymalną odległość ustod symetralnej odcinka między oczyma (sekcja 2.5.4)saveName przyrostek nazw plików w których zapisane zostaną obrazyprzedstawiające włączone rezultaty poszczególnych etapówdziałania algorytmuciąg dalszy tabeli na następnej stronie

3.3. Drugi etap implementacji algorytmu 43ciąg dalszy tabeli z poprzedniej stronybeVerbosebeSilentwłączenie trybu wypisywana większej ilości informacji oprzebiegu działania programucałkowite wyłączenie wypisywania informacji z przebiegudziałania programuTabela. 3.16 Pola struktury FaceDetectionParams wykorzystywanej do konfiguracji algorytmuwykrywania twarzy.lumMapGammaCorrcolMapGammaCorrmaskErodeRatiomaskCloseRatiolipsMaskCoefeyesCutoffwspółczynnik a korekcji gamma przeprowadzanej na regionieobrazu przed utworzeniem z niego mapy oczu napodstawie luminancjiwspółczynnik a korekcji gamma przeprowadzanej na regionieobrazu przed utworzeniem z niego mapy oczu napodstawie składowych chrominancjiliczba operacji erozji na masce przedstawiającej twarzprzed łączeniem map oczuliczba operacji morfologicznego domknięcia na masceprzedstawiającej twarz przed łączeniem map oczuwaga mapy ust przy tworzeniu finalnej mapy oczu (współczynnikα m we wzorze 2.22)szerokość przedziału jasności, z którego piksele klasyfikowanesą jako potencjalnie przedstawiające oczy (współczynnikI eye interval we wzorze 2.23)Tabela. 3.17oczu.Struktura EyesDetectionParams przechowująca parametry wykrywaniamaxSkinAreaRatiominSkinContourRatioextensionRatioshowSkinRegionfirstErosionwspółczynnik α s determinujący maksymalną wielkość regionuskóry, zgodnie ze wzorem 2.20współczynnik α c wykorzystywany do odrzucania zbyt małychkonturów zgodnie ze wzorem 2.21liczba pikseli o jaką rozszerzany jest prostokąt otaczającyanalizowany region skóry, dla którego obliczane będą mapyoczu i ustwłączenie wyświetlania obrazu przedstawiającego efektwykrywania pikseli koloru skóryliczba erozji przeprowadzanych po wykryciu pikseli koloruskóry, przed segmentacjąTabela. 3.18skóry.Struktura SkinDetectionParams przechowująca parametry wykrywania

44 3. Implementacja algorytmu3.4 Aplikacja stworzona w trakcie drugiego etapu implementacjiStworzony został program faceDetect, który miał ralizować dwie podstawowe funkcje:• przetestowanie biblioteki opisanej w poprzedniej sekcji,• równoczesne wykrycie twarzy z wykorzystaniem trzech metod: samodzielnie zaimplementowanej,kaskady Haara dostępnej w OpenCV oraz komercyjnego algorytmuPittPatt.Aplikacja działa w trybie wsadowym (batch processing), po jej uruchomieniu nie jestmożliwa interakcja z użytkownikiem. Wszystkie parametry przekazywane są z wierszapoleceń i parsowane z wykorzystaniem funkcji getopt(). Postać wywołania programujest zgodna z ogólnie przyjętym schematem:./nazwa programu --parametr bez wartości --parametr z wartością wartośćLista wszystkich dostępnych parametrów wraz z ich krótkim opisem wyświetlana jest powywołaniu:./faceDetect --helpWiększość parametrów, które przyjmuje program jest po sparsowaniu bezpośrednio przekazywanado zaimplementowanej biblioteki wykrywania twarzy. Nazwy ich są zgodne lubbardzo zbliżone do tych przedstawionych w tabelach 3.16, 3.17 i 3.18. Dodatkowe parametrykontrolujące działanie programu przedstawione są w tabeli 3.19, w tabeli 3.20opisane są parametry, za pomocą których kontrolować można działanie algorytmu wykorzystującegokaskady detektorów Haara [5]. W tabeli 3.21 przedstawione są parametryumożliwiające modyfikację ustawień algorytmu PittPatt.runHaarrunPittPattrunExpefileNamedrawTimesgammaGlobCorrwłączenie algorytmu kaskad Haarawłączenie algorytmu PittPattwłączenie samodzielnie zaimplementowanego algorytmu(domyślne w przypadku podania nazwy pliku)nazwa pliku z obrazem na którym wykryte mają być twarze;w przypadku jego braku podejmowana jest próba pobraniasekwencji wideo z dostępnych w systemie interfejsówkamerwłączenie wyświetlania czasu w ms przetwarzania na analizowanychobrazachwspółczynnik korekcji gamma, której poddawany jest obrazprzed uruchomieniem algorytmu wykrywania twarzyTabela. 3.19 Dodatkowe parametry aplikacji faceDetect pozwalające m.in. na kontrolęjej działania.Przykładowe wywołanie programu, uruchamiające go w trybie, w którym na obraziepobranym z kamery działają wszystkie trzy wykorzystane algorytmy wyszukiwania twarzyi wypisują czas przetwarzania na wyświetlanym wyniku przedstawia się następująco:

3.4. Aplikacja stworzona w trakcie drugiego etapu implementacji 45HaarScaleHaarMinNeighHaarMinWidthHaarMinHeightcascadeNamenestedCascadeNamescaleokreśla współczynnik zmiany skali okna dla którego obliczanesą wartości detektorów; musi być większy od 1; imta wartość większa, tym szybszy czas działania algorytmukosztem zwiększenia prawdopodobieństwa ominięcia twarzyminimalna liczba twarzy wykrytych w danym regionie dlajakiej zostanie on zaklasyfikowany jako twarz; duża wartośćzapobiega fałszywym decyzjom pozytywnym, zwiększającrównocześnie prawdopodobieństwo ominięcia twarzyminimalna szerokość regionu dla którego przeprowadzonebędzie wykrywanie twarzyminimalna wysokość regionu dla którego przeprowadzonebędzie wykrywanie twarzynazwa pliku z kaskadami Haaranazwa pliku z kaskadami Haara dla specyficznych elementówtwarzy, np. oczuwspółczynnik skalowania obrazu przed uruchomieniem nanim algorytmu HaaraTabela. 3.20 Parametry aplikacji faceDetect pozwalające na kontrolę algorytmu wykorzystującegokaskady detektorów Haara../faceDetect --runPittPatt --runExpe --runHaar --drawTimesW takiej konfiguracji programu uruchamiane są 4 wątki: pierwszy pobiera obraz z kameryi udostępnia go pozostałym wątkom. Pozostałe trzy wykorzystywane są do wykrywaniatwarzy, każdy z algorytmów uruchomiony jest w osobnym wątku. Ekran aplikacji uruchomionejw takiej konfiguracji przedstawiony jest na rysunku 3.3. Widać na nim trzyokna, w których prezentowany jest rezultat działania poszczególnych algorytmów: lewegórne odpowiada algorytmowi kaskad Haara, środkowe dolne PittPattowi, prawe górne –samodzielnie zaimplementowanemu algorytmowi.3.4.1 Problem opóźnienia przy pobieraniu obrazu z kameryZ wcześniejszych prób wykorzystania OpenCV do przetwarzania obrazu pobieranegoz kamery podłączonej przez interfejs USB znany jest problem opóźnienia wyświetlanegoobrazu w stosunku do rzeczywistości. W trakcie tworzenia implementacji problem tenzostał zbadany. Okazało się, że przyczyną jest zbyt duża wielkość bufora, która przekazywanajest jako parametr funkcji inicjalizującej pobieranie obrazu z kamery w biblioteceVideo4Linux. Wykorzystywana jest ona w bibliotece OpenCV jako tzw. third party isłuży do pobierania sekwencji wideo z kamery. Inicjalizacja jej działania w wykorzystywanejwersji OpenCV wykonywana jest w plikuOpenCV-2.2.0/modules/highgui/src/cap v4l.cppStałe określające wielkość wykorzystywanego bufora ustalane są następująco:#define MAX V4L BUFFERS 10#define DEFAULT V4L BUFFERS 4

46 3. Implementacja algorytmuPPMinSizePPMaxSizePPPrunPPThreadsPpThresholdPPtrackingminimalna szerokość i wysokość wyszukiwanych twarzymaksymalna szerokość i wysokość wyszukiwanych twarzyokreśla stopień optymalizacji wykorzystywanych w przeszukiwaniuobrazu skaliliczba wątków wykorzystywanych przez algorytmwspółczynnik decydujący o strategii algorytmu, mniejszawartość oznacza większą liczbę fałszywych decyzji pozytywnychwłączenie funkcjonalności śledzenia twarzyTabela. 3.21 Parametry aplikacji faceDetect pozwalające na kontrolę algorytmu wykorzystującegokaskady detektorów Haara.Zmiana tych wielkości na 1 i kompilacja modułu highgui biblioteki OpenCV, w składktórego wchodzi funkcjonalność pobierania obrazu z kamery rozwiązuje opisywany problem.Rozwiązanie to nie jest dobre, ponieważ uzależnia poprawne działanie aplikacji odspecjalnie przygotowanej wersji biblioteki. Może też ono wprowadzać ograniczenia, któresą trudne do zauważenia przez osobę nie znającą dokładnie kontekstu w jakim odbywasię pobieranie obrazów z kamery.Rozwiązaniem alternatywnym jest stworzenie wątku, którego jedynym zadaniem jestpobieranie obrazów z wykorzystaniem interfejsu programowego udostępnionego przez bibliotekęOpenCV. Wątek ten opróżnia bufor biblioteki Video4Linux i zapamiętuje najbardziejaktualny obraz, przekazując go do wątku w którym działa algorytm wykrywaniatwarzy, kiedy ten skończy działanie na poprzedniej klatce. To właśnie rozwiązanie zostałozastosowane w stworzonej aplikacji.

3.4. Aplikacja stworzona w trakcie drugiego etapu implementacji 47Rysunek 3.3 Reprezentacja widoku aplikacji faceDetect z równocześnie działającymitrzema metodami detekcji.

Rozdział 4BadaniaOpisane we wcześniejszym rozdziale programy zostały wykorzystane do zbadania szybkościi jakości działania trzech użytych algorytmów:• kaskad klasyfikatorów Haara zaimplementowanych w OpenCV,• komercyjnego, dostępnego w pakiecie PittPatt,• własnej implementacji algorytmu opierającego detekcję na wykrywaniu regionówo kolor skóry.W tym rozdziale zawarte są rezultaty przeprowadzonych eksperymentów, podjęta jestpróba wyjaśnienia niektórych zjawisk występujących na skutek zmiany wartości parametrówalgorytmów. Wszystkie zdjęcia wykorzystane w badaniach dostępne są jako częśćdarmowego projektu dotyczącego wykrywania twarzy AIKnowU [1].4.1 Pierwsza wersja bibliotekiNakładka graficzna opisana w sekcji 3.2, korzystająca z pierwszej wersji stworzonejbiblioteki nie została użyta do przeprowadzenia badań dających rezultaty numeryczne.Spełnia ona dwie funkcje:• reprezentacji rezultatów działania poszczególnych etapów algorytmu,• zbadania wpływu zmian poszczególnych parametrów algorytmu na jakość wykrywaniatwarzy.Badania dotyczące parametrów korekcji gamma i korekcji oświetlenia nie doprowadziłydo uzyskania satysfakcjonujących rezultatów. Ich wpływ na jakość późniejszej detekcjiskóry, oczu i ust jest mocno uzależniony od konkretnego zdjęcia. W większości przypadkówzaimplementowana korekcja pogarszała jakość działania całego algorytmu. Nie udało sięustalić parametrów, które dobrze sprawdzałaby się dla większości zdjęć. W artykule [12]na podstawie którego tworzona była implementacja, algorytm korekcji gamma i kolorównie jest jednoznacznie wyjaśniony. Niska skuteczność zawartych w bibliotece metod możewięc wynikać z implementacji nie w pełni zgodnej z oryginałem.W przypadku wykrywania pikseli koloru skóry, zmiany parametrów pogarszały jakośćdziałania, można więc założyć, że parametry klastrów skóry podane przez Hsu, Abdel-Mottaleba i Jaina[12] są dobrze dobrane.

50 4. BadaniaZmiany parametrów wykrywania oczu i ust dawały, podobnie jak w przypadku korekcjikolorów, różne rezultaty. Ich efektywność była silnie uzależniona od obrazu na którymprzeprowadzone były badania. Ostatecznie jako funkcja strukturyzująca została wybranapół-elipsoida o wysokości 9 i promieniu 5.4.1.1 Współrzędne elipsy na płaszczyźnie C b C rW końcowym etapie wykrywania koloru skóry, nieliniowo przekształcone piksele w przestrzeniY C b C r są rzutowane na płaszczyznę C b C r . Następnie sprawdzany jest warunekprzynależności danego piksela do określonej przez autorów elipsy (tak jak zostało to opisanew sekcji 2.2.1). Zostało potwierdzone, że przesunięcie środka elipsy o (ec x , ec y ) stosowaneprzez autorów artykułu we wzorze 2.11, może zostać zrealizowane we wzorze 2.10.Aby obliczyć nowe wartości (c ′ x, c ′ y) początkowego przesunięcia (c x , c y ) należy rozwiązaćukład równań:[ [ ] [ ] [ ] [ ] [x cos θ sin θ C′=b − c x ecx cos θ sin θ C′y]− sin θ cos θ C r ′ + =b − c ′ ]x− c y ec y − sin θ cos θ C r ′ − c ′ . (4.1)yPo jego rozwiązaniu otrzymujemy nowe wartości początkowego przesunięcia:[ ] [ ] [c′x cx cos θ − sin θc ′ = +y c y sin θ cos θ] [ ]ecx=ec y[ ]106.68150.96(4.2)Wartości te zostały sprawdzone i są poprawne. Wyniki przeprowadzonego eksperymentuprzedstawione są na rysunku 4.1. Maski skóry uzyskane z wykorzystaniem parametróworyginalnych (rysunek 4.1(a)) i nowych (rysunek 4.1(b)) są takie same. Wykonanie przesunięciaw jednym kroku teoretycznie może pozwolić na niewielkie przyśpieszenie działaniaalgorytmu.4.2 Druga wersja bibliotekiBadania dotyczące działania drugiej wersji biblioteki przeprowadzone zostały z wykorzystaniemaplikacji opisanej w sekcji 3.4. Przeprowadzony został przegląd wybranychparametrów algorytmu, pokazany ich wpływ na zachowanie się algorytmu. We wszystkicheksperymentach, jeśli wartość parametrów nie jest wprost zdefiniowana, przyjmowane sąwartości domyślne, odpowiednio:• gammaGlobCorr = 0,• lightCorrCoef = 0,• maxSkinAreaRatio = 0,8,• minSkinContourRatio = 0,0001,• extensionRatio = 0,3,• eyesMergeRatio = 0,05,• lipsMergeRatio = 0,05,• eyeMouthDistCoef = 0,3,

4.2. Druga wersja biblioteki 51(a) Rezultat wykrywania koloru skóry dla oryginalnych parametrów: x = 109.37, y = 152.02,e x = 1.6, e y = 2.41(b) Rezultat wykrywania koloru skóry dla nowych parametrów, w którym wyeliminowane jestdodatkowe przesunięcie elipsy: x = 106.68, y = 150.96, e x = 0, e y = 0(c) Obraz referencyjny, obrazujący zmiany w wykrytych obszarach skóry dla niewielkich zmianw położeniu elipsy : x = 109.37, y = 152.02, e x = 1.79, e y = 2.59. Zmiany w wykrytych pikselachwidoczne są w lewym górnym rogu obrazu przedstawiającego maskę skóry. Odpowiada toobszarowi przedstawiającemu ścianę za osobą w białej koszuli na zdjęciu oryginalnym.Rysunek 4.1 Fragmenty interfejsu graficznego aplikacji wykorzystującej bibliotekę stworzonąw pierwszej fazie implementacji. Obrazy przedstawiające możliwość wyeliminowaniaprzesunięcia elipsy w końcowej fazie działania algorytmu wykrywania skóry. Parametryelipsy niewymienione w podpisach poszczególnych obrazów są jednakowe: a = 25.389,b = 14.029, θ = 2.529.

52 4. Badania• eyeEyeDistCoef = 0,4,• firstErosion = 3,• maxLipsNormalDistRatio = 0,05,• eyesLumMapGammaCorr = 0,• eyesColMapGammaCorr = 0,• eyesMaskErodeRatio = 3,• eyesLipsMaskCoef = -2,• eyesCutoff = 30,Jak zostało wspomniane wcześniej, nie udało się określić optymalnych parametrów korekcjigamma i oświetlenia, dlatego parametry odpowiadające tym operacjom mają wartość 0.4.2.1 Parametr gammaGlobCorrParametr gammaGlobCorr określa współczynnik korekcji gamma przeprowadzanej naobrazie przed rozpoczęciem dalszego działania algorytmu.(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.2 Wykryte obszary skóry i twarze dla gammaGlobCorr = 0.0.Na rysunkach 4.2 – 4.5 przedstawione są obszary wykrytej skóry oraz końcowe rezultatydziałania algorytmu dla czterech różnych wartości gammaGlobCorr. Można zaobserwowaćtendencje zmniejszania się obszarów zaklasyfikowanych jako piksele skóry wrazze wzrostem gammaGlobCorr. Widać również duży wpływ wartości tego parametru naskuteczność wykrywania twarzy. Niestety ciężko zaobserwować jakąś prawidłowość. Zauważalnejest jedynie, że powyżej pewnej wartości, bardzo mało obszarów skóry zostajepoprawnie zaklasyfikowane co ciągnie za sobą brak wykrytych twarzy.4.2.2 Parametr lightCorrCoefParametr lightCorrCoef określa współczynnik korekcji oświetlenia przeprowadzanejpo korekcji gamma.Na rysunkach 4.6 – 4.8 przedstawione są obszary wykrytej skóry oraz końcowe rezultatydziałania algorytmu dla trzech różnych wartości lightCorrCoef. Warto rozważyć

4.2. Druga wersja biblioteki 53(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.3 Wykryte obszary skóry i twarze dla gammaGlobCorr = 0.2.(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.4 Wykryte obszary skóry i twarze dla gammaGlobCorr = 0.4.(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.5 Wykryte obszary skóry i twarze dla gammaGlobCorr = 0.6.

54 4. Badania(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.6 Wykryte obszary skóry i twarze dla lightCorrCoef = 0.1.(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.7 Wykryte obszary skóry i twarze dla lightCorrCoef = 0.2.(a) Wykryte obszary skóry.(b) Wynik wykrywania.Rysunek 4.8 Wykryte obszary skóry i twarze dla lightCorrCoef = 0.3.

4.2. Druga wersja biblioteki 55je z uwzględnieniem obrazu 4.2, na którym korekcja oświetlenia jest wyłączona. Niestetykorekcja kolorów nie przynosi spodziewanych rezultatów i obniża skuteczność działaniaalgorytmu.4.2.3 Parametr maxSkinAreaRatioParametr maxSkinAreaRatio określa maksymalny rozmiar obszaru skóry, który jestnastępnie analizowany, względem rozmiaru całego obrazu (zgodne ze wzorem 2.20). Zachowaniesię algorytmu dla domyślnej wartości maxSkinAreaRatio = 0,8 oraz dla wartości0,3 przedstawione jest na rysunku 4.9. Widać, że dla małej wartości parametru, przetwarzanajest mniejsza liczba obszarów skóry. Regiony te oznaczone kolorem niebieskim, lubczerwonym, jeśli obszar został w późniejszej fazie zaklasyfikowany jako twarz. Omawianyparametr służy do wykluczania z analizy dużych powierzchni o kolorze skóry znajdującychsię w tle, takich jak np. ściany.(a) maxSkinAreaRatio = 0,3 (b) maxSkinAreaRatio = 0,8Rysunek 4.9Wpływ parametru maxSkinAreaRatio na wielkość regionów skóry.4.2.4 Parametr minSkinContourRatioParametr minSkinContourRatio określa minimalny rozmiar obszaru skóry, który jestnastępnie analizowany, względem rozmiaru całego obrazu (zgodnie ze wzorem 2.21). Zachowaniesię algorytmu dla domyślnej wartości minSkinContourRatio = 0,0001 oraz dlawartości 0,0 przedstawione jest na rysunku 4.10. Widać, że dla małej wartości parametru,liczba obszarów skóry jest zdecydowanie większa. Omawiany parametr służy do wykluczaniamałych regionów, których dalsza analiza jest niepożądana.4.2.5 Parametr firstErosionParametr ten określa liczbę iteracji erozji przeprowadzanej przed wydzieleniem konturów,na podstawie których określane są obszary skóry. Jego celem jest usunięcie z maskitwarzy regionów brzegowych, które wprowadzają wiele nieprawidłowości w tworzonychmapach oczu, jak jest to przedstawione na rysunkach 4.11 i 4.12.4.2.6 Parametr extensionRatioParametr extensionRatio współczynnik rozszerzenia prostokąta opisanego na znalezionymobszarze skóry, który jest następnie analizowany. Zachowanie się algorytmu dla

56 4. Badania(a) minSkinContourRatio = 0,0 (b) minSkinContourRatio = 0,0001Rysunek 4.10Wpływ parametru minSkinContourRatio na wielkość regionów skóry.wartości extensionRatio = -0,1 (zwężenie obszaru) oraz dla wartości 0,8 przedstawionejest na rysunku 4.13. Zadaniem tego parametru jest zniwelowanie wpływu parametrufirstErosion, aby po przeprowadzonej erozji, prostokąt definiujący region skóry obejmowałcałą twarz.4.2.7 Parametry eyesMergeRatio i lipsMergeRatioParametr eyesMergeRatio określa odległość, liczoną względem rozmiaru twarzy, dlajakiej pary oczu są łączone w jedno oko. Analogicznie, parametr lipsMergeRatio określawspółczynnik łączenia dla ust. Dwa przykładowe obrazy, na których widoczne są znalezioneoczy i usta dla różnych wartości tych parametrów przedstawione są na rysunku4.14. Współczynniki te zostały wprowadzone, aby wyeliminować niekorzystne zjawisko,polegające na wykrywaniu pojedynczego oka czy ust jako dwóch obiektów. Zjawisko tospowodowane jest sposobem, w jaki oczy i usta są wyszukiwane. Polega on na progowaniuodpowiednich map, co w sytuacji, kiedy dany element nie jest na mapie równomierniewyeksponowany, prowadzi do oznaczenia go jako dwóch niezależnych obiektów. Małe wartościparametrów nie umożliwiają skutecznego wyeliminowania wyżej opisanego efektu,zbyt duże wartości powodują niepożądane łączenie obiektów reprezentujących osobne elementytwarzy.4.2.8 Parametry eyeMouthDistCoef i eyeEyeDistCoefParametry te wykorzystywane są do określenia dopuszczalnych przedziałów odległościpomiędzy oczyma i ustami, tak jak zostało to opisane w sekcji 2.5.4. Zmiennej c ee odpowiadaparametr eyeEyeDistCoef, zmiennej c em odpowiada parametr eyeMouthDistCoef.Na rysunku 4.15 zaprezentowany jest korzystny wpływ domyślnych wartości omawianychparametrów na klasyfikację analizowanych regionów jako twarzy. Zwiększenia tych parametrówsprawia, że algorytm staje się bardziej liberalny – przypadkowe obiekty mogą byćklasyfikowane jako twarz.4.2.9 Parametr maxLipsNormalDistRatioParametr określa maksymalną odległość ust od normalnej do prostej przechodzącejprzez oczy, tak jak jest to opisane w sekcji 2.5.4. Wyniki eksperymentów dla dwóch różnychwartości tego parametru przedstawione są na rysunku 4.16. Widać, że zwiększenie wartości

4.2. Druga wersja biblioteki 57(a) Zdjęcie z zaznaczonymi obszarami skóry.(b) Mapa oczu. (c) Mapa oczu. (d) Mapa oczu.Rysunek 4.11 Wykryte obszary skóry i mapy oczu dla firstErosion = −7.

58 4. Badania(a) Zdjęcie z zaznaczonymi obszarami skóry.(b) Mapa oczu. (c) Mapa oczu. (d) Mapa oczu.(e) Mapa oczu.Rysunek 4.12 Wykryte obszary skóry i mapy oczu dla firstErosion = 7.

4.2. Druga wersja biblioteki 59(a) extensionRatio = -0,1 (b) extensionRatio = 0,8Rysunek 4.13Wpływ parametru extensionRatio na wielkość regionów skóry.(a) eyesMergeRatio = 0,08,lipsMergeRatio = 0,0(b) eyesMergeRatio = 0,2,lipsMergeRatio = 0,2Rysunek 4.14i usta.Wpływ parametrów eyesMergeRatio i lipsMergeRatio na wykryte oczy(a) eyeMouthDistCoef = 1,eyeEyeDistCoef = 1(b) Domyślne wartości: eyeMouthDistCoef= 0,3, eyeEyeDistCoef = 0,4Rysunek 4.15 Wpływ parametrów eyeMouthDistCoef i eyeEyeDistCoef na ostatecznądecyzję, czy analizowany obszar przedstawia twarz.

60 4. Badaniaparametru, doprowadziło do zaklasyfikowania dodatkowych twarzy. Oczywiście w innychprzypadkach może to prowadzić to klasyfikacji niepożądanych obiektów.(a) maxLipsNormalDistRatio = 0,1 (b) maxLipsNormalDistRatio = 0,01Rysunek 4.16 Wpływ parametru maxLipsNormalDistRatio na klasyfikację analizowanychobszarów skóry jako twarzy.4.2.10 Parametry eyesLumMapGammaCorr i eyesColMapGammaCorrParametry te określają współczynniki korekcji gamma obszarów obrazu przed przystąpieniemdo przekształcenia ich w mapy oczu, tworzonych na podstawie luminancji. Ichwpływ na zachowanie się algorytmu jest niezauważalny.4.2.11 Parametr eyesMaskErodeRatioUstawienie to pozwala na ograniczenie obszaru dla którego obliczana jest mapa oczu.Ma na celu wyeliminowanie niekorzystnego efektu – dużych wartości mapy na granicachobszaru twarzy. Zbyt duże wartości mogą spowodować, że obszary rzeczywiście zawierająceoczy również zostaną pominięte. Obraz uzyskany dla dużej wartości eyesMaskErodeRatioprzedstawiony jest na rysunku 4.17.4.2.12 Parametr eyesLipsMaskCoefParametr określa współczynnik z jakim odejmowana jest mapa ust od tworzonej mapyoczu, zgodnie ze wzorem 2.22. Przykładowe obrazy dla dwóch różnych wartości parametruprzedstawione są na rysunkach 4.19 i 4.18. Widać, że odejmowanie mapy ust niezawsze daje pozytywny efekt, niekiedy niepotrzebnie zmniejszane są wartości tworzonejmapy w obszarach rzeczywiście przedstawiających oczy. Dodatkowo, duże wartości mapyoczu w okolicach ust nie pokrywają się z dużymi wartościami mapy ust, co nie pozwalawyeliminować tych obszarów.4.2.13 Parametr eyesCutoffUstawienie to odpowiada długości przedziału jasności, który wykorzystywany jest dowyselekcjonowania pikseli, które następnie grupowane są w oczy i usta. Górna granicatego przedziału ustalana jest dynamicznie – jest to największa jasność występująca namapie oczu/ust, pod warunkiem, że co najmniej dwa piksele na tej mapie mają tę jasność.Dolna granica przedziału obliczana jest jako różnica górnej granicy i wartości parametrueyesCutoff (zgodnie ze wzorem 2.23). Wpływ omawianego parametru na detekcję oczu

4.2. Druga wersja biblioteki 61(a) Zdjęcie z zaznaczonymi obszarami skóry.(b) Mapa oczu. (c) Mapa oczu. (d) Mapa oczu.Rysunek 4.17 Wykryte obszary skóry i mapy oczu dla eyesMaskErodeRatio = 10.

62 4. Badania(a) Zdjęcie z zaznaczonymi obszarami skóry.(b) Mapa oczu. (c) Mapa oczu. (d) Mapa oczu.Rysunek 4.18 Wykryte obszary skóry i mapy oczu dla eyesLipsMaskCoef = −10.

4.2. Druga wersja biblioteki 63(a) Zdjęcie z zaznaczonymi obszarami skóry.(b) Mapa oczu. (c) Mapa oczu. (d) Mapa oczu.Rysunek 4.19 Wykryte obszary skóry i mapy oczu dla eyesLipsMaskCoef = 0.

64 4. Badaniai ust przedstawiony jest na rysunku 4.20. Duża wartość powoduje zwiększenie liczby wykrytychoczu, co spowodowane jest dużą jasnością mapy oczu w rozmaitych miejscachobszaru twarzy.(a) eyesCutoff = 1 (b) eyesCutoff = 70Rysunek 4.20Wpływ parametru eyesCutoff wykryte oczy i usta.4.2.14 Podsumowanie badań dotyczących samodzielnie zaimplementowanegoalgorytmuW tej części pracy został przedstawiony wpływ poszczególnych parametrów na działaniealgorytmu. Niestety dla większości parametrów trudno jest jednoznacznie określićwpływ, jaki na jakość detekcji ma zmiana poszczególnych ustawień. Najwięcej kłopotówwynika z faktu, że detekcja elementów twarzy i jej finalna klasyfikacja opierają się nainformacji niesionej przez kolor. Niestety charakterystyka kolorów na poszczególnych obrazachmocno różni się, na co wpływ mają specyfika osób występujących na zdjęciach,warunki oświetlenia i urządzenie, które zostało użyte do pobrania obrazów.4.3 Algorytm oparty na kaskadach klasyfikatorów HaaraEksperymenty dotyczącego algorytmu, którego działania oparte jest na kaskadach klasyfikatorówHaara przeprowadzone zostały z wykorzystaniem aplikacji faceDetect opisanejw sekcji 3.4. Badania objęły 4 parametry numeryczne, których modyfikacja możliwajest poprzez interfejs programowy OpenCV (podane nazwy odpowiadają nazwom parametrówprzekazywanych do aplikacji faceDetect):• HaarScale – współczynnik skalowania klasyfikatorów, domyślnie 1.1,• HaarMinNeigh – minimalna liczba kaskad, które w danym otoczeniu dadzą decyzjępozytywną, wymagana do zaklasyfikowania obszaru jako twarzy, domyślnie 3,• HaarMinWidth i HaarMinHeight – minimalna wielkość twarzy, domyślnie 30 × 30,• scale – współczynnik skalowania obrazu przed uruchomieniem algorytmu, domyślnie1.Dodatkowo sprawdzona została poprawa szybkości obliczeń związana z wykorzystaniembiblioteki do programowania z wykorzystaniem wielu rdzeni (Threading Building Block

4.3. Algorytm oparty na kaskadach klasyfikatorów Haara 65firmy Intel). Wszystkie eksperymenty przeprowadzone zostały z wykorzystaniem kaskadyzapisanej w pliku haarcascade frontalface alt.xml, dostarczanym wraz z bibliotekąOpenCV. Zawiera ona kaskady klasyfikatorów przeznaczonych do rozpoznawania frontalnychtwarzy. Nie zostały wykorzystane kaskady pomocnicze, które mogą służyć np.do detekcji oczu na obszarach wykrytych twarzy. Wszystkie parametry, których wartościnie są wprost podane w opisie eksperymentu przyjmują wartości domyślne. Pierwsze 4eksperymenty były przeprowadzane z wykorzystaniem biblioteki TBB.Znaczenia symboli występujących w tabelach z wynikami są następujące:• F pos (false positive) – liczba obszarów na obrazie które zostały niepoprawnie zaklasyfikowanejako twarz• F neg (false negative) – liczba twarzy które nie zostały wykryte• ¯t – średni czas wykrywania twarzy• σ t – odchylenie standardowe czasu wykrywania twarzy• t max – maksymalny spośród czasów wykrywania twarzy• t min – minimalny spośród czasów wykrywania twarzyWartości średnie, odchylenia standardowe, wartości minimalne i maksymalne czasuuzyskane zostały na podstawie wyników z serii 10 uruchomień aplikacji faceDetect. Sposóbautomatyzacji eksperymentów opisany jest w dodatku D.4.3.1 Parametr HaarScaleZgodnie z [5], parametr HaarScale odpowiada współczynnikowi skalowania klasyfikatoróww kolejnych iteracjach algorytmu. Im jest on większy, tym większa jest różnicapomiędzy wielkością klasyfikatorów w poszczególnych krokach. Pozwala to na przyśpieszenieobliczeń, zwiększając jednak ryzyko pominięcia twarzy.Parametr HaarScale jest przekazywany funkcji cvHaarDetectObjects, jako argumento nazwie scale factor. Funkcja cvHaarDetectObjects wykorzystywana jest w biblioteceOpenCV do wyszukiwania obiektów z wykorzystaniem kaskad Haara. Domyślna wartośćjaką przyjmuje to 1.1.Wyniki eksperymentów przeprowadzonych na dwóch obrazach, polegających na obliczeniuparametrów oceniających szybkość i skuteczność detekcji dla 3 różnych wartościHaarScale przedstawione są w tabeli 4.1. Wyniki eksperymentów zgadzają się z oczekiwaniami.Łatwo zauważyć, że domyślna wartość tego parametru daje najlepsze rezultaty –stosunkowo szybki czas detekcji i mała liczba fałszywych decyzji negatywnych. Zmniejszaniewartości parametru nie wydaje się być sensowne – znacznie wydłuża to czas obliczeń,wprowadzając przy tym dużo błędnie wykrytych twarzy. Zwiększanie wartości parametruskraca czas detekcji, należy się jednak liczyć z możliwością niewykrycia niektórychobiektów.4.3.2 Parametr HaarMinNeighZgodnie z [5], parametr HaarMinNeigh to minimalna liczba decyzji pozytywnych, którezostaną podjęte przez kaskadę dla danego obszaru, zanim zostanie on zaklasyfikowanyjako twarz. Decyzji tych może być wiele, ponieważ detekcja przeprowadzana jest dla

66 4. BadaniaHaarScale = 1.01 HaarScale = 1.1 HaarScale = 1.6F pos = 6 F pos = 1 F pos = 0F neg = 0 F neg = 0 F neg = 11¯t = 6792 ¯t = 644.926 ¯t = 164.12σ t = 63.723 σ t = 9.06808 σ t = 3.99545t min = 6687.23 t min = 628.768 t min = 156.404t max = 6909.27 t max = 658.562 t max = 173.22F pos = 12 F pos = 1 F pos = 0F neg = 0 F neg = 0 F neg = 1¯t = 4741.07 ¯t = 462.757 ¯t = 123.305σ t = 49.9031 σ t = 3.9812 σ t = 4.18668t min = 4700.44 t min = 456.686 t min = 119.426t max = 4862.59 t max = 469.049 t max = 131.63Tabela. 4.1 Rezultaty eksperymentów dotyczących parametru HaarScale.

4.3. Algorytm oparty na kaskadach klasyfikatorów Haara 67HaarMinNeigh = 1 HaarMinNeigh = 3 HaarMinNeigh = 6F pos = 3 F pos = 1 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 647.579 ¯t = 656.166 ¯t = 656.823σ t = 9.80321 σ t = 8.89946 σ t = 16.6162t min = 627.873 t min = 641.221 t min = 635.324t max = 665.939 t max = 671.507 t max = 691.228F pos = 3 F pos = 1 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 473.838 ¯t = 471.072 ¯t = 471.42σ t = 26.3159 σ t = 8.6952 σ t = 12.6531t min = 458.728 t min = 461.64 t min = 460.41t max = 550.969 t max = 491.195 t max = 506.156Tabela. 4.2 Rezultaty eksperymentów dotyczących parametru HaarMinNeigh.

68 4. Badaniaróżnych skal klasyfikatora, przesuwaniem detektora o dany krok. Zdarza się więc, że pojedynczatwarz wykrywana jest dla różnych współrzędnych położenia klasyfikatora, któryjest przemieszczany po całym obrazie. Parametrowi HaarMinNeigh odpowiada argumentmin neighbors funkcji cvHaarDetectObjects, jego domyślna wartość to 3. Zwiększaniejego wartości powoduje zmniejszenie prawdopodobieństwa fałszywego podjęcia decyzjinegatywnej, zwiększając tym samym ryzyko niewykrycia twarzy. Wyniki badań przeprowadzonychdla różnych wartości HaarMinNeigh przedstawione są w tabeli 4.2.Na podstawie uzyskanych rezultatów można wyciągnąć wniosek, że zmiana tego parametrunie wpływa na czas działania algorytmu. Dla wykorzystanych zdjęć, bardziejkorzystne okazało się przypisanie HaarMinNeigh wartości 6 – wyeliminowało to całkowiciedecyzje negatywne, nie zwiększając czasu działania algorytmu. Oczywiście przedwyciągnięciem wniosku, że tendencja ta zostanie zachowana w ogólnym przypadku należałobyprzeprowadzić bardziej szczegółowe badania z wykorzystaniem większej liczbypróbek.4.3.3 Parametr scaleParametr scale wykorzystywany jest do wstępnego skalowana obrazu przed przekazaniemgo do funkcji cvHaarDetectObjects, zgodnie z zależnością:W ′ =WscaleH ′ =H(4.3)scale ,gdzie rozmiar oryginalnego obrazu to (W, H), rozmiar po zmianę rozmiaru to (W ′ , H ′ ).Im parametr scale jest większy, tym mniejszy jest obraz na którym działanie przeprowadzaalgorytm. Powinno to więc doprowadzić do przyśpieszenia działania algorytmu,może jednak niekorzystnie odbić się na jakości wykrywania twarzy. Wartość mniejszaod 1 powoduje powiększenie obrazu, co może pomóc w znalezieniu małych twarzy, jednakwydłuża czas obliczeń. Bardziej skuteczną metodą wykrywania małych twarzy jestzmniejszenie parametrów HaarMinWidth i HaarMinHeigt.Rezultaty przeprowadzonych eksperymentów przedstawione są w tabeli 4.3. Uzyskaneczasy zgadzają się z oczekiwaniami. Efekt zmiany rozmiaru obrazu, z punktu widzeniajakości wykrywania, jest niekorzystny. Co prawda, dla skali 1, 5 na drugim z testowanychobrazów udało się wyeliminować fałszywą decyzję pozytywną i skrócić czas działania,jednak ta sama skala dla pierwszego z obrazów wprowadziła bardzo niekorzystne efekty.4.3.4 Parametry HaarMinWidth i HaarMinHeightParametry HaarMinWidth i HaarMinHeight przekazywane są do funkcji bibliotekiOpenCV cvHaarDetectObjects jako argument min size. Domyślnie przyjmują wartość30. Określają one minimalny rozmiar twarzy, która może być wykryta. Duże wartościzmniejszają czas działania algorytmu, jednocześnie uniemożliwiając detekcję małych twarzy.Wyniki przeprowadzonych eksperymentów przedstawione są w tabeli 4.4. Ponownie,domyślna wartość przyjęta przez twórców implementacji zdaje się sprawdzać najlepiej.4.3.5 Wykorzystanie biblioteki TBBBiblioteka TBB (Threading Building Block) firmy Intel pozwala na łatwe tworzeniewielowątkowych aplikacji, które wykonywane będą na wielu rdzeniach procesora [18]. Po-

4.3. Algorytm oparty na kaskadach klasyfikatorów Haara 69scale = 0.7 scale = 1.2 scale = 1.5F pos = 1 F pos = 3 F pos = 0F neg = 0 F neg = 0 F neg = 13¯t = 1406.56 ¯t = 447.669 ¯t = 273.956σ t = 38.8748 σ t = 9.56235 σ t = 7.93506t min = 1365.08 t min = 436.478 t min = 262.921t max = 1510.97 t max = 464.403 t max = 287.691F pos = 0 F pos = 2 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 988.066 ¯t = 329.937 ¯t = 211.763σ t = 20.4389 σ t = 7.20512 σ t = 4.86657t min = 963.481 t min = 322.604 t min = 206.673t max = 1043.78 t max = 348.566 t max = 222.844Tabela. 4.3 Rezultaty eksperymentów dotyczących parametru scale.

70 4. BadaniaHaarMinWidth = 5 HaarMinWidth = 50 HaarMinWidth = 100HaarMinHeight = 5 HaarMinHeight = 50 HaarMinHeight = 100F pos = 1 F pos = 0 F pos = 0F neg = 0 F neg = 10 F neg = 17¯t = 1083.45 ¯t = 353.336 ¯t = 90.5248σ t = 25.5725 σ t = 16.5163 σ t = 2.37436t min = 1047.37 t min = 337.296 t min = 86.3931t max = 1118.75 t max = 397.382 t max = 94.5418F pos = 1 F pos = 1 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 786.953 ¯t = 266.835 ¯t = 72.3138σ t = 11.9191 σ t = 8.95271 σ t = 5.60828t min = 769.974 t min = 254.315 t min = 66.4346t max = 806.505 t max = 285.737 t max = 86.5688Tabela. 4.4 Wyniki eksperymentów dotyczących parametrów HaarMinWidth iHaarMinHeight.

4.3. Algorytm oparty na kaskadach klasyfikatorów Haara 71zwala to na przyśpieszenie działania programów, zwłaszcza jeśli w danej chwili system niejest obciążony innymi zadaniami.Biblioteka OpenCV oferuje możliwość kompilacji z wykorzystaniem TBB. W tymcelu, w katalogu w którym zbudowane ma być OpenCV, należy wydać polecenie:cmake ścieżka do źródeł OpenCV -DWITH TBB=TRUEPrzed tym wywołaniem warto pamiętać o usunięci pliku CMakeCache.txt, jeśli bibliotekabyła budowana wcześniej z innymi opcjami. Plik ten zawiera informacje dotyczącepoprzednich operacji budowania biblioteki, jego celem jest przyśpieszenie działaniacmake’a. Powyższe wywołanie sprawdzi czy nasz system zawiera wszystkie niezbędnekomponenty i przygotuje odpowiedni plik Makefile. Proces budowania rozpoczyna sięwywołaniem:makeInstalacja biblioteki w systemie wywoływana jest za pomocą:make installWyniki eksperymentów mających na celu zbadanie czasu działania algorytmu kaskadklasyfikatorów Haara w przypadku wykorzystania biblioteki TBB i bez niej, przedstawionesą w tabeli 4.5. Badania przeprowadzone zostały na dwurdzeniowym procesorze IntelCentrino Duo. Widać, że korzystanie z biblioteki TBB przyśpiesza działanie algorytmuśrednio około 1, 6 raza. Teoretycznie możliwe byłoby dwukrotne przyśpieszenie działania.Prawdopodobne przyczyny tego, że przyśpieszenie jest mniejsze są następujące:• nie wszystkie operacje w algorytmie są zaimplementowane z wykorzystaniem interfejsuprogramowego T BB umożliwiającego równoczesną pracę na wielu rdzeniach,• obciążenie rdzeni przez inne zadania systemu może powodować dodatkowe opóźnieniawymuszone synchronizacją pracy algorytmu na obu rdzeniach.Osiągnięte przyśpieszenie jest jednak warte odnotowania. W systemach opartych na wielordzeniowychprocesorach Intel, których głównym zadaniem ma być wykrywanie twarzy,czy inne operacje związane z przetwarzaniem obrazu, na pewno warto stosować wersjęOpenCV skompilowaną ze wsparciem dla TBB.4.3.6 Wnioski z przeprowadzonych badańJak można było się spodziewać, domyślne wartości badanych parametrów przyjęteprzez twórców implementacji algorytmu kaskad klasyfikatorów Haara w OpenCV sprawdzająsię bardzo dobrze. Można sobie wyobrazić zastosowania, w których dostępna byłabywiedza dotycząca dostarczanych do systemu obrazów, która pozwoliłaby na dostrojeniewartości parametrów.Przykładem może być wideofon w budynku – wiadomo, że osoba dzwoniąca musistać blisko niego. Chcąc przeprowadzić detekcje twarzy, aby później dokonać próby jejidentyfikacji, można zwiększyć parametry HaarMinWidth i HaarMinHeight.W robocie społecznym możnaby spróbować wprowadzić rozwiązanie, które dynamiczniezmieniałoby parametr HaarScale w zależności od obciążenia systemu. Po wykryciuczłowieka parametr ten mógłby być zwiększany, aby odciążyć procesor na rzecz innychzdań. W przypadku utraty współrzędnych twarzy wskutek zbyt zgrubnego skanowania,

72 4. BadaniaTBB Włączone¯t on = 417.095 ¯t on = 400.631 ¯t on = 454.766σ ton = 3.23081 σ ton = 6.44967 σ ton = 7.22843t minon = 412.846 t minon = 392.805 t minon = 443.009t maxon = 422.171 t maxon = 409.589 t maxon = 467.933TBB Wyłączone¯t off = 681.505 ¯t off = 665.745 ¯t off = 742.865σ toff = 1.88602 σ toff = 2.54236 σ toff = 5.3001t minoff = 678.624 t minoff = 662.929 t minoff = 738.615t maxoff = 685.703 t maxoff = 670.534 t maxoff = 758.132¯t off¯t on= 1.63¯t off¯t on= 1.66¯t off¯t on= 1.63Tabela. 4.5 Wyniki porównania efektywności działania algorytmu kaskad klasyfikatorówHaara zaimplementowanego w OpenCV z wykorzystaniem TBB i bez niego.

4.4. PittPatt 73parametr ten mógłby być przywracany do domyślnego poziomu. Parametr HaarMinNeighmógłby być dynamicznie modyfikowany w celu wykrycia na obrazie najbardziej ewidentnejtwarzy. W przypadku robota społecznego pozwoliłoby to na ustalenie kierunku, w którympowinien zwracać się robot. W celu sprawdzenia praktycznych możliwości realizacji zaproponowanychrozwiązań, konieczne byłoby jednak przeprowadzenie dodatkowych badań.4.4 PittPattAutorzy pakietu PittPatt używają pojęcia kontekst do opisu konfiguracji algorytmu.Kontekst jest strukturą, zawierającą dostępne dla użytkownika parametry algorytmu,m.in:• Minimum Size – określa minimalny rozmiar wyszukiwanych twarzy, domyślna wartośćto 4,• Maximum Size – określa minimalny rozmiar wyszukiwanych twarzy, domyślna wartośćto 15,• Adaptive Minimum Size – minimalny rozmiar wyszukiwanych twarzy względem rozmiarucałego obrazu, domyślna wartość to 0, 0,• Adaptive Minimum Size – maksymalny rozmiar wyszukiwanych twarzy względemrozmiaru całego obrazu, domyślna wartość to 1, 0,• Search Prunning – umożliwia kontrolę skalowania detektora, przyjmuje wartości zezbioru 0, 1, 2, 3, 4, 5; wartość 0 oznacza całkowite wyłączenie optymalizacji skalowania,wartość 1 pozwala na ograniczenie dokładnych detektorów, dla wartości 2-5algorytm szuka najpierw największej twarzy na obrazie, następnie przeszukuje obrazpod kątem twarzy trochę mniejszych od tej znalezionej; domyślna wartość to5,• Detection Threshold – współczynnik określający charakterystykę algorytmu, przyjmujewartości z zakresu [−1, 1]; mniejsza wartość oznacza większą ilość fałszywychdecyzji pozytywnych przy jednoczesnym zmniejszeniu liczby niewykrytych twarzy,wraz ze wzrostem tej wartości proporcje się odwracają; domyślna wartość to 0, 0,• Image Search Region – pozwala na zdefiniowanie obszaru, który będzie przeszukiwany,• Detection Threads – liczba wątków, w których uruchamiany jest algorytm.Nie zostały przeprowadzone badania dotyczące parametrów Adaptive Minimum Size iAdaptive Maximum Size, ponieważ wykorzystywane obrazy są tych samych rozmiarów– minimalny i maksymalny rozmiar można wprost określić z wykorzystaniem MaximumSize i Minimum Size. Nie został również zbadany parametr Image Search Region – przyjętozałożenie, że twarz może pojawić się w każdym miejscu obrazu. W przedstawionychw tym rozdziale symulacjach wszystkie parametry, których wartości nie są wprost zdefiniowane,przyjmują domyślne wartości. Znaczenie symboli występujących w tabelach zwynikami zostało opisane w sekcji 4.3. Wszystkie wartości statystyczne obliczone zostałyna podstawie 10 uruchomień algorytmu.Warto zauważyć, że wielowątkowość w pakiecie PittPatt może być zrealizowana nadwa sposoby. Pierwszy z nich polega na zwiększeniu liczby wykorzystywanych wątków,

74 4. Badaniapoprzez parametr Detection Threads, co jednak wymaga ustawienia Search Pruning na 0.Drugi model wielowątkowości uzyskiwany jest dzięki zastosowaniu kontekstów – możliwajest detekcja twarzy na więcej niż jednym strumieniu wideo jednocześnie, z niezależnymikonfiguracjami.Funkcja służąca do wykrywania twarzy to ppr detect objects(), która jako argumentyprzyjmuje wspomniany już kontekst zawierający parametry algorytmu, obraz naktórym wykonane ma być przetwarzanie oraz referencję do obiektu, który zawierał będzieparametry znalezionych twarzy. Dostępna jest także funkcja detect and track objects(),umożliwiająca również śledzenie twarzy. Jej parametrami jest kontekst oraz obraz, parametryznalezionych twarzy pobierane są za pomocą funkcji get current frame objects().W tym przypadku kontekst zawiera dodatkowe informacje, niedostępne dla użytkownika,dotyczące śledzonych twarzy. Eksperyment dotyczący opcji śledzenia twarzy w pakieciePittPatt przedstawiony jest w sekcji 4.4.6.4.4.1 Parametr Minimum SizeWłasności Minimum Size odpowiada argument PPMinSize programu faceDetect.Według dokumentacji dostarczanej wraz z pakietem PittPatt, ustawienie to określa minimalnąodległość między oczami, wyrażoną w pikselach. Przeprowadzone zostały eksperymentyna dwóch obrazach, z trzema różnymi wartościami tego ustawienia. Zauważalnajest tendencja, że wraz ze wzrostem wartości parametru, czas detekcji się zmniejsza. Niejest to jednak regułą, jak pokazują wyniki przy PPMinSize = 1 i PPMinSize = 4 dladolnej fotografii w tabeli 4.6. Zapewne ustawienie to wpływa na zachowanie zgrubnegoklasyfikatora i w tym przypadku nie zmienia ono obszarów, które poddawane są dokładniejszejklasyfikacji. Na pierwszej fotografii widać wyraźne pogorszenie jakości wykrywaniadla PPMinSize = 10, jest to oczywiście spowodowane małymi rozmiarami twarzy, którewidoczne są na tym obrazie.4.4.2 Parametr Maximum SizeParametr ten odpowiada, zgodnie z dokumentacją pakietu PittPatt, maksymalnejodległości pomiędzy oczyma wykrytych twarzy. Jego odpowiednikiem w aplikacji face-Detect jest PPMinSize. Wyniki przeprowadzonych eksperymentów przedstawione są wtabeli 4.7. W tym przypadku, wzrost wartości analizowanego ustawienia powoduje zwiększenieczasu obliczeń. Na pierwszym z przedstawionych w tabeli zdjęć, zwiększanie wartościparametru nie powoduje pogarszania jakości detekcji – spowodowane jest to małymirozmiarami twarzy, które widoczne są na tym obrazie. Twarze z drugiej fotografii są większe,zauważalny jest negatywny wpływ małych wartości PPMinSize na jakość wykrywania.Zachowanie się algorytmu jest więc zgodne z oczekiwaniami.4.4.3 Parametr Search PrunningParametr ten wpływa na wybór strategi skalowania klasyfikatora przyjmowanej przezalgorytm. Odpowiada mu argument PPPrun aplikacji faceDetect. Może on przyjmowaćwartości z zakresu 0 - 5, których znaczenie, zgodnie z dokumentacją PittPatta jest następujące:0 optymalizacja skalowania klasyfikatora jest wyłączona,

4.4. PittPatt 75PPMinSize = 1 PPMinSize = 4 PPMinSize = 10F pos = 0 F pos = 0 F pos = 0F neg = 0 F neg = 5 F neg = 17¯t = 2855.66 ¯t = 861.661 ¯t = 144.765σ t = 41.6033 σ t = 11.1569 σ t = 1.59111t min = 2798.95 t min = 850.036 t min = 142.756t max = 2927.7 t max = 887.568 t max = 148.834F pos = 0 F pos = 0 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 663.8 ¯t = 625.537 ¯t = 196.018σ t = 3.66218 σ t = 7.11511 σ t = 2.30138t min = 659.822 t min = 614.819 t min = 192.999t max = 670.41 t max = 638.949 t max = 201.315Tabela. 4.6 Rezultaty eksperymentów dotyczących parametru PPMinSize.

76 4. BadaniaPPMaxSize = 4 PPMaxSize = 6 PPMaxSize = 10F pos = 0 F pos = 0 F pos = 0F neg = 5 F neg = 5 F neg = 5¯t = 402.472 ¯t = 604.048 ¯t = 829.533σ t = 5.7292 σ t = 6.01809 σ t = 6.4297t min = 392.614 t min = 596.672 t min = 817.395t max = 410.749 t max = 616.153 t max = 841.267F pos = 0 F pos = 0 F pos = 0F neg = 3 F neg = 1 F neg = 0¯t = 178.684 ¯t = 316.972 ¯t = 558.345σ t = 3.15841 σ t = 3.00437 σ t = 11.4098t min = 176.304 t min = 313.328 t min = 544.59t max = 187.633 t max = 324.109 t max = 582.803Tabela. 4.7 Rezultaty eksperymentów dotyczących parametru PPMaxSize.

4.4. PittPatt 771 zgrubne detektory są wykorzystywane do ograniczenia liczby stosowanych detektorówo większej dokładności, skanowane są wszystkie skale,2-5 najpierw dokonywana jest detekcja największych twarzy z wykorzystaniem zgrubnychdetektorów; następnie bardziej dokładne detektory poszukują pozostałych twarzy,niewiele mniejszych od najbardziej ewidentnej twarzy znalezionej w pierwszej fazie;wraz ze wzrostem parametru Search Prunning znacząco skraca się czas działaniaklasyfikatora, nieznacznie zmniejsza zaś prawdopodobieństwo podjęcia błędnej decyzjinegatywnej.Wyniki wykonanych badań zamieszczone są w tabeli 4.8. Na fotografiach wybranych doeksperymentów nie jest widoczny spodziewany wpływ na jakość detekcji – liczba fałszywychdecyzji negatywnych nie spada dla małych wartości PPPrun. Zgodnie z oczekiwaniami,czas przetwarzania maleje wraz ze wzrostem parametru PPPrun.4.4.4 Parametr Search ThresholdWspółczynnik ten pozwala na wybranie oczekiwanej charakterystyki algorytmu. Obniżającgo, zmniejszamy prawdopodobieństwo niewykrycia twarzy, tym samym zwiększającskuteczność detekcji. Zwiększanie parametru daje odwrotny rezultat – zmniejszenie liczbyfałszywych decyzji pozytywnych i zwiększenie prawdopodobieństwa niewykrycia twarzy.Odpowiada mu argument PPThreshold programu faceDetect. Wyniki wykonanych eksperymentówzamieszczone są w tabeli 4.9. Zgodnie z oczekiwaniami, parametr nie mawpływu na czas. Jego wpływ na jakość działania dobrze widoczny jest na pierwszej fotografii.Na drugim obrazie nie jest widoczny wpływ tego ustawienia. Ciekawe jest, że dwiefałszywe decyzje pozytywne, podjęte przez algorytm dla PPThreshold = -1, tj. obszarprzedstawiający płot z prawej strony fotografii, oraz szara koszula jednej z osób, odpowiadająbłędom algorytmu opartego na kaskadach klasyfikatorów Haara widocznym naobrazach z tabel 4.1 i 4.2.4.4.5 Liczba wątkówTak jak to zostało wcześniej wspomniane, pakiet PittPatt umożliwia uruchomieniedetekcji w trybie wielowątkowym. Eksperymenty przeprowadzane były na komputerze zdwurdzeniowym procesorem, dlatego parametr PPThreads definiujący liczbę wykorzystanychwątków w aplikacji faceDetect przyjmował wartości ze zbioru {1, 2}. Warunkiemuruchomienia algorytmu w trybie wielowątkowym jest przypisanie parametrowi PPPrunwartości 0. Zasada ta przedstawiona jest w dokumentacji pakietu PittPatt i jest zgodnaz rzeczywistością – próba uruchomienia programu bez jego spełnienia nie powodzi się.Taka wartość parametru oznacza rezygnację z optymalizacja skanowania, co niesie ze sobąwydłużenie czasu obliczeń i teoretycznie lepszą jakość detekcji. Wyniki wykonanycheksperymentów przedstawione są w tabeli 4.10. Widać, że przyśpieszenie uzyskane w wynikuwykorzystania drugiego wątku jest równe około 1, 7 raza, podobnie jak w przypadkualgorytmu opartego na klasyfikatorach Haara zaimplementowanego w OpenCV (tabela4.5). Niestety konieczność wyeliminowania optymalizacja skalowania sprawia, że czaswykrywania nawet na dwóch rdzeniach jest większy niż w przypadku wykorzystania tejcechy. Prawdopodobnie zalety wykorzystania wielu wątków są widoczne na fotografiach,które zawierają zarówno małe, jak i duże twarze.

78 4. BadaniaPPPrun = 0 PPPrun = 2 PPPrun = 4F pos = 0 F pos = 0 F pos = 0F neg = 5 F neg = 5 F neg = 5¯t = 1786.28 ¯t = 1054.09 ¯t = 1048.02σ t = 23.9974 σ t = 10.5867 σ t = 8.35827t min = 1748.29 t min = 1035.28 t min = 1038.69t max = 1813.19 t max = 1067.31 t max = 1064.74F pos = 0 F pos = 0 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 1443.31 ¯t = 864.877 ¯t = 740.073σ t = 13.3561 σ t = 13.1999 σ t = 11.6187t min = 1421.44 t min = 849.368 t min = 727.792t max = 1463.22 t max = 887.405 t max = 769.902Tabela. 4.8 Rezultaty eksperymentów dotyczących parametru PPPrun.

4.4. PittPatt 79PPThreshold = 4 PPThreshold = 6 PPThreshold = 10F pos = 3 F pos = 0 F pos = 0F neg = 4 F neg = 5 F neg = 9¯t = 885.679 ¯t = 872.606 ¯t = 866.628σ t = 30.1768 σ t = 8.09406 σ t = 6.76318t min = 858.381 t min = 860.023 t min = 856.816t max = 954.417 t max = 887.363 t max = 878.311F pos = 0 F pos = 0 F pos = 0F neg = 0 F neg = 0 F neg = 0¯t = 628.355 ¯t = 630.679 ¯t = 627.046σ t = 6.88533 σ t = 12.4228 σ t = 5.28483t min = 617.834 t min = 619.281 t min = 621.641t max = 640.038 t max = 665.447 t max = 640.801Tabela. 4.9 Rezultaty eksperymentów dotyczących parametru PPThreshold.

80 4. BadaniaPPThreads = 1, PPPrun = 0¯t th=1 = 1340.29 ¯t th=1 = 1840.2 ¯t th=1 = 1577.73σ tth=1 = 8.686 σ tth=1 = 22.6823 σ tth=1 = 9.41639t minth=1 = 1332.31t maxth=1 = 1355.59t minth=1 = 1818.21t maxth=1 = 1891.99PPThreads = 2, PPPrun = 0t minth=1 = 1566.53t maxth=1 = 1600.41¯t th=2 = 860.598 ¯t th=2 = 1082.62 ¯t th=2 = 924.122σ tth=2 = 14.8244 σ tth=2 = 8.26127 σ tth=2 = 9.54295t minth=2 = 841.103t maxth=2 = 887t minth=2 = 1070.98t maxth=2 = 1097.24t minth=2 = 912.711t maxth=2 = 943.829¯t th=1¯t th=2= 1.56¯t th=1¯t th=2= 1.70¯t th=1¯t th=2= 1.71PPThreads = 1, PPPrun = 5¯t = 734.78 ¯t = 930.82 ¯t = 761.074σ t = 6.65404 σ t = 1.32592 σ t = 7.15503t min = 729.431 t min = 928.782 t min = 755.514t max = 749.589 t max = 932.423 t max = 778.347Tabela. 4.10 Czasy działania algorytmu w zależności od liczby użytych wątków.

4.4. PittPatt 814.4.6 Śledzenie twarzyŚledzenie wyłączoneŚledzenie włączoneKlatka 39Klatka 40¯t = 234.696 ¯t = 227.371σ¯t = 1.63832 σ¯t = 1.14664¯σ t = 55.1967 ¯σ t = 55.0834σ σt = 0.502645 σ σt = 0.412644Tabela. 4.11 Analiza działania funkcji śledzenia twarzy w pakiecie PittPatt.Pakiet PittPatt posiada funkcjonalność śledzenia twarzy. Jej włączenie uzyskiwanejest za pomocą wywołania funkcji detect and track objects(). Przeprowadzone zostałybadania dotyczące skuteczności śledzenia twarzy i jego wpływu na szybkość działaniaalgorytmu. Rezultaty uzyskane z wykorzystaniem sekwencji wideo o długości 272 klatekprzedstawione są w tabeli 4.11. Wszystkie wielkości statystyczne obliczone zostały na podstawie5 uruchomień algorytmu. ¯t to średnia z 5 średnich czasów działania algorytmu najednej klatce, σ¯t to odchylenie standardowe tych 5 średnich. ¯σ t określa średnie odchyleniestandardowe, σ σt to odchylenie standardowe tej średniej.Włączenie śledzenia twarzy daje niewielką poprawę jakości działania algorytmu. Dwiekolejne klatki analizowanej sekwencji na których widoczna jest ta poprawa przedstawionesą w tabeli 4.11. Na klatce 39. obie wersje algorytmu poprawnie wyszukują twarz, naklatce 40. tylko wersja z włączonym śledzeniem daje poprawne rezultaty. Dla analizowanejsekwencji widoczna jest także nieznaczna poprawa szybkości działania algorytmu.

82 4. Badania4.4.7 Wnioski z przeprowadzonych badańAlgorytm działa bardzo dobrze. Udało się zaobserwować wpływ zmiany parametrówna jakość działania, opisany w dokumentacji pakietu PittPatt. Wyjątkiem jest parametrPPPrun, którego zmniejszanie powinno zmniejszać liczbę fałszywych decyzji negatywnych.Tego efektu nie udało się odtworzyć. Prawdopodobnie wpływ tego parametru widocznybyłby na zdjęciu zawierającym twarze mocno różniące się rozmiarami.Zastosowanie poszczególnych parametrów w celu dopasowania algorytmu do specyficznychwymagań danego systemu przeprowadzone może być podobnie jak w przypadkualgorytmu opartego na kaskadach klasyfikatorów Haara, co opisane zostało w sekcji 4.3.6.Bardzo pożyteczny może być parametr PPThreshold, który w łatwy sposób pozwala sterowaćstosunkiem liczby fałszywych decyzji negatywnych do liczby fałszywych decyzjipozytywnych.Funkcjonalność śledzenia twarzy może zostać wykorzystana do poprawy jej jakości,jednak szybkość działania algorytmu jest zwiększana tylko w niewielkim stopniu.4.5 Porównanie trzech algorytmówWykonane zostały eksperymenty porównujące czas i jakość detekcji dla 3 przykładowychzdjęć. Wszystkie parametry algorytmów użyte podczas eksperymentów miaływartości domyślne, tak jak zostało to przedstawione w sekcjach 4.2, 4.3 i 4.4. Znaczeniewyrażeń występujących w tabelach jest takie samo jak w przypadku poprzednich eksperymentów.Wszystkie wartości statystyczne zostały obliczone na podstawie 10 uruchomieńalgorytmu.Rezultaty przedstawione są w tabeli 4.12. Pierwsze zdjęcie zostało celowo obrócone,aby pokazać zalety wykrywania twarzy w oparciu o kolor skóry i cechy charakterystyczne– algorytmy takie mogą wykrywać twarz o dowolnej orientacji. Na środkowej fotografiiwidać wyraźną przewagę algorytmu PittPatt, jeśli chodzi o jakość działania. Dla tegoobrazu działa on również najszybciej. W przypadku ostatniego zdjęcia, najlepszy okazałsię algorytm oparty na kaskadzie klasyfikatorów Haara – wykrył on wszystkie twarze wnajkrótszym czasie. Długi czas działania algorytmu PittPatt w tym przypadku może byćspowodowany dużą liczbą obszarów zainteresowania wyselekcjonowanych przez zgrubnyklasyfikator. Samodzielnie zaimplementowany algorytm zadziałał najszybciej, jednak jegowyniki są mocno niesatysfakcjonujące.Najbardziej niezawodny wydaje się być algorytm PittPatt. Najlepiej poradził onsobie z wykrywaniem twarzy, nie osiągał najlepszych rezultatów czasowych, jednak czasdziałania nie odstawał od czasów działania pozostałych algorytmów. Wydaje się, że towłaśnie jakość i pewność detekcji są kluczowymi czynnikami przy ocenie algorytmówwykrywania twarzy. Samodzielnie zaimplementowany algorytm pozwala co prawda nawykrywanie twarzy o dowolnych orientacjach, jednak biorąc pod uwagę niezbyt dobrąjakość detekcji, cecha ta nie wpływa znacząco na ocenę algorytmu.

4.5. Porównanie trzech algorytmów 83Własna implementcja Haar PittPattF pos = 0 F pos = 0 F pos = 0F neg = 1 F neg = 4 F neg = 3¯t = 551.762 ¯t = 758.88 ¯t = 489.822σ t = 3.70689 σ t = 6.68072 σ t = 5.7598t min = 547.41 t min = 750.613 t min = 485.197t max = 557.797 t max = 772.703 t max = 504.2F pos = 0 F pos = 2 F pos = 0F neg = 1 F neg = 0 F neg = 0¯t = 735.267 ¯t = 873.126 ¯t = 668.324σ t = 6.73839 σ t = 18.8703 σ t = 30.2214t min = 725.605 t min = 863.446 t min = 652.331t max = 745.807 t max = 928.714 t max = 757.934F pos = 1 F pos = 0 F pos = 0F neg = 6 F neg = 0 F neg = 0¯t = 562.554 ¯t = 745.003 ¯t = 1234.09σ t = 2.1505 σ t = 5.34871 σ t = 21.5481t min = 560.465 t min = 736.314 t min = 1212.74t max = 568.568 t max = 754.811 t max = 1285.76Tabela. 4.12 Porównanie działania trzech algorytmów.

PodsumowanieW pracy przedstawione zostały różne metody wykrywanie twarzy. Opis większościz nich zawiera jedynie ogólną zasadę działania i zagadnienia kluczowe dla danego algorytmu.Jedna z metod została opisana dokładnie, a następnie zaimplementowana.Przygotowane w ramach pracy narzędzia, w skład których wchodzą biblioteki współdzielone,aplikacje i skrypty pozwoliły na przeprowadzenie badań. Środowisko eksperymentówstworzone zostało na komputerze osobistym, działającym pod kontrolą systemuoperacyjnego Linux, głównie z wykorzystaniem języków C i C++, darmowych narzędzii bibliotek oraz komercyjnie dostępnego pakietu PittPatt. Sprawdzone zostały trzyalgorytmy:• samodzielnie zaimplementowany, którego podstawowym elementem jest wykrywanieregionów o kolorze skóry,• opierający działanie na kaskadach klasyfikatorów Haara, dostępny w darmowej biblioteceOpenCV,• pochodzący z pakietu PittPatt.Wyniki wskazują, że najbardziej efektywne wykrywanie twarzy uzyskiwane jest dzięki wykorzystaniumetody komercyjnej, mniej skuteczny jest algorytm dostępny w OpenCV,najgorsza okazała się samodzielna implementacja. Przeprowadzone eksperymenty wskazująrównież, że śledzenie twarzy na sekwencji wideo może być pomyślnie realizowane zwykorzystaniem wyłącznie algorytmów detekcji twarzy.Największą wadą metod opartych na wykrywaniu koloru skóry jest ich duża podatnośćna błędy wynikające z charakterystyki światła w otoczeniu, w którym pobierany jestobraz oraz specyfikacji przetwornika, za pomocą którego ta operacja jest przeprowadzana.Zmiana światła, lub urządzenia za pomocą którego pobierany jest obraz, może spowodowaćznaczące zmiany w kolorystyce danej twarzy. Trudno jest ustalić parametry korekcjikolorów, które pozwoliłby na rozwiązanie tego problemu.Metody oparte na detekcji cech charakterystycznych twarzy obliczanych na podstawiewartości jasności pikseli obrazu wejściowego są natomiast wrażliwe na zmianę kątanachylenia twarzy. Detekcja nie powodzi się, jeśli orientacja szukanej twarzy odbiega odorientacji twarzy, na podstawie których wytrenowane zostały klasyfikatory. Nie jest tozbyt dużym ograniczeniem – w większości systemów, których elementem jest algorytmdetekcji twarzy, zwykle dostępna jest przybliżona wiedza dotycząca możliwych orientacjitwarzy na dostarczanych do systemu obrazach.W przyszłości podjęta może zostać próba stworzenia alternatywnej wersji ostatniej fazyalgorytmu, zgodnie z [11]. Interesującym wyzwaniem byłoby podjęcie próby implementacjimetody detekcji twarzy opartej na transformacie falkowej obrazu. Wykorzystana przytym mogłyby zostać darmowe biblioteki GNU Scientific Library [3] oraz OpenCV.Na pewno warto byłoby rozszerzyć funkcjonalność stworzonych skryptów, automatyzując

86 Podsumowanieocenę jakości detekcji, to znaczy obliczanie liczy błędnych decyzji pozytywnych i negatywnychna podstawie przygotowanego przedtem zbioru zdjęć testowych.

Dodatek AAnaliza map oczu i ust, wykrywanietwarzyW dodatku przedstawiony jest sposób ekstrakcji i analizy danych z utworzonych wcześniejmap oczu i ust (rozdział 2) w celu decyzji co do obecności twarzy w danym obszarze[11].Hsu, Abdel-Mottaleb i Jain wyszukują twarze, poddając analizie wszystkie możliwekombinacje jednej pary oczu z pojedynczymi ustami. Każdy utworzony na tej podstawietrójkąt jest weryfikowany na podstawie:1. zmian luminancji i przeciętnego kierunku gradientu w obszarach oczu i ust,2. geometrii i kształtu trójkąta,3. krawędzi twarzy wokół analizowanego trójkąta.Cechy te są wykorzystywane do obliczenia numerycznej wartości, na podstawie którejpodejmowana jest decyzja o klasyfikacji analizowanego trójkąta jako twarzy.A.1 Ekstrakcja oczu i ust na podstawie mapDokładne położenie oczu i ust otrzymywane jest poprzez zastosowanie:1. dekompozycji piramidowej na uzyskanych mapach,2. progowania i morfologicznej operacji domykania.Liczba iteracji dekompozycji piramidowej jest równa:gdzieL = max{( )}min(W, H)log 2 (2σ), log 2 , (A.1)F c⌊√ ⌋ W · Hσ =. (A.2)2F eParametry W i H reprezentują szerokość i wysokość analizowanego obszaru obrazu.F c × F c określa minimalny rozmiar tego obszaru, F e określa maksymalny stosunek średniegorozmiaru twarzy do średniego rozmiaru oka. Autorzy algorytmu przyjęli wartościF c = 7 pikseli, F e = 12. Zgrubna lokalizacja poszukiwanych elementów jest następnie

88 A. Analiza map oczu i ust, wykrywanie twarzyprecyzowana poprzez iteracyjne progowanie i operację morfologicznego domknięcia takotrzymanego obrazu. Wartość progu obliczana jest ze wzoru:T h = α n∑(x,y)∈FGM i (x, y) + (1 − α) ·max (M i(x, y)),(x,y)∈FG(A.3)gdzie M i (x, y) oznacza poszczególne piksele map oczu (i = e) lub ust (i = m) w analizowanymobszarze FG o liczbie pikseli n. Współczynnik α w pierwszej iteracji wynosi 0.5, anastępnie jest zwiększany do 0.8 lub do chwili w której liczba wykrytych oczu przekroczyustaloną liczbę N i , i ∈ e, m. Ta górna granica przyjęta jest, aby algorytm nie tracił zbytdużo czasu na poszukiwanie cech charakterystycznych twarzy. Autorzy artykułu przyjęlimaksymalną liczbę oczu N e = 8 i maksymalną liczbę ust N m = 5.A.2 Weryfikacja istnienia twarzyPierwszym krokiem wykonywanym w tej fazie działania algorytmu jest wyszukaniekrawędzi twarzy. W tym celu wykorzystywany jest zmodyfikowany algorytm Canny. Gradientfragmentu obrazu w punkcie (x, y) obliczany jest jako:∇S(x, y) = (G x , G y ) = (D σ (x) ∗ S(x, y), D σ (y) ∗ S(x, y)),(A.4)gdzie D σ jest pochodną funkcji Gaussa z zerową średnią i wariancją σ 2 , ∗ jest operatoremsplotu. Odchylenie standardowe σ uzależnione jest od wielkości analizowanego trójkątaoczy-usta:( ) −ws2 1/2σ =; ws = max(dist io , dist em ), (A.5)8 ln(wh)gdzie ws oznacza rozmiar wykorzystywanego przy wyszukiwaniu krawędzi okna, którywybierany jest jako maksimum pomiędzy odległością między oczyma dist io (interocular), aodległością środkowego punktu pomiędzy oczyma a ustami dist em (eye-mouth). Parametrwh określa pożądaną wartość funkcji Gaussa na brzegach okna.Mapa wykorzystywana do określenia krawędzi twarzy tworzona jest w następującysposób:1. zastosowanie operatora wykrywającego krawędzie (A.4) na oryginalnym obszarzeprzedstawiającym potencjalną twarz; w wyniku tej operacji uzyskiwane są dwa obrazy:I m1 (magnitude), którego piksele przyjmują wartości tym większe, im bardziejwyraźna jest krawędź w określonym punkcie, oraz obraz I d1 (direction), któregowartości pikseli uzależnione są od kierunku wykrytych w danym punkcie krawędzi,2. ponowne zastosowanie operatora wykrywającego krawędzie na obrazie I d1 ; analogiczniejak w poprzednim przypadku powstają obrazy I m2 oraz I d2 ,3. obraz I d2 poddawany jest progowaniu, w wyniku czego powstaje maska I dm ,4. obrazy I m1 i I m2 są sumowane, maskowane z wykorzystaniem I dm , a uzyskany obrazjest normalizowany do przedziału wartości [0, 1] – uzyskany w ten sposób obrazoznaczmy jako I f .Środek twarzy obliczany jest za pomocą momentów pierwszego rzędu uzyskanych dlaobrazu I f .

A.2. Weryfikacja istnienia twarzy 89Następnie wykorzystywana jest transformacja Hougha w celu znalezienia elipsy najlepiejprzybliżającej obszar twarzy. Elipsa może być zdefiniowana 5 parametrami: współrzędnymix i y środka, kątem nachylenia oraz długością dwóch osi. Jako środek elipsyprzyjmowany jest środek twarzy, kąt nachylenia obliczany jest na podstawie kąta nachyleniaosi twarzy, transformacja Hougha wykorzystywana jest więc do znalezienia tylkodwóch parametrów elipsy.A.2.1Obliczenie wagDla każdego trójkąta składającego się z pary oczu i ust znajdujących się w analizowanymobszarze obliczana jest waga. Trójkąt, który uzyska największą wartość, zostaniewybrany do finalnej reprezentacji twarzy tylko wtedy, gdy jego waga przekroczy ustalonypróg. Jeśli żaden z trójkątów na analizowanym obszarze tego progu nie przekroczy, obszarnie zostanie zaklasyfikowany jako twarz.Wartość wagi dla i-tego i j-tego oka oraz k-tych ust obliczana jest w następującysposób:tw(i, j, k) = emw(i, j, k) · ow(i, j, k) · q(i, j, k),(A.6)gdzie emw to waga ust i oczu (eye-mouth weight):emw(i, j, k) = 1 (ew(i, j) + mw(k)),2 (A.7)ew to waga dla oczu (eye weight):ew(i, j) = M e(x i , y i ) + M e (x j , y j ); i > j; i, j ∈ [1, N e ], (A.8)2 · M e (x max , y max )gdzie M e (x i , y i ) to jasność mapy oczu w punkcie w którym znajduje się i-te oko, analogiczniedla M e (x j , y j ). Wyrażenie M e (x max , y max ) to największa wartość jaką przyjmujemapa oczu, N e to liczba oczu w analizowanym obszarze.Waga ust mw (mouth weight) obliczana jest następująco:mw(k) = M m(x k , y k )M m (x max , y max ) ; k ∈ [0, N m], (A.9)gdzie M m (x k , y k ) to jasność mapy ust w miejscu w którym znajdują się usta, M m (x max , y max )to największa jasność mapy ust, N m to liczba ust w analizowanym obszarze.Waga ow obliczana jest na podstawie orientacji twarzy (orientation weight):2∏ow(i, j, k) = e −3(1−cos2 (θ r(i,j,k))) ;i=icos(θ r (i, j, k)) = ⃗u r · ⃗v r||⃗v r || ; || ⃗u r|| = 1, (A.10)gdzie wektor ⃗v 1 prowadzi od punktu środkowego pomiędzy oczyma do ust, wektor ⃗v 2 =−⃗v 1 i prowadzi od ust do punktu środkowego pomiędzy oczyma. ⃗u 1 to wersor symetralnejodcinka między oczyma, ⃗u 2 to wektor jednostkowy o kierunku osi pionowej obrazu i zwróconydo góry. θ 1 określa kąt pomiędzy ⃗v 1 , a ⃗u 1 , analogicznie θ 2 (rysunek A.1). WyrażenieA.10 skonstruowane jest w taki sposób, aby przybierało największą wartość dla θ 1 = 0,θ 2 = 0, czyli kiedy oś twarzy jest równoległa do osi pionowej obrazu. Składnik q(i, j, k)wyrażenia A.6 wybierany jest bezpośrednio jako waga przypisana przez algorytm Houghadla dopasowanej elipsy.

90 A. Analiza map oczu i ust, wykrywanie twarzyoko j-teoko i-tev 2v 11u 1u 22usta k-teRysunek A.1 Geometria trójkąta, który tworzy para oczu i usta.

Dodatek BSegmentacja i wyznaczanie konturówsylwetek na obrazieBardzo częstym zagadnieniem spotykanym w zadaniach przetwarzania obrazów jestekstrakcja konturów sylwetek znajdujących się na obrazie (opis zastosowania tego problemuw niniejszej pracy znajduje się w sekcji 2.5.1). Przedstawiony jest tutaj podstawowy,prosty algorytm który pozwala na rozwiązanie tego zadania dla jednego obiektu. Dodatkowoopisany jest algorytm segmentacji, który w połączeniu z poprzednim algorytmemmoże być zastosowany do wydzielenia konturów wielu sylwetek na obrazie.B.1 Algorytm wyznaczania konturówPoniższy opis algorytmu powstał na podstawie [29]. Danymi wejściowymi dla algorytmujest obraz zawierający jedną sylwetkę, danymi wyjściowymi zbiór współrzędnychpikseli tworzących kontur sylwetki. Należy przedsięwziąć następujące kroki:1. Przeskanować poszczególne kolumny obrazu od lewej do prawej, każdą kolumnęskanując od dołu do góry, aż do znalezienia pierwszego piksela sylwetki. Punkt tenoznaczmy jako S.2. Analizować kolejne piksele zgodnie z następującymi regułami, aż do powrotu dopunktu S.(a) Jeśli jesteśmy na pikselu należącym do sylwetki, przemieszczamy się do pikselaznajdującego się na lewo (w stosunku do kierunku z którego dotarliśmy doanalizowanego piksela). Piksel ten należy dodać do listy pikseli konturu.(b) Jeśli analizowany piksel nie należy do sylwetki, przemieszamy się na pikselznajdujący się na prawo od obecnego.Przykładowy przebieg algorytmu przedstawiony jest na rysunku B.1.B.1.1Algorytm segmentacjiSam algorytm grupowania pikseli w spójne obszary jest jednym z podstawowych problemówprzetwarzania obrazów, pierwotna wersja tego algorytmu jest opisana np. w [19].Obrazem wejściowym jest obraz binarny, składający się z pikseli o wartościach 0 lub 1.Weźmy operator f, który przekształca piksel obrazu wejściowego a i,j w piksel obrazuwyjściowego (posegementowanego) a ′ i,j. Piksele obrazu wyjściowego przyjmują wartość ze

92 B. Segmentacja i wyznaczanie konturów sylwetek na obraziesRysunek B.1 Działanie algorytmu wyznaczania konturów.zbioru v 1 , ..., v k , gdzie v i oznacza identyfikator wydzielonego segmentu składającego sięz jedynek. Do każdego z pikseli obrazu wejściowego a i,j należy zastosować następującąprocedurę:1. Jeśli a i,j = 0, to a ′ i,j = 0.2. Jeśli a i,j = 1 i a ′ i−1,j−1 = a ′ i−1,j = a ′ i−1,j+1 = a ′ i,j−1 = 0, to a ′ i,j = v i , gdzie v i jest jednymz niewykorzystanych jeszcze identyfikatorów. Kiedy warunek ten jest spełniony,oznacza to, że algorytm rozpoczyna wydzielanie nowego segmentu połączonych zesobą jedynek.3. Jeśli a i,j = 1, a co najmniej jeden z pikseli a ′ i−1,j−1, a ′ i−1,j, a ′ i−1,j+1, a ′ i,j−1 ma wartość0 lub jakiegoś v i ∈ v 1 , ..., v k , wtedy v ′ i,j przyjmuje wartość najmniejszego z v i . Kiedytylko jeden pikseli a ′ i−1,j−1, a ′ i−1,j, a ′ i−1,j+1, a ′ i,j−1 ma wartość v i , oznacza to, żeanalizowany piksel a i,,j należy do segmentu o identyfikatorze v i . Jeśli dwa spośródtych pikseli mają już przypisany identyfikator segmentu, oznacza to, że analizowanypiksel jest łącznikiem między nimi. Należy zapamiętać te identyfikatory, w celupóźniejszego przypisania do obu segmentów wspólnego identyfikatora.Na koniec, należy pozbyć się nadmiarowych identyfikatorów: jeśli obszar oznaczony przezv s sąsiaduje z obszarem oznaczonym przez v r , gdzie v r < v s , wszystkim pikselom obrazuwyjściowego o wartości v s powinna zostać przypisana wartość v r . Dzięki tej operacji,przeprowadzanej rekurencyjnie, wszystkie piksele ze spójnego obszaru będą miały tensam identyfikator v r .

Dodatek COpis środowiskaPraca tworzona była w systemie operacyjnym Xubuntu 10.04, będącym debianowądystrybucją Linuxa. Ze względu na jej dynamiczny rozwój, niekiedy komponenty wchodzącew jej skład są zmieniane bez zachowania kompatybilności wstecznej. Czasami doprowadzato do sytuacji, w której oprogramowanie napisane dla danej wersji systemu niedaje się skompilować lub uruchomić w nowszych wersjach. Podobne kłopoty mogą pojawićsię w przypadku prób uruchomienia projektu na innych dystrybucjach linuksowych.Przedstawione są tutaj wersje wykorzystanych narzędzi wraz z ich krótkim opisem.W pierwszej kolejności wymienione są biblioteki współdzielone, które mogą spowodowaćnajwięcej kłopotów w przypadku próby uruchomienia stworzonego oprogramowaniaw przyszłości:Qt 4.6.2 Zbiór bibliotek dedykowanych do wykorzystania w aplikacjach napisanych wC++, umożliwiających między innymi tworzenie interfejsów graficznych.openCV 2.2 Zaawansowana biblioteka, która może być wykorzystywana do przetwarzaniaobrazów, zawiera olbrzymi zbiór funkcji, od najprostszych operacji morfologicznychpo bardzo skomplikowane procedury pozwalające na detekcję zadanychwzorców.tbb 2.2 Biblioteka dedykowana dla procesorów firmy Intel, umożliwiająca wykonywanieprogramów na więcej niż jednym rdzeniu jednocześnie.PittPatt FTR-SDK v4.2.2 Face Tracking and Recognition Software Development Kitfirmy Pittsburgh Pattern Recognition to zestaw narzędzi pozwalających na detekcję,śledzenie i rozpoznawanie twarzy. Korzystanie z bibliotek wchodzących w skład tegozestawu możliwe jest dzięki interfejsowi programowemu dla języka C.Skrypty napisane w celu ułatwienia tworzenia pracy (rozdział D) stworzone zostały w powłocesystemowej bash z wykorzystaniem narzędzi w niej dostępnych, takich jak awk czysed. Proces kompilacji i konsolidacji oprogramowania oraz tworzenia samego dokumentuzautomatyzowany został z wykorzystaniem GNU make. Dokument stworzony zostałz użyciem oprogramowania do składania tekstu Latex. Te elementy projektu równieżmogą powodować trudności w przypadku próby wykorzystania na późniejszych wersjachsystemu.bash 4.1.5 Podstawowe środowisko pracy w unixowych systemach operacyjnych. Umożliwiałatwe pisanie skryptów, co pozwala na zautomatyzowanie pracy i jej przyśpieszenie.

94 C. Opis środowiskaGNU make 3.81 Zestaw narzędzi ułatwiających automatyzację tworzenia różnego rodzajuprojektów informatycznych.pdflatex 3.1415926-1.40.10 Narzędzie konwertujące plik wejściowy napisany w Latex’udo pliku pdf.Ostatnia grupa narzędzi to standardowe programy wykorzystywane w czasie pisania itestowania kodu. Nie są one niezbędne do uruchomienia projektu.git 1.7.0 System kontroli wersji, niezastąpiony w pracy zespołowej. Przydatny również wjednoosobowych projektach, w których pozwala np. na opis i systematyzację historiirozwoju kodu.gdb 7.1 Program umożliwiający nadzór wykonywania się programu, znacznie ułatwiawyszukiwanie błędów.valgrind 1.3.6 Pozwala na kontrolę programu pod kątem poprawności zarządzania pamięcią.Przykładowo, możliwe jest znalezienie fragmentów kodu źródłowego, któreodpowiedzialne są za dynamiczną alokację pamięci, która nie jest następnie zwalniana,co prowadzi do tak zwanych “wycieków pamięci”. Potrafi wyszukać równieżinne rodzaje błędów, np. wykorzystanie wartości niezainicjalizowanej zmiennej czywarunek, który nigdy nie jest spełniony.

Dodatek DImplementacja skryptówułatwiających tworzenie pracyBardzo ważnym aspektem w trakcie przeprowadzania jakichkolwiek badań naukowychjest przygotowanie odpowiedniego środowiska. Dotyczy to również nauk informatycznych,w szczególności dziedziny jaką jest przetwarzanie obrazów. Do środowiska pracy na pewnozaliczyć można skrypty, które automatyzują pracę. Choć w początkowej fazie wymagająpoświęcenia czasu na ich stworzenie, to w późniejszych etapach projektu ilość czasu,którą można dzięki nim zaoszczędzić jest nieporównywalnie duża w stosunku do czasuprzeznaczonego na ich napisanie. Biorąc pod uwagę, że większość zaawansowanych systemówinformatycznych składa się z wielu komponentów, skrypty pozwalające na zautomatyzowaneuruchamianie ich, weryfikację poprawności działania i sprawdzenie rezultatówokazują się bardzo przydatne w każdym cyklu życia projektu. Szczególnie użyteczne są wprzypadku modyfikacji jednego z komponentów czy wprowadzania nowej funkcjonalności.W trakcie pisania niniejszej pracy, skrypty zostały wykorzystane dla dwóch zastosowań:automatyzacji przeprowadzania badań oraz tworzenia pliku z zawartością pracy.D.1 Budowanie pliku wynikowegoW czasie tworzenia dokumentu w języku Latex, zwykle systematycznie dokonuje siępróbnej kompilacji źródeł w celu oceny jakości otrzymywanego pliku pdf. Wraz z powiększaniemsię pliku źródłowego, jego edycja staje się coraz bardziej niewygodna, a kompilacjacoraz dłuższa.Aby rozwiązać te problemy, warto podzielić tworzony dokument na moduły. Pozwalato na przyśpieszenie i usystematyzowanie pracy. W Latex’u dostępne są różne metodywłączania plików do dokumentu głównego. W czasie tworzenia tej pracy wykorzystanyzostał pakiet subfile. Pozwala on na dołączanie plików źródłowych Latex’a modułówdo pliku źródłowego dokumentu głównego, z zachowaniem możliwości osobnej kompilacjizarówno modułów, jak i dokumentu głównego.Stosując względne ścieżki do plików z obrazami, należy pamiętać o tym, aby poszczególnepliki źródeł Latex’owych znajdowały się w strukturze katalogów na tej samej głębokości.Ścieżki powinny być skonstruowane w ten sposób, aby były poprawnie zinterpretowanezarówno przy budowaniu modułów, jak i dokumentu głównego.Przyśpieszenie pracy można też uzyskać dzięki zastosowaniu skryptu automayzującegobudowanie poszczególnych modułów i dokumentu głównego. W przypadku tego projektuwykorzystane zostało narzędzie GNU Make. Dodtkowo wprowadzone zostało rozwią-

96 D. Implementacja skryptów ułatwiających tworzenie pracyzanie, dzięki któremu bibliografia jest poprawnie generowana zarówno w modułach, jak igłownym dokumencie, co nie jest zapewnione w przypadku prostego wykorzystania komendybibliography. Rozwiązanie to polega na dołączeniu do każdego z modułów komendyinput{../../bib workaround.txt}, która powoduje włączenie zawartości podanegopliku do źródła dokumentu. Zawartość podanego pliku jest odpowiednio modyfikowna zpoziomu skryptu budującego, w zaleźności od tego, czy budowany jest główny dokument,czy moduł.D.2 Przeprowadzanie badańPodstawowym elementem środowiska do przeprowadzania badań jest aplikacja face-Detect (opisana w 3.4) działająca w trybie wsadowym (batch). Następujące funkcjonalnościaplikacji pozwoliły na stworzenie skryptów:• wszystkie parametry algorytmu mogą być przekazane w lini wywołania programu,• obrazy wynikowe mogą być zapisane na dysku,• czasy działania poszczególnych algorytmów są wypisywane na standardowym wyjściuaplikacji.Przygotowane środowisko wymaga, aby plan przebiegu poszczególnych eksperymentów zapisanybył w pliku konfiguracyjnym. Każdy eksperyment przeprowadzany jest na jednymobrazie wejściowym, liczba obrazów wyjściowych zależna jest od parametrów podanych wpliku konfiguracyjnym.Rezultatem uruchomienia skryptu jest plik pdf, zawierający obrazy uzyskane w wynikudziałania algorytmu, sformatowany zgodnie ze wskazówkami zawartymi w pliku konfiguracyjnym.Struktura pliku Latex’owego, na podstawie którego tworzony jest pdf,oparta jest o pakiet Latex’a – subfile. Uwzględnia również odpowiedni sposób formatowaniaścieżek do plików, wspomniany w poprzedniej sekcji. Pozwala to na łatwe dołączaniewygenerowanych plików do dokumentu głównego.1 i n p u t f i l e =/home/ master / imgs /18. jpg2 START PARAMS3 showSkinRegion4 saveImages5 gammaGlobCorr=0.26 noImagesShow7 END PARAMS89 CAPTION 2=Wynik wykrywania .10 CAPTION 1=Wykryte obszary skory .11 CAPTION GLOBAL=\\ l a b e l { f i g : gammaGlobCorr0 2}Wykryte obszary skory itwarze dla $\\ t e x t {\\ t e x t b f {gammaGlobCorr}} = 0 . 2 $ .1213 DEFAULT WIDTH=200px14 WIDTH 1=0.4\\ textwidth15 WIDTH 2=0.4\\ textwidth16 RENAME RULE=e r o s i o n17 RENAME RULE=f i n a lListing D.1 Przykładowa postać pliku konfiguracyjnego, wykorzystywanego jako danewejściowe dla skryptu ułatwiającego przeprowadzanie badań.

D.2. Przeprowadzanie badań 97Przykładowy plik konfiguracyjny przedstawiony jest w listingu D.1. Zawiera on następującesłowa kluczowe:input file nazwa pliku z obrazem który poddany zostanie przetwarzaniu,START PARAMS znacznik początku sekcji parametrów przekazywanych do aplikacjiw wywołaniu,END PARAMS znacznik końca sekcji parametrów,CAPTION 1, CAPTION 2, ... podpisy kolejnych obrazów wynikowych w wygenerowanympliku Latex’a,CAPTION GLOBAL podpis całego elementu zawierającego obrazy w wygenerowanympliku Latex’a,DEFAULT WIDTH domyślna szerokość, jaką będą miały obrazy wynikowe w wygenerowanympliku Latex’a,WIDTH 1, WIDTH 2, ... szerokości kolejnych obrazów wynikowych w wygenerowanympliku Latex’a,RENAME RULE reguły wykorzystywane do sterowania kolejnością umieszczania obrazóww wygenerowanym pliku Latex’a; nazwy obrazów wynikowych są przeszukiwanepod kątem zawartości podanych łańcuchów znakowych, a następnie umieszczanew pliku wynikowym zgodnie z kolejnością występowania w pliku konfiguracyjnym.Sekcja parametrów może zawierać dowolne ustawienia, które przyjmuje aplikacja face-Detect, zgodnie z opisem z tabel 3.16, 3.17, 3.18, 3.19 i 3.20. Rezultat działania skryptuuruchomionego dla pliku konfiguracyjnego z listingu D.1 przedstawiony jest w listinguD.2. Po przetworzeniu do pliku pdf prezentuje się on tak jak na rysunku 4.3.1 \ documentclass [ . . / . . / core / p a r t s / core / core ] { s u b f i l e s }2 \ begin {document}3 \ begin { f i g u r e } [ htp ]4 \ c e n t e r i n g5 \ s u b f i g u r e [ Wykryte obszary skory . ] {6 \ i n c l u d e g r a p h i c s [ width =0.4\ textwidth ] { . . / auto imgs /00020/11 8 s k i n a f t e r e r o s i o n }7 \ l a b e l { f i g : . . / auto imgs /00020/1 1 8 s k i n a f t e r e r o s i o n }8 }9 \ s u b f i g u r e [ Wynik wykrywania . ] {10 \ i n c l u d e g r a p h i c s [ width =0.4\ textwidth ] { . . / auto imgs /00020/21 8 e x p e f i n a l }11 \ l a b e l { f i g : . . / auto imgs /00020/2 1 8 e x p e f i n a l }12 }13 \ l a b e l { myfigure }14 \ caption {\ l a b e l { f i g : gammaGlobCorr0 2}Wykryte obszary skory i twarzedla $\ t e x t {\ t e x t b f {gammaGlobCorr}} = 0 . 2 $ . }15 \end{ f i g u r e }16 \end{document}Listing D.2 Przykład źródła Latex’owego uzyskanego w wyniku urchomienia skryptu.

98 D. Implementacja skryptów ułatwiających tworzenie pracyD.3 Pomiary czasuDrugi z zaimplementowanych skryptów jest przydatny do badania wpływu poszczególnychparametrów algorytmów na czas ich działania. Wykorzystuje on skrypt opisanypowyżej, uruchamiając go określoną liczbę razy, a następnie obliczając średnią, odchyleniestandardowe, minimalny i maksymalny czas działania badanego algorytmu. Czas działaniaalgorytmu uzyskiwany jest na podstawie informacji wypisywanych przez aplikacjęfaceDetect na standardowe wyjście. Czasy te mierzone są z wykorzystaniem dedykowanychfunkcji, wchodzących w skład biblioteki OpenCV. Przykład pliku konfiguracyjnegoskryptu przedstawiony jest na listingu D.3. Pojawia się w nim nowe słowo kluczowe:NO LATEX GENERATION wyłączenie generacji pliku źródłowego Latex’a.W wyniku działania skyrptu otrzymywane są dane w postaci takiej, jak to przedstawionow listingu D.4. W kolumnie wypisane są czasy z poszczególnych przebiegów algorytmu,poniżej podany jest fragment źródła Latex’owego, zawierający wycinek tabeli z odpowiedniosformatowanymi wartościami średniej, odchylenia standardowego, minimalnego imaksymalnego czasu działania algorytmu sprośród 10 przebiegów.1 i n p u t f i l e =/home/ master / imgs /41. jpg23 START PARAMS4 noImagesShow5 printTimes6 runHaar7 b e S i l e n t8 END PARAMS910 NO LATEX GENERATIONListing D.3 Plik konfiguracyjny skryptu wykorzystywanego do przeprowadzania badańdotyczących czasu działania poszczególnych algorytmów.1 Haar d e t e c t i o n times :2 740.353 736.6234 744.6515 736.7286 741.0377 737.9028 736.2489 740.75110 739.18711 740.5451213 $\ bar { t }=739.402 $ &14 $\ sigma { t }=2.47724 $ &1516 $ t {min}=736.248 $ &17 $ t {max}=744.651 $ &Listing D.4 Wynik działana skryptu wykorzystywanego do przeprowadzania badańdotyczących czasu działania poszczególnych algorytmów.

Bibliografia[1] AIKnowU – Face Recognition for Mobile Phones. https://github.com/octavian-sima/Face-Recognition/wiki/.[2] Face detection - pittsburgh pattern recognition. http://pittpatt.com.[3] GNU Scientific Library. http://www.gnu.org/software/gsl/.[4] R. Begg, R. Hassan. Artificial neural networks in smart homes. Designing Smarthomes: the role of artificial intelligence, 2006.[5] G. Bradski, A. Kaehler. Learning OpenCV. O’Reilly Media Inc., 2008.[6] V. Caselles, F. Catte, T. C. 1, F. Dibos. A geometric model for active contours inimage processing. Numerische Mathematik, 1993.[7] T. Chan, L. Vese. Active contours without edges. Image Processing, IEEE Transactionson, 10(2):266 –277, feb 2001.[8] W. Chen, T. Sun, X. Yang, L. Wang. Face detection based on half face-template.Electronic Measurement Instruments, 2009. ICEMI ’09. 9th International Conferenceon image processing, strony 4–54 –4–58, aug. 2009.[9] S. Chlebicki, J. Kędzierski, M. Żarkowski. Control system for a social robot. XI KrajowaKonferencja Robotyki, Wrocław, 2010.[10] Y. Freund, R. E. Schapire. A decision-theoretic generalization of on-line learningand an application to boosting. Proceedings of the Second European Conference onComputational Learning Theory, strony 23–37, London, UK, 1995. Springer-Verlag.[11] R.-L. Hsu, M. Abdel, A. K. Jain. Face detection in color images. Raport instytutowyMSU-CSE-01-7, Department of Computer Science, Michigan State University, EastLansing, Michigan, March 2001.[12] R.-L. Hsu, M. Abdel-Mottaleb, A. K. Jain. Face detection in color images. IEEETransactions on pattern analysis and machine intelligence, wolumen 24, may.[13] F. Huang, J. Su. Multiple face contour detection based on geometric active contours.Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE InternationalConference on, strony 385 – 390, may 2004.[14] P. Jackway, M. Deriche. Scale-space properties of the multiscale morphologicaldilation-erosion. Pattern Analysis and Machine Intelligence, IEEE Transactions on,18(1):38 –51, jan 1996.

100 BIBLIOGRAFIA[15] M. Jones, J. Rehg. Statistical color models with application to skin detection. ComputerVision and Pattern Recognition, 1999. IEEE Computer Society Conference on.,wolumen 1, strony 2 vol. (xxiii+637+663), 1999.[16] C. Kotropoulos, A. Tefas, I. Pitas. Frontal face authentication using morphologicalelastic graph matching. Image Processing, IEEE Transactions on, 9(4):555 –560, apr2000.[17] Y. H. Kwon, N. da Vitoria Lobo. Face detection using templates. Pattern Recognition,1994. Vol. 1 - Conference A: Computer Vision Image Processing., Proceedings of the12th IAPR International Conference on, wolumen 1, strony 764 –767 vol.1, oct 1994.[18] J. Reinders. Intel Threading Building Blocks. O’Reilly Media Inc., 2007.[19] A. Rosenfeld, J. L. Pfaltz. Sequential operations in digital picture processing. J.ACM, 13:471–494, October 1966.[20] J. Ruiz-Sarmiento, C. Galindo, J. Gonzalez. Improving human face detection throughtof camera for ambient intelligence applications. Ambient Intelligence - Software andApplications: 2nd International Symposium on Ambient Intelligence, 2011.[21] M. Ryoo, Y. ho Seo, H.-W. Jung, H. Yang. Affective dialogue communication systemwith emotional memories for humanoid robots. Affective computing and intelligentinteraction: first international conference, Beijing, 2005.[22] H. Schneiderman. Feature-centric evaluation for efficient cascaded object detection.Proceedings of the 2004 IEEE computer society conference on Computer vision andpattern recognition, CVPR’04, strony 29–36, Washington, DC, USA, 2004. IEEEComputer Society.[23] H. Schneiderman. Learning a restricted bayesian network for object detection. Proceedingsof the 2004 IEEE computer society conference on Computer vision and patternrecognition, CVPR’04, strony 639–646, Washington, DC, USA, 2004. IEEE ComputerSociety.[24] H. Schneiderman, K. T. A statistical method for 3d object detection applied for facesand cars. International Conference on Computer Vision, 2000.[25] Y. Shi, J. Yang, R. Wu. Reducing illumination based on nonlinear gamma correction.IEEE International Conference on Image Processing, 2007.[26] W. Skarbek, A. Krupiczka, A. Przelaskowski, W. Rakowski. Multimedia. Algorytmyi standardy kompresji. Akademicka Oficyna Wydawnicza PLJ, 1998.[27] S. Suzuki, K. be. Topological structural analysis of digitized binary images by borderfollowing. Computer Vision, Graphics, and Image Processing, 30(1):32 – 46, 1985.[28] J.-C. Terrillon, M. Shirazi, H. Fukamachi, S. Akamatsu. Comparative performanceof different skin chrominance models and chrominance spaces for the automatic detectionof human faces in color images. Automatic Face and Gesture Recognition,2000. Proceedings. Fourth IEEE International Conference on, strony 54 –61, 2000.[29] G. Toussaint. Grids, connectivity and contour tracing.

BIBLIOGRAFIA 101[30] C. Tsai, W. Cheng, J. Taur, C. Tao. Face detection using eigenface and neuralnetwork. Systems, Man and Cybernetics, 2006. SMC ’06. IEEE International Conferenceon, wolumen 5, strony 4343 –4347, oct. 2006.[31] P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple features.Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the2001 IEEE Computer Society Conference on, wolumen 1, strony I–511 – I–518 vol.1,2001.[32] C. Zhan, W. Li, F. Safaei, P. Ogunbona. Face to face communications in multiplayeronline games: A real-time system. Human-computer interaction: HCI applicationsand services: 12th international conference, Beijing, 2007.

Wykrywanie i Åledzenie twarzy na obrazie z kamery

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

Wykrywanie i Åledzenie twarzy na obrazie z kamery