09.08.2015 Views

wvC’08

ANAIS DO - Faculdade de Ciências - Unesp

ANAIS DO - Faculdade de Ciências - Unesp

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Anais do<strong>wvC’08</strong>4º workshop de Visão Computacional17 a 19-11-2008 | Bauru - SP1ª Edição - 2008Bauru - SP


SumárioApresentação ................................................................... 9Programa ..................................................................... 10Palestras ...................................................................... 15Minicursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15Comissão Organizadora .......................................................... 16Comissão de Programa .......................................................... 16ArtigosApresentação OralAvaliação de Modelos de Atenção Visual em Relação a Transformações Afins ............... 18Milton Heinen, Paulo Engel, UFRGSContext-Based Support Vector MachineUsing Spatial Autocorrelation Function for Image Classification .......................... 24Rogério Negri, Eliana Pantaleao, INPE, São José dos CamposCriação de mapas de disparidades empregandoanálise multi-resolução e agrupamento perceptual ..................................... 30Gustavo Teodoro Laureano, Maria Stela Veludo de Paiva, EESC - USP - São CarlosDecomposição de Imagens Digitais em Cartoon eTextura Através de uma Equação de Difusão Não Linear ................................ 35Wallace Casaca, Maurilio Boaventura, UNESP - São José do Rio PretoDeconvolution of 3D Fluorescence Microscopy Images byCombining the Filtered Gerchberg-Papoulis and Richardson-Lucy Algorithms. .............. 41Moacir Ponti Jr., Nelson Mascarenhas, Claudio Suazo, Marcelo Zorzan,Murillo Homem, UFSCar - São CarlosDetecção de Placas de Licença Veicular Utilizando Segmentação por Texturas. .............. 47Leonardo Matos, Yuri Tavares dos Passos, Renato Maciel, Universidade Federal de SergipeFusão de Métodos de Reconhecimento Facialatravés da Otimização por Enxame de Partículas ...................................... 53Giovani Chiachia, Bruno Penteado, Aparecido Marana, UNESP, BauruIdentificação de táxons de plantas por análise de textura do parênquima paliçádico ........... 57André Backes, USPJarbas Sá, Odemir Bruno, ICMC - USP - São CarlosRosana Kolb, UNESPInserção e Recuperação de Marcas D’Água em Imagens pela Transformada Wavelet. ......... 63Diovani Sans, UFPRHelio Pedrini, IC - UNICAMP - Campinas4


Voltar ao sumárioIntegrating Tsai’s Camera Calibration Algorithm with KLT Feature Tracking ................ 69Neucimar Leite, Rodrigo Minetto, Jorge Stolfi, IC - UNICAMP - CampinasNova abordagem para reconhecimento biométricobaseado em características dinâmicas da íris humana ................................... 75Ronaldo Costa, Adilson Gonzaga, EESC - USP - São CarlosObject-based Visual SLAM: How Object Identity Informs Geometry . . . . . . . . . . . . . . . . . . . . . . .82Antonio Selvatici, Anna Costa, Escola Politécnica - USPFrank Dellaert, College of Computing,Georgia Institute of Technology, USAOrientação de Bordas em Imagens Digitais: Abordagem por Análise de Vizinhança Local. ..... 88Ines A. G. Boaventura, UNESP - São José do Rio PretoAdilson Gonzaga, EESC - USP - São CarlosPolinômios Potências de Sigmóide: teoria, algoritmos e aplicações em visão computacional .... 94João Fernando Marar, UNESP, BauruRafael de Queiroz, ICMC - USP - São CarlosQuantum circuit proposal to solar visualization using BDA radiointerferometer ............. 100Renato de Oliveira Violin, José Saito, UFSCar - São CarlosHanumant Sawant, INPE - São José dos CamposRecuperação de Imagem Utilizando Descritores Baseados em Esqueletos. ................. 106Marcio Moreno, Ricardo Torres, IC - UNICAMP - CampinasUm algoritmo de classificação de imagens baseado em cor,utilizando Transformada Wavelet, MGD e similaridade entre matizes. .................... 112Will Machado, PUC Minas - Poços de CaldasAntonio Louro, USPUsing LSTM Network in Face Classification Problems ................................ 117Débora Corrêa, Denis Salvadeo, UFSCar - São CarlosAlexandre Levada, USPJosé Saito, Nelson Mascarenhas, Jander Moreira, UFSCar - São CarlosApresentação PosterA New Method to Fusion IKONOS and QuickBird Satellites Imagery .................... 124Juliana Denipote, USPMaria Stela Veludo de Paiva, EESC - USP - São CarlosAgrupamentos Nebulosos em Segmentação de Imagens Coloridas: Quantificação Histológica . 130Waldemar Bonventi Jr., Universidade de SorocabaAn extension of Metric Histograms for Color Based Image Retrieval ..................... 136George Brindeiro, André Geraldes, Dibio Leandro Borges, UnB5


Voltar ao sumárioAnálise ANATRO e Determinação de Volume a partir de Imagens de Anéis de Crescimento ... 142Lucio Jorge, Embrapa - São CarlosAlex Cuadros-Vargas, ICMC - USP, São CarlosFabio Navarro, Maria Augusta Rosot, Embrapa, São CarlosValentin Roda, EESC - USP - São CarlosAnálise da Variação de Textura em ImagensMamográficas para Classificação de Massas Suspeitas. ................................ 149Patricia Ribeiro, USPAvaliação do desempenho de recuperação de imagensmédicas baseada em conteúdo em redes de computadores e na Internet. ................... 155Ana Carolina Gracioso, USPAna Claudia Paris, EESC - USP - São CarlosMagali Andréia Rossi, USPAdilson Gonzaga, EESC - USP - São CarlosBoosting RAP-2D Image Restoration Through Genetic Programming. .................... 161Joao Paulo Papa, IC - UNICAMP - CampinasGreice Freitas, UNICAMP - CampinasClassificação Contextual de Imagens utilizandoCampos Aleatórios Markovianos e Teoria dos Jogos .................................. 167Alexandre Levada, USPNelson Mascarenhas, UFSCar - São CarlosAlberto Tannús, USPCombining Block-based PCA, Global PCAand LDA for Feature Extraction in Face Recognition .................................. 173Denis Salvadeo, Débora Corrêa, UFSCar - São CarlosAlexandre Levada, USPNelson Mascarenhas, Jander Moreira, José Saito, UFSCar - São CarlosComplex Wavelet Features for Bark Texture Classification ............................. 178Samuel Guedes, Dibio Leandro Borges, UnBContent-Based Video Retrieval through Wavelets and Clustering ........................ 184Cesar Castelo, Catholic University of Santa Maria, PeruDetecção de Resíduos em Imagens de Bolsas de Sangue Utilizando Transformada Wavelet. ... 190Cassio Adorni, Adilson Gonzaga, EESC - USP - São CarlosDimensão Fractal Volumétrica aplica à imagens urbanas de sensoriamento remoto .......... 196André Backes, Adriana Bruno, USPMauro Barros, Faculdade de Ciências Humanas EsudaOdemir Bruno, ICMC - USP - São CarlosEstimação da maturidade óssea utilizando dimensõesdos centros de ossificação extraídas por SNAKES modelos de contornos ativos ............. 201Celso Olivete Júnior, Evandro Luis Linhari Rodrigues, EESC - USP - São Carlos6


Voltar ao sumárioEstrutura para Utilização de Recuperação de Imagens Baseadaem Conteúdo em Oráculos de Teste de Software com Saída Gráfica ...................... 205Rafael Oliveira, Centro Universitário Eurípedes de Marília, UNIVEMMarcio Delamaro, USPFatima Nunes, EACH - USP - São CarlosEstudo preliminar da dimensão fractal de imagensmagnéticas para avaliar a desintegração de comprimidos ............................... 211André Backes, USPPaulo Fonseca, UNESP - BotucatuMurilo Stelzer, Giovana Evangelista, Luciana Corá, José Ricardo Miranda, UNESPOdemir Bruno, ICMC - USP - São CarlosEvaluation of the Error of a StereophotogrammetrySystem as a Function of the Object Position with Respect to the Calibration Grid ........... 216Julio Torres, UFRJJosé Gomes, COPPE/UFRJRafael Moraes, Mariane Petraglia, Antonio Petraglia, UFRJIdentificação de Pessoas através de AlgoritmoGenético aplicado em medidas das Proporções Áureas da Face Humana. .................. 220Walison Joel Barberá Alves, USPAdilson Gonzaga, EESC - USP - São CarlosImplementação de um Sistema de Visão Estéreo eTriangulação como Técnica para Determinação de Distância. ........................... 226Renato Gardiman, Ivando Diniz, Robinson Bruginski, UNESP - SorocabaInspeção Visual de Placas de Circuito Integrado com Alta Densidade de Microcomponentes. .. 231Felipe Oliveira, Universidade Federal do Amazonas, UFAMMetodologias para estimação da idade ósseautilizando a proporção divina com o auxílio da plataforma ANACARP. ................... 237Celso Olivete Júnior, Evandro Luis Linhari Rodrigues, EESC - USP - São CarlosNLMAP - Localização e Navegação de Robôs Cooperativos para Inspeção ................ 243Emanuel Estrada, Eder Mateus Gonçalves, Gabriel Oliveira,Silvia Botelho, Universidade Federal do Rio Grande - FURGPrinciple of Maximum Entropy for Histogram Transformation and Image Enhancement ...... 250Gilson Giraldi, LNCCPaulo Rodrigues, FEIRedes Complexas Aplicadas no Reconhecimento de Faces ............................. 256Wesley Nunes Goncalves, USPOdemir Bruno, ICMC - USP - São CarlosSeleção de atributos para a segmentação do couro bovino .............................. 262Lia Quinta, Hemerson Pistori, Universidade Católica Dom Bosco - UCDB - Campo Grande7


Voltar ao sumárioStudy and proposal of adaptation of the SIFTalgorithm in relation to the illumination problem in images ............................. 268Will Machado, PUC Minas - Poços de CaldasAntonio Louro, USPAdilson Gonzaga, EESC - USP - São CarlosSurgical Device for Supporting Corneal Transplants .................................. 274Liliane Ventura, EESC - USP - São CarlosTécnicas que Utilizam Processamento deImagens para Detecção e Classificação da Direção do Olhar ............................ 280Sheyla Gomes, Helton Maia, UFRNUm Sistema Multiagente para a Estimação daCobertura da Conformação por Jateamento em Placas de Alumínio. ...................... 286Luiz Vieira, Flavius Martins, IPT, São PauloAgenor de Toledo Fleury, FEIUsing quantum computing to realize the Fourier Transform in computer vision applications ... 292Renato de Oliveira Violin, José Saito, UFSCar - São CarlosUtilização do filtro passa banda Butterworth no domínio dafreqüência para realce de microcalcificações em mamogramas digitalizados. ............... 297Larissa dos Santos Romualdo, Marcelo Vieira, EESC - USP - São CarlosC. Goes, Universidade do Sagrado Coração, USCHomero Schiabel, EESC - USP - São Carlos8


Voltar ao sumárioApresentaçãoA área de Visão Computacional, fortemente consolidada em vários países, tem crescido demaneira significativa nos últimos anos no Brasil. Ela caracteriza-se primordialmente pela utilizaçãode imagens digitais associadas a técnicas de Reconhecimento de Padrões. Além disso, o estudo demétodos cognitivos, processos biológicos, processos físicos e estatísticos tem gerado soluções importantespara a área de Visão Computacional.O objetivo principal do Workshop de Visão Computacional (WVC) é possibilitar a apresentaçãoe discussão de trabalhos desenvolvidos em universidades e centros de pesquisas brasileiros,visando estimular grupos de pesquisas em Visão Computacional na geração de idéias e na divulgaçãodos trabalhos realizados.O evento que deu origem à série, o WVC 2005, aconteceu na cidade de Piracicaba, SP, emconjunto com o WRA 2005 – II Workshop de Realidade Aumentada, no período de 21 a 23 de Setembrode 2005, e foi organizado pelo Departamento de Ciências da Computação da UNIMEP (http://iris.sel.eesc.usp.br/wvc2005).O II Workshop de Visão Computacional, WVC 2006, aconteceu no período de 16 a 18 deOutubro de 2006, na USP, Campus de São Carlos, sob a realização do Departamento de EngenhariaElétrica (SEL) da Escola de Engenharia de São Carlos (EESC), e contou com apoio da FAPESP eCAPES (http://iris.sel.eesc.usp.br/wvc2006).O III Workshop de Visão Computacional, WVC 2007, aconteceu no período de 22 a 24 deOutubro de 2007, na UNESP, campus de São José do Rio Preto, sob a realização do Departamentode Ciências de Computação e Estatística, do Instituto de Biociências, Letras e Ciências Exatas (IBIL-CE), e contou com o apoio da SBC, da FAPESP e CAPES (http://iris.sel.eesc.usp.br/wvc2007).Em 2008, o Departamento de Computação, da Faculdade de Ciências, UNESP, campus deBauru, está realizando o IV Workshop de Visão Computacional, WVC 2008, no período de 17 a 19 denovembro de 2008, com o apoio da SBC, IEEE, FAPESP, CAPES, CNPq, FUNDUNESP e PROEX,e com o patrocínio da Opto, MSTech, Cientistas Associados, Grafilar, Nossa Caixa e Banco Real.Em 2008, estão participando do WVC pesquisadores de Instituições de Ensino e Pesquisalocalizadas em todas as regiões do Brasil, desde o Rio Grande do Sul até o Amazonas, da AméricaLatina e dos Estados Unidos. Foram submetidos 63 trabalhos, dos quais 18 foram aceitos para apresentaçãooral e 31 para apresentação na forma de pôster.O WVC é um evento científico que está ganhando importância no cenário nacional, sendo oúnico a tratar especificamente de pesquisas envolvendo todos os aspectos de estudos em Visão Computacionale Processamento de Imagens.9


Voltar ao sumárioProgramaSegunda-feira, 17 de novembro de 200814:00 - 15:30FunDeBWVC 2008Sessão Técnica 1 - Apresentação Oral - Coordenador: Adilson Gonzaga - USP• Nova abordagem para reconhecimento biométrico baseado em características dinâmicasda íris humanaRonaldo Costa, Adilson Gonzaga, EESC - USP - São Carlos• Detecção de Placas de Licença Veicular Utilizando Segmentação por TexturasLeonardo Matos, Yuri Tavares dos Passos, Renato Maciel, Universidade Federal de Sergipe• Deconvolution of 3D Fluorescence Microscopy Images by Combining the Filtered Gerchberg-Papoulisand Richardson-Lucy AlgorithmsMoacir Ponti Jr., Nelson Mascarenhas, Claudio Suazo, Marcelo Zorzan, Murillo Homem,UFSCar - São Carlos• Um algoritmo de classificação de imagens baseado em cor, utilizando TransformadaWavelet, MGD e similaridade entre matizes.Will Machado, PUC Minas - Poços de CaldasAntonio Louro, USP• Avaliação de Modelos de Atenção Visual em Relação a Transformações AfinsMilton Heinen, Paulo Engel, UFRGS• Fusão de Métodos de Reconhecimento Facial através da Otimização por Enxame dePartículasGiovani Chiachia, Bruno Penteado, Aparecido Marana, UNESP, BauruTerça-feira, 18 de novembro de 20088:30 - 10:00FunDeBWVC 2008Sessão Técnica 2 - Apresentação Oral - Coordenador: Dr. Maurilio Boaventura - UNESP• Polinômios Potências de Sigmóide: teoria, algoritmos e aplicações em visão computacionalJoão Fernando Marar, UNESP, BauruRafael de Queiroz, ICMC - USP - São Carlos• Inserção e Recuperação de Marcas D’Água em Imagens pela Transformada WaveletDiovani Sans, UFPRHelio Pedrini, IC - UNICAMP - Campinas• Integrating Tsai’s Camera Calibration Algorithm with KLT Feature TrackingNeucimar Leite, Rodrigo Minetto, Jorge Stolfi, IC - UNICAMP - Campinas10


Voltar ao sumário• Criação de mapas de disparidades empregando análise multi-resolução e agrupamentoperceptualGustavo Teodoro Laureano, Maria Stela Veludo de Paiva, EESC - USP - São Carlos• Using LSTM Network in Face Classification ProblemsDébora Corrêa, Denis Salvadeo, UFSCar - São CarlosAlexandre Levada, USPJosé Saito, Nelson Mascarenhas, Jander Moreira, UFSCar - São Carlos• Context-Based Support Vector Machine Using Spatial Autocorrelation Function forImage ClassificationRogério Negri, Eliana Pantaleao, INPE, São José dos Campos10:30 - 12:00FunDeBWVC 2008Sessão Técnica 3 - Pôster - Coordenador: Dr. Humberto Ferasoli Filho - UNESP• Inspeção Visual de Placas de Circuito Integrado com Alta Densidade de MicrocomponentesFelipe Oliveira, Universidade Federal do Amazonas, UFAM• Detecção de Resíduos em Imagens de Bolsas de Sangue Utilizando Transformada WaveletCassio Adorni, Adilson Gonzaga, EESC - USP - São Carlos• Content-Based Video Retrieval through Wavelets and ClusteringCesar Castelo, Catholic University of Santa Maria, Peru• Evaluation of the Error of a Stereophotogrammetry System as a Function of the ObjectPosition with Respect to the Calibration GridJulio Torres, UFRJJosé Gomes, COPPE/UFRJRafael Moraes, Mariane Petraglia, Antonio Petraglia, UFRJ• Análise da Variação de Textura em Imagens Mamográficas para Classificação de MassasSuspeitasPatricia Ribeiro, USP• Estimação da maturidade óssea utilizando dimensões dos centros de ossificação extraídaspor SNAKES modelos de contornos ativosCelso Olivete Júnior, Evandro Luis Linhari Rodrigues, EESC - USP - São Carlos• Técnicas que Utilizam Processamento de Imagens para Detecção e Classificação daDireção do OlharSheyla Gomes, Helton Maia, UFRN• Seleção de atributos para a segmentação do couro bovinoLia Quinta, Hemerson Pistori, Universidade Católica Dom Bosco - UCDB - Campo Grande11


Voltar ao sumário• Avaliação do desempenho de recuperação de imagens médicas baseada em conteúdo emredes de computadores e na Internet.Ana Carolina Gracioso, USP Ana Claudia Paris, EESC - USP - São CarlosMagali Andréia Rossi, USPAdilson Gonzaga, EESC - USP - São Carlos• Implementação de um Sistema de Visão Estéreo e Triangulação como Técnica para Determinaçãode Distância.Renato Gardiman, Ivando Diniz, Robinson Bruginski, UNESP - Sorocaba16:00 - 17:30FunDeBWVC 2008Sessão Técnica 4 - Pôster - Coordenador: Dr. José Eduardo Castanho Cogo - UNESP• Metodologias para estimação da idade óssea utilizando a proporção divina com o auxílioda plataforma ANACARPCelso Olivete Júnior, Evandro Luis Linhari Rodrigues, EESC - USP - São Carlos• Estudo preliminar da dimensão fractal de imagens magnéticas para avaliar a desintegraçãode comprimidosAndré Backes, USPPaulo Fonseca, UNESP - BotucatuMurilo Stelzer, Giovana Evangelista, Luciana Corá, José Ricardo Miranda, UNESPOdemir Bruno, ICMC - USP - São Carlos• Redes Complexas Aplicadas no Reconhecimento de FacesWesley Nunes Goncalves, USPOdemir Bruno, ICMC - USP - São Carlos• Um Sistema Multiagente para a Estimação da Cobertura da Conformação por Jateamentoem Placas de AlumínioLuiz Vieira, Flavius Martins, IPT, São PauloAgenor de Toledo Fleury, FEI• Análise ANATRO e Determinação de Volume a partir de Imagens de Anéis de CrescimentoLucio Jorge, Embrapa - São CarlosAlex Cuadros-Vargas, ICMC - USP, São CarlosFabio Navarro, Maria Augusta Rosot, Embrapa, São CarlosValentin Roda, EESC - USP - São Carlos• Utilização do filtro passa banda Butterworth no domínio da freqüência para realce demicrocalcificações em mamogramas digitalizadosLarissa dos Santos Romualdo, Marcelo Vieira, EESC - USP - São CarlosC. Goes, Universidade do Sagrado Coração, USCHomero Schiabel, EESC - USP - São Carlos• Boosting RAP-2D Image Restoration Through Genetic ProgrammingJoao Paulo Papa, IC - UNICAMP - CampinasGreice Freitas, UNICAMP - Campinas12


Voltar ao sumário• Estrutura para Utilização de Recuperação de Imagens Baseada em Conteúdo em Oráculosde Teste de Software com Saída GráficaRafael Oliveira, Centro Universitário Eurípedes de Marília, UNIVEMMarcio Delamaro, USPFatima Nunes, EACH - USP - São Carlos• Study and proposal of adaptation of the SIFT algorithm in relation to the illuminationproblem in imagesWill Machado, PUC Minas - Poços de CaldasAntonio Louro, USPAdilson Gonzaga, EESC - USP - São CarlosQuarta-feira, 19 de novembro de 20088:30 - 10:00FunDeBWVC 2008Sessão Técnica 5 - Apresentação Oral - Coordenador: Dra. Fatima L. S. Nunes - USP• Identificação de táxons de plantas por análise de textura do parênquima paliçádicoAndré Backes, USPJarbas Sá, Odemir Bruno, ICMC - USP - São CarlosRosana Kolb, UNESP• Orientação de Bordas em Imagens Digitais: Abordagem por Análise de Vizinhança LocalInes A. G. Boaventura, UNESP - São José do Rio PretoAdilson Gonzaga, EESC - USP - São Carlos• Object-based Visual SLAM: How Object Identity Informs GeometryAntonio Selvatici, Anna Costa, Escola Politécnica - USPFrank Dellaert, College of Computing, Georgia Institute of Technology, USA• Decomposição de Imagens Digitais em Cartoon e Textura Através de uma Equação deDifusão Não LinearWallace Casaca, Maurilio Boaventura, UNESP - São José do Rio Preto• Quantum circuit proposal to solar visualization using BDA radiointerferometerRenato de Oliveira Violin, José Saito, UFSCar - São CarlosHanumant Sawant, INPE - São José dos Campos• Recuperação de Imagem Utilizando Descritores Baseados em EsqueletosMarcio Moreno, Ricardo Torres, IC - UNICAMP - Campinas10:30 - 12:00FunDeBWVC 2008Sessão Técnica 6 - Pôster - Coordenador: Dr. Rene Pegoraro - UNESP• NLMAP - Localização e Navegação de Robôs Cooperativos para Inspeção13


Voltar ao sumárioEmanuel Estrada, Eder Mateus Gonçalves, Gabriel Oliveira, Silvia Botelho, UniversidadeFederal do Rio Grande - FURG• A New Method to Fusion IKONOS and QuickBird Satellites ImageryJuliana Denipote, USPMaria Stela Veludo de Paiva, EESC - USP - São Carlos• Classificação Contextual de Imagens utilizando Campos Aleatórios Markovianos e Teoriados JogosAlexandre Levada, USPNelson Mascarenhas, UFSCar - São CarlosAlberto Tannús, USP• Agrupamentos Nebulosos em Segmentação de Imagens Coloridas: QuantificaçãoHistológicaWaldemar Bonventi Jr., Universidade de Sorocaba• Principle of Maximum Entropy for Histogram Transformation and Image EnhancementGilson Giraldi, LNCCPaulo Rodrigues, FEI• Combining Block-based PCA, Global PCA and LDA for Feature Extraction in FaceRecognitionDenis Salvadeo, Débora Corrêa, UFSCar - São CarlosAlexandre Levada, USPNelson Mascarenhas, Jander Moreira, José Saito, UFSCar - São Carlos• Dimensão Fractal Volumétrica aplica à imagens urbanas de sensoriamento remotoAndré Backes, Adriana Bruno, USPMauro Barros, Faculdade de Ciências Humanas EsudaOdemir Bruno, ICMC - USP -São Carlos• Surgical Device for Supporting Corneal TransplantsLiliane Ventura, EESC - USP - São Carlos• An extension of Metric Histograms for Color Based Image RetrievalGeorge Brindeiro, André Geraldes, Dibio Leandro Borges, UnB• Using quantum computing to realize the Fourier Transform in computer vision applicationsRenato de Oliveira Violin, José Saito, UFSCar - São Carlos• Complex Wavelet Features for Bark Texture ClassificationSamuel Guedes, Dibio Leandro Borges, UnB• Identificação de Pessoas através de Algoritmo Genético aplicado em medidas das ProporçõesÁureas da Face HumanaWalison Joel Barberá Alves, USPAdilson Gonzaga, EESC - USP - São Carlos14


Voltar ao sumárioPalestrasPalestrantes Convidados do WVC 2008:• Professor Terrance E. Boult - Department of Computer Science - University of Coloradoat Colorado Spring• Professor Patrick J. Flynn - Department of Computer Science and Engineering• University of Notre Dame• Profa. Dra. Soraia Raupp Musse - Departamento de Ciência da Computação - PUCRS• JAI: Java Advanced ImagingDr. Rafael Duarte Coelho dos SantosMinicursos• Recuperação de Imagens Baseada em ConteúdoDr. Ricardo da S. TorresDr. Alexandre X. Falcão• Segmentação, Indexação e Recuperação de Vídeo utilizando o OpenCVDr. Carlos Hitoshi MorimotoThiago Teixeira SantosMinicursos Convidados do WVC 2008:• Prof. Dr. Alexandre Falcão Xavier e Prof. Dr. Ricardo da Silva Torres (IC-UNICAMP) -“Recuperação de Imagens Baseada em Conteúdo”• Prof. Dr. Carlos H. Morimoto e Thiago Teixeira Santos (IME-USP) - “Segmentação,Indexação e Recuperação de Vídeo Utilizando OpenCV”• Prof. Dr. Rafael Duarte Coelho dos Santos (INPE) - “JAI: Java Advanced Imaging”15


Voltar ao sumárioComissão Organizadora• Aparecido Nilceu Marana (UNESP - Bauru) - Presidente• José Remo Ferreira Brega (UNESP - Bauru)• Marcos Antonio Cavenaghi (UNESP - Bauru)• Humberto Ferasoli Filho (UNESP - Bauru)• Márcia Aparecida Zanolli Meira (UNESP - Bauru)• Marco Antonio Caldeira (UNESP - Bauru)• Inês A. Gasparotto Boaventura (UNESP– S.J.Rio Preto)• Maurilio Boaventura (UNESP - S.J.Rio Preto)• Fátima de Lourdes dos Santos Nunes (UNIVEM - Marília)• Adilson Gonzaga (USP - São Carlos)• Evandro Luis Linhari Rodrigues (USP - São Carlos)Comissão de Programa• Adilson Gonzaga (USP - São Carlos) - Presidente• Agma Juci Machado Traina (USP - São Carlos)• Alejandro Cesar Frery (UFAL - Alagoas)• Antonio Valerio Netto (Cientistas Associados - São Carlos)• Aparecido Nilceu Marana (UNESP - Bauru)• Carlos Dias Maciel (USP - São Carlos)• Carlos Morimoto (USP - São Paulo)• Célia Aparecida Zorzo Barcelos (UFU - Uberlândia)• Cláudio Kirner (UFOP - Ouro Preto)• Evandro Luis Linhari Rodrigues (USP - São Carlos)• Fátima de Lourdes dos Santos Nunes (UNIVEM - Marília)• Homero Schiabel (USP - São Carlos)• Humberto Ferasoli Filho (UNESP - Bauru)• Ivan Nunes da Silva (USP - São Carlos)• Jander Moreira (UFSCar - São Carlos)• João do Espírito Santo Batista Neto (USP - São Carlos)• João Fernando Marar (UNESP – Bauru)• João Paulo Papa (UNICAMP - Campinas)• José Alfredo F. Costa (UFRN - Natal)• José Eduardo Cogo Castanho (UNESP - Bauru)• José Roberto Nogueira (UNESP - Presidente Prudente)• Leandro Alves Neves (UEMG)• Luciano Silva - (UFPR)• Marcelo Andrade C. Vieira (USP - São Carlos)• Maria Stela Veludo de Paiva (USP - São Carlos)• Mauricio Galo (UNESP - Presidente Prudente)• Maurilio Boaventura (UNESP - S.J.Rio Preto)• Messias Meneguetti Junior (UNESP - Presidente Prudente)• Murillo Rodrigo Petrucelli Homem (USP - São Carlos)• Nelson Delfino D’Avila Mascarenhas (UFSCar - São Carlos)• Odemir Martinez Bruno (USP - São Carlos)• Olga Regina Pereira Bellon (UFPR - Curitiba)• Osvaldo Severino Jr. (FAFICA)• Rafael Duarte Coelho dos Santos (INPE - São José dos Campos)• Rene Pegoraro (UNESP - Bauru)16


Voltar ao sumárioApresentaçãooral17


Voltar ao sumárioAvaliação de Modelos de Atenção Visual em Relação aTransformações AfinsMilton Roberto Heinen e Paulo Martins EngelUFRGS – Instituto de Informática – CEP 91501-970, Porto Alegre, RSmrheinen@inf.ufrgs.br, engel@inf.ufrgs.brResumo— Os modelos computacionais de atenção visual,originalmente desenvolvidos para explicar o funcionamento dosmecanismos de atenção biológicos, ultimamente vem sendoutilizados como uma espécie de front-end em aplicações devisão computacional. Porém os requisitos necessários neste tipode aplicação são completamente diferentes dos originalmentepropostos. Em especial, um sistema de visão computacionalprecisa ser relativamente insensível a transformações afins.Neste artigo são descritos diversos experimentos realizados comdois modelos de atenção existentes, e estes demonstraram queo modelo mais conhecido, chamado de NVT, é extremamentesensível a transformações afins. Além disso, um novo modelode atenção visual, chamado de NLOOK, é proposto e validadosegundo os mesmos critérios, que demonstraram sua menorsensibilidade a estes tipos de transformações. Além disso, oNLOOK consegue selecionar melhor as fixações de acordo comum critério de redundância. Desta forma, o modelo propostoé uma ferramenta bastante adequada para ser utilizada emaplicações de visão computacional.I. INTRODUÇÃOA quantidade de informações que chega ao sistema visualdos primatas – estimada como sendo da ordem de 10 8 bitspor segundo – excede em muito a capacidade que o cérebrotem de processá-la e assimilá-la em sua experiência consciente[1]. A estratégia utilizada pelos sistemas biológicospara lidar com este excesso de informações é processar deforma detalhada somente algumas partes do campo visual,chamadas de regiões de interesse, e ignorar o restante dasinformações [2]. Segundo [3], a seleção das regiões de interesseé dirigida por um mecanismo competitivo de controlede atenção, que facilita a emergência de um vencedor entrediversos alvos potenciais, permitindo ao sistema processarinformações relevantes à tarefa atual enquanto que suprimeas informações irrelevantes que não podem ser processadassimultaneamente. O mecanismo de atenção do seres humanosé influenciado por dois principais tipos de informações:bottom-up ou exógenas (elementos da cena visual que sedestacam dos demais) e top-down ou endógenas (informaçõesdo córtex cerebral que alteram o foco da atenção). Assim, oser humano consegue ter um amplo campo de visão e umaelevada percepção dos detalhes sem no entanto exceder ascapacidades de processamento do córtex visual.Inspirados nos sistemas de atenção biológicos, é possíveldesenvolver sistemas de atenção computacionais que sejamcapazes de selecionar as regiões de interesse do campo visuala serem completamente processadas, e isto torna possívela análise de cenas complexas em tempo real com recursoslimitados de processamento. Embora diversos modelos deatenção visual bottom-up já tenham sido propostos e implementados[1], [4]–[7], a maioria destes modelos tem comofoco principal entender o funcionamento dos mecanismosde atenção dos seres vivos, e como tal têm sido avaliadossomente em relação à sua plausibilidade biológica [8]. Emum sistema de visão computacional é necessário, entre outrascoisas, que o modelo de atenção seja relativamente insensívela transformações afins (rotação, translação, reflexão e escala).Porém, segundo [8], o NVT [1], que é o modelo de atençãovisual mais conhecido e utilizado, é bastante sensível atransformações afins, e portanto não deve ser utilizado emaplicações de visão computacional.Este artigo apresenta um novo modelo computacional deatenção visual, chamado de NLOOK, que além de possuir umexcelente desempenho computacional é bem menos sensívela transformações afins que os outros modelos analisados, emespecial o NVT. Além disso, o NLOOK consegue selecionaras fixações de forma mais otimizada (menos redundante),e possibilita inclusive a seleção da escala aproximada dasmesmas. Todos estes fatores tornam o modelo propostouma excelente ferramenta, que pode vir a ser utilizada emdiversas tarefas de visão computacional como por exemploa identificação de objetos e a detecção de landmarks. Esteartigo está estruturado da seguinte forma: a Seção II descrevedois modelos de atenção existentes, o NVT [1] e o SAFE [8];a Seção III descreve as características do modelo proposto; aSeção IV descreve os experimentos realizados visando verificara sensibilidade dos diversos modelos a transformaçõesafins; e por último, a Seção V descreve as conclusões finaise as perspectivas futuras.II. TRABALHOS RELACIONADOSO primeiro modelo de atenção visual biologicamente plausívelfoi proposto originalmente em [4] e posteriormenteaperfeiçoado em [1]. Ele é baseado na teoria da integração defeições (Feature Integration Theory – FIT) [9] e na hipótesede que um “mapa de saliências” é capaz de fornecer umaestratégia eficiente no controle da atenção utilizando somenteinformações da própria cena visual (bottom-up) [10]. Nestemodelo, chamado de NVT, a imagem de entrada é decompostaem três mecanismos de detecção de características préatentivas(intensidade, cores e orientações), que operam emparalelo sobre toda a cena visual. Estas três característicassão posteriormente unidas em um único mapa de saliências,que codifica os estímulos mais importantes da cena visual.18


Voltar ao sumárioPara a criação dos mapas de características, no NVT sãoutilizadas operações lineares de centro-periferia aplicadassobre pirâmides gaussianas [11] com níveis ϕ ∈ [0, 8], ondeϕ = 0 corresponde ao tamanho original da imagem. Nomodelo de [1], as operações lineares de centro-periferia sãoimplementadas através da diferença entre os níveis finos egrosseiros das pirâmides gaussianas, onde o centro correspondeaos níveis c ∈{2, 3, 4} e a periferia aos níveis s =c + δ, com δ ∈{3, 4}. Os mapas resultantes deste processosão então reduzidos para o nível ϕ =4(mais grosseiro) enormalizados através do operador de normalização não linearN(·), que intensifica os mapas que possuem poucos picossalientes que se destacam dos demais [1], e em seguida estesmapas são combinados em um único mapa de características.Para a criação dos mapas de intensidade I no NVT, inicialmenteos canais vermelho (red – r), verde (green – g) e azul(blue – b) são extraídos da imagem colorida original. A partirdestes canais é gerada a imagem I =(r + g + b)/3, e sobreesta imagem são aplicadas as operações de centro-periferiadescritas anteriormente. Os mapas de cores C, que codificama oponência espacial e cromática das cores vermelho/verde(RG) e azul/amarelo (BY ), são criados de forma similaraos mapas de intensidade. Inicialmente os canais r, g e b daimagem colorida de entrada são normalizados por I de formaa separar a cor da intensidade. Em seguida quatro canais decores largamente sintonizados R, G, B e Y são criados. Apartir destes quatro canais são criadas pirâmides gaussianase realizadas as operações de centro-periferia, sendo que nocentro são utilizadas as pirâmides de uma cor (R ou B) enaperiferia as pirâmides de outra (G ou Y ). Para a criação dosmapas de orientação O(θ), são utilizadas pirâmides de Gabor[12] a partir da imagem I, com as orientações preferenciaisθ ∈{0 ◦ , 45 ◦ , 90 ◦ , 135 ◦ }. Em seguida estes quatro mapas sãounidos em um único mapa de orientações O.Após a construção dos mapas de características, estes sãounidos para formarem um único mapa de saliências globalS =(N(I)+N(C)+N(O))/3, que codifica os estímulosmais importantes da cena visual. Para a seleção dos focosde atenção (focus of attention – FOA), também chamadosde fixações, é utilizada uma rede neural do tipo “o vencedorleva tudo” (winner-take-all – WTA). Esta rede neural utilizaneurônios do tipo “integra e dispara” [13] com forte inibiçãoglobal, e um mecanismo de inibição de retorno (inhibitionof return – IOR) [14] evita que o foco de atenção (focus ofattention – FOA) fique sempre preso ao mesmo objeto [1].Embora este modelo de atenção já tenha sido utilizadoem aplicações de visão computational [15], [16], segundo[8] ele não é muito adequado de ser utilizado neste tipode aplicação por ser muito sensível a transformações afins(reflexão, rotação, translação e escala) na imagem original.De fato, o NVT foi desenvolvido para propiciar um melhorentendimento dos mecanismos de atenção biológicos, e nãopara ser utilizado em aplicações de visão computacional. Em[8] foi proposto um novo modelo de atenção visual, chamadode SAFE, e através de diversos experimentos foi mostradoque ele é menos sensível a transformações afins que o NVT.As principais diferenças do SAFE em relação ao NVT são:(i) as operações de centro-periferia são realizadas utilizandodiferenças de gaussianas (DoG) aplicadas sobre os diversosníveis das pirâmides gaussianas; (ii) os diferentes níveis dosmapas de características não são unidos entre si (toda apirâmide é preservada); (iii) ao invés de apenas um mapa,uma pirâmide de saliências é criada; (iv) o modelo tentaselecionar tanto a posição quanto a escala aproximada dosfocos de atenção; (v) não é utilizada uma rede WTA nem IOR– o SAFE simplesmente seleciona os máximos locais maisrelevantes em cada um dos níveis da pirâmide de saliências;(vi) os mapas de características são suavizados por um kernelgaussiano com desvio padrão 22.6; (vii) ao invés de filtrosde Gabor, o SAFE utiliza máscaras verticais de horizontaisde Ando [17], que tornam os mapas de orientação muitosimilares aos mapas de intensidade, ou seja, estes mapassalientam as bordas ao invés de orientações.Analisando o desempenho do SAFE, percebe-se que, emboraele seja menos sensível a transformações afins, estainsensibilidade é obtida a custo de grandes kernels gaussianos(DoGs com desvios de 14.12 e 22.6), o que em conjuntocom a suavização posterior remove praticamente todos osdetalhes finos da imagem. Além disso, os FOAs selecionadospelo SAFE costumam ser muito próximos entre si, ocorrendoinclusive diversas sobreposições entre FOAs de níveis diferentes.Outro problema é que os tempos de processamentodo SAFE são bastante elevados, da ordem de dezenas desegundos em um computador típico, o que impede a suautilização em tempo real.Assim, embora possua algumas vantagens em relação aoNVT, o SAFE apresenta diversas restrições que impedem seuuso em aplicações de visão computacional, especialmenteem tempo real. Outros modelos de atenção chegaram a sercogitados [7], [18], mas estes se mostraram tão insensíveisa transformações afins quanto o NVT. Assim, optou-se pelacriação de um novo modelo de atenção visual, chamado deNLOOK, que é descrito detalhadamente na próxima seção.III. MODELO PROPOSTOA Figura 1 mostra a arquitetura do modelo proposto nesteartigo, chamado de NLOOK 1 [19], [20], que é inspiradona conceitos de scale-space (espaço-escala) [21], tambémutilizados por Lowe nos descritores SIFT (Scale InvariantFeature Transform) [22]. Ou seja, diferentemente de outrosmodelos de atenção visual, o NLOOK utiliza scale-spacesao invés de apenas pirâmides gaussianas para as operaçõesde centro-periferia, o que torna o modelo proposto menossensível a transformações afins que os demais. Além disso,embora esteja fora do escopo deste artigo, o modelo propostoconsegue selecionar a escala aproximada dos FOAs de formamais eficiente que o SAFE.Para a criação de um scale-space, a imagem de entradaé inicialmente sub-amostrada em diversos oitavos [22], eas imagens iniciais de cada oitavo correspondem a umapirâmide gaussiana, ou seja, cada oitavo possui metade do1 NLOOK – http://www.inf.ufrgs.br/~mrheinen/nlook/19


Voltar ao sumárioFig. 1.Modelo propostotamanho de seu antecessor e o oitavo 0 corresponde àimagem original. Em seguida são criadas diversas escalaspara cada oitavo através da convolução sucessiva das imagensiniciais com kernels gaussianos. Por último, as diferenças degaussianas (DoG) são obtidas através da subtração absolutadas escalas adjacentes de cada oitavo. A Figura 2, adaptadade [22], ilustra este processo.Fig. 2.Diferença de gaussianas implementada utilizando scale-spacesO modelo proposto neste artigo utiliza o número máximopossível de oitavos, além do qual a imagem inicial deste oitavoseria menor que os kernels gaussianos. Isto correspondea cinco oitavos para uma imagem de 320 × 240 pixels e seisoitavos para uma imagem de 416×416 pixels. Segundo [22],o número ideal de escalas por oitavo a ser utilizado é três.Assim, os kernels gaussianos utilizados no NLOOK para asescalas 0, 1 e 2 possuem desvios de 1.2263, 1.5450 e 1.9466,respectivamente. Estes são os mesmos valores utilizados nosdescritores SIFT de Lowe [22].Para a criação dos mapas de intensidade, a imagem originalé convertida para uma imagem em tons de cinza I, eas diferenças de gaussianas são geradas para esta imagemutilizando scale-spaces. Assim, para uma imagem típica de416 × 416 pixels são criadas 12 diferenças de gaussianas(duas por oitavo). Em seguida cada uma destas diferençasde gaussianas são normalizadas pela subtração da média edivisão do resultado pelo desvio padrão. Como ocorre noSAFE, os diferentes oitavos e escalas não são unidos em umúnico mapa, ou seja, todas as DoGs são preservadas.Para a criação dos mapas de cores, inicialmente sãogerados quatro scale-spaces para os canais de cores largamentesintonizados R (vermelho), G (verde), B (azul) e Y(amarelo). A criação destes quatro canais é descrita de formadetalhada em [1]. Em seguida são geradas as diferenças degaussianas entre os diferentes canais, ou seja, para os mapasRG as subtrações absolutas ocorrem entre os canais R 0 −B 1e R 1 − B 2 de cada oitavo (onde 0, 1 e 2 são as escalas),e para os mapas BY ocorrem entre s canais B 0 − Y 1 eB 1 −Y 2 de cada oitavo. Assim, são criados dois scale-spacesde oposição de cores: RG e BY .Para a criação dos mapas de orientação são utilizadosfiltros de Gabor, que segundo [23] conseguem aproximar operfil de sensibilidade dos neurônios sensíveis a orientaçãoespacial presentes no córtex visual primário dos primatas. Acriação destes mapas é semelhante a dos mapas de intensidade,porém antes da convolução com os kernels gaussianosde cada escala a imagem inicial de cada oitavo é convolucionadacom os filtros Gabor. Assim como no NVT, no modeloproposto são utilizadas quatro orientações preferenciais θ ∈{0 ◦ , 45 ◦ , 90 ◦ , 135 ◦ }, ou seja, o modelo possui quatro scalespacesde orientação. As DoGs destes quatro scale-spacessão então normalizadas e somadas, dando origem assim aum único scale-space de orientações.Após a criação dos scale-spaces de características, estessão normalizados e somados em um único scale-space desaliências, que possui diversas DoGs (12 para uma imagem416 × 416 pixels). Estas DoGs são então redimensionadaspara a escala 0 (tamanho original da imagem) e somadas,formando assim um único mapa de saliências. Ao contráriodo NVT, no qual o mapa de saliências possui escala 4 (maisgrosseira), no NLOOK optou-se por expandir as DoGs para aescala 0 para que não houvesse perda de informações. Estatécnica também é adotada em [7]. A função do mapa desaliências único, que não existe no SAFE, é servir como um“resumo” do scale-space de saliências, permitindo assim ouso de um mecanismo de inibição de retorno (IOR) único.Após a criação do mapa de saliências único, este é percorridopelo foco de atenção da seguinte forma: inicialmente oponto mais saliente deste mapa é encontrado, e o scale-spacede saliências é então analisado para que seja descobertoo oitavo/escala que mais contribuiu para a saliência desteponto. Em caso de empate é utilizado o menor (mais fino)oitavo/escala. O mecanismo de inibição de retorno, quepossui o formato de uma gaussiana invertida, é então aplicadosobre o mapa de saliências único, sendo que o diâmetro destedepende do oitavo/escala mais relevante para o FOA atual.Mais precisamente, a seguinte fórmula foi desenvolvida parao cálculo do desvio padrão σ do IOR:σ = T/ F o+s/(E−1) (1)onde T é o tamanho básico do IOR (15 no modelo proposto),E é o número de escalas (3 no modelo proposto)e F =2 −1 /Eé o fator de escala, que determina a taxa decrescimento do IOR, e o e s são o oitavo e a escala maisrelevantes para o FOA atual. Quanto maior o oitavo/escala(mais grosseiro), maior o diâmetro do IOR.O protótipo do NLOOK foi implementado na linguagemde programação ANSI C++, e utiliza a OpenCV (OpenSource Computer Vision Library), que é uma bibliotecade processamento de imagens que possui uma coleção de20


Voltar ao sumáriofunções que implementam diversas rotinas de acesso a dispositivosde hardware, processamento de imagens e visãocomputacional de forma paralela (através do hardware gráfico)e eficiente. Além da OpenCV, o protótipo implementadoutiliza threads POSIX para garantir a execução paralela dosmapas de características em plataformas multi-processadas.IV. EXPERIMENTOS REALIZADOSNesta seção são descritos os experimentos realizadosvisando verificar a sensibilidade do modelo proposto emrelação às transformações afins, bem como comparar o seudesempenho com o desempenho do NVT e do SAFE. Paraisto, foram selecionadas 15 imagens de 320 × 240 pixels,mostradas na Figura 3 (por questões de espaço, algumasimagens desta figura foram rotacionadas em 90°). Estasimagens foram selecionadas de forma a conter elementosvariados como cenas naturais, pessoas, ambientes internos eexternos, placas de sinalização, etc., para que fosse possívelvalidar os modelos nas mais variadas condições. Sobre estasimagens foram aplicadas as seguintes transformações:• Reflexões vertical e horizontal;• Rotações de 45°a 315°, em intervalos de 45°;• Translação vertical de 1, 4, 9, 16 e 27 pixels;• Translação horizontal de 1, 4, 9, 16 e 27 pixels;• Alteração de escala com os fatores: 1.4 (aumento de40%), 1.2, 1.1, 0.9, 0.8 e 0.6 (redução de 40%);Totalizando 25 transformações distintas para cada imagem.Um modelo de atenção insensível a transformações afinsdeverá encontrar as mesmas fixações nas imagens originaise transformadas – estas apenas estarão deslocadas de acordocom a transformação aplicada. Para evitar que parte das informaçõesfossem perdidas, cada uma das imagens originais foiacrescida de bordas cinzentas, e a fronteira entre a imagemoriginal e as bordas foi levemente desfocada para evitar queesta região ficasse mais saliente que o restante da imagem.O tamanho das imagens com bordas é de 416 × 416 pixels,e assim foram utilizados 6 oitavos no NLOOK.Para avaliar a performance dos três modelos de atençãoem relação às transformações aplicadas, foram utilizadas asseguintes medidas de desempenho (adaptadas de [8]): taxa deerros grosseiros (gross errors – GE) e deslocamento médio(mean drift – MD). A taxa de erros grosseiros mede opercentual de fixações da imagem original que não são encontradasna imagem transformada, aplicando-se as devidastransformações nas posições dos FOAs originais e levandoseem conta uma margem de erro de 18 pixels (a mesmautilizada em [8]). Já o deslocamento médio mede a distânciamédia em pixels entre a posição desejada para as fixações,que é a posição do FOA na imagem original deslocada deacordo com a transformação aplicada, em relação à posiçãodas fixações obtidas na imagem transformada, ou seja:MD = 1 Nn=1D(Fd(n),Fo(n)) (2)Nonde N é o número de FOAs utilizado (10 nos experimentosrealizados), Fd(n) é a posição desejada do FOA n, Fo(n) éFig. 3.Imagens utilizadas nos experimentosa posição obtida do FOA n na imagem transformada, e D(·)é a distância euclidiana entre Fd(n) e Fo(n).Assim, cada um dos modelos de atenção foi testadocom as imagens da Figura 3 e suas respectivas versõestransformadas, e para cada um destes experimentos foramcalculadas as duas medidas de desempenho. A Tabela Imostra a média dos resultados obtidos com estas imagens emcada dos modelos de atenção analisados. A primeira colunadescreve a transformação aplicada. As demais colunas trazema média dos valores do deslocamento médio (MD) e dos errosgrosseiros (GE) sobre todas as imagens obtidos com os trêsmodelos de atenção. As últimas duas linhas trazem a médiae o desvio padrão das respectivas colunas, calculados emrelação às operações realizadas em todas as imagens.Em [8] já haviam sido descritos experimentos similaresque avaliaram o NVT e SAFE quanto a transformações afins,porém haviam sido utilizadas somente quatro imagens, dasquais apenas duas eram de cenas naturais, e uma destas erabastante escura. As Figuras 4(a) e 4(b) mostram, respectivamente,os intervalos de confiança (com um grau de confiançade 95%) do deslocamento médio (MD) e dos erros grosseiros(GE) obtidos sobre todas as operações realizadas.Conforme já havia sido provado em [8], os experimentosda Tabela I demonstram que o NVT é bastante sensível atransformações afins, não sendo adequado para ser utilizadoem aplicações de visão computacional. Já o SAFE e oNLOOK apresentaram resultados melhores nos dois crité-21


Voltar ao sumárioTABLE IRESULTADOS OBTIDOSNVT SAFE NLOOKTransform. MD GE MD GE MD GEReflexão v. 123.5 22.0% 22.9 4.7% 10.2 0.7%Reflexão h. 119.7 26.0% 6.7 0.7% 1.5 0.0%Rot. 45° 122.1 26.7% 38.3 6.0% 14.0 2.0%Rot. 90° 128.6 23.3% 18.8 3.3% 2.0 0.0%Rot. 135° 128.9 32.7% 42.2 6.0% 18.7 4.0%Rot. 180° 138.6 34.0% 20.9 3.3% 3.5 0.7%Rot. 225° 134.7 35.3% 41.0 7.3% 14.0 4.0%Rot. 270° 125.6 27.3% 18.5 2.7% 2.0 0.0%Rot. 315° 131.9 29.3% 37.2 4.7% 12.5 3.3%Transl. v. 1 42.9 4.0% 3.0 0.0% 3.2 0.0%Transl. v. 4 81.7 10.0% 8.6 0.0% 0.0 0.0%Transl. v. 9 84.2 9.3% 15.5 0.7% 3.1 0.0%Transl. v. 16 79.2 10.7% 22.3 1.3% 2.5 0.0%Transl. v. 27 95.3 20.0% 27.8 4.0% 11.8 0.7%Transl. h. 1 42.0 3.3% 1.7 0.0% 4.4 0.0%Transl. h. 4 84.5 7.3% 4.3 0.0% 0.0 0.0%Transl. h. 9 97.6 6.7% 6.7 0.0% 4.4 0.0%Transl. h. 16 88.4 8.0% 11.9 2.7% 0.0 0.0%Transl. h. 27 106.5 22.0% 19.7 3.3% 5.0 0.7%Escala 1.4 139.0 45.3% 111.2 42.0% 101.8 25.3%Escala 1.2 122.3 26.0% 90.8 16.7% 84.3 14.7%Escala 1.1 121.9 14.7% 78.9 16.0% 54.3 9.3%Escala 0.9 126.3 18.7% 69.6 15.3% 60.8 8.7%Escala 0.8 125.1 29.3% 76.9 23.3% 91.1 16.7%Escala 0.6 122.4 41.3% 88.3 30.0% 115.1 30.7%Média 108.51 21.33 35.35 7.76 24.81 4.85Desv. padrão 41.84 17.28 36.96 12.74 38.98 10.13A Figura 5 mostra o desempenho dos três modelos deatenção utilizando uma imagem original e sua respectivaversão rotacionada em 45°(parte das bordas foi retirada paramelhorar a visualização). Percebe-se que os FOAs selecionadospelo NLOOK, levando-se em conta as transformaçõesaplicadas, foram os mesmos em ambas as versões da imagem(original e rotacionada), ou seja, o NLOOK se mostrouinsensível à transformação aplicada. O SAFE apresentou umdesempenho similar ao NLOOK, mas o NVT selecionouFOAs diferentes para cada uma das versões da imagem, ea ordem das fixações também é diferente. Ou seja, o NVTse mostrou bastante sensível à rotação de 45°desta imagem.(a) Imagem original – NVT(b) Rotação de 45°– NVT(c) Imagem original – SAFE(d) Rotação de 45°– SAFE(a) Desloc. médio (b) Erros grosseiros (c) Distância mínimaFig. 4. Intervalos de confiança a 95%rios analisados, sendo que o desempenho do NLOOK foiestatisticamente superior (os intervalos de confiança não sesobrepõe). Ou seja, o NLOOK apresenta um sensibilidade atransformações afins muito menor que a dos demais modelos.Com relação à complexidade de tempo, o NVT levapoucos segundos para determinar as fixações de cada imagem(em geral menos de três segundos), enquanto que o SAFEleva em média 34 segundos para analisar cada uma dasimagens de 416 × 416 pixels em um computador típico 2 .Já o NLOOK consegue analisar cada imagem em aproximadamente100 milisegundos, o que o permite que o mesmoseja utilizado em aplicações de tempo real.2 Todos os experimentos foram realizados em um computador Dell Optiplex755, processador Intel(R) Core(TM)2 Duo CPU de 2.33GHz, 1.95GBde Memória RAM, GPU Intel e sistema operacional Linux de 64 bits.(e) Imagem original– NLOOKFig. 5.(f) Rotação de 45°– NLOOKComparação visual dos três modelos de atençãoOutro ponto que pode ser percebido na Figura 5 é queos FOAs selecionados pelo SAFE são bastante redundantes,existindo diversas sobreposições entre eles, e o mesmo ocorrecom o NVT. Já com o NLOOK isto não acontece, ou seja,o modelo proposto consegue analisar a imagem de formamais homogênea, não se detendo em apenas poucas partesda imagem. Isto ocorre porque o mapa de saliências é gerado22


Voltar ao sumáriopelo NLOOK na escala mais fina (o NVT utiliza a escalamais grosseira) e ao uso de kernels gaussianos menores, quetornam o mapa de saliências muito mais rico e detalhado.Estes dois fatores, aliados ao mecanismo de inibição deretorno proposto na Equação 1, tornam a seleção dos FOAsdo NLOOK bem mais otimizada que a dos demais modelosem relação a este critério.Para quantificar a qualidade dos FOAs selecionados emrelação ao grau de sobreposição, foi utilizada a seguinte medidade desempenho: para cada um dos FOAs selecionados,foi calculada a distância deste em relação ao seu vizinho maispróximo, e no final foi calculada a média destas distâncias.Um modelo com alto grau de sobreposição irá apresentardistâncias menores que um modelo com baixo grau de sobreposição.Esta medida de desempenho foi aplicada aos FOAsselecionados pelos três modelos para as 15 imagens originais(não transformadas), e os resultados foram os seguintes:• NVT: Média de 45.92 e desvio padrão de 27.95;• SAFE: Média de 30.12 e desvio padrão de 26.17;• NLOOK: Média de 49.15 e desvio padrão de 15.59;A Figura 4(c) mostra os intervalos de confiança (95%) destesresultados. Os resultados apresentados pelo NVT e peloNLOOK foram bastante similares, não sendo possível afirmarque um modelo seja superior ao outro neste critério (osintervalos de confiança se sobrepõe). Já o SAFE apresentouresultados bastante inferiores, o que evidencia que os FOAsselecionados por este modelo são mais redundantes que osFOAs selecionados pelos demais modelos. A Figura 6 mostraoutra figura na qual isto é evidente.Fig. 6.(a) Fixações do SAFE(b) Fixações do NLOOKComparação das fixações obtidas pelo SAFE e pelo NLOOKV. CONCLUSÕES E PERSPECTIVASEste artigo apresentou um novo modelo de atenção visual,chamado de NLOOK, que foi projetado especialmente paraser utilizado em aplicações de visão computacional. Estemodelo, que possui um excelente desempenho computacional,é bem menos sensível às transformações afins que osoutros modelos analisados. Além disso, o NLOOK consegueselecionar as fixações de forma bastante otimizada segundoum critério de redundância, e todos esses fatores tornamo modelo proposto mais adequado de ser utilizado emaplicações de visão computacional em tempo real.As perspectivas futuras incluem: (i) melhorar o desempenhodo modelo proposto em relação as variações de escala,que em nenhum dos modelos analisados foi satisfatória;(ii) utilização de informações top-down no processo deelaboração dos mapas de saliências; e (iii) utilizar do modeloproposto em aplicações de visão computacional, como porexemplo a identificação de objetos.AGRADECIMENTOSAgradecemos ao CNPq pelo apoio dado a este trabalho.REFERÊNCIAS[1] L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visualattention for rapid scene analysis,” IEEE Trans. Pattern Analysis andMachine Intelligence, vol. 20, pp. 1254–1259, Nov. 1998.[2] E. Niebur and C. Koch, Computational architectures for attention, ser.The Attentive Brain. Cambridge, MA: MIT Press, 1998, pp. 163–186.[3] R. Desimone and J. Duncan, “Neural mechanisms of selective visualattention,” Annual Reviews Neuroscience, vol. 18, pp. 193–222, 1995.[4] C. Koch and S. Ullman, “Shifts in selective visual attention: Towardthe underlying neural circuitry,” Human Neurobiology, vol. 4, no. 4,pp. 219–227, 1985.[5] J. K. Tsotsos, S. M. Culhane, W. Y. K. Wai, Y. Lai, N. Davis, andF. Nuflo, “Modeling visual attention via selective tuning,” ArtificialIntelligence, vol. 78, no. 1-2, pp. 507–545, 1995.[6] F. Orabona, G. Metta, and G. Sandini, “Object-based visual attention:a model for a behaving robot,” in Proc. 3rd Int. Workshop on Attentionand Performance in Comp. Vision (WAPCV), San Diego, CA, 2005.[7] S. Frintrop, “VOCUS: A visual attention system for object detectionand goal-directed search,” Ph.D. Dissertation, Rheinische Friedrich-Wilhelms-Universitat Bonn, Bonn, Germany, Jan. 2006.[8] B. A. Draper and A. Lionelle, “Evaluation of selective attention undersimilarity transformations,” Computer Vision and Image Understanding,vol. 100, pp. 152–171, 2005.[9] A. M. Treisman and G. Gelade, “A feature-integration theory ofattention,” Cognitive Psychology, vol. 12, pp. 97–136, 1980.[10] L. Itti, Models of Bottom-Up Attention and Saliency, ser. Neurobiologyof Attention. San Diego, CA: Elsevier Press, Jan. 2005, pp. 576–582.[11] P. J. Burt, T. Hong, and E. H. Adelson, “The laplacian pyramid as acompact image code,” IEEE Trans. Communications, vol. 31, no. 4,pp. 532–540, Apr. 1983.[12] S. Greenspan, S. Belongie, R. Goodman, P. Perona, S. Rakshit, andC. H. Anderson, “Overcomplete steerable pyramid filters and rotationinvariance,” in Proc. IEEE Computer Vision and Pattern Recognition(CVPR), Seattle, WA, June 1994, pp. 222–228.[13] Y.-H. Liu and X.-J. Wang, “Spike-frequency adaptation of a generalizedleaky integrate-and-fire model neuron,” Journal of ComputationalNeuroscience, vol. 10, pp. 25–45, 2001.[14] R. M. Klein, “Inhibition of return,” Trends in Cognitive Sciences,vol. 4, no. 4, pp. 138–147, Apr. 2000.[15] D. Walther, L. Itti, M. Riesenhuber, T. Poggio, and C. Koch, “Attentionalselection for object recognition – a gentle way,” in Proc. 2ndWorkshop on Biologically Motivated Comp. Vision (BMCV), vol. 2525.Tubingen, Germany: LNCS, Springer-Verlag, 2002, pp. 472–479.[16] V. Navalpakkam and L. Itti, “A goal oriented attention guidancemodel,” in Proc. 2nd Workshop on Biologically Motivated ComputerVision (BMCV’02), Tuebingen, Germany, 2002, pp. 453–461.[17] S. Ando, “Image field categorization and edge/corner detection fromgradient covariance,” IEEE Trans. Pattern Analysis and MachineIntelligence, vol. 22, no. 2, pp. 179–190, 2000.[18] N. Ouerhani, A. Bur, and H. Hügli, “Visual attention-based robot selflocalization,”in Proc. European Conf. Mobile Robotics (ECMR’05),Ancona, Italy, Sept. 2005, pp. 8–13.[19] M. R. Heinen and P. M. Engel, “Visual selective attention model forrobot vision,” in Proc. 5th IEEE Latin American Robotics Symposium(LARS’08). Salvador, BH, Brazil: IEEE press, Oct. 2008.[20] ——, “Modelo de atenção visual seletiva para aplicações em temporeal,” in Proc. IV Workshop on PhD Thesis in Artificial Intelligence(WTDIA’08), ser. LNCS. Salvador, BH: Springer-Verlag, Oct. 2008.[21] A. P. Witkin, “Scale-space filtering,” in Proc. Int. Joint Conf. ArtificialIntelligence, Karlsruhe, Germany, 1983, pp. 1019–1022.[22] D. Lowe, “Distinctive image features from scale-invariant keypoints,”Int. Journal of Computer Vision, vol. 60, no. 2, pp. 91–110, Jan. 2004.[23] J. G. Daugman, “Complete discrete 2-d gabor transforms by neuralnetwors for image analysis and compression,” IEEE Trans. Acoustics,Speech, and Signal Proc., vol. 36, no. 7, pp. 1169–1179, July 1988.23


Voltar ao sumárioContext-Based Support Vector Machine Using SpatialAutocorrelation Function for Image ClassificationRogério G. Negri 1 , Eliana Pantaleão 11 Instituto Nacional de Pesquisas Espaciais – Divisão de Processamento de ImagensCaixa Postal 515 – São José dos Campos – SP – Brazil{rogerio,elianap}@dpi.inpe.brAbstract. Support vector machine classifiers are widely used in pattern recognitionapplications. Contextual information can improve the classifier accuracyfor image classification. The autocorrelation function can be used to estimatehow relevant the neighborhood information is for a pixel classification. Thispaper proposes a support vector machine classifier that uses contextual informationof the discriminant function for one-against-all multiclass strategy. Thespatial autocorrelation function of the discriminant matrix is used to build afilter mask that will include the contextual information in the classification process.1. IntroductionSupport vector machines have been successfully used in several application areas, andspecially for pattern recognition. Since they were developed by Vapnik [Vapnik 1995],many variations of SVM classifiers were created, with many different purposes, such asin [Leea et al. 2005], [Jayadeva et al. 2007] and [Liu et al. 2006]. Contextual informationis used by Bruzzone et al. [Bruzzone et al. 2008] through the addition of a contextual termin the objective function.In the presence of noisy or non-separable data, a non-contextual pixel classifiercan label single pixels with a different class from the neighborhood. Contextual informationgives a significant hint about the pixel class in this case. Therefore, the informationabout the pixel neighborhood can be used to improve the classifier accuracy. This helpsto avoid undesired isolated pixels and make the objects edges more clearly defined.The spatial autocorrelation function can be used to measure the similarity degreeof the values in the image, according to the distance of the pixels. An image with bighomogeneous regions would result in a very different function from a very noisy or smalltextured image. Hence, it can be used to determine the size of the neighborhood that canbe considered when classifying a pixel.This paper proposes a support vector machine classifier that uses the autocorrelationfunction of the one-against-all discriminants to evaluate how relevant the neighborhoodinformation is for pixel classification. Contextual information is included byfiltering the discriminant matrix. The results showed that the autocorrelation function isefficient to identify the size of the neighborhood to be considered by the classifier, andalso to estimate the weights to be used on the filter.24


Voltar ao sumário2. SVMA Support Vector Machine (SVM) is a universal learning machine with a decision surfacethat is parametrized by a set of support vectors and a corresponding set of weights. Theoptimal separation of the support vectors from different classes corresponds to the optimalseparation of the classes in the complete training set.Given the labeled training set {x i ,y i }, with i =1, 2,...,N, y i ∈ {−1, 1} (thelabels) and x i ∈ l , the aim is to find a hyperplane that classifies correctly all N trainingpattern vectors. SVM finds the optimal hyperplane, that is, the one with the larger marginbetween the two classes, shown in Fig. 1 as Hyperplane 1. Hyperplane 2 is anotherseparating surface, but it is not optimal, since the margin is narrower. The margin ismeasured with respect to the hyperplane closest training vectors, which are called supportvectors.Figure 1. Separating hyperplanes for two classes and support vectors.To find the optimal decision function g(x), the following optimization problemmust be solved [Theodoridis and Koutroumbas 2006]:maxλ⎛⎞N⎝ λ i − 1 λ i λ j y i y j K(x i , x j ) ⎠i=12i,jsubject to:⎧⎪⎨⎪⎩0 ≤ λ i ≤ C, i =1, 2,...,N Ni=1λ i y i =0In this model, C is a free parameter that acts as an upper limit to the λ ivalues. The higher the value of C, less incorrect classification samples are allowed.The non-separable case can also be approached by mapping the data to a higherdimensional feature space where data are separable, or at least have better separability.For this purpose, any symmetric function satisfying Mercer’s conditions can be used[Theodoridis and Koutroumbas 2006], and they are usually referred as kernel functions(K(x i , x j )). Therefore, the separating surface is not necessarily linear. Examples of25


Voltar ao sumáriokernel functions are the inner product and the Radial Basis Function, defined respectivelyasK Linear (x i , x j )=(x T i· x j ). K RBF (x i , x j )=e− x i −x j 2σ 2SVMs were designed to separate only two classes. In literature, several ways todeal with a higher number of classes are described [Webb 2002]. In this work, the oneagainst-allmulticlass strategy was chosen. For d classes, we build d binary classifiersthat distinguish each class from all the others. This will generate d discriminant matrices,with the values of g(x) calculated for each vector to be classified, that is, each pixel ofthe image. In the ideal situation, only one of these values would be positive, the onecorresponding to the class of the feature vector, and all the others would be negative. Asthis is not always the case, the adopted solution is that the higher value determines thepixel classification, even if it is negative.3. Spatial Autocorrelation FunctionIn [Yanasse et al. 1993], the estimated autocovariance is defined by:γ(s x ,s y )= K x Kyt x=k x t y=k ya tx,ty a tx+sx,t y+s ywhere k x = max {1, 1 − s x }, k y = max {1, 1 − s y }, K x = min {N x ,N x − s x } andK y = min {N y ,N y − s y }, with N x × N y being the size of the original matrix or imageA. The variables s x and s y represent the vertical and horizontal distances, in pixels, fromtwo corresponding picture elements. In other words, the function computes an average ofthe correlation of the pixels, varying with the distance.The estimated spatial autocorrelation function is defined asρ(s x ,s y )=γ(s x ,s y )/γ (0, 0).The expected behavior of this function is to have the value 1 for the argument(0, 0), because a pixel has total correlation with itself, and decrease its value as the distancebecomes larger, in rows or columns, until reaching 0. Actually, some oscillatingbehavior can be observed after the initial great decrease. For more homogeneous images,with big regions of the same class, we expect the spatial autocorrelation function todecrease slower than for images with a lot of noise or several small regions.4. MethodologyThe proposed algorithm performs a SVM training in the traditional way, using the oneagainst-allmulticlass strategy, until the d discriminant matrices (G i = g i (A), for i =1,...,d) are built for the d classes.Then, the spatial autocorrelation function is computed for each of these matrices,and a filter is built with the values that are higher than a given threshold. In the experiments,the value 0.9 was considered appropriated. This means that the neighborhood tobe considered is the one that has an average correlation of at least 0.9 with the centralpixel.26


Voltar ao sumárioThe generated filter mask can have any symmetrical geometry, such as a square,a rectangle or a diamond, depending on the correlation values. Fig. 2 shows an exampleof how the filter is built. The autocorrelation values are placed symmetrically around thecentral pixel, which has value 1. Values below the threshold are set to 0. Each value isthen divided by the total sum of the filter values, in order to preserve the filtered matrixmean.Figure 2. Filter mask construction.The filter is applied to the discriminant matrix, merging the neighborhood informationin proportion to the weights obtained from the spatial autocorrelation function.The result is a smoothed version of the discriminant function. The idea is that, if a pixel xhas the spectral information that would lead common SVM to classify it as class i, and allits neighbors as class j, this process can change its classification to j. In this situation, thepixel has initially a high value on discriminant matrix G i and a low value on discriminantG j , and its neighbors behave the opposite way. After the filtering, both of the discriminantvalues will have changed to values closer to the neighborhood values, and this can beenough to make the g j (x) value greater than the g i (x), so that the pixel x will be classifiedas j.After the filtering, the classification proceeds as usual, with the higher discriminantvalues determining the pixels labels. To evaluate the result, the Grid Searchmethod is performed to find the best value for parameter C (250) under Linear Kernel[Negri et al. 2008].4.1. Experiments and ResultsThe image used for testing the algorithm is an 8-bit image, with the size of 256 × 256pixels, with three channels (RGB). Fig. 3 shows the chosen image and the samples usedfor training and validation, respectively represented by solid and hatched rectangles.The spatial autocorrelation functions were obtained for each discriminant matrixof each class against all the others, as shown in Fig. 4.Two classifications were performed, one with traditional SVM, without contextualinformation, and the second one with the presented method. Both results are shown onFig. 5.The classification matrices also showed a better result with the use of the contextualinformation. The overall accuracy had a slight increase from 92.59% to 95.99%. Thefirst part of the Table 1 shows the results for the traditional method, and the part on theright shows the results for the presented method.27


Voltar ao sumárioFigure 3. Training and Validation Samples.Figure 4. Autocorrelation functions for each discriminant.Figure 5. (a)SVM classification result without contextual information (b)resultwith presented method.The contextual information brings a better class characterization, avoiding the effectsof noisy data. However, in the tests performed so far, the increase of the accuracywas not significant, and the use of the method increases the classification time.28


Voltar ao sumárioTable 1. Classification MatrixTraditional SVMProposed MethodClassificationWall Gutter Sky Shadow Glass Roof Wall Gutter Sky Shadow Glass RoofC Wall 224 0 0 3 0 0 224 0 0 17 0 0l Gutter 0 249 0 0 28 0 0 229 0 0 6 3a Sky 0 0 256 0 0 0 0 0 256 0 0 0s Shadow 0 0 0 221 0 0 0 0 0 254 0 0s Glass 0 0 0 0 44 0 0 0 0 0 79 0Roof 0 7 0 47 13 232 0 27 0 0 0 2295. AcknowledgementsE. Pantaleão thanks CAPES and R. G. Negri thanks FAPESP (Proc. 2007/02139-5) forfinancial support.ReferencesBruzzone, L., Marconcini, M., and Persello, C. (2008). Fusion of spectral and spatialinformation by a novel svm classification technique. International Geoscience andRemote Sensing Symposium - IGARSS 2008. IEEE International, pages 4838–4841.Jayadeva, Khemchandani, R., and Chandra, S. (2007). Twin support vector machinesfor pattern classification. IEEE Transactions on Pattern Analysis and Machine Intelligence,29(5):905–910.Leea, K., Kimb, D., Leea, K. H., and Leeb, D. (2005). Possibilistic support vector machines.Pattern Recognition(38):1325–1327.Liu, Y., You, Z., and Cao, Z. (2006). A novel and quick svm-based multi-class classifier.Pattern Recognition(39):2258–2264.Negri, R., Erthal, G., and Dutra, L. (2008). Influência das estratégias multiclasse nodesempenho do classificador de imagens support vector machine. DINCON 2008 - 7thBrazilian Conference on Dynamics, Control and Applications. Presidente Prudente.Theodoridis, S. and Koutroumbas, K. (2006). Pattern Recognition. Academic Press, SanDiego.Vapnik, V. N. (1995). The nature of statistical learning theory.Webb, A. (2002). Statistical Pattern Recognition. Wiley.Yanasse, C. C. F., Frery, A. C., Sant’Anna, S. J. S., Hernandez, P. F., and Dutra, L. V.(1993). Statistical analysis of sarex data over tapajós - brazil. SAREX. Paris.29


Voltar ao sumárioCriação de mapas de disparidades empregando análise multi-resolução eagrupamento perceptualGustavo Teodoro Laureano 1 e Maria Stela Veludo de Paiva 2Universidade de São Paulo-USPDepartamento de Engenharia Elétrica-EESCLaboratório de Visão ComputacionalAvenida Trabalhador São-carlense, 400, São Carlos, São Paulogustavoengdm@gmail.com 1 , mstela@sel.eesc.usp.br 2ResumoInspirado no sistema de visão humano, a Visão Estéreoé uma área importante em visão computacional. Ela estárelacionada com a recuperação de informações tridimensionaisa partir de um par de imagens. Apesar de já serestudada há muito tempo, visão estéreo apresenta algunsproblemas quanto a mudança de perspectiva das câmeras,dentre eles, os problemas de oclusão e ambigüidade têmatenção especial, e compõe a base do problema estéreo,chamado de Problema da Correspondência. Em trabalhosrelacionados, técnicas locais são vantajosas por sua rapidez,mas não produzem bons resultados. Por outro lado,técnicas globais normalmente chegam a bons resultados,mas possuem um alto custo computacional. O principal objetivodesse trabalho é reduzir os efeitos do problema dacorrespondência em visão estéreo usando uma abordagemessencialmente local, evitando assim o alto custo computacionalcaracterístico das técnicas globais, mas tambémadotando técnicas que ajudem a reduzir os efeitos deoclusão e ambigüidade da cena. Duas estratégias são utilizadas:a análise multi-resolução com piramides de imagense força de agrupamento perceptual, chamada de teoriaGestalt na psicologia. Os resultados obtidos são próximosàqueles produzidos pelas técnicas globais, com a vantagemde requerer menos complexidade computacional. Ouso da teoria Gestalt faz desse trabalho uma abordagemmoderna sobre a estimação de disparidades, já que ela temsido utilizada em pesquisas recentes sobre visão computacional.1. IntroduçãoVisão estéreo possui como principal objetivo recuperarinformações tridimensionais de uma cena. Para isso ela usaduas ou mais imagens da mesma, capturadas de pontos devista diferentes. A informação 3D é obtida considerando asdiferenças entre as projeções (disparidades) de um pontofísico no espaço tridimensional.Em [1], os autores definiram três etapas gerais para aanálise estéreo: calibração das câmeras, correspondência ereconstrução. Onde a etapa de correspondência é responsávelpelo casamento de características entre o par de imagensestéreo, e é considerada o problema mais difícil da área[2].Visão estéreo apresenta dois problemas fundamentais:regiões ambíguas e regiões oclusas, que compõem o Problemada Correspondência. Em geral, os algoritmos estãoagrupados em duas áreas: métodos locais e globais [1].Geralmente, os métodos locais são rápidos e baseados emcorrelação estatística [3, 4, 5, 6] de janelas de vizinhança.Isso faz esse método sensível à ambigüidades e oclusões, oque é muito freqüente em cenas com falta ou repetição detextura ou grandes deslocamentos entre as câmeras.Por outro lado, as técnicas globais exploram característicasnão locais para reduzir a sensibilidade à ambigüidadee oclusão [1]. Contudo, o uso de características globaislevam a uma alta complexidade computacional. Normalmente,esses métodos caem sobre um problema de minimizaçãode energia com um termo de suavidade, considerandocaracterísticas globais em uma única linha [7, 8] ou na imageminteira [9, 10, 11].Em métodos locais, um outro problema é o tamanho dajanela de vizinhança. Ela deve ser grande o bastante paracobrir uma quantidade considerável de variação de pixels epequena o suficiente para evitar o efeito de projeções distorcidas.Alguns trabalhos propuseram algoritmos baseadosem janelas adaptativas [12, 13], múltiplas janelas [14, 15]e pesos adaptativos [16, 17].Janelas adaptativas tentam encontrar a melhor janelapara cada pixel variando sua forma e tamanho. Em [ 12],os autores apresentam um método que seleciona o tamanho30


Voltar ao sumárioapropriado da janela, considerando um modelo estatísticoda distribuição de disparidades contidas na janela de vizinhança,encontrando a que reduz a incerteza da estimaçãoda disparidade. Porém, essa técnica depende da estimaçãoinicial da disparidade de cada ponto e fixa uma forma retangularda janela, o que não é bom para tratar descontinuidades.Múltiplas janelas geralmente usam janelas pré definidasem volta do pixel de interesse. Em [14], os autores usamnove janelas deslocadas para a correlação. Nesse método,apesar de considerar vizinhanças diferentes, a janela aindapermanece retangular e requer mais tempo de computação,já que considera oito janelas de correlação a mais para cadapixel.Tamanhos e formas fixas para as janelas de correspondêncianão são ideais para lidar com os problemas de casamentode imagens por não trabalhar bem na presença dedescontinuidades. Por esta razão, métodos baseados em pesosadaptativos tentam associar pesos apropriados a cadapixel vizinho. Xu et. al., em [17], apresentam um algoritmopara a determinação de pesos adaptativos considerandocomputação radial. O peso de cada pixel é definido considerandoas disparidades vizinhas dentro de um determinadoraio, mas o método depende de uma estimativa inicialdas disparidades. Yoon and Kweon, em [16], sugeriram umsuporte adaptativo baseado na similaridade de cor e a proximidadegeométrica entre pixels vizinhos e o pixel de referência.Esse método reduz o problema de descontinuidadedas disparidades, mas não pode evitar correspondências erradasem regiões homogêneas.Nesse trabalho, é proposto um método de janelas adaptativasque utiliza agrupamento perceptual descrita pela teoriaGestalt para selecionar pesos adequados a cada pixel.Além disso, para reduzir o problema de ambigüidades, umaanálise multi-resolução é aplicada e o processo de correspondênciaé realizado em vários níveis de resolução.onde γ s refere-se a uma constate de similaridade e Δc pq éadistância euclidiana entre as cores dos pixels.Baseado no princípio de proximidade, a força de agrupamentopor proximidade espacial decresce com a distânciaespacial do pixel de interesse. A força de agrupamento perceptualpor proximidade é definida como:f p = e − Δdpqγp , (2)onde γ p é uma constante determinada pelo tamanho dajanela usada e Δd pq é a distância espacial entre os pixels.A força total de agrupamento perceptual pode ser escritacomo uma função f pq (Δc pq , Δd pq ), ondef pq = e − Δcpqγs+ ΔdpqγpCom essa abordagem, a força total de agrupamento associapesos aos pixels vizinhos, considerando a cor e posiçãorelativa entre o pixel de interesse. Os pixels que compõemo mesmo objeto devem possuir cores semelhante e próximos.Da mesma forma, pixels de cores similares, porémdistantes, não são considerados no processo de correspondência.3. Análise multi-resoluçãoNormalmente, métodos locais não lidam com regiões homogêneaseficientemente. O tamanho da janela de correspondênciaé um dos principais problemas no casamento deimagens estéreo, elas devem ser grandes para considerarsignificativa variação dos pixels e de formas diferentes paraevitar distorções provocadas pela mudança de perspectiva.Nesse artigo, esse problema é lidado usando análise multiresoluçãocom pirâmides de imagens.(3)2. Agrupamento PerceptualAgrupamento perceptual é uma teoria que lida com a organizaçãoperceptual, e uma de suas aplicações é explicarcomo humanos podem perceber e organizar estímulos comopadrões maiores e perceptíveis [18].Nesse trabalho, essa teoria é usada para definir como ospixels são agrupados e correlacionados. Uma janela de pesosé calculada para cada pixel de referência, considerandoa similaridade entre as cores e a proximidades dos seus vizinhos.Diferente do trabalho [16], o método apresentado calculaa similaridade de cor no espaço RGB. Considerando pser o pixel de interesse, a força de agrupamento por similaridadeé dada porFigura 1. Regiões homogêneas. (a) Imagemem alta resolução. Em baixa resolução (b), amesma janela pode agregar mais variaçõesde pixels.f s = e − Δcpqγs , (1)31


Voltar ao sumárioPirâmides de imagens consiste em uma seqüência decópias da mesma imagem, onde a resolução e amostragemsão reduzidas em passos regulares [19]. Isso permite acessara imagem em várias escalas [20]. Para o problema defalta de textura, uma mesma janela, na alta resolução, podeconter uma região homogênea, mas, em baixa resolução,a mesma janela cobre consideráveis variações de intensidades.4. Custo de dissimilaridadeFazendo p r o pixel de interesse na imagem de referênciaa ser correlacionado com p t ,opixel considerado na imagemalvo, e C a matriz de distâncias entre os pixels vizinhosdada por:C(q r ,q t )=c∈R,G,Bq (c)r 2,− q (c)t(4)onde q r e q t são os pixels vizinhos de p r e p t em RGB, respectivamente.O custo de dissimilaridade, e(p r ,p t ), é escritocomoe(p r ,p t )=qr ∈Nr,q t ∈N tC(q r,q t)·W(p r,q r)·W(p t,q t)qr ∈Nr ,q t ∈N tW(p r,q r)·W(p t,q t), (5)sendo W(p r ,q r ) e W(p t ,q t ) as janelas de pesos, N r e N to número de vizinhos de p r e p t , respectivamente. Assim,é considerada a disparidade que gera o menor valor de dissimilaridade.5. Algoritmo de correspondênciaA computação estéreo é feita em cada nível da pirâmide,sob a condição de que as disparidades dos níveis mais altossão aproximações das disparidades dos níveis inferiores.O primeiro passo trata-se da decomposição piramidal dopar estéreo. Mais tarde, no topo da pirâmide, o processo decorrespondência é feito considerando uma faixa de disparidades,d range , que depende de cada par estéreo. O custo édado porC(qqr ∈Nr,qE(p r ,p td )=td ∈N r,q td )·W(p r,q r)·W(p td ,q td )td,W(pqr ∈Nr,q td ∈N r,q r)·W(p td ,q td )td(6)onde q td e p td representa os vizinhos de cada pixel consideradona imagem algo com disparidade d ∈ d range e E éo vetor de custos. As disparidades com menor dissimilaridadesão propagadas para o nível inferior, e o processo decorrespondência é aplicado considerando t max disparidadesvizinhas d, como um erro de tolerância para as disparidadesestimadas. Essa metodologia reduz a quantidade,N f ,de chamadas à função de dissimilaridade. Enquanto que emalgoritmos locais N f é próximo de N f = R · C · d range ,usando a estimativa de disparidades com o erro de tolerância,o número de requisições à função de dissimilaridade éescrita comoN f = R · C · d range2 3·(N−1) +0n=N−2R · C2n ·(2·tmax+1), (7)2n onde R e C são o número de linhas e colunas das imagensde entrada e N o número de níveis da piramide. O primeirotempo calcula o número de requisições no topo e o segundocalcula a quantidade de requisições nos outro níveis.6. Resultados experimentaisNessa seção são apresentados os resultados de quatroimagens estéreo: tsukuba, venus, teddy e cones. Posteriormente,os resultados são comparados com médodos locais[16, 21, 22] e métodos globais [10, 23, 24]. A Figura 2mostra os mapas de disparidades para cada par de imagem.A primeira coluna, Figure 2(a), corresponde à imagem original.A segunda coluna, Figure 2(b), são a aproximaçãoinicial das disparidades, calculada no topo da pirâmide. AFigura 2(c) mostra a disparidade dos níveis intermediáriosda pirâmide. Na quarta coluna, Figura 2(d), é apresentadoo mapa final de disparidades, que corresponde à baseda pirâmide. Na última coluna, Figura 2(e), é mostrado oground truth de cada par.O erro é calculado comparando o groun truth com omapa de disparidades final, e é dado pelo erro percentualde pixels errados (bad pixels), B [22]. Assim, B é escritocomoB = 100R · C ·(y∈R,x∈C)|D(y, x) − ˆD(y, x)| >δ d, (8)onde D éoground truth e ˆD o mapa de disparidades. δ d éoerro de tolerância (nesse trabalho δ d =1). A Tabela 2 comparao erro obtido com outros trabalhos. Os valores encontradosaproximam-se aos produzidos por técnicas globais, oque evidencia a vantagem do método proposto em relaçãoaos métodos locais clássicos. Os parâmetros γ p e t max sãofixados como a metade do tamanho da janela de correspondênciae 4, respectivamente. Os resultados exibidos provémda melhor configuração de parâmetros: tamanho da janela,s w ,eγ s , como mostrado na Tabela 1.7. ConclusõesOs mapas produzidos indicam a performance do algoritmodesenvolvido. A atenuação do problema de correspondênciafoi obtido considerando análise multi-resolução32


Voltar ao sumário(a) (b) (c) (d) (e)Figura 2. Resultados experimentais. (a) Imagens originais: tsukuba, venus, teddy e cones, respectivamente.Em (b) são mostrados os mapas gerados a partir do topo da pirâmide, (c) o mapa de disparidadesno nível 1, (d) apresenta o mapa final de disparidades e (e) o ground truth.Tsukuba Venus Teddy Coness w 35 × 35 35 × 35 31 × 31 27 × 27γ s 9 9 18 11Tabela 1. Melhores valores de s w e γ s paracada par estéreo.para a redução das ambigüidades e o agrupamento perceptualna seleção dos pesos adaptativos correspondentesa cada pixel, lidando bem com as descontinuidades.O método proposto consegue gerar um mapa denso dedisparidades próximo dos produzidos pelas técnicas globaise apresenta um ganho substancial sobre os algoritmos locais.Além disso, o uso de pirâmides de imagens reduza quantidade de requisições à função de dissimilaridade,e conseqüentemente o tempo de computação dos mapasquando comparados às técnicas locais.Bad pixels B(%) Tsukuba Venus Teddy ConesAlgoritmo proposto 2.37 1.47 8.03 4.07Shift. Win. [22] 5.23 3.74 16.5 10.6AdaptWeights [16] 1.38 0.71 7.88 3.97SymBP+occ [24] 0.97 0.16 6.47 4.79Fast Corr. [21] 9.76 6.48 - -Belief Prop. [10] 1.15 1.00 - -Graph Cuts [23] 1.86 1.69 - -Tabela 2. Comparação com outros algoritmos.AgradecimentosOs autores desse trabalho gostariam de agradecerà CAPES e ao Departamento de Engenharia Elétrica deSão Carlos da Universidade de São Paulo.33


Voltar ao sumárioReferências[1] M. Z. Brown, D. Burschka, and G. D. Hager. Advances incomputational stereo. IEEE Transactions on Pattern Analysisand Machine Intelligence, 25(8):993–1008, 2003.[2] D. Zhou, Q. Wu, Y. Liu, and X. Cai. A stereo matching algorithmbased on fuzzy identification. Proceedings of 2003IEEE International Conference on Robotics. Intelligent Systemsand Signal Processing, 2:1108–1113, October 2003.[3] N. Roma, J. Santos-Victor, and J. Tomé. A comparative analysisof cross-correlation matching algorithms using a pyramidalresolution approach. ECCV2000 - 2nd Workshop onEmpirical Evaluation Methods in Computer Vision, 2000.[4] C. Sun. Fast stereo matching using rectangular subregioningand 3d maximum-surface techniques. International JOUR-NAL of Computer Vision, 47(1/2/3):99–117, May 2002.[5] Étienne Vincent and R. Laganière. An empirical study offeature point matching strategies. Proccedings of ConferenceVision Interface, pages 139–145, 2002.[6] R. Zabih and J. Woodfill. Non-parametric local transformsfor computing visual correspondence. Proceedings of theThird European Conference-VOLUME II on Computer Vision,2:151–158, 1994.[7] M. Gong and Y.-H. Yang. Fast stereo matching usingreliability-based dynamic programming and consistencyconstraints. ICCV ’03: Proceedings of the Ninth IEEE InternationalConference on Computer Vision, page 610, 2003.[8] A. Bensrhair, P. Miché, and R. Debrie. Fast and automaticstereo vision matching algorithm based on dynamic programmingmethod. Pattern Recogn. Lett., 17(5):457–466,1996.[9] J. C. Kim, K. M. Lee, B. T. Choi, and S. U. Lee. A densestereo matching using two-pass dynamic programming withgeneralized ground control points. Proceedings of the 2005IEEE Computer Society Conference on Computer Vision andPattern Recognition (CVPR 05), 2:1075–1082, 2005.[10] J. Sun, N.-N. Zheng, and H.-Y. Shum. Stereo matching usingbelief propagation. IEEE Trans. Pattern Anal. Mach. Intell.,25(7):787–800, 2003.[11] Y. Boykov, O. Veksler, and R. Zabih. Fast approximate energyminimization via graph cuts. ICCV (1), pages 377–384,1999.[12] T. Kanade and M. Okutomi. A stereo matching algorithmwith an adaptive window: theory and experiment. IEEETransactions on Pattern Analysis and Machine Intelligence,16(9):920–932, September 1994.[13] O. Veksler. Fast variable window for stereo correspondenceusing integral images. IEEE Proceedings of Computer SocietyConference on Computer Vision and Pattern Recognition.,01:556–561, 2003.[14] A. F. Bobick and S. S. Intille. Large occlusion stereo. Int. J.Comput. Vision, 33(3):181–200, 1999.[15] S. B. Kang, R. Szeliski, and J. Chai. Handling occlusionsin dense multi-view stereo. Proceedings of the 2001 IEEEComputer Society Conference on Computer Vision and PatternRecognition. (CVPR 2001), 1(1):103–110, 2001.[16] K. Yoon and I. S. Kweon. Adaptive support-weight approachfor correspondence search. IEEE Trans. Pattern Anal. Mach.Intell., 28(4):650–656, 2006.[17] Y. Xu, D. Wang, T. Feng, and H.-Y. Shum. Stereo computationusing radial adaptive windows. ICPR 02: Proceedingsof the 16 th International Conference on Pattern Recognition(ICPR02) VOLUME 3, pages 595–598, 2002.[18] D. Chang, K. V. Nesbitt, and K. Wilkins. The gestalt principlesof similarity and proximity apply to both the hapticand visual grouping of elements. AUIC ’07: Proceedings ofthe eight Australasian conference on User interface, pages79–86, 2007.[19] E. H. Adelson, C. H. Anderson, J. R. Bergen, P. J. Burt, andJ. M. Ogden. Pyramid methods in image processing. RCAEngineer, 29(6), 1984.[20] M. Bister. A new perspective on multiresolution image processing.CGIV ’04: Proceedings of the International Conferenceon Computer Graphics, Imaging and Visualization(CGIV’04), pages 267–272, 2004.[21] M. J. Black and A. Rangarajan. On the unification of lineprocesses, outlier rejection, and robust statistics with applicationsin early vision. International JOURNAL of ComputerVision, 19(1):57–91, 1996.[22] D. Scharstein and R. Szeliski. A taxonomy and evaluation ofdense two-frame stereo correspondence algorithms. InternationalJOURNAL of Computer Vision, 47(1-3):7–42, April-June 2002.[23] P. N. Belhumeur and D. Mumford. A bayesian treatment ofthe stereo correspondence problem using half-occluded regions.IEEE Conference on Computer Vision and PatternRecognition, pages 506–512, 1992.[24] J. Sun, Y. Li, S. B. Kang, and H.-Y. Shum. Symmetric stereomatching for occlusion handling. CVPR ’05: Proceedings ofthe 2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR’05) - VOLUME 2,pages 399–406, 2005.34


Voltar ao sumárioDecomposição de Imagens Digitais em Cartoon e Textura Através de UmaEquação de Difusão Não LinearWallace Correa de Oliveira CasacaDCCE-IBILCE-UNESPRua Cristóvão Colombo, 226515054-000 - São José do Rio Preto - SPwallace.coc@gmail.comMaurílio BoaventuraDCCE-IBILCE-UNESPRua Cristóvão Colombo, 226515054-000 - São José do Rio Preto - SPmaurilio@ibilce.unesp.brResumoUm tópico bastante importante área de processamentode imagens é a extração de características. Aplicaçõescomo extração de contornos, texturas e ruídos, por exemplo,compõem uma gama de problemas analisados intensamentenos últimos anos. Neste contexto, recentemente umanova concepção foi introduzida na área de análise de imagens:extrair de uma imagem f dois componentes u e v,tal que f = u + v, onde u representa o termo homogêneoda imagem (estrutura) e v o componente oscilatório, o qualconsiste de textura e/ou ruído. Neste sentido, o presente trabalhotem por finalidade apresentar um modelo matemáticopara efetuar tal decomposiçao. Para a caracterização destemodelo, utilizou-se uma modelagem matemática fundamentadana EDP não linear apresentada em [1], da qual épossível obter um método numérico para extrair de uma i-magem os componentes caracterizados como textura (e/ouruído) e estrutura.1. IntroduçãoNos últimos anos houve um aumento significativo nodesenvolvimento de novas técnicas e aplicações em áreasrelacionadas à computação gráfica e processamento de i-magens. Em particular, nesta última linha de pesquisa, asequações diferenciais parciais (EDP) vem sendo utilizadascom grande sucesso na modelagem de problemas diversos,em especial em problemas da área de retoque digital ("inpainting"),remoção de ruídos e principalmente da extraçãode características.No tópico extração de características, uma nova concepçãofoi introduzida recentemente, ou seja, a característicade extrair de uma dada imagem f dois componentes ue v, de forma que f = u+v, onde u representa a estrutura daimagem ("cartoon") e v o termo oscilatório, o qual consistede textura e/ou ruído. Este problema foi tratado por Meyer[8] e aperfeiçoado nesses últimos anos principalmente porYin [4]-[5], Goldfarb [4]-[5], Osher [4]-[5]-[9]-[10] e Vese[3]-[9], os quais buscaram formulações matemáticas diversaspara solucionar o problema, tais como minimização defuncionais por métodos variacionais, SCOPs com soluçãopor métodos de pontos interiores, entre outras abordagens.Baseado nos artigos [1], [2], [3], [4], [8], [9] e [10], oobjetivo deste trabalho é apresentar um modelo matemáticopara o problema de decomposição de imagens. O métodoaqui proposto está diretamente relacionado à EDP não linear(5).2. Decomposição de Imagens Digitais2.1. Conceitos FundamentaisA decomposição de uma imagem f pode ser definidacomo uma separação desta em duas outras novas imagens,u e v, as quais são combinadas de alguma forma resultamem f.O objetivo principal deste trabalho é decompor f em termosde duas imagens componentes, u e v, de modo quef = u + v. Estes conceitos podem, então, ser traduzidosatravés de formulações matemáticas.Seja −→ f : D ⊂ R 2 → R k uma imagem monocromática(k =1) ou colorida (k =3), que associa a cada pixel da i-magem de posição (x, y) um valor real (k = 1) ou umaterna real (k = 3). O objetivo é extrair de uma imagemf(x, y) dois componentes u(x, y) e v(x, y), tal quef(x, y) =u(x, y)+v(x, y), (1)onde u(x, y) modela os objetos da imagem (o "cartoon"e/ou a parte homogênea) e v(x, y) o componente quecaracteriza a textura e/ou o ruído.Aplicações envolvendo este processo de separação podemser encontradas nas áreas de eliminação de ruídos, seg-35


Voltar ao sumário3. EDP não linear proposto em [1]Para a modelagem do problema de decomposição, comojá foi dito anteriormente, foi considerado o modelo de remoçãode ruídos e segmentação de imagens proposto em[1]-[2], o qual havia sido projetado inicialmente para restaurarimagens com ruído.Os autores propuseram um modelo de remoção de ruídosseletivo, que efetua uma suavização mais completa nasregiões homogêneas da imagem, e superficial sobre as bordasda mesma, preservando, desta forma, a estrutura originalda imagem. O modelo proposto foi: ∂w∇w∂t = g|∇w|div − λ(1 − g)(w − I), (5)|∇w|onde w(x, y, 0) = I(x, y) é a imagem inicial adicionadade ruído e g é uma função monótona que depende da convoluçãode uma função gaussiana com o termo w.Através do estudo da equação (5), foi possível adequálaao problema de decomposição de imagens, em particularpara a obtenção do componente homogêneo u. A equaçãoobtida foi: ∂u∇u∂t = g|∇u|div − (1 − g)(u − f), (6)|∇u|com u(x, y, 0) = f(x, y) representando a imagem iniciala ser decomposta e g sendo uma função tal que g =g(|∇(G σ ∗ u)|).Na modelagem, aqui proposta, adotou-se g conforme aexpressão a seguir:g = g(|∇(G σ ∗ u)|) =11+k|∇(G σ ∗ u)| 2 ,G σ = G σ (x, y, t) = 1 + y 2 )2σπt e−(x2 2σt ,onde σ é um parâmetro ajustável de acordo com a imageminicial.As condições de contorno para este modelo são do tipo∂uNeumann, isto é,∂ −→ n=0, onde −→ n é o vetor normal aocontorno da região de definição da imagem f.Este modelo, o qual segue uma corrente teórica baseadaem equações de difusão originadas a partir do modelo deMalik e Perona [7], consiste em aplicar seletivamente oprocesso de difusão descrito por (6), suavizando de formamais incisiva regiões mais homogêneas e fazendo comque o termo forçante (u − f) atue de forma mais intensanas regiões caracterizadas como de contorno, e assim,preservando-as.3.1. Descrição do Algoritmo PropostoO algoritmo aqui proposto consiste inicialmente emgerar o componente estrutural u e posteriormente a texturav. As etapas do algoritmo são tais que:• 1 - Sintetização do componente u: utiliza-se um algoritmonumérico baseado na EDP não linear (6),visando estimar uma solução numérica da mesma.• 2 - Sintetização do componente v: utiliza-se operaçõesalgébricas simples, baseado na subtração do componenteu da imagem inicial f, isto é,v(x, y) =f(x, y) − ku(x, y)+c, (7)onde k é o peso e c é uma constante.No passo 1 a idéia é construir uma seqüência de imagensdigitais u(i,j,t):D × N → R k , k ∈{1, 3}, tal queu(i, j, 0) = f(i, j) e lim t→∞ u(x, y, t) =u, onde u é a imagemobtida após o fim do processo iterativo, a qual representao componente homogêneo da imagem f.Assim, o processo iterativo descrito anteriormente podeser represetado pela seguinte equação evolucionária:u(i,j,t∆+t) =u(i,j,t)+∆t∂u(x, y, t), (8)∂t∂u(x, y.t)onde o fator é substituído pela equação (6) em∂tsua versão discreta, juntamente com o respectivo passo temporal∆t.No caso do passo 2, efetua-se v = f − ku+ c, obtendo ocomponente oscilatório que representa a textura e/ou ruído.Em geral, toma-se k =1e c =0, o que implica na decomposiçãoexata de f em dois componentes: a estrutura ea textura, isto é, f = u + v.4. Resultados ExperimentaisA fim de avaliar o modelo proposto, são mostrados osresultados obtidos através de dois experimentos, nos quaisforam empregados tanto o método proposto quanto os modelosdescritos anteriormente.No primeiro experimento foi considerada uma amostrada fotografia da "Barbara", de dimensões 256×256, mostradosnas figuras 2, 3 e 4. Em seguida, foram realizados testescom uma imagem de impressão digital mostrados nas figuras5, 6 e 7, com dimensões de 117 × 117 pixels.Para a implementação numérica dos modelos (3) e (4)foi adotada a formulação discreta apresentada em [4]. Nomodelo (4), tomou-se λ =0e p =1. No caso do modeloproposto (6)-(8), foram utilizados os modelos numéricostal como relatados na sessão anterior.No modelo de Meyer (3) foi adotado para as exemplos1e2,η = 35 e 15, respectivamente, enquanto que para o37


Voltar ao sumárioFigura 2. Imagem experimental (Barbara).(a) Modelo de Meyer(b) Modelo de Vese-Osher(b) Modelo de Meyer(c) Modelo de Vese-Osher(c) Modelo PropostoFigura 4. Textura.(c) Modelo propostoFigura 3. Cartoons.Figura 5. Imagem experimental (ImpressãoDigital).modelo de Vese-Osher (4), foram tomados µ =0.1 e 0.5.Para o modelo proposto foram utilizados σ = 25 e σ = 40,38


Voltar ao sumário(a) Modelo de Meyer(a) Modelo de Meyer(b) Modelo de Vese-Osher(b) Modelo de Vese-Osher(c) Modelo PropostoFigura 6. Cartoons.(c) Modelo PropostoFigura 7. Textura.respectivamente.5. ConclusãoAtravés dos resultados experimentais obtidos, concluíseque o modelo apresentado forneceu resultados extremamentesatisfatórios em relação aos modelos clássicos da literatura,como pode ser visto nos experimentos mostrados.Uma vantagem em utilizar equações diferenciais namodelagem de problemas de extração de texturas e estruturasé o fato de se poder contar com uma extensa variedadede resultados analíticos e numéricos.Em termos da implementação numérica, o métodonumérico iterativo que retorna o componente estru-tural u da imagem é bastante robusto, na seqüência é entãoobtida a componente restante v (textura e/ou ruído) em termosda imagem f inicial.5.1. AgradecimentosOs autores agradecem à FAPESP pelo suporte financeiro.Referências[1] BARCELOS, C.A.Z, BOAVENTURA, M., SILVA, JR, A WellBalanced Flow Equation for Noise Remove and Edge Detection,IEEE Transactions on Image Processing, pp. 751-763,2003.39


Voltar ao sumário[2] BARCELOS, C.A.Z, BOAVENTURA, M., SILVA, JR, Edgedetection and noise removal by use of a partial differentialequation with automatic selection of parameters, Computationaland Applied Mathematics, Brazil, vol. 24, n. 1, pp.131-150, 2005.[3] GARNETT, J.B., MEYER, Y., TRIET, M.L. AND VESE, L.,Image decompositions using bounded variation and generalizedhomogeneous Besov spaces, International Journal ofComputer Vision 68, pp. 110-125, 2007.[4] GOLDFARB D., YIN, W. AND OSHER S., A Comparisonof Three Total Variation Based Texture Extraction Models,IEEE TSP, pp. 913-938, 2007.[5] YIN, W.,GOLDFARB, D. AND OSHER S., Image cartoontexturedecomposition and feature selection using the totalvariation regularized L 1 functional, Variational, Geometric,and Level Set Methods in Computer Vision, vol. 3752, L.N.in Comp. Science, Springer, pp. 73-84, 2005.[6] LIEU, L., Contribution to problems in image restoration, decomposition,and segmentation by variational methods andpartial diferential equations, Ph.D. thesis, UCLA, 2006.[7] MALIK, J., PERONA, P., Scale-space and edge detection usinganisotropic diffusion, IEEE Transactions Pattern Analysisand Machine Intelligence, vol 12, no. 7, pp. 629-639,1990.[8] MEYER, Y., Oscillating patterns in image processing andnonlinear evolution equations, Vol. 22 of University LectureSeries, AMS, 2002.[9] OSHER, S. AND VESE, L., Modeling textures with totalvariation minimization and oscillating patterns in imageprocessing, IJournal of Scientiŕc Computing 19, pp. 553-572,2003.[10] RUDIN, L., OSHER, S., FATEMI, E., Nonlinear Total VariationBased Noise Removal Algorithms, Physica D 60,pp.259-268, 1992.[11] TEIXEIRA, R., Introdução aos Espaços de Escala, 23žColóquio Brasileiro de Matemática, IMPA, Rio de Janeiro,2001.40


Voltar ao sumárioDeconvolution of 3D Fluorescence Microscopy Images by Combining the FilteredGerchberg-Papoulis and Richardson-Lucy AlgorithmsMoacir P. Ponti-Junior Nelson D.A. Mascarenhas Marcelo R. ZorzanClaudio A.T. Suazo Murillo R.P. HomemUniversidade Federal de São Carlos – Rod. SP-310, 235 - São Carlos-SP - Brazilmoacir@dc.ufscar.brAbstractThe problem of deconvolution in fluorescence microscopydeals at the same time with the diffraction limitthat cuts off some of the frequencies, blurring the image,and photon noise, that corrupts the image by insertingelements that are not present in the real object and alsodistorting the contrast. This distortions hampers the possibilityof using the 3D images for recognition and analysisapplications. In addition, the algorithms developed, in general,assume absence of noise or a white additive noise.This work presents an approach to deconvolve the imagesand deal with the noise present in real images. TheGerchberg-Papoulis algorithm and a smoothing operatorwere combined with the Richardson-Lucy iterative algorithm.The results of the method for simulated data arecompared with the ones obtained by the original algorithm.The method improved the results by obtaining highersignal-to-noise ratio and quality index values, performinga better band extrapolation.1. IntroductionFluorescence microscopy is a powerful tool for medicaland biological applications and research. The imagesobtained with these instruments, however, are distorted bythe acquisition system. The wide-field microscope, the mostused fluorescence microscope, is subject to the diffractionlimit — as any optical system — due to the finite apertureof the lens. As a result, the light originated from a pointin the focal plane is not exactly imaged as point. The widefieldmicroscope uses an excitation light that illuminates thewhole specimen, so that the camera captures light provenientfrom the focal plane and also from the planes aboveand below, yieding an out-of-focus, blurred image. The microscopyimages are also often degraded by noise, as a resultof the photonic statistical nature of the process. Thesecharacteristics make it difficult to use the images to obtainthree-dimensional (3D) images by computational opticalsectioning (COSM), a technique used in microscopyto obtain a 3D image from a series of 2D images of differentfocal planes [1].Since the formation of an image changes the recorded informationcontent with respect to that of the original object,there is interest directed to processing images so that the resultsclosely match the original object. The algorithms thatallow a reconstruction of the distorted images and the recoveryof frequencies lost in the acquisition process are calledrestoration or super-resolution restoration algorithms.Fourier optics demonstrates that there exists a cut-offspatial frequency which is directly determined by the shapeand size of the limiting pupil in the optical system. Thisdistortion of the spatial frequency components is governedby the OTF (Optical Transfer Function), the normalizedFourier transform of the PSF (Point Spread Function) of animaging system (see Figure 1). The PSF describes the spatialspread for a single point input. The presence of noiseis another distortion caused by the low exposure acquisitiontime. This noise is well modeled by a Poisson distribution,details of which will be discussed later.A probabilistic algorithm was developed by Richardsonand Lucy [2, 3] to restore images using a Poisson processto model the image formation system — such as in telescopic,the focus of their work, and also microscopic systems.At the time those works were written, the ability torestore frequencies beyond the image or signal passbandwas controversial. However, Gerchberg and Papoulis [4, 5]showed that the imposition of known constraints on frequencyand time domains could extrapolate a signal. Thisalgorithm, however, was not suitable to images with a morecomplex formation model, since that algorithm was not concernedwith blur and noise, but it led to the use of constraintsin image restoration problems, that was also the focus of thePOCS (Projection Onto Convex Sets) methods, an approachto the image restoration problem that was introduced byYoula and Webb [6]. The band extrapolation possibility was41


Voltar ao sumárioanalysed, and a Maximum a Posteriori algorithm was developedto performed superresolution, stating the real possibilityof band extrapolation [7, 8, 9]. A POCS-Taylor expansionextrapolation algorithm was developed in 2003, stillassuming absence of noise [10]. The pre-filtering of 3D microscopyimages has been explored recently as a means ofdealing with noise [11]. Previous work also applied a combinationof Richardson-Lucy and the Gerchberg-Papoulisfor 2D images [12]The method proposed in this work combines theGerchberg-Papoulis (GP) with the Richardson-Lucy (RL)algorithm. The iterative procedure also includes a filteringstep between the iterations. The filtering is carriedout just in the extrapolated frequencies of the spectrum,the known portion being re-inserted after the filtering.This procedure makes use of the prior information imposedby the GP algorithm to reduce the variation of thenoise, stopping the noise amplification without smoothingthe signal. An averaging filter was used in this context.The rationale behind the use of these filters is furtherexplained and basically one takes advantage of thesmoothing properties of the operators to prevent undesirableartifacts [13, 11]. Our goal is simultaneous restorationand extrapolation improvement. The main contributionof this work is to show that better superresolution resultscan be achieved with the combination of the previousmethods and also improving the contrast of the 3D imagesin a faster iterative procedure.Figure 1. Contour line of the frequency domainsupport of a OTF of the non-confocalmicroscope.2. Microscopy ImagesThe general imaging system for an optic wide-field microscopecan be modeled as:g(x, y, z) =f(x,y,z) ∗ h(x, y, z)+n(x, y, z), (1)where g is the observed image, h the point spread function(PSF) that models the blurring due to the optical system, fis the original image, ∗ is a three-dimensional convolutionoperator and n is the additive Gaussian noise.The model can be also efficiently expressed in terms ofthe Fourier transform:G(u, v, w) =F (u,v,w) · H(u, v, w)+N(u, v, w), (2)where the capital letters indicate the Fourier transform ofeach object described on equation 1. The model describedis suitable for an incoherent imaging system [14]. Underthis approach, the natural solution would be the inverse filter:F (u, v, w) = G(u,v,w) N(u, v, w)−H(u, v, w) H(u, v, w) . (3)Unfortunately, practical OTF have zero valued regions (beyondthe diffraction limit) often called ”missing cone regions”,resulting in no information on these areas. Figure1 shows a frequency domain support for a wide-field microscopeOTF showing the ρ =(u, v) 1/2 against w to illustrateshow the z axis is affected and defines the band limit Ω[15]. For instance, microspheres images appear ”diamond”shaped when viewed in an (x, z) or (y, z) planar view. Besides,there are low valued regions that amplify the noise.So, under these conditions the inverse filter does not exist.Due to the photon counting nature of light based sensors,a Poisson distribution can model the noise [16]. Consideringeach value of the function g(x,y,z) to be a realizationof a random variable described by a Poisson process, themodel can be written as:g(x, y, z) =N{f(x, y, z) ∗ h(x, y, z)} , (4)where N {} represents a random process, more specificallya Poisson process. This kind of process produces a noisethat is correlated with the image spanned by f(x, y, z) ∗h(x, y, z). The images are obtained under a low exposureto avoid photobleaching, a process that causes loss of fluorescence;therefore it causes the Poisson noise to be higher.This model does not consider the additive Gaussian noise asin the Equation 1. Indeed, the electronic CCD adds Gaussiannoise but it is not significant compared to the Poissonphoton counting noise [17].3. Richardson-Lucy AlgorithmThe Richardson-Lucy (RL) algorithm [2, 3] uses a probabilisticapproach: given a degraded image g, what is the im-42


Voltar ao sumárioage ˆf that maximizes the probability of observing the imageg? Considering the image as an observation of a Poissonprocess, the likelihood function would be:p(g| ˆf) = xh(x) ∗ ˆf(x) g(x) −h(x)∗ ˆf(x)e, (5)g(x)!where x represents (x,y,z) for a 3D signal.The RL algorithm minimizes the functional L( ˆf) =− log p(g| ˆf), giving the maximum likelihood estimation:L( ˆf) = −g(x) log (h ∗ ˆf)(x)+(h ∗ ˆf)(x). (6)xThe RL iteration is given by: g(x)ˆf n+1 (x) =ˆf(x) ∗ h(x)∗ h(x) · ˆf n (x). (7)This algorithm is generally stopped after a finite numberof iterations. When the deconvolution is ill-posed (a commonsituation in real applications), the signal-to-noise ratiobecomes increasingly poorer as the number of iterationsn →∞.4. Gerchberg-Papoulis algorithmThe Gerchberg-Papoulis (GP) algorithm [4, 5] assumesthat there is some knowledge about the bandwidth and iterativelyimposes the requirements that the signal is bandlimitedand matches the known portion of the signal. Letg(x) have a spectrum G(u) and Ω the region where G(u)is nonzero, u represents (u, v, w) for a 3D signal in the frequencydomain.Since g(x) is known within a region T , since it is spacelimited, the spatial support can be defined as: 1, (x) ∈ TB T (x) =(8)0, (x) /∈ TThe spectral pupil can be defined in the same context: 1, (u) ∈ ΩB Ω (u) =(9)0, (u) /∈ ΩThe algorithm consists in imposes the constraints above,as follows;ê 0 (x) =B T g(x),ê n+1 (x) =ê 0 + (1 − B T ) · F −1 {B Ω E n (u)} ,(10)where ê 0 (x) is the first estimation of the extrapolated image,ê n+1 (x) is the estimation at interation n+1, and Ên(u)is the current estimation in the frequency domain. The signalis clipped in the frequency domain by the spectral pupiland the known portion of the signal is imposed in the spacedomain. It constrains the frequencies to extend the spatiallimit. The convergence of this method is established in theabsence of noise [5].5. Method5.1. Filtered Gerchberg-PapoulisThe presence of noise, specially non-additive non-Gaussian noise, can easily led the reconstruction algorithmto diverge after a number of iterations. So, a filteringstep can be introduced to reduce the variation in the imageand make the restoration and spectrum extrapolationeasier. The filtering of data before running a restorationmethod for a non-linear iterative method was exploredby Van Kempen et al. [18] and for linear restorationby Colicchio et al. [11], showing good results. Toprevent over-smoothing, and to preserve the frequenciesalready present in the observed image, the filteringstep is restricted to the extrapolated frequencies beyondthe limit Ω. This represents an attempt to preserve thesignal while smoothing the high-frequencies, since the signalinformation in extrapolated frequencies are oftencorrupted by noise as pointed by Hunt, Nadar and Sementilli[7]. The algorithm that includes the filteringof the extrapolated frequencies can be written as follows:Ĉn+1(u) F = Filter (1 − B Ω ) · F B T ê f n(x) ,ê F n+1(x) =FB −1 Ω Ên F (u)+Ĉf n+1 ,(11)where ê F n (x) and ÊF n (x) are the previous estimates of thefiltered-extrapolated image and its Fourier transform, respectively;and Ĉf n+1 (x) is the filtered extrapolated frequencies.So, the extrapolated portion of the spectrum isfiltered and the frequencies within the band-limit are reinserted.The spectral pupil can be defined as a circular areadefined by the frequency boundaries where the spectrumgoes approximately to zero, or the practical bandwidth. Thespace support must be wide enough so that the object liescompletely on it. The modified algorithm constrains the spatiallimit in order to extrapolate the frequency limit.5.2. AlgorithmThe proposed method simultaneously applies the RLregularized algorithm and the GP algorithm as follows:ˆf n+1 = RL [e n ]ê n+1 = FGP [f n+1 ] ,(12)where RL is the Richardson-Lucy algorithm and FGPstands for Filtered Gerchberg-Papoulis, referring to the al-43


Voltar ao sumáriogorithm defined. Since the GP constraints are applied, theband extrapolation is expected to be improved.levels. This image was convolved with a theoretic microscopePSF of size 128x128x128. The PSF was constructedfollowing the theoretical model proposed by Gibson andLanni [19]. A montage of sections of the original phantom isshown in Figure 2 and the correspondent sections of the imageblurred by the PSF and also degraded by Poisson noiseare presented in Figure 3.A 3D real image obtained with a wide-field fluorescencemicroscope was also used in the experiment, this image hasthe same resolution and gray levels as the phantoms.Both phantom and real images were restored using theRL algorithm; the RL algorithm combined with the classicalGP, to which we refer as RL-GP; and the RL algorithmcombined with the filtered GP, or RL-FGP. The filter usedfor the RL-FGP algorithm was a [3x3] moving average filter.6.1. EvaluationFigure 2. Axial sections (x,z) number 32, 42,54 and 64 of the original bead imageThe restored images were evaluated by observingISNR (Improvement on Signal-to-Noise Ratio) and theUIQI (Universal Image Quality Index) [20]. The ISNR isgiven by:⎧ ⎫⎨g − f⎬ISNR = 20 log 10 ⎩ ˆf − f⎭ , (13)where g is the degraded image, f the original image andˆf the restored image. The ISNR compares the restored imageswith the original, and yields a number that measuresthe relative improvement.The UIQI is given by:UIQI =4σ f ˆf · f ˆf σf 2 + σ2ˆf ·f 2 + ˆf, (14)2Figure 3. Axial sections (x,z) number 32, 42,54 and 64 of the degraded bead image6. ExperimentsA series of experiments were carried out using the methodsdescribed in the previous sections. A bead phantomimage was built, with 128x128x128 voxels and 256 graywhere letters with bars are averages; σ 2ˆf and σf 2 are the varianceof the original and restored images, respectively, andσ f ˆfis the correlation coefficient between f and ˆf. Thedynamic range of UIQI is [−1, 1]. The best value, 1, isachieved if and only if f = ˆf.Also, to assess the spectral extrapolation, we use amethod described by Conchello [15], estimating the practicalbandpass of the image by as the region of the frequencydomain where the modulus of the Fourier transformis larger than 1% of its peak value. That is, the bandpassis the region where: ˆF (u)/ ˆF (0) > 0.01, (15)This measure can give a numerical information on howmuch the algoritms extrapolated the frequencies, and can beused to compare different methods.44


Voltar ao sumário7. ResultsThe degraded phantom image was restored using thethree algorithms as described in section 6. The section number54 of the bead phantom image as restored with each algorithmis shown in Figure 4 — the colormap was adjustedin all images for better visualization of the solutions. Thesection number 54 of a real image restored with the methodsis also shown in Figure 5.With the proposed method, the images were better restored,confirmed by an improvement in both the ISNR andUIQI; the practical bandwidth of the images also increasedwith use of the GP constraints as shown in Table 1, showingthe best results obtained by each method, stopped whenthe ISNR decreased (RL with 380 iterations, RL-GP with320 iterations and RL-FGP with 360 iterations)An undesirable effect of this method is ringing artifactswhen the spectral support is taken too small or the filteroversmooths the frequencies. One example is shown in Figure6, with the colormap adjusted to enhance the visualizationof the artifacts.Images ISNR UIQI BandpassDegraded Image — 0.011 249RL 5.011 0.147 11017RL-GP 5.711 0.165 15963RL-FGP 6.132 0.207 15705Table 1. Bead image restoration evaluationImages BandpassDegraded Image 731RL 1983RL-GP 2485RL-FGP 2831Table 2. Real image band extrapolation8. ConclusionNoise is always a difficult obstacle to overcome. Manywell-known restoration algorithms yield good results in theabsence of noise, but show poor performance when dealingwith real or noisy data. The proposed algorithm performsa good restoration and spectrum enhancement usingthe known constraints and filtering. The spatial support constraintallows a better spectral match to the original objectand the filtering prevents noise amplification. Because ofFigure 4. Axial sections n.54 (x,z) of the bestrestoration results for the bead image: (a) degraded;(b) RL with 380 iterations; (c) RL-GPwith 320 iterations; (d) RL-FGP with 360 iterationsthe superior regularization, a larger number of iterations canbe used before a high level of noise amplification occurs. Insome cases, the proposed method achieves a better signalto-noiseratio sooner than the competing methods. The proposedalgorithm leads to better ISNR and UIQI than theother methods. The results can be explained by the fact thatthe FGP method includes an extra regularization in the frequencydomain due to the filtering step. The results with thereal image do not show differences as marked, possibly becausethe image is relatively noise-free. However, the contrastwas improved. Further tests with images acquired withlower exposure times — and, consequently more noise —can show how the algorithm behaves under high level noiseconditions.The band extrapolation is still an open problem, speciallyin the presence of noise. The increasing of the practicalbandwidth of the images indicates that the RL-FGP algorithmis expected to perform a better spectrum extrapolationwhen compared to the classical RL algorithm, sinceit enforces both frequency and spatial support constraints.The improvement in the band extrapolation do not assurethe correct estimation of the spectrum beyond the diffractionlimit. However, the restored images are visually better,and are appropriate to be used in recognition and analysisapplications.Future work could analyse this feature by observing howthe spectrum spreads, and how reliable the extrapolation is.The design of more accurate filters to deal with the noisewithout loss of detail is a point left for future work.45


Voltar ao sumárioFigure 5. Axial sections n.54 (x,z) of the bestrestoration results for the real image: (a) degraded;(b) RL with 290 iterations; (c) RL-GPwith 240 iterations; (d) RL-FGP with 260 iterationsFigure 6. Ringing artifacts in case of oversmoothingReferences[1] P. Sarder and A. Nehorai. Deconvolution methods for 3-Dfluorescence microscopy images. Signal Processing Magazine,23(3):32–45, 2006.[2] W.H. Richardson. Bayesian-based iterative method of imagerestoration. J. Opt. Soc. Am., 62(1):55–59, 1972.[3] L.B. Lucy. An iterative technique for the rectification of observeddistributions. The Astronomical Journal, 79(6):745–765, 1974.[4] R.W. Gerchberg. Super-resolution through error energy reduction.Opt. Acta, 21:709–720, 1974.[5] A. Papoulis. A new algorithm in spectral analysis and bandlimitedextrapolation. IEEE Trans. Circuits and Systems,22(9):735–742, 1975.[6] D.C. Youla and H. Webb. Image restoration by the method ofconvex projections: part 1-theory. IEEE Trans., MI-1(2):81–94, 1982.[7] P. Sementilli, B. Hunt, and M. Nadar. Analysis of the limitto super-resolution in incoherent imaging. J. Opt. Soc. Am.A, 10:2265–2276, 1993.[8] B.R. Hunt. Super-resolution of images: algorithms, principles,performance. International Journal of Imaging Systemsand Technology, 6:297–304, 1995.[9] B.R. Hunt. Super-resolution of imagery: understanding thebasis for recovery of spatial frequencies beyond the diffractionlimit. In Information, Decision and Control, 1999. IDC99. Proceedings., pages 243–248. IEEE, 1999.[10] S. Bhattarcharjee and M.K. Sundareshan. Mathematicalextrapolation of image spectrum for constraint-set designand set-theoretic superresolution. J. Opt. Soc. Am. A,20(8):1516–1527, 2003.[11] B. Colicchio, O. Haeberle, C. Xu, A. Dieterlen, and G. Jung.Improvement of the LLS and MAP deconvolution algorithmsby automatic determination of optimal regularization parametersand pre-filtering of original data. Optics Communications,224:37–49, 2005.[12] M. P. Ponti-Junior, N.D.A. Mascarenhas, and C.A.T. Suazo.A restoration and extrapolation iterative method for bandlimitedfluorescence microscopy images. In IEEE Proceedingsof 20th Brazilian Symposium on Computer Graphicsand Image Processing, pages 271–280. IEEE, Oct 2007.[13] C. Preza, M.I. Miller, and J.-A. Conchello. Image reconstructionfor 3-D light microscopy with a regularized linearmethod incorporating a smoothness prior. In R.S. Acharyaand D.B. Goldgof, editors, Proceedings of the IS&T/SPIEsymposium on Electronic Imaging, Science and Technology,Biomedical Image Processing and Biomedical Visualization,volume 1905, pages 129–139. SPIE, Feb 1993.[14] J.W. Goodman. Introduction to Fourier Optics. McGrawHill, 2 edition, 1996.[15] J.-A. Conchello. Superresolution and convergence propertiesof the expectation-maximization algorithm for maximumlikelihooddeconvolution of incoherent images. J. Opt. Soc.Am. A, 15(10):2609–2619, 1998.[16] D.L. Snyder and M.I. Miller. Random Point Processes inTime and Space. Springer Verlag, 1991.[17] L.J. van Vliet, F.R. Boddeke, D. Sudar, and I.T. Young.Image detectors for digital image microscopy. In M.H.F.Wilkinson and F. Schut, editors, Digital Image Analysis ofMicrobes: imaging, morphometry, fluorometry and motilitytechniques and applications. Modern Microbiological Methods,pages 37–64. John Wiley & Sons, 1998.[18] G.M.P. van Kempen, L.J. van Vliet, and P.J. Verveer. Applicationof image restoration methods for confocal fluorescencemicroscopy. In C.J. Cogswell, J.-A. Conchello, andT. Wilson, editors, 3-D Microscopy: Image Acquisition andProcessing IV, volume 2984, pages 114–124. SPIE, 1997.[19] F.S. Gibson and F. Lanni. Experimental test of an analyticalmodel of aberration in an oil-immersion objective lens usedin three-dimensional light microscopy. J. Opt. Soc. Am. A,8(11):1601–1613, 1991.[20] Z. Wang and A.C. Bovik. A universal image quality index.IEEE Signal Processing Letters, 9(3):81–84, 2002.46


Voltar ao sumárioDetecção de Placas de Licença Veicular Utilizando Segmentação porTexturasYuri Tavares dos PassosDepartamento de ComputaçãoUniversidade Federal de Sergipeyuri.tavares@gmail.comLeonardo Nogueira MatosDepartamento de ComputaçãoUniversidade Federal de Sergipelnmatos@ufs.brRenato José Santos MacielDepartamento de ComputaçãoUniversidade Federal de Sergipevavoomhr@yahoo.com.brAbstractLicense plate recognition systems are used for manypurposes, such as for inspecting the behaviour of driversor locating of stolen vehicles. Typically, those systems requiresthe integration of three phases: License Plate Detection(LPD), License Plate Segmentation (LPS) andOptical Character Recogntion (OCR). In this paper wepresent an LPD method based on texture image segmentation.The segmentation approach is inspired by the behaviourof human visual system. A classification procedureidentifies the license plate location in segmented images.1. IntroduçãoO reconhecimento automático de placas de veículosé um problema complexo que vem recebendo crescenteatenção pela comunidade de Reconhecimento dePadrões devido ao seu caráter prático. O problema essencialdo reconhecimento de placas de licença é localizara placa do automóvel em um quadro de vídeoou imagem [14]. Após a sua localização, deve-se convertera imagem da placa em uma cadeia de caracteres(string) correspondente a identificação da placa.A solução para tal problema requer a integração demuitas abordagens utilizadas na Visão Computacional.Dentre essas estão as adotadas para a detecção de objetose para o reconhecimento de caracteres [9].Sistemas de Reconhecimento de Placas de Veículospodem ser usados em uma ampla variedade deaplicações. Podem ser usados para controle do acesso aáreas protegidas [4], monitoramento de tráfego [11], loteamentode estacionamentos [16], execução de leis detrânsito [3], coleta automática de pedágio [12] e localizaçãode veículos roubados ou registrados parafugitivos, criminosos ou contrabandistas [17].Tipicamente, um sistema LPR é composto por duaspartes: a detecção da placa de licença (License PlateDetection ou LPD) e a segmentação de caracteres daplaca de licença (License Plate Character Segmentationou LPS) [8]. A LPD consiste em detectar a presençade qualquer placa numa imagem ou vídeo, enquantoque a LPS tem como objetivo segmentar a placa de licençaem caracteres que serão reconhecidos posteriormenteatravés do reconhecimento ótico de caracteres(Optical Character Recognition ou OCR).Há diversos fatores que influem negativamente nosresultados de qualquer sistema LPD e LPS, tais como:condições atmosféricas, condições de iluminação ou danosfísicos nas placas. Outro problema é a enorme quantidadede possíveis localizações da placa na imagem epossíveis inclinações da placa em relação ao eixo principalda imagem. Além disso, a placa pode não estarcompletamente visível na imagem ou o veículo fotografadonão possuir placa.O tema principal deste artigo é a descrição de ummétodo de detecção da placa de automóveis (LPD) apartir de uma matriz de rótulos gerada por um algoritmode classificação de texturas.Este artigo está organizado da seguinte forma. ASeção 2 descreve o algoritmo de classificação de texturasusado para a geração da matriz de rótulos, a Seção 3descreve o método de detecção da placa de automóveisa partir dessa matriz de rótulos, a Seção 4 apresenta osresultados da abordagem proposta e a Seção 5 contém47


Voltar ao sumárioas conclusões a respeito dessa abordagem.2. Método para classificação de texturasA idéia do método proposto para classificação detexturas consiste em decompor a imagem em diversaspartes menores e classificar cada uma delas com baseem características, tais como orientação predominante,nível de cinza médio, existência de bordas, etc., que sãoelementos invariantes em uma pequena vizinhança dasimagens. Esses elementos, denominados textons, caracterizamas texturas [5]. Os elementos que caracterizamas texturas são encontrados indiretamente durante umaetapa de aprendizado.A etapa de aprendizado consiste em extrair algumasamostras de texturas de diversas imagense, em seguida, diminuir a dimensão dessas amostrastransformando-as em vetores de características.Estes vetores serão utilizados como entrada paraum algoritmo de agrupamento não-supervisionado(Figura 1). Neste trabalho foi usado redes neuraisSOM [10] com o algoritmo de agrupamentoCosta-Netto [1].Figura 1. Esquema do método proposto paraclassificação de texturas2.1. Extração de CaracterísticasA extração de características foi desenvolvida combase no trabalho de Maciel et al. [13], que empregaum método de reconhecimento de texturas inspirado nofuncionamento do sistema visual humano. Essa etapapode ser descrita como segue. Uma janela deslizante de4×4 pixels, varre a imagem saltando de 16 em 16 pixels.À subimagem extraída dessa janela, aplica-se a TransformadaDiscreta de Fourier (DFT) seguido do cálculodo logarítmo sobre as magnitude dos valores da DFT.O uso da transformada de Fourier é justificado pelofato de muitas características estruturais que formamuma imagem típica da base de imagens de veículos serembem caracterizadas no domínio da freqüência, taiscomo asfalto, lataria, placa e bordas.O espectro da DFT resultante é então linearizadooriginando um vetor de 16 posições. Contudo, o vetorresultante possui muita redundância e dependênciaentre seus componentes. Dado que muitos componentesda DFT contribuem com um peso insignificante nasua formação, a dimensão do padrão pode ser seguramentereduzida sem prejuízo para o algoritmo de reconhecimento.Para isso foi utilizado a Análise do ComponentePrincipal (PCA) [15].Para utilizar PCA, foi gerado um conjunto de vetoresT extraídos de 7 imagens da base de testes. Paragerar este conjunto, foram extraídas dessas imagens33600 vetores de amostras com dimensão 16×1. Foi observadoque os 4 primeiros autovetores capturam 90%da variância de T. Observa-se que os quatro autovetoresassociados aos autovalores principais correspondem,respectivamente, aos seguintes tipos de filtro nodomínio da frequência: filtro direcional horizontal, filtrodirecional vertical, filtro passa-baixas e filtro passaaltas.Contudo, para uma imagem, os valores do vetorde treinamento gerados por este processo são muitopróximos, sendo, portanto, difíceis de serem agrupados.A Figura 2a apresenta uma pequena parte do conjuntode treinamento representada como uma imagemem nível de cinza.Para melhorar a separabilidade entre as classes,aplicou-se a cada componente uma função detransferência, que possui a propriedade de mapearsua entrada no intervalo (0, 1). Foi utilizada afunção sigmóide [7]:f(x) =11+e −k(x+θ)que possui dois parâmetros livres: o ganho (k) e o deslocamento(θ).Se o ganho dessa função for muito acentuado, os valoresde saída tenderão aos extremos. Dessa forma, afunção sigmóide pode ser usada para distinguir entre oque é relevante (mapeado para valores próximos de 1) eo que não é relevante (mapeado para valores próximos48


Voltar ao sumário(a)(b)Figura 2. (a) Subconjunto de vetores de treinamentopara uma imagem (b) Subconjunto apósa aplicação das funções sigmóidesde 0). Para os componentes i =1, 2, 4 usou-se:f(x i )=11+e −5(| x i −µσ |−1.65)onde µ e σ correspondem respectivamente à média e aodesvio padrão da distribuição do componente i.Como o componente 3 que está associado a um filtropassa-baixas realça as informações de luminância,o tratamento do terceiro autovetor é submetido a umprocesso diferente. Para esse componente é aplicada aseguinte função de transferência:f(x 3 )=11+e −1.7( x 3 −µσ )O resultado da aplicação da função sigmóide é ilustradona Figura 2b. Os vetores retornados da aplicaçãoda função sigmóide são o resultado final da extração decaracterísticas.2.2. Agrupamento dos vetores de característicasA etapa de agrupamento possui a função de classificaros vetores extraídos da fase de extração de características.Esta classificação pode ser entendida comouma fase que encontra os centróides do conjunto de vetoresfornecido. Admite-se que os padrões formem nuvens,os grupos, no espaço de atributos. Após serem encontradosos centróides, cada um deles é associado a umrótulo. O resultado da etapa de teste é um rótulo correspondenteao centróide mais próximo do padrão deteste.Os vetores de treinamento foram submetidos aoagrupamento usando redes neurais do tipo SOM (SelfOrganizing Maps). As redes SOM tem como característicasa adaptabilidade, a tolerância a ruídos e acapacidade de generalização. Tais características tornamseu uso um método promissor para realizar oagrupamento dos vetores extraídos das imagens de automóveis,uma vez que as mesmas possuem variaçõesem relação à luminância, transições de nível de cinza dealta freqüência espacial, dentre outras, que são tipicamenteprojetadas em regiões bem definidas do espaçode componentes.O método de aprendizado proposto consiste em primeiramentetreinar a rede SOM e em seguida realizarum particionamento dos neurônios correspondentes aoespaço de saída para identificar grupos no mapa autoorganizável.Para particionar a rede foi utilizado o algoritmoCosta-Netto [1], um método de segmentaçãodo mapa baseado no particionamento de grafos. A partirda segmentação do mapa realizada pelo algoritmoCosta-Netto é então feita uma segmentação na imagem.Após a aplicação do algoritmo de segmentação darede é necessário validar e analisar a qualidade do particionamentogerado. Para tal propósito foi usado oíndice CDbw [6], o qual, segundo [2], apresenta melhoresresultados para redes SOM que outros índicesanalisados.Com o uso de um índice para avaliação da qualidadedo particionamento dos dados é possível realizar umaprocura pela configuração da rede SOM que gere as melhoresimagens segmentadas. Esse índice aponta paramelhores parâmetros, como topologia, taxa de aprendizadoe raio da vizinhança, que podem ser usados paragerar os grupos. Indiretamente, o índice pode indicarqual o mapa particionado melhor representa o espaçode entrada. As imagens segmentadas geradas a partirde tal mapa consequentemente serão as que melhorpossuem uma segmentação.A Figura 3 mostra alguns resultados da segmentaçãousando uma rede neural SOM com a seguinte configuração:tipo de iniciação da rede – linear; tipo deaprendizagem – em lote; taxa de aprendizagem inicial–0, 5; tipo de função de vizinhança – gaussiana; topologiada rede – linear; dimensão da rede – 1 × 60neurônios; vizinhança inicial – 3; e número de iteraçõesdo treinamento – 1000. Após o resultado final da segmentaçãoé aplicado o filtro da mediana com janela dedimensão 3 × 3, com o propósito de diminuir o ruídode classificação e tornar as regiões mais homogêneas.3. Algoritmo de detecção da placaAs imagens segmentadas pelo método descritona Seção 2 possuem rótulos tipicamente associa-49


Voltar ao sumáriodos à região da placa. Numa imagem segmentada, oque diferencia uma região que contém a placa de outraque não possui é a forma da “mancha” com orótulo predominante na região.Considere uma matriz de rótulos associada a umaimagem segmentada onde cada pixel é um número inteiro.Para indicar se uma subimagem de dimensãoM × N pixels é uma região candidata a placa foi utilizadoum critério de pontuação, com base em uma matriz,denominada matriz de contagem, calculada comosegue. Divide-se esta subimagem em m pedaços horizontalmentee n verticalmente, assim serão obtidos m·nquadros desta subimagem. Para cada quadro, conta-sea quantidade de pixels correspondente ao rótulo que tipicamentecaracteriza a placa. Esse rótulo pode aparecerem outras regiões da imagem que não pertençam aplaca, no entanto, sua distribuição espacial na regiãoque contém a placa é diferente se comparado com outrasregiões. Na região da placa há uma distribuição espacialbem comportada enquanto que em outras regiõessua distribuição é quase aleatória. Esse rótulo será denominadorotuloP laca.A Figura 4 apresenta um exemplo de uma subimagemde dimensão M = 36 e N = 120, fatiada comm =5en = 8 e matriz de contagem correspondente.O rótulo associado a cor amarela é o rotuloP laca, poisapesar de existir em outras áreas da imagem, a disposiçãoespacial destes rótulos na região da placa obedecea uma formação típica.O recorte da placa apresentado na Figura 5 é umexemplo de placa de referência. Após ter sido calculadaa matriz de contagem S de uma região M × N pixels,o valor da nota atribuída a esta subimagem é calculadocom base na similariedade entre S e a matrizde contagem da placa de referência. A matriz de contagemda placa de referência será denominada P .O valor da nota atribuída à subimagem é calculadoS =˛0 0 0 0 24 5 0 1945 2 34 0 39 12 5 086 82 80 46 274 104 70 096 54 97 94 229 80 51 052 7 50 19 148 59 24 0Figura 4. Exemplo de uma subimagem de dimensão36 × 120 pixels, fatiamento dessa subimageme sua matriz de contagem SP =˛0 0 8 47 213 64 40 5650 57 72 16 343 99 69 111121 110 172 199 734 174 190 183136 181 192 148 673 210 183 13934 73 98 65 32 1 0 0Figura 5. Exemplo de placa de referência e suamatriz de contagem P para um fatiamaneto5 × 8considerando o valor médio das notas locais n i,j quecorrespondem à pontuação na célula (i, j) da grade.Cada nota local consiste em um valor pertencente aointervalo [0, 1] de tal forma que valores próximos de 1são atribuídos quando S i,j e P i,j são próximos, e valorespróximos de 0 são atribuídos quando S i,j e P i,j sãodistantes. O valor de n i,j para P i,j > 0 é dado pela seguinteequação:⎧⎨ p se p ≤ 1n i,j = 2 − p se 1


Voltar ao sumárioisto é:N S = 1mnmi=1 j=1nn i,j (3)As Equações 1 e 2 indicam que mesmo que S i,j sedistancie positivamente ou negativamente do valor deP i,j , a sua nota será proporcional a sua distância. Alémdisso, refletem que um valor mais distante não terá umanota maior que um menos distante.Portanto, dentre todas as subimagens de tamanhoM × N, a que obtiver maior valor para N S é candidataa placa. Caso a maior nota obtida esteja abaixo de umlimiar estabelecido, então a placa não foi encontradana imagem.4. Resultados e DiscussãoO algoritmo de detecção proposto descrito foi testadoem uma base contendo 430 imagens da base detestes fornecida pela Secretaria Municipal de Transportee Tráfego (SMTT) de Aracaju. Trata-se de imagenscapturadas pelo seu sistema de controle de tráfegoque não foram usadas para tarifação de multas. Existemimagens retiradas em diferentes turnos, com diferentesníveis de iluminação, alguns carros apresentamplacas parcialmente visíveis e os veículos foram fotografadosem localizações diferentes, resultando numa variaçãodo ângulo em que foram retratadas. Todas asimagens possuem dimensão de 480 × 640 pixels, profundidadede 8 bits e canal de cor monocromático. Emtodas elas, a placa do automóvel encontra-se presente.As imagens resultantes da segmentação usando arede neural SOM com esses parâmetros resulta em imagenscuja região da placa contêm tipicamente pixelscujo rótulo é representado pela cor amarela. Esse rótuloaparece em outras regiões que não seja placa, no entanto,quando aparecem em outra região, esses rótulosnão estão agrupados de uma maneira similar ao agrupamentode tais rótulos na região da placa. Dessa forma,foi utilizado como placa de referência, a imagem apresentadana Figura 5 e usado um fatiamento em gradede dimensão 10 × 15.Vale ressaltar que as imagens apresentam variaçãoem relação ao posicionamento da placa e àscondições de iluminação. Essas imagens foram capturadasde cenas naturais e foram utilizadas sem nenhumpré-processamento para testar a robustez dométodo proposto. Portanto, várias dessas imagens possuema região da placa pouco nítida, ofuscada ou demasiadamenteclara. Considerando tais condições desfavoráveis,foi possível detectar a placa corretamenteem 310 dessas imagens (72, 1% de sucesso). A Figura6 apresenta alguns resultados da detecção a(a) (b) (c)Figura 6. Exemplos de placas detectadas: (a)Imagem original, (b) Imagem segmentada e (c)Placa detectadapartir do agrupamento usando rede neural SOM. A Figura7 apresenta algumas imagens que não tiveramsuas placas localizadas corretamente. Nessas figurassão apresentadas juntos com as imagens originais,as respectivas imagens segmentadas pelo método descritona Seção 2 e o local das onde a placa foi detectada.5. ConclusõesEsse trabalho apresentou um método de detecçãode placas veiculares baseado em segmentação de texturas.Para uma variedade de imagens com condições deiluminação relativamente controlada, o desempenho dométodo foi bastante promissor. Um dos aspectos maisoriginais do trabalho é a forma como a segmentação érealizada. Foram utilizados filtros PCA que são seletivosa características de freqüências direcionais, isto é,transições de nível de cinza em torno de uma direçãopreferencial, tal como ocorre com o córtex visual humano.O método de segmentação também executa umprocessamento que pode ser paralelizável. Isto sugereque pode ser usado um hardware reconfigurável parasegmentação, em conjunto com um desktop para implementaçãode partes que são paralelas e sequenciais51


Voltar ao sumário(a) (b) (c)Figura 7. Exemplos de objetos detectados erroneamentecomo placa: (a) Imagem original, (b)Imagem segmentada e (c) Objeto detectadoem um sistema LPR completo.Como trabalhos futuros pretende-se investigar ouso de algoritmos genéticos para determinação dosparâmetros ótimos da função de transferência nos filtrosPCA. Também pretende-se investigar o uso de outrosmodelos de placas de referência e ampliar os testesconsiderando um conjunto mais amplo e diversificadode imagens.AgradecimentosO terceiro autor agradeçe ao Programa de Auxílioà Integração de Docentes e Técnicos AdministrativosRecém-Doutores às Atividades de Pesquisa da UniversidadeFederal de Sergipe (PAIRD-UFS) pelo suportefinanceiro.Referências[1] J. A. F. Costa and M. L. d. A. Netto. Segmentação doSOM baseada em particionamento de grafos. In CongressoBrasileiro de Redes Neurais, volume 6, São Paulo,2003.[2] M. A. S. da Silva. Mapas auto-organizáveis na análiseexploratória de dados geoespaciais multivariados. Dissertaçãode mestrado, Instituto Nacional de PesquisasEspaciais, 2004.[3] P. Davies, N. Emmott, and N. Ayland. License plate recognitiontechnology for toll violation enforcement. InImage Analysis for Transport Applications, IEEE Colloquiumon, London, UK, 1990.[4] S. Draghici. A neural network based artificial vision systemfor licence plate recognition. Int J Neural Syst.,8(1):113–126, Fevereiro 1997.[5] D. A. Forsyth and J. Ponce. Computer Vision: A modernapproach. Prentice-Hall, 2003.[6] M. Halkidi and M. Vazirgiannis. Clustering validity assessmentusing multi representatives. In Hellenic Conferenceon Artificial Intelligence, volume 2, Thessaloniki,2002.[7] M. I. Jordan. Why the logistic function? a tutorial discussionon probabilities and neural networks. Technicalreport, Computational Cognitive Science 9503, MassachusettsInstitute of Technology, 1995.[8] F. Kahraman, B. Kurt, and M. Gökmen. License platecharacter segmentation based on the Gabor transformand vector quantization. In ISCIS 2003: InternationalSymposium on Computer and Information Sciences, pages381–388. Springer Berlin / Heidelberg, 2003.[9] K. K. Kim, K. I. Kim, J. B. Kim, and K. H. J. Learningbasedapproach for license plate recognition. In NeuralNetworks for Signal Processing X. Proceedings ofthe 2000 IEEE Signal Processing Society Workshop, volume2, pages 614–623, Sydney, NSW, Australia, 2000.[10] T. Kohonen. Self-organizing maps. Springer, Berlim:Heidelberg, Alemanha, 2 edition, 1997.[11] H. Kwaśnicka and B. Wawrzyniak. License plate localizationand recognition in camera pictures. AI-METH,Novembro 2002.[12] R. A. Lotufo, A. D. Morgan, and A. S. Johnson. Automaticnumberplate recognition. In Image Analysis forTransport Applications, IEEE Colloquium on, 1990.[13] R. J. S. Maciel, Y. T. Passos, L. N. Matos, and E. O.Freire. Segmentação automática de placas de veículousando extração de característica baseado em DFT eagrupamento. In III Workshop em Visão Computacional,pages 121–126, 2007.[14] J. Parker and P. Federl. An approach to licence platerecognition. In Proceedings of VI’97, Kelowna, BritishColumbia, Canada, Maio 1997.[15] J. Shlens. A tutorial on principal components analysis.Disponível em http://www.snl.salk.edu/ shlens/pub/notes/pca.pdf,2005. Última visita em 24 demaio de 2008.[16] T. Sirithinaphong and K. Chamnongthai. The recognitionof car license plate for automatic parking system.In Fifth International Symposium on Signal Processingand its Applications, 1998.[17] D. Yan, M. Hongqing, L. Jilin, and L. Langang. A highperformance license plate recognition system based onthe web technique. In IEEE Intelligent TransportationSystems Conference Proceedings, pages 25–29, Oakland(CA), USA, Agosto 2001.52


Voltar ao sumárioFusão de Métodos de Reconhecimento Facial através da Otimização porEnxame de PartículasGiovani Chiachia, Bruno Elias Penteado, Aparecido Nilceu MaranaUNESP – Faculdade de Ciências – Departamento de Computação – Bauru – SP – Brazilgiovanichiachia@gmail.com, burger@fc.unesp.br, nilceu@fc.unesp.brResumoDe um modo geral, sistemas de reconhecimentofacial são baseados em imagens ou seqüências devídeo obtidas a partir do espectro visível e, portanto,necessitam operar em ambientes onde haja iluminaçãoregular. Contudo, o desempenho de tais sistemas caisignificativamente quando há mudanças nestailuminação. Por outro lado, a leitura da face obtidaatravés de câmeras que operam no espectro de OndasLongas do Infravermelho é insensível às mudanças deluz e nos fornece o padrão de temperatura da face aser reconhecida. Tais características sugerem oemprego simultâneo de ambas modalidades, retendodesta maneira os pontos fortes de cada uma.Para combinar resultados entre métodos dereconhecimento independentes é preciso estabelecer,entre outras coisas, a relevância e a sensibilidade decada um. Neste sentido, o conceito de Otimização porEnxame de Partículas (Particle Swarm Optimization -PSO) é empregado para determinação dos limiaresótimos e da regra de fusão. O objetivo deste trabalho éaferir o desempenho da multibiometria da faceresultante de métodos estatísticos estabelecidos,considerando suas correlações e cuja fusão tem seusparâmetros determinados pelo método PSO.Os resultados obtidos atestam a viabilidade dasfusões a partir destes conceitos.1. IntroduçãoO conhecimento empregado no processamento dorosto humano utiliza uma variedade de informações daface, incluindo considerações a respeito de idade, sexo,raça, identidade e estado emocional [1]. Reconhecerfaces em situações adversas, portanto, faz parte donosso cotidiano. No entanto, mesmo sendo pesquisadohá mais de 30 anos, o reconhecimento facialautomático, feito através de computadores, permanececomo um grande desafio para as áreas de VisãoComputacional e Reconhecimento de Padrões [1]. Embusca de soluções para este desafio, métodosalternativos de sensoriamento, ou seja, não baseados noespectro visível, têm sido propostos. Uma das novasmodalidades de sensoriamento consiste da aferição datemperatura da face através de sua radiação emitida noespectro do Infravermelho (IR) [1]. Além de serinsensível à iluminação, esta leitura provê informaçõesanatômicas subcutâneas tidas como únicas para cadaindivíduo [2].Apesar dos benefícios da modalidade IR, mudançasde temperatura no ambiente ou ainda no estadofisiológico da pessoa prejudicam o reconhecimento.Sendo assim, há prós e contras ao basear-se somenteem uma destas modalidades. A combinação dasmelhores características de cada uma delas, portanto,nos parece promissora.Dentre as possíveis fusões entre métodosbiométricos, temos a fusão em nível de decisão [3].Trata-se da combinação entre o resultado final de cadaum dos métodos componentes. Técnicas como DecisãoBayesiana, Dempster-Shafer, regras AND e OR, etc.podem ser empregadas neste nível de fusão, que é oúnico viável na união entre métodos que fornecemapenas a decisão final como saída.Estudos recentes para combinação dereconhecedores têm sido conduzidos na área deInteligência Artificial. Em particular, o conceito deOtimização por Enxame de Partículas vem ganhandodestaque pela sua simplicidade, robustez e eficiência.Trata-se de uma técnica de otimização estocásticabaseada em população e inspirada a partir daobservação de comportamentos sociais e cognitivos[4].Diante do exposto, o presente trabalho tem comoobjetivo analisar o comportamento da fusão biométricaentre os métodos de reconhecimento facial nosespectros visível e IR a partir da regra de fusão e doslimiares estabelecidos pelo algoritmo PSO comosolução ótima.53


Voltar ao sumário2. Banco de DadosPara aferir o desempenho da fusão biométricaproposta, foi utilizado neste trabalho o Banco de Dadosda Universidade Notre Dame (UND) [5]. Trata-se deuma coleção de imagens faciais obtidas nos espectrosvisível e do IR, cujos registros foram conduzidos tendocomo um dos objetivos estudar o efeito do tempo sobreo reconhecimento facial. Para a criação desse Bancode Dados, as imagens foram adquiridas semanalmentecontando com a participação assídua de grande partedos indivíduos envolvidos, o que, ao final, resultounum conjunto de 2023 imagens para cada um dosespectros. Numa dada sessão de aquisição, 4 imagenspor indivíduo eram capturadas, sendo 2 com expressãoneutra e 2 com expressão sorridente.Em nosso experimento, 187 sujeitos desta base dedados foram escolhidos para a fase de treinamento eoutros 54 indivíduos foram selecionados para osconjuntos de registro e teste. Cada um destes 54indivíduos participaram de no mínimo 7 e no máximo10 sessões de aquisição. As imagens da primeira sessãode cada indivíduo foram escolhidas para constituírem oconjunto de registro e as imagens das demais sessões(6, 7, 8 ou 9 sessões) formaram o conjunto de testes.Portanto, este trabalho também leva em consideração oefeito do tempo sobre o reconhecimento.A Figura 1 mostra um exemplo de imagens domesmo indivíduo nos espectros visível e do IR. Naimagem referente ao espectro do IR (direita) o nível decinza denota o calor emitido, sendo pretos os pontos demenor calor e brancos os mais quentes.Figura 1. Imagens no espectro visível (esquerda) e noespectro do IR (direita) da mesma face [5].3. Métodos de Reconhecimento Facial esuas CorrelaçõesTrês diferentes métodos de reconhecimento facialforam empregados neste estudo: Principal ComponentAnalysis (PCA) com distância Euclidiana, LinearDiscriminant Analysis (LDA) com distância LDASoft ePCA com distância Mahalanobis Angle, tal comoimplementados em [6]. Cada um dos métodos foiaplicado em ambos os espectros.A Tabela 1 apresenta os resultados individuaisobtidos, onde Top1 significa a taxa de reconhecimentoconsiderando apenas a face mais similar dentre asrecuperadas do Banco de Dados e EER significa Taxade Erro Igual (Equal Error Rate), que representa ovalor em que as taxas de Falsa Aceitação e de FalsaRejeição são iguais.Nesta tabela podemos observar que o método PCAcom distância Mahalanobis Angle obteve, para ambosos espectros, o menor EER (6,01% no espectro visívele 8,87% no espectro IR) e o melhor Top1 (96,84% noespectro visível e 87,74% no espectro IR). Aoconsiderar os outros dois métodos, também se podeapurar que neles há uma diferença sensível deresultados entre os espectros, sendo o desempenho noespectro do IR muito inferior.Tabela 1. Os seis métodos de reconhecimento facial eseus respectivos desempenhos individuais na base dedados da UND.No intuito de predizer o desempenho das 15possibilidades de fusão apresentadas (9 entre pares demétodos em espectros distintos e 6 entre pares demétodos no mesmo espectro), foram obtidas asmedidas Q statistic de dependência estatística. Dadosdois métodos i e k de reconhecimento, Q i,k tem seuvalor compreendido entre -1 e 1 [7]. Para métodosestatisticamente independentes, Q i,k é 0. Em casos demétodos correlacionados, Q i,k tende a 1, e quandoempregado em métodos inversamentecorrelacionados, Q i,k tende a -1.4. Otimização por Enxame de PartículasO conceito de otimização baseada na simulaçãocomputacional de comportamentos sociais e cognitivosfoi introduzido por Kennedy e Eberhart em 1995 [8].Trata-se de uma técnica que tem como maiores apeloso baixo custo computacional e o compartilhamento deinformações inerentes ao comportamento social de seus54


Voltar ao sumárioindivíduos componentes. Tais indivíduos, doravantedesignados partículas, transitam pelo espaço de buscamultidimensional à procura de soluções para oproblema. O posicionamento de cada partícula nesteespaço de busca representa uma possível solução cujapertinência é aferida através de uma função-objetivo.O movimento das partículas é influenciado por doisfatores: a melhor solução encontrada até aquele dadomomento pela partícula (pbest) e a melhor soluçãoencontrada até o mesmo dado momento considerandotodas as partículas (gbest). Estes fatores, designadoscomponentes cognitivos e sociais, influenciam nalocomoção das partículas pelo espaço de busca criandoforças de atração. Como resultado, as partículasinteragem com todos os seus vizinhos e armazenam emsua memória a localização das soluções ótimas.Após cada iteração, pbest e gbest são atualizados seuma solução melhor for encontrada pela partícula oupela população, respectivamente.Este processo se repete até que o resultado desejadoseja obtido ou um determinado número de iteraçõesseja alcançado. Eis seu pseudocódigo:Iniciar posição (valores) das partículas de formaestocásticaFaçaPara cada partículaCalcular função-objetivo dada sua posiçãoSe valor calculado for melhor que pbestAtualizar pbestFim paraSe melhor valor calculado entre todas asparticulas for melhor que gbestAtualizar gbestPara cada partículaGerar coeficientes aleatórios para pbest e gbestem cada uma das dimensões do espaço de buscaAtualizar sua posição de acordo com a atraçãoexercida por gbest e pbest e seus respectivoscoeficientes aleatóriosFim paraEnquanto o resultado desejado não for obtido ou omáximo de iterações não for alcançado4.1. PSO na Fusão de DecisõesAo fundir métodos de reconhecimento, cadapartícula do problema de otimização deve possuir N+1dimensões, onde N representa o número de métodos aserem fundidos. Cada uma destas N dimensões denotaum limiar pelo qual um método de reconhecimento emparticular é testado através das distribuições deGenuínos e Impostores passadas ao algoritmo. Aúltima dimensão (N+1), por sua vez, determina a regrade fusão a ser empregada.Conforme [9], os limiares dos classificadores sãocontínuos e a regra de fusão é binária. Desta forma, apartir da sugestão das partículas em torno dos limiarese da regra de fusão, a função-objetivo do problemaconsiste da minimização da probabilidade de FalsoPositivos P FP e Falso Negativos P FN , levando emconsideração fatores de custo C FP e C FN associados aestas probabilidades.Outros parâmetros devem ser considerados antes daexecução do PSO. Além do C FP e do C FN , têm que serdefinidos: o número de partículas consideradas noespaço de busca, o número de iterações a seremtestadas, a constante referente ao controle dememória e os coeficientes 1 e 2 que denotam ainfluência relativa das forças de atração pbest e gbsest[9].5. Resultados ExperimentaisPor se tratar de uma abordagem estocástica, cadauma das 15 combinações entre os métodos dereconhecimento foi otimizada 5 vezes. Dados 2métodos, apenas a otimização que resultou no menorerro (função-objetivo) entre as 5 foi considerada.Na Tabela 2 podemos observar o valor empregadoem cada um dos parâmetros referentes ao algoritmoPSO.Tabela 2. Parâmetros utilizados para execução dométodo PSO.Devido ao fato do algoritmo deste estudo ter comoobjetivo a melhor combinação possível entre FalsasAceitações (FAR) e Falsas Rejeições (FRR), cadaotimização obteve um FAR diferente para um FRRtambém distinto.Para que fosse possível comparar o resultadosugerido pelo PSO com o desempenho individual dosmétodos de reconhecimento, para cada fusão fixamos oFAR obtido pela otimização e a partir dele calculamosos FRRs individuais. A partir do mesmo critério defixação do FAR, também comparamos a fusão PSOcom a fusão feita através do produto das pontuações.A Tabela 3 apresenta uma visão geral dos resultadosexperimentais obtidos. Nela, a coluna “Q-Stat”representa a dependência estatística entre os métodos, o“FAR”, conforme mencionado, é único para um mesmocaso (linha), a coluna “FRR Score” representa a taxa deFalsas Rejeições obtida a partir da fusão em nível depontuação e a coluna “FRR PSO”, por sua vez,representa a taxa de Falsas Rejeições obtida a partir doalgoritmo de otimização. Por fim, as colunas “%Melhoria” representam os desempenhos obtidos pelas55


Voltar ao sumáriofusões em relação ao menor FRR dentre seus métodoscomponentes, ou seja, expressam o grau de melhoria oude piora da taxa de Falsas Rejeições em relação aomelhor dos métodos individuais empregados na fusão.As fusões entre os métodos 3 com 5 e 3 com 6 nãoforam feitas, pois a regra ótima obtida pelo algoritmoPSO desconsiderava o classificador 3, de desempenhomuito inferior. Para todas as demais fusões, a regraótima resultou na operação lógica “AND”.Tabela 3. Desempenho das fusões em nível depontuação e em nível de decisão (PSO).Pode-se observar na Tabela 3 que dentre as 13fusões levadas a cabo a partir do método PSO, 9obtiveram melhoria. Das 4 que tiveram o FRRaumentado, ou temos alta correlação (>=0.85) ougrande disparidade entre os desempenhos dos métodos(Tabela 1, métodos 1 e 6). Também é possívelconstatar que a fusão PSO se mostrou mais regular emrelação à fusão das pontuações. A média de melhoriado PSO foi de 3,72%, enquanto que a da fusão feitapelo produto das pontuações foi de -19,02%.6. ConclusãoOs resultados experimentais obtidos neste trabalhoconfirmaram as expectativas prévias determinadaspelos índices obtidos pela aplicação do método Qstatistic, de que a fusão de métodos baseados noespectro visível e no espectro IR tendem a melhorar astaxas de erro do reconhecimento automático de faces.Os resultados permitem ainda concluir que ométodo de Otimização por Enxame de Partículas temgrande potencial para ser utilizado na fusão de métodosbiométricos.AgradecimentosOs autores agradecem à CAPES pelo financiamentoconcedido.Referências[1] S. G. Kong et. al, “Recent advances in visual andinfrared face recognition—a review”, Computer Visionand Image Understanding 97, (2005) 103–135;[2] P. Buddharaju, I. T. Pavlidis, P. Tsiamyrtzis, M.Bazakos, “Physiology-Based Face Recognition in theThermal Infrared Spectrum”, IEEE Trans.PAMI, Vol.29, No. 4, April 2007, pp. 613-626.[3] Jain, A., Nandakumar, K., Ross, A., "Scorenormalization in multimodal biometric systems",Pattern Recognition 38, pp. 2270-2285, 2005.[4] K. Veeramachaneni et al., "Improving ClassifierFusion Using Particle Swarm Optimization",Proceedings of the IEEE Symposium onComputational Intelligence in Multicriteria DecisionMaking, 2007, pp. 128-135.[5] Biometrics Database Distribution. The ComputerVision Laboratory, Univ. of Notre Dame,http://www.nd.edu/~cvrl/ , 2002.[6] D. Bolme, R. Beveridge, M. Teixeira and B.Draper,“The CSU Face Identification EvaluationSystem: Its Purpose, Features and Structure”,International Conference on Vision Systems, pp 304-311, Graz, Austria, April 1-3, 2003.[7] Kuncheva, L.I., Whitaker, C.J., Shipp, C.A., Duin,R.P.W., “Is Independence Good For CombiningClassifiers?”, 0-7695-0750-6/00 IEEE, pp. 168-171,2000.[8] J. Kennedy, R. Eberhart, Y.H. Shi, “SwarmIntelligence”, Morgan Kaufmann Publishers, 2001.[9] K. Veeramachaneni, L. A. Osadciw, P. K.Varshney, "An Adaptive Multimodal BiometricManagement Algorithm", IEEE Transactions onSystems, Man, and Cybernetics, Vol. 35, No. 3, August2005, pp. 344-356.56


Voltar ao sumárioIdentificação de táxons de plantas por análise de textura do parênquimapaliçádicoAndré R. BackesUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPbackes@icmc.usp.brJarbas J. de M. Sá JuniorUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPjarbas joaci@yahoo.com.brOdemir M. BrunoUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPbruno@icmc.usp.brRosana M. KolbUniversidade Estadual Paulista Júlio de Mesquita FilhoDepartamento de Ciências BiológicasAssis - SProsanakolb@hotmail.comResumoEste trabalho propõe o uso de métodos computacionaisna análise de textura do parênquima paliçádico, visandoobter novas características anatômicas que possamauxiliar a identificação e a delimitação de táxons. Paratanto, os métodos de Matrizes de Co-ocorrência, Descritoresde Fourier, Descritores de Wavelets, Filtros de Gabor ea Dimensão Fractal, em sua abordagem multi-níveis, foramaplicados em janelas 60 × 60 retiradas a partir de imagenshistológicas foliares. As assinaturas obtidas foram avaliadasutilizando um classificador linear denominado LDA(Linear Discriminant Analysis). Os experimentos foram realizadoscom oito espécies lenhosas típicas do cerrado doEstado de São Paulo, Brasil. Dentre os métodos empregados,a Dimensão Fractal apresentou os melhores resultados,com 78, 44% de acertos na discriminação dos diferentestáxons avaliados. Isso comprova a viabilidade de se utilizara análise histológica acoplada à análise computacionalcomo ferramenta na identificação e na delimitação detáxons, sendo a textura do parênquima paliçádico mais umdescritor a ser levado em consideração nesses estudos.1. IntroduçãoDados obtidos a partir de plantas herborizadas e de suamorfologia externa constituem a principal ferramenta paraa identificação e a delimitação de táxons. No entanto, osprincipais métodos utilizados na taxonomia se mostram falhosna resolução de alguns problemas taxonômicos [18].Métodos baseados na anatomia, embora não tão acessíveisquanto o uso da morfologia externa, têm sido cada vez maisutilizados, com o objetivo de buscar novos caracteres queauxiliem a elucidar os problemas taxonômicos [27]. Alémdisso, a identificação/delimitação de táxons é amplamentebaseada em características morfológicas dos órgãos reprodutivos,os quais nem sempre se encontram presentes nasamostras. Por outro lado, caracteres anatômicos podem serutilizados mesmo quando as amostras se encontram em es-57


Voltar ao sumáriotado vegetativo [27]. Padrões de nervação foliar [5, 20], diferentestipos de estômatos [18], tipos de tricomas [9], formatodas células, presença/espessura de cutícula, proporçãoentre parênquima paliçádico e lacunoso, presença de tecidos(como hipoderme), de estruturas secretoras, de cristaisetc. [21, 22, 25, 8, 26] têm sido utilizados na caracterizaçãoe no entendimento taxonômico de diferentes grupos. No entanto,outras características relevantes, como cor, textura ecomplexidade dos cortes anatômicos, têm sido desconsideradas.Embora não exista uma definição concreta sobre o conceitode textura, a mesma é facilmente identificada pelo sistemavisual humano e pela sua riqueza de informação. Texturassão definidas como padrões visuais complexos, em geralcompostas por entidades (ou subpadrões), que apresentamcaracterísticas como brilho, cor, inclinação e tamanhocaracterísticos [11, 12]. Isso faz da textura um excelentedescritor regional, capaz de fornecer informações muitoúteis para o reconhecimento e interpretação automática deuma imagem por um computador [3].Este trabalho tem o objetivo de empregar métodos computacionaisde análise de textura a partir de imagens histológicasdos cortes transversais da superfície foliar, visandosua possível utilização na identificação e delimitaçãotaxonômica. Trata-se de uma proposta inovadora que buscaalcançar um novo descritor a ser utilizado pela taxonomia.Para tanto, foram considerados imagens do parênquimapaliçádico de Byrsonima intermedia A. Juss., Miconia albicans(Sw.) Triana, Tibouchina stenocarpa (DC.) Cogn., Vochysiatucanorum Mart., Xylopia aromática (Lam.) Mart.,Gochnatia polymorpha (Less.) Cabrera, Miconia chamissoisNaudin e Jacaranda caroba (Vell.) A. DC., espécieslenhosas típicas do cerrado do Estado de São Paulo, Brasil.2. Materiais e Métodos2.1. Preparo das AmostrasPara cada espécie considerada, foram obtidos segmentosmedianos do semilimbo de folhas completamente expandidas.Foram escolhidos, ao acaso, cinco indivíduos adultosdiferentes, localizados na Estação Ecológica de Assis, Assis,Estado de São Paulo, Brasil (22 ◦ 33’65” - 22 ◦ 36’68”S e50 ◦ 22’29” - 50 ◦ 23’00”W). As amostras foram fixadas emFAA70, desidratadas em uma série etanólica, embebidas emparafina e cortadas em secções de 8µm. As secções transversaisforam coradas com azul de astra e fucsina básicae montadas em entellan. Ao todo, duas imagens de diferentesregiões da lâmina foram obtidas utilizando um microscópiotrinocular Leica, modelo DM-1000, acoplado auma câmera de vídeo Leica, DFC-280. Depois de adquiridasas imagens (com ampliação de 200×), foram retiradasjanelas de 60 × 60 pixels do parênquima paliçádico (Figura1). Ao todo, 40 janelas de textura foram adquiridaspara cada espécie (Figura 2).Figura 1. Amostra de Tibouchina stenocarpae respectiva janela 60 × 60 do parênquimapaliçádico.2.2. Dimensão Fractal Multi-níveisO termo complexidade pode ser entendido com uma medidado quão irregular um objeto é, ou quanto do espaçoele ocupa. Trata-se de um termo amplamente utilizado naLiteratura, sendo a Dimensão Fractal a maneira mais utilizadade quantificá-la. A Dimensão Fractal (DF) é um valorfracionário capaz de representar o nível de ocupação doespaço e irregularidade do objeto, diferente da dimensão topológica,um número inteiro que define o número de dimensõesdo espaço onde o objeto se encontra [23, 28].Dentre os métodos existentes para estimar a DimensãoFractal se encontra o Box-Counting. Esse método se baseiana sobreposição de um grid de caixas de aresta r sobre umaimagem A ∈ R 2 e na contagem do número de quadradosque interceptam a imagem, N(r) (Figura 3) [7, 23, 28]. ADimensão Fractal é obtida a partir da relação entre o tamanhoda caixa utilizada, r, e o numero de caixas contadas,N(r), obedecendo à seguinte equação:log(N(r))DF = − lim . (1)r→0 log(r)Visando aplicar o método de Box-Counting em texturas,optou-se por utilizar uma versão multi-níveis do mesmo[2]. Nela, diferentes versões da imagem original são geradasa partir da sua binarização, sendo a Dimensão Fractalcalculada para cada uma dessas imagens. Assim, dada umaimagem de textura A ∈ R 2 e um conjunto de limiares L i ,L i ∈ L, uma imagem binária A Li é gerada aplicando umatransformação δ Li :A Li= δ Li (A) =∀a ∈ AaLi=0, se a


Voltar ao sumário(a) (b) (c) (d)(e) (f) (g) (h)Figura 2. Janelas 60 × 60 retiradas do parênquima paliçádico das espécies: a - B. intermedia, b-M.albicans,c-T. stenocarpa,d-V. tucanorum,e-X. aromatica,f-G. polymorpha,g-M. chamissois e h - J. caroba.3. Selecione M níveis de cinza distintos aplicando ométodo de Otsu multi-níveis [16, 19] sobre o histogramamédio, h j (i), calculado anteriormente.2.3. Metodologias comparadasFigura 3. Divisão de uma imagem usando ométodo de Box-Counting para diferentes valoresde r.resultando em uma assinatura de textura ψ(A)ψ(A) =[DF L1 ,...,DF Li ,...,DF LM ] i ∈ 1 ...M, (4)onde M é o número de limiares considerados para acaracterização da textura.Uma importante questão envolvendo o método de DimensãoFractal considerado se refere à quantidade de níveisde cinza M selecionados para compor a assinatura da imagem.Para uma discriminação eficiente de diferentes classesde imagens, é necessário selecionar um conjunto de níveisde cinza cuja variância entre classes seja máxima para asamostras estudadas. Para tanto, foi aplicado neste trabalhoométodo de Otsu [16, 19], em sua versão multi-níveis, sobreo histograma médio das imagens, de acordo com as seguintesregras:1. Dada uma imagem j, calcule o seu histograma h j (i).Repita esse procedimento para todas as amostras consideradasno experimento;2. Calcule o histograma médio, h j (i) a partir dos histogramascalculados. Esse histograma médio representaa distribuição dos níveis de cinza ao longo das amostras;• Matrizes de Co-ocorrência: são matrizes que estimampropriedades de uma imagem relacionadasà estatística de segunda-ordem [6]. Formalmente,dada uma imagem f(x, y) com um conjuntode G níveis discretos de intensidade, a matrizde co-ocorrência h dθ (i, j) é definida tal que cada entradana posição seja igual ao número de vezes queas condições das equações abaixo sejam satisfeitas.Isso resulta em uma matriz quadrada de dimensãoigual ao número de níveis de intensidade da imagem,para cada distância d e orientação θ. Se essa matrizé dividida pelo total de vizinhos R(d, θ), torna-seuma matriz de probabilidades p dθ (i, j) de dois pixelsa uma distância d e orientação θ serem i ej.f(x 1 ,y 1 )=ief(x 2 ,y 2 )=j (5)(x 2 ,y 2 )=(x 1 ,y 1 )+(d cos(θ),dsin(θ)) (6)Haralick[11] propôs algumas características úteisque podem ser extraídas a partir das matrizes deco-ocorrência. Neste trabalho foram usadas matrizessimétricas (pares d = 1 e d = −1) eângulosde (0 ◦ , 45 ◦ , 90 ◦ , 135 ◦ ). As medidas testadas foramenergia, entropia, contraste, correlação, homogeneidadee valor absoluto.• Descritores de Wavelet: são produzidos através daaplicação da Transformada Wavelet sobre o sinal original,o que provoca a decomposição do sinal em duaspartes: aproximação (a), contendo a maior parte da59


Voltar ao sumárioenergia do sinal, e detalhe (d), contendo a energia residualdo sinal. Esse processo pode ser repetido paracada aproximação a calculada, gerando assim umanova decomposição do sinal e uma maior compactaçãoda energia do mesmo na aproximação.A definição de uma Transformada Wavelet considerandoum sinal contínuo f(t) é dada por:W (a, b) = f(t)ψ a,b (t)dt (7)onde os parâmetros a e b variam continuamente em, sendo a função ψ a,b , chamada Wavelet, definidapor:ψ a,b (t) = √ 1 t − bψ(8)a aEm imagens, a Transformada Wavelet é aplicadatanto em linhas quanto em colunas, o que decompõea imagem em quatro partes (um nível de aproximaçãoe três de detalhes). Para este experimento utilizousea Wavelet de Daubechies 4 (D4) e três níveis dedecomposição foram calculados, resultando em novecomponentes de detalhe da imagem. Energia e entropiaforam então calculados a partir dessas componentes,totalizando um conjunto de 18 descritores de Wavelet[24, 12].• Descritores de Fourier: a Transformada de Fourierpermite descrever uma imagem a partir de seu espectrode freqüências. Assim, as diferentes característicaspresente na imagem são descritas por diferentes gruposde freqüências. A Transformada de Fourier é definidacomo:F (u, v) = ∞x−∞ ∞y−∞f(x, y)e −j2π(ux+vy) dxdy,(9)onde j éonúmero imaginário, e f(x, y) é a intensidadedo pixel na posição (x, y) da imagem.Os descritores de Fourier são então calculadoscomo sendo um vetor de características contendoa energia dos 29 coeficientes mais significativosda transformada de Fourier. Como as baixasfreqüências estão dispostas no centro da imagem(isso depois de ser realizada uma operação de shifting),cada coeficiente corresponde à soma dos valoresabsolutos do espectro localizados a uma certadistância do centro da imagem transformada [1, 4].• Filtros de Gabor: o Filtro de Gabor 2-D é, basicamente,uma função gaussiana bi-dimensional moduladapor uma senóide orientada na direção θ efreqüência W . Neste procedimento, uma famíliade filtros de Gabor é convoluida sobre uma imageme cada filtro representa diferentes escalas eorientações obtidas a partir de uma configuração original[17, 13, 14].Um filtro de Gabor pode ser calculado no domíniodo espaço ou da freqüência, existindo para isso as seguintesformulações, respectivamente:e 1g(x, y) =e − 1 22πσ x σ yG(u, v) =e − 1 2x 2σ 2 x(u−W ) 2σ 2 uonde σ u =1/2πσ x e σ v =1/2πσ y .+ y2σy2 +2πjWx+ v2σv2(10)(11)Neste trabalho foi utilizado uma família de 16 filtros(com 4 rotações e 4 escalas), com uma faixa de freqüênciasentre os valores 0,01 e 0,3, de acordo com o modelo matemáticoapresentado em [17].2.4. Análise estatística utilizando LDAA classificação das diferentes amostras de texturas foirealizada utilizando o método de LDA (Linear DiscriminantAnalysis), um método estatístico de aprendizado supervisionado[10]. Esse método tem o objetivo de encontraruma projeção dos dados em um sub-espaço linear ondea variância entre as classes é maior que a variância dentrodas classes.Seja f j (x) a função densidade da população j, j =1, 2,...,g, a probabilidade de erros de classificação é minimizadade acordo com a seguinte regra de discriminação:para uma dada observação x, calcule o valor de densidadef j (x) para cada população j, j =1, 2,...,g, e classifiquea observação na população k que apresentar o maior valorpara f j (x):comf k (x) = arg max{f j (x),j =1, 2,...,g} (12)f j (x) =− 1 2 ln(|Σ j|) − 1 2 (x − µ j) Σ −1j (x − µ j ), (13)onde µ e Σ j são, respectivamente, o vetor média e a matrizde covariância da população j, j =1, 2,...,g. Detalhesadicionais sobre a formulação matemática da função discriminantesão apresentados em [15].3. Resultados e DiscussãoDentre os métodos comparados, a Dimensão Fractal emsua abordagem multi-níveis foi o que apresentou os melhoresresultados (Tabela 1). Isso se deve ao fato de que cada60


Voltar ao sumárionível de cinza selecionado representa onde a homogeneidadeda textura se altera. Métodos de análise de complexidade,como a Dimensão Fractal, permitem quantificar a homogeneidadede uma imagem a partir de sua complexidade.Assim, o método de Otsu multi-níveis combinado com aDimensão Fractal permite criar uma assinatura capaz de representaras mais relevantes mudanças na complexidade datextura.Método Taxa de acertos (%)Matriz de Co-ocorrência 77,81Descritores de Wavelet 60,31Descritores de Fourier 62,81Filtros de Gabor 65,31Dimensão Fractal 78,44Tabela 1. Comparação dos resultados obtidospara os diferentes métodos considerados.Figura 4. Desempenho da Dimensão Fractalà medida que se varia o número de níveis decinza selecionados M. Melhor resultado obtidopara M = 131, com taxa de acerto de78, 44%.A Figura 4 apresenta o desempenho dessa abordagem nadelimitação das amostras à medida que se varia o númerode níveis de cinza selecionados M. Nesse estudo preliminaro melhor resultado foi obtido para M = 131, com taxade acerto de 78, 44%. Esse tipo de abordagem pode ser útilem estudos que visam identificar/delimitar táxons que apresentammorfologia interna semelhante entre si, com caracteresnão distinguidos facilmente pelo olho humano.A explicação do resultado obtido pelas matrizes de coocorrência(77, 81% de acertos), provavelmente é devidaàs diferenças no tamanho e na distribuição dos cloroplastosnas células do parênquima paliçádico. Como as matrizesde co-ocorrência medem justamente a distribuição espacialdos pixels a uma certa distância, elas captam a formacomo os cloroplastos se distribuem em cada espécie. Alémdisso, dependendo da espécie, as células em paliçada apresentamdimensões diferentes e uma disposição espacial quepode ser mais ou menos compacta, o que resulta num tecidopaliçádico com características únicas de cada espécie.Sendo assim, é possível que as matrizes de co-ocorrênciaforneçam resultados ainda melhores se utilizadas em outroconjunto de táxons, onde haja maiores variações celularesem relação à disposição espacial.As demais medidas (Descritores de Wavelet, Descritoresde Fourier e Filtros de Gabor) apresentaram resultadosinferiores de acertos (Tabela 1) provavelmente porqueo parênquima paliçádico não possui características direcionais,como linhas horizontais, verticais ou diagonais,como é possível perceber visualmente. Como esses métodos(principalmente Filtros de Gabor e Wavelets) salientam essasinformações, não foi possível obter os mesmos resultadosexpressivos obtidos pela Dimensão Fractal em sua abordagemmulti-níveis e pelas matrizes de co-ocorrência.A identificação/delimitação de táxons a partir de tecidos,como o parênquima paliçádico, é uma tarefa árdua devidoà alta similaridade existente entre amostras de diferentestáxons e as diferenças presentes dentro de um mesmo táxon.No entanto, os ótimos resultados alcançados com a metodologiaproposta demonstram que a identificação/delimitaçãode táxons por análise histológica acoplada à análise computacionalé possível e que o parênquima paliçádico ofereceexcelentes características para um determinado táxon,viabilizando a sua identificação/delimitação. Trabalhos futuros,testando essa metodologia na identificação de outrostáxons mais relacionados entre si ou na delimitação deespécies dentro de um determinado gênero, por exemplo,poderão esclarecer o seu potencial como ferramenta em estudostaxonômicos.4. ConclusõesEste trabalho apresentou uma comparação entre diferentesabordagens de extração de características de imagensvegetais baseada em texturas. A comparação entre osmétodos foi realizada a partir de experimentos com imagensdo parênquima paliçádico de diferentes espécies vegetaise análise estatística utilizando o método de LDA.Dentre os métodos comparados, o método de DimensãoFractal multi-níveis foi o que apresentou os melhores re-61


Voltar ao sumáriosultados. Esse método se baseia no estudo da variação dacomplexidade à medida que se varia os níveis de cinza daimagem, fornecendo assim uma assinatura adequada para aclassificação.A identificação de imagens de origem vegetal, como oparênquima paliçádico, é um empreendimento difícil devidoà similaridade existente entre amostras de diferentesespécies e as irregularidades presentes dentrode uma mesma espécie. No entanto, os ótimos resultadosalcançados com a análise de sua complexidadedemonstram que a identificação de vegetais por análise histológicaé possível e que o parênquima paliçádico ofereceexcelentes características de uma determinada espécie, viabilizandoa sua identificação.AcknowledgementsOdemir M. Bruno agradece ao CNPq (Procs.#303746/2004-1 e #504476/2007-6) e a FAPESP (Proc.#06/54367-9). André R. Backes agradece a FAPESP(Proc. #06/54367-9) pelo apoio financeiro ao doutorado.Jarbas J. de M. Sá Junior agradece ao CNPq (Proc.#135251/2006) pelo apoio financeiro ao mestrado.Referências[1] R. Azencott, J.-P. Wang, and L. Younes. Texture classificationusing windowed fourier filters. IEEE Trans. PatternAnal. Mach. Intell, 19(2):148–153, 1997.[2] A. R. Backes and O. M. Bruno. A new approach to estimatefractal dimension of texture images. In ICISP, pages 136–143, 2008.[3] J. W. Bala. Combining structural and statistical features ina machine learning technique for texture classification. InIEA/AIE (Vol. 1), pages 175–183, 1990.[4] E. O. Brigham. The Fast Fourier Transform and its applications.Prentice Hall, Englewood Cliffs, NJ, USA, 1988.[5] C. M. V. Cardoso and M. G. K. Sajo. Vascularização foliare a identificação de espécies de eugenia l. (myrtaceae)da bacia hidrográfica do rio tibagi, pr. Revista Brasileira deBotânica, 27:47–54, 2004.[6] C. H. Chen, L. F. Pau, and P. S. P. Wang. Handbook ofPattern Recognition and Computer Vision. World Scientific,1992.[7] R. C. Coelho and L. F. COSTA. The box-counting fractal. dimension:Does it provide an accurate subsidy for experimentalshape characterization? if so, how to use it? In Anais doSibgrapi 95, pages 183–191, 1995.[8] G. F. M. de Pinna. Anatomia foliar de richterago kuntze (mutisieae,asteraceae). Acta Botanica Brasílica, 18:591–600,2004.[9] P. J. F. Guimarães and A. B. Martins. Tibouchina sect. pleroma(d. don) cogn. (melastomataceae), no estado de sãopaulo. Revista Brasileira de Botânica, 20:11–33, 1997.[10] J. F. Hair, R. E. Anderson, R. L. Tatham, and Black. MultivariateData Analysis. Prentice Hall College Div, 1998. Peter’sbook.[11] R. M. Haralick. Statistical and structural approaches to texture.Proc. IEEE, 67(5):786–804, 1979.[12] P. W. Huang, S. K. Dai, and P. L. Lin. Texture image retrievaland image segmentation using composite sub-band gradientvectors. J. Visual Communication and Image Representation,17(5):947–957, 2006.[13] M. Idrissa and M. Acheroy. Texture classification using gaborfilters. Pattern Recognition Letters, 23(9):1095–1102,2002.[14] A. K. Jain and F. Farrokhnia. Unsupervised texture segmentationusing gabor filters. Pattern Recogn., 24(12):1167–1186, 1991.[15] R. Johnson and D. Wichern. Applied Multivariate StatisticalAnalysis. Prentice-Hall, Englewood Cliffs, New Jersey,1982.[16] P.-S. Liao, T.-S. Chen, and P.-C. Chung. A fast algorithmfor multilevel thresholding. J. Inf. Sci. Eng, 17(5):713–727,2001.[17] B. S. Manjunath and W.-Y. Ma. Texture features for browsingand retrieval of image data. IEEE Trans. Pattern Anal.Mach. Intell, 18(8):837–842, 1996.[18] C. R. Metcalfe and L. Chalk. Anatomy of dicotyledons. OxfordUniversity Press, 2ed edition, 1979.[19] N. Otsu. A threshold selection method from gray level histograms.IEEE Trans. Systems, Man and Cybernetics, 9:62–66,Mar. 1979. minimize intra and inter class variance.[20] C. Reis, S. L. Proença, and M. G. Sajo. Vascularização foliara anatomia do pecíolo de melastomataceae do cerrado doestado de são paulo, brasil. Acta Botanica Brasílica, 18:987–999, 2004.[21] H. Robinson. A monograph on foliar anatomy of the generaconnelia, cottendorfia and navia (bromeliaceae). SmithsonianContributions of Botany, 2:1–41, 1969.[22] M. G. Sajo, S. R. Machado, and S. M. Carmello-Guerreiro.Bromélias da Mata Atlântica: Canistropsis, chapter Aspectosestruturais de folhas de bromélias e suas implicaçõesno agrupamento de espécies, pages 102–111. M.V. Pereira,1998.[23] M. Schroeder. Fractals, Chaos, Power Laws: Minutes Froman Infinite Paradise. W. H. Freeman, 1996.[24] A. Sengür, I. Türkoglu, and M. C. Ince. Wavelet packet neuralnetworks for texture classification. Expert Syst. Appl,32(2):527–533, 2007.[25] L. M. Silva and Y. Alquini. Anatomia comparativa de folhase caules de axonopus scoparius (flügge) kuhlm. e axonopusfissifolius (raddi) kuhlm. (poaceae). Revista Brasileirade Botânica, 26:185–192, 2003.[26] G. M. Sousa, M. E. M. Estelita, and M. G. L. Wanderley.Anatomia foliar de espécies brasileiras de aechmea subg.chevaliera (gaudich. ex beer) baker, bromelioideae - bromeliaceae.Revista Brasileira de Botânica, 28:603–613, 2005.[27] C. A. Stace. Plant taxonomy and biosystematics. CambridgeUniversity Press, 2ed edition, 1989.[28] C. Tricot. Curves and Fractal Dimension. Springer-Verlag,1995.62


Voltar ao sumárioInserção e Recuperação de Marcas D’Água em Imagenspela Transformada WaveletDiovani Rafael SansUniversidade Federal do ParanáDepartamento de InformáticaCentro Politécnico - Jardim das AméricasCuritiba-PR, Brasil, 81531-990diovani@inf.ufpr.brHélio PedriniUniversidade Estadual de CampinasInstituto de ComputaçãoCidade UniversitáriaCampinas-SP, Brasil, 13084-971E-mail: helio@ic.unicamp.brResumoArmazenar e transmitir informações em formato digitalé uma realidade presente no cotidiano das pessoas. Porém,em se tratando de Internet, nem sempre se conhece a origemou o autor de determinado trabalho. Buscando atenuartal questão, no que se refere a imagens digitais, este trabalhopropõe um novo método de inserção de marcas d’águainvisíveis em imagens que permitam identificar ou comprovaro autor da imagem marcada. Uma das característicasdeste trabalho é a detecção cega ou não informada das marcas.Além disso, métricas do Sistema Visual Humano sãoutilizadas para assegurar invisibilidade da marca e índicespseudoaleatórios permitirão aumentar a resistência dasmesmas. Vários testes são realizados para demonstrar a eficiênciado método, mesmo após a imagem marcada sofreralgum ataque.1. IntroduçãoCom o crescente avanço dos meios digitais como formade armazenamento de informações, cada vez é mais comuma disponibilização de informações apenas em formato digital.Por esse e outros motivos, garantir segurança e autenticidadea uma informação tornou-se uma tarefa árdua,sendo um campo crescente em pesquisas. Quando a informaçãoa ser armazenada é uma imagem, uma estratégia interessantepara garantir tal segurança é a utilização de marcasd’água.As marcas d’água são um subconjunto da esteganografia,pois escondem informação em determinado dado digital.Aplicadas na área de identificação de propriedade e conteúdo,as marcas d’água trazem alguma informação capazde identificar o proprietário ou autor de uma imagem, podendoser um padrão pseudoaleatório ou alguma imagemde marca ou símbolo.Várias propriedades [3, 4] podem ser verificadas ou requeridasem uma marca d’água. O grau de importância e atémesmo a necessidade de cada uma delas dependerá da aplicaçãosob investigação. A seguir são apresentadas algumaspropriedades presentes na maioria das marcas d’água:• invisibilidade: a marca d’água deve ser visualmenteimperceptível e produzir a menor distorção possível naimagem original.• detecção confiável: um detector deve localizar umamarca d’água em uma imagem com o máximo de precisãopossível.• eficiência computacional: os processos de inserção edetecção de marcas d’água devem ser computacionalmenteviáveis, sendo necessária a detecção especialmenterápida se a aplicação envolver monitoração emtempo real.• fragilidade: para aplicações de autenticação, a marcad’água deve ser “inutilizada” quando ocorrer qualqueralteração na imagem. Os tipos de alterações permitidasvariam de acordo com a aplicação.• robustez: em aplicações que necessitam da marcad’água “intacta”, como identificação de propriedadeou controle de cópias, a marca d’água deveresistir a ataques e modificações na imagem, ou então,em caso de tentativa de remoção, deixar a imageminutilizável, por meio da perda significativa de qualidade.A robustez (resistência a ataques) é a principal propriedadeque a aplicação em estudo deve possuir. Os ataques sãoaplicados para inutilizar qualquer possível marca de propriedadeinserida na imagem, impedindo a identificação dotrabalho com seu autor. As formas mais comuns de ataques63


Voltar ao sumárioem imagens são compressão, inserção de ruído, utilizaçãode filtros de suavização ou realce e alterações geométricas(escala, rotação e translação). Tais modificações na imagemserão utilizadas para a validação do método proposto.O texto está organizado como segue. A seção 2 descrevealguns trabalhos correlatos ao tema sob investigação. A metodologiaproposta e implementada é descrita na seção 3. Aseção 4 apresenta os resultados experimentais. A seção 5conclui o artigo e propõe alguns trabalhos futuros.2. Trabalhos RelacionadosUm dos focos deste trabalho é a criação de um métodode identificação de propriedade robusto a ataques e que nãocomprometa ou altere significativamente o conteúdo visualda imagem marcada.Na literatura existente, vários métodos de inserção demarcas d’água são propostos. No domínio de transformadas,destacam-se duas abordagens para a identificação depropriedade, foco deste trabalho. Uma propõe a inserção deuma imagem de logotipo ou com dados sobre o proprietárioou autor da imagem a ser marcada [7, 12, 14] e a outraa inserção de uma imagem de ruído Gaussiano de intensidade0 e variância 1 [1, 2, 5, 6, 11, 13].Na abordagem que utiliza marcas visuais, o transmissorda imagem aplica alguma seqüência de inserção para marcardeterminados pixels. O destinatário faz uso da mesmaseqüência para obter os pixels marcados para efetuar a verificaçãode propriedade.A principal vantagem desta técnica é a identificação doproprietário da imagem apenas com a extração da marcad’água, pois todos os seus dados estarão contidos na imagem.Essa será a técnica utilizada neste trabalho.Na utilização de marcas de ruído, a marca d’água é apenasum padrão de ruído sem informações sobre o autor daimagem. A identificação do autor apenas é possível atravésda correlação da marca extraída da imagem em estudocom uma base de dados, que relaciona cada padrão de ruídocom um autor ou proprietário.A seguir são resumidos alguns trabalhos, todos utilizandotransformadas wavelets como método para inclusãodas marcas d’água.No trabalho de Hsieh e Wu [6], o Sistema Visual Humano(Human Visual System, HVS) é utilizado como métricapara a inclusão de marcas d’água nos locais que comprometammenos a qualidade da imagem com a marcad’água em relação à imagem original. Isso é feito utilizandouma Função de Transferência de Modulação (ModulationTransfer Function, MTF) [8]. Sistemas de correção de códigotambém são utilizados para permitir, por meio da repetiçãoda marca d’água na imagem, aumento da robustez.Para a implementação da marca, primeiramente é aplicadaa transformação wavelet na imagem original com trêsníveis de decomposição e a codificação da marca d’água emum sistema de correção de erro.Nos coeficientes wavelets com valor absoluto maior queum limite (limiar) pré-estabelecido, haverá a inclusão damarca d’água na imagem, já utilizando os parâmetros doHVS. Os novos valores dos coeficientes serão I ′ (m, n) =I(m, n) +αw i I(m, n) W ′ , sendo I ′ (m, n) o coeficientewavelet modificado, R α o controle do nível de robustez edf WB sw i =iH(fRWB i s)df s, em que H(f s ) é a MTF e WB i é a largurada banda da i-ésima banda. Finalmente, aplica-se umatransformação wavelet inversa para retornar à imagem. Odetector da marca é informado, ou seja, necessita tanto daimagem marcada como da imagem original e, por meio deum critério de similaridade, verifica-se a existência e validadeda marca.Wang e Kuo [13] utilizam o Multi-Threshold WaveletCodec (MTWC) para comprimir imagens, o qual é baseadoem uma quantização sub-banda com diferentes intervalosiniciais em cada banda. Tal método ajuda a determinartambém os coeficientes para inclusão das marcas d’água. Amarca d’água em si é uma entrada dada pelo usuário, a qualé convertida em uma seqüência de bits e, em seguida, emuma seqüência pseudoaleatória de densidade Gaussiana.No trabalho de Cao et al. [2], a transformada wavelet redundante(RDWT) é utilizada para fornecer uma máscarade correlação para determinar quais os melhores coeficientespara inclusão da marca d’água. Ruído branco Gaussianoé adicionado como marca d’água para verificação da invisibilidadeem relação ao HVS.No trabalho de Paquet [11], a transformada de Haar éutilizada para a decomposição da imagem em coeficienteswavelets. Em seguida, uma seqüência pseudoaleatóriaN é introduzida aos coeficientes das bandas de média ealta freqüência. Os novos coeficientes serão I ′ [m, n] =I[m, n]+α abs (I[m, n]) N[m, n]. Para a decodificação, oscoeficientes da imagem marcada são comparados com oscoeficientes da imagem original para a extração da assinatura(a seqüência pseudoaleatória).Em seguida, por meio de uma busca em um banco de assinaturas,é localizada a assinatura correspondente à da imagempor meio da correlação, utilizando-se limites para a verificação.Uma segunda etapa de identificação é aplicada,comparando-se novamente a assinatura do banco com a correlaçãocruzada (cross-correlation), no primeiro nível de resolução.Caso exista um pico na correlação, a marca é consideradadetectada. Caso não exista, a correlação é calculadano segundo nível de resolução. Tal processo se repeteaté o nono nível tal que, em algum deles, ocorra um picode detecção. Esses dois níveis de detecção permitem um nívelbaixo de falsos positivos.Barni et al. [1] utiliza o filtro de Daubechies-6 para decomporuma imagem em quatro níveis de resolução. Amarca d’água, que consiste em uma seqüência binária pseu-64


Voltar ao sumáriodoaleatória x i ∈{+1, −1}, com i =0,...(3MN − 1), emque 2M × 2N corresponde à dimensão da imagem original,é inserida nos três níveis de detalhe do primeiro nívelda decomposição, conforme as expressões:I ′LH0 (i, j) =I LH0 + αw LH (i, j)x iN+j (1)I ′HL0 (i, j) =I HL0 + αw HL (i, j)x MN+iN+j (2)I ′HH0 (i, j) =I HH0 + αw HH (i, j)x 2MN+iN+j (3)na qual I 0 ′LH , I 0 ′HL e I 0 ′HH representam as bandas do primeironível de decomposição da imagem marcada, I LHI HL0 e I HH0 ,0 representam as bandas do primeiro nível de decomposiçãoda imagem original, α é o controle do nível derobustez e w(i, j) a função de sensibilidade local da imagema ruído.A correlação entre os coeficientes da transformada waveletmarcados e a seqüência binária é comparada com umlimiar para detecção da marca, não utilizando a imagem original.A função de robustez é escolhida através do cálculodas áreas na imagem nas quais o olho humano é menos sensívela ruídos, tais como as áreas de alta resolução e bandasde 45 ◦ (sub-banda HH), áreas de brilho intenso e áreascom muita textura.A redundância de dados é uma das melhores alternativaspara aumentar a robustez contra ataques. Nos trabalhosexistentes, tal redundância é conseguida de diversas formas,como códigos de correção de erro [6], transformadas waveletsredundantes [2] ou a simples repetição da marca em diferenteslocais da imagem [11].O método aqui proposto explora a redundância de dadosatravés da inserção de uma mesma marca em diferentesbandas de detalhe wavelet e também através de métodosdistintos de inserção, baseando-se em seqüências pseudoaleatóriase em características estáticas da imagem.3. MetodologiaPara garantir qualidade na recuperação da marca e, principalmente,gerar uma imagem marcada sem alterações significativasem relação à imagem original, é necessário utilizarmeios para alterar a imagem de forma imperceptívelao olho humano. Para isso, propriedades do Sistema VisualHumano (HVS) são utilizadas na escolha das regiõesda imagem que receberão a marca d’água. Tais propriedadesdemonstram que o olho humano é menos sensível a mudançasem determinadas regiões de uma imagem.Neste trabalho, o uso das métricas do HVS se dá pelaescolha das regiões nas quais a marca d’água é inserida.Sendo assim, as inserções são realizadas nas bandas de altafreqüência, podendo ser utilizadas as bandas HH, HL ouLH, e são inseridas marcas nas regiões de textura intensa ealta luminosidade.Uma das características da metodologia desenvolvidaneste trabalho é a inserção de mais de uma marca d’água,cada uma utilizando um método distinto de inserção, possibilitandoresistência a uma grande quantidade de ataques.Assim, três marcas são inseridas: uma utilizando regiões detextura intensa ou grossa, uma em regiões de alta luminosidadeda imagem e outra marca utilizando um espalhamentopseudoaleatório.A inserção da marca espalhada pseudoaleatoriamente éfeita com a simples substituição de determinados coeficientesda imagem a ser marcada por coeficientes da bandade aproximação (LL) da marca d’água. Cabe ressaltar, contudo,que o novo coeficiente será obtido pela soma do valorproveniente da marca d’água com a média dos valoresdos coeficientes da imagem de sua vizinhança-4. Tal somaevita efeitos de ruído (principalmente sal e pimenta) na imagemmarcada.Para a determinação das melhores regiões para a inserçãoda marca, a imagem é dividida em blocos e estes ordenadoscomo vetores, de forma a permitir a escolha dos “primeiros”blocos. Utiliza-se o desvio padrão dos coeficienteswavelets para quantificação da textura do bloco e a somados coeficientes para a luminosidade. Baseado na quantidadede blocos desejável para a imagem, o algoritmo a dividee determina a ordem dos blocos a ser utilizada para ainserção da marca.De forma geral, os passos para a inserção das marcas podemser resumidos como:1. Fazer a decomposição wavelet da marca d’água W ;2. Fazer a decomposição wavelet da imagem a ser marcadaI;3. Inserir a banda LL da marca W na banda LL da imagemI de forma pseudoaleatória;4. Reconstruir a imagem I;5. Dividir a imagem I em blocos;6. Fazer a decomposição wavelet de cada bloco da imagemI;7. Construir e ordenar os vetores de textura e luminosidade;8. Utilizar os índices dos vetores de textura e luminosidadepara determinar quais blocos receberão as bandasda marca W ;9. Inserir todas as bandas de W na banda HH dos blocosde I, até que a marca W tenha sido inserida porcompleto;10. Reconstruir a imagem.Uma modificação efetuada para aumentar a robustez dométodo envolve uma mudança simples na marca d’água utilizada.Neste trabalho, apenas marcas d’água binárias (intensidades0 e 1) são utilizadas; contudo, para a melhoria65


Voltar ao sumário(a) Lena (b) Paraquedistas (c) Cérebro (d) Sudeste (e) MarcaFigura 1. Imagens e marca d’água utilizadas nos experimentos.da recuperação da marca, esta tem suas intensidades alteradaspara -1 e 1, facilitando a escolha dos limiares para a extração.Contudo, a melhoria mais importante para a garantia derecuperação da marca está no fator de força α aplicado nainserção. Esse fator é aplicado no momento da substituiçãodos coeficientes da banda HH dos blocos da imagem peloscoeficientes da marca d’água. Ou seja, antes de ser inserido,cada coeficiente da marca é multiplicado por esse fator deforça.De maneira similar à inserção, os passos para a extraçãoda marca d’água são listados a seguir:1. Fazer a decomposição wavelet da imagem marcada I ′ ;2. Extrair a banda LL da marca presente na banda LL daimagem I ′ utilizando uma semente pseudoaleatória;3. Dividir a imagem I ′ em blocos;4. Fazer a decomposição wavelet de cada bloco da imagemI ′ ;5. Construir e ordenar os vetores de textura e luminosidade;6. Utilizar os índices dos vetores de textura e luminosidadepara determinar quais blocos receberam as marcas;7. Extrair todas as bandas da marca presentes na bandaHH dos blocos de I ′ , até que a marca W tenha sido reconstruídapor completo;8. Limiarizar as marcas extraídas.O último passo da extração, a limiarização das marcas,faz-se necessária pois, devido às várias transformações waveletsefetuadas tanto na inserção quanto na recuperação damarca e às próprias alterações nos valores originais dos coeficientesdas bandas da imagem, as marcas d’água recuperadaspossuem intervalos de valores grandes, dificultando avisualização do resultado.4. Resultados ExperimentaisNesta seção são discutidos os resultados obtidos com ametodologia apresentada. A partir da inserção de marcasd’água em diferentes imagens, procura-se obter o métodoque apresenta melhor resultado em termos de robustez e diferençaentre as imagens original e marcada.Os algoritmos foram implementados e testados com opacote MATLAB [9], versão 7.0.1.24704, no sistema operacionalLinux. As imagens utilizadas para receberem as marcasd’água representam conjuntos distintos de características(fotografias, imagens de cenas naturais, imagens de sensoriamentoremoto, imagens médicas, dentre outras).Para a validação final da ferramenta, as imagens marcadasforam submetidas aos ataques mais comuns para a “quebra”da marca. Dentre os ataques possíveis foram utilizadosa compressão JPEG, com diversos fatores de qualidade, filtrosde suavização e inserção de ruído.Os experimentos utilizaram um grande conjunto de imagenspara demonstrar a eficácia do método. Por uma questãode limitação de espaço, os resultados apresentados referemseàs imagens ilustradas nas Figuras 1(a) a (d). A marcad’água inserida é mostrada na Figura 1(e). As imagens sãomonocromáticas e possuem tamanho de 512×512 pixels,enquanto a marca possui tamanho de 64×64 pixels e é binária.Como parâmetro para recuperação da marca foi utilizadoo índice de Jaccard [10], o qual mede a variação de elementosem duas populações binárias, no caso, as marcasd’água. Tal índice pode variar de 0 a 1, sendo que, quantomaior o valor, maior a similaridade entre as duas amostras.Experimentalmente, para os casos estudados neste trabalho,verificou-se que valores superiores a 0,75 permitemuma recuperação satisfatória da marca d’água, valores entre0,65 e 0,75 recuperam parcialmente a informação, enquantoabaixo de 0,65, será considerado que a marca não foi satisfatoriamenterecuperada, por mais que exista alguma informaçãopreservada.A Tabela 1 mostra os índices de similaridade das marcasrecuperadas após cada ataque nas imagens apresentadas.As colunas referem-se às marcas recuperadas, sendo“Text” a marca inserida baseada em componentes de texturados blocos, “Lumin” a baseada em componentes de luminosidadee “PsdAl” a marca obtida através do espalhamentopseudoaleatório. A Figura 2 mostra algumas marcas66


Voltar ao sumáriorecuperadas após os ataques nas imagens sob consideração.Ataques Text Lumin PsdAlCompressão (qualidade 90%) 0, 95117 0, 96338 0, 93066Compressão (qualidade 60%) 0, 90967 0, 83350 0, 78516Compressão (qualidade 35%) 0, 86548 0, 49194 0, 66943Filtro Gaussiano 0, 79858 0, 76147 0, 90918Filtro da Média 0, 50073 0, 81714 0, 80859Filtro de Disco 0, 50195 0, 85352 0, 71484Ruído Gaussiano 0, 70386 0, 62036 0, 57275Ruído Speckle 0, 64282 0, 49829 0, 69189Ruído Poisson 0, 90088 0, 70239 0, 70654Ruído Sal e Pimenta 0, 89136 0, 88672 0, 90039Compressão (qualidade 90%) 0, 96777 0, 95044 0, 94141Compressão (qualidade 60%) 0, 92578 0, 82959 0, 77393Compressão (qualidade 35%) 0, 86719 0, 47754 0, 64795Filtro Gaussiano 0, 50488 0, 89233 0, 84082Filtro da Média 0, 85962 0, 79468 0, 93359Filtro de Disco 0, 50513 0, 89746 0, 75146Ruído Gaussiano 0, 50708 0, 50146 0, 58887Ruído Speckle 0, 51196 0, 49707 0, 71191Ruído Poisson 0, 84595 0, 49219 0, 71289Ruído Sal e Pimenta 0, 50391 0, 86646 0, 89307Compressão (qualidade 90%) 0, 51489 0, 94824 0, 93213Compressão (qualidade 60%) 0, 93237 0, 84961 0, 75049Compressão (qualidade 35%) 0, 50903 0, 87256 0, 56104Filtro Gaussiano 0, 89136 0, 83594 0, 86035Filtro da Média 0, 86011 0, 75122 0, 92578Filtro de Disco 0, 92432 0, 87329 0, 78809Ruído Gaussiano 0, 70337 0, 61182 0, 57617Ruído Speckle 0, 91724 0, 79834 0, 90527Ruído Poisson 0, 49658 0, 86450 0, 85498Ruído Sal e Pimenta 0, 49731 0, 88550 0, 88086Compressão (qualidade 90%) 0, 87500 0, 86523 0, 93994Compressão (qualidade 60%) 0, 79590 0, 69800 0, 77441Compressão (qualidade 35%) 0, 77417 0, 50610 0, 69824Filtro Gaussiano 0, 50732 0, 64697 0, 71631Filtro da Média 0, 49707 0, 62500 0, 83789Filtro de Disco 0, 50220 0, 68066 0, 63770Ruído Gaussiano 0, 69995 0, 57837 0, 59229Ruído Speckle 0, 79639 0, 61328 0, 69531Ruído Poisson 0, 82007 0, 67456 0, 72461Ruído Sal e Pimenta 0, 88135 0, 80200 0, 89404Tabela 1. Índices Jaccard para a similaridadedas marcas recuperadas após ataques nasimagens Lena, Paraquedistas, Cérebro e Sudeste,respectivamente.5. Conclusões e Trabalhos FuturosEste trabalho descreveu o desafio de se prover autenticaçãoe identificação de propriedade a imagens em formatodigital, trazendo o uso de marcas d’água como uma soluçãoviável.Vários métodos existentes na literatura foram avaliados,sendo possível identificar as vantagens em se aplicar os processosde inserção e de recuperação das marcas d’água nodomínio das transformadas wavelets.A partir dos experimentos, observou-se que o métodoproposto resistiu bem aos ataques, recuperando as marcasinseridas. Como trabalhos futuros pretende-se melhorar odescritor de textura dos blocos e automatizar o cálculo daforça α dos coeficientes a serem alterados.Referências[1] M. Barni, F. Bartolini, V. Cappellini, A. Lippi, and A. Piva. ADWT-based Technique for Spatio-frequency Masking of DigitalSignatures. In SPIE/IS&T International 20 Conferenceon Security and Watermarking of Multimedia Contents, pages31–39, 1999.[2] J.-G. Cao, J. E. Fowler, and N. H. Younan. An ImageadaptiveWatermark Based on a Redundant Wavelet Transform.In Proceedings of International Conference on ImageProcessing, volume 2, pages 277–280, 2001.[3] F. A. D. Colle and J. C. Gómez. DWT Based Digital WatermarkingFidelity and Robustness Evaluation. Journal ofComputer Science and Technology, 8(1):15–20, Apr. 2008.[4] I. J. Cox, M. L. Miller, and J. A. Bloom. Digital Watermarking.Morgan Kaufmann Publishers, 2002.[5] M. Hassan, S. Alkuhlani, L. Alsmadi, and W. Talhouni. AttacksAnalysis for Keyed Blind Multiresolution WatermarkingAlgorithm. In Proceedings of the 6th Conference onWSEAS International Conference on Applied Computer Science,pages 458–464, Stevens Point, WI, Estados Unidos,2007.[6] C.-T. Hsieh and Y.-K. Wu. Digital Image MultiresolutionWatermark Based on Human Visual System Using ErrorCorrecting Code. Tamkang Journal of Science and Engineering,4:201–208, 2001.[7] A. Jayawardena, B. Murison, and P. Lenders. EmbeddingMultiresolution Binary Images Into Multiresolution WatermarkChannels In Wavelet Domain. In Proceedings of IEEEInternational Conference on Acoustics, Speech, and SignalProcessing, volume 6, pages 1983–1986, 2000.[8] J. L. Mannos and D. J. Sakrison. The Effect of a Visual FidelityCriterion on the Encoding of Images. IEEE InformationTheory, IT-20(4):525–535, 1974.[9] T. MathWorks. MATLAB R- The Language of TechnicalComputing, http://www.mathworks.com/products/matlab/,Acesso em Agosto de 2008.[10] C. M. Mulqueen, T. A. Stetz, J. M. Beaubien, and B. J.O’Connell. Developing Dynamic Work Roles Using JaccardSimilarity Indices of Employee Competency Data.67


Voltar ao sumário(a) após compressãocom qualidadede 90%(b) após compressãocom qualidadede 35%(c) após filtroGaussiano(d) após ruídoPoisson(e) após compressãocom qualidadede 60%(f) após filtro damédia(g) após ruídoGaussiano(h) após ruídospeckle(i) após compressãocom qualidadede 60%(j) após filtro dedisco(k) após ruídospeckle(l) após ruído sal epimenta(m) após compressãocom qualidadede 60%(n) após filtro damédia(o) após filtro de (p) após ruídodiscoPoissonFigura 2. Exemplos de marcas recuperadas. Imagem Lena (a) e (b) após compressão com qualidadede 90% e 35%, respectivamente, (c) após filtro Gaussiano, (d) após ruído Poisson. Imagem Sudeste(e) após compressão com qualidade de 60%, (f) após filtro da média, (g) após ruído Gaussiano,(h) após ruído speckle. Imagem Cérebro (i) após compressão com qualidade de 60%, (j) após filtrode disco, (k) após ruído speckle, (l) após ruído sal e pimenta. Imagem Paraquedistas (m) após compressãocom qualidade 60%, (n) após filtro da média, (o) após filtro de disco e (p) após ruído Poisson.In 18th Annual Conference of the Society for Industrial/OrganizationalPsychology, Orlando, FL, Estados Unidos,2003.[11] A. Paquet. Multiresolution Watermark Based on WaveletTransform for Digital images. Technical report, Departmentof Electrical Engineering, University of British Columbia,2001.[12] P. Trammanontikul and T. Amornraksa. Enhanced Performanceof Spread Spectrum Based Image Watermarking withSmall Chip-rates. Transactions on Electrical Eng., Electronics,and Communications, 5:153–159, Feb. 2007.[13] H.-J. Wang and C.-C. J. Kuo. An Integrated ProgressiveImage Coding and Watermark System. Proceedings of theIEEE International Conference on Acoustics, Speech andSignal Processing, 6(12–15):3721–3724, May 1998.[14] J. Zhang and L. Cui. A New Robust Digital Watermark TechniqueBased on Wavelet Transform. In Journal of Information& Computacional Science, pages 137–142, 2006.68


Voltar ao sumárioIntegrating Tsai’s Camera Calibration Algorithm with KLT Feature TrackingRodrigo Minetto Neucimar J. Leite Jorge StolfiInstitute of ComputingUniversity of CampinasCampinas, 1251 Albert Einstein, SP, Brazilrodrigo.minetto@ic.unicamp.br, neucimar@ic.unicamp.br, stolfi@ic.unicamp.brAbstractWe describe a robust and accurate algorithm to track selectedfeatures of a 3D scene in a video recording. The algorithmuses a synergistic combination of Roger Tsai’s cameracalibration (TCC) algorithm and the Kanade-Lucas-Tomasi (KLT) feature finder. Instead of trying to detect andreject outliers, we modified Tsai’s algorithm to use confidenceweights which depend on the quality of the matchobtained by the KLT finder. Conversely, we use the TCCcalibratedcamera parameters to predict the position andshape of each feature. As a result, our algorithm can usuallyrecover a feature after an occasional KLT failure, oreven after it has been occluded for many frames.1. IntroductionRoger Tsai’s camera calibration (TCC) algorithm [10] iswidely used to compute the position, focal distance, and radialdistortion of a camera from a set of feature points inthe digital image with known world coordinates. To use theTCC algorithm in video applications, one needs a procedurethat automatically tracks the calibration features pointsfrom frame to frame. The Kanade-Lucas-Tomasi (KLT) algorithm[7, 8] is a popular choice for this task.We describe here a robust and accurate algorithm to trackselected features of a 3D scene in a video recording. Thealgorithm uses a synergistic combination of the TCC andKLT algorithms. Instead of trying to detect and reject outliers,e.g by the RANSAC method [5], we modified Tsai’salgorithm to use confidence weights which depend on theKLT matching error metric as in the MLESAC approach [9].Conversely, we use the TCC-calibrated camera parametersto predict the approximate position and shape of each featureon the next video frame. As a result, our algorithm canusually recover a feature after an occasional KLT failure, oreven after it has been occluded for many frames.Our emphasis is on robustness and accuracy, rather thanflexibility. A typical application would be obtaining accuratecamera position information for testing other computervision algorithms, in situations where one can attach arbitraryfiducial marks to a background stage.In this paper we review the basic principles of the TCCand KLT algorithms (sections 4 and 5), and point out theirmain shortcomings (section 6). We then describe our integratedalgorithm (section 7), and the results of experimentswith actual videos (section 8).2. Imaging modelThe correspondence between a real scene and its imagetaken by a camera depends on several camera parameters.For most cameras, the geometric correspondence can be approximatedquite well by the composition of a rigid worldto-cameracoordinate transform, aperspective projectiononto a projection plane, aradial distortion, and a sensorsampling mapping that relates coordinates on the projectionplane to indices into the pixel array.World coordinates to camera coordinates. We assumethat the scene is described in terms of an arbitrary Cartesianworld coordinate system, in millimeters. We also usea camera coordinate system where the camera’s equivalentpinhole lens is at the origin, the X axis points to the camera’s“left” the Y axis points to the camera’s “up” and theZ axis points forwards, also in millimeters. The mappingfrom world coordinates p w =(x w ,y w ,z w ) to camera coordinatesp c =(x c ,y c ,z c ) can be specified by a 4×4 worldto-cameramatrix S, through the equation(1,x c ,y c ,z c ) T = S (1,x w ,y w ,z w ) T (1)The matrix S has the structure⎡S =⎢⎣1 0 0 0⎤T x R xx R xy R xzT y R yx R yy R yz⎥⎦ (2)69


Voltar ao sumáriowhere the R submatrix determines the orientationof the camera axes relative to the world axes, andT =(T x ,T y ,T z ) are the camera coordinates of the worldsystem’s origin. The corresponding vector T ′ in the inversematrix S −1 is the position of the camera in world’scoordinates.Perspective projection. We also use a projection coordinatesystem lying on the projection plane that contains thesensor array. The perspective projection, that takes cameracoordinates (x c ,y c ,z c ) to (undistorted) projected coordinatesp u =(x u ,y u ), is then (x u ,y u )=f(x c ,y c )/z c .The parameter f is the focal length of the lens.Radial distortion. The radial distortion can be viewed as amapping between the ideal undistorted projection plane coordinates(x u ,y u ), as would be produced by a pinhole camera,and the distorted projected coordinates (x d ,y d ) of thepoint as imaged by the real camera. The mapping can be approximatedby the formula(x u ,y u ) = (1 + κ(x 2 d + y 2 d))(x d ,y d ) (3)where the parameter κ controls the amount of radial distortion.In lenses with variable zoom and/or focus, the coefficientκ usually depends on those parameters.Sensor sampling. The frame coordinates specify the positionof points in the domain of the digital image (calledframe in what follows). For a frame with n x columns andn y rows of pixels, we assume that the frame coordinates(x f ,y f ) are (0, 0) at the top left corner, and (n x ,n y ) at thebottom right corner. Typically the sensor sampling mappingcan be well described by the formula(x f ,y f )=(C x + x dd x,C y − y dd y) (4)where (C x ,C y ) are the frame coordinates of the camerasoptical axis, and d x ,d y are the effective spacings of the sensorsin the projection coordinate system.In Tsai’s original formulation, the horizontal spacing d xwas modified by an “uncertainty factor” s x , a variable parametermeant to account for timing and amplitude variationsin the electron-beam scanning of analog imagingtubes. That factor is largely irrelevant for modern digitallyscannedsensor elements.3. FeaturesIn this paper we will be mostly concerned with the trackingof a given set of features — distinctive markings on thescene’s surface whose actual color, position, and geometryare known and fixed over the whole duration of the video.Those features should be flat (or nearly so); they can beeither “natural” markings on the scene (such as box corners,letters on a billboard, etc.) or fiducial marks designedspecifically for calibration purposes. See figure 1.Figure 1. Natural and intentional features.Geometric parameters. We assume that each feature isdescribed by a high-resolution and noise-free digital imageM, its canonical template; the feature’s position p w in theworld system; and the two vectors u w ,v w that define its orientationand size in the scene. See figure 2(a,b).(a)p wv wu wFigure 2. Canonical template (a) and geometricparameters (b,c) of a feature.The appearance of a feature on each video frame is usuallydistorted by the perspective projection. The distortioncan be adequately modeled by an affine map A from thedomain of its original template M into the domain of theframe I, which is a first-order approximation of the worldto-sensortransformation. The map A is defined by a pointp f , the center of feature in the frame, and two vectors u f ,v fsuch that the domain of M gets maped to the parallelogramp f ± u f ± v f , see figure 2(c).Since features are assumed to be small relative to thescene-to-camera distance, the vectors u f ,v f can be computedby numerical differentiation of the world-to-sensormap (1–4). Namely, we map the world points p w + u wand p w − u w to frame points a f and b f , and then we setu f ← (a f − b f )/2. Ditto for v f .Photometric parameters. Apart from geometry, the appearanceof a feature in the video may change over time dueto changes in lighting, lens aperture, exposure time, etc.. Tofirst order, these factors can be modeled by a linear functionv = αu + β that relates the value u of a pixel in the templateM to the value v of the corresponding frame pixel.(b)v fp f(c)uf270


Voltar ao sumário4. Tsai’s camera calibration algorithmTsai’s algorithm [10] takes a list D of n data pairsas input, where each pair consists of three world coordinatesp w [k] = (x w [k],y w [k],z w [k]) of a point on thescene and the two corresponding sensor coordinates p f [k] =(x f [k],y f [k]), for k =1,...,n. The algorithm outputs thetuple C =(S,f,κ,C x ,C y ,d x ,d y ) of geometric camera parametersthat provides the best fit to that data.In principle, Tsai’s algorithm can be used to determineany reasonable subset of the parametersS,f,κ,C x ,C y ,d x ,d y , while the remaining parametersare fixed at client-given values.While a five-parameter adjustment is adequate for cameraswith fixed focal length, cameras with variable zoom requiresthe full six-parameter calibration algorithm appliedto each frame.4.1. Outline of the TCC algorithmTsai’s algorithm consists of a staged sequence of partialminimizations, that depends on which parameters are to becalibrated. We consider here the case where C x ,C y and d yare known, while d x is fixed but unknown, and S,f,κ areunknown and may vary from frame to frame.In this case, the TCC algorithm first computes seven intermediateparametersU 0 = s x Ty −1Rxx U 1 = s x Ty−1U 2 = s x Ty −1 R xz U 3 = s x Ty−1U 4 = Ty −1Ryx U 5 = Ty−1U 6 = Ty−1RyzR xyT xR yyfor each data pair p w [k],p d [k] . The vector U is determinedby solving a quadratic least-squares problem, which reducesto a 7×7 linear equation system. Once the vector U has beencomputed, the values of T y , T x , s x , R xx , R xy , R xz , R yx ,R yy , and R yz can be easily recovered from U 0 ,...,U 6 . Thethird row R zx , R zy , and R zz of the rotation matrix, is thecross product of the first two rows.The next step is to determine the focal distance f, the coordinateT z (which is basically the camera’s distance fromthe world origin) and the radial distortion parameter κ. Thisis a non-linear least squares fitting problem, which can besolved by standard algorithms.5. The KLT feature tracking algorithmTo locate the features in the video frames, we use theKanade-Lucas-Tomasi (KLT) algorithm [7, 8]. The KLT algorithmtakes two input digital images, a template imageG containing the feature to be sought; the frame image Iwhere the feature is to be located; and a guessed position(5)p f= (x f ,y f ) for the center of G in I. It returns an adjustedposition p ′ f =(x ′ f ,y′ f ) near p f such that the neighborhoodof p ′ fin I is most similar to the template G.The similarity is measured by a quadratic discrepancyfunction Q(p), that compares the template G with the portionH of I spanned by the parallelogram p f ± u f ± v f .The KLT algorithm works at several scales of resolution,where the feature position found at each scale is used asa starting guess for the search at the next finer scale. TheLucas-Kanade algorithm (LK) is used at each scale of theKLT algorithm to compute the precise position p ′ f of templateG in the frame I, given its approximate position p f .6. Limitations of TCC and KLTTracking drift. In video tracking applications, the templateG is often taken to be the occurrence H of the templatefound in the previous frame. This sequential trackingmethod may result in substantial drift of the reported positionsp ′ fwith respect to the correct positions. See figure 3.Feature loss due to occlusions. In particular, if the featurebecomes occluded at any point, a sequential tracking algorithmmay start to follow the occluding object; and it willusually fail to re-align with the feature once it becomes visibleagain. See figure 4.Frame 1GFrame 14GI I IFrame 28GFigure 3. Drift in sequential KLT tracking.Figure 4. Feature loss due to occlusion.Feature loss due to deformation. An alternative to sequentialtracking is to use the same template image G for allframes of the video. This fixed-template tracking method is371


Voltar ao sumáriousually free from cumulative drift, because the adjusted positionp ′ f in each frame is not affected by any errors made inthe previous frame (unless the errors are so large that theycause the KLT algorithm to converge to a different localminimum.) On the other hand, fixed-template tracking mayfail if the appearance of the feature in the frame changessubstantially along the video — by rotation, magnification,tilting, etc.. See figure 5.Extrapolate feature positions p f [k] from the last 2 framesGenerate the deformed templates G[k] and masks V [k]from M[k],W [k], u f [k], v f [k],α[k],β[k],σ[k]Adjust the position p f [k] by the KLTalgorithm and obtain the match discrepancy Q[k]Compute the weights w[k] from Q[k],α[k]Figure 5. Feature loss due to deformation.Recompute C from p w[k],p f [k], w[k] by weighted TCC7. Integrating the TCC and KLT algorithmsOur algorithm uses a synergistic combination ofTsai’s camera calibration with Kanade-Lucas-Tomasi featuretracking. In brief, we use the KLT algorithm to locatethe features in each frame. We then use the weightedTCC algorithm to determine the camera parameter vectorC for that frame. From C, we then recompute theexpected apparent shapes, positions, and contrast of all featuresin the frame. These data provide the templates andposition guesses for the next frame. See figure 6.Recompute the positions p f [k] and shapesu f [k],v f [k] from p w[k], u w[k], v w[k] and CRe-estimate α, β from M[k],W[k],I,p f [k],u f [k],v f [k]Figure 6. The main loop of the integratedTCC-KLT algorithm.7.1. Synthetic templatesInstead of obtaining the feature template G[k] from aprevious frame, our algorithm uses the affine map A[k], derivedfrom the current camera parameter vector C asexplained in section 3 and the photometric parametersα[k],β[k] e σ[k], to create a synthetic template G[k]from the canonical template M[k]. See figure 7(a,b).The template G (i) computed from the camera parametersC (i) is usually good enough to be used as the templatefor the next frame I (i+1) as well.The affine deformation A[k] usually turns the rectangulardomain of M[k] into a paralellogram. To account forthis fact, we also compute a mask V [k], with the same sizeas G[k], that defines the valid pixels of the latter. See figure7(c). This mask is obtained by deforming a mask W thatis 1 over all valid pixels of the canonical template M. An alternativeto synthetic templates would be to track local attributesthat are invariant under affine transformations, suchas SIFT descriptors [6]. However, this alternative ignoresimportant known information (namely the current cameraFigure 7. Canonical and synthetic templates(a,b) and the synthetic template mask (c).parameters and the canonical template) and is therefore lessreliable than template-based matching.7.2. Linear prediction of feature positionsWe obtain the initial guess for the position of each featureby extrapolating its motion in previous frames. Wefound that simple linear extrapolation was sufficiently accuratefor our tests. Namely, our initial estimate for the positionp f (i+1) of the feature in frame i+1is 2p f (i) −p f (i−1) .The previous positions p f (i) , p f (i−1) are computed fromthe feature’s world coordinates p w using the camera parametersC (i) , C (i−1) of the previous frames. Besides removingthe random drift, this change allows us to reliably estimatethe current positions p f [k] of all features, even when472


Voltar ao sumáriosome of them are occluded or have been misplaced by theKLT step.7.3. Weighted TCCWe have found that the TCC algorithm can be mademore robust by using weighted averages when solving theleast-squares sub-problems of Tsai’s algorithm. Namely,we complement each data pair p w [k],p f [k] with a weightw[k] which multiplies the corresponding terms of the leastsquaresgoal functions. Note that the original version of thealgorithm, with outlier rejection, can be emulated by settingw[k] to 1 for the accepted data pairs, and to 0 for the rejectedones.The weight w[k] is a Gaussian function exp[−r 2 /2]where r 2 =(Q[k]+ǫ 2 )/σ 2 /(α 2 + ǫ 2 ), ǫ is the root-meansquarepixel value noise, and Q[k] is the mismatch betweenthe feature’s template image G and its reported occurrenceH in the frame I. The parameter σ should be comparable tothe expected root-mean-square difference between G andH pixels, in the best possible conditions. This way, if thefinder fails to locate the feature, or finds it with a large discrepancyQ, the pair will get a vanishing weight w[k], andwill be effectively disregared by the TCC algorithm.The introduction of the weights w[k] ensures that theTCC algorithm uses all information present in the data setD — even the few bits provided by the outliers that would beexcluded in the standard approach. Conversely, it makes thealgorithm less sensitive to low-quality data pairs that wouldbarely pass the inlier acceptance criterion.We have found that the fixed weights based on the matchquality already provide fairly robust tracking, even withoutRANSAC-like outlier rejection. The use of iterative weightadjustment, as in the MLESAC approach [9], is expected toimprove the robustness even further.7.4. Adaptive color correctionOnce the position p f [k] of each feature has been determinedin the current frame, we re-compute the coefficientsα and β that would make the mean and variance of the pixelintensities in the canonical template M[k] to match those ofthe feature’s ocurrence H[k] in the frame. Assuming thatthe photometric and geometric parameters change little betweenframes, we use these values of α and β when creatingthe synthetic template G (i+1) [k] for the next frame.8. Experimental testsIn the experiments, we used two short videos (V1 andV2) 253 frames (16.88 sec) and 324 frames (21.62 sec),respectively. The videos were recorded with a consumergradeDVR (Canon Optura 40), with resolution of 320×240pixels, in color, at 14.98 fps, with standard image quality.Each frame was extracted from the MPEG file as a PortableGreyscale Map (PGM) image file with the ffmpeg tool [1].We also used a synthetic video (V3) produced with POV-Ray [3] from a 3D model of the same scene.In all three videos, the features to be tracked were 24fiducial marks, laser-printed on white paper, attached toa stage consisting of two perpendicular boards. See figure1(right). In video V2, a white ruler was swept in frontof the stage, occluding up to three features at the same time.All three videos were processed with our integratedTSAI + KLT algorithm (section 7). The camera parametersobtained for each frame were compared with those producedby the standard TCC algorithm, as implemented byR. Willson [4], applied to the output of a sequential KLTtracker provided by S. Birchfield [2].Drift. The tests with all three videos showed that our algorithmis free from long-term drift, as expected.Robustness. The test with video V2 confirmed the robustnessof our algorithm with regard to feature occlusions. Asthe ruler swept over each feature, the KLT step began returningincorrect positions p f [k]. However, once the featurebecame visible again is was promptly recovered by theKLT procedure. See figure 8.In contrast, the sequential KLT algorithm lost practicallyevery feature as soon as the ruler swept over it, and did notrecover it when it became visible.Accuracy. The synthetic video V3 allows us to comparethe accuracy of the camera parameters obtained by our algorithmwith that obtained by sequential KLT, since the trueparameters C ∗ of the virtual camera are known for eachframe. Figure 9 shows a plot of the error in the camera position T ′ − T ′ ∗ . Figure 10 shows the angular discrepancybetween the camera orientation matrices R and R ∗ , measuredby the quantity 180 1π 2 (R)(R∗ ) −1 ) − I .9. ConclusionsBy passing information in both directions between thetwo methods we obtain an algorithm that is substantiallymore robust and accurate than the obvious, one-way approach— use the KLT algorithm alone for feature tracking,and feed its results to TCC. Specifically, by using theTCC-adjusted parameters C to generate the templates G[k]and initial guess p f [k], our algorithm can adapt to changesin feature size and shape while avoiding the drift of serialKLT; and can recover occluded features once they becomevisible again. On the other hand, by using the reciprocal ofthe KLT discrepancy Q as the feature weight in the TCC algorithm,the camera parameters C becomes much less sensitiveto gross tracking errors, without actually discardingany data.573


Voltar ao sumárioFigure 8. Feature tracking with occlusion by standard KLT (top) and our algorithm (bottom).16001400120010008006004002004.543.532.521.510.50Camera position error (mm)00 100 200 300 400 500Frame numberFigure 9.Our algorithmStandard KLTCamera rotation error (deg)0 100 200 300 400 500Frame numberFigure 10.Our algorithmStandard KLTAcknowledgements. This work was partially supported byFAPESP (grants 07/54201-6 and 2007/52015-0) and byCNPq (grants 472402/2007-2 and 306631/2007-5).References[1] FFmpeg, 2008. http://ffmpeg.mplayerhq.hu/.Accessed August 10, 2008.[2] KLT: An implementation of the Kanade-Lucas-Tomasi featuretracker, 2008. http://www.ces.clemson.edu/∼ stb/klt/. Accessed August 10, 2008.[3] The Persistence of Vision raytracer, 2008. http://www.povray.org. Accessed August 10, 2008.[4] Tsai camera calibration software, 2008. http://www.cs.cmu.edu/ ∼ rgw/TsaiCode.html. Accessed August10, 2008.[5] M. A. Fischler and R. C. Bolles. Random Sample Consensus:A paradigm for model fitting with applications to imageanalysis and automated cartography. pages 726–740, 1987.[6] D. G. Lowe. Object recognition from local scale-invariantfeatures. In ICCV ’99: Proceedings of the International Conferenceon Computer Vision-Volume 2, page 1150, Washington,DC, USA, 1999. IEEE Computer Society.[7] B. D. Lucas and T. Kanade. An iterative image registrationtechnique with an application to stereo vision. In InternationalJoint Conference on Artificial Intelligence (IJCAI),pages 674–679, April 1981.[8] C. Tomasi and T. Kanade. Detection and tracking of pointfeatures. Technical Report CMU-CS-91-132, Carnegie MellonUniversity, April 1991.[9] P. H. S. Torr and A. Zisserman. MLESAC: A new robust estimatorwith application to estimating image geometry. Comput.Vis. Image Underst., 78(1):138–156, 2000.[10] R. Y. Tsai. A versatile camera calibration technique for highaccuracy3D machine vision metrology using off-the-shelfTV cameras and lenses. IEEE Journal of Robotics and Automation,3(4):323–344, August 1987.674


Voltar ao sumárioNova abordagem para reconhecimento biométrico baseado em característicasdinâmicas da íris humana* Ronaldo Martins da Costaronaldomc12@gmail.com* Adilson Gonzaga* Escola de Engenharia de São Carlosadilson@sel.eesc.usp.brAbstractAlgoritmos que identificam pessoas através dabiometria da Iris consideram as características detextura de uma imagem do olho humano. No entanto,todas as técnicas desenvolvidas até hoje, utilizam-se decaracterísticas extraídas de imagens estáticas, ou seja,sem a comprovação se a mesma pertence a um servivo. Este trabalho propõe um método que além deavaliar as características de textura, avalie tambémcaracterísticas dinâmicas de contração e dilataçãobem como o comportamento das características detextura em função dos reflexos naturais do olho. Comisso, é possível aumentar a segurança de dispositivosde reconhecimento através da íris, pois, somente írisvivas poderão ser utilizadas.1. IntroduçãoEm 1936 um oftalmologista chamado Frank Burchsugeriu que as características da textura da íris humanapoderiam ser utilizadas como método de identificaçãopessoal. Esta teoria foi documentada por JamesDaggarts em 1949. Em 1987 dois oftalmologistas, AranSafir e Leonard Flom patentearam essa idéia esolicitaram a John Daugman, pesquisador dolaboratório de computação da Universidade deCambridge que criasse um algoritmo computacionalcapaz de realizar o reconhecimento. John Daugmancriou e patenteou seu método em 1993 [1], [2]. Desdeentão a maior parte dos sistemas biométricos quetrabalham com reconhecimento da íris baseiam-se noalgoritmo criado por Daugman [3].Atualmente as técnicas de identificação sãoextremamente precisas, realizando o processo completoem frações de segundo. Contudo, todos os métodosconhecidos na literatura são realizados sobre imagensestáticas. O reconhecimento é executado em apenas umframe ou uma imagem. Este processo é rápido eoferece a precisão necessária para identificar umapessoa, mas é suscetível a fraudes.Os métodos atuais não garantem que a pessoa estejarealmente presente ou se a imagem capturada é umafotografia, prótese ou até mesmo um vídeo que dealguma forma possa ser acoplado ao dispositivo decaptura tentando burlar o sistema.2. ObjetivosO propósito deste trabalho é realizar a identificaçãopelas características dinâmicas do olho humano,analisando o comportamento das informações detextura e de outras características que se alteram emresposta a alteração da iluminação, levando emconsideração padrões de variação ao longo do tempo.Através de um protótipo especialmente construídopara esta finalidade captura-se um vídeo com o registrodas alterações da íris ao longo de um intervalo detempo pré-definido.O método proposto neste trabalho é capaz dedetectar se a pessoa analisada está presente frente aodispositivo de captura, além de poder também seraplicado em oftalmologia para identificar anomaliasnos reflexos, ou no próprio globo ocular/íris, muitasvezes causadas por doenças.3. Metodologia3.1 Captura das imagens da írisA metodologia proposta neste trabalho édiferenciada desde a captura das imagens. Umaavaliação simplificada do funcionamento do sistemaóptico humano fornece os subsídios necessários paratal.O sistema óptico humano é composto basicamentepelo globo ocular e o nervo óptico [4]. A função doglobo ocular é de capturar através dos cones ebastonetes os estímulos gerados pela luz. Estesestímulos são levados até o cérebro pelo nervo ópticoque são então processados.75


Voltar ao sumárioNa transmissão dos estímulos pelo nervo óptico,estes passam por uma região denominada quiasmaóptico conforme mostrado na figura 1. No quiasmaóptico ocorre o cruzamento das fibras médias dosnervos ópticos, de tal forma que aproximadamentemetade das fibras passa do nervo óptico direito para onervo óptico esquerdo e vice-versa. Isso faz com queos olhos estejam “conectados”, e os reflexos aestímulos aplicados em um dos olhos sejamapresentados também no outro. Esta função fisiológicaé denominada de “Reflexo Consensual”.permanece acesa até o frame 419. No frame 630 elatorna a acender e permanece acesa até o frame 839. Doframe 850 ao frame 1000, a luz é novamente apagada.Esta mudança de iluminação faz com que a pupilacontraia e dilate alterando tanto o seu diâmetro como alargura do anel formado pela íris.Figura 3: Estímulos de luz branca durante a aquisiçãodas imagens iluminadas em infravermelho próximo.Figura 1: Sistema Óptico humano. Detalhe da regiãodo quiasma óptico.Baseado, então, no “Reflexo Consensual”, foidesenvolvido um equipamento de aquisição da imagemda íris apresentado na figura 2. O olho direito recebeestímulos de luz branca em tempos determinadoscontrolados pelo software e detalhados na figura 3.O olho esquerdo captura a imagem através de umacâmera e iluminação NIR (Near-Infra-Red). Como oolho não responde a esta banda de freqüência, aabertura e fechamento da pupila do olho esquerdo sãocontrolados apenas pela iluminação do olho direitoatravés do “Reflexo Consensual”.(a)(b)Figura 2: (a)Protótipo para captura dos vídeos(b) Protótipo com a câmera “desmontada”Cada vídeo é capturado com 1000 frames a umataxa de 30 frames/segundo. No frame 210, um led comluz branca acende iluminando o olho direito, a luzEnquanto a iluminação é alterada no olho esquerdo,sincronamente a imagem de vídeo do olho direito écapturada.No caso de uma implementação que vise sistemasde segurança, os intervalos (1 – 209; 210 – 419; 420 –629; 630 – 839; 840 – 1000) podem ser alterados paratempos aleatórios, resultando em uma enormedificuldade de fraude, pois em cada filmagem ostempos podem ser variáveis.Para aplicação da abordagem proposta foramcapturados vídeos de 66 pessoas, sendo 3 de cada uma,totalizando 198 vídeos.3.2 Pré-processamento dos vídeosDiferentemente de bases de imagens pré-preparadase estáticas capturadas em ambientes controlados, acaptura em tempo real, ou tempo de vídeo, apresentamaiores problemas. Os movimentos involuntários, ounão, são constantes, exigindo que a tarefa de préprocessamentoseja bastante específica para descartarframes que possam comprometer o método e selecionarapenas frames que sejam adequados [5].Em um mesmo vídeo podem existir frames ideaispara o processamento, bem como frames desfocados,com problema de oclusão ou de angulação, conformepode ser observado na figura 4.Frames com problemas de oclusão ou desfocadosdevem ser desconsiderados na análise.Quando o frame está em condição ideal paraprocessamento, os movimentos da pupila oferecemdetalhes para avaliação do comportamento do olho. Afigura 5 apresenta um exemplo de frames ideais para oprocessamento.No pré-processamento o algoritmo propostoequaliza cada um dos 1000 frames do vídeo.Diversas sementes são “plantadas” em uma “janela”central do frame para realçar apenas a pupila e76


Voltar ao sumárioidentificar seu centro. Calcula-se, então, o eixo maior,o eixo menor e a circularidade da pupila.(a)(b)(c)(d)Figura 4: Exemplo de frames com problemas.Figura 5: Exemplo de frames ideais para oprocessamento com movimentos de contração edilatação da pupila.O anel correspondente à íris é segmentado paraanálise das informações de textura. A parte superior einferior do frame é descartada a partir do topo e doponto inferior da pupila. A lateral esquerda e direita doframe é descartada através de um fator de multiplicaçãosobre o raio da pupilaO resultado é uma imagem da íris segmentadaconforme apresentada na figura 6.Figura 6: Exemplo de frame segmentado.3.3 Extração das característicasPara possibilitar a avaliação do comportamento decada uma das características em função das alteraçõesde iluminação, são estabelecidos cinco períodos deanálise, sendo quatro períodos de transição, dentre os1000 frames:1º período – média geral de todos os 1000 frames;2º período – média entre os frames 210 a 220;3º período – média entre os frames 420 a 430;4º período – média entre os frames 630 a 640;5º período – média entre os frames 840 a 850;Do 2º ao 5º períodos ocorrem alterações controladasde iluminação e a correspondente reação e adaptaçãodo olho.As características dinâmicas da pupila selecionadaspara análise de comportamento padrão do olho são:+ Circularidade;+ Diâmetro;+ Tempo para contração/dilatação;+ Taxa de contração/dilatação;São extraídas dez características de circularidade ediâmetro, duas de cada um dos cinco períodos.O tempo e a taxa para contração/dilatação juntoscorrespondem a mais oito características do vetor.Características estatísticas dos níveis de cinza da írissão também extraídas para compor o vetor. Ascaracterísticas selecionadas são:+ Média;+ Desvio padrão;+ Coeficiente de variação;O semi-círculo formado pela íris segmentada édividido em 2 partes (esquerda e direita) em função docorte superior e inferior realizado na segmentação.Cada uma dessas partes, denominadas aqui de Setor Ae Setor B (setor A – lado esquerdo do semi-círculo esetor B – lado direito) fornecem mais trinta valores (3características x 5 períodos x 2 setores) paracomposição do vetor de características .A textura da íris tem sido utilizada tradicionalmentena identificação com imagens estáticas. Como a pupilase dilata/contrai nos períodos considerados, estascaracterísticas apresentam comportamento padrãodinâmico, durante o movimento. São assimconsiderados os seguintes parâmetros de textura:+ Correlação;+ Segundo Momento Angular (SMA);+ Entropia;+ Contraste;+ Momento da Diferença Inverso (MDI);As características de textura [6] são obtidas sobre asmatrizes de co-ocorrências geradas pela variação dosníveis de cinza nas direções de 0º, 45º, 90º e 135º.As cinco características de textura geram mais 200valores no vetor (5 características x 5 períodos x 2setores x 4 ângulos).77


Voltar ao sumário3.3.1 CircularidadeNa figura 7 está destacado o contorno da pupila parao cálculo da circularidade.A circularidade é uma característica dinâmica dapupila. Através do “Reflexo Consensual”, quando seaplica um pulso de luz no espectro visível (neste caso,luz branca) no olho direito, as duas pupilas contraem-see quando a luz é retirada, as duas pupilas dilatam-se. Acircularidade da pupila sofre alteração durante o tempode contração e de dilatação que é medida frame a framedurante os períodos em questão (do 2º ao 5º). Alémdisso, as pessoas possuem circularidades diferentes oque representa uma característica individual.A quantidade de frames necessários para atingir ovalor mínimo/máximo fornece o tempo paracontração/dilatação do diâmetro da pupila.Foi estabelecida a quantidade de 50 frames comolimite máximo para avaliação, evitando-se assim errosgerados durante a fase de aquisição devido à reação dapessoa à luz branca aplicada.3.3.4 Taxa de contração/dilataçãoA taxa de contração e de dilatação da pupila étambém discriminante para diferentes indivíduos.A taxa de contração/dilatação é a derivada davariação do diâmetro dentro do período considerado,entre um valor mínimo e um valor máximo. Esta taxa éuma característica dinâmica que muda de indivíduopara indivíduo e é utilizada pela abordagem proposta,como característica de identificação.Figura 7: Circularidade da pupila.3.3.2 DiâmetroO diâmetro da pupila é outra característica dinâmicaque é utilizada neste trabalho. Como pode serobservado na figura 8, a pupila do exemplo contrai-semais no primeiro pulso de luz, entre os frames 210 e220 (2º período), do que entre os frames 630 e 640 (4ºperíodo). As médias individuais desta variação sãoutilizadas como característica de identificação.3.3.3 Tempo de contração/dilataçãoApós a alteração de iluminação o diâmetro da pupilachega a sua contração máxima ou mínima e depois seestabiliza. A região ressaltada no gráfico da figura 8montra a alteração do diâmetro na região de transição(pulso de luz aplicado no frame 210), o diâmetromínimo atingido (contração máxima) e depois oretorno gradual ao valor médio estabilizado.O tempo para contração/dilatação é calculado emnúmero de frames, pois a taxa de aquisição da câmerade vídeo é constante (30 fps).Figura 8: Diâmetro médio da pupila.3.3.5 Média aritméticaA média aritmética representa o valor médio dosníveis de cinza da íris nos setores e períodosselecionados. É importante salientar que os níveis decinza não sofrem influência da iluminação, pois, aimagem é adquirida com luz infravermelha nãocausando reflexos e nem reações da pupila.3.3.6 Desvio padrãoO desvio padrão é o desvio dos níveis de cinza daíris em torno da média, nos setores e períodosestabelecidos.3.3.7 Coeficiente de variaçãoO coeficiente de variação é dado pela equação 1 eretrata o coeficiente de variação dos níveis de cinza daíris nos setores e períodos selecionados.78


Voltar ao sumárioonde:Scv = (1)xS é o desvio padrão;x é a média;3.3.8 CorrelaçãoA correlação é dada pela equação 2.Ela mede a dependência linear entre os níveis decinza de pares de pixels [6]. Valores próximos a umimplicam numa forte relação entre os níveis de cinzados pixels. A medida de correlação não écorrelacionada com o SMA, isto é, altos valores decorrelação podem ser encontrados em baixos ou altosvalores de energia, para a mesma área de interesse.cor =nn∑∑i= 1 j=1i ⋅ j ⋅ pi ⋅ j( i,j,d,θ )σi⋅σj− µ i ⋅ µ j(2)onde: i é o total de linhas da matriz.j é o total de colunas da matriz.p i, j,d é o valor da célula de linha i,( ,θ )coluna j distância d e ângulo θ .n ni ⋅ p( i, j,d,θ )µ i = ∑∑i jµ j =σiσji= 1 j= 1 ⋅nn∑∑j ⋅ pi= 1 j= 1 i ⋅nn= ∑∑i= 1 j=1nn= ∑∑i= 1 j=1ij22( i, j,d,θ )j( i,j,d,θ ) 2⋅ pi ⋅ j− µ i( i,j,d,θ ) 2⋅ pi ⋅ j− µ j3.3.9 Segundo Momento Angular (SMA)Esta medida avalia a uniformidade textural, que é arepetição de pares de níveis de cinza [6]. Quando aárea de interesse apresenta textura uniforme (valores deníveis de cinza próximos) o valor de energia tende para1. Caso a área não seja uniforme o valor da energiatende a 0 (zero). O SMA é dado pela equação 3.SMA =nn∑∑i= 1 j=1⎛ p⎜⎝( i,j,d,θ ) ⎞2i ⋅ j⎟⎠(3)3.3.10 EntropiaA entropia mede a desordem em uma imagem [5].Quando a imagem não apresenta textura uniforme, osvalores da entropia tendem a ser muito baixos. Aentropia alcança seu valor máximo quando os pixels naárea de interesse apresentam níveis de cinza comvalores aleatórios. A entropia apresenta uma correlaçãolinear negativa com o SMA e não é correlacionada coma medida de correlação. A entropia é dada pelaequação 4.ENTn n=∑∑p( i,j,d,θ )i ⋅ j⎛⋅ log⎜⎝ pi ⋅ j( i,j,, ) ⎟i= 1 j= 1 d θ3.3.11 Contraste⎞(4)⎠O contraste mede a presença de transição abrupta deníveis de cinza, isto é, as bordas. Baixos valoresindicam a ausência de bordas na área de interesse.Neste caso, a matriz de co-ocorrência de níveis decinza apresenta valores concentrados em torno de suadiagonal principal. O contraste é calculado pelaequação 5.con =nn∑∑2( i − j) ⋅ p( i, j,d,θ )i= 1 j= 1 i ⋅j(5)3.3.12 Momento da Diferença Inverso(MDI)Quando a concentração dos valores na diagonal damatriz de co-ocorrência for máxima, o MDI atinge ovalor máximo [7]. O MDI é calculado pela equação 6.mdi =n4. Resultadosn∑∑i= 1 j=11+1( i − j)( i,j,d )⋅ p , θ (6)2Para localizar um indivíduo foi gerado um vetormédio. O vetor médio é calculado pela médiaaritmética das características dos 3 vídeos reais.O algoritmo gera um vetor temporário de 1000características. Cada uma destas 1000 características éo resultado da média aritmética dos vídeos reais. Destevetor temporário é extraído o vetor de característicasmédio, conforme os períodos e setores citados no item3.3 deste trabalho.79


Voltar ao sumárioPara cada indivíduo foram adquiridas 3 seqüênciasde vídeos gerando-se 4 vetores de características, sendotrês extraídos diretamente dos vídeos e um que é amédia dos três vídeos.Cada vetor de característica é formado por 12valores: Circularidade, Diâmetro, Média, Tempo deContração/Dilatação, Taxa de Contração/Dilatação,Desvio Padrão, Coeficiente de Variação, Correlação,SMA, Entropia, Contraste e MDI. Os dados extraídoscontêm as informações dos 1000 frames com seusrespectivos setores (A, B) e graus (0º, 45º, 90º e 135º).A figura 9 apresenta um gráfico de similaridades dovídeo 1 do indivíduo 1 com os vídeos da base.Figura 9: Gráfico de similaridade para o Vídeo 1 doIndivíduo 1Neste exemplo, o vídeo 1 do indivíduo 1 foicomparado com todos os vídeos médios dos 55indivíduos que compõem a base de vídeos, inclusive odo indivíduo 1.É possível observar que a menor distânciaencontrada para o vídeo 1 do indivíduo 1 foi emrelação ao seu próprio vetor médio.O gráfico apresentado na figura 9 demonstra que épossível identificar um indivíduo através da avaliaçãodo comportamento da íris em função de estímulos prédeterminados.Ao todo foram feitos 161 vídeos. Destes, 47 foramdescartados, por apresentarem problemas deiluminação ou foco. O algoritmo de extração decaracterísticas foi projetado especialmente paraeliminar estas medições. Vídeos com vetores decaracterísticas com mais de 4 (quatro) característicasnulas eram automaticamente eliminados.A figura 10 apresenta o gráfico que demonstra opercentual de acertos de identificação de 83,33% paraos 114 vídeos analisados.Os 16,67% de vídeos não localizados referem-se aosvídeos que não foram eliminados automaticamente peloalgoritmo, mas cuja qualidade não é ideal para análise.Figura 10: Gráfico com o percentual de vídeoslocalizados e não localizados5. ConclusõesÉ possível identificar biometricamente um indivíduopelas características dinâmicas da iris. Através de ummétodo de identificação mais robusto, utilizando o“Reflexo Consensual”, pode-se interagir o software decaptura com o processo de identificação biométrico eassim verificar se a pessoa está realmente presente ouse é algum tipo de subterfúgio para burlar um sistemade segurança.No entanto, como a proposta é orientada aohardware, os resultados da identificação estãointimamente ligados a ele. Um hardware lento exigemaior tempo de exposição e conseqüentemente maiordesconforto ao usuário. As alterações de iluminação emgeral fazem com que o indivíduo feche os olhos,prejudicando a aquisição dos vídeos. Um hardwaremais aperfeiçoado pode capturar mais detalhes domovimento e também fornecer o resultado em umtempo menor.Contudo, os resultados demonstram que aabordagem proposta, mesmo em condições não ideaisde aquisição das imagens, é capaz de identificar umindivíduo com um alto índice de precisão, ou seja, épossível identificar um indivíduo pelas característicasdinâmicas de movimentos da íris em função deestímulos. As respostas aos estímulos seguem padrõesindividuais que devem ser mais investigados no sentidode se aumentar a precisão do sistema proposto.AgradecimentosOs autores agradecem à FAPESP – Fundação deAmparo à Pesquisa do estado de São Paulo, pelosuporte financeiro ao desenvolvimento deste trabalhode pesquisa.Referências bibliográficas[1] Narote, S.P., Narote, A.S., Waghmare, L.M.,Kokare, M.B., Gaikwad, A.N., An Iris Recognition80


Voltar ao sumárioBased on Dual Tree Complex Wavelet Transform,Pune Institute of Computer Technology, Pune, India,IEEE, 2007.[2] Daugman, J. G., How iris recognition works.Proceeding of 2002 International Conference on ImageProcessing, vol 1, 2002.[3] Daugman, J. G., New Methods in Iris Recognition.IEEE Transactions on Systems, Man, and Cybernetics– Part B: Cybernetics, Vol. 37, no. 5, 2007.[4] Lana-Peixoto, M. A.. Neuro-Oftalmologia. SistemaSensorial – Parte II. Disponível em. Acesso em 2 jun.2008.[5] Gonzaga, A., Moreno, R.P., Biometric Method forPersonal Authentication Based on Iris TextureFeatures. In: The 4th Iasted International Conferenceon Visualization, Imaging, and Image Processing, v. 1.p. 1-5, 2004.[6] Haralick, R.M.; Shanmugan, M.K., Computerclassification of reservoir sandstones. IEEETransactions on Geoscience Electronics, v.11, no. 4,p.171-177, 1973.[7] Martins, S. P., Classificação de imagens textural deimagens radarsat-1 para discriminação de alvosagrícolas. São José dos Campos, INPE, InstitutoNacional de Pesquisas Espaciais, Dissertação deMestrado, 2005.81


Voltar ao sumárioObject-based Visual SLAM: How Object Identity Informs GeometryAntonio H. P. Selvatici and Anna H. R. CostaLaboratório de Técnicas Inteligentes — LTIEscola Politécnica, University of São PauloSão Paulo, SPFrank DellaertCollege of ComputingGeorgia Institute of Technology30332-0280 Atlanta, GAAbstractBook caseCabinetLivingroom dining tableObjects are rich information sources about theenvironment. A 3D model of the objects, togetherwith their semantic labels, can be used for cameralocalization as well as for cognitive reasoning aboutthe environment. However, traditional frameworksfor scene reconstruction usually map a cloud ofpoints using structure-from-motion techniques, butdo not provide objects representation. On the otherside, robotics object-based mapping mainly focuson adding cognitive representations to a metric ortopologic map built using traditional SLAM techniques.In this work we propose a framework forenvironment modeling by representing the objects inthe scene, detected by an object recognition and segmentationtechnique. The key idea is to incorporatethe resulting image segments and labels into a globalinference engine in order to build simple geometricmodels for the objects. For now, we consider theperfect object recognition case, where we know theexact object identities, testing our approach usingcoarsely hand-annotated images captured by a robotcarrying an omnidirectional camera. We found thatthe resultant object locations and sizes are fullycompatible with what is expected, and the inferredrobot trajectory is improved when compared to thatrecovered using odometry only.1. IntroductionMixed geometric and semantic 3D models of theenvironment are useful either for human visualizationor as a map for autonomous visual systemsthat must localize themselves and reason aboutthe surrounding environment. When these systemsinteract with human beings, like in AugmentedReality (AR) applications or service robots, theirworld representation should share symbols withComputer deskArmchairFigure 1. Example of a simple 3D model of the objectsin a living room, showing their heights and averagewidths, as well as class labels.that of humans. Furthermore, there are evidencesthat people themselves use objects to representindoors spaces [1]. In this context, object-based 3Dmodels of the environment, like the one depictedin Fig. 1, are very suitable for providing landmarksfor camera localization as well as cognitive entitiesfor reasoning, while containing important elementsfor place visualization systems to build on.In this work, we build simple object-based 3Dmodels of the environment from an image sequencecaptured by a camera placed on a mobile robot,and also recover its trajectory. This is done byintegrating the output of an object recognitionand segmentation algorithm into a usual structurefrom-motion(SFM) inference engine. In this sense,this work is different from traditional object-basedsemantic mapping approaches in robotics, sincethey tend to concentrate on the cognitive environmentmodeling problem [1][2]. In those works,the geometric aspect of the objects modeling isthen simplified to informing positions in a certainreference frame, discarding the information aboutobject sizes and other visual information, not usedin the mapping process.This work also differs from traditional visualSLAM approaches, which map only some interestpoints in the environment [3][4][5], without pro-TV82


Voltar ao sumárioviding objects representation. Our goal is to buildlight-weight 3D models of objects in the environment,together with a semantic label indicatingtheir class (e. g., clock, TV set, table, etc.) andidentity, provided by object recognition. Slightlycloser to our approach, [6] also incorporates somehigher-level entities in the map, corresponding torecognized planar patches. However, these patchesonly indicate that certain points in the map belongsto a specific structure, making their associationsthroughout images more reliable due to this additionalpatch-level of matching test. Our work improveson that by using apparent size informationrather than just image point positions.The main idea we explore is that, if we roughlyknow the average real-world size of the objectsbelonging to a certain class, the apparent size ofan instance in the image leads to a coarse rangeestimate from the camera to the object. Moreover,if we can also make assumptions about the objectlocation, e. g., that a coach is more likely to beon the floor plane then onto a table, the detectedobject image also gives us clues about the camerapose. Figure 2 illustrates how it works. This ideawas also used by Hoiem and others [7] to recover thecamera viewpoint and the position of determinedobjects on the floor plane from single images, whileperforming object recognition using a third-partytechnique. However, here we relax the restrictionson the object locations and recover larger scalemodels using image sequences.In this work, we focus on the scene modelingand camera pose estimation problem, which issolved by a traditional efficient inference methodused in SFM. The problem is first modeled as asparse linearized least-squares (LS) one, and thenefficiently solved by means of QR factorization [8].This method has been recently extended to therobot SLAM domain [9], [10], replacing many filteringapproaches with great advantage. Although thegeneral framework presented can assume differentassumptions about the confidence on the objectrecognition technique used, we consider the perfectobject recognition case, making use of an annotatedimage sequence database to test our approach.The paper is organized as follows. In section 2 wepresent a general framework for our approach, fromwhich we derive the specific model we use in thiswork. In section 3 we give details about the specificprobabilistic models and inference algorithmwe adopted. Experimental results are presented insection 4, while the conclusions of this work arediscussed in section 5.ObjectclassObjectSize3D ObjectPosition(a)(b)ApparentObjectSizeApparentObjectPositionCameraPoseFigure 2. Illustration of how knowledge about theobject size can be used to estimate the relativedistance from the camera. a) The decreasing sizeof the wooden box in the images combined withprior knowledge about the size of wooden boxesinforms about its increasing distance to the camera. b)Graphical probabilistic model illustrating the dependenciesamong object position and size, and camerapose (unknowns, represented by ellipses) given objectrecognition output (rectangles).2. General Framework for ObjectbasedSLAMOur objective is to perform Maximum a Posteriori(MAP) inference to obtain a 3D modelθ of the environment objects, using measurementdata Z provided by object recognition in an imagesequence. The MAP estimate θ ∗ is defined asθ ∗ = arg max P (θ|Z) (1)θWe propose to take an approach where objectclasses, locations, and associated geometries are inferredtogether with the camera trajectory and orientations,tightly coupling these variables. In thiscase, θ =(X, M) [9], where X is the sequence ofcamera poses and M is the model, which includes,in addition to object locations L, their geometryG and their class labels C. Thus, let us defineM = ∆ {o j } N j=1 , where each object o ∆j =(l j ,g j ,c j )is described by an object location l j , the geometryg j , and the class label c j .The data Z = {z k } K k=1provided by the objectrecognition system is assumed to comprise the apparentcontour and position of the objects detectedin the image sequence I = {I i } T i=0 . Hence, weassume we always havez k =(u k ,s k , ¯c k ) (2)83


Voltar ao sumáriowhere each object detection z k provides a 2D locationu k , the respective apparent shape s k , andthe detected class ¯c k . We can also define the correspondencevariable, J = ∆ {(i k ,j k )} K k=1, which isa mapping from measurement indices k to imageindices i and object indices j, such that o jk isthe object detected in image I ik giving raise tothe measurement z k . Depending on the set up,odometer readings about the camera movement,V = {v i } T i=1 , may also be available. This is thecase in our experiments.Depending on the confidence we have in theobject recognition algorithm, there are several possibleassumptions we can make regarding whetherreal object class labels C and correspondence J isknown or not. The different choices are:1) correspondence J known, class labels Cknown2) correspondence J known, class labels C unknown3) correspondence J unknown, class labels Cknown4) correspondence J unknown, class labels CunknownIn the case correspondence is known, it is impliedthat we know the number of objects N. However,if correspondence is unknown, N itself becomes anobject of inference.If the object recognition technique used is reliableenough, we may assume that each object detectedis uniquely identified, and also that its class label isrecognized perfectly. This is the case where choice1 applies, since object identities give raise to thecorrespondence J. In this work we investigate onlythe first situation, where both correspondence andclass labels are known.2.1. Known Correspondence and ClassLabelsAssuming that we know the object classes andrespective identities, as we stated above, we canadopt a similar approach used in traditional SFM,but now our structure include also object geometry.The posterior (1) can be expressed by:P (θ|Z;J) ∝ P (Z,θ|J) =P (X,M|J)P (Z|X,M;J) (3)where P (X, M|J) is a prior density on trajectoryand object models, which might include odometerinformation, if available. P (Z|X, M; J) is the measurementslikelihood.At this point, we have to explicit the assumedvariables and measurements relationships in order...v i-1v ix i-1 x ix i+1z ku k s kl jo jg jc jvi+1...... z k-2 z k-1 z k+1 ......o j-1Figure 3. Fragment of the Bayesian Network that representsthe probabilistic model for object-based SLAMwhen class labels and correspondence are known. Therectangles represent known variables, and the circlesrepresent the unknowns. We basically assume thatobjects class give a rough idea about its geometry,and may give clues about its possible locations. Wealso assume that the apparent shape is independentof the object location in image given the unknowns.This model does not admit occlusion among objects,neither moving objects.to define our model. These relationships are representedin Fig. 3. Basically, we assume that objectclasses influence their geometry, and possibly theirlocations. Since the model M comprises the set ofobject locations L, 3D geometry G, and the knownobjects class labels C, hence the prior density canbe written asP (X, M|J) = P (X)P (L|C)P (G|C)N= P (X) {P (l j |c j )P (g j |c j )}(4)j=1If odometer information V is available, the prior onthe camera poses is given byTP (X) =P (x 0 ) P (x i |x i−1 ,v i ) (5)i=1The first camera pose x 0 can be given any value,since all other variables are estimated with relationto it, and is clamped to the origin in general.In our measurements likelihood, we consider thatthe object position in image depends on the relativedisplacement between camera and object, and alsoon the camera orientation. The object shape is assumedindependent of its position in image. Finally,we consider that the actual class labels C perfectlygenerates the detected ones ¯C, so that:KP (Z|X, M; J) = {P (u k |x ik ,l jk )P (s k |x ik ,l jk ,g jk )}k=1...84


Voltar ao sumárioδθ ∗ = arg minδθ Nj=1||δl j + l 0 j − γ(c j)|| 2 Γ(c j ) + 1 2 ||δg j + gj 0 − ς(c j)|| 2 Σ(c j ) +T||Fi x δx i−1 − δx i + f i (x 0 i−1 ,v i) − x 0 i ||2 Q i+K ||Uxk δx ik + Uk l δl j k+ h u k (x0 i k,lj 0 k) − u k || 2 R k+ ||Sk x δx i k+ Sk l δl j k+ S g k δg j k+ h s k (x0 i k,lj 0 k,gj 0 k) − s k || 2 W ki=1k=1Table 1. Linear LS problem yielded by assuming linearized models for the odometers and the measurements.The superscript 0 indicates the linearization point of the respective variables, and δx means the variation of thevariable x around its linearization point x 0 , so that x = x 0 + δx. The decorated capital letters represent theJacobians of the model functions: Fix is the Jacobian of f i (x, v) w.r.t x, Uk x and U k l are, respectively, theJacobians of h u k (x, l) w.r.t. x and l, and Sx k , Sl k , and Sg k are the Jacobians of hs k(x,l,g) w.r.t. x, l, and g,respectively. The notation ||a|| 2 Σ is used to indicate the squared Mahalanobis norm of a with respect to Σ, givenby a T Σ −1 a. Note that the variables subject to inference become δθ(δX, δL, δG), where δX = {δx i } T i=1 ,δL = {δl j } N j=1 , and δG = {δg j} N j=1 .As a result, the posterior in (1) is given by thegenerative modelP (X,M|Z;J)=P (x 0 ) Ti=1 P (x i|x i−1 ,v i )× Nj=1 {P (l j|c j )P (g j |c j )}× (6)Kk=1 {P (u k|x ik ,l jk )P (s k |x ik ,l jk ,g jk )}2.2. Assuming Simple Geometry: SizeOnlyIn this work, we take g j to be simply the object3D bounding dimensions, and s k the apparent sizemeasurements. Although the generative model ofthe objects shape in images can be very complex,this simplifications can yield fairly approximatedmodels under certain assumptions. The most importantones are that the camera keeps a certaindistance from the objects, and that their apparentsizes do not change significantly from differentviewpoints at the same distance.The interesting difference with point-based visualSLAM or SFM is that apparent size now yieldsrange to objects even by a single sighting. Afterseveral sightings both object dimensions and positionwill be sharply determined by triangulation,obsoleting the coarse priors.3. Inference using QR decompositionAs inference technique, we adopt the same inferenceengine as many traditional SFM works. Asusual in this literature, we factorize the posteriorin (6) as product of Gaussian probabilities, whichnaturally leads (1) to be formulated as a linearizedLS problem. In more complex 3D reconstruction(e. g., [11]), solving the linearized problem is partof an iteractive non-linear optimization strategy,like Levenberg-Marquardt. Here, we focus only thelinear part.3.1. Using linearized Gaussian modelsTo assure the posterior (6) is expressed as aproduct of Gaussians we define our model consideringthat all measurements and prior knowledge arenormally distributed. Thus, the prior over objectslocation and size are given byl j = γ(c j )+e l j, e l j ∼ N(0, Γ(c j ))g j = ς(c j )+e g j , eg j ∼ N(0, Σ(c j)) (7)where e l j and eg j are the errors on the priors overobjects location and size, respectively. Odometryand measurements are also disturbed by whitenoise, so we can write:x i = f i (x i−1 ,v i )+e x i , e x i ∼ N(0,Q i )u k = h u k(x ik ,l jk )+e u k, e u k ∼ N(0,R k ) (8)s k = h s k(x ik ,l jk ,g jk )+e s k, e s k ∼ N(0,W k )where e x i ,eu k and es kare, respectively, the odometryerror, and the errors in the object position and sizein image.Since the functions f i (.), h u k (.) and hs k(.) are,in general, non-linear, linearized versions of themare used to assure a Gaussian posterior density.Replacing the densities yielded by (7) and by thelinearized version of (8) in (6) yelds our posterior,so that taking the negative natural log of the maximizingterm in (1) results in a linear LS problem,stated in table 1.3.2. QR factorizationThe resulting LS problem can be efficientlysolved using a sparse Choleski factorization, likeQR, by rewritting it in the matricial form:δθ ∗ = arg min ||Aδθ −δΘ b||2 P (9)where each block-line in A and b correspond toone of the summand terms in Table 1, and P isa block-diagonal matrix with the covariances thatweigh the summands.85


Voltar ao sumárioWardrobeLivingroomdining tablediameter(average width)BedCoat rackCouchTVArmchairKitchenwork deskheightCabinet(a)(b)Figure 4. Illustration of the data and object model used in our experiments. a) Example of annotated dataavailable from the data set. Objects are marked with bounding polygons, and are given a label. c) Detectedobjects sizes in image, corresponding to a "bounding slice" of the object, extracted from the annotation polygon.They comprise the radial size, which is a projection of the object height, and the angular width. d) Model adoptedto represent the objects, comprising their height, average width, and base point position. e) Exemple of the built3D environment model, showing also the inferred trajectory.base point(c)Kitchendining tableWashingmachineRefrigerator(d)Book caseComputer deskDue to the sparseness of A, QR factorization isan efficient way to solve (9) [12]. QR factorizationrepresents an m × n matrix A, with m ≥ n, bya multiplication of other two matrices [8], A =RQ , where Q is an m×m orthonormal matrix,0and R is the n×n upper-triangular Cholesky factorof A T A. Let us rewrite (9) as a minimization of anEuclidean distance by incorporating the covariancematrix into the other terms:||Aδθ − b|| 2 2P = ||Āδθ − ¯b||where Ā = P− 1 2 A, ¯b = P− 1 2 b, and P − 1 2 is theCholesky factor of P −1 . The QR factorization of Āallows us to rewrite (9) in the formδθ ∗ = arg minδΘ ||Q R0= arg minδΘ ||Q R0δθ − ¯b|| 2 cδθ −r)|| 2Once ¯R is upper-triangular square, and full-ranksince Ā poses an over-determined linear system, thesolution for the problem is obvious: it is given bythe solution of Rδθ = c, leaving ||r|| 2 as the totalsquared residual.4. Experimental resultsThe presented approach was tested using a realworldannotated data set, obtained on line from theproject From Sensors to Human Spatial Concept[13] website. The image sequence was capturedby an omnidirectional camera using a hyperbolicmirror at 7.5 fps. However, only the odd numberedimages were annotated, so we use images grabbedat half of this frame rate. We assume that theobjects in the scene could be roughly represented bycylinders, using the 3D position of their base pointto represent their locations, as depicted in Fig. 4.The measured sizes correspond to the angular slicebounding the annotated object. We clearly benefitfrom using an omnidirectional camera, once we canget several sights of an object without concerningabout actively focusing it in the image. For thecamera movement, we assumed a 3DOF planar motionmodel, using odometer information to predictthe camera pose from a frame to the other.The linearization value of the object parameterswere initialized by projecting their a priori heightin the world using the radial size measurement. Obtainedresults are showed in Figs. 4(d) and 5. Ourapproach showed an improvement of the recoveredcamera path w.r.t. the a priori odometer-basedone. As a ground truth for our experiments, we usedthe trajectory obtained by a SLAM algorithm usinglaser scans data provided in toolbox that came withthe data set.5. Conclusion and future workWe presented a novel approach for acquiringsimple 3D object-based models of the environmentfrom a single moving camera. The results presentedcorroborate the idea of using object recognitionoutput in a simple and fast 3D model builder of theobjects in the scene. More elaborated models wouldrequire view-point dependent modeling, leading toinference on a hybrid discrete/continuous model,which are more costly to infer.86


Voltar ao sumárioAutonomous Systems, vol. 55, pp. 359–371, May2007.WardrobeBedCoat rackKitchen work deskKitchen dining table(a)odometryground truthObj. based SLAMCouchLivingroom dining tableTVCabinetArmchair[2] C. Galindo, A. Saffiotti, S. Coradeschi, P. Buschka,J. Fernández-Madrigal, and J. G. ez, “Multihierarchicalsemantic maps for mobile robotics,”in IEEE/RSJ Intl. Conf. on Intelligent Robots andSystems (IROS), pp. 3492–3497, 2005.[3] B. Williams, G. Klein, and I. Reid, “Real-timeSLAM relocalisation,” in Intl. Conf. on ComputerVision (ICCV), 2007.[4] G. Klein and D. Murray, “Parallel tracking andmapping for small AR workspaces,” in IEEE andACM Intl. Sym. on Mixed and Augmented Reality(ISMAR), (Nara, Japan), November 2007.[5] A. Davison, I. Reid, N. Molton, and O. Stasse,“MonoSLAM: Real-time single camera SLAM,”IEEE Trans. Pattern Anal. Machine Intell.,vol. 29, no. 6, pp. 1052–1067, 2007.RefrigeratorWashing machineBook caseComputer desk(b)Figure 5. Results obtained with object-based SLAM.a) Comparison among trajectories. The inferred trajectoryis closer to the ground truth. b) Bird-eyeview of the built objects model. The black-dotted linerepresents the inferred trajectory, while the green lineis the trajectory obtained by laser-based SLAM, whichwe consider as our ground truth. The house blueprintwas extracted from [13].Although we require objects to be recognizedperfectly for now, state-of-the art object recognitiontechniques show very low error rates, so that aquasi-ideal condition could be achieved indoors, byfocusing on very prominent obstacles, and tuningthe detector to minimize fake positives. However,for future work we are working on augmenting ourmodel to include discrete unknowns, namely thecorrespondence J, the class labels C, and possiblyviewpoint selection. More specifically, we areinvestigating sampling techniques over the discreteparameter space, each sample corresponding to adifferent linear system. In this case, we will investigateincremental QR update techniques, sothat small changes in the discrete variables can berapidly processed, leading to vary fast estimates.References[1] S. Vasudevan, S. Gachter, M. Berger, and R. Siegwart,“Cognitive maps for mobile robots — anobject based approach,” Journal of Robotics and[6] R. O. Castle, D. J. Gawley, G. Klein, and D. W.Murray, “Towards simultaneous recognition, localizationand mapping for hand-held and wearablecameras,” in IEEE Intl. Conf. on Robotics and Automation(ICRA), (Rome, Italy), pp. 4102–4107,Apr. 2007.[7] D. Hoiem, A. A. Efros, and M. Hebert, “Puttingobjects in perspective,” in IEEE Conf. on ComputerVision and Pattern Recognition (CVPR),pp. 2137–2144, 2006.[8] G. Golub and C. V. Loan, Matrix Computations.Baltimore: Johns Hopkins University Press,third ed., 1996.[9] F. Dellaert, “Square Root SAM: Simultaneouslocation and mapping via square root informationsmoothing,” in Robotics: Science and Systems(RSS), 2005.[10] M. Kaess, A. Ranganathan, and F. Dellaert, “Fastincremental square root information smoothing,”in Intl. Joint Conf. on AI (IJCAI), (Hyderabad,India), pp. 2129–2134, 2007.[11] K. Ni, D. Steedly, and F. Dellaert, “Out-of-corebundle adjustment for large-scale 3D reconstruction,”in Intl. Conf. on Computer Vision (ICCV),(Rio de Janeiro), October 2007.[12] F. Dellaert, “Square root SAM,” in Proc. ofRobotics: Science and Systems, (Cambridge, MA),June 2005.[13] Z. Zivkovic, O. Booij, and B. Kröse,“From images to rooms,” Journal ofRobotics and Autonomous Systems, vol. 55,no. 5, pp. 411–418, 2007. Data set url:http://staff.science.uva.nl/˜zivkovic/FS2HSC/dataset.html.87


Voltar ao sumárioOrientação de Bordas em Imagens Digitais: Abordagem por Análise deVizinhança LocalInês Aparecida Gasparotto BoaventuraDCCE-IBILCE-UNESPRua Cristovão Colombo, 226515054-000, São José do Rio Preto, SP, Brasilines@ibilce.unesp.brAdilson GonzagaSEL, EESC, USPAv. Trabalhador São-carlence, 40013560-590, São Carlos, SP, Brasilagonzaga@sc.usp.brResumoO objetivo deste trabalho é apresentar uma nova abordagempara a estimativa de orientação local de bordasem imagens digitais. A abordagem proposta considera avizinhança de cada pixel do mapa de borda e calcula suad i r e ção local. A avaliação da orientação local da borda éfeita com base em alinhamentos da imagem borda relativo aum número fixo de orientações de referência. Cada uma dasorientações de referência definida possui um ângulo correspondente,os quais definem cada direção. Os resultados obtidosforam comparados com métodos de detecção de bordasbaseados no cálculo do vetor gradiente.1. IntroduçãoPixels de borda em uma imagem digital são definidoscomo locais em uma imagem onde existe uma variação significativanos níveis de cinza em uma determinada direçãona vizinhança desses pixels. Os pixels de bordas formam retasou curvas. As bordas são uma das mais importantes pistasvisuais para a interpretação da imagem. O processo dedetecção de bordas reduz uma imagem aos seus detalhesde bordas que aparecem como os contornos dos objetos daimagem, os quais são usados posteriormente em operaçõessubseqüentes de análise de imagem.Existem vários métodos diferentes baseados em operadoresdiferenciais para detecção de bordas, tais como filtragemSobel, Prewitt, Roberts, Operador de Canny e outros[4]. Esses métodos realizam a diferenciação discretaem uma imagem e produzem o campo gradiente. A abordagemmais simples e natural para estimar a orientação localdas bordas é obtida a partir do relacionamento entre asfunções gradiente vertical e horizontal da imagem digital.É bem conhecido que o ângulo fase do gradiente denota adireção de troca de intensidade máxima do pixel. Assim adireção de uma borda hipotética que cruza a região centralizadaem um determinado pixel é ortogonal ao ângulo fasegradiente naquele pixel. Esse método embora simples e eficiente,possui alguns inconvenientes [6]. Um deles, ao utilizaras máscaras clássicas de convolução de Sobel ou Prewittpara determinar os componentes ∇x e ∇y e computar θ ijcomo o arco-tangente da proporção ∇x/∇y apresenta problemasdevido a não linearidade e descontinuidade ao redorde 90 0 .Técnicas recentes de detecção de bordas que caracterizamdetecção de bordas como um problema de raciocíniofuzzy tem sido propostas [2], [5], [8], [1], [9], [7], [3].As técnicas fuzzy permitem uma nova perspectiva paramodelar as incertezas devido à imprecisão dos valores decinza presentes na imagem. Essas técnicas não fornecema informação do campo gradiente, portando não produzemdiretamente a informação de direção de bordas, que é importantepara análises subseqüentes da imagem, tais comoanálise de textura, afinamento de bordas, ligação de bordas,etc.O objetivo deste trabalho é apresentar uma abordagemnão derivativa para a estimativa de orientação de bordas.A abordagem proposta é baseada na análise de umavizinhança local dos pixels da imagem borda. A avaliaçãoda orientação local da borda é feita com base em alinhamentosda imagem borda relativo a um número fixo deorientações de referência, não sendo necessários cálculostais como de raízes quadradas, do arco-tangente e do vetorgradiente. Cada uma das orientações de referência definidapossui um ângulo correspondente que definem asorientações consideradas.2. Novo método para orientação de bordaSeja uma imagem G e seu respectivo mapa de borda representadopor uma imagem B. Seja b i,j um pixel do mapade borda da imagem. A orientação local da borda em b i,j éoângulo θij que a borda da imagem, cruzando com uma pe-88


Voltar ao sumárioquena vizinhança arbitrária centralizada em b i,j , forma como eixo horizontal. O ângulo θij é uma direção não orientadano intervalo [0 ...180 0 ]. Utiliza-se neste trabalho o termoorientação para denotar uma direção não orientada no intervalo[0 ...180 0 ].A matriz de orientação de bordas, também chamada dematriz direcional, é a matriz A cujos elementos codificama orientação local das bordas da imagem. Cada elementoθij da matriz, correspondente a uma vizinhança local quadradacentralizada em b i,j , denota a orientação da borda daimagem na vizinhança de b i,j .Ocálculo da orientação consideraa soma dos valores dos pixels na vizinhança de b i,jcorrespondente a cada orientação de referência predefinida.Assim, cada orientação de referência possui uma soma correspondente.O valor máximo dessas somas define o ângulode orientação local da borda.Para uma vizinhança de tamanho 3x3, foram definidosquatro orientações de referência, que correspondem aosângulos 0 0 , 45 0 , 90 0 e 135 0 . A figura 1 mostra a vizinhança3X3 de um pixel central b i,j e também as quatro direçõesnas quais podem aparecer bordas. As somas dos valores detodos os pixels de borda b i,j e seus vizinhos em uma determinadadireção são denominadas d 1 , d 2 , d 3 e d 4 representandoos ângulos 0 0 , 45 0 , 90 0 e 135 0 , respectivamente. Essassomas representam cada uma das direções1,2,3e4esão calculadas por:(a)d 1 = b i,j + b i,j−1 + b i,j+1d 2 = b i,j + b i−1,j+1 + b i+1,j−1d 3 = b i,j + b i−1,j + b i+1,jd 4 = b i,j + b i−1,j−1 + b i+1,j+1(b)Figura 2. (a) Vizinhança 5x5 (b) As oitoorientações de borda definidas(a)(b)Figura 1. (a) Vizinhança 3x3 (b) As quatroorientações de bordas definidasA definição de uma vizinhança maior em torno de umpixel de borda permite a adição de um número maior deorientações de referência. No caso de uma vizinhança 5x5,foram definidas oito orientações fixas de referência, cujosângulos são 0 0 , 22.5 0 , 45 0 , 67.5 0 , 90 0 , 112.5 0 , 135 0 e157.5 0 . A figura 2 mostra uma vizinhança 5x5 de um pixelcentral b i,j , juntamente com as oito direções fixas definidas,que são analisadas para definir a orientação local dopixel de borda b i,j .Ocálculo de cada uma das possíveis orientações d i , parai =1...8, é dado pelas oito equações a seguir:d 1 = b i,j + b i,j−2 + b i,j−1 + b i,j+1 + b i,j+2d 2 = b i,j + b i−1,j+2 +(b i−1,j+1 + b i,j+1 )/2+89


Voltar ao sumáriob i+1,j−2 +(b i,j−1 + b i+1,j−1 )/2d 3 = b i,j + b i−2,j+2 + b i−1,j+1 + b i+1,j−1 + b i+2,j−2d 4 = b i,j + b i+2,j−1 +(b i+1,j−1 + b i+1,j )/2+b i−2,j+1 +(b i−1,j + b i−1,j+1 )/2d 5 = b i,j + b i−1,j + b i−2,j + b i+1,j + b i+2,jd 6 = b i,j + b i+2,j+1 +(b i+1,j + b i+1,j+1 )/2+b i−2,j−1 +(b i−1,j−1 + b i−1,j )/2d 7 = b i,j + b i−2,j−2 + b i−1,j−1 + b i+1,j+1 + b i+2,j+2d 8 = b i,j + b i−1,j−2 +(b i−1,j−1 + b i,j−1 )/2+b i+1,j+2 +(b i,j+1 + b i+1,j+1 )/2Para cada pixel de borda b i,j de uma imagem, calcula-seum vetor de dimensão igual ao tamanho da vizinhança utilizadaW , no caso 3 ou 5, que contém os respectivos valorescalculados (d 1 ,...,d 4 )ou(d 1 ,...,d 8 ), para as quatrodireções em uma vizinhança 3x3, ou 8 direções emuma vizinhança 5x5. Assim o valor d l = max{d k }, paral =1...4 ou l =1...8 determina a orientação l de b i,j .Figura 3. Imagem sintética processadaΘ(i, j) =orientacao(max{d k }) (1)Wd k = bij (2)k=13. Resultados computacionaisPara a avaliação do método não derivativo de estimativade bordas em imagens digitais, várias imagens teste foramprocessadas e suas direções de bordas foram produzidas.Dentre as imagens teste, considerou-se várias imagenssintéticas e várias imagens reais encontradas na literatura.Os resultados obtidos foram comparados com o detector deSobel.Cada uma das imagens teste foi submetida ao detectorfuzzy proposto em [3], o qual produz o mapa de bordas daimagem. O mapa de bordas foi processado pela técnica propostae as direções de bordas obtidas foram exibidas sobreo mapa de bordas da imagens. Calculou-se também as bordasda imagem pelo detector derivativo de Sobel. A partirdas derivadas parciais em relação aos eixos x e y obtidas,calculou-se os ângulos da direção do vetor gradiente, e comisso obteve-se as direções de bordas que foram exibidas sobrea imagem borda obtida por Sobel.A figura 3 mostra o exemplo de uma das imagenssintéticas que foram utilizadas para os testes computacionais.A partir dessa imagem, foi aplicada a técnica nãoderivativa utilizando-se vizinhança 3x3 e vizinhança 5x5.A figura 4 mostra as direções de bordas calculadas,usando-se uma vizinhança 3x3, para a imagem da figura 3.Para uma melhor visualização das direções de bordas, a figura5 mostra uma pequena parte aumentada da imagemmostrada na figura 4 .Figura 4. Direção de bordas usando umavizinhança 3x3A figura 6 mostra o resultado computacional da imagemsintética usando-se vizinhança 5x5, neste caso comoito direções de referência. A visualização aumentada aparecena figura 7. Observando essa imagem, nota-se poucadiferença em relação à aplicação de uma vizinhança menor.Isso é esperado, uma vez que a imagem utilizada é muitosimples e as bordas da imagem correspondem basicamenteàs quatro direções tratadas com a vizinhança menor.A figura 8 mostra o resultado obtido ao aplicar o detectorde Sobel para o cálculo das direções de bordas para a imagemteste da figura 3. A imagem ampliada pode ser vista90


Voltar ao sumárioFigura 5. Visualização aumentada dasdireções de bordas usando vizinhança 3x3Figura 7. Visualização com Zoom dasdireções de bordas usando vizinhança 5x5Figura 8. Direções de bordas usando SobelFigura 6. Direção de Borda usando umavizinhança 5x5na figura 9. Deve-se observar que as bordas obtidas por Sobelsão um tanto diferentes das bordas obtidas pelo detectorfuzzy, porém os resultados obtidos, quando se comparaas direções das bordas, mostram que o método não derivativopara estimativa de orientação de bordas está em conformidadecom as direções de bordas obtidas por filtros derivativos.A figura 10 mostra uma das imagens reais encontradas naliteratura que foi usada para os testes computacionais. A figura11 mostra o mapa de bordas calculado pelo detectorfuzzy e a figura 12 mostra a aplicação da técnica propostacom vizinhança 5x5, sob esse mapa de borda. A figura 13mostra o mapa de borda produzido por Sobel e a figura 14a direção das bordas atravésdecálculos do ângulo fase dogradiente e do arco-tangente. Conforme pode ser observadopor essas figuras, os resultados obtidos com imagens reaistambém mostram concordância entre as orientações de bordasproduzidas pela técnica desenvolvida em comparação91


Voltar ao sumárioFigura 9. Visualização com Zoom dasdireções de bordas usando SobelFigura 11. Mapa de borda produzido pelo detectorfuzzycom os resultados produzidos pelos operadores derivativos.Figura 10. Imagem ProcessadaFigura 12. Direções de bordas usando atécnica proposta com vizinhança 5x54. ConclusõesConforme mencionado anteriormente, a informação dedireção de bordas é bastante relevante à diversas tarefas deanálise de imagem.Os testes computacionais mostram que o método não derivativodesenvolvido para estimativa de orientação de bordasé bastante eficaz comparado com estimativas através deoperadores derivativos. O objetivo de oferecer uma abordagemalternativa, não derivativa, para suprir possíveis necessidadesde detectores de bordas que não utilizam operadoresderivativos foi alcançada com sucesso. o algoritmo desen-92


Voltar ao sumárioFigura 13. Mapa de borda produzido por Sobel[1] Y. Becerikli and T. Karan. A new fuzzy approach for edgedetection. In J. Cabestany, A. Prieto, and D. Sandoval, editors,Lecture Notes in Computer Science, volume 3512, pages943–951. Springer-Verlag Berlin Heidelberg, 2005.[2] J. C. Bezdek, J. Keller, R. Krisnapuram, and N. Pal. Fuzzy Modelsand Algoritms for Pattern Recognition and Image Processing.Springer, 2005.[3] I. A. G. Boaventura and A. Gonzaga. A border detection indigital image: An approach by fuzzy number. In IEEE - SeventhInternational Conference on Intelligent Systems Designand Applications, pages 341–346, October 2007.[4] R. Gonzalez. Digital Image Processing. Prentice Hall, 2002.[5] L. Liang and C. Looney. Competitive fuzzy edge detection.Applied Soft Computing, 3:132–137, 2003.[6] D. Maltoni, D. Maio, A. K. Jain, and S. Prabhakar. Handbookof Fingerprint Recognition. Springer, 2003.[7] A. B. Mansoor, A. S. Mian, A. Khan, and S. A. Khan. Fuzzymorphology for edge detection and segmentation. In J. Cabestany,A. Prieto, and D. Sandoval, editors, Lecture Notes inComputer Science, volume 4842, pages 811–822. Springer-Verlag Berlin Heidelberg, 2007.[8] C. Miosso and A. Bauchpiess. Fuzzy inference system appliedto edge detection in digital images. In Proceedings ofthe V Brazilian Conference on Neural Networks, pages 481–486, 2001.[9] J. See, M. Hanmandlu, and S. Vasikarla. Fuzzy-based parameterizedgaussian edge detector using global and local properties.In I. C. Society, editor, Proceedings of the InternationalConference on Technology: Coding and Computing, pages101–106, 2005.Figura 14. Direções de bordas usando Sobelvolvido é bastante simples e computacionalmente eficiente,uma vez que não envolve cálculos complexos e é aplicávelaos detectores de bordas não derivativos.Referências93


Voltar ao sumárioPolinômios Potências de Sigmóide: teoria,algoritmos e aplicações em visão computacionalJoão Fernando MararUniversidade Estadual Paulista “Júlio de Mesquita Filho”Faculdade de Ciências - Departamento de ComputaçãoLaboratório de Sistemas Adaptativos e Computação InteligenteEmail: fermarar@fc.unesp.brRafael Alves Bonfim de QueirozUniversidade de São PauloInstituto de Ciências Matemáticas e de ComputaçãoLaboratório de Computação de Alto DesempenhoEmail: bonfimraf@gmail.comResumo—Este artigo apresenta uma breve visão dos PolinômiosPotências de Sigmóide com aplicações dos seus algoritmosem visão computacional. Em particular, são consideradostrês estudos de casos: localização de contornos, detecção de faceshumanas e reconhecimento de assinatura off-line. Os resultadosobtidos reforçam o potencial dessa ferramenta matemática e computacionalpara a resolução de problemas complexos de formasimples, não dependendo de grandes recursos computacionais.I. INTRODUÇÃONo contexto científico e tecnológico, novos paradigmas têmsido sugeridos de maneira a melhorar, simplificar e atualizaros já existentes. Em destaque, as Redes Neurais Artificiais[6], e as Wavelets [4] têm mostrado a revitalização de grandesdescobertas do passado. Firme no propósito de inovar grandesidéias científicas, este trabalho apresenta os PolinômiosPotências de Sigmóide (PPS) e seus algoritmos desenvolvidospara aplicações em visão computacional.Destaca-se que o desenvolvimento dos algoritmos PPS foiinspirado em três métodos consagrados na literatura e conhecidospor: Canny [3] e Zero Crossing [12] para detecção decontornos em imagens digitais, e Levenberg-Marquardt [14]para minimização de modelos não lineares. No tocante àsaplicações, neste estudo, são considerados os problemas delocalização de contornos [5], detecção de faces humanas [2],[10] e reconhecimento de assinaturas off-line [11].Este artigo está organizado como segue. Na Seção II, ateoria dos PPS é apresentada resumidamente. Os algoritmosPPS para a detecção de contornos e treinamento de arquiteturasneurais são abordados na Seção III. Na Seção IV, as aplicaçõesrealizadas nesta investigação científica são relatadas. As conclusõese futuras direções desta pesquisa sobre os PPS sãodiscutidas na Seção V.II. TEORIA DOS PPSOs PPS foram construídos para problemas de aproximaçãode funções por Marar [9] em seu doutoramento. Dentre assuas aplicações, temos: compressão de imagens, construç ã ode Redes Neurais Wavelet (ou Wavenets) [16] e derivação defunções wavelets polinomiais. Em particular, neste trabalho,o objetivo é investigar a viabilidade dos PPS para detecçãode contornos em imagens digitais e construção de sistemas dedetecção de faces humanas e reconhecimento de assinaturasoff-line. A seguir, tem-se uma breve apresentação da teoriados PPS, para mais detalhes ver referência [9].A. Funções Potências de SigmóideSigmóide corresponde a uma classe de funções, que sãomonotonicamente crescentes, diferenciáveis e limitadas. Emparticular, na construção dos PPS, Marar [9] adotou a funç ã osigmóide cuja a expressão analítica é dada por1Υ(x) = . (1)1+e−x Na literatura, uma das aplicações dessa função sigmóid e éatuar na ativação de neurônios artificiais em redes neuraisMulti-Layer Perceptron [6]. A título de exemplificação, apotência de sigmóide de expoente 2 é Υ 2 1 11(x) =1+e −x 1+e −x =1+2e −x . (2)+ e−2x O conjunto das potências de sigmóide é definido porΦ = {Υ 0 (x), Υ 1 (x), Υ 2 (x),...,Υ n (x),...}, n ∈ Z + ,(3)nos quais Υ 0 (x) =1, Υ 1 (x) = Υ(x) e Υ n (x) tem formageralΥ n (x) =1a 0 + a 1 e −x + a 2 e −2x , (4)+ ···+ a n e−nx em que os coeficientes a 0 ,a 1, a 2, ...,a n podem ser obtidosda linha n-ésima do triângulo de Pascal [9]. Considerandoas definições acima, os PPS são definidos como combinaçõeslineares das funções pertencentes ao conjunto Φ. Na próximasubseção é mostrado que essa combinação linear pode gerarfunções wavelets [4] e radiais [9].B. PPS-Radial, PPS-Wavelets e ABS-PPSCom o processo de derivação da função Υ(x), o PPS-Radial e uma família de PPS-Wavelets são determinados.Inicialmente, tem-se que a derivada primeira de Υ(x) éd[Υ(x)]dx= −Υ 2 (x) + Υ(x) =ϕ 1 (x),o qual ϕ 1 (x) é denominado PPS-Radial, pois satisfaz aspropriedades de funções radiais [9].94


Voltar ao sumárioCalculando as derivadas de ordem maiores de Υ(x), épossível construir uma família de PPS-Wavelets. O primeiroelemento desta família éϕ 2 (x) = 2Υ 3 (x) − 3Υ 2 (x) + Υ(x), (5)no qual ϕ 2 (x) é o resultado da derivada segunda da funçãoΥ(x). Por exemplo, os elementos ϕ 3 (x) e ϕ 4 (x) são representadosanaliticamente porϕ 3 (x) =−6Υ 4 (x) + 12Υ 3 (x) − 7Υ 2 (x) + Υ(x),ϕ 4 (x) = 24Υ 5 (x) − 60Υ 4 (x) + 50Υ 3 (x) − 15Υ 2 (x) + Υ(x).O conjunto dos PPS-Wavelets ϕ i (x) (i ≥ 2) é composto porfunções pertencentes ao L 2 (R), que satisfazem a condição deadmissibilidade das funções wavelet [4], [9]. Além disso, afamília dos PPS-Wavelets é muito útil para a construção dearquiteturas neurais pertencentes ao paradigma denominadode Wavenets [16]. Detalhes dessas redes neurais PPS-Waveletsão apresentados na próxima subseção e suas aplicações sãodescritas na Seção IV.A partir do módulo dos PPS-Wavelet, é formada a classe dosABS-PPS [11]. O primeiro ABS-PPS tem expressão analíticadada porω 1 (x) =|ϕ 2 (x)| = |2Υ 3 (x) − 3Υ 2 (x) + Υ(x)|, (6)e foi investigado no problema de reconhecimento de assinaturaabordado neste trabalho.III. ALGORITMOS PPS DESENVOLVIDOSA. Algoritmo para treinamento de redes neurais PPS-WaveletA arquitetura de uma rede neural PPS-Wavelet está ilustradana Figura 1. É possível notar que essa estrutura neuronal éformada por três camadas: entrada, escondida com p neurôniose saída. Os neurônios ϕ dj,t j(X q ) = ϕ(d j (X q − t j )) s ã oPPS-Wavelet com parâmetros de dilatação (d j ) e translação(t j ), em que j = 1, ···,p. Uma amostra q de entradadesse modelo neural é da forma (X q ,Y q ), sendo que X q =(x q1 ,x q2 , ···,x qm ) e Y q = (y q ). A comunicação entre osneurônios da camada escondida e saída é realizada atravésdos pesos sinápticos (w j ).Considerando a estrutura matemática da rede neural PPS-Wavelet, segue abaixo um algoritmo baseado no métodoLevenberg-Marquardt [14] desenvolvido para ajudar no processode aprendizagem (treinamento) desse modelo neural.Para testá-lo, é considerado o problema de detecção de faceshumanas relatado na subseção IV-B.Passo 1: Definição da camada escondida da arquiteturaneural PPS-Wavelet. Informam-se a quantidade e o modelode neurônio PPS-Wavelet (por exemplo, ϕ 2 (x) definido naequação (5)) para formar a camada escondida, esta quantidadeé denotada por p.Passo 2: Inicialização dos parâmetros adaptativos da rede:dilatação (d j ), translação (t j ) e pesos sinápticos (w j ). Istopode ser feito com valores randômicos entre 0 e 1, ouatravés de algoritmos heurísticos de seleção de neurônios PPSFigura 1.Arquitetura de uma rede neural PPS-Wavelet.construídos por Queiroz e Marar [15]. Esses parâmetros darede são armazenados em um vetor, denotado aqui por a,da seguinte forma a =(w 1 ,d 1 ,t 1 ,w 2 ,d 2 ,t 2 , ···,w j ,d j ,t j ) T ,j =1, ···,p.Passo 3: Fornecimento de Q padrões (X q ,Y q ) para treinamentodo modelo neural. Isto é, X q =(x q1 ,x q2 , ···,x qm )e Y q =(y q ) , nos quais q =1, ···,Q e m é o número deelementos contidos em cada padrão (vetor de características)de treinamento/teste da arquitetura neural.Passo 4: Cálculo das saídas da rede neural PPS-Wavelet.pmo q = w j ϕ dj,t jx qk . (7)j=1k=1Passo 5: Avaliação das respostas da estrutura neural atravésdo cálculo da função custo E(a):E(a) = 1 Q(y q − o q ) 2 . (8)2q=1Se E(a)


Voltar ao sumárioB. Algoritmo Canny baseado em PPS-RadialCom o objetivo de mostrar que o PPS-Radial pode serutilizado para detecção de bordas, é desenvolvido um algoritmopara tal finalidade baseado no método de Canny [3].Originalmente, esse método tem como modelo matemáticoprincipal a função gaussiana bidimensional (2D)g(x, y) = 1 2πσ 2 exp − x2 + y 2 2σ 2(11)e as suas derivadas parciais em relação a x e y. Na equação(11), σ é o desvio padrão da amostra.Antes de apresentar os passos do método Canny combinadocom PPS-Radial 2D, segue a definição desse PPS 2DΨ 1 (x, y) =−Υ 2 (x 2 + y 2 ) + Υ(x 2 + y 2 ). (12)Passo 1: Leitura da imagem I(x, y) para processamento;Passo 2: Criação de um kernel (conhecido também comomáscara, ver referência [5]) R com Ψ 1 (x, y);Passo 3: Suavização dos ruídos através do cálculo daconvolução de R com I, dando origem a I s ;Passo 4: Criação de duas máscaras R x e R y para adiferenciação da imagem suavizada, respectivamente, nasdireções x (linha) e y (coluna):R x = −x Υ 2 (x 2 + y 2 ) + Υ(x 2 + y 2 ) ,R y = −y Υ 2 (x 2 + y 2 ) + Υ(x 2 + y 2 ) .Passo 5: Convolução da imagem I s com R x ao longo daslinhas, gerando a imagem I x e, analogamente, ao longo dascolunas para gerar I y ;Passo 6: Para finalizar o processo da detecção de contornos,a magnitude Mag(x, y) de cada pixel é calculada por(I x (x, y)) 2 +(I y (x, y)) 2 .Mag(x, y) =Na próxima seção é apresentado um algoritmo inspirado nométodo Zero Crossing de Marr e Hildreth [12]. Tal métodojá busca incorporar no modelo computacional conhecimentossobre o comportamento da visão humana (ver detalhes nareferência [12]).C. Algoritmo Zero Crossing com PPS-WaveletNesta subseção, um algoritmo para detecção de bordas emimagens digitais baseado no método Zero Crossing (ZC) [5],[12] com PPS-Wavelet é apresentado. O método clássico ZCé baseado na convolução da imagem com o laplaciano de umafunção gaussiana 2D da formah(x, y) =exp− x2 + y 2 2σ 2 . (13)O laplaciano resultante de h(x, y) é r∇ 2 2 − σ 2h(x, y) =σ 4exp− r22σ 2 , (14)o qual r 2 = x 2 + y 2 .Com a motivação de simplificar o modelo matemático dessemétodo ZC, é proposto utilizar PPS-Wavelets 2D em vez deutilizar o laplaciano (14). O primeiro PPS-Wavelet 2D éΨ 2 (x, y) = 2Υ 3 (x 2 +y 2 )−3Υ 2 (x 2 +y 2 )+Υ(x 2 +y 2 ). (15)Os passos do algoritmo ZC com PPS-Wavelet 2D são:Passo 1: Leitura da imagem a ser processada I(x, y);Passo 2: Criação de um kernel S com Ψ 2 (x, y);Passo 3: Aplicação da máscara S a imagem I(x, y), obtémseos pixels das bordas para os quais existe um cruzamentode zero.IV. APLICAÇÕES DOS ALGORITMOS PPSA. Localização de contornos em imagensA localização precisa de contornos é muito importante paraque ocorra, em muitas vezes, o sucesso da fase de segmentaçãode objetos da cena em sistemas de visão computacional.Isto justifica o interesse de investigar os métodos Cannye ZC adaptados com PPS (ver algoritmos nas subseçõesIII-B e III-C) para detecção de contornos, que em imagensmonocromáticas estão localizados em regiões de mudançasbruscas nos níveis de cinza (descontinuidades). Resultadospreliminares obtidos deste estudo são apresentados atravé sde comparações qualitativas com os métodos Canny e ZCclássicos em dois estudos de casos.A Figura 2 ilustra as duas imagens adotadas nos estudosde casos. Considerando esses dois testes, os resultados obtidospelos métodos Canny clássico e Canny com PPS-Radial2D (ver equação (12)) estão ilustrados nas Figuras 3 e 5.As diferenças entre os resultados obtidos por tais métodospodem ser melhores visualizadas nas Figuras 4 e 6, ondealgumas regiões com detalhes diferentes foram identificadasmanualmente. Nota-se que o método Canny com PPS-Waveletconseguiu localizar contornos com boa resolução que nãoforam encontrados pelo método Canny original.Os resultados da aplicação dos métodos ZC clássico ecom PPS-Wavelet 2D (ver equação (15)) estão presentes nasFiguras 7 e 9. Alguns detalhes que diferenciam os resultadosobtidos com esses métodos são destacados nas Figuras 8 e10. Percebe-se que o método ZC com PPS-Wavelet apresentoumuitos contornos. Nos dois estudos de casos aqui realizados,o método Canny (clássico e com PPS-Radial 2D) teve melhordesempenho que o método ZC, pois encontrou contornosesperados que fossem localizados, principalmente, no estudode caso 2 (Figura 2-b). Além disso, os contornos localizadospor tal método são bem definidos.(a) Estudo de Caso 1. (b) Estudo de Caso 2.Figura 2.Imagens consideradas para a localização de bordas.96


Voltar ao sumário(a) Clássico.(b) PPS-Radial Ψ 1 (x, y).(a) Clássico.(b) PPS-Wavelet Ψ 2 (x, y).Figura 3. Resultados obtidos pelo método Canny no estudo de caso 1.Figura 7. Resultados do método ZC no estudo de caso 1.(a) Clássico.(b) PPS-Radial Ψ 1 (x, y).(a) Clássico.(b) PPS-Wavelet Ψ 2 (x, y).Figura 4.Regiões mais distintas nos resultados do método Canny.Figura 8.Diferenças entre os resultados do método ZC.(a) Clássico.(b) PPS-Radial Ψ 1 (x, y).(a) Clássico.(b) PPS-Wavelet Ψ 2 (x, y).Figura 5. Resultados do método Canny no estudo de caso 2.Figura 9. Resultados do método ZC no estudo de caso 2.(a) Clássico.(b) PPS-Radial Ψ 1 (x, y).(a) Clássico.(b) PPS-Wavelet Ψ 2 (x, y).Figura 6.Detalhes dos resultados do método Canny.Figura 10.Resultados do método ZC.97


Voltar ao sumárioB. Detecção de faces humanasA detecção e a extração automática de faces humanas emuma cena (por exemplo, uma imagem capturada por umacâmera digital) são tarefas de grande importância para aconstrução de robustos e eficientes sistemas de reconhecimentofacial. Este processo de segmentação de região de interessede uma imagem, que neste caso é a face humana, se justificapelo fato de reduzir a quantidade de informação para posteriorclassificação/reconhecimento.Muitas vezes, durante segmentação de faces, ocorrem errose outras regiões da imagem são extraídas (por exemplo, verFigura 11). Dentro deste contexto, nesta subseção, o objet i v o émostrar a potencialidade de arquiteturas neurais PPS-Waveletpara atuarem como sensores de faces. O papel do modeloneural PPS-Wavelet aclopado com a técnica PCA (PrincipalComponents Analysis) [10] é atuar na verificação (sensor) sea região extraída contém faces, fornecendo como resultadosos valores 0 e 1, respectivamente, para regiões recortadas comausência e presença de face.Figura 11.(a) Face.(b) Não face.Amostras de regiões segmentadas de uma imagem.Para dar suporte a avaliação das arquiteturas neurais PPS-Wavelet, é utilizado o sistema computacional de detecção eextração automática de faces humanas [10] desenvolvido noLaboratório Sistemas Adaptativos e Computação Inteligente(SACI) - Faculdade de Ciências - UNESP - Campus Bauru.Essa ferramenta computacional detecta as faces na imagemutilizando a técnica de encontrar triângulos isósceles [7], umavez que as regiões dos olhos e da boca formam tal figurageométrica quando ligados por linhas.Durante a investigação das redes neurais PPS-Wavelet, é utilizadoo algoritmo de aprendizagem apresentado na subseçãoIII-A. As amostras de treinamento e teste desse modeloneural são obtidas utilizando a transformada PCA, pois essatécnica permite a redução de dimensionalidade das amostras.Por exemplo, neste estudo, a imagem com uma face é umpadrão (vetor de características) com 3600 elementos, quecontém muitas informações redundantes, com a aplicação datransformada ocorre redução para 10 elementos.Para construção da matriz de transformação PCA, umconjunto de imagens contendo 100 faces humanas (ver basede imagens em [13]), sendo 50 de mulheres e 50 de homens,foi utilizado. Para detalhes do procedimento adotadona construção desta matriz, ver a referência [10]. A Figura 12ilustra a imagem dos auto-vetores escolhidos para a montagemda matriz de transformação PCA.Figura 12.Auto-vetores escolhidos para a construção da matriz PCA.Tendo em vista utilizar arquiteturas neurais PPS-Waveletsob condições difíceis de treinamento, uma amostra comapenas 4 padrões (2 faces e 2 não faces) e 200 iteraçõesdo algoritmo apresentado na subseção III-A são adotados noprocesso de aprendizagem.Neste estudo, foram investigados 5 modelos neurais PPS-Wavelet com 10 e 1 neurônios nas camadas de entrada esaída, respectivamente. Na camada escondida foram utilizados10, 20, 30, 40 e 50 neurônios. Os resultados obtidos notreinamento (valor da função custo definida na equação (8),que é denotada por MSE) e teste da rede neural PPS-Waveletatuando como um sensor podem ser visualizados na Tabela I.Esses resultados demonstram que o algoritmo PPS de treinamentoauxiliou na aprendizagem das arquiteturas neurais aquiinvestigadas, pois esses simples modelos neurais conseguiram(sem falso reconhecimento) identificar faces pertencentes a umconjunto de 50 amostras (25 com faces e 25 na ausência defaces) de regiões extraídas pelo sistema automático [10] comdesempenho igual ou superior a 70%.Tabela IRESULTADOS OBTIDOS COM AS REDES NEURAIS PPS-WAVELET.Número de neurônios MSE Teste (faces detectadas)10 2.8e-032 75%20 2.3e-032 85%30 2.0e-032 75%40 3.6e-032 85%50 1.6e-032 70%É importante informar ao leitor, que Marar et al. [10] investigaramarquiteturas de rede neural Multi-Layer Perceptron [6](10 neurônios na camada de entrada, duas camadas escondidascom respectivamente 3 e 2 neurônios, 1 neurônio na camadade saída) com a mesma finalidade de atuar com sensor defaces. Com essa rede neural, uma taxa de 88% de detecçãodas amostras com faces foi obtida na fase de teste. Porém,essa arquitetura neuronal considerada é muito mais complexado que a investigada neste trabalho, ou seja, demanda demais recurso computacional durante as fases de treinamento eteste. Por exemplo, Marar et al. [10] considerou 100 imagenscom faces e 40 imagens sem faces como amostras para otreinamento da rede neural.C. Reconhecimento de assinaturas off-lineNesta seção, um estudo de caso realizado envolvendo oproblema de classificação de assinaturas é descrito. Essaaplicação visa determinar automaticamente a classe a que98


Voltar ao sumáriopertence uma assinatura (padrão de entrada do sistema). Comoo reconhecimento facial, esse problema está diretamente associadona investigação de modelos para o entendimento davisão humana através de mecanismos artificiais.O principal objetivo aqui é apresentar os resultados obtidospela rede neural linear PPS (ver detalhes deste paradigmaneural e algoritmos nas referências [9] e [11]) na classificaçãode assinaturas.O PPS-Wavelet e o ABS-PPS definidos, respectivamente,nas equações (5) e ( 6) são utilizados na ativação dos neurôniosartificiais. A extração de características dos dados para reconhecimentoé realizada com a técnica de momentos centrais[11]. Enquanto, a compressão dos dados é calculada com atransformada Karhunen-Loève (denotada por KLT) [1].Os padrões, um conjunto de imagens digitais de assinaturasnormalizadas, utilizados neste estudo foram cedidospelo grupo de Inteligência Computacional do Departamentode Ciência da Computação da Universidade Federal de Pernambuco(UFPE). No processo de treinamento, 5 classes deassinatura off-line com 10 amostras cada e arquiteturas neuraiscom 50 neurônios na camada escondida foram adotadas. Paraa fase de teste, 10 assinaturas diferentes dos padrões utilizadospara o treinamento foram selecionadas. Todas as assinaturas(treinamento e teste) são normalizadas através de 70000 pontosem 256 tons de cinza, em uma matriz de 100 linhas e 700colunas. Figura 13 ilustra um exemplo de padrão existentena base de dados adotada neste trabalho. As redes neuraisFigura 13.Exemplo de assinatura off-line.foram submetidas a três processos de treinamento distintos,com vetores de características advindos da transformada KLT[1], da técnica de momento [11] e das duas ferramentasmatemáticas momento-KLT (junção) [11]. Durante os testes,a rede linear PPS-Wavelet teve um sucesso de 20% no reconhecimentodas assinaturas independente do treinamento. Emcontrapartida, a rede linear ABS-PPS obteve 14%, 48% e 46% de sucesso, quando, respectivamente, treinadas com vetoresde características KLT (apenas), momento (apenas) e KLTmomento(junção das duas técnicas). A partir dos resultados,é possível concluir que não é conveniente utilizar apenas atécnica KLT para obtenção dos vetores de características deassinaturas. Os resultados fornecidos pelas redes neurais linearesABS-PPS são interessantes diante da grande complexidadeenvolvendo a classificação de assinaturas, porque esse modeloneural não demanda de grande esforço computacional para suaexecução (depende da solução de um único sistema linear).V. CONCLUSÕESEste artigo apresenta uma breve visão dos PPS e aplicaçõesdos seus algoritmos na localização de contornos, detecçã o d efaces e reconhecimento de assinaturas off-line. Os resultadosobtidos pelos algoritmos PPS justificam a viabilidade desua utilização no contexto de problemas da área de visãocomputacional. A grande vantagem dos PPS consiste emsua simplicidade matemática, dessa forma seus algoritmosnão dependem de grandes recursos computacionais para funcionarem.Os autores planejam como trabalhos futuros: (i)aprofundar na resolução de todos o problemas aqui abordados,utilizando outras bases de imagens e traçando comparaçõescom diferentes paradigmas neurais; (ii) construir arquiteturasneurais PPS-Wavelet com mais de um neurônio na camadade saída visando o reconhecimento facial; (iii) investigar osmétodos Canny e ZC adaptados com PPS em aplicaçõesenvolvendo imagens médicas, além de estudar uma forma defazer uma comparação quantitativa entre os métodos clássicose as novas versões com PPS; (iv) utilizar a própria redeneural PPS-Wavelet para detecção de faces humanas sem anecessidade do algoritmo de segmentação.AGRADECIMENTOSAgradecemos o apoio financeiro parcial concedido peloPIBIC-CNPq (Processo 108250/2005-9) e pela CAPES (Processo3634/06-0), e ao Laboratório Sistemas Adaptativose Computação Inteligente (SACI) pelo uso de suas dependências.REFERÊNCIAS[1] C.S. Chen and K.S. Huo, Karhunen-Loève Method for Data Compressionand Speech Synthesis, IEEE Proceedings-I, v. 138, p. 377-380, 1991.[2] G. Burel and D. Carel, Detection and localization of faces on digitalimages. Pattern Recognition Letters, v. 15, n. 10, p. 963-967, 1994.[3] J.F. Canny, A computational approach to edge detection, IEEE Trans.Pattern. Analysis and Machine Intelligence, p. 679-698, 1986.[4] I. Daubechies, Ten lecture on wavelets, Society for Industrial and AppliedMathematics-SIAM, 1992.[5] R.C. Gonzalez and R.E Woods, Digital image processing, Addison-Wesley Inc., New York., 1992.[6] S. Haykin, Redes Neurais: princípios e práticas, Bookman, 2001.[7] C. Lin and K. Fan, Triangle-based approach to detection of human face,Pattern Recognition Society, Elsevier Science Ltd, 2001.[8] J.F. Marar et al., Function aproximation by polynomial wavelets generatefrom powers of sigmoid, SPIE, USA, v. 2762, p. 365-374.[9] J.F. Marar, Polinômios Potências de Sigmóide: uma nova ferramenta paraaproximação de funções e construção de wavenets e suas aplicações emprocessamento de imagens/sinais. Tese de Doutorado em Ciências daComputação - DI - UFPE - 1997.[10] J.F. Marar et al., Adaptative techniques for the human faces detection,Proceedings of the 6th ICEIS- Internacional Conference on EnterpriseInformation System, 2004.[11] J.F. Marar et al., The Theory of Polynomials Powers of Sigmoids(PPS)and ABS-PPS Neural Networks Applied in Complex Systems-Case ofStudy: Human Signature Recognition Problem, Proceedings of theNanoBio2004- I Worshop em Nanotecnologia e Computação Inspirada,2004.[12] D. Marr and E.C. Hildreth, Theory of edge detection, Proc. Roy. Soc.London., p. 187-217, 1980.[13] PICS. Psychological Image Collection at Stirling, 2006, Disponível em:. Acesso em: 10 de fev. 2006.[14] W. Press et al., Numerical Recipes in C, Cambridge University Press,1992.[15] R.A.B. Queiroz e J.F. Marar, Algoritmos Heurísticos para a Seleção deNeurônios em Redes Neurais Polinômios Potências de Sigmóide (PPS) -Wavelet, TEMA. Tendências em Matemática Aplicada e Computacional,v. 8, n. 14, p. 129-138, 2007.[16] Q. Zhang and A. Benveniste, Wavelet networks, IEEE Transactions onNeural Networks, v. 3, p. 889, 1992.99


Voltar ao sumário Computing Department – Federal University of São Carlos{renato_violin 1 , saito 2 }@dc.ufscar.brsawant 3 @das.inpe.brThis work aims to explore the antenna signal correlationsof BDA radiointerferometer, making use of quantumcomputation. The radiointerferometer correlations havebeen extensively explored and optimized, with respect tothe conventional computational models, so the proposedsolution is to use the quantum computation model to theBDA signals complex correlation. Using the quantumcomputation theory of parallel processing andsuperposition principle, it is possible to realize thecorrelation with significantly small processing cost. Thecentral idea is to use a quantum register to store theinput sine and cosine signals from the antenna pairs, andto realize the correlation processing making use ofquantum circuits that have small processing cost, as canbe seen in Quantum Fourier Transform algorithm. 100


Voltar ao sumário i ψψαβαβ ψα β α| 2 β| 2 101


Voltar ao sumário n n πkji yk= xje ∑ −j = > → ∑ − πkji ye k > =k −∑j = −xj j > → ∑k = yk k > y k x j − −πkji k > → ∑ e j > j = πi jnπi jn−jn( > + e > ) ( > + e > ) jjn> →n j = j 1 2 n1 +j 2 2 n2 + ... + j n 2 0 0.j = j l j l+1 ... j m j = j l /2 1 + j l+1 /4 2 + ... + j m/2 ml+1 ⎡ ⎤Rk= k⎢ i ⎥ π⎣e ⎦ ⎡⎤H = ⎢ ⎥ ⎣−⎦102


Voltar ao sumário α β n 2 , 2 nn2 103


Voltar ao sumário 104


Voltar ao sumário Brazilian Decimetric Array A Digital Spectral Correlator forGMRT Multifrequency Obserations of theOuter Solar Corona with the GauribidanurRadioheliograph ComputaçãoQuântica e Informação Quântica AnIntroduction to Quantum Computing Quantum Computing andCommunications Quantum algorithms and the Fouriertransform. Quantum computer science: Quantum computing: The temple of quantum computation Uma introdução àcomputação quântica ecture otes for hysics 105


Voltar ao sumárioRecuperação de Imagem Utilizando Descritores Baseados em EsqueletosMarcio Alexandre Marar Moreno e Ricardo da Silva TorresInstituto de Computação, Universidade Estadual de Campinas,Av. Albert Einstein, 1251, CEP 13084-851, Campinas, SP, Brasilmarcio.moreno@students.ic.unicamp.br, rtorres@ic.unicamp.brResumoEste artigo apresenta duas técnicas decaracterização de formas baseada em esqueletos.Experimentos conduzidos mostram um aumento daeficácia quando as técnicas propostas são combinadascom descritores de forma tradicionais.1. IntroduçãoAo longo dos últimos anos grandes coleções de imagensvêm sendo geradas devido à diminuição dos custosrelacionados à aquisição e ao armazenamento deimagens. Neste cenário, verifica-se a necessidade de caracterizare indexar esse grande volume de imagens demodo eficiente e eficaz.Um imagem pode ser analisada a partir de propriedadesdos pixels como cor, forma e textura. Neste sentido,diversos descritores de imagens vêm sendo propostos recentemente.Este artigo lida com descritores de forma e propõe asua caracterização a partir do uso de esqueletos. Um esqueletoé formado pelos centros dos círculos deraio máximo que tocam em pelo menos dois pontosdo contorno [2]. Nas técnicas propostas, o processode esqueletização é feito através da IFT (TranformadaImagem-Floresta) [9]. Esta transformada analisauma imagem como um grafo e utiliza um algoritmo queé basicamente a generalização do algoritmo de Dijkstrapara múltiplas sementes.Este artigo propõe duas técnicas para melhorar aeficácia dos atuais descritores de forma. A principalmotivação é aproveitar o poder de caracterização deforma que estas técnicas apresentam com a capacidadede descrição de descritores de formas já existentes. Asprincipais contribuições esperadas são: (i) proposta deduas novas técnicas para representação de formas baseadasem esqueletos; (ii) estudo comparativo da qualidadedos dados obtidos frente utilizando as técnicas aliadasa descritores de forma;O restante deste artigo está organizado da seguinteforma: a Seção 2 apresenta os trabalhos relacionados; aSeção 3 descreve as técnica propostas; a Seção 4 contémos resultados experimentais obtidos e faz a análise dosdados; por fim, a Seção 5 apresenta as conclusões.2. Trabalhos CorrelatosDiversos descritores de forma vêm sendo propostos,como: descritores baseados na transformada discretade Fourier [13], BAS (Beam Angle Statistics) [1],Dimensão Fractal Multiescala [5], Saliências do Segmentoe Saliências do Contorno [4], Editing ShockGraphs [15].Descritores baseados em esqueletos podem ser divididosem dois grupos: no primeiro grupo as propriedadesdo esqueleto são utilizadas para obter informações relevantessobre a forma; no segundo grupo temos descritoresque transformam o esqueleto em um grafo e utilizamalgum algoritmo para fazer o casamento entre grafos.Temos como exemplo do primeiro grupo as Saliênciasdo Contorno que consistem basicamente nos pontos desaliência do contorno, que em geral estão associados apontos de mais alta curvatura. Este descritor combina asregiões de influência e a localização no contorno dessespontos. Um algoritmo de matching apropriado é usadopara fazer a comparação entre duas imagens. Já no segundogrupo temos, por exemplo, um descritor propostopor Klein et al. [11, 15] cujos grafos são comparados apartir do uso de um algoritmo de distância de edição.Existe ainda, um descritor proposto por Ruberto [6] queutiliza um algoritmo de matching de grafos para fazer acomparação.106


Voltar ao sumárioAs novas técnicas propostas por este artigo se encaixamno primeiro grupo. Alguns destes descritores deforma serão utilizados no estudo para mostrar a eficáciadas novas abordagens.2.1. Transformada Imagem Floresta (IFT)Muitos problemas em processamento de imagens podemser interpretados como um problema de particionamentoótimo de uma imagem baseado em pixels sementes.Na IFT [9], a imagem de entrada é processada comoum grafo, onde os nós são pixels da imagem e as arestassão definidas por uma relação de adjacência entre pixels.A partir de um conjunto de pixels sementes (porexemplo, pixels que pertencem ao contorno dos objetos),uma floresta de caminhos de custo mínimo é calculadapara este grafo, produzindo uma anotação da imagem(particionamento). O custo de um caminho neste grafo édeterminado por uma função de custo de caminho adequadapara o problema, que normalmente depende depropriedades locais da imagem ao longo do caminho –tais como cor ou posição de pixel. Uma relação de adjacênciaA(p) é o que define se existe ou não uma arestaentre dois vértices. Neste trabalho utilizou-se a relaçãode adjacência euclidiana.O resultado da IFT é uma imagem anotada que associaa cada pixel três atributos: seu predecessor no caminhoótimo, o custo deste caminho e o pixel raiz correspondente.Essa imagem anotada pode ser separada emtrês imagens: (i) o mapa de custo guarda para cada pixelo valor da distância entre o pixel atual e a sementemais próxima dela; (ii) o mapa de predecessores guardapara cada pixel quem é o seu pai na árvore gerada pelaIFT; (iii) o mapa de raízes guarda para cada pixel quemé a raiz mais próxima dele.2.2. Esqueletização baseada na TransformadaImagem-FlorestaEsta Seção mostra os passos para obtenção do esqueletoa partir da IFT [7].A primeira parte do processo consiste na rotulaçãoda imagem de entrada da IFT. A rotulação consistena atribuição de um número consecutivo para cada pixelpertencente a um contorno. O segundo passo é aexecução da IFT na imagem de entrada utilizando a imagemrotulada definida anteriormente. Após isso é obtidoum mapa de diferença a partir do mapa de predecessoresgerado pela IFT utilizando a rotulação de contorno naimagem. O mapa de predecessores mostra a região de influênciade cada pixel do contorno. O mapa de diferençapode ser obtido a partir das equações definidas em [7, 8].Finalmente o esqueleto é obtido aplicando-se o limiarna imagem de diferença. Variando-se o nível do limiar,obtêm-se esqueletos em diferentes escalas. Na Figura 4temos exemplos dos esqueletos em diferentes escalas jácom a aplicação da reconstrução da forma.3. Técnicas de representação de formasEsta Seção apresenta as duas novas técnicas pararepresentação de formas baseadas em esqueletos.3.1. Descritor de Influência dos Ramos (DIR)Esta técnica se baseia na separação dos ramos do esqueletoe da rotulação destes ramos de acordo com seutamanho. Em seguida, a região de influência destes ramosé obtida, e um outro descritor de imagem é entãoutilizado para caracterizar estas regiões.Um ponto importante desta técnica é que seu algoritmode extração das regiões de influências dos ramostem baixa complexidade, já que é baseado na IFT.Sendo assim, o tempo total de processamento dependebasicamente do descritor utilizado para extração do vetorde características das regiões de influência dos ramose da função de similaridade utilizada para fazer acomparação entre estes vetores de características.3.1.1. Algoritmo de Extração do Vetor de CaracterísticaEsta Seção apresenta o algoritmo paraobtenção do vetor de característas do DIR.Algoritmo Extração DIR:Entrada: uma imagem I, um descritor de forma D,um limiar para obtenção do esqueleto l.Saída: vetor de característica FV DIR .1. Obter o mapa de diferença F da imagem I a partirda IFT;2. Aplicar o limiar l no mapa de diferença F obtendoo esqueleto E;3. Filtrar esqueleto E;4. Rotular o esqueleto E;5. Executar novamente a IFT aplicando como entradao esqueleto rotulado E e obter o mapa de predecessoresA;6. Determinar o centro de massa c do objeto;7. Para toda região i de influência no mapa de predecessoresA f a ç a(a) Obter a área normalizada area i da região deinfluência em relação a área do objeto;2107


Voltar ao sumário(b) Determinar a distância dist i entre o centro demassa da região e o valor de c;(c) Usar o descritor D para extrair o vetor de característicaFV Di que representa a região deinfluência que está sendo analisada.8. Juntar todas as i regiões de influência no vetor decaracterística FV DIRAs seções seguintes descrevem como é feita arotulação dos ramos e como as regiões de influênciadestes ramos são obtidas.3.1.2. Extração do Vetor de Características EstaSeção descreve os passos para obtenção do vetor de característicasdo DIR. A primeira parte consiste narotulação dos ramos, que é atribuir um valor distinto acada ramo. Antes da rotulação propriamente dita, os pixelsdo esqueleto são classificados em: ponto de fim,ponto de curva e ponto de intersecção. O primeiro casoocorre quando o pixel analisado tem apenas um vizinhoque pertence ao esqueleto. Já o ponto de curvaocorre quando este tem dois pixels mais próximos queestão no esqueleto. Por fim, quando há três ou mais vizinhosque pertencem ao esqueleto este é classificadocomo ponto de intersecção. A Figura 1 exemplificaesta classificação.ser removido que não irá interferir na conexidade do esqueleto.(a) Quebra no ramo. (b) Filtro na quebrano ramo.Figura 2. Imagem que mostra uma quebrano ramo.As regiões de influência dos ramos são obtidas a partirda IFT. Neste caso, a entrada da IFT é o esqueletodo contorno rotulado por meio do processo de rotulaçãodos ramos descrito anteriormente. Desta forma, o mapade raízes resultante deste processo retorna a influênciade cada ramo. A Figura 3 ilustra um exemplo de mapade raízes resultante.Figura 3. Imagem com a influência dos ramos.(a) Ponto defim;(b) Ponto decurva;(c) Ponto deintersecção.Figura 1. Esta figura mostra os três tiposde pontos possíveis em um esqueletoA próxima etapa é uma filtragem realizada com o intuitode contornar o problema relacionado com aclassificação errada de pixels do esqueleto. Isso ocorrequando os pixels do esqueleto estão na forma de umacurva, como demonstrado na Figura 2. Nesta situação,verifica-se uma quebra de um ramo em dois ramos menores,fazendo com que a região de influência de umramo seja dividida em duas. Para contornar este problemafoi proposto um filtro que se fundamenta na seguinteidéia. Quando três pixels estão no formato de“L” e estes pixels só formam esta figura com apenasuma combinação, este pixel que está no canto podePor fim, o vetor de características é composto por trêsconjuntos de dados. O primeiro é formado pela área daregião de influência dos ramos do esqueleto normalizadapela área total do objeto. O segundo é a composto peladistância entre os centros de massas das regiões de influênciasde cada ramo e do centro de massa do objeto.O terceiro é obtido aplicando-se um descritor de formaà região de influência de cada ramo. Este vetor de característicasé representado pela Equação 1.FV DIR = {(a 1 ,d 1 ,FV D1 ), ..., (a n ,d n ,FV Dn )} (1)onde n é o número de regiões de influência obtidas doesqueleto, a é a área da região de influência e d é adistância entre os centros de massa.3.1.3. Função de Similaridade Após obter o vetor decaracterísticas do objeto surge a necessidade de comparareste vetor com o de outros objetos. Para isso foi utilizadaa métrica Earth Movers Distance (EMD) [14]. Estamétrica é utilizada para fazer o casamento de regiões3108


Voltar ao sumáriode influência entre diferentes objetos e podendo assimcomparar dois objetos. Esta métrica pode ser entendidade acordo com a seguinte analogia: dadas duasdistribuições, uma pode ser vista como massas de terrasespalhadas em um determinado espaço e a outracoleção como buracos deste mesmo espaço. A EMDmede a menor quantidade de trabalho necessário parapreencher os buracos com a terra. Aqui, a unidade detrabalho corresponde ao transporte de uma unidade deterra por uma unidade de distância dada, por exemploa distância euclidiana. A entrada da EMD é constituídapor dois conjuntos que serão comparados. Cadaconjunto possui um vetor de característica e um pesoassociado. Com isso, para obter a função de similaridadedo DIR aplica-se a EMD aos dois vetores decaracterísticas utilizando-se como peso para cada vetoro valor da área da região de influência normalizadae a distância L1 como distância equivalente ao transportede terra. A implementação da EMD foi baseadano código disponível em http://ai.stanford.edu/ ∼ rubner/emd/default.htm.3.2. Reconstruções de Forma Baseado em EsqueletoMultiescala (RFBEM)Esta técnica baseia-se na reconstrução de formasa partir dos esqueletos obtidos em diferentesescalas. Dessa forma, detalhes pouco significativosda imagem desaparecem gradualmente, o queviabiliza a comparação de formas em diferentes escalas.3.2.1. Extração do Vetor de Características Areconstrução consiste em desenhos sucessivos decírculos de raio R, tendo o ponto central situado no esqueleto.O raio R é obtido a partir do mapa de custo resultanteda IFT. A Figura 4 mostra um exemplo dereconstruções de formas de vários esqueletos. Cada esqueletofoi obtido variando-se o limiar aplicado a imagemde diferença.O vetor de características é mostrado na Equação 2.Este é composto pelo vetor de característica FV D decada forma reconstruída aplicada a um descritor deforma D.FV RF BEM = {(FV D1 ), ..., (FV Dn )} (2)onde n é o número de reconstruções com diferentes esqueletosutilizada.Algoritmo Extração RFBEM:Entrada: uma imagem I, um descritor de forma D, limiarespara reconstruções L.(a) (b) (c)Figura 4. Exemplo de reconstrução deforma em diferentes escalas.Saída: vetor de característica V .1. Obter o mapa de diferença F da imagem I utilizandoa IFT;2. Para cada limiar l em L f a ç a(a) Aplicar o limiar l no mapa de diferença F obtendoo esqueleto E;(b) Reconstruir a forma R a partir do esqueletoE;(c) Aplicar o descritor D na forma reconstruídaR para obter o vetor de característica.3.2.2. Função de Similaridade Esta Seção descreveos passos para determinar a similaridade entre os vetoresde características. O cálculo de distância entre duasimagens é obtido da seguinte forma: (i) as imagens reconstruídassão agrupadas de acordo com seus limiaresde obtenção do esqueleto, (ii) aplica-se um descritorde forma para comparar as imagens de um mesmogrupo, ou seja, de mesmo limiar; (iii) diferentes pesossão atribuídos para cada limiar; (iv) a distância final écalculada a partir da soma ponderada destas distâncias.Dessa forma, quanto menor a distância final, mais similaressão as imagens. A Equação 3 formaliza a funçãode distância descrita.δ RF BEM (I a ,I b )=nw i ∗ δ(ǫ(I ai ),ǫ(I bi )) (3)i=1onde δ RF BEM (I a ,I b ) representa a distância obtida entreas imagens I a e I b , ǫ(I ai ) representa o vetor de característicasda imagem i reconstruída a partir do esqueletode I a , ǫ(I bi ) representa o vetor de características obtidoda imagem reconstruída a partir do esqueleto de I bna i-ésima escala, w i representa o peso atribuído a cadareconstrução e n é o número de reconstruções.O cálculo total da similaridade de duas imagens apartir do RFBEM requer a definição dos pesos utilizadosna Equação 3 para cada escala do esqueleto. Uma4109


Voltar ao sumáriomaneira de se determinar automaticamente estes pesosconsiste na utilização de Algoritmos Genéticos [12].Algoritmos genéticos se baseiam em conceitos da biologiaevolutiva, como seleção natural, mutação erecombinação. Seleção natural consiste em selecionaros melhores indivíduos da população atual deacordo com uma função de otimização. Já na mutaçãoverificam-se alterações no código de um dado indivíduo.E, finalmente, na recombinação há a quebrado código de dois indivíduos e a recombinaçãode uma parte do código de um indivíduo com aparte do código de outro indivíduo, gerando dois novoscódigos. Seu funcionamento consiste em iniciarcom uma população de indivíduos com códigosaleatórios e a cada iteração uma nova geração é criadautilizando-se os operados discutidos acima (seleção natural,mutação e recombinação). Normalmente este processoé finalizado quando se atinge um número máximode gerações. Neste projeto os indivíduos encontradosa partir do algoritmo genético constituem os pesosutilizados pelo RFBEM para caracterizar diferentes escalas.4.2. Reconstruções de Forma Baseado em EsqueletoMultiescala (RFBEM)Esta Seção mostra os testes feitos no descritor propostoRFBEM. Nos experimentos foram utilizados osseguintes descritores: Fourier, MSFractal e MomentosInvariantes. Para validação do RFBEM foram realizadosdois testes. O primeiro foi feito com pesos, mostrados naTabela 1, que visam dar mais importância aos esqueletoscom maior nível de detalhes. No segundo teste foi utilizadaa técnica de algoritmos genéticos para determinaros pesos. Foram testadas diferentes taxas de mutação,seleção e crossover. Também foram testadas variaçõesnos números de populações e gerações.Limiar Peso5% 0,3010% 0,2515% 0,2020% 0,1525% 0,104. Validação das Técnicas PropostasEsta Seção descreve os métodos e os resultados paraa validação dos descritores propostos. Para termos devalidação foram estudados os seguintes descritores: MomentosInvariantes [10], descritores baseados na transformadadiscreta de Fourier [13] e Dimensão FractalMultiescala [5]. Para a avaliação foi utilizada a base doMPEG-7-Parte-B [3] que é composta de 1400 imagensdividida em 70 classes de 20 imagens cada.4.1. Descritor de Influência dos Ramos (DIR)Nos experimentos com o DIR foram utilizados os seguintesdescritores: Fourier, MSFractal e Momentos Invariantes.Todas as imagens da base foram utilizadascomo imagem de consulta.A Figura 5(a) mostra o ganho obtido no descritorFourier com o uso do DIR. Como pode ser observadoa curva do descritor com o DIR fica acima da curvado descritor normal. Similarmente o mesmo resultadofoi observado nos gráficos dos outros descritores. A Figura5(b) mostra o resultado para o descritor MomentosInvariantes. Por fim, a Figura 5(c) mostra a melhorada eficácia do descritor Dimensão Fractal Multiescalaquando a técnica DIR foi utilizada.Tabela 1. Tabela com os pesos referentesaos limiares dos esqueletos utilizados nocálculo da distância do RFBEM.A Figura 5(d) mostra o ganho obtido no descritorFourier com o uso do RFBEM. Pode ser observado quea curva do descritor com o RFBEM fica acima da curvado descritor normal, tanto no caso de usar os pesos daTabela 1 quanto utilizando os obtidos com a técnica dealgoritmos genéticos. Similarmente o mesmo resultadofoi observado nos gráficos dos outros descritores. A Figura5(e) apresenta o resultado para o descritor MomentosInvariantes que obteve uma melhora significativa utilizandoos pesos proveniente da técnica de algoritmosgenéticos. Por fim, a Figura 5(f) indica a melhora do descritorDimensão Fractal Multiescala quando o RFBEMfoi utilizado.5. ConclusõesEste trabalho apresentou duas técnicas pararepresentação de forma a partir de esqueletos. Uma analisaas regiões de influência dos ramos do esqueleto ea outra tenta caracterizar a forma de objetos reconstruídosa partir de esqueletos em diferentes escalas.Experimentos comprovaram que as duas técnicas po-5110


Voltar ao sumário(a) BID-Fourier; (b) BID-Momentos Invariantes; (c) BID-MSFractal;(d) RFBEM-Fourier; (e) RFBEM-Momentos Invariantes; (f) RFBEM-MSFractal.Figura 5. Curvas de Precision × Recall para validação das técnicas propostas.dem ser muito úteis na área de reconhecimento depadrões e busca de imagens por conteúdo.Este trabalho contou com apoio financeiro da FA-PESP, CNPq, CAPES e Microsoft Research.Referências[1] N. Arica and F. Vural. Bas: a perceptual shape descriptorbased on the beam angle statistics. Pattern RecognitionLetters, 24(9-10):1627–1639, 2003.[2] H. Blum. A transformation for extracting new descriptorsof shape. in: W. wathen-dunn, ed., models for theperception of speech and visual form. MIT Press, 1967.Cambridge, MA.[3] M. Bober. Mpeg-7 visual shape descriptors. IEEE Transactionson Circuits and Systems for Video Technology,11(6):716–719, 2001.[4] R. da S. Torres and A. X. Falcão. Contour SalienceDescriptors for Effective Image Retrieval and Analysis.Image and Vision Computing, 25(1):3–13, January 2007.[5] R. da S. Torres, A. Falcão, and L. da F. Costa. A graphbasedapproach for multiscale shape analysis. PatternRecognition, 37(6):1163–1174, 2004.[6] C. di Ruberto. Recognition of shapes by attributed skeletalgraphs. Pattern Recognition, 37(1):21–31, Jan. 2004.[7] A. Falcão, L. da F. Costa, and B. S. da Cunha. Multiscaleskeletons by image foresting transform and its applicationsto neuromorphometry. Pattern Recognition,35(7):1571–1582, July 2002.[8] A. Falcão, L. da F. Costa, and B. S. da Cunha. Erratumto multiscale skeletons by image foresting transformand its applications to neuromorphometry: [pattern recognition35(7) (2002) 1571-1582]. Pattern Recognition,36(2):3013, December 2003.[9] A. Falcão, J. Stolfi, and R. Lotufo. The image forestingtransform: theory, algorithms, and applications. IEEETPAMI, 26(1):19–29, 2004.[10] M. Hu. Visual pattern recognition by moment invariants.IRE Trans. Information Theory, 8:179–187, 1962.[11] P. N. Klein, S. Tirthapura, D. Sharvit, and B. B. Kimia.A tree-edit-distance algorithm for comparing simple, closedshapes. In Symposium on Discrete Algorithms, pages696–704, 2000.[12] M. Mitchell. Introduction to Genetic Algorithms. MITPress, 1996. Cambrige, MA, USA.[13] D. Rafiei and A. O. Mendelzon. Efficient retrieval of similarshapes. The VLDB Journal, 11(1):17–27, 2002.[14] Y. Rubner, C. Tomasi, and L. J. Guibas. A metric for distributionswith applications to image databases. In Proceedingsof the 1998 IEEE International Conference onComputer Vision, pages 59–66, 1998.[15] T. Sebastian, P. Klein, and B. Kimia. Recognition of shapesby editing shock graphs. IEEE TPAMI, 26(5):550–571, May 2004.6111


Voltar ao sumárioUm algoritmo de classificação de imagens baseado em cor, utilizandoTransformada Wavelet, MGD e similaridade entre matizes.Will R. S. Machado1,2 , Antonio H.F. Louro2, Adilson Gonzaga21 PUC Minas – Pontifícia Universidade Católica de Minas Gerais – Campus Poços deCaldas, CEP 7701-355 - Poços de Caldas – MG – Brasil2 USP – Universidade de São Paulo - Depto. de Engenharia Elétrica (EESC), CEP13566-90 – São Carlos, SP, Brasilwill@pucpcaldas.br, louro@uesc.br, agonzaga@sc.usp.brResumoEste artigo descreve uma técnica baseada emmedição de distâncias entre variáveis aleatórias deuma distribuição Gaussiana multivariada e, também,numa restrição de similaridade empregando matizesextraídos da conversão do modelo RGB para o HSV.Esta técnica, aqui, é usada para melhorar odesempenho da comparação de imagens coloridas emCBIR onde cada imagem da base está sendorepresentada por um conjunto de pontos extraídoscom a Transformada Wavelet.1. IntroduçãoUma área com grande atividade de pesquisaem visão computacional, tanto no meio acadêmicoquanto no meio comercial, é a segmentação deimagens para aplicações em CBIR (Recuperação deImagens por Conteúdo em Base de dados de imagens)a partir de imagens coloridas. Os desenvolvimentosabrangem propostas de novos algoritmos, bem como amelhoria do desempenho daqueles atualmente em uso,minimizando o tempo de processamento requerido.O objetivo dos métodos CBIR é arecuperação de imagens presentes numa base dedados, utilizando características como a variação derugosidade e textura, a distribuição de cor, a cordominante ou as formas e os movimentos dos objetos[1]. Contudo, a eficiência do algoritmo dependediretamente da escolha da característica maisadequada e da determinação do mecanismo maiseficiente para explorar tal característica.A metodologia descrita neste artigo foidesenvolvida com base no problema de recuperaçãode imagens coloridas de objetos rotados em torno deseu próprio eixo. Uma das maiores dificuldadesintroduzidas pela rotação, no processo dereconhecimento, é a perda de algumas característicasexistentes na imagem original, tais como a forma e acor. Na figura 1 é possível constatar este problema.Neste trabalho, deseja-se aumentar a eficiência deaplicações CBIR com imagens coloridas, combinandocaracterísticas de cor das imagens de objetos, obtidasa partir de diferentes posições. As cores são descritaspor meio de probabilidade MGD (DistribuiçãoGaussiana Multivariada) e na imposição de restriçõesentre matizes.Figura 1: Original frontal views of the COIL databaseimages.2. Trabalhos RelacionadosOs estudos descritos neste artigo foraminspirados no trabalho de Verges e Sanfeliu [2], ondeforam usadas sete medidas de distâncias, o IRM(Integrated Region Matching) e dois algoritmos desegmentação para avaliar distâncias entresegmentações de imagens coloridas. Para descrever ascores de regiões das imagens foi utilizada a MGD.Neste trabalho foram utilizados doisprocedimentos diferentes em relação aos estudos em[2]. O primeiro é o uso de uma medição de distânciasentre as médias e entre matrizes de covariância, quesão parâmetros pertencentes às variáveis aleatórias,extraídas de uma pequena quantidade de pontos decada imagem da base de dados. O segundo é umarestrição baseada na informação extraída do modeloHSV (Hue, Saturation and Value), cuja finalidade épermitir que apenas uma parte das imagens, queapresentem menor distância entre si, seja recuperada.Esta restrição é uma inovação que aperfeiçoa astécnicas de classificação de imagens baseadaspuramente em medidas de distâncias. Além dessesprocedimentos, também, realizaram-se estudos paraavaliar qual a quantidade adequada de amostras porimagem, quais os valores dos parâmetros utilizadospara extrair informações sobre variância de cor nasimagens e qual das três medidas de distânciasutilizadas, a Euclidiana, a Mahalanobis ou a Fréchet,apresentam melhor resultado no processo declassificação das imagens. Essas três medidasapresentaram os melhores resultado dentre as setedescritas em [2]. A Transformada Wavelet foi usada112


Voltar ao sumáriopara obter as amostras sobre as quais as variáveisaleatórias foram criadas.3. Distribuição Gaussiana MultivariadaA distribuição Gaussiana Multivariada(MVD) é uma componente chave em muitassimulações, visto que permite fazer correlações entreos diferentes fatores aleatórios a serem capturados.Por exemplo, uma MVD pode ser usada para modelara correlação entre os vários índices de mercado (ex.:Bovespa e Nasdaq) ou modelar o consumo de sorveteem relação à temperatura média do dia.A função de distribuição gaussianamultivariada é uma função estatística definida sobre oespaço de probabilidades baseado em variáveisaleatórias. O espaço de cores RGB pode ser descritoaproximadamente por um modelo paramétricoutilizado para decisões estatísticas.Supondo, genericamente, a existência de kclasses, cada uma com d características. Sendo assim,o modelo Gaussiano Multivariado para a classe Cipoderá ser descrito pela variável aleatória X i ~ N d (µ i ,∑ i ), onde μi é vetor médio e ∑ i a matriz decovariância.Esta abordagem possibilita representar umconjunto de pontos pertencentes a uma ou maisregiões de uma imagem colorida como uma variávelaleatória, distribuída de acordo com a equação 1.1 ⎛ 1−1t ⎞xP )|( =Θ exp⎜x x −∑−−)()(d2 / 12⎟/π ∑ ||)2(⎝μ μ⎠ Eq.1onde, x ∈ R d é um ponto da imagem, Θ = (µ, ∑) é amédia e a matriz de covariância de P,respectivamente, e d a dimensão espacial do espaço decaracterísticas.O algoritmo desenvolvido neste trabalhoassume que cada imagem do banco de imagens serádescrita por uma variável aleatória. Portanto, paradeterminar a similaridade entre as imagens do banco,deve-se utilizar uma medida que possibilite o cálculode distância entre as variáveis aleatórias querepresentam as imagens do banco. Para avaliar adistância entre as imagens foram utilizadas asdistâncias que permitiram a obtenção dos melhoresresultados no trabalho desenvolvido em [2](Euclidiana Mahalanobis e Fréchet).4. A Transformada WaveletNa literatura, existe muita informaçãodisponível sobre a teoria da Transformada Wavelets[3,8], cuja origem pode ser detectada em diferentesáreas do conhecimento, como em filtros digitais,matemática e análise harmônica.Em processamento de sinais e imagens, asprincipais características como bordas, freqüênciaslocalizadas e transientes são caracterizadas erepresentadas por informação localizada, tanto nodomínio do tempo quanto no domínio da freqüência,ou no domínio da escala. Para obter essas informaçõesúteis, o sinal é decomposto em ondas básicasselecionadas a partir de um dicionário de átomostempo-freqüência (espaço-freqüência) ou átomostempo-escala (espaço-escala) cujas propriedades sãoadaptadas às estruturas locais [9].A Transformada Wavelet decompõe um sinalatravés de operações de convolução entre o sinal euma função especial com suporte compacto,denominada função wavelet. Existem várias funçõeswavelets e outras podem ser criadas à gosto dousuário, desde que obedeçam a algumas restriçõesmatemáticas.Para desmembrar o sinal em diferentes faixasde escalas a transformada realiza a convolução dosinal com versões dilatadas da função wavelet. Aversão mais compacta da função wavelet é chamadade wavelet-mãe. A convolução do sinal com awavelet-mãe extrairá os menores detalhes do sinal, osde maior freqüência. Essa capacidade de variar otamanho do núcleo de convolução (wavelet-mãe) éque distingue esta transformação de outras como aTransformada de Gabor ou Short Time FourierTransform, cujo núcleo de convolução é de tamanhofixo. Na Transformada Wavelet, o sinal é varridototalmente com cada uma das versões dilatadas dawavelet-mãe, permitindo a cada varredura, que osdetalhes de tamanho correspondente ao da funçãosejam extraídos.A Transformada Wavelet Contínuadesmembra o sinal em escalas infinitamente próximas,tornando a representação totalmente redundante. Umaopção para a implementação digital da TransformadaWavelet é a de Stephane Mallat [4], que usa a idéia detransformada diádica implementada na forma defiltros digitais, dispostos de forma piramidal. A idéiadiádica significa que as amostragens de escala sóocorrem em intervalos de uma oitava. Os pontos deamostragem da escala são selecionados obedecendo auma progressão geométrica onde a razão é 2. Isto é,teremos representações da imagem onde no primeironível de varredura serão extraídas as estruturas de“tamanho” x, na segunda varredura as estruturas de“tamanho” 2x, na terceira varredura as estruturas de“tamanho” 4x e assim sucessivamente até onde sedesejar filtrar, ou até a difusão dos níveis de cinzaestacionar.Em termos de filtros digitais, a convolução deuma imagem com a wavelet-mãe resultará em quatrosaídas diferentes. A imagem A1, resultante dafiltragem passa-baixas, é chamada de aproximação econtém as informações de freqüência mais baixa, ouseja, a estrutura geral da imagem. As imagens detalheH1, V1 e D1, resultam de filtragens passa alta nasdireções horizontal, vertical e diagonalrespectivamente e contém os detalhes de menor escala(de freqüências mais altas) e também do ruído de altafreqüência.Uma simplificação da definição de “módulomáximo local” (modulus maximum) de uma113


Voltar ao sumárioTransformada Wavelet é: para que um ponto sejaconsiderado máximo local ele deverá ter o valor maisalto numa vizinhança 4x4. Em [10] afirma-se que omodulus maximum mede a derivada local da versãosuavizada da imagem (A1 ou A2, A3...) e é capaz dedetectar qualquer singularidade local. Utilizamos essesmáximos como as amostras, que formam as variáveisaleatórias utilizadas neste trabalho.5. O AlgoritmoO objetivo deste algoritmo é realizar buscasem bases de dados de imagens utilizando apenascaracterísticas de cor, comparando imagens eidentificando objetos em função do conteúdo de cordos mesmos, incluindo uma robustez em relação aoângulo de tomada da imagem do objeto. Podemosdistinguir quatro fases envolvidas no algoritmoproposto: a) Montagem das informações do banco dedados de imagens; b) Extração das informações dasimagens teste; c) Comparação das informações dasimagens teste com as informações contidas no banco ed) Validação da comparação usando a restrição desimilaridade.5.1 Montagem das Informações do bancode dados de imagens.Cada instância do banco de dados representaum determinado objeto 1 j. As informações de cadaobjeto j são extraídas de um conjunto de m imagens,onde cada uma apresenta o objeto visto em um ângulodiferente (objeto rotado em torno de seu eixo vertical).Estas informações referem-se, somente, àscaracterísticas de cor. Representamos cada imagempor I i, j onde i = 1... m.Para reduzir a quantidade de informaçõesredundantes no banco de dados de imagens, decidiu-seextrair as informações de cor de uma pequenaquantidade de amostras de cada imagem I i, j . A fim deque o procedimento de obtenção dessas amostras fosserealizado de uma forma padronizada e, também, paraaumentar a chance das comparações serem efetuadasentre amostras de regiões similares, decidiu-se aplicara Transformada Wavelet sobre cada imagem I i, j econsiderar como amostras os k pontos de maiorintensidade do resultado da transformada. Assim, paracada objeto j teremos um total de m.k amostras.Espera-se que a concatenação de informações de cor,a partir de diferentes ângulos de observação, possaaumentar a robustez de classificação em relação àrotação do objeto.As m.k amostras de cada objeto j serãousadas para montar cada variável aleatória X j , que seráa representação de cada objeto no banco de dados, oproduto final para ser usado nas comparações. Cada1 A partir deste ponto no texto, a palavra objeto será consideradacomo sinônimo de: conjunto de imagens de um mesmo objetotomadas de diferentes ângulos de observação.amostra da variável aleatória é um pixel RGB. Assim,haverá uma média para cada um desses três canais decor (μ R, μ G, μ B ) e a matriz de covariância será formadapela covariância entre os canais R,G e B.5.2 Extração das informações das imagenstesteAs imagens teste são aquelas que terão suasinformações comparadas com as informaçõesarmazenadas no banco de dados de imagens. Estas,também, serão representadas por variáveis aleatórias,as quais são construídas de forma idêntica àquelas querepresentam os objetos no banco de dados, diferindo,apenas, no que se refere à concatenação de amostrasde várias imagens.5.3 Comparação das informações dasimagens teste com as informaçõescontidas no banco.Nesta fase as variáveis aleatórias de cadaimagem teste são comparadas com as variáveisaleatórias de cada objeto do banco de dados deimagem. As comparações são feitas através de cálculode distâncias entre as referidas variáveis aleatórias.5.4 Validação da comparação usando arestrição de similaridadePara que o resultado da comparação entre asvariáveis aleatórias sirva para classificar uma imagemteste como a imagem de algum objeto representado nobanco de dados de imagem, precisa-se verificar arelação entre os matizes da imagem teste e do objeto.Durante a construção da base de dados armazenou-se,também o histograma de matiz de cada objeto (os nmatizes de maior ocorrência). Para verificar oresultado da comparação, após a conversão RGB-HSV, monta-se o histograma de matiz (H) da imagemteste, obtendo-se os n matizes de maior ocorrência. Seo módulo do resultado da subtração dos matizes (doobjeto e da imagem teste) possuir valor na faixa 0...1,a imagem teste será classificada como pertencente àclasse do objeto em questão. Caso contrário oprocesso se repetirá, testando as outras diferenças atéque as condições sejam totalmente satisfeitas.A faixa de valores 0...1 foi estipulada devidoao simples fato das m imagens de um objetoapresentarem valores nessa faixa, quando efetuada adiferença entre os seus matizes de maior ocorrência.6 Experimentos e Resultados.Os experimentos realizados neste trabalhoforam baseados nas imagens da base Columbia ObjectImage Library (COIL), que contém 100 objetosrotados em 72 ângulos diferentes, totalizando 7.202imagens. A partir do COIL foram escolhidas imagens114


Voltar ao sumáriode 51 objetos em 18 ângulos diferentes (total de 918imagens). Dentre estas 18 imagens por objeto, 3 forameleitas para a extração das amostras e construir avariável aleatória que representa o objeto (total de 3.kamostras). A figura 2 ilustra os 51 objetos escolhidos.Figura-2. Vista frontal dos objetos usadosA figura-1 mostra as 18 imagens escolhidasde um dos objetos apresentados na figura-2. A partirdessas duas figuras, percebemos como as cores variamao girarmos os objetos. Excetuando-se casos como asimagens do tomate, os objetos podem apresentarcaracterísticas de cor totalmente diferentes quandoobservados em outros ângulos.A escolha de m=3 se deu após averiguar osíndices de classificações bem sucedidas dascomparações entre as imagens teste com informaçõesde objetos construídas a partir de m=1, 3, 6, 9. Astaxas de acerto respectivas para cada m foram 90%,95.4%, 89.1% e 60%. Visto que m=3 forneceu osmelhores resultados, todos os experimentos seguintesforam baseados nesse valor.O segundo experimento foi conduzido com oobjetivo de demonstrar a similaridade entre os matizesdas imagens de um mesmo objeto observado emdiferentes ângulos. Em relação à fase de validação daclassificação com a comparação dos n matizes maisfreqüentes (item 4.4), foram feitas simulações quedemonstraram o melhor desempenho ao seremutilizados os n=5 matizes de maior ocorrência nohistograma H (H do HSV). Comparando as imagensteste de um mesmo objeto com o objeto foi obtidauma taxa de acerto de 98% considerando-se avalidação com n=5.Para avaliar a eficácia do uso da restrição desimilaridade, comparamos os resultados declassificações efetuadas com uso da restrição contra osresultados de classificações sem o uso desta.Utilizando-se 459 imagens teste, obteve-se uma taxade acertos de 95,4% na classificação com a restrição e87,8% para a classificação sem restrição. A tabela-1mostra em que condições essa taxa de 95,4% foiobtida. O melhor desempenho do algoritmo éconseguido quando são associados a extração deamostras baseadas nos máximos da imagemaproximação da Transformada Wavelet (A1), com aclassificação baseada em distância de Mahalanobis e arestrição de similaridade. A decomposição A1 serefere à saída do filtro passa-baixas utilizado pelaTransformada Wavelet. As decomposições H1, V1 eD1 são as saídas do filtro passa-altas nas direçõeshorizontal, vertical e diagonal da imagemrespectivamente. A função wavelet utilizada comonúcleo da transformada foi a daubechie (db1).O melhor desempenho utilizando adecomposição A1 já era esperado, pois a imagemsuavizada por um filtro passa-baixas elimina os ruídosde alta freqüência, que certamente interferem de formanegativa na classificação. Se uma amostra coincidircom um ruído de alta freqüência ela terá poucaprobabilidade de ser classificada corretamente.Tabela-1. Resultados da classificação de acordo coma faixa de decomposição wavelets utilizada naamostragemDecomposições WaveletsDistânciasA1 H1 V1 D1Euclidiana 83,2% 76,9% 79,3% 77,3%Mahalanobis 95,4% 91,9% 94,1% 93,5%Fréchet 83,9% 85,6% 87,1% 87,8%A figura-3 ilustra o experimento realizadopara verificar a influência da quantidade de amostrasutilizadas no cálculo da matriz de covariância e damédia. Percebe-se que a quantidade de amostras não éum fator crítico para o desempenho do algoritmo,porém uma quantidade incapaz de representaradequadamente uma imagem pode afetarnegativamente o desempenho.Correct matching (%)100908070605040302010090 180 270 360 450Amount of samplesEuclidianMahalanobisFréchetFigura-3. Taxa de classificação correta por tipo dedistância e por quantidade de amostras.7 ConclusõesOs resultados obtidos neste trabalhodemonstraram que a restrição de similaridade, apartir de informações do histograma de matizes,contribui significantemente para aumentar a taxa declassificação correta do algoritmo.Considerando-se a quantidade de amostrasusadas na construção das variáveis aleatórias, nemsempre o aumento dessa quantidade aumentará odesempenho do algoritmo, desde que umaquantidade mínima adequada para a representaçãoda imagem seja extraída.Em contraste com o estudo feito em [2], asmedições com a distância de Mahalanobisapresentam os melhores resultados para aclassificação.115


Voltar ao sumário8 Referências[1] Yap, P., Paramesran, R., 2006. Content-basedimage retrieval using Legendre chromaticitydistribution moments. IEEE Proceedings, Vis.Image Signal Processing, pp. 17-24.[2] Verges, J., Sanfeliu, A., 2005. Evaluation ofDistances Between Color Image Segmentations.In: J.S. Marques et al. (Eds.): IbPRIA, LNCS3523, pp. 263–270.[3] Chui, C. K., 1992. An Introduction to Wavelets,Academic Press, San Diego, ISBN 0121745848.[4] Mallat, S. A., 1989. Theory for multiresolutionsignal decomposition: the wavelet representation.IEEE Pattern Anal. and Machine Intell., vol. 11,no. 7, pp. 674-693.[5] Starck, J. L., Murtagh, F. D., Bijaoui, A., 1998.Image Processing and Data Analysis: TheMultiscale Approach. Cambridge UniversityPress, ISBN 0521599148.[6] Gonzalez, R., Woods, R. E., 2002. Digital ImageProcessing, 2 nd edition, Prentice Hall Press, ISBN0-201-18075-8.[7] Kim, K., C., Byun, H., R., Song, Y., J., Choi, Y.,Chi, W., S., Y., Kim, K. K., Chung, Y., K., 2004.Scene Text Extraction in Natural Scene Imagesusing Hierarchical Feature Combining andVerification. Proceedings of the 17th Int.Conference on Pattern Recognition (ICPR’04).[8] Strang, G., Nguyen, T., 1996. Wavelets and filterbanks, Wellesley-Cambridge Press.[9] S.G. Mallat and Z. Zhang. Matching PursuitsWith Time-Frequency Dictionaries, IEEE Trans.On Signal Processing, Vol.41, No.12, Dec.93.[10] S. Mallat and W. L. Hwang “SingularityDetection and Processing with Wavelets,” IEEETransactions on Information Theory,Vol. 38, pp.617-643,1992.116


Voltar ao sumárioprincipal axis of the hyper-ellipsoid that defines thedistribution. Figure 3, obtained in [8], shows a 2-Dexample. The principal components are now the dataprojections in the two main axis, φ1and φ2. Besides, thevariances of the components, given by the eigenvaluesλ , are distinct in most applications, with a considerableinumber of them so small, that they can be excluded. Theselected principal components define the vector y . Theobjective is to find the new basis vectors, by optimizingcertain mathematical criteria.Figure 1: Recurrent Neural Network with onerecurrent hidden layer. Right: LSTM with memory blocks inthe hidden layer (only one is shown) [6, pp.11].Figura 3: Graphical illustration of the Karhunen-LoèveTransform for the 2-D Gaussian case.Figure 2: LSTM memory block with one memory cell[6, pp.12].LSTM networks have been used in many applications,such as speech recognition, function approximation,music composition, among other applications. For adetailed explanation of the LSTM network forward andbackward pass see reference [6] and the work ofHochreiter & Schmidhuber [7].3. Principal Component AnalysisPrincipal Component Analysis is the technique thatimplements the Karhunen-Loève Transform, or HottelingTransform, a classical unsupervised second order methodthat uses the eigenvalues and eigenvectors of thecovariance matrix to transform the feature space, creatingorthogonal uncorrelated features. It is a second ordermethod because all the necessary information is availabledirectly from the covariance matrix of the mixture dataand no information regarding probability distributions isneeded.In the multivariate Gaussian case, the transformedfeature space corresponds to the space generated by theMathematically, we can express the rotation of thecoordinate system defined by the Karhunen-LoèveT TTransform by an orthonormal matrix Z = ⎡ ⎣ T , S ⎤ ⎦ ,Twith dimensions N× N, with T = [ w 1, w 2,...,w M ]N×Mrepresenting the new system’s axis andT S = ⎡ ⎣ wM+ 1, wM+ 2,..., wN,⎤ ⎦ denoting the axisN× ( N−M)of the eliminated components during the dimensionalityreduction. The orthonormality conditions imply that for j kfor j = k .w ⋅ w = 0jk≠ , e w ⋅ w = 1jNow, it is possible to write the n-dimensional vectorx in the new basis as:nnTx = x w w = cw (1)where∑( )j j j jj= 1 j=1k∑cjis the inner product between x ew j.Then, the new m-dimensional vector y is obtainedby the following transformation:NT T T Ty = xT = cw w , w ,..., w=∑j=1[ c , c ,..., c ]1 2[ ]j j 1 2 MM(2)Thus, PCA seeks a linear transformation T that118


Voltar ao sumáriomaximizes the variance of the projected data, or inmathematical terms, optimizes the following criterion,where C is the covariance matrix of the observations:XPCA J1( wj)E⎡ y ⎤ = = E⎡ ⎣y y⎤ ⎦ = E⎡ ⎣c⎤⎣ ⎦ ∑ ⎦2 TM2jj=1However, it is known thattherefore: J ( w ) = E ⎣w xx w ⎤⎦MPCA T T1 j ∑ ⎡j jj=1 = =cjTx wjMMT T TwjE ⎡⎣xx ⎤⎦wj ∑wjCXwjj= 1 j=1∑(3)= , andsubject to w = 1, defining a optimization problem.jThe solution to this problem can be achieved usingLagrange multipliers. In this case, we have:MMPCA T TJ w , γ = wC w − γ ww −1(5)1( j j) ∑ j X j ∑ j( j j )j= 1 j=1Differentiating the above expression onw j(4)andsetting the result to zero, leads to the following result [9]: = λ(6)C wwX j j jTherefore, we have an eigenvector problem, whichmeans that the vectors of the new basis thatw maximize the variance of the transformed data are theeigenvectors of the covariance matrix C .Another characteristic of PCA is that it minimizesthe mean square error (MSE) during the dimensionalityreduction. In this sense, PCA tries to obtain a set of Mbasis vectors (M < N), that span a M-dimensionalsubspace in which the mean square error between thisnew representation and the original one is minimum.The projection of x in the subspace spanned by thew vectors, j = 1,..., M , is given by equation (2) andjthus the MSE criterion can be defined as:MTJ ( w ⎡) = E⎢x −∑( x w ) w⎢⎣PCAMSE j j jj=1Considering that the data is centralized (the meanvector is null) and due to the orthonormal basis, equation(7) is further simplified to:jX2⎤⎥⎥⎦(7)MPCA 2 ⎡T( ) ( ) 2 ⎤JMSE wj E⎡x ⎤ = − E x wj=⎣ ⎦ ⎢∑⎥⎣ j=1 ⎦ E x − E w xx w =M2⎡ ⎤T T⎡ ⎤⎣ ⎦ ∑ ⎣ j j⎦j=1M 2 T⎤−⎦ ∑ j X jj=1E⎡x wC w⎣As the first term does not depend onminimize the MSE, we have to maximize(8)w j, in order toMT∑ wC j Xw j.j=1From equation (5) in the previous section, thisoptimization problem is solved by using LagrangeMultipliers. Thus, inserting equation (7) in (8), leads to:MPCA 2JMSE ( wj ) E⎡= x ⎤−γ⎣ ⎦ ∑ j(9)j=1This result shows that in order to minimize the MSE,we must choose the M eigenvectors associated to the Mlargest eigenvalues of the covariance matrix.Finally, the PCA criteria are very effective in terms ofdata compression, and often used for data classification.4. MethodologyWe trained LSTM and MLP networks to perform thefollowing tasks involving face classification: face or nonfaceclassification, face authentication and genderclassification.To test and evaluate the performance of the networksfor these tasks, we used images from the MIT-CBCL(Center for Biological and Computational Learning) facerecognition database #1, available at [10]. The CBCLFACE DATABASE #1 consists of a training set of 2429face images and a test set of 472 face images with spatialdimensions of 19 x 19 pixels. Each 19 x 19 image wastransformed to a 1-D signal of 361 elements. We call thisrepresentation the face descriptor. Figure 4 shows sometemplate faces of the training set. Figure 5 shows facedescriptors corresponding to 4 images in the template set.Each one of them represents a 361-D input vector x .Figure 4: MIT-CBCL DATABASE #1 example faces119


Voltar ao sumárioa)b)Figure 5: Examples of face descriptors for templatepatterns: a) Template 3; b) Template 4The experiments were executed using MATLAB. Weapplied PCA to reduce the dimensionality of the inputpatterns (361-D), so we can avoid problems caused byhigh dimensional data. We trained the LSTM and MLPneural network using 5, 10 and 20 principal componentsin order to compare training time, the mean square errorobtained by the networks in the training phase and theperformance in the application phase.The number of units in each layer of the networkdepends on the number of principal components obtainedwhen applying PCA.The experiments were executed in a computer havingthe following specifications: Intel Core Duo processor,1.66 GHz, 667 MHz FSB, 2MB L2 cache, 1 GB DDR2.Figure 6: LSTM network architecture [5].The MLP network model used in the experiments isillustrated in Figure 7. It has one input layer, one hiddenlayer and one output layer. It was trained with thestandard back-propagation algorithm.4.1. LSTM and MLP architectureThe LSTM network model used in the experiments isillustrated in Figure 6 (only a limited subset ofconnections is shown). We observed that the networkperforms better if there are direct connections from inputneurons to output ones (connections without weights);and if the memory cells are self-connect and their outputsalso feed memory cells in the same memory block andother memory cells in different memory blocks. We usedthe weight initialization proposed by Correa, Levada andSaito [11]. In this work the behavior of the hidden units ina LSTM network in the application of functionapproximation is described in details. Based on this studythey propose a method to initialize part of the networkweights in order to improve and stabilize the trainingprocess.Figure 7: LSTM network architecture [4].4.2. Experiments and ResultsFor face or non-face classification, we selected 100faces (50 images representing face templates and 50images representing non-face templates) from the trainingset. The networks are trained to output 1 if it receives aface and 0 otherwise. We stopped the LSTM networktraining when the MSE was smaller than 10 -2 . Then, wetrained the MLP network with the same quantity ofepochs needed for LSTM network. Cleary, the MLPnetwork got a much larger MSE and spent more time inthe training phase (see Tables 1 and 2). Later, we choseanother 100 images (50 from each class, face and non-120


Voltar ao sumárioface) from the test set. As MLP network could not learnproperly, it obtained higher uncorrected classificationrates. The obtained results are shown in Tables 1 and 2,where CC stands for correct classification, IC incorrectclassification and CCR correct classification rate.Table 1: Face and non-face: LSTM training andclassificationface xLSTMnon-faceEpochs MSE Time (s) CC IC CCR5 PCA 180 0.006 352 170 30 85%10 PCA 330 0.007 1959 156 44 78%20 PCA 400 0.007 4768 142 58 71%Table 2: Face and non-face: MLP training andclassificationface xnon-faceMLPEpochs MSE Time (s) CC IC CCR5 PCA 180 49.87 848 100 100 50%10 PCA 330 49.9 2787 100 100 50%20 PCA 400 50.01 6534 100 100 50%For gender classification we selected 32 images (16men faces and 16 women faces) in the training phase. Thenetworks are trained to output 1 if it receives a man faceand 0 otherwise. Again, we trained both networks withthe same number of epochs to compare their performance.In the application phase, it is presented to the networks 32different faces of the same individuals (with differentpositions, expressions or illumination) to be classified.The obtained results for LSTM are illustrated in Table 3.Although MLP network obtained a correctclassification rate of 50%, we noted that in allexperiments all faces were classified as belonging to thesame class. That is, it classified all faces as man or allfaces as woman, depending on the situation, as can beobserved in Table 4.Table 3: Gender: LSTM training and classificationgenderLSTMEpochs MSE Time (s) CC IC CCR5 PCA 600 0.006 185 32 0 100%10 PCA 600 0.005 635 32 0 100%20 PCA 250 0.007 946 30 2 93.75%Table 4: Gender: MLP training and classificationgenderMLPEpochs MSE Time (s) CC IC CCR5 PCA 600 7.76 508 16 16 50%10 PCA 600 7.74 873 16 16 50%20 PCA 250 8 718 16 16 50%For the authentication problem, we selected 50 faces ofdifferent individuals to represent the classes to beclassified by LSTM and MLP networks. Later, we choseanother 50 faces of the same persons (with differentpositions, expressions or illumination) from the test set.We verified that LSTM can learn properly the classeseven with one sample of each class and a reduced featureset, as presented by Table 5.Table 5: Authentication: LSTM and MLPclassification10 principal comp. 20 principal comp.CC IC CCR CC IC CCRLSTM 48 2 96% 44 6 88%MLP 5 45 10% 2 48 4%5. ConclusionsIn this work, we proposed to use a LSTM network andcompare its performance with a standard MLP networkfor face classification problems. We compared theclassification performance of these different networkarchitectures.The LSTM network presented better performance interms of training time, mean square error and correctclassification rates in all the three proposed faceclassification tasks, showing that it is a powerful tool inpattern recognition applications, even if we are dealingwith a reduced training set.6. AcknowledgementsWe would like to thank FAPESP for the financialsupport through Alexandre L. M. Levada studentschoolarship (process nº 06/01711-4) and also CNPq forthe financial support through Denis H. P. Salvadeo andCAPES for Débora C. Corrêa student scholarships.7. References[1] A. K. Jain and S. Z. Li, Handbook of FaceRecognition: Springer-Verlag New York, Inc., 2005.[2] K. Fukushima, "A Neural Network for Visual PatternRecognition", Computer, vol. 21, n. 3 pp. 65-75, 1980.121


Voltar ao sumário[3] C. O. Santana, J. H. Saito, "Reconhecimento Facialutilizando a Rede Neural Neocognitron", In: Proceedingsof the III Workshop de Visão Computacional, 2007 (inportuguese).[4] Haykin, S., Neural Networks: A comprehensiveFoundation, Prentice Hall; 2nd edition (July 6, 1998).[5] A. L. M. Levada, D. C. Correa, D. H. P. Salvadeo, J.H. Saito, N. D. A. Mascarenhas. “Novel Approaches forFace Recognition: Template-Matching using DynamicTime Warping and LSTM Neural Network SupervisedClassification”. In: Proceedings on the 15th InternationalConference on Systems, Signals and Image Processing.Bratislava : House STU, 2008. p. 241-244.[6] F. Gers: Long Short-Term Memory in RecurrentNeural Networks. PhD thesis (2001)Memory. Neural Computation, 9(8):1735-1780, 1997.[8] K. Fukunaga, An Introduction to Statistical PatternRecognition, Second ed., Academic Press, 1990.[9] T. Y. Young, T. W. Calvert, Classification,Estimation, and Pattern Recognition, Elsevier, 1974.[10] CBCL Face Database #1, MIT Center forBiological and Computation Learning.[11] D. C. Corrêa, A. L. M. Levada, J. H. Saito.“Stabilizing and Improving the Learning Speed of 2-Layered LSTM Network”. In: Proceedings on the 2008IEEE 11th International Conference on ComputationalScience and Engineering. IEEE Computer Society, p.293-300, 2008.[7] S. Hochreiter, J. Schmidhuber, Long Short-Term122


Voltar ao sumárioApresentaçãoPoster123


Voltar ao sumárioA New Method to Fusion IKONOS and QuickBird Satellites ImageryJuliana G. Denipote, Maria Stela V. PaivaEscola de Engenharia de São Carlos – EESC. Universidade de São Paulo – USP{judeni, mstela}@sel.eesc.usp.brAbstractThe modern remote sensing imaging sensors, likethose in the IKONOS and QuickBird satellites, arecapable of generating panchromatic images with aboutone meter spatial resolution. The principal objective offusion in remote sensing is to obtain images that cancombine the spectral characteristic of the lowresolutionmultispectral images with the spatialinformation of the high-resolution panchromaticimages. Traditional fusion methods, such as IHS, PCAand Brovey, can reach good spatial resolution results,but often cause spectral distortion problems. In theliterature, it is possible to find some image fusionmethods using frequency domain processing, likewavelet or Fourier transform. Although they preservegood spectral information, their spatial visual effectsare not satisfactory or limits to three the number ofspectral bands used in the fusion process. In thispaper, a method based on Fourier transform isproposed in order to obtain good spatial and spectralresolutions, without limiting the number of bands.Quantitative measurements were applied to evaluatethe quality of four fusion methods (IHS, IHS enhancedby Fourier transform, wavelet-based and the proposedone) in IKONOS and QuickBird images. The resultshave shown that the proposed method can keep almostthe same spatial resolution as the panchromaticimages, and its spectral effect is well preserved.1. IntroductionRemote sensing images allow analyzing difficultaccess locations without the need of being present inthe studied area. They also allow having a globalvisualization of the considered area when compared tofield observation, covering a huge collection ofinformation by a single image [1]. In addition, satelliteimaging sensors can detect frequencies invisible tohuman eye and represent extra information to beanalyzed, for example the near infrared range of thespectrum.Nowadays, satellite sensors are capable toproducing high spatial resolution panchromatic (PAN)images with less than one meter, like those fromIKONOS and Quickbird satellites. Simultaneously,they produce good multispectral (MS) images. Spectralinformation from MS bands is useful to differentiateland cover classes like vegetation, bare soil, water,roads, streets and buildings. This is possible becauseeach object that can be identified in an image has aparticular spectral reflectance response. On the otherhand, the spatial information from PAN is necessaryfor an accurate description of image details, such asshape, contours and features [2]. Image fusion is usedto combine both PAN and MS bands to obtain highresolutionmultispectral images.The commonly used methods, as IHS (Intensity,Hue, Saturation), PCA (Principal ComponentAnalyses) and Brovey transform can keep almost thesame spatial resolution as PAN, but they distort thespectral characteristics of the original MS images [3].Image fusion methods using frequency domainprocessing, like those based on wavelet transform(WT) ([4], [5], [6] and [7]), preserve good spectralinformation, but their spatial visual effects are notsatisfactory.IHS fusion methods enhanced by Fourier transformhave been very suitable in preserving both spectral andspatial information ([2], [8], [9] and [10]), but they arelimited to red (R), green (G) and blue (B) bands,excluding the near-infrared (NIR) band. Davis andWang [11] investigated the importance of NIR band tofeature extraction and classification of fused images.They achieved better results using NIR band ratherthan without it.In this paper, the problems and limitations ofavailable fusion methods are analyzed, and a newfusion method based on Fourier transform (FT) isproposed to minimize the spectral distortion, keep high124


Voltar ao sumáriospatial resolution and employ R, G, B and NIR MSbands.In order to evaluate the result of the new imagefusion method, we used IKONOS and QuickBirdsatellite images, and some quantitative measurementsto compare it with IHS, IHS enhanced by Fouriertransform (IHS+FT) and WT-based methods. A visualanalysis was also performed. Qualitative andquantitative evaluations have shown that the proposedmethod outperforms the existing ones.2. Image DataIKONOS satellite was launched by GeoEye in 1999.It is the first commercial satellite with one meter spatialresolution in the world [12]. PAN has one meter spatialresolution and MS bands have four meters. TheQuickBird satellite was launched by DigitalGlobe in2001 [13]. PAN has 0.60 meter and MS has 0.24. Theimages used in the present study are from Guaxupé-MG, Brazil.3. IHS Fusion MethodThe most common fusion method in the literatureuses the IHS color model. The main steps of the IHSfusion are:1. Convert R, G and B bands to I, H and Scomponents.2. Replace I component with PAN.3. Convert the new composition (PAN H S) backto RGB.However, for IKONOS and QuickBird imagery, it isnecessary to perform some pre-processing, as the MSpixel size is four times the PAN. Then, one pixel in MSmust be resampled to four pixels.The major limitation of IHS fusion is that it can beapplied only to three bands at a time [3], [7], as it isnecessary to convert R, G and B bands in I, H and Scomponents. The second limitation is the modificationof original spectral information due to the change insaturation during fusion process [6], producing colordistortion.4. Wavelet-based Fusion MethodWavelet theory can be used to extract detailinformation from one image and inject it into another[3]. In a remote sensing image, the details, like objects’edges, are a result of a high contrast between features,for example a light rooftop beside a dark ground. Highcontrast in spatial domain is high frequencies in thefrequency domain, which are richer in PAN than inMS. On the other hand, spectral information (color)appears as low frequencies in the frequency domain,which are richer in MS than in PAN.According to Gonzalez et. al. [14] and Amolins et.al. [3], in practice, wavelet transform is based on highand low pass filters. First, wavelet transform is appliedon columns and then on rows of a given image by usinga bank of filters. Each pass through the bank of filtersdecomposes the input image into four coefficients withless resolution: approximation coefficient, verticaldetail coefficient, horizontal detail and diagonal detail.The wavelet-based fusion method obtains the detailinformation from PAN and injects it into MS.Substitution and addition are the most commonways to join PAN and MS information. Thesubstitutive wavelet method is similar to the standardIHS scheme. It involves completely replacing thedetails of the MS with those of the PAN. The additivewavelet method consists in adding the detailcoefficients from PAN to those of the MS bands.To recompose the image, the filters are recombinedto apply inverse wavelet transform on approximationand detail components.PANPAN’+R’R’’R’’ approx.PAN’ detailsR FWavelet TransformSubstitute or add PANdetails to R detailsInverse Wavelet TransformFigure 1 – wavelet-based fusion scheme.As in IHS fusion, wavelet-based fusion also requiresresampling the MS bands to agree with PAN pixel size.The main steps of the wavelet-based fusion method forband R are illustrated in figure 1 and are as follows:1. Apply WT to both R resampled band (R’) andPAN band.2. Substitute or add the detail component from thewavelet transformed PAN’ to those of thewavelet transformed R’’. If multipledecompositions are applied, substitute or addthe detail components at each resolution level.3. Perform the inverse transform on the R’’approximation and PAN’ details components.The same computation must be applied to G, B andNIR bands.125


Voltar ao sumárioSome authors ([2], [3], [4], [5] and [7]) comparedwavelet-based fusion to traditional fusion methods, likeIHS, Brovey and PCA. They concluded that thewavelet-based fusion keeps important spatial andspectral characteristics and produces better visualresults, particularly in terms of minimizing colordistortion. It can also be applied to all bands in the MSimage simultaneously.Nevertheless, Amolins et. al. [3], Garzelli [15], Liet. al. [2] and Zhang [16] discussed the limitations ofwavelet-based fusion. The major negative aspect is theintroduction of artificial artifacts into the fused image,because PAN high frequencies are not smoothly addedto low frequencies. Furthermore, these methods onlyuse vertical, horizontal and diagonal details, which donot reflect the real high resolution information. Alsothey involve greater computational complexity.wavelet-based methods. Ling’s methods have thedrawback of using only R, G and B MS bands,excluding the NIR band, and consequently losingimportant information [11].FTPANPAN.ftHPFHP_PAN.ftFTLPFFT -1 FT -1R’ G’ B’I H SI.ftLP_I.ft5. IHS Fusion Method Enhanced by FTHP_PANLP_ISome authors have enhanced IHS fusion by theapplication of FT [2], [8]. FT, when applied to imagefusion, adopts the same idea of WT, i.e., high contrastin spatial domain appears as high frequencies infrequency domain and the spectral information fromMS images appears as low frequencies in frequencydomain. Ling et. al. [8] proposed a FT-based fusionmethod that is illustrated by figure 2 and has the mainfollowing steps:1. Convert R’, G’ and B’ resampled bands to I, Hand S components.2. Perform FT on both PAN and I component toobtain PAN.ft and I.ft, respectively.3. Apply high pass filter to PAN.ft to obtainHP_PAN.ft.4. Apply low pass filter to I.ft to obtain LP_I.ft.5. Perform the inverse FT on filtered images toobtain HP_PAN and LP_I.6. Add HP_PAN to LP_I to obtain I’.7. Convert the new I’HS image with IHS to RGBtransform.Both high and low pass filters in steps 3 and 4 mustbe complementary to guarantee that no information willbe lost.Ling et. al. [8] have tested many filters withdifferent cutoff frequencies in steps 3 and 4: ideal,Gaussian, Butterworth and Hanning filters. The idealfilter presents artificial artifacts due to the abruptinjection of high frequencies into low frequencies.Gaussian, Butterworth and Hanning filters presentbetter results as they soften the signal. The best resultwas achieved using Hanning filter with a circle radiusof 32 pixels. They conclude that their method issatisfactory when compared with IHS, PCA and+I’ H SR F G F B FFigure 2 - Schematic diagram for IHS fusion methodenhanced by FT6. FT-based Proposed Fusion MethodA fixed cutoff frequency expressed in pixels (like 32pixels) does not perform well to all images becauseeach image has a different size. It is more appropriateto use cycles per meters. The ideal cutoff frequencymust be measured accordingly to the spatial resolution,which depends on the image sampling interval.We compute the cutoff frequency based on Nyquistsampling criterion [2]. As known from that criterion,the sampling interval is in an inverse proportion to thesampling frequency and the maximum frequency of animage is in an inverse proportion to its spatialresolution:1Max _ freq = eq. 12 ∆xwhere ∆xis the pixel size in meters.According to Li et. al. [2], the cutoff frequency isequal to the maximum frequency of MS which is 1/4 ofmaximum frequency of PAN for both IKONOS andQuickBird.IKONOS PAN has one meter spatial resolution and,according to equation 1, the maximum PAN frequency126


Voltar ao sumáriois 0.5 cycles per meter. So the cutoff frequency for anIKONOS image is 0.125 cycles per meters.QuickBird PAN has 0.60 meter resolution and themaximum frequency is 0.8333, according to equation1. The cutoff frequency is 0.2083 cycles per meters.Some filters are tested to smoothly join spectral andspatial information, and again Hanning presented thebest results. For IKONOS imagery, the Hanning lowpass filter was applied in MS bands with the adaptivecutoff frequency of 0.125 cycles per meters (seeequation 2). The high pass filter was applied in PAN(equation 3). Note that the high and low pass filter mustbe complementary to not lose or overlap anyinformation. 5.0 + 5.0 cos( πD(u,vH l ( v)= 0.0/) 125) 0 ≤ D(u,v)≤otherwise.0 125eq. 2.0/) 125) .0 125 < D(u,v)≤ Mf 5.0 − 5.0 cos( πD(u,vH h ( v)= 0otherwiseeq. 3where u is the analyzed pixel line, v is the analyzedcolumn, D(u,v) is the analyzed frequency and Mf is themaximum frequency like in equation 1.Equations 4 and 5 are, respectively, Hanning lowpass and Hanning high pass filters for QuickBird. 5.0 + 5.0 cos( πD(u,vH l ( v)= 0 5.0 − 5.0 cos( πD(u,vH h ( v)= 0.0/) 2083) 0 ≤ D(u,v)≤otherwise.0.0 2083eq. 4.0/) 2083) .0 2083 < D(u,v)≤ Mfotherwiseeq. 5The steps to fusion R and PAN bands are illustratedin figure 3 and are as follows:1. Perform FT on both resampled R and PAN toobtain R’.ft and PAN.ft, respectively.2. Apply a high pass filter to PAN.ft to obtainHP_PAN.ft.3. Apply a low pass filter to R’.ft to obtainLP_R.ft.4. Add HP_PAN.ft to LP_R.ft to obtain R’’.ft.5. Perform the inverse FT to obtain R F fused band.As in wavelet-based fusion scheme, the same stepsmust be applied to G, B and NIR bands.PANFTPAN.ftHPFHP_PAN.ftFTLPFFigure 3 - Schematic diagram for FT-based image fusionmethod7. Experiments and ResultsIt is common to perform visual and statisticalanalyses to evaluate fusion methods. Figure 4 showsthe results of all fusion methods described in previoussections for IKONOS imagery. The proposed methodand IHS+FT were executed with Hanning filter due toits good visual result. It is clearly seen that all methodsresult in high spatial resolution images (compare themto PAN in figure 4a). However IHS and WT-basedfusion distorted the colors (compare them to RGB MScomposition in figure 4b). The proposed fusion method(figure 4f) presents similar results as IHS+FT method(figure 4e) for high spatial resolution and true color.Figure 5 shows the results of all fusion methodsdescribed before for QuickBird imagery. IHS and WTmethods had similar results as when applied toIKONOS imagery. But, although IHS+FT method(figure 5e) and proposed method (figure 5f) did notdistort the colors, the spatial resolution was not sogood. This is under investigation and probably amodification in the cutoff frequency must be done.In general, a good fusion approach should retain themaximum spatial and spectral information from theoriginal images and should not damage the internalrelationship among the original bands [4]. Based onthese criteria, the statistical analysis uses thecorrelation coefficient that indicates how an image is“similar” to another [17].R’R’.ftLP_R.ft+R’’.ftFT -1R F127


Voltar ao sumário(a)(b)(a)(b)(c)(d)(c)(d)(e)(f)Figure 4 – A representative portion of fusion results inIKONOS images (a) original PAN, (b) original MS RGBcomposition, (c) IHS, (d) Wavelet, (e) IHS+FT and (f) FTproposed methodTable 1 – Correlation coefficient between original PANand original MS bands.Sensor R G B NIRIKONOS 0.19 0.32 0.21 0.55QuickBird 0.42 0.53 0.42 0.34Table 2 – Correlation coefficient between original PANand MS bands after fusion.Method Sensor R G B NIRIHSIKONOS 0.96 0.96 0.96 ---QuickBird 0.93 0.94 0.91 ---WTIKONOS 0.82 0.89 0.89 0.91QuickBird 0.72 0.82 0.79 0.89IHS+FTIKONOS 0.54 0.69 0.57 ---QuickBird 0.52 0.67 0.53 ---FT IKONOS 0.52 0.68 0.63 0.79proposedQuickBird0.52 0.66 0.57 0.82(e)(f)Figure 5 – A representative portion of fusion results inQuickBird images (a) original PAN, (b) original MS RGBcomposition, (c) IHS, (d) Wavelet, (e) IHS+FT and (f) FTproposed methodTable 3 – Correlation coefficient between the fused bandsand their corresponding original bands for differentfusion methods.Method Sensor R G B NIRIHSIKONOS 0.34 0.24 0.27 ----QuickBird 0.59 0.42 0.49 ----WTIKONOSQuickBird0.640.880.610.860.530.820.770.76IHS+FTIKONOS 0.82 0.77 0.80QuickBird 0.96 0.94 0.95 --------FT(proposed)IKONOS 0.84 0.78 0.74 0.86QuickBird 0.96 0.94 0.93 0.98Table 1 shows the correlation coefficients betweenthe original PAN and original MS bands, while table 2shows the correlation coefficients between the originalPAN and MS bands after fusion for each method andeach sensor. From those two tables, it can be seen thatthe correlation between each band and PAN is higherafter fusion than before it for all tested methods, whichimplies that the fused images gain information from the128


Voltar ao sumáriooriginal PAN. IHS method obtained more informationfrom PAN than the others. The results from theproposed method and IHS+FT are very similar.On the other hand, after fusion, the MS bands areexpected to be as similar to the original bands aspossible in order to do not lose information. Table 3shows the correlation coefficient between the originalMS bands and their correspondent fusioned bands. Theproposed method and IHS+FT have the most suitableresults, indicating that these methods attain morespectral information than the others. The principaldifference of these two methods is that the proposedone also can be used for NIR band.8. ConclusionsThis paper proposed an image fusion method basedon filter in the frequency domain to the fusion ofmultiespectral satellite images. The proposed methodwas compared to other reported methods and has theadvantage of using any number of bands, exploiting allthe information from IKONOS and QuickBird imagery.In visual analysis, for the proposed method, it iseasy to observe that high information from PAN wasadded to MS information without distort the originalcolors. It also can be observed that the new methoddoes not introduce artifacts in the results, due to thesmooth join of the PAN and MS because Hanning filterwas used.From a statistical analysis, the proposed fusionmethod followed by IHS+FT attain more spectralinformation. But if NIR information is desirable,IHS+FT cannot be used, and the proposed method ispreferable.Acknowledgments: The authors would like toacknowledge CNPq for the financial support given tothis research.9. References[1] Lillessand, T.M.; Kiefer, R.W., Remote Sensing andImage Interpretation. 2nd edition. New York: John Wiley &Sons, 1987.[2] Li, J.; Luo, J.; Ming, D.; Shen, Z., “A new Method formerging IKONOS Panchromatic and Multispectral ImageData”, Proceedings of the IEEE International Geoscience andRemote Sensing Symposium, 2005, IGARSS '05, 25-29 July2005, Vol. 6, page(s): 3916- 3919.[3] Amolins, K.; Zhang, Y.; Dare, P., “Wavelet-based imagefusion techniques – an introduction, review and comparison”,ISPRS Journal of Photogrammetry and Remote Sensing, v.62, issue 4, p. 249-263, September 2007.[4] Gungor, O.; Shan, J., “Evaluation of Satellite ImageFusion using Wavelet Transform”, 20th ISPRS (InternationalSociety of Photogrammetry and Remote Sensing)Conference, Istanbul, Turkey, July 12-23, 2004.[5] Ioannidou, S.; Karathanassi, V., “Investigation of theDual-Tree Complex and Shift-Invariant Discrete WaveletTransforms on Quickbird Image Fusion”, IEEE Geoscienceand Remote Sensing Letters, vol. 4, no. 1, January 2007.[6] Tu, T.M.; Su, S.C.; Shyu, H.C.; Huang, P.S., “A newlook at IHS-like image fusion methods, Information Fusion”,Volume 2, Issue 3, September 2001, Pages 177-186.[7] Wang, Z.; Ziou, D.; Armenakis, C.; Li, D.; Li, Q.,“Comparative Analysis of Image Fusion Methods”, IEEETransactions on Geoscience and Remote Sensing, vol. 43,no. 6, June, 2005.[8] Ling, Y.; Ehlers, M.; Usery, E.L.; Madden, M., “FTenhancedIHS transform method for fusing high-resolutionsatellite images”, ISPRS Journal of Photogrammetry andRemote Sensing, Volume 61, Issue 6, February 2007, Pages381-392.[9] Tsai, V.J.D., “Frequency-Based Fusion ofMultiresolution Images”, Proceedings of the IEEEInternational Geoscience and Remote Sensing Symposium,2003, IGARSS '05, 25-29 July, Vol. 6, page(s): 3916- 3919.[10] Tsai, V.J.D., “Evaluation of Multiresolution ImageFusion Algorithms”, Proceedings of the IEEE InternationalGeoscience and Remote Sensing Symposium, 2004, IGARSS'04, 20-24 Sept., Vol. 1, page(s): 3665- 3667.[11] Davis, C.H.; Wang, X., Urban Land CoverClassification from High Resolution Multi-Spectral IKONOSImagery, Proceedings of the IEEE International Geoscienceand Remote Sensing Symposium, 2002, IGARSS '02, 24-28June 2002, Vol. 2, page(s):1204 – 1206.[12] GeoEye, IKONOS Imagery Products Guide, Availableat:, access: May 3, 2008.[13] DigitalGlobe, QuickBird Specifications. Available at:,Access: August 11, 2008.[14] Gonzalez, R.C.; Woods, R.E.; Eddins, S.L., DigitalImage Processing Using Matlab, 1st edition. New Jersey:Prentice Hall, 2004.[15] Garzelli, A., “Possibilities and limitations of the use ofwavelets in image fusion”, IEEE International Geoscienceand Remote Sensing Symposium, 2002, IGARSS '02, 24-28June 2002, Vol. 1, page(s): 66- 68.[16] Zhang, Y., “Problems in the Fusion of CommercialHigh-Resolution Satelitte Images as well as Landsat 7Images and Initial Solutions, International Archives ofPhotogrammetry and Remote Sensing (IAPRS)”, GeoSpatialTheory, Processing and Applications, Volume 34, Part 4,Ottawa, July 2002.[17] Wang, Z.; Bovik, A.C.; Sheikh, H.R.; Simoncelli, E.P.,“Image quality assessment: from error visibility to structuralsimilarity”, IEEE Transactions on Image Processing, Volume13, Issue 4, April 2004 Page(s):600 – 612.129


Voltar ao sumárioAgrupamentos Nebulosos em Segmentação de ImagensColoridas: Quantificação Histológica.Waldemar Bonventi Jr.Universidade de Sorocaba – Centro Tecnológicowaldemar.bonventi@uniso.brAbstractIn this work, a method for segmentation of coloredhistological images and structures quantification, usingfuzzy clustering, was developed. Since colordistributions in colorspaces from real images formclusters with fuzzy limits, various sizes and orientations,the clustering technique was improved with a metricbased upon a Mahalanobis distance. Imagesegmentation was performed by fuzzy sets built withobtained groups. Membership of their elements is usedto quantify image structures. This method wassuccessfully applied in segmentation of digital imagesof human liver tissues to quantify cirrhosis.Keywords: fuzzy clustering, colored images,Mahalanobis distance, liver cirrhosis.1. IntroduçãoA determinação quantitativa de cores é muitoimportante para a segmentação e análise de imagenshistológicas e citológicas. Existem pelo menos duasdúzias de técnicas de coloração de lâminas preparadaspara microscopia óptica, sendo as mais utilizadas otricrômico de Masson, hematoxilina-eosina (HE) e a dePapanicolaou.Particularmente, na cirrose hepática – um processodifuso de fibrose e formação de nódulos – o aumento detecidos conjuntivos é evidenciada pelo uso do métodotricrômico de Masson. Matalka e colegas executaram aanálise da textura da imagem, identificando um padrãopara a fibrose [1]. Foram desenvolvidas técnicas derealce, correção e seleção de cores utilizando programascomerciais de tratamento de imagens [2],[3]. Tanano etal relataram até 29,2% de fibrose na imagem,convertendo a cor em tons de cinza [4]. A capacidadetintorial do método de Papanicolau modificado doInstituto Adolfo Lutz empregado na rotina decitopatologia da Divisão de Patologia do InstitutoAdolfo Lutz foi examinada usando o SPCIM [5],[6]. Oscorantes utilizados são hematoxilina, eosina, lightgreene orange, que orientam o patologista nodiagnóstico. As imagens de Papanicolaou foramanalisadas com base apenas na intensidade, viaalgoritmo de limiarização [7]. No entanto asegmentação desta categoria de imagens éextremamente complexa devido à grandedescontinuidade das estruturas e cores. Sua análise éessencialmente visual, dependendo da perícia doexaminador, com sua quantificação por métodoscomputacionais ainda em franco desenvolvimento.A segmentação de imagens, associada à lógicanebulosa, tem sido desenvolvida com vários algoritmose técnicas direcionadas para tons de cinza [9],[10],[11].No entanto, imagens em cores requerem umprocessamento mais intenso, devido ao espaço derepresentação utilizado ser, na maioria das vezes,tridimensional.As cores de objetos observados em cenas naturaissão representadas em espaços como RGB, HSI, YUV eformam grupos de “nuvens” de diversas configurações,algumas esparsas e outras mais densas, com variação nacor percebida e densidade. Os limites destas nuvens nãosão precisos e definem grupos de acordo com aspropriedades intrínsecas dos dados. A detecção destasnuvens por análise de agrupamentos nebulosos pareceser interessante para lidar com incertezas advindas daseparação imprecisa das mesmas, possibilitandoenriquecimento e flexibilidade no tratamento dainformação colorida [8]. Assim, as nuvens de coresficam representadas por conjuntos nebulosos,correspondentes a cada grupo obtido.Nos exames histológicos que utilizam técnicas decoloração, a distribuição de cores nos espaços derepresentação resulta em grupos geralmente alongados,que podem ser associados às diferentes estruturascoradas. Em visão computacional, a segmentação devárias imagens histológicas, oriundas de tecidos sadiosou não, possibilita o estabelecimento de padrões quepermitem diferenciar os estágios de desenvolvimento dealterações patológicas.Descreve-se neste trabalho a segmentação poragrupamentos nebulosos, identificando estes gruposalongados com quaisquer orientações no espaço decores. Construídos os programas, testamos em imagenshistológicas de fígado humano incluindo contagemnebulosa de pixels por segmento obtido.2. Agrupamentos em espaços de coresPode-se identificar na literatura várias técnicas desegmentação de imagens digitais em cores [12]. Váriosespaços de representação de cores são atualmenteutilizados na segmentação de imagens digitais. O maiscomum é o RGB, onde qualquer cor é representada poruma combinação linear das primárias vermelha (Red),verde (Green) e azul (Blue), em concordância com omodelo de percepção visual humano. Em função doraciocínio utilizado para descrever cores, sistemas de130


Voltar ao sumáriorepresentação como o HSx (matiz – hue, saturação ex=[I|V] intensidade ou valor) foram desenvolvidos. Noentanto, os espaços descritos acima não são uniformesem termos de percepção, pois as diferenças entre duascores não são igualmente descritas. Com isto, espaçosuniformes foram introduzidos (L*u*v* e L*a*b*). Oespaço YUV (antigo YCrCb) foi desenvolvido paratransmissão de vídeo, separando a intensidade Y dascomponentes cromáticas, para fins de compatibilidadecom dispositivos em tons de cinza [13]. Este é umatransformação linear do RGB (neste, a intensidade variaao longo da diagonal principal do espaço).Modelos analítico-funcionais e paramétricos paradescrição de objetos segmentados no espaço de coressão fortemente dependentes do espaço em si. Porexemplo, a técnica de limiarização nos espaços RGB ouYUV define paralelepípedos, nos espaços HSx obtêmsesetores cônicos, nos espaços L*xy setores cilíndricossão as regiões de decisão. Em qualquer dos casos, taisregiões de decisão são geometricamente simétricas, oque não concorda com a distribuição de cores de cenasreais, observada nestes espaços. Martinkauppi e outroscoletaram centenas de imagens de faces humanas e adistribuição da cor da pele é compacta, alongada eligeiramente curva [14], sendo completamenteassimétrica. Shin e colegas, efetuando medidas deseparabilidade entre grupos de pixels pele e não-pele eanálise de histogramas em bancos de imagens de faces,concluíram que nenhum espaço de cores ésignificativamente melhor para a segmentação da cor dapele [15]. Estes estudos relacionados a imagens reaissujeitas a condições não controladas de iluminaçãoencorajam o desenvolvimento de métodos nãoparamétricos,dentre os quais agrupamentos ou redesneurais como exemplo. Ainda, a captação das cores dasimagens pode ser no formato fornecido pelo dispositivo(p. ex. câmera), em geral RGB ou YUV, semnecessidade de processamento extra na conversão dosdados.Conclui-se que as características relevantes nadistribuição de cores em imagens reais são acontinuidade, irregularidade e fronteiras difusas,direcionando nossa escolha por métodos deagrupamentos nebulosos. O formato alongado dasnuvens que definem grupos similares nos vários espaçosde cores indica que o processo de agrupamento deve sercapaz de detectar a não-esfericidade dos grupos obtidos.3. Agrupamentos nebulososOs valores das componentes de cor dos pixels sãoprocessados pelo algoritmo fuzzy c-means (FCM) [8],[10] para separar grupos de cores similares em umespaço como o RGB. Obtém-se com isto o valor depertinência da cor de cada pixel k a cada grupo i, sendoestes caracterizados por um centróide v i. O algoritmoatribui maior pertinência aos pontos mais próximos docentro do grupo, pela minimização da função da eq. 1.J v,U c= ∑i=1N∑ u ik m d ik 2 (1)k=1u ik é o valor de pertinência do k-ésimo pixel ao grupoi, c o número de grupos a obter, N o número de pixels ed ik=||v i-x k|| a distância segundo uma métrica escolhida,euclidiana ou outra. U={u ik} é o conjunto de partiçõesnebulosas obtidas (matriz [pertinência× cor]). m (fatorde nebulosidade) é o grau de superposição dos grupos.Para m=1, a partição obtida é booleana, e para m→∞,não há partição e todos os elementos pertencem a todosos grupos, com pertinência 1/c. Esta minimizaçãoobedece também aos vínculos da eq. 2. Minimiza-se afunção J(v,U) derivando-a parcialmente em relação à ve em relação a u ik. obtendo-se as eqs. 3 e 4. O algoritmoé iterativo, pois as pertinências calculadas na eq. 4 têmseus valores reintroduzidos na eq. 3, até que não hajamudanças significativas na matriz de pertinências U.c∑i=1Nu ik=1 e 0 ≤∑v i =Nk=1∑ u ik m x ikk=1∑k=1u ik= 1/d ik2 1 / m−1 c∑i'= 1u ik≤N (2)N u ik m ; i=1,2, ... ,c(3)21/d i'k 1/ m−1 (4)O algoritmo FCM apresenta um alto custocomputacional O(it.N.c), descrito em detalhes porGuliato [10]. A distância euclidiana d ik forma apenasgrupos hiperesféricos e para formar grupos alongados éempregada a distância de Mahalanobis (eq. 5). C é umamatriz de covariância (eq. 6) que redefine a escala edireção dos eixos dos grupos detectados.Para decidir qual o melhor número de grupos a seradotado, visando a qualidade do agrupamentoresultante, pode ser utilizada a compactação S [8], que éa relação entre a distância média dos dados aos seuscentros e a distância mínima entre os centros (eq. 7).2d Mah1v i,x k =∣C i∣ p[ v i−x k ] T −1C i [ v i−x k ]C i=N∑ u ikm [ v i−x k ] [v i−x k ] Tk=1Nm∑ u ikk=1(5)(6)131


Voltar ao sumárioS =c∑i=1N∑k=1u 2 2ikd Mah ik2N⋅min i,kd Mah ik(7)O mínimo de S, em função de c, corresponde agrupos mais compactos e separados. Define-se c* comoo melhor número de grupos em que pode serparticionado o espaço de cores da imagem. A cadagrupo i=1,2,...,c* associa-se uma cor característica decada estrutura da imagem, com suas variações.É importante notar que o método de agrupar ospixels da imagem por cores é não-supervisionado,sendo uma das etapas preliminares em um processo dereconhecimento de padrões. A rotulação das estruturaspela cor depende de uma etapa de interpretação em umnível mais alto de cognição.4. Aplicação em imagens histológicasTestamos o método analisando imagens de fígadosem e com cirrose, cedidas pelo Laboratório deBiomateriais da Pontifícia Universidade Católica,campus Sorocaba, obtidas com um Microscópio ÓpticoNikon E800 e uma câmera Polaroid na posição daocular. A ampliação usada foi 20x, coradas com atécnica de Masson, ressaltando o tecido fibroso em tonsazulados e cinzentos e as células hepáticas em tonsavermelhados (figuras 1a e 1b).parâmetros indicados na tabela 1. Sua complexidade étal que ∑ it⋅N⋅c =1,4 .10 9 ciclos foramexecutados. Em seguida, foram construídas subimagensa partir da imagem original, definidas pelos gruposi=1,2,...,c* de cores. Em cada uma, visualizam-se ospixels de cores com pertinência mais alta em relação aogrupo que a caracteriza.Utilizando os exemplos da figura 1 como ilustração,a tabela 2 mostra os valores da relação S em função donúmero de grupos de pixels por semelhança de cores.Nos dois exemplos escolhidos (sadio e com cirrose), omenor valor de S indica que as imagens devem sersegmentadas em três classes de cores. Na figura 2observam-se como as cores estão distribuídas naimagem da figura 1a, no espaço RGB. Estasdistribuições foram projetadas nos planos RG, BG e RB.Nesta figura, três pequenos quadrados indicam oscentróides resultantes do processo de agrupamento. Noentanto, não são relevantes no método aqui apresentado.Tabela 2 – Índice S para as imagens dafigura 1nº de grupos 3 4 5Figura 1a S = 0,408 S = 0,543 S = 0,739Figura 1b S = 0,336 S = 0,340 S = 0,446(a)(b)Figura 1 – (a) fígado normal, (b) com fibroseavançada.Tabela 1 – Parâmetros utilizados no algoritmoFCMm it max N c min c max1,5 400 640x480 3 5Das imagens extraiu-se uma lista com as cores(R,G,B) k para cada um dos N pixels (k=1,2,...,N) erespectivas pertinências u ik em relação a cada grupo i.Então, foi aplicado o algoritmo FCM iterativamente,para c=3 até 5 e escolheu-se o valor c* que minimiza S.A escolha dos limites de c depende das característicasdo domínio. O algoritmo FCM foi executado com osAs figuras 3 e 4 mostram três subimagens cada uma,resultantes do melhor nº de grupos formados, indicadosna tabela 2. Nelas estão mostrados os pixels com maiorpertinência em relação ao grupo que representa,exibidos com intensidade proporcional à mesma. Comoas células são muito pequenas em relação à imagem, aseparação se deu em função da afinidade aos corantesempregados na preparação da lâmina.Para se avaliarquantitativamente os resultados, um procedimentopadrão é a contagem de pixels em cada subimagem. Atabela 3 mostra o nº de pixels das subimagens emrelação ao total de pixels da imagem. O número depixels em contagem simples excede o total da imagem.Ocorre que o agrupamento nebuloso atribui pertinênciacontínua entre 0 e 1, logo, um mesmo pixel podeaparecer com pertinências diferentes nas trêssubimagens, sendo contado três vezes.Pela teoria dos conjuntos nebulosos, pode-seponderar a pertinência da cor de cada pixel em cadasubimagem (eq. 8), para quantificar as estruturas.Nn i= ∑ u (8)ikk=1132


Voltar ao sumário(a)(b)Figura 2 – Distribuição de cores da figura 1a.Os índices possuem o mesmo significado dasequações anteriores, sendo n i o número de pixels dasubimagem. N=∑ n i é o total de pixels da imagemoriginal. A “contagem simples” mostra o total de pixelsobtidos na segmentação em subimagens. A “contagemnebulosa” utiliza a eq. 8. A tabela 3 compara aquantidade de pixels de cada subimagem, nos modossimples e nebuloso.Figura 3 – Decomposição da imagem da figura1a em seus respectivos grupos (a), (b), (c).(c)Tabela 3 – Quantificação das imagensda figura 1.Figura 3 - sadioFigura 4 - cirrosesubimagemcontagemsimplescontagemnebulosacontagemsimplescontagemnebulosa(a)(b)a 57,56 % 56,99 % 30,29 % 23,87 %b 60,64 % 36,79 % 45,22 % 36,16 %c 6,22 % 6,23 % 45,86 % 39,91 %total 124,42 % 100,01 % 121,37 % 100,04 %Figura 4 – Decomposição da imagem da figura1b em seus respectivos grupos (a), (b), (c).(c)Com os resultados assim obtidos (tabela 3), verificaseque a área fibrosada da figura 4c corresponde a quase40% do tecido examinado, evidenciando cirrose emestágios bem avançados. Na subimagem c da figura 3, aigualdade entre as contagens simples e nebulosa mostrauma região de cores distinta das outras subimagens,com separação bem definida. Seus pixels apresentampertinência muito alta em relação ao seu próprio grupo(subimagem), de modo que a contagem destespraticamente não se repete nas outras subimagens. Mas,observa-se uma grande discrepância nas contagens,evidenciando a repetição de pixels contados na maneiratradicional.5. Discussão e conclusõesÉ importante ressaltar que o método utiliza apenas oatributo “cor” para realizar a segmentação, sematributos de vizinhança dos pixels, permitindo lidar comincertezas oriundas de processos de tintura envolvendodiversos corantes. As contribuições deste trabalho estãona maior precisão no agrupamento fornecida peladistância de Mahalanobis e na contagem nebulosa(tabela 3) dos pixels em cada conjunto de cores.Diferentes espaços de cores não afetamsignificativamente o agrupamento nebuloso aquiutilizado, devido à detecção de grupos alongados emdiferentes direções no espaço de atributos (figura 2). Oproblema em programas comerciais de tratamento deimagens está na seleção de cores pelo espaço RGBatravés de intervalos ao longo de cada eixo (R, G, B).Assim, uma região escolhida é um “paralelepípedo”133


Voltar ao sumárioneste espaço, não levando em conta as característicasintrínsecas da distribuição de cores.Valores baixos do fator de nebulosidade m (1,1 a1,3) podem não tornar vantajosa a classificaçãonebulosa em relação à “booleana”. Valores mais altos(>2,0) tornam a separação dos grupos muito difusa eincerta. Muitos autores adotam valores entre 1,5 e 2,0[8], [10], dependendo do problema e da qualidade dosresultados.A princípio, o cálculo da distância de Mahalanobisapresenta-se computacionalmente custoso devido àinclusão da matriz de covariância C, se comparado coma distância euclidiana (C=1), mas se torna vantajoso emimagens histológicas que apresentam muitasdescontinuidades. Este é um domínio que gera muitaincerteza na segmentação, justificando o tratamento pelateoria dos conjuntos nebulosos.O índice S, dentre os indicadores da qualidade de umparticionamento em grupos, é de interpretação bemimediata e dirigiu bem a escolha da melhor quantidadede grupos.A segmentação por cores pode ser empregada comouma etapa inicial seguida por outras mais refinadas, quese concentrem apenas nos segmentos de interesse daimagem. A abordagem nebulosa se torna vantajosa, poisa representação da vaguidade relativa às cores permitemanter mais informações nas etapas seguintes. Aclassificação nebulosa de cores é mais robusta a ruídos,pois os pixels que não apresentam pertinência alta emrelação a um grupo não são sumariamente descartados.Em linhas gerais, este método pode ser estendido aoutros tipos de imagens médicas baseadas nainformação colorida, pois a análise de agrupamentos sefaz de acordo com a distribuição de cores e suainterpretação fica em outra etapa. Assim, pretende-sefuturamente investigar como e se a inclusão de atributosde posição dos pixels (vizinhança) pode tornar asegmentação mais eficiente no domínio de imagenshistológicas e citológicas. Estudos sobre a conectividadede pixels adjacentes poderão auxiliar na classificaçãodaqueles que apresentam pertinências intermediárias (p.ex. entre 0,3 e 0,7).Como descrevemos o método descrito é eficaz nasegmentação de regiões coloridas. A validação dosresultados por patologistas dar-se-á com a segmentaçãode muitas lâminas de exame de Papanicolaou, coloridascom hematoxilina, eosina, light-green e orange [7],permitindo o estabelecimento de indicadores paratecidos sadios e o grau de patologia presente. Estelevantamento está previsto como parte de um estudofuturo para concepção de sistemas inteligentes emexames laboratoriais.AgradecimentosÀ Drª Eliana A. de Rezende Duek e à Ms. CarolinaLucchesi, do Laboratório de Biomateriais da PUCcâmpus Sorocaba pelas imagens e ao Dr Júlio Boschini,da Faculdade de Tecnologia de Sorocaba, pelo suporte àpesquisa.Referências[1] I. I. Matalka, O. M. Al-Jarrah, T. M. Manasrah“Quantitative assessment of liver fibrosis: a novelautomated image analysis method”. Liver International26, p. 1054-1064. 2006.[2] G. M., Dahab, M. M. Kheriza, H. M. El-Beltagi, A. M.Fouda and O. S. El-Din. “Digital quantification of fibrosisin liver biopsy sections: description of a new method byPhotoshop software”. J Gastroenterol and Hepatol 19 (1),p. 78-85. 2004.[3] M. Kawamoto, T. Mizuguchi, T. Katsuramaki, M.Nagayama, H. Oshima, H. Kawasaki, Y. Kimura, K.Hirata. “Assessment of liver fibrosis by a noninvasivemethod of transient elastography and biochemicalmarkers”. World J. Gastroenterol. 12(27), p. 4325-4330,2006.[4] H. Tanano, T. Hasegawa, T. Kimura, T. Sasaki, H.Kawahara, A. Kubota, A. Okada “Proposal of fibrosisindex using image analyzer as a quantitative histologicalevaluation of liver fibrosis in biliary atresia”. Pediatr SurgInt 19. p. 52-56. 2003.[5] Y. S. Sakai, A. T. Sakai, S. Isotani, M. L. Utagawa, N. K.Shirata, C. DiLoreto, E. N. K. Muranaka. “Colorimetrianuclear computadorizada para validação do método decoloração de Papanicolaou modificado”. Revista doInstituto Adolfo Lutz, volume 62, suplemento 2, p 120,2003.[6] Y.I. Sakai, A.T. Sakai, S. Isotani, S.M.M. Pereira, L.S.U.Yamamoto, M.Y.S. Maeda, H.B. Luvizotto,. E. Veiga.“Evaluation of dyeing capacity of component ofpapanicolaou technique by computer image analysissystem”, Proceedings of XVth International Congress ofCytology, Santiago de Chile, 92, 2004.[7] S. Isotani, N. Brasil Fº, O. M. Capeli, Y. I. Sakai, A. R. P.L. de Albuquerque “A system for the determination ofimage density and morphometry developed for theanalysis of malignant nuclei”. In Proceedings of 20thIEEE International Symposium on Computer-BasedMedical Systems, Maribor, Slovenia, 2007.[8] Z.R. Chi, H. Yan, T. Pham. “Fuzzy algorithms: withapplication to image processing and pattern recognition”,in Advances in Fuzzy Systems: Application and Theory.Singapore: World Scientific Publ. Co. Pte. Ltd., v. 10,1996.[9] H. R. Tizhoosh, G. Krell, B. Michaeli. “On fuzzy imageenhancement of megavoltage images in radiation therapy.”6th IEEE Int Conf on Fuzzy Systems. Barcelona, España,1997.[10] D. Guliato, R.M. Rangayyan, W.A. Carnielli, J.A. Zuffo“Segmentation of Breast Tumors in MammogrammsUsing Fuzzy Sets”. J Electronic Imaging, 12 (3), p.369-389, 2003.[11] J. J. Barbosa, F. de A. Limeira Jr., F. B. de Sousa, L. V.Batista, T. P. de Almeida, F. D. N. Neto. “Segmentação deImagens para Avaliação Morfométrica do Reparo ÓsseoApós o Uso de Enxertos Ósseos”, in Anais do VIIWorkshop de Informática Médica, Porto de Galinhas,Brasil, 2007.[12] L. Lucchese and S.K. Mitra, "Color Image Segmentation:A State-of-the-Art Survey, Image Processing, Vision, andPattern Recognition" Proc. of the Indian National Science134


Voltar ao sumárioAcademy (INSA-A), New Delhi, India, Vol. 67 A, No. 2,Mar. 2001, pp. 207-221.[13] M. D'Zmura, P. Colantoni and J. Hagedorn. "Perceptionof color change". Color Research and Application, Vol26: p186-191, 2001.[14] M. Soriano, B. Martinkauppi, S. Huovinen, M.Laaksonenc. “Adaptive skin color modeling using the skinlocus for selecting training pixels”. Pattern Recognition36, Issue 3, Mar. 2003, pp. 681-690[15] M. C. Shin, K. I. Chang, L. V. Tsap. “Does ColorspaceTransformation Make Any Difference on SkinDetection?” WACV’02 Proceedings of the Sixth IEEEWorkshop on Applications of Computer Vision. 2002P.275.135


Voltar ao sumárioAn Extension of Metric Histograms for Color Based Image RetrievalGeorge Brindeiro, André Geraldes and Díbio Leandro BorgesUniversity of BrasiliaDepartment of Computer ScienceCampus Darcy Ribeiro, ICC, Asa NorteBrasilia – DFBrazilguitar.jarj@gmail.com, gaucho.andre@gmail.com, dibio@unb.brAbstractColor based image retrieval is an important andchallenging problem in image and object classification.Many techniques work by predefining a number ofdimensions to reduce an original histogram andevaluating the image similarities using norms defined onthe reduced spaces. Metric histograms, on the otherhand, do not predefine this number, and explore thecorrelations between significant points and theirneighborhoods in order to find a small number of controlpoints to represent the histogram. It lacks though aproper way to deal with color images, since it considersonly normalized gray level histograms. In this paper wepropose tri­dimensional metric histograms forconsidering the color space. We introduce a procedure tocompute a parameter to span the range of inflectionpoints between minimum and maximum for the specificdata. An extended distance metric for it is also presented.Experiments ran with a database of 2090 color imagesshow better performance of the proposed approach thanthe original one.1. IntroductionImage retrieval has gained considerable importanceand attention lately because of the growing need to searchand classify multimedia data, especially image based.Improvements on feature design and efficientclassification are in need and they are a major topic forresearch in the area [2] [6] [8] [10]. Because of the hugenumber of dimensions a digital image can possess,representing and comparing such a signal with aneffective and low number of dimensions is of greatimportance for image database applications. The use ofhistograms of images as a mean for classification taskshas been a major issue in Computer Vision, and a largebody of research literature can be found on this subject [1][11] [12].One issue is on reducing the number of bins of ahistogram to a smaller number. Although that line ofapproach has produced good results, for example [3] [4],the number of dimensions is usually predefined and theexisting correlation present in the neighborhood of ahistogram bin is not explored. Metric histograms wereproposed in [13] as a method to deal with such a problem,since it works by approximating a normalized histogramfinding significant control points in neighborhoods ofpeaks and valleys of a histogram. Good results usingmetric histograms in specialized medical image databaseshave been shown in [5].A problem with the original metric histogram approachis that it does not deal properly with color information,since it considers working only in the intensity channel(gray level). In this work we propose to deal with colorimage based retrieval by using a tri­dimensional metrichistogram, and a corresponding new metric distance for it.This extension we propose here to the original method hasnot been shown before. Experiments are run using 2090136


Voltar ao sumárioimages from the PASCAL image database [9], comparingthe original metric histogram with the proposed tridimensionalone, together with an extension for regionalweights for spatial portions of the image.The remainder of this paper is organized as follows.Section 2 explains Metric Histograms. In Section 3 theproposed Tri­dimensional Metric Histogram and adistance metrics are presented. Section 4 presents theresults, and Section 5 gives the main conclusions of thiswork.2. Metric HistogramsA metric histogram is an approximation of the usualdefinition of histogram, and it is computed by first findinga number of maximum, minimum, and inflection points(control points) on the original data. These control pointsare then connected by line segments in a sequenceforming an approximated curve of the original histogram.Metric histograms were first proposed in [13], and havethe advantage of reducing drastically the number ofdimensions in a histogram. The number of control pointsare not fixed, and it varies depending on the number ofinflection points included in the approximation. Usuallythe number of control points range from 10­20 for aregular histogram. Figure 1 shows a histogram, and ametric histogram approximating it.Since the number of control points is not fixedevaluating the distance between two metric histogramscan not be done directly by using Euclidean, and othercommon norms used for histograms [3]. An estimation ofthe areas between two metric histograms is a MetricHistogram Distance (MHD). Figure 2 shows an exampleof calculating the MHD for two metric histograms.Besides the control points of each metric histogram theprocedure will have to find the intersection points of thetwo metric histograms.Metric Histograms, and Metric Histogram Distance(MHD) have been shown to be robust, fast to compute,and relatively invariant to scale, translation, rotation, andchange of brightness in images [13]. Properties that areextremely important in Image Retrieval Applications.However, as proposed and tested in the literature [13], itdoes not consider properly the color information usuallygiven by a three color channel image (e.g. RGB).Fig. 1. Curves of a regular histogram (one channel with256 levels, i.e. gray level, here shown in blue), and itsmetric histogram (in red) showing 18 control points.Fig. 2. Calculating the distance as the area between thecurves of two metric histograms (shown in blue and red).137


Voltar ao sumárioIn this work we propose to extend Metric Histograms,and Metric Histogram Distance by considering a tridimensionalMetric Histogram and a new distancemeasure on this space.3. Metric Histograms considering ColorColor is an important characteristic of an image,especially if it is necessary to be more discriminative andselective on the regions and objects pictured in an image.By considering only the gray level information, or anintensity approximation of RGB (i.e. I = (R+G+B) ∕ 3),and its metric histogram the color information ismisjudged by the original MHD, or MHD_gray as it willbe referred from here. We propose the Tri­dimensionalMetric Histogram for dealing with color images, andalthough simple a weighted average regarding the pointsof the metric histogram in this new space provides betterresults to deal with color images. Additional ways to dealwith the color space dimensions can be explored. In thiswork we extended the metric histogram idea to tridimensionalmetric histogram and tested on a genericcolor database (PASCAL).3.1 Tri­dimensional Metric HistogramsFor dealing with color images a tri­dimensional metrichistogram can be built by computing a metric histogramseparately for each channel, R, G, and B. Control pointsare found by selecting maximum, minimum, andinflection points as before. However, a precision variableis added in our algorithm which weights the number ofinflection points to be considered in the metric histogram.Maximum number of inflection points provides moreprecision regarding the particular channel, but it is usedonly if required to be more selective. Thus the number ofdimensions (i.e. control points) is kept low, and undercontrol, and in this way it can be further extended to usethis parameter as an additional attribute to image retrievaltasks.3.2 Metric Histogram Distance in RGB channelsA procedure to estimate the Metric HistogramDistance in RGB channels (MHD_rgb) would be, first tofind the areas between the corresponding two metrichistograms (i.e. R­R, G­G, B­B), i.e. MHD_r, MHD_g,and MHD_b, and finally estimating the MHD_rgb as theaverage between MHD_r, MHD_g, and MHD_b (eq.(1)).MHD_rgb = (MHD_r + MHD_g + MHD_b) ∕ 3.A variation of the MHD_rgb (MHD_rgb_reg) wouldbe to spatially divide the image into a 3x3 grid, andweight the regions differently (especially the center of theimage) before ranking the results. Next section presentsexperiments and results showing the improvementsachieved in classification of color images with this newmethods, MHD_rgb and MHD_rgb_reg, in comparison tothe original MHD_gray.4. Experiments and ResultsFor the experiments we have used 2090 images in totalfrom the PASCAL image database [9], being 200separated as queries and the rest 1890 for the labeledclasses. A large variability of classes, sizes, and colorimages can be encountered in the database. Our mainobjective here would be to test the selectivity anddiscriminative capacity of the proposed MHD_rgb forcolor images, since the other properties of metrichistograms are kept. Figure 3 brings a subset of 21images, 1 query and 20 other for ordering according tothree distance metrics: MHD_gray, MHD_rgb, andMHD_rgb_reg. The MHD_rgb_reg is a variation ofMHD_rgb by equally dividing the image in 9 regions andgiven a weight (1 for the center, and 0 for the other).TheMHD_rgb_reg variation is mainly due to check theapproach by considering only the center of the images, inorder to identify the mainly subject of the snapshot. Table1 shows the final orderings for those 20 images and thedistances computed for each metric.(1)138


Voltar ao sumárioquerybus­0 bus­1 bus­2 bus­3bus­5 bus­6 bus­7 bus­8bicycle­0 dog­0 car­0 horse­0bus­4 bus­9 cow­0 horse­1cat­1 bike­0 sheep­0 people­0Fig. 3. Example images of the datasets in this workshowing a query and the closest ones according metric.Table 1. Results showing distance values and orderingsof the images (set as shown in Figure.1) for the originalMetric Distance Histogram (MDH_gray), the proposedMetric Distance Histogram considering color (MDH_rgb),and the regional MDH_rgb_reg.MDH_gray MDH_rgb MDH_rgb_regcat­0 (0.2403) car­0 (0.3055)motorcycle­0(0.6202)car­0 (0.2920) cat­0 (0.3416) car­0 (0.6260)bus­9 (0.3252) bus­9 (0.3524) bus­8 (0.6656)bike­0 (0.3634) bus­2 (0.3867) bus­5 (0.7007)bus­0 (0.3878) bus­0 (0.3992) bus­9 (0.7236)bus­8 (0.3888)bicycle­0(0.4105)bus­0 (0.7253)horse­0 (0.4330) bus­4 (0.4117) bus­7 (0.7260)bus­4 (0.4485) bus­8 (0.4502) bus­4 (0.7652)bus­2 (0.4763) bus­5 (0.4574) bus­2 (0.7670)bus­7 (0.5013) bus­7 (0.4603) bus­3 (0.7693)bus­5 (0.5164) bus­3 (0.4770) cat­0 (0.8033)bicycle­0(0.5208)horse­0 (0.4784) horse­0 (0.8148)bus­1 (0.5373) cow­0 (0.4930)bicycle­0(0.8287)cow­0 (0.5816) bike­0 (0.5038) cow­0 (0.9053)people­0(0.5848)bus­3 (0.6186)sheep­0(0.5607)people­0(0.5829)bus­6 (0.9060)sheep­0 (0.9205)sheep­0(0.6197)bus­6 (0.5916) bus­1 (0.9366)bus­6 (0.6792) bus­1 (0.6363)people­0(1.0204)horse­1 (0.9151) dog­0 (0.8327) horse­1 (1.1324)dog­0 (0.9372) horse­1 (0.9166) dog­0 (1.1368)Considering the query image, which is from the class“bus”, and with predominant red regions, the MDH_color(2 nd column in Table 1) improved the classificationbringing in the 10 closest images to the query 7 from theclass bus, while MDH_gray (1 st column) brought only 6.Since red regions are predominant in the center of theimage the MDH_color_reg was even more precisebringing 8 from the same class. Figure 4 shows recall xprecision curves considering 2090 images from thePASCAL database (200 + 1890).139


Voltar ao sumárioFrom the Precision x Recall curves for all threedistance metrics shown in Figure 4 it can be seen thatMDH_rgb, and MHD_rgb_reg show better performancethan MHD_gray. We found for the images tested on thisdatabase an average of 5% better precision for bothMHD_rgb and MHD_rgb_reg. No additionalimprovements were found distinguishing MHD_rgb toMHD_rgb_reg. The tests were done for 200 images outof the 2090 database, or 200 against 1890, and resultsshown in the curves are averaged. The regional variationof MDH_rgb is similar in performance to the MDH_rgb,and for general color image databases the MDH_rgbwould be an efficient method for classification.5. ConclusionsTri­dimensional Metric Histograms provide anefficient way to deal with color based image retrieval,besides the invariance properties and the variable numberof control points able to explore correlations of neighborbins, the proposed approach shows better accuracy inretrieving general color images. Since common imagescentered the subject of the scene, a regional 3x3 gridweighting heavier on the center of the image has showngood performance on classification.In this paper a new tri­dimensional metric histogramapproach, together with an extended distance metric forevaluating similarities between color images waspresented. The approach is an extension of metrichistograms firstly proposed in [13]. Although simple thetri­dimensional histogram can accommodate smallvariations from one image to another due to uncontrolledor different illumination only. Further tests have to bepursued on this matter. Results shown suggest it is aninteresting approach for some color based image retrievaltasks, generic databases as the one tested and potentiallymedical image databases. It also can be explored as anadditional attribute to be used together with others forgeneral image retrieval. Further tests on the approach,especially comparing it to other color retrieval methods onspecialized image databases are being pursued by peoplein our lab.Acknowledgments. This work is partially supported bygrants from FINATEC, DPP (University of Brasilia), andCNPq.6. References[1]. Bimbo, A. del: Visual Information Retrieval. MorganKaufmann, San Francisco (1999)[2 ]. Bosch, A.; Muñoz, X. & Marti, R.: Which is the bestway to organize/classify images by content?. Imageand Vision Computing 25(2007) 778­­791[3]. Brunelli, R. and Mich, O.: On the use of histogramsfor image retrieval. In: IEEE International Conferenceon Multimedia Computing and Systems, Florence, pp.143—147 (1999)[4 ]. Deselaers, T.; Keysers, D. & Ney, H.: Features forImage Retrieval: a quantitative comparison. In: 26 thDAGM Symposium, pp. 228—236. LNCS 3175,Springer­Verlag, Heidelberg (2004)[5]. Felipe, J.; Traina, A. And Traina, C.: A newsimilarity measure for histograms applied to contentbasedretrieval of medical images. In: Proceedings ofthe 2006 ACM symposium on Applied computing, pp.258—259 (2006)[6]. Hanjalic, A.; Sebe, N. & Chang, E.: MultimediaContent Analysis, Management and Retrieval: Trendsand Challenges. In: Proc. Of SPIE­IS&T ElectronicImaging, vol. 6073, pp.1—5 (2006)[7]. Kuo, W. and Chang, R.: Approximating the statisticaldistribution of color histogram for content­based imageretrieval. In: IEEE International Conference onAcoustics, Speech and Signal Processing, pp.2007—2010 (2000)[8]. Lew, M.; Sebe, N.; Djeraba, C. & Jain, R.: Content­Based Multimedia Information Retrieval: State of theArt and Challenges. ACM Transactions on MultimediaComputing, Communications and Applications 2(1), 1—19 (2006)[9]. The PASCAL Visual Object Classeshttp://pascallin.ecs.soton.ac.uk/challenges/VOC/[10]. Rowe, L. & Jain, R.: ACM SIGMM Retreat Reporton Future Directions in Multimedia Research. ACMTransactions on Multimedia Computing,Communications, and Applications 1(1), 3—13 (2005)[11]. Smeulders, A.; Worring, M.; Santini, S.; Gupta, A.;and Jain, R.: Content­based image retrieval at the endof the early years. IEEE Transactions on PatternAnalysis and Machine Intelligence, 22(12) (2000)140


Voltar ao sumário[12]. Swain, M. and Ballard, D.: Color Indexing.International Journal of Computer Vision, 7(1), pp.11—32 (1991)[13]. Traina, A. J.; Traina Jr, C.; Bueno, J.; Chino, F.J.,and Azevedo­Marques, P.: Efficient Content­BasedImage Retrieval through Metric Histograms. WorldWide Web: Internet and web Information Systems, vol.6,pp.157—185 (2003)Fig. 4. Precision x Recall curves for the original MDH_gray (Gray level histogram), MDH_rgb (RGB histogram), andMDH_rgb_reg (Regional histogram), considering 2090 images from the PASCAL image database in total, being 200separated queries averaged over the rest 1890 of the database.141


Voltar ao sumário 142


Voltar ao sumário 143


Voltar ao sumário 144


Voltar ao sumário 145


Voltar ao sumário 146


Voltar ao sumário 148


Voltar ao sumárioANÁLISE DA VARIAÇÃO DE TEXTURA EM IMAGENSMAMOGRÁFICAS PARA CLASSIFICAÇÃO DE MASSAS SUSPEITASP. B. Ribeiro 1 , H. Schiabel 1 , A.C. Patrocinio 2 e R. A. F. Romero 31 USP/Departamento de Engenharia Elétrica, São Carlos, Brasil2 UNIFESP/Departamento de Diagnóstico de Imagem, São Paulo, Brasil3 USP/Departamento de Ciências Matemáticas e Computação, São Carlos, Brasilbellin@sel.eesc.usp.brAbstractIn this paper, a method for the classification ofmammary mass is proposed aiming to help the specialistsas a second opinion. For this, initially the texture, veryimportant for analyze of the mass, intensity andgeometric descriptors have been extracted from Regionsof Interest. Next, some methods of selection of attributeshave been considered. They are Self-Organizing Map(SOM), Gaussian funcitons. Finally, the selectedattributes have been used for training of neuralnetworks: Multi-Layer Perceptron (MLP) for classifying2 and 5 different kinds of breast masse.1. IntroduçãoO câncer de mama é o que mais mata mulheres.Como suas causas ainda não são bem conhecidas, aprevenção, através dos exames de rastreamento dasmamas, como mamografia, ultra-sonografia, exameclínico e o auto-exame, é a única maneira de reduzir amortalidade de mulheres com câncer de mama, pois adetecção precoce aumenta as chances de curasubstancialmente [1,2].A mamografia é considerada o exame de maiorsensibilidade para o rastreamento do câncer de mamadevido a sua sensibilidade. Porém, a interpretação delesões numa mamografia uma tarefa complexa para osespecialistas, de cuja experiência depende um diagnósticopreciso [3].Distorções na interpretação e classificação de lesõessuspeitas por especialistas implicam um número maior debiópsias desnecessárias [4]. Ou seja, entre 65% a 85%das biópsias de mama são realizadas em lesões benignas[5].As principais lesões identificadas na mamografiasão: as microcalcificações, um dos primeiros indícios deformação de tumores com grau elevado de suspeita demalignidade, e os nódulos, que são responsáveis porgrande parte dos casos de câncer de mama e devem seranalisados de acordo com o tamanho, contorno, limites edensidade, Figura 1[1].Figura 1: Formato típico dos Nódulos mamários.Segundo Kopans [1] a margem entre uma lesão e otecido circunvizinho, Figura 2, é um dos fatores maisimportantes na determinação da benignidade oumalignidade de uma massa. As bordas da massa, segundoa American College of Radiology, podem ser divididasem cinco contornos: circunscrita, obscurecida,microlobulada, mal definida e espiculada.Figura 2: Tipos de formato da borda da massaNas últimas duas décadas diversos trabalhosutilizando técnicas de Processamento de Imagens,Reconhecimento de Padrões, Visão Computacional eInteligência Artificial vêm sendo desenvolvidos, comoparte de esquemas Computer Aided Diagnosis (CAD), osquais podem funcionar como uma segunda opinião aosradiologistas quanto à localização e à natureza destasestruturas [6,7].Este trabalho tem como objetivo mostrar doisexperimentos que utilizam técnicas de processamento deimagens aplicadas a imagens mamograficas, utilizandoos descritores de Haralick para analisar as variações detextura, ou seja, a textura contida em uma imagem de umnódulo espiculado é visualmente diferente de umaimagem com contorno circular ou circunscrito. Com basenessas informações, nosso estudo focou a utilização deatributos de textura sem e com associação com outros149


Voltar ao sumáriodescritores a fim de classificar imagens de nódulosmamários em imagens com ou sem nódulos e em cincocategorias de contorno de nódulos.2. MetodologiaO presente trabalho trata da classificação de imagensmamográficas e foi desenvolvido em várias etapas.Foram utilizadas diversas técnicas de extração deatributos, tais como: descritores de textura de Haralick[9], descritores de intensidade [10] e geométricos [11].Como classificador, utilizou-se a Rede Neural Multi-Layer Perceptron (MLP). Também foram aplicadasRedes Neurais Self-Organizing Map (SOM) e Gaussianaspara selecionar os atributos mais significativos.2.1. Base de ImagensAs mamografias utilizadas nos experimentos foramobtidas através do banco de imagens mamográficas doLAPIMO (Laboratório de Análise e Processamento deImagens Médicas e Odontológicas), disponíveis tambémem http://lapimo.sel.eesc.usp.br/bancoweb. As imagensmamográficas foram digitalizadas em um scanner a laserLumiscan 50, com 12 bits de resolução de contraste ecom uma resolução espacial de 0,15 mm por pixel.Para a realização deste trabalho, foram utilizados doisconjuntos de regiões de interesse (RIs):1º. Conjunto de RIs: 120 RIs de tamanhos variados,selecionadas de acordo com laudos médicosfornecidos junto com as mamografias, sendo 60contendo nódulos e 60 normais. As Figuras 3 e 4mostram exemplos das imagens com nódulos e semnódulos respectivamente.nódulos, segundo a padronização BI-RADS [1],conforme Tabela 1. Das 135 RIs, foram selecionadas110 para o treinamento da rede MLP e esse conjuntoé formado por 22 imagens correspondentes a cadauma das cinco classes estudadas: circunscrita (classe1), obscurecida (classe 2), microlobulada (classe 3),mal definida (classe 4) e espiculada (classe 5).Exemplos dessas classes podem ser visualizadosatravés da Figura 5.Tabela 1: Levantamento de imagens laudadas porcontorno.Contornos Qtd. Nomes dos contornosdescritos nos laudosCircunscrito 31 Bem DefinidoObscurecido 25 Parcialmente DefinidoMicrolobular 29 BoceladoMal Definido 22 Mal DefinidoEspicular 28 EspiculadoTotal 135 Imagensa) Circunscrita b) Obscurecidac) Microlobulada d) Mal DefinidaFigura 3: Exemplo de RIs com nódulos.Figura 4:- Exemplo de RIs de mama normais.2º. Conjunto de RIs: 135 RIs de tamanhos variadosforam identificadas por um especialista. Todas asimagens selecionadas foram laudadas com base nascaracterizações dos cinco tipos de contornos dee) EspiculadaFigura 5: Exemplo de RIs utilizadas para os testes,representando cada uma das 5 classes de contorno.2.1. Atributos de TexturaO atributo de textura pode ser representado de formaestatística utilizando-se da matriz co-ocorrência de níveisde cinza Spatial Grey-Level Dependence (SGLD) quecalcula a ocorrência combinada de direção e distânciaentre pares de pixel com valores de tonalidadesemelhantes, separados por uma distância "d", na150


Voltar ao sumárioorientação "θ". Em outras palavras, p(i,j) indica afreqüência de ocorrência de um par de níveis de cinza i ej, medido a partir de uma distância "d" e de um ânguloque pode ser de 0º, 45º,90º e 135º graus [9], Figura 6.a) b)0101102002201002c) d)(0,0)(1,0)(2,0)(3,0)01111001(0,1)(1,1)(2,1)(3,1)10031120(0,2)(1,2)(2,2)(3,2)(0,3)(1,3)(2,3)(3,3)O objetivo da RNA é calcular o erro para a camada desaída e propagá-lo no sentido saída-entrada, ajustando ospesos de todas as camadas através da retropropagação doerro [8]. O treinamento possui duas fases: a forward,utilizada para definir a saída da rede para um dadopadrão de entrada, e a backward, que utiliza a saídadesejada e a saída fornecida pela rede para atualizar ospesos de suas conexões [8]. A rede MLP só seráconsiderada treinada quando o erro entre as saídasobtidas e as saídas desejadas estiver reduzido a um valoraceitável, ou seja, um valor baixo que irá depender daaplicação para a qual a rede está sendo treinada.Para facilitar os testes que foram realizados com asregiões de interesse e melhorar a visualização dos dados,foi desenvolvida uma interface gráfica para o treinamentoda Rede Neural MLP, Figura 8, facilitando a visualizaçãodos resultados das classes que estão sendo estudadas.Figura 6: Cálculo de matrizes de co-ocorrência. a)Imagem de 3x3 pixel com 4 valores de níveis de cinza(0,1,2,3); b) Montagem da matriz de co-ocorrência, onde,(i,j) indica o número de pixel da imagem com i númerosde cinza e valor j para a direção e distância.; c) Matriz deco-ocorrência com direção igual a 0; d) Matriz de coocorrênciacom direção igual a 90.Com base nos cálculos realizados sobre os valoresda SGLD, formou-se um conjunto de 14 medidas sendoelas: Energia ou Uniformidade, Contraste, Correlação,Variância, Momento da diferença inversa, Média daSoma, Variância da Soma, Entropia da Soma, Entropia,Variância da Diferença, Entropia da Diferença, Medidade Informação de correlação 1, Medida de Informação decorrelação 2 e Máximo Coeficiente de Correlação [9].2.2. Rede Neural ArtificialPara a classificação, foi utilizada a Rede NeuralArtificial (RNA) Multi-Layer Perceptron (MLP), Figura7, com tipo de aprendizagem supervisionado.Figura 8: Rede MLP implementada para treinamento,validação e teste.2.2.1. Treinamento- Experimento 1: Classificação de RIs em Imagenscom nódulo ou sem nódulos (normais)Seis atributos de textura foram selecionados, servindode entrada para a rede MLP. Dentre todos os testesrealizados, a melhor topologia encontrada utiliza umacamada intermediária com 32 neurônios e 1 neurônio nacamada de saída, taxa de aprendizagem η = 0,5. Osresultados obtidos pelo algoritmo de classificação foramvalidados pela ferramenta estatística cross validation [8].- Experimento 2: Classificação de nódulos mamáriospor ContornoFigura 7: Multi-Layer Perceptron (MLP).Os treinamentos foram validados pela técnica leaveone-out[8]. Estes atributos foram utilizados comoentrada para as Redes Neurais MLP com diversastopologias, porém apenas as melhores, para cadacombinação de classes, foram selecionadas, Tabela 2.151


Voltar ao sumárioTabela 2: Topologias utilizadas pela Rede Neural MLPutilizando como entrada 20 atributos selecionados.2.3. Seleção de AtributosDois métodos foram utilizados nos testes para aseleção dos melhores atributos:- Distribuições Gaussianas: neste método, quantomenor a sobreposição das curvas, melhor o atributopoderá representar cada padrão, conforme pode servisualizado na Figura 9, onde a base da curva cinza, querepresenta os nódulos normais, não sobrepõe a curvapreta que indica a existência de nódulo. Quanto maioressa sobreposição, pior será a representação, conformevisualizado na Figura 10, onde as bases das curvas sesobrepõem.Figura 9: Sem a sobreposição das curvas.Figura 10: Com sobreposição completa- Rede do tipo Self-Organizing Map (SOM): comoessa RNA tem a propriedade de se auto-organizar e deextrair as características comuns dos padrões de entradas,ou seja, agrupar os padrões com característicassemelhantes, ela foi utilizada para verificar os atributosque melhor realizavam a separação das classes [8].3. ResultadosDois experimentos são apresentados: o primeiro temcomo objetivo mostrar o potencial dos atributos deHaralick [9] na análise da variação da textura dasimagens digitais e o segundo verifica como os descritoresde textura se comportam dependendo da complexidade daclassificação – sozinhos e em conjunto com outros tiposde descritores como intensidade [10] e geométricos [11];3.1. Experimento 1: Classificação de RIs em Imagenscom nódulo ou sem nódulos (normais)Um classificador Multi-Layer Percetron (MLP), foiutilizado para classificar 120 regiões de interesse (RIs)(1º. Conjunto de RIs) em imagens com nódulos enormais.Neste experimento todos os atributos de textura deHaralick foram extraídos das RIs e através da utilizaçãode Gaussianas foram selecionados 6 atributos para otreinamento. Os resultados da MLP, após váriostreinamentos apresentaram taxa de acerto igual a91,50% de acerto na fase de validação e desvio padrão de4,41, conforme Tabela 3.Tabela 3: Resultados da MLP, tendo como entrada 6atributos de textura selecionados pelas Gaussianas.% de acertos por classe %Ciclos Com Nódulo Sem Nódulo Acertos798 100,00 83,33 91,67836 93,33 96,67 95,00942 83,33 100,00 91,67959 93,33 76,67 85,00814 86,67 100,00 93,331008 90,00 80,00 85,00777 100,00 73,33 86,67836 93,33 96,67 95,00883 90,00 100,00 95,00795 100,00 93,33 96,67Média 91,50Desvio Padrão 4,413.2. Experimento 2: Classificação de nódulosmamários por ContornoCom base nas 110 RIs (2º. Conjunto de RIs), foramextraídos atributos de textura, intensidade e geométricos,num total de 49 características, sendo eles:152


Voltar ao sumário- Todos os Descritores de textura [9].- Descritores de Intensidade: Média de intensidade dohistograma, Valor de intensidade do maior valor dohistograma, Menor intensidade do histograma, Maiorintensidade do histograma, Porcentagem do maior valorde intensidade do histograma em relação à escala de4096 níveis, Porcentagem Maior, Ponto Médio, PontoMínimo, Porcentagem Total, Diferença da média para omenor valor de intensidade, Diferença da média para omaior valor de intensidade, Variação de intensidadeglobal, Índice de variação de intensidade local (DI -Densidade Integrada - que integra as diferenças dasvariações locais de intensidades e a variação média,dando uma medida que quantifica contraste entre aspartes mais claras da imagem e o restante), Quantidadede pixels com intensidades maiores que a intensidade dopico do histograma, Porcentagem da área da RI comintensidade maior que a intensidade do pico dohistograma e Quantidade de níveis de cinza da RI [10].- Descritores Geométricos: Momentos, MomentosInvariantes (MI) de Hu, perímetro, área, compacidade eirregularidade [11].As seleções foram realizadas tendo como base ascinco classes de nódulos por contorno. Foi utilizada aRede Neural SOM em conjunto com Gaussianas para aseleção das melhores características. Para isso foramgeradas 49 Gaussianas e 49 SOMs, referente aos 49atributos extraídos. Com base nos resultados da RedeSOM e da validação positiva através de distribuiçõesgaussianas, foram verificadas novas possíveiscombinações de classes [12].A Rede Neural SOM possui a seguinte topologia: nafase de ordenação: 1000 iterações, com uma taxa deaprendizado η = 0,1 e raio de vizinhança r = 5; e na fasede convergência também foram utilizadas 1000 iterações,porém, com uma taxa de aprendizado η = 0,01 e raio devizinhança r = 1 em um mapa de 100 por 100 neurônios.Após as comparações, foram selecionados 20atributos, sendo eles:- Atributos de textura: Contraste, Entropia daDiferença, Entropia da Soma, Momentos da DiferençaInversa, Média da Soma e Variância;- Atributos de Intensidade: quantidade de níveis decinza da RI, índice de variação de intensidade local (DI -Densidade Integrada), diferença da média para o menorvalor de intensidade, diferença da média para o maiorvalor de intensidade e variação de intensidade global daRI (que consiste na média da variação de intensidade detodos os pixels da região);- Descritores Geométricos: Momentos de Hu1,Momentos de Hu4, Momento 20 , Compacidade,Irregularidade, Perímetro da lesão, Área da lesão, Área(pontos brancos) e Raio de Giração.Estes atributos foram utilizados como entrada para asRedes Neurais MLP com diversas topologias. Apenas osmelhores resultados, Tabela 4, com valores altos de Az ebaixo Falso Negativo (FN) foram selecionados.Tabela 4: Treinamento realizado com 20 atributosselecionados pela Rede Neural SOM e Gaussianas4. ConclusãoO uso de descritores de textura para esquemas CADvem sendo muito estudado atualmente. Embora fiquedifícil o entendimento da utilização de textura para aclassificação de contorno, por exemplo, os descritores detextura fornecem medidas, como suavidade, rugosidade eregularidade, as quais, isoladamente, não produzem bonsresultados para a classificação de contorno; mas, juntocom outras técnicas, podem contribuir no que diz respeitoa informações sobre a variação de intensidade oualterações sutis entre o objeto e o fundo da imagem.A tarefa de classificação ocorre em várias áreas daatividade humana e as pesquisas na área têm sidobastante direcionadas à construção de procedimentosautomáticos de classificação para esquemas CAD. Alémdos estudos envolvendo a classificação, outras técnicasvêm sendo estudadas para melhorar a separação declasses, reconhecimento de padrões e tomada de decisões.Em ambos os experimentos foi possível identificar umbom desempenho da Rede Neural Artificial MLP. Noprimeiro experimento como estávamos lidando comimagens que possuíam nódulos ou não, foi mais fácilobter bons resultados, 91,50% de acerto, apenas com autilização da textura da imagem, isso porque, mesmo asRIs possuindo estruturas densas referentes a estruturafísica da mama as variações de textura entre uma RI comnódulo é muito maior do que uma RI sem nódulo.No 2º. Experimento reuniu-se a utilização de atributosde textura, junto com outras técnicas, como descritores deintensidade e geométricos para diferenciar padrões decontorno com diferentes combinações de classes e comisso foi possível obter bons resultados sendo o mais153


Voltar ao sumárioimportante referente às cinco classes com Az igual a 0,80e baixo FN.Uma dado importante a ser salientado é que para o 1º.Experimento, antes da seleção dos melhores atributos detextura, o classificador estava registrando 86,67% deacerto; mas, após a seleção das melhores características,aumentou seu nível de precisão em 5,57%. Já no 2º.Experimento a seleção dos melhores atributos apresentoubons resultados (valores acima de 80%) em todos ostestes realizados. Mostrando, assim, que uma pré-seleçãomelhora os resultados do classificador em todos osmodelos verificados.Outro dado importante é que a análise realizada peloespecialista continua sendo bastante subjetiva e aidentificação de uma lesão como suspeita ou não e suadetecção dependem muito da experiência do médico.Essa é mais uma motivação para o uso de ferramentasautomáticas para o auxílio ao diagnóstico, que tentamfornecer uma análise baseada em dados mais objetivosatravés de valores extraídos da própria imagem.5. Referências[1]D. B. Kopans, Imagem da Mama. Rio de Janeiro,MEDSI, pag. 852, 2000.[2]G. W. Mitchell Jr., L. W. Basset, Mastologia Prática.Revinter, 1988.[3]J. E. BALL, T.W. BUTLER, L. M. BRUCE, “TowardsAutomated Segmentation and Classification ofMasses in Digital Mammograms”. Proceedings of the26 th Annual International Conference of the IEEEEMBS, San Francisco, CA, USA, pp. 1814-1817,2004.[4]B. ZHENG, et al, “Detection and ClassificationPerformance Levels of Mammographic Masses UnderDifferent Computer-Aided Detection CueingEnvironments”. Academic Radiology, v. 11, ed. 4, pp.398-406, 2004.[5]J. E. MEYER, et al., “Biopsy of occult breast lesions:analysis of 1261 abnormalities”. JAMA, v. 263, pp.2341-2343, 1990.[6]M. MAVROFORAKIS, et al., “Significance analysisof qualitative a mmographic features, using linearclassifiers, neural networks and support vectormachines”. European Journal of Radiology, v. 54, ed.1, pp. 80-89, 2005.[7] K. DOI, et al., “Recent Progress in Development ofComputer-Aided Diagnosis (CAD) Schemes InRadiology”. Medical Image Technology, v. 13, n. 6,pp. 822-835, 1995.[8]S. HAYKIN, Neural Networks: A ComprehensiveFoundation. Macmillan Publishing Co:/ IEEE Press,1994.[9]R. M. HARALICK, K. SHANMUGAM, I.DINSTEIN, “Testural Features for ImageClassification“. IEEE Transactions on Systems Man,and Cybernetics, Vol-SMC 3, n.6, 1973.[10] X. H. WANG, et. al., “Computer-Assisted Diagnosisof Breast Cancer Using a Data-Driven BayesianBelief Network”. International Journal of MedicalInformatics, v. 54, pp 116-126, 1999.[11] M. K. HU, “Visual Pattern Recognition byMoments Invariant“. IRE Trans. Inf. heory, v.8, pp.179-187, 1962.[12] P. B. RIBEIRO, H. SCHIABEL, A. C.PATROCINIO, A. F. R. ROMERO. “A Influência daSeleção de Melhores Atributos na Classificação deContornos de Nódulos de Mama Através de RNA”.In: XX CBEB – Congresso Brasileiro de EngenhariaBiomédica, São Pedro. 2006.154


Voltar ao sumárioAvaliação do desempenho de recuperação de imagens médicas baseada emconteúdo em redes de computadores e na Internet.Ana Carolina N. da R. GraciosoUniversidade de São Paulo – EESCcarol_gracioso@hotmail.comAna Cláudia ParisUniversidade de São Paulo – EESCacp@netsite.com.brMagali Andréia RossiUniversidade de São Paulo – PSImandreiarossi@gmail.comAdilson GonzagaUniversidade de São Paulo – EESCadilson@sel.eesc.usp.brResumoO principal objetivo deste trabalho é verificar aviabilidade de um sistema de recuperação de imagens porconteúdo em rede, testando os tempos computacionaisenvolvidos para acesso em uma rede óptica de altavelocidade (KyaTera [4]) e na Internet. São utilizadas asTransformadas Wavetels [2][6] como extratores decaracterísticas de texturas em imagens médicas,considerando-se a eficiência e tempo de recuperação.Palavras-chave: CBIR, Imagens Médicas, Redes deComputadores, Wavelets.1. IntroduçãoSistemas de recuperação de imagens por conteúdopodem auxiliar no diagnóstico e fornecer ao médico umconjunto de casos semelhantes ao do paciente em questãocom os respectivos diagnósticos. A necessidade dessasinformações serem disponibilizadas sem que fiquempresas a um local específico é um ponto importante a seranalisado. Com a Internet esta ação é possível e de fácilimplementação. O problema é que com o uso maciço darede, a velocidade de transferência dos dados podetambém ser um gargalo significativo. Para tentarsolucionar esta questão, este trabalho avalia os temposenvolvidos na recuperação de imagens médicas porconteúdo em rede, verificando o desempenhocomparativamente na Internet e em uma rede experimentalde alta velocidade chamada KyaTera, visando estabelecerparâmetros que possam orientar as necessidades para odesenvolvimento de sistemas CBIR (Content Based ImageRetrieval)[1] [7] em redes de computadores.1.1. Rede KyaTeraA KyaTera é uma rede óptica de alta velocidade quereúne competências e recursos laboratoriais necessáriospara desenvolver ciência, tecnologias e aplicações daInternet do futuro. Um link de 1,2 Gbps entre São Paulo eMiami conecta os pesquisadores de São Paulo com redesde pesquisa do mundo e é financiada pela NationalScience Foundation (EUA) e pela FAPESP (Fundação deAmparo à Pesquisa do Estado de São Paulo) por meio dainiciativa WHREN (Western Hemisphere Research andEducation Networks) [4].O LAVI (Laboratório de Visão Computacional), ondeeste projeto é desenvolvido, está conectado à rede estávelKyaTera que é baseada no protocolo Ethernet/IPespecificado no RFC 3378 do IETF (The InternetEngineering Task Force), e interliga todos os laboratóriosassociados ao projeto KyaTera através de uma malha óticade fibras SM (Single Mode Fiber) dedicada. A principalfunção da rede estável é oferecer serviços que promovampesquisa colaborativa entre os participantes do KyaTera,oferecendo para cada laboratório uma taxa de transmissãomínima de 1Gbps, através de um backbone de 10 Gbpsque interconecta os três grandes centros concentradores darede, localizados nas cidades de São Paulo (USP-SP),Campinas (UNICAMP) e São Carlos (USP-SC) [4].2. Materiais e MétodosPara implementação da metodologia proposta nestetrabalho foram desenvolvidos algoritmos em Matlabversão 7.0. O banco utilizado possui 4.728 imagens deexames de Tomografia Computadorizada, tamanho de512x512 pixels e codificação de 8 bits de níveis de cinza,pertencentes a 5 diferentes classes (Figura 3) conformemostra a Tabela 1.Tabela 1 – Classes das imagens médicas do banco.Classe Imagens Classe1 38 Coluna Vertebral2 131 Colo Lombar3 909 Crânio4 1403 Tórax5 2247 Abdômen155


Voltar ao sumário(a)(b)(c)Para medir os tempos de envio (upload) e resposta(processamento da imagem de consulta + busca porconteúdo + download das imagens no cliente) para ostestes realizados na Internet e na rede KyaTera, foramescolhidas cinco imagens de consulta com tamanhos eformatos variados (Tabela 4), uma de cada classe de umconjunto de 4.728 imagens do banco.(d)Figura 3: Exemplo de imagens das classes. (a) Crânio (b)Tórax (c) Abdomen (d) Coluna Vertebral (e) ColoLombar.2.1. Extração de CaracterísticasA eficiência de recuperação de imagens não estárelacionada somente à quantidade de elementos no Vetorde Características, mas também ao fator de discriminaçãodestas. É preciso então, que se determine a melhor relaçãoprecisão x velocidade para que se tenha uma operaçãosatisfatória de um sistema de recuperação de imagens emrede.Para a extração de características de imagens médicas,as Transformadas Wavelets têm sido amplamenteempregadas demonstrando ótimos resultadosrelativamente à precisão de recuperação em estações detrabalho [2][3][5][8].As Wavelets são funções que permitem a análise deum sinal no espaço-tempo x freqüência. Assim comosenos e cossenos são funções base na análise de Fourier,as Wavelets são usadas como funções-base narepresentação de outras funções [2][10].Como a diferenciação entre as classes das imagensmédicas, utilizadas neste trabalho, pode ser entendidacomo uma variação na textura das partes equivalentes acada parte do corpo, o Vetor de Características foi geradoconsiderando-se os coeficientes de aproximação obtidosno sétimo nível de decomposição da TransformadaWavelet de Haar.2.2. Tempos de Recuperação em RedePara que os parâmetros de tempo de recuperaçãopudessem ser medidos foi utilizado o Matlab WebServer[9] instalado junto com o servidor Apache. A interface dosistema foi desenvolvida em HTML e PHP, permitindoacessar a aplicação Matlab em rede através de qualquernavegador Web.Os testes em rede foram divididos em duas partes:medição dos tempos de resposta na rede KyaTera emedição dos tempos de resposta na Internet.(e)2.2.1. Tempos de Respostas na Rede Kyatera. Paramedir a influência de uso da CPU nos tempos de respostade recuperação, foram realizadas buscas no servidor comtaxas de ocupação da CPU de 0%, 8% e 64%, onde, nataxa de 0% nenhuma instrução estava sendo executadaalém das do sistema operacional; com 8% um vídeoestava sendo executado simultaneamente ao processo derecuperação das imagens e com 64% uma rotina doMatlab era executada simultaneamente. Também foramrealizadas medidas em diferentes pontos de acesso da redeKyaTera (Figura 4).IFSC/antigoIFSC/novoICMCSEL/EESCUFSCarFibra óptica 1 GbFigura 4: Pontos da rede KyaTera onde as medidas foramrealizadas.A Tabela 2 mostra a configuração das máquinasutilizadas. O servidor, localizado no LAVI-EESC(Laboratório de Visão Computacional – Escola deEngenharia de São Carlos) foi acessado de pontos daKyaTera localizados no Lightways-IFSC (Instituto deFísica de São Carlos) e no GSDR-UFSCar (Grupo deSistemas Distribuído e Redes – Universidade Federal deSão Carlos).Tabela 2 – Configuração dos computadores em pontosdistintos da rede Kyatera.Local Proc. Veloc. RAM BandaEESC P4 3.0 Mhz 1 Gb -IFSC Core 2 Duo 1.86 Mhz 4 Gb 641 MbpsUFSCar P4 3.0 Mhz 1 Gb 475 MbpsPara medir os tempos de resposta sem a influência daconfiguração da máquina, um mesmo NoteBook comprocessador Core 2 Duo de 2.0 Mhz, 1 Gb de RAM e 2Mb de memória cache, foi utilizado nos diferentes pontosde acesso da rede KyaTera. Estas medidas foramrealizadas através de três seqüências e com a CPUocupada com taxas de 0% e 15% (utilizando vídeosimultâneo) cada uma: Primeira seqüência: NoteBook156


Voltar ao sumárioacessando o servidor de um ponto na rede dentro domesmo laboratório (Lightways-IFSC), com largura debanda de 1 Gbps. Segunda seqüência: NoteBookacessando o servidor de um ponto na rede localizado nolaboratório Intermídia-ICMC, com largura de bandamédia de 653 Mbps. Terceira Seqüência: NoteBookacessando o servidor de um ponto na rede localizado nolaboratório GSDR-UFSCar, com largura de banda médiade 917 Mbps.2.2.2. Tempos de Respostas na Internet. As medidas naInternet foram obtidas através de recuperações dasimagens realizadas por voluntários e foram classificadasde acordo com o meio de comunicação: fibra, rádio, cabo,ADSL e Dial-up conforme mostra a Tabela 3.Tabela 3 – Acesso através da InternetRecuperações Realizadas na InternetMeio Acessos Veloc. Mínima Veloc. MáximaFibra 12 295 Kbps 34.420 KbpsRádio 15 5 Kbps 3.150 KbpsCabo 18 126 Kbps 5.040 KbpsADSL 51 43 Kbps 13.790 KbpsDial-up 5 5 Kbps 51 Kbps3. ResultadosPara os testes em rede foram selecionadas 5 imagensde tamanhos distintos (Tabela 4), utilizadas como imagensde buscas durante os testes. Os tamanhos das imagensselecionadas foram definidos de acordo com o tamanhodas imagens médicas obtidas para este estudo. A Tabela 5mostra a quantidade de Kilobytes retornada em cadarecuperação.Tabela 4 – Tamanho das imagens de busca.Tamanho Arquivos de UploadsImagem 1 35 Kb Imagem 4 1240 KbImagem 2 114 Kb Imagem 5 3096 KbImagem 3 541 Kb3.1. Precisão de RecuperaçãoO índice de precisão de recuperação para as 4.728imagens utilizadas foi de 91,8%, considerando-se as 30primeiras imagens mais semelhantes. Estes resultadosforam obtidos gerando-se um vetor de característicascomposto pelos 16 coeficientes de aproximação do sétimonível de decomposição da Transformada Wavelet de Haar.3.2. Recuperação Local das ImagensPara medir a influência da utilização da CPU nostempos de resposta, foram realizados 1.050 testes locaisno servidor, sendo 350 testes para cada taxa de utilizaçãoda CPU (0%, 8% e 64%). No gráfico da figura 5, quemostra os tempos de upload, o eixo x representa otamanho do arquivo de imagem de busca enviado emKilobytes de acordo com a Tabela 4. Cada tempo no eixoy equivale à média de tempos em ms de upload para asimagens.500450400350300250200150100500Upload35 Kb 114 Kb 541 Kb 1240 Kb 3096 KbTamanho do ArquivoCPU 0% CPU 8% CPU 64%Figura 5: Gráfico da média de tempos de upload paratestes locais no servidor.Qtd ImagensretornadasTabela 5 – Tamanho total (kb) dos arquivos retornados.Imagem 1 Imagem 2 Imagem 3 Imagem 4 Imagem 51 86 166 72 72 665 267 550 150 148 12110 509 932 251 236 19715 706 1313 346 324 28820 937 1710 440 415 36625 1246 2098 533 503 43230 1651 2532 630 587 5133.2. Recuperação realizada em pontos diferentesda Rede Kyatera com máquinas clientes distintasForam realizados 700 testes utilizando 0% da CPU empontos diferentes da rede KyaTera. A figura 6 traz osgráficos das médias dos tempos de downloads para aimagem 1. As médias de tempos das outras imagens secomportaram de forma semelhante.157


Voltar ao sumárioImagem 1Imagem 55300500047004400410038003500320029002600230086 Kb 267 Kb 509 Kb 706 Kb 937 Kb 1246KbTamanhoTotal dos Arquivos1651Kb580054005000460042003800340030002600220018 0066 Kb 197 Kb 366 Kb 513 KbTamanhoTotal dos ArquivosIFSC - 641 M bUFSCar - 475 M bLOCAL - 1000 M b UFSCAR - 917 M b ICM C - 653 M bFigura 6: Gráficos das médias de tempos de downloadsda imagem 1 em pontos e máquinas diferentes na Kyatera.3.3 Recuperação realizada em pontos diferentesda rede KyaTera com a mesma máquina clientePara se analisar os tempos de respostas envolvidos narecuperação das imagens sem a interferência daconfiguração da máquina, foram realizados testes em trêspontos diferentes da rede utilizando a mesma máquina. Asmédias dos tempos foram obtidas realizando-se 600 testes,sendo 200 em cada ponto da rede (Figuras 7 e 8).Figura 8: Gráfico da média de downloads da imagem 5em três pontos da rede KyaTera com a mesma máquina.3.4 Recuperação de imagens utilizando a InternetPara que se pudesse avaliar o desempenho derecuperação por conteúdo das imagens através da Internetforam realizados testes por voluntários localizados emdiversos pontos da rede. Os testes foram classificados deacordo com o tipo de conexão (Tabela 3).Tempos de Upload650000Upload600000550000240210180150120906030035 Kb 114 Kb 541 Kb 1240 Kb 3096 KbTempo em Milissegundos500000450000400000350000300000250000200000150000Tamanho do Arquivo100000LOCAL - 1000 M b UFSCA R - 917 M b ICM C - 653 M bFigura 7: Gráfico da média de tempos de upload em trêspontos da rede KyaTera com a mesma máquina.50000035 Kb 114 Kb 541 Kb 1240 Kb 3096 KbTamanho do ArquivoDial-up Rádio Fibra Cabo ADSLFigura 9: Gráfico da média de upload na Internet158


Voltar ao sumárioO gráfico da Figura 9 traz a média dos tempos deupload dos testes realizados pelos voluntários na Internet.As médias dos tempos foram obtidas realizando-se 20testes por voluntário totalizando 2020 testes.3.5 Resultados comparados - Internet x KyateraOs gráficos das figuras 10 e 11 foram gerados comtestes realizados em velocidades de 12 Mbps, 3 Mbps e amédia dos tempos obtidos na Kyatera, visando definir avelocidade a partir da qual os tempos de resposta passama ser influenciados pela largura de banda disponível.900008400078000720006600060000540004800042000360003000024000180001200060000Uplo ad35 114 541 1240 3096Tamanho do Arquivo em KbMédia Kyatera Internet 12 Mbps Internet 3 MbpsFigura 10: Gráfico de tempos de upload na Internet xmédia KyaTera.160001500014000130001200011000100009000800070006000500040003000200010000Imagem 472 236 415 587Tamanho do ArquivoM édia Kyatera Internet 12 M b Internet 3 M bFigura 11: Gráfico de tempos de download da imagens 4na Internet x média KyaTera.3.6 Aceitabilidade dos Tempos de Respostaobtidos na InternetOs voluntários, além de efetuar as medições dostempos, opinaram sobre a aceitabilidade dos tempos deresposta. Na opinião de mais de 50% deles, os tempos deupload e resposta obtidos na recuperação de imagens porconteúdo de arquivos com até 500 Kb através da Internet,são aceitáveis. É importante ressaltar, no entanto, quedurante os testes os voluntários foram instruídos a fechartodos os aplicativos em execução e ficar apenas com obrowser aberto. Na prática, um médico ou estudante demedicina ao acessar um sistema real via Webprovavelmente estará executando várias outras tarefas nocomputador e isso influenciará diretamente nos tempos deresposta devido às taxas de ocupação da CPU.Outro ponto importante a ser observado é que ummédico ao acessar o sistema poderá não dispor do tempoque os voluntários dispunham e o mesmo tempoclassificado por um voluntário como aceitável poderiaentão ser classificado como inaceitável pelo médico.4. Análise dos ResultadosO gráfico da figura 6 demonstra que apesar depróximos, os tempos de resposta obtidos no ponto doIFSC foram mais baixos que os obtidos no ponto daUSFCar. Este fato deve-se a diferenças na configuraçãodas máquinas e não pela largura de banda como pôde-seobservar nos testes realizados em velocidades distintascom a mesma máquina (Figuras 7 e 8).Os testes realizados localmente no servidor, e empontos diferentes da rede com velocidades variando entre653 Mbps e 1Gbps (Figuras 7 e 8) demonstraram que ostempos de reposta para uploads e downloads são próximose a diferença de largura de banda não introduz atrasossignificativos nos tempos de recuperação.Analisando-se, assim, os gráficos das figuras 5 a 8verifica-se que os fatores que mais influenciam os temposde resposta são a configuração e utilização da máquina docliente e não a largura de banda da rede KyaTera,demonstrando ser possível recuperar imagens porconteúdo em rede com tempos equivalentes aos temposobtidos localmente.Já o gráfico da figura 9, gerado através dos testesrealizados pelos voluntários na Internet, demonstra que ostempos obtidos pelos voluntários com Internet de fibraóptica, cabo, rádio e ADSL, foram próximos paraarquivos de até 500 Kb. Para arquivos maiores, os meiosde transmissão começam a apresentar diferençassubstanciais de desempenho. Os tempos com InternetDial-up foram maiores para qualquer tamanho de arquivo.Os gráficos das figuras 10 e 11 demonstram que parauploads de até 100 Kb e downloads de até 500 Kb, redes159


Voltar ao sumáriocom velocidades a partir de 3 Mbps mostram-sesuficientes para trabalhar com sistemas de recuperação deimagens por conteúdo. Para arquivos maiores, as redescom velocidades a partir de 12 Mbps obtiveram tempos deresposta semelhantes aos tempos obtidos na rede KyaTerae semelhantes aos tempos locais demonstrando a nãoinfluência da rede e a dependência do tempo com ométodo de recuperação e com a configuração da máquinacliente.5. ConclusõesA metodologia proposta neste trabalho pararecuperação de imagens médicas por conteúdo através doatributo textura utilizando a Transformada Wavelet deHaar, e com buscas em bases de imagens localizadas emservidores em redes de computadores, demonstrou sereficiente e aplicável. Os vetores de características foramgerados com os coeficientes de aproximação do sétimonível de decomposição da Transformada Wavelet de Haar.Para o conjunto de 4.728 imagens do banco de testes, aprecisão de recuperação foi de 91,4% .Os testes realizados em rede demonstraram serpossível a implementação de um sistema de recuperaçãode imagens médicas por conteúdo em rede, porém, fatoresimportantes devem ser considerados como: arquitetura damáquina cliente, utilização da CPU e disponibilidade dabanda. A arquitetura da máquina e a utilização da CPUinfluenciam diretamente no desempenho final do sistema.No entanto, para o banco de imagens utilizado nestetrabalho, a disponibilidade da banda passa a ser um fatordecisivo para velocidades abaixo de 13 Mbps. Paravelocidades superiores a esta, os tempos de resposta sãomais influenciados pela configuração da máquina do quepela disponibilidade de banda na rede.Segundo os voluntários que testaram o sistema naInternet, considerando o tamanho dos arquivos, parauploads de até 100 Kb e downloads de até 500 Kb, ostempos de resposta obtidos em redes com velocidades apartir de 3 Mbps foram satisfatórios. Para arquivosmaiores, velocidades a partir de 13 Mbps são desejáveis.Os testes realizados pelos voluntários demonstraramque a Internet atual não é ideal para o uso de um sistemade recuperação de imagens médicas por conteúdo. Paraacesso em rede de um sistema como esse, seria necessáriaa implantação de uma rede de alta velocidade interligandoos hospitais, clínicas médicas e universidades. Porém,eventuais acessos fora destes locais seriam possíveisdependendo da velocidade da Internet, tamanho doarquivo e disposição do usuário em aguardar o tráfego dosdados pela rede. Este trabalho objetivou demonstrar aviabilidade de recuperação de imagens médicas porconteúdo através da rede de computadores, utilizandoapenas a classe de cada uma. No entanto, uma pesquisamais detalhada sobre atributos discriminantes para cadaclasse pode contribuir com futuros trabalhos quepretendam classificar patologias.6. AgradecimentosOs autores agradecem à FAPESP pelo suporte aopresente trabalho e ao Hospital Amaral Carvalho de Jaúpelo fornecimento da imagens que formaram o bancoutilizado.7. Referências[1] BUENO, J. M., CHINO, F., TRAINA, A. J..M.,TRAINA JR, C., MARQUES, P. M. A. M. How to AddContent-based Image Retrieval Capability in a PACS.IEEE International Conference on Computer BasedMedical Systems - CBMS, Maribor, Slovenia, pp. 321-326, 2002.[2] DAUBECHIES, I. Ten Lectures on Wavelets, vol. 61.CBMS-NSF Regional Conference Series in AppliedMathematics, Rutgers University and AT&T BellLaboratories, 1992.[3] KARAM, O. H. et al. Enhancement of wavelet-basedmedical image retrieval through feature evaluation usingan information gain measure. ACM symposium on Appliedcomputing, Melbourne, Florida, p. 220-226, 2003.[4] KyaTera. Disponível em: . Acesso em: 26 jan.2008.[5] LAMARD, M. CAZUGUEL, G. QUELLEC, G.BEKRI, L. ROUX, C. COCHENER, B. ContentBased Image Retrieval based on Wavelet Transformcoefficients distribution. 29th Annual InternationalConference of the IEEE, Aug, 2007.[6] MALLAT, S. G. A Theory for Multiresolution SignalDecomposition: The Wavelet Representation. IEEETransactions on Pattern Analysis and MachineInteligence, vol. 11, n° 7, p. 674-693, July 1989.[7] MÜLLER, H., MICHOUX, N., BANDON, D.,GEISSBUHLER A. A Review of Content-Based ImageRetrieval Systems in Medical Applications – ClinicalBenefits and Future Directions. International Journal ofMedical Informatics, vol. 73, p. 1-23, 2004.[8] NITTER, B. MITRA, S. Secure Medical ImageRetrieval Over the Internet. Multimedia and Expo, IEEEInternational Conference on, July, 2007.[9] The Mathworks Inc. Matlab: The Language ofTechnical Computing. Matlab Help, 2004.[10] WANG, J. Z. Wavelets and Imaging Informatics: AReview of the Literature. Journal of BiomedicalInformatics, vol. 34, p. 129-141, 2001.160


Voltar ao sumárioBoosting RAP-2D Image Restoration Through Genetic ProgrammingJoão Paulo PapaUniversity of CampinasInstitute of ComputingAv. Albert Einstein, 1251P.O. Box 6176 - Campinas, SP, Brazilpapa.joaopaulo@gmail.com.brGreice Martins de FreitasUniversity of CampinasSchool of Electrical and Computer EngineeringAv. Albert Einstein, 400P.0. Box 6101 - Campinas, SP, Brazilgreice@dca.fee.unicamp.brAbstractIterative image restoration algorithms can better controlthe restoration process, but the choice of the relaxation parameterscan be an inviable task. We present here a GPbasedapproach that stabilizes the iterative RAP-2D imagerestoration algorithm choosing the optimal or quasioptimalrelaxation parameters that maximize the improvementsignal to noise ratio of phantom images. CBERS-2CCD band 2 satellite images were also restored to validatethe proposed GP-based framework for image restoration.1. IntroductionImage restoration techniques aim to remove both noiseand blurring effects from images using some kind of a prioriknowledge of the degraded ones [1], instead of imageenhancement approaches, which does not contain any informationabout the images that will be filtered. In the imagerestoration context, the term degraded is related to theimages that are both noised and blurred, in the sense thatthe noise can be addressed by some kind of electric or electromagneticinterference in the case of image transmissionin remote sensing applications, or even so in tomographicimages, which suffer from Poisson noise. The blurring effectshave several reasons, which are mainly related to motionblur, sensor physical limitations and distortions causedby atmospheric turbulences.One of the main problems in image restoration is to restorethe image details smoothed by the blurring process,which are modeled by the point spread function (PSF), butwith the compromise of keeping the noise in acceptable levels.A large number of image restoration methods have beendeveloped for several applications, like Inverse and WienerFilter, regularization techniques and MAP techniques. [2]developed the Modified Inverse Filter, which is a regularizedversion of the Inverse Filter to restore and interpolateLandsat images; [3] dealt with the restoration of imagescontaining mixed pixels; [4] tackled the problem oflens defocus and linear motion blur in Space Shuttle images;[5] described the design of small convolution kernelsfor the restoration and reconstruction of Advanced VeryHigh Resolution Radiometer (AVHRR) images; [6] appliedimage restoration techniques to multispectral images; [7]used complex wavelet packets to deconvolve degraded images;[8] restored SAR images using the technique of IndependentComponent Analysis.As aforementioned, the compromise between image detailsand acceptable noise levels oriented the development ofiterated image restoration techniques, in which the amountof image restoration can be controlled among the iterationsby using regularization or projection techniques. One of themost used projection techniques are the Row-Action ProjectionMethod (RAP) and the Simultaneous Iterative ReconstructionTechnique (SIRT) [9], which were compared in thecontext of remote sensing image restoration in [10]. Sincethe image restoration problem can be modeled by a linearsystem, the RAP method uses a priori knowledge about theimage or the imaging system and compute the projectionsonto the hyperplanes, which are constrained by a relaxationparameter, iteratively until to meet some criteria [11].However, the RAP algorithm for image restoration presentedby [9] have some limitations, and one of the most importantis its expensive computational effort. For instance,one 256×256 monochromatic image has 256×256= 65536hyperplanes to be projected in only one iteration of the algorithm.In most cases, at least up to five iterations are neededto partially restore the image. Trying to address this problem,[12] proposed the RAP-2D, which is a modification ofthe traditional RAP algorithm, which runs much faster andworks similar to a convolution process, by using windowingtechniques to restore the image. As we know, the windowingtechniques suffer from the blocking artifacts productiondue to the discretization and limited size of the windows,making the RAP-2D particularly extremely dependent of161


Voltar ao sumárioits relaxation parameter. High values can make the restorationprocess faster, but its more difficult to handle the artifactsgrowing process, and low values of the relaxation parametercan lead us to a poor image restoration. This makethe choice of the relaxation parameter a hard task, and extremelydependent of the blur and noise characteristics.Methods to find optimal or quasi-optimal solutions (parametersoptimization) for problems in image processingbased on evolutionary computation have been extensivelyaddressed in the last years. [13, 14] applied Genetic Algorithms(GA) for selection and feature combination in patternrecognition applications. Techniques based on GeneticProgramming (GP) [15] have been used for feature combinationin the context of Content-Based Image Retrieval(CBIR) [16]. Both GA and GP-based techniques try to findthe solution over the natural selection of the possible solutions(individuals) among the iterations of the algorithm(generations). The main difference between GA and GP isthe way that the data are modeled: GA-based techniquesmodel the individuals as been strings containing 0 or 1 values,instead of GP approaches, which represent the possiblesolution with more robust data structures, such that binarytrees and linked lists, for instance.In that way, the main goal of this work is to improve andstabilize the performance of the RAP-2D image restorationalgorithm by choosing an optimal or quasi-optimal relaxationparameter through GP-based techniques. In order tovalidity our method, CBERS-2 CCD band 2 satellite imageswere restored with the optimal relaxation parameterobtained by GP in Lena phantom images, which were degradedwith the same CBERS-2 CCD band 2 blur and noisemodels. The remainder of the paper is organized as follows.Section 2 presents the image restoration formulation. Sections3 and 4 contain, respectively, the RAP and GP theory.Section 5 discusses the experimental results and Section 6provides some conclusions.2. Image RestorationThe image restoration problem reported here is to obtainan estimate of an image f from its degraded and noisy observationg which is the result of a linear imaging systemmodeled byg = Hf + n, (1)where H is the convolutional degradation operator, denotedhere as the block circulant matrix, and n denotes the additiveobservation noise [17]. Vectors g, f and n correspond tolexicographical ordering of the respective two-dimensionalfields by rows, with dimension M, and columns, with dimensionN. Consequently, these vectors and matrix H have,respectively, MNx1 and MNxMN dimensions.The image restoration can be understood as a techniqueused to correct the distortions produced by the imagingsystems. The undesirable effect over the image is detailsmoothing and the correction of this problem is based on thesensor characteristics. Obtaining f from Equation 1 is not astraight forward task, since in most cases of interest the matrixH is ill-posed. Mathematically this means that certaineigenvalues of this matrix are close to zero, which makesthe inversion process very unstable. For practical purposesthis implies that the inverse solutionor the pseudo-inverse solutionˆf 1 = H −1 g (2)ˆf 2 =(H T H) −1 H T g (3)amplify the noise and provide useless results. This fact motivatedthe development of several image restoration techniques,as aforementioned in Section 1. Regularized andprojection-based techniques are the most actively pursuedapproaches to deal with ill-posed problems, because theiriterated algorithms allow a better controlling of the restorationprocesses. Section 3 presents the RAP algorithm, whicha projection-based technique for image restoration.3. Row-Action Projection - RAPThe image restoration linear model can also be describedbyg = Hf, (4)which is similar to Equation 1, but without the noise term,where each line of g denotes an equation that can be representedby a hyperplane. If the intersection of these hyperplanesis non-empty, the main goal is to find this intersectionset, which will contain the solution of the restoration problem.The projection-based algorithm to obtain the solutionof the linear system described by Equation 4 is called Row-Action Projection (RAP) or ART (Algebraic ReconstructionTechnique) in the tomographic image reconstruction researchfield, which was initially developed by Kaczmarz in1937 [12]. The method converges to the hyperplanes intersection,and the RAP equation is given byf (k+1) = f (k) + λ g p − h T p f kh p 2 h p , (5)where λ is the relaxation parameter, g p is the pth elementof vector g, h t (k+1)p is the pth row of matrix H and fis the f (k) projection onto the corresponding hyperplane.The iteration index is related to the equation index byp = k mod MN, indicating that each row is used multipletimes in the restoration process. The success of RAP algorithmimplementation depends on the initial condition, iterationsnumber and relaxation parameter λ.162


Voltar ao sumário3.1. RAP-2DImaging systems are generally designed so that thedegradation matrix H is sparse. In addition, this degradationoperator is a block Toeplitz matrix in the shift-invariantcase and will represent a 2-D linear convolution given byg(i, j) = h(i − m, j − n) f(m, n). (6)m nThe sparseness of the matrix H is due to the fact that thesize of the PSF is generally much smaller than the size ofthe image.The RAP algorithm given by Equation 5 can be implementedby considering only a subregion of the 2-D imagef that is determined by the size of the 2-D support of thePSF. In this case, every row of the matrix H in Equation 4contains only NxN entries, where N denotes the PSF size.Each pixel g(i, j) of the blurred image g corresponds to aspecific equation of the set given by Equation 5. Hence, the2-D formulation of the RAP algorithm can be written as f (k) (m, n)+λC, if fˆf b(k) (m,n)∈S h(i,j) ,(k+1) (m,n)=f (k) (m, n) otherwise,(7)whereǫ(i, j)C =2h(i − m, j − m),h(i, j)ǫ(i, j) =g(i, j) − h(i − m, j − n) f (k) (m, n),m,n∈S h(i,j)h(i, j) 2 = h(m, n) 2 ,m,n∈S h(i,j)and S h(i,j) is the support of the PSF centered at pixel g(i, j).In that way, the RAP-2D algorithm can be implemented asa 2-D convolution. That is, each projection operator is local,requiring only the neighborhood S h(i,j) of the image f,at each iteration [9].4. Genetic ProgrammingGenetic algorithms (GAs) [18] and genetic programming(GP) [15] are a set of artificial intelligence problem-solvingtechniques based on the principles of biological inheritanceand evolution. Each potential solution is called an individual(i.e., a chromosome) in a population. Both GA and GPwork by iteratively applying genetic transformations, suchas crossover and mutation, to a population of individualsto create more diverse and better performing individuals insubsequent generations. A fitness function is available to assignthe fitness value for each individual.The main difference between GA and GP relies on theirinternal representation – or data structure – of the individual.In general, GA applications represent each individualas a fixed-length bit string, like (1101110 ...) or a fixedlengthsequence of real numbers (1.2, 2.4, 4,...). In GP, onthe other hand, more complex data structures are used (e.g.,trees, linked lists, or stacks [19]). Furthermore, GP datastructure length is not fixed, although it may be constrainedby implementation to be within a certain size limit. Becauseof the intrinsic parallel search mechanism and powerfulglobal exploration capability in a high-dimensional space,both GA and GP have been used to solve a wide range ofhard optimization problems that oftentimes have no knownbest solution.4.1. GP ComponentsIn order to apply GP to solve a given problem, several requiredkey components of a GP system need to be defined.Table 1 lists these essential components along with their descriptions.xsqrt* yxy+Figure 1. A sample tree representation.The entire combination discovery framework can be seenas an iterative process. Starting with a set of training imageswith known relevance judgments, GP first operates ona large population of random combination functions (individuals).These combination functions are then evaluatedbased on the relevance information from training images.If the stopping criteria is not met, it will go through the genetictransformation steps to create and evaluate the nextgeneration population iteratively.GP searches for good combination functions by evolvinga population along several generations. Population individualsare modified by applying genetic transformations, suchas reproduction, mutation, and crossover. The reproductionoperator selects the best individuals and copies them to thenext generation. The two main variation operators in GP aremutation and crossover. Mutation can be defined as randommanipulation that operates on only one individual. This operatorselects a point in the GP tree randomly and replacesthe existing sub-tree at that point with a new randomly generatedsub-tree. The crossover operator combines the ge-/163


Voltar ao sumárioComponentsMeaningTerminals Leaf nodes in the tree structure. (i.e., x, y as in Figure 1).FunctionsNon-leaf nodes used to combine the leaf nodes. Commonly numerical operations: +, -, *, /, log.Fitness FunctionThe objective function GP aims to optimize.ReproductionA genetic operator that copies the individuals with the best fitness values directly into the population forthe next generation without going through the crossover operation.CrossoverA genetic operator that exchanges subtrees from two parents to form two new children. Its aim is toimprove the diversity as well as the genetic fitness of the population.MutationA genetic operator that replaces a selected individual’s subtree, whose root is a picked mutation point,with a randomly generated subtree.Table 1. Essential GP Components.netic material of two parents by swapping a sub-tree of oneparent with a part of the other.5. Experimental resultsTwo rounds of experiments were conducted to demonstratethe validity of the proposed work. In the first seriesof experiments (Subsection 5.1), we first evaluate the effectivenessof our work in a phantom image, displayed by Figure2a (a 256×256, 8 bits/pixel Lena image). This phantomimage was degraded with the same CBERS-2 CCD band2 satellite blur and noise models in order to obtain the optimalλ ∗ (RAP-2D relaxation parameter). Further, we useλ ∗ in Equation 7 to restore the real CBERS-2 images (Subsection5.2). Recall that, for all situations, we execute theRAP-2D image restoration algorithm with 4 iterations.The phantom restored images were quantitatively evaluatedthrough the ISNR (improvement signal to noise ratio),given byi,ji,jISNR = 10 log 10⎧⎪⎨⎪ ⎩⎫⎪⎬[g(i, j) − f(i, j)]2 2(8)f(i, ⎪ j) − f(i, j) ⎭where g(i, j), f(i, j)and f(i, j) are, respectively, the degraded,original and restored images.5.1. Simulation TestsIn this section, we used as phantom the well known Lenaimage, which was degraded with two kind of blurring models:a gaussian and an average filter. The first ones was modeledas a bidirectional PSF corresponding to the CBERS-2CCD band 2 PSF specifications. Further, an additive gaussiannoise was applied to the blurred images, to completethe degradation process. Figure 2b displays the degradedLena image using a gaussian PSF with kernel size of 3×3and an additive noise with σ =2.As aforementioned, the RAP-2D image restoration algorithmis extremely sensible with respect to the relaxation parameterλ, in which high values can degrade the image (Figure2c) and low values can not fully restore the image (Figure2d). Intermediary values of λ can also produce blockingartifacts in high details regions of the images, as wecan see in Figure 2e. Trying to stabilize the RAP-2D algorithm,we proposed here the selection of λ parameter by GPtechnique, in which its success are dependent of the fitnessfunction F chosen. Here, we used as the fitness functionthe ISNR value, which means that only λ values that maximizesthe ISNR were chosen as the individuals for the nextgeneration of GP algorithm. Equation 9 describes the fitnessfunction used. ISNR if ISNR > 0,F =(9)−∞ otherwiseAlgorithm 1 illustrates the proposed GP-based imagerestoration framework.Algorithm 1:INPUT: Original f and degraded g images, PSF andinitial λ value.1. Generate an initial population of random “similaritytrees”.2. Perform the following sub-steps on original and degradedimages for 10 generations:2.1. Execute RAP-2D algorithm over the degradedimage in order to obtain the restored image f. 2.2. Calculate the fitness F ← getISNR(g, f, f)). 2.3. Record the top N top similarity trees.2.4. Create a new population by:2.4.1. Reproduction2.4.2. Crossover2.4.3. Mutation164


Voltar ao sumárioOUTPUT: “best individual” (i.e., the first tree of the lastgeneration).The function on item 2.2 calculates the ISNR value ofthe image restored by the RAP-2D technique using the original,degraded and restored images as parameters. The GPalgorithm outputs the best individual, which is representedby a binary tree containing some arithmetic operations, inorder to obtain λ ∗ . Figure 3 displays the optimal tree for therestored Lena image degraded with CBERS-2 CCD band 2satellite PSF specifications (Figure 2f). Note that one nodeof the tree is entitled LAMBDA, which is the initial λ valuethat is used as an input parameter of the GP algorithm. Here,we used λ =0.6.*0.41 cossin/LAMBDAcoscos*exp−0.02+sin/log0.15(a) (b) (c).LAMBDALAMBDALAMBDAFigure 3. Optimal tree for the restored Lenaimage degraded with CBERS-2 CCD band 2satellite PSF specifications.(d) (e) (f)Figure 2. Lena phantom images: (a) Originalimage. (b) Degraded image. (c) Restored imagewith λ = 0.1. (d) Restored image withλ =3. (e) Restored image with λ =1.5. (f) Restoredimage with λ ∗ =0.281522.λ values for the image Lena degraded with CBERS-2 CCDband 2 satellite PSF specifications (Figure 2b). The maximumvalue along the curve (0.456479) is the same of λ ∗ ,which was obtained by the proposed methodology.Robustness of GP-based approach10Table 2 displays the simulation results, in which the Lenaimage was degraded with a gaussian and an average blurringmodels and with an additive gaussian noise.ISNR-1-2-3-4Blur model Gaussian noise variance PSF size λ ∗ ISNRGaussian 2.0 3×3 0.281522 0.456479Gaussian 5.0 3×3 0.211867 0.131821Average 2.0 3×3 0.205810 0.168646Average 5.0 5×5 0.2718282 -0.182884-5-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6relaxation parameter valueFigure 4. Robustness of the proposed GPbasedimage restoration algorithm.Table 2. Simulation results.To validate the robustness of the proposed GP-based imagerestoration framework, Figure 4 displays the behaviorof the RAP-2D image restoration algorithm with different5.2. Real TestsIn this section we applied the proposed GP-based frameworkin two real images obtained from CBERS-2 CCDband 2 satellite (Figure 5), which were restored by the RAP-165


Voltar ao sumário2D algorithm with λ ∗ obtained over a phantom image, asdescribed in Subsection 5.1. As we can see, good results canbe achieved using the GP-based image restoration framework.(a)(b).(c) ().Figure 5. CBERS-2 CCD band 2 satellite images.(a) and (b) are the original and restoredimages from Alcântara Base, Maranhão-Brazil. (c) and (d) are the original and restoredimages from São José dos Campos,São Paulo-Brazil.6. ConclusionsWe present here a GP-based approach that stabilizesthe RAP-2D image restoration algorithm. Due to the RAP-2D sensitivity to the relaxation parameter, an empiricallychoice of λ is an inviable task. So, we used GP-based techniquesto find the optimal or quasi-optimal λ ∗ that maximizesthe ISNR value for a given image. We also observedthat the proposed approach can performs better dependingon the initial λ value (we used here λ =0.6) used by GP.Our future works will be guided by investigating better valuesto be used in the initial λ. Probably, GP-based techniqueswill be suitable for this task.References[1] A.K. Katsaggelos. Digital Image Restoration. Springer-Verlag New York, Inc., Secaucus, NJ, USA, 1991.[2] L.M.G.Fonseca,G.S.S.D.Prasad,andN.D.A.Mascarenhas.Combined interpolationrestoration of landsat imagesthrough fir filter design techniques. International Journalof Remote Sensing, 14(13):2547–2561, 1993.[3] H.-H. P Wu and R. A. Schowengerdt. Improved estimation offraction images using partial image restoration. IEEE Trans.on Geos. and Remote Sensing, 31:771–778, 1993.[4] R. Bhaskar, J. Hite, and D.E. Pitts. An iterative frequencydomaintechnique to reduce image degradationcaused bylens defocus and linear motion blur. In Proceedings ofthe Geoscience and Remote Sensing Symposium, volume 4,pages 2522–2524, 1994.[5] S.E. Reichenbach, D.E. Koehler, and D.W. Strelow. Restorationand reconstruction of avhrr images. IEEE Transactionson Geoscience and Remote Sensing, 33(4):997–1007, 1995.[6] K.J. Boo and N.K. Bose. Multispectral image restorationwith multisensors. In Proceedings of the International Conferenceon Image Processing, volume 3, pages 995–998,1996.[7] A. Jalobeanu, L. Blanc-Fraud, and J. Zerubia. Satellite imagedeconvolution using complex wavelet packets, 2000.[8] W. Xianju C.H. Chen. A novel theory of sar image restorationand enhancement with ica. In International Geoscienceand Remote Sensing Symposium, volume 6, pages 3911–3914, 1994. to appear.[9] S.-S Kuo and R.J. Mammone. Image restoration by convexprojections using adaptive constraints and the l1 norm. IEEETransactions on Signal Processing, 40(1):159–168, 1992.[10] J.P. Papa, N.D.A. Mascarenhas, and L.M.G. Fonseca. Acomparison between projections algorithms for cbers-1satellite image restoration. In XII Brazilian Simposium onRemote Sensing, pages 1045–1052, 2005.[11] H. Stark, Y. Yang, and Y. Yang. Vector Space Projections: ANumerical Approach to Signal and Image Processing, NeuralNets, and Optics. John Wiley & Sons, Inc., 1998.[12] R.J. Mammone, editor. Computational methods of signal recoveryand recognition. John Wiley & Sons, Inc., 1992.[13] K.-K. Seo. Content-based image retrieval by combining geneticalgorithm and support vector machine. In ICANN 2007,volume 4669, pages 537–545. Springer, 2007.[14] K.-K. Seo. A GA-based feature subset selection and parameteroptimization of support vector machine for content basedimage retrieval. In Advanced Data Mining and Applications,volume 4632, pages 594–604. Springer, 2007.[15] J. R. Koza. Genetic Programming: On the Programming ofComputers by Means of Natural Selection (Complex AdaptiveSystems). The MIT Press, 1992.[16] R.S. Torres, A.X. Falcão, M.A. Gonalves, J.P. Papa,B. Zhang, W. Fan, and E.A. Fox. A genetic programmingframework for content-based image retrieval. Pattern Recognition,2008. to appear.[17] R.C. Gonzalez and R.E. Woods. Digital Image Processing.Addison-Wesley Longman Publishing Co., Inc., Boston,MA, USA, 2001.[18] J. H. Holland. Adaptation in Natural and Artificial Systems.MIT Press, Cambridge, MA, 1992.[19] W. B. Langdon. Data Structures and Genetic Programming:Genetic Programming + Data Structures = Automatic Programming!Kluwer, 1998.166


Voltar ao sumárioClassificação Contextual de Imagens utilizando Campos Aleatórios Markovianos eTeoria dos Jogos1 Alexandre L. M. Levada, 2 Nelson D. A. Mascarenhas, 1 Alberto Tannús1 Instituto de Física de São Carlos, Universidade de São Paulo, São Carlos, SP, Brazil2 Departamento de Computação,Universidade Federal de São Carlos, São Carlos, SP, Brazilalexandreluis@ursa.ifsc.usp.br, nelson@dc.ufscar.br, goiano@ifsc.usp.brAbstractA classificação de imagens é uma tarefa de fundamentalimportância em diversas aplicações nas áreas deprocessamento de imagens, reconhecimento de padrões evisão computacional, dentre as quais é possível citar:sensoriamento remoto, auxílio a diagnóstico de doençasa partir da análise de imagens médicas, detecção deobjetos, entre outras. Basicamente, a proposta destetrabalho consiste na classificação de imagens utilizandocampos aleatórios Markovianos e teoria dos jogos,visando obter melhoria no desempenho através daincorporação de modelos contextuais na tomada dedecisão. A avaliação do desempenho é realizada a partirdo coeficiente Kappa. Experimentos realizados emimagens de tomografia computadorizada mostram que amodelagem contextual, aliada a conceitos da teoria dosjogos, fornece um interessante ferramental para aclassificação de imagens.1. IntroduçãoO problema de se classificar/segmentar imagens é umadas tarefas mais desafiadoras em aprendizado demáquina tanto supervisionado quanto nãosupervisionado, pois se trata de um procedimentoextremamente complexo. Parte dessa complexidadeadvém da enorme variedade de imagens existentes, taiscomo imagens de cenas naturais, imagens tomográficas,de ressonância magnética, de ultra-sonografia, dentreoutras, o que acaba dificultando muito a definição demétodos robustos o suficiente para classificar os tipos dedados encontrados em imagens. Em geral, cada tipo deimagem possui dados com características próprias, sendoadequadamente representado por um modelo estatísticoespecífico.Outro sério problema encontrado na classificação deimagens é a presença de ruídos, que distorcem os dadosobservados. Freqüentemente, ruídos são inerentes aoprocesso de aquisição de imagens reais. Por exemplo, emtomografia computadorizada, baixos tempos de exposiçãocausam o aparecimento de ruído Poisson nas projeções.Além disso, existe ainda o problema do ruído gaussiano,que aparece praticamente em todos os sistemaseletrônicos. Na grande maioria dos casos, os métodostradicionais de classificação não fornecem resultadossatisfatórios para imagens ruidosas.Métodos tradicionais de classificação (denominadosde pontuais) geram resultados fortemente afetados porerros de classificação do tipo “sal e pimenta”,especialmente em imagens ruidosas, que podem sermelhorados através da utilização de informaçãocontextual. A introdução do contexto na tomada dedecisão pode ser realizada de diversas maneiras, sendoque uma das abordagens mais robustas e elegantes são osModelos de Campos Aleatórios Markovianos, ou MarkovRandom Fields (MRF). O objetivo deste trabalho consisteem aplicar algoritmos de otimização combinatória, maisprecisamente o algoritmo GSA (Game StrategyApproach) [1], desenvolvido a partir de conceitos dateoria dos jogos, visando melhorar o desempenho daclassificação supervisionada de imagens. Para avaliaçãodos resultados obtidos, utiliza-se o coeficiente Kappa [2].O restante do artigo é organizado como segue. A seção2 fornece uma breve introdução aos Campos AleatóriosMarkovianos. A seção 3 descreve o algoritmo GSA e fazuma analogia entre a classificação contextual e teoria dosjogos. A seção 4 apresenta os experimentos e resultadosobtidos. Finalmente, a seção 5 apresenta as conclusões.2. Campos Aleatórios MarkovianosOs primeiros trabalhos envolvendo modelos decampos aleatórios (MRF) datam do início da segundametade do século XX, mais especificamente das décadasde 50, 60 e 70 [3-4]. Porém, foi a partir de resultados eavanços em probabilidade e estatística aplicadas, como oTeorema de Hammersley-Clifford [5], e posteriormente omemorável trabalho dos irmãos Geman [6], que essateoria, antes restrita apenas a física estatística e amatemática, foi introduzida na área de processamento deimagens e recentemente a inúmeras aplicações em visãocomputacional e reconhecimento de padrões, dentre elasuma de fundamental importância: a classificação deimagens.167


Voltar ao sumárioSeja S um reticulado bidimensional finito que defineo conjunto dos possíveis pixels de uma imagem ex = x x x os valores de uma possível{ }, ,...,P1 2ocorrência (observação) do campo aleatório X , comx G G = 1, 2,..., M , onde M representa oij∈ , { }número máximo de possíveis rótulos. Um sistema devizinhança é definido como o conjunto de elementosηijcuja distância ao elemento central é menor ou igual aN . A definição de um sistema de vizinhança é essencialpara qualquer MRF por que ele constitui a base paratodos os métodos computacionais existentes. Além disso,a forma e a extensão de um sistema de vizinhança sãoaspectos fundamentais na definição e caracterização deum campo aleatório. Em outras palavras, um MRFdefinido em um reticulado nada mais é que uma coleçãode variáveis aleatórias tal que a probabilidade de umavariável individual, condicionada aos valores de todas asvariáveis pertencentes ao campo, é igual à probabilidadedessa variável condicionada a um pequeno subconjuntode elementos, denominado de sistema de vizinhança.Definição 1 (Markov Random Field):X = x | i,j ∈Sé um MRF definido em num{ ij ( ) }reticulado bidimensional S, se satisfaz as seguintespropriedades:i.) Markovianidade:p x | x, kl , ∈ S\ i, j = p x | x, kl , ∈ η ,∀( { })( { ( ) ( )}) ( )( i,j)∈Sij kl ij kl ijii.) Positividade : P( X ) > 0 , ∀x∈Ω , onde Ω é oconjunto de todas as possíveis realizações de X. Emoutras palavras, toda a realização do campo aleatório temuma probabilidade de ocorrer.Na utilização de modelos estocásticos emprocessamento de imagens e reconhecimento de padrõesmuitas vezes é preciso se definir uma distribuição deprobabilidade sobre o conjunto de possíveis imagens quereflita adequadamente o conhecimento a priori desejado.Um dos modelos mais utilizados para esse fim (modelar oconhecimento a priori na forma de restrição desuavidade) é o modelo Markoviano de Potts.Considerando um sistema de vizinhança geral, define-sea função massa de probabilidade condicional local de ummodelo de Potts como:exp{ βUij( m)}p( xij= m| xη, β ) =(1)ijMexp βUl∑l=1{ ij ( )}x , U ( l)onde ηijrepresenta a vizinhança do pixelij ijdenota o número de pixels pertencentes a vizinhança cujorótulo é igual a l ( l∈ G ), β é um parâmetro dedependência espacial também conhecido como inverso datemperatura ( ), m é o valor assumido peloelemento centralβ = 1 Txije M é o número de rótulos. Comopode ser observado na definição acima, quanto maior ovalor de β , maior a dependência espacial entre oselementos do campo. Note que, quando β = 0 , ou seja,não há dependência espacial (pixels estatisticamenteindependentes), a função distribuição do modelo sedegenera para a função massa de probabilidade de umavariável discreta com distribuição uniforme em todas aspossíveis configurações, sendo a informação contextualcompletamente desprezada.A estimação do parâmetro β é realizada pelo métodode máxima pseudo-verossimilhança, através da equaçãoproposta em [7-8], obtida expandindo-se a derivada dologaritmo da função de máxima pseudo-verossimilhançano número de ocorrências de possíveis padrões deconfiguração espacial, dado um sistema de vizinhança desegunda ordem (8 vizinhos). Por exemplo, adotando-seum sistema de vizinhança de primeira ordem, aenumeração de todos os possíveis padrões deconfiguração é simples e direta. Existem apenas 5padrões que variam desde concordância-nula (quandotodos os elementos da vizinhança são distintos), comoindica a figura abaixo até concordância-total (quandotodos os elementos pertencentes a vizinhança sãoidênticos).Figura 1. Padrões de configuração espacial parao modelo de Potts adotando sistema devizinhança de primeira ordemAdotando uma representação em termos de vetores,como indica a equação (2), é possível implementar ummétodo computacional para geração dos possíveispadrões de configuração, dado um sistema de vizinhança.Basta notar que a soma de todos os elementos dos vetoresválidos é sempre igual a N, onde N é o número deelementos do sistema de vizinhança (4,8, 12, etc ...).vvv( ) v ( )( ) v ( )( 4,0,0,0 );0 12 34= 1,1,1,1 ;= 2,1,1,0 ;= 2, 2,0,0 ; = 3,1,0,0 ;=(2)168


Voltar ao sumárioTabela 1. Vetores representando possíveispadrões de configuração espacial para o Modelode Potts num sistema de vizinhanças desegunda ordemv1= [1,1,1,1,1,1,1,1] v2= [2,1,1,1,1,1,1, 0]v3= [3,1,1,1,1,1, 0, 0] v4= [2, 2,1,1,1,1, 0, 0]v5= [4,1,1,1,1, 0, 0, 0] v6= [3, 2,1,1,1, 0, 0, 0]v7= [2, 2, 2,1,1,0,0,0] v8= [5,1,1,1,0,0,0,0]v9= [4, 2,1,1,0,0,0,0] v10= [3,3,1,1,0,0,0,0]v11= [3, 2, 2,1,0,0,0,0] v12= [2, 2, 2, 2,0,0,0,0]v13= [6,1,1,0,0,0,0,0] v14= [5, 2,1,0,0,0,0,0]v15= [4,3,1,0,0,0,0,0] v16= [4, 2, 2,0,0,0,0,0]v17= [3,3, 2,0,0,0,0,0] v18= [4, 4,0,0,0,0,0,0]v19= [5,3,0,0,0,0,0,0] v20= [6, 2,0,0,0,0,0,0]v21= [7,1,0,0,0,0,0,0] v22= [8,0,0,0,0,0,0,0]Assim, a equação de pseudo-verossimilhança para aestimação do parâmetro β no modelo de Potts pode serescrita como [7-8]:( i,j)∈S8 ˆ β 7 ˆ β ˆ β∂ 8e 7e + elog PL( β ) = ∑ Uij( m)− K −K∂ βe + M − 1 e + e + M −28 ˆ β 1 7 ˆ β ˆ β26 ˆ β 2 ˆ β 6 ˆ β ˆ β 5 ˆ β 3 ˆ β6e + 2e 6e + 2e 5e + 3e− K − K −Ke + e + M − 2 e + 2e + M − 3 e + e + M −26 ˆ β 2 ˆ β 3 6 ˆ β ˆ β 4 5 ˆ β 3 ˆ β55 ˆ β 2 ˆ β ˆ β 5 ˆ β ˆ β5e + 2e + e 5e + 3e−5 ˆ 2 ˆ ˆK6−5 ˆ 3 ˆKβ β β β βe + e + e + M − 3 e + e + M −44 ˆ β 3 ˆ β ˆ β 4 ˆ β 2 ˆ β4e + 3e + e 4e + 4e−K −Ke + e + e + M − 3 e + 2e + M −34 ˆ β 3 ˆ β ˆ β 9 4 ˆ β 2 ˆ β104 ˆ β 2 ˆ β ˆ β 4 ˆ β ˆ β4e + 2e + 2e 4e + 4e−K −Ke + e + 2e + M − 4 e + 4e + M −54 ˆ β 2 ˆ β ˆ β 11 4 ˆ β ˆ β123 ˆ β 2 ˆ β 3 ˆ β ˆ β6e + 2e 6e + 2e−3 ˆ 2 ˆK13−3 ˆ ˆKβ β β β2e + e + M − 3 2e + 2e + M −43 ˆ β 2 ˆ β ˆ β 3 ˆ β 2 ˆ β ˆ β3e + 4e + e 3e + 2e + 3e−K −Ke + 2e + e + M − 4 e + e + 3e + M −54 ˆ β8e−K2e + M −27 4 ˆ β83 ˆ β 2 ˆ β ˆ β 15 3 ˆ β 2 ˆ β ˆ β163 ˆ β ˆ β 2 ˆ β 2 ˆ β ˆ β3e + 5e 8e 6e + 2e− K − K −Ke + 5e + M − 6 4e + M − 4 3e + 2e + M −55 ˆ β ˆ β 17 2 ˆ β 18 2 ˆ β ˆ β192 ˆ β ˆ β 2 ˆ β ˆ ββ4e + 4e 2e + 6e8e−2 ˆ ˆK20−β β 2 ˆ β ˆKβ21−ˆK22= 0β2e + 4e + M − 6 e + 6e + M − 7 8e + M −8onde as constantesi14K , i = 1,...,22 , representam onúmero de ocorrências de cada padrão de configuraçãoao longo de todo campo. Basicamente, a idéia é que oconjunto formado por todos os K ’s defina umhistograma contextual, ou seja, ao invés de indicar adistribuição dos níveis de cinza da imagem, mostram adistribuição de padrões contextuais presentes na imagem.A análise desses coeficientes fornece um indicativo decomo é a aparência de uma imagem. Por exemplo,imagens muito homogêneas tendem a ter pouca variedadeiˆde padrões contextuais, ao passo que imagens comaspecto mais ruidoso tendem a ter maior variabilidade depadrões contextuais. Convém notar que a equação étranscendental, ou seja, não tem solução analítica fechada(é impossível isolar a variável de interesse). É necessáriaa utilização de algoritmos computacionais iterativos(root-finding algorithms) para encontrar a soluçãonumericamente. Nesse artigo, em todos os experimentos,foi utilizado o método de Brent que é uma combinaçãodos métodos conhecidos como Bissetriz, Secante eInterpolação Quadrática Inversa. A vantagem dessemétodo é que ele não requer o cálculo, nem sequer aexistência de derivadas da função objetivo, além depossui ótima velocidade de convergência.3. Algoritmos iterativos para classificaçãocontextualDiversos algoritmos determinísticos de otimizaçãocombinatória podem ser utilizados para se obteraproximações para o estimador MAP. Basicamente, adiferença entre cada um dos algoritmos é a heurísticaadotada na resolução do problema. Dentre os algoritmosmais conhecidos podemos citar o ICM (IteratedConditional Modes) [9] e o GSA (Game StrategyApproach) [1], baseado na teoria dos jogos [10] e focoprincipal desse trabalho.3.1. Game Strategy Approach (GSA)Esse método é baseado na teoria dos jogos nãocooperativos[1]. Em um jogo de n-jogadores (n-personI = 1, 2, ,n denota o conjunto de todos osgame), { }jogadores. Cada jogador i tem um conjunto deestratégias puras (pure strategies) S . O processo do jogoconsiste em um determinado instante cada um dosjogadores escolher uma determinada estratégia si∈ Si.Assim, uma situação (ou jogada) s ( s s )i= , , 1néobtida e a cada jogador é associado um ganho (payoff)H s . Na abordagem proposta em [1], define-sei ( )Hi( s)de tal forma que o ganho de cada jogadordepende apenas de sua própria estratégia e do conjuntode estratégias de seus vizinhos (análogo a um MRF). Naabordagem não-cooperativa, cada jogador deve tentarmaximizar o seu ganho escolhendo sua própria estratégiaindependentemente. Em resumo, trata-se do problema deotimizar o ganho global, a partir de decisõesindependentes e locais (note a semelhança com oconceito de independência condicional, que caracterizaos MRF’s). Uma estratégia mista (mixed strategy) para169


Voltar ao sumárioum jogador é definida como uma distribuição deprobabilidade definida no conjunto das estratégias puras.Assume-se a hipótese de que cada jogador conhece todasas estratégias e o ganho obtido sob cada possível situação.As soluções para um jogo de n-jogadores nãocooperativosão dadas pelo conjunto de pontos quesatisfazem o equilíbrio de Nash (Nash points). Pode sermostrado que o equilíbrio de Nash sempre existe emjogos não-cooperativos de n-jogadores [11]. Uma jogadat * = t * , t * , , t*Nsatisfaz a condição de equilíbrio de( 1 2 )Nash se nenhum dos jogadores pode melhorar seu ganhoesperado alterando sua estratégia unilateralmente, ou, emtermos matemáticos:onde* *( ) i( )∀ i: H t = max H t || t (3)isi∈Sit * || t representa a jogada obtida substituindo aconfiguração*t por t .Tabela 2. Analogia entre conceitos de CamposAleatórios e Teoria dos JogosCAMPOSALEATÓRIOSTEORIA DOS JOGOSReticulado bidimensional Jogo de n-jogadoresPixelsJogadoresConjunto de rótulos Estratégias purasConfiguração/Imagem Jogada/SituaçãoFunção de energiaGanhoFunções densidade Estratégias mistascondicional locaisPontos críticos Equilíbrio de NashA conexão entre a teoria dos jogos e os métodos deotimização combinatória é demonstrada em [12], onde seprova que o conjunto de pontos que satisfazem oEquilíbrio de Nash em um jogo não-cooperativo de n-jogadores é de fato idêntico ao conjunto de máximosf X , definida como a distribuição delocais da função ( )Gibbs a posteriori P( X | Y ) . Baseado nesse e outrosresultados, é proposto um algoritmo iterativo queconverge para o Equilíbrio de Nash, ou seja, para ummáximo local, dada uma situação inicial. Em outraspalavras, dada uma jogada inicial, após sucessivasiterações do algoritmo GSA, é possível se atingir umasituação que satisfaz o equilíbrio de Nash. Para melhorilustrar a relação entre a abordagem dos camposaleatórios Markovianos e a teoria dos jogos, foi definidauma tabela contendo a analogia entre os conceitos deambas as abordagens. A Tabela 2 mostra a equivalênciaentre os conceitos. Sejam ( k) ( ( k) ( k)x x )1, , x N= oconjunto de rótulos (situação) na k-ésima iteração, K onúmero máximo de iterações, α ∈( 0,1)um número realrepresentando a probabilidade de aceitação de um novoG = 1, 2, ,M o conjunto derótulo (ou estratégia) e { }possíveis rótulos (estratégias puras). O algoritmo GSA,conforme proposto em [12], é detalhado a seguir.Algoritmo para classificação de imagens pelo método GSA1. Inicializar( 1, ,N )(0) (0) (0)x = x x e k = 0 .2. A cada iteração k ≥ 0 , para cada pixel3. Sea. Escolher o rótulok( )xi≠ xsirepetir:( k )tal que:i( )( ) ( k)Hi xi || xi = max H ||( k ) ixi xixi∈G−{ xi} , então( k) ( k)b. Se Hi( xi || xi) ≤ Hi( xi)x= x( k+1) ( k)i iCaso contrário, aceitarxx( k + 1)iixicom probabilidade α := x com probabilidade α ;= x com probabilidade 1− α ;( k+1) ( k)i i( k+ 1) ( k+ 1) ( k+1)c. Seja x ( x1 , , x N )= .( k 1)x + satisfaz o Equilíbrio de Nash, ou k ≥ K , entãoparar. Senão k k 1= + e voltar para o passo (2)Em outras palavras, o algoritmo parte de umainicialização (situação) qualquer e a cada iteração, paracada jogador (pixel), seleciona o rótulo (estratégia) maisprovável. Calcula-se o ganho local do jogador tanto paraa estratégia original quanto para a nova estratégia. Se onovo ganho obtido for menor que o anterior, a estratégiado jogador não deve ser atualizada (pois no Equilíbrio deNash nenhum dos jogadores pode melhorar seu ganhoalterando sua estratégia unilateralmente). Caso contrário,o jogador em questão tem probabilidade α de alterar suaestratégia e probabilidade 1−αde manter a estratégia.Como visto, o esquema de atualização dos rótulosdepende do parâmetro α . Para valores de 0< α < 1,tem-se um esquema não-determinístico, que garante a( k )convergência de x para o Equilíbrio de Nashconforme o número de iterações aumenta. Segundo [1],para α = 1 o algoritmo pode não convergir, dependendoda inicialização. Nos experimentos, o ganho de cadajogador, foi definido como sendo o número de estratégiasvizinhas idênticas, multiplicado pelo parâmetro β , ouseja, H βU ( m)i= (fn. de energia do modelo de Potts).i170


Voltar ao sumário4. Experimentos e Resultados ObtidosPara testar e avaliar o método proposto, foramdesenvolvidos experimentos envolvendo imagens de umphantom em tomografia computadorizada de ciência dosolo contendo 4 tipos de substâncias: alumínio, água,fósforo e cálcio. As imagens foram adquiridas pelominitomógrafo de raios X e γ desenvolvido pelaEMBRAPA Instrumentação Agropecuária para estudo demateriais encontrados no solo [13]. Para a obtenção daimagem, foram utilizadas duas fontes de raios-X e duasfontes de raios-γ (Césio e Amerício). As energias dosraios-X foram de 40keV e 85keV. Para os raios-γ foramde 60keV (Amerício) e 662keV (Césio). As dimensõesespaciais da imagem são de 65 x 65 pixels. A Figura 2mostra as 4 bandas da imagem multiespectral.Figura 2. Bandas da imagem multiespectraladquirida pelo tomógrafo de raios X e γ,utilizando-se múltiplas energias: 40keV, 60keV,85keV e 662keVO primeiro experimento compara o desempenho daclassificação entre diversos classificadores pontuais,como janelas de parzen (PARZENC), k-vizinhos maispróximos (com K=3) (KNNC), logístico (LOGLC),Bayesiano linear (matrizes de covariâncias iguais paratodas as classes - LDC) e Bayesiano quadrático (matrizesde covariâncias diferentes para cada classe - QDC) com odesempenho da classificação contextual utilizando oalgoritmo GSA. Convém ressaltar que os resultados daclassificação pontual são utilizados como inicializaçãopara o algoritmo GSA em cada um dos casos. A Tabela 3mostra o desempenho da classificação em termos docoeficiente Kappa para cada um dos casos. Em todos oscasos, o algoritmo GSA convergiu em menos de 10iterações. O parâmetro α adotado foi igual a 0.8. Emtodos os experimentos, foram utilizadas 64 amostras detreinamento para cada uma das 6 classes - água,alumínio, cálcio, fósforo, plexiglass e fundo – totalizando384 amostras 4-D. O desempenho da classificação foiavaliado pelo coeficiente Kappa, calculado a partir damatriz de confusão.O segundo experimento utiliza um método de extraçãode atributos antes da classificação. Em todos os casos,PCA é aplicado para reduzir a dimensionalidade dosdados de entrada de 4 para 1. A classificação é entãorealizada utilizando-se apenas a primeira componenteprincipal. A Tabela 4 mostra o desempenho daclassificação obtido em termos do coeficiente Kappa. Osresultados indicam uma significativa melhora nodesempenho da classificação em todos os casos,mostrando a importância da informação contextual noprocesso de tomada de decisão.Tabela 3. Comparação do desempenho daclassificação pontual e contextual (GSA) paravários classificadores supervisionadosClassificadorCoeficiente KappaPontual Contextual (GSA)PARZENC 0.8250 0.9969KNNC 0.7188 0.9875LOGLC 0.9812 0.9937LDC 0.9844 0.9937QDC 0.9750 0.9969Tabela 4. Comparação do desempenho daclassificação pontual e contextual (GSA) paravários classificadores supervisionados utilizandoPCA na extração de atributosClassificadorCoeficiente KappaPontual Contextual (GSA)PARZENC 0.6469 0.8406KNNC 0.6500 0.8812LOGLC 0.5969 0.7562LDC 0.6594 0.8781QDC 0.6844 0.9000Imagens temáticas (mapas de rótulos) para asclassificadores PARZENC e KNNC cujos resultadosestão indicados na Tabela 3 estão indicadas na Figura 3.PARZENCPARZENC + GSAKappa Coefficient: 0.8250 Kappa Coefficient: 0.9969KNNCKNNC + GSAKappa Coefficient: 0.7188 Kappa Coefficient: 0.9875Figura 3. Imagens temáticas resultantes dosclassificadores PARZENC e KNNC para o caso 4DAnalogamente, imagens temáticas (mapas de rótulos)referentes aos classificadores PARZENC e KNNC paraos resultados da Tabela 4 estão mostradas na Figura 4.171


Voltar ao sumário6. AgradecimentosOs autores agradecem à FAPESP pelo apoiofinanceiro (processo nº 06/01711-4) e também ao Dr.Paulo E. Cruvinel pelas imagens tomográficas.PARZENCPARZENC + GSAKappa Coefficient: 0.6469 Kappa Coefficient: 0.8406KNNCKNNC + GSAKappa Coefficient: 0.6500 Kappa Coefficient: 0.8812Figura 4. Imagens temáticas dosclassificadores PARZENC e KNNC para PCA 1DÉ importante ressaltar que o algoritmo GSA édiferente do método Simulated Annealing (SA). Aprincipal diferença consiste na escolha determinística doscandidatos a serem visitados. Apenas a aceitação denovos rótulos/estratégias é aleatória. De acordo com [12],no SA tanto a escolha do próximo candidato (neighborselection) quanto a aceitação são aleatórios, fazendo comque o método escape de mínimos locais, o que não ocorreno algoritmo GSA.5. ConclusõesEsse trabalho estudou a aplicação do algoritmo deotimização combinatória, conhecido como GSA (GameStrategy Approach), desenvolvido a partir de conceitosda teoria dos jogos, com o objetivo melhorar odesempenho da classificação supervisionada de imagens.Como critério objetivo de avaliação dos resultados, foiutilizado o coeficiente Kappa. Os resultados obtidosmostraram claramente que o desempenho da classificaçãoé significativamente melhorado ao se introduzir amodelagem contextual. Finalmente, é possível concluirque a utilização de modelos de Campos AleatóriosMarkovianos juntamente com conceitos da teoria dosjogos fornece uma ferramenta poderosa para aclassificação de imagens, uma aplicação de extremaimportância em diversas áreas da ciência.Trabalhos futuros incluem a implementação dacombinação de classificadores contextuais, utilizandodiversos algoritmos de otimização combinatória, comoGSA, ICM (Iterated Conditional Modes) e MPM(Maximizer of the Posterior Marginals), com o objetivode melhorar ainda mais o desempenho da classificaçãosupervisionada.7. References[1] Berthod, M., Kato, Z., Yu, S., Zerubia, J.; “Bayesianimage classification using Markov Random Fields”,Image and Vision Computing, v. 14, pp. 285-295, 1996.[2] R.G. Congalton, “A Review of Assessing theAccuracy of Classifications of Remotely Sensed Data”,Remote Sensing Environment, v.37, 1991, pp. 35-46.[3] Whittle, P.; “On stationary processes on a plane”,Biometrika, v. 41, pp. 434-449, 1954.[4] Besag, J.; “Spatial interaction and the statisticalanalysis of lattice systems”, Journal of the RoyalStatistical Society – Series B, v. 36, pp. 192-236, 1974.[5] J. M. Hammersley, P. Clifford, “Markov field onfinite graphs and lattices”, unpublished, 1971.[6] S. Geman, D. Geman, “Stochastic relaxation, Gibbsdistribution and the Bayesian restoration of images”,IEEE Trans. on Pattern Analysis and MachineIntelligence, vol. 6, n. 6, pp. 721-741, 1984.[7] Levada, A. L. M., Mascarenhas, N. D. A., Tannús, A.“Pseudolikelihood Equations for Potts MRF modelParameter Estimation on Higher-Order NeighborhoodSystems”, IEEE Geoscience and Remote Sensing Letters,v. 5, n.3, pp. 522-526, 2008.[8] Levada, A. L. M., Mascarenhas, N. D. A., Tannús, A.“Improving Potts MRF Model Parameter Estimation inImage Analysis”, in Proceedings of the 11 th IEEEInternational Conference on Computational Science andEngineering (CSE), São Paulo, Brazil, pp. 211-218,2008.[9] Besag, J.; “On the statistical analysis of dirtypictures”, Journal of Royal Statistical Society - Series B,vol. 48, n. 3, pp. 259-302, 1986.[10] Weibull, J. W.; Evolutionary Game Theory,Cambridge MA, MIT Press, London, 1995.[11] Nash, J. F.; “Equilibrium points in n-person games”,Proceedings of the National Academy of Sciences, v. 36,pp. 48-49, 1950.[12] Yu, S.; Berthod, M.; “A Game Strategy Approachfor Image Labeling”, Computer Vision and ImageUnderstanding, vol. 61, no. 1, pp. 32-37, 1995.[13] P.E. Cruvinel, R. Cesareo, and S. Mascarenhas, “Xand γ- rays computerized minitomograph scanner for soilscience”, IEEE Trans. on Instrumentation andMeasurements, v. 39, n. 5, 1990, 745-750.172


Voltar ao sumáriodirectly from the covariance matrix of the mixture dataand no information regarding probability distributions isneeded.Given a multivariate dataset, the objective of PCA is toreduce the dimensionality and redundancy existing in thedata in order to find the best representation in terms of theMean Square Error (MSE). The basic requirement in PCAis the existence of n-dimensional random vectors x i,i = 1,.., N . Also it is necessary that the vector elementspresent some correlation, or nothing can be done withPCA. In the multivariate Gaussian case, the transformedfeature space corresponds to the space generated by theprincipal axis of the hyper-ellipsoid that defines thedistribution. Figure 1, obtained in [6], shows a 2-Dexample. The principal components are now the dataprojections in the two main axis, φ1and φ2. Besides, thevariances of the components, given by the eigenvaluesλ , are distinct in most applications, with a considerableinumber of them so small, that they can be excluded. Theselected principal components define the vector y . Theobjective is to find the new basis vectors, by optimizingcertain mathematical criteria.Figura 1: Graphical illustration of the Karhunen-Loève Transform for the 2-D Gaussian case.3.1. PCA by Variance MaximizationIt can be shown in [7] that ifλ andju jare,respectively, the j-th eigenvalue and eigenvector of thecovariance matrix of x , then:λj≥ 0 (1)u ⋅ u = 0, for j ≠kjkIt means that all eigenvalues are positive and alleigenvectors are mutually orthogonal. As a result of that,for a rank n matrix, we have n orthonormal eigenvectors,assuming u = 1, for j = 1,..., n, assigned to the njeigenvalues λ1, λ2,..., λn. Mathematically, we canexpress the rotation of the coordinate system defined bythe Karhunen-Loève Transform by an orthonormal matrixT TZ = ⎡ ⎣ T , S ⎤ ⎦, with dimensions n× n, with[ , ,..., ]TT w1 w2wm N × M= representing the newT S = ⎡ ⎣ w1, w2,..., w,⎤ ⎦system’s axis andm+ m+ n N× ( N−M)denoting the axis of the eliminated components during thedimensionality reduction. The orthonormality conditions imply that w ⋅ w = 0 for j ≠ k, and w ⋅ w = 1 forjkj = k .Now, it is possible to write the n-dimensional vectorx in the new basis as:nnTx = x w w = cw (2)where∑( )∑j j j jj= 1 j=1cjis the inner product between x andjkw j.Then, the new m-dimensional vector y is obtainedby the following transformation:nT T T Ty = xT = ∑cw j j [ w 1, w 2,...,wm]j=1(3)=[ c , c ,..., c ]1 2Thus, PCA seeks a linear transformation T thatmaximizes the variance of the projected data, or inmathematical terns, optimizes the following criterion,where C is the covariance matrix of the observations:XPCA J1( wj)E⎡ y ⎤ = = E⎡ ⎣y y⎤ ⎦ = E⎡ ⎣c⎤⎣ ⎦ ∑ ⎦m2 Tm2jj=1However, it is known thattherefore: J ( w ) = E ⎣w xx w ⎤⎦mPCA T T1 j ∑ ⎡j jj=1 = =cjTxwjmmT T TwjE ⎡⎣xx ⎤⎦wj ∑wjCXwjj= 1 j=1∑(4)= , andsubject to w = 1, defining a optimization problem.jThe solution to this problem can be achieved usingLagrange multipliers. In this case, we have:J w wC w ww mm( j, γj) = ∑ j X j−∑γj( j j−1)PCA T T1j= 1 j=1Differentiating the above expression onw j(5)(6)andsetting the result to zero, leads to the following result [8]: C w = λ w(7)X j j jTherefore, we have an eigenvector problem, which174


Voltar ao sumáriomeans that the vectorsw jof the new basis thatmaximize the variance of the transformed data are theeigenvectors of the covariance matrix C . However,information on how the eigenvectors should be selected isgiven in the next section.Note that after the PCA transformation, the datavectors are uncorrelated (the resulting covariance matrixis diagonal).T T TCY= T CXT = T TDT T = D (8)where D = diag( λ1, λ2,..., λ n) .3.2. PCA by the Minimization of Mean Square ErrorAnother possible approach for PCA is to minimizethe mean square error (MSE) during the dimensionalityreduction. In this approach, PCA tries to obtain a set of mbasis vectors (m < n), that span a m-dimensional subspacein which the mean square error between this newrepresentation and the original one is minimum.The projection of x in the subspace spanned by thew vectors, j = 1,..., m , is given by equation (2) andjthus the MSE criterion can be defined as:2mPCATJMSE ( w ⎡⎤j ) = E⎢x −∑( x w j ) w ⎥j(9)⎢ j=1⎣⎥⎦Considering that the data is centralized (the meanvector is null) and due to the orthonormal basis, equation(10) is further simplified to:mPCA 2 ⎡T( ) ( ) 2 ⎤JMSE wj E⎡x ⎤ = − E x wj=⎣ ⎦ ⎢∑⎥⎣ j=1 ⎦m2T TE ⎡x ⎤ − E ⎡⎣wjxx w ⎤j⎦=⎣ ⎦ ∑(10)j=1m 2 T⎤−⎦ ∑ j X jj=1E⎡x wC w⎣As the first tern does not depend onminimize the MSE, we have to maximizeXw j, in order tomT∑ wC j Xw j.j=1From equation (5) in the previous section, thisoptimization problem is solved by using LagrangeMultipliers. Thus, inserting equation (7) in (10), leads to:J w E x γ( )mPCA2MSE j= ⎡ ⎤−⎣ ⎦ ∑ jj=1(11)This result shows that in order to minimize the MSE,we must choose the m eigenvectors associated to the mlargest eigenvalues of the covariance matrix. Also, it canbe shown [6] that the minimum value for the MSE isgiven by:J w γ( )nPCAMSE j= ∑ jj= m+1(12)Finally, the PCA criteria although very effective interms of data compression, are not necessarily optimal fordata classification.2.2. Linear Discriminant AnalysisLinear Discriminant Analysis is a generalization ofthe Fisher’s Linear Discriminant Function for themultivariate case. It is a supervised mapping that foundsvectors, or directions in the feature space, that maximizethe data separability. The criterion for class separability isdefined in terms of scatter matrices and is given by:whereBTW SWBJLDA( W)WSWTW= (13)S is the interclass scatter matrix andintra-class scatter matrix, given by the following:cSWis theT∑ ( )( ) (14)S = N μ −μ μ −μB i i ii=1c S = x − x −( μ )( μ )W k i k ii= 1 x ∈w=∑∑c∑i=1kSWiiT(15)where c is the number of classes, μ is the global meanvector, μié is the mean vector for classcovariance matrix of classwiandwi,SW iis theNiis the number ofsamples for class wi.It can be shown that the maximization of the criterionleads to a generalized eigenvalue problem, where theTcolumn vectors of the matrix W [ w, w ,…,w ]LDA= 1 2correspond to the m eigenvectors associated to the m−1S S ,largest eigenvalues of the matrix defined by ( W B)that is: S S w = λ w−1( )W B j j jj = 1,..., m , λ1 ≥... ≥ λm(16)However, there are some serious limitations with thisapproach [8-9]. First, the rank of S is limited to c − 1,where c represents the number of classes. This impliesthe existence of c − 1 nonzero eigenvalues, and therefore,Bm175


Voltar ao sumáriothe severe restriction that the number of features isconditioned to the number of classes, or d≤ c− 1.Another issue is related to high dimensional problems,when the number of available training samples (prelabeledsamples) is smaller than the number of features,N < d . In this case, S is singular (no inverse) and theWgeneralized eigenvalue problem has no solution [9].3. MethodologyThe proposed methodology consists in combiningdifferent feature extraction approaches, more precisely,global PCA, block-based PCA and LDA in order toimprove the face classification performance.Block-based PCA is a new technique that is beingwidely used for feature extraction, especially in facerecognition [10]. Basically, according to [11] the idea ofblock-based PCA is to first divide each image into severalk× k blocks. Usually, all the blocks have the same size.In this paper, we considered blocks of size 8x8 in allexperiments. To perform block-based PCA we view eachblock as a sample image. So if the total number of blocks2is r, there are a total of r k dimensional trainingsamples. Computing the covariance matrix of these blocksamples gives us the possibility of reduce its dimensionby using PCA. In the experiments, wherever block-basedPCA is applied, we reduce the dimension of the blocksfrom 64 (8x8) to one single pixel.To test and evaluate the proposed methodology forface classification, we used images from the ORL(Olivetti Research Laboratory in Cambridge, UK),available at http://www.cam-orl.co.uk. In the experiments,we used all the 400 faces of 40 individuals. All faceimages have the same spatial dimensions of 92 x 112pixels. Examples of ORL face database samples areshown in Figure 2. In order to reduce computationalburden and to fix the number of 8x8 blocks, all faceimages were resized to 56 x 48 pixels. Also, before theclassification the data was pre-processed to benormalized. In all cases, the classification was performedby a k-nearest neighbor classifier (KNN), with k=1. Weconsidered the entire database as both training and testingset (resubstitution).For the experiments, we present the results in 3experiments comparing the performance of facerecognition using distinct feature extraction approaches:a) Global PCAb) Block-based PCA + Global PCAc) Block-based PCA + Global PCA + LDAFigure 2. ORL database samplesThe block-based PCA was able to reduce the imagedimensionality from 2688-D to 42-D, by reducing 8 x 8windows to a single pixel. After that, we applied GlobalPCA and LDA to further reduce the dimensionality toseveral final subspaces with 5, 10, 20, 30 and 39 features.All the obtained results are shown in Table 1.Table 1. Classification errors for faceclassification using Global PCA and theproposed combination schemesD Global PCA Block-basedPCA + GlobalPCABlock-basedPCA + GlobalPCA + LDA5 0.5250 0.5825 0.585010 0.6500 0.6875 0.732520 0.6925 0.7300 0.817530 0.6875 0.7350 0.855039 0.6900 0.7375 0.8925Mean 0.6490 0.6945 0.7765Note that in all cases the combination of block-basedPCA, Global PCA and LDA improves the classificationperformance, showing that the proposed methodology canbe useful for face recognition problems. The meanperformance was significantly higher with the proposedmethod in comparison to the traditional Global PCAapproach.4. ConclusionsThis paper presented a novel methodology for patternclassification, combining different feature extractionapproaches, more precisely, global PCA, block-basedPCA and LDA in order to improve the face classificationperformance. The experiments with face images from theORL database showed good results, showing that theproposed combination strategy for feature extraction issuitable for face recognition problems.176


Voltar ao sumário5. AcknowlegmentsWe would like to thank FAPESP for the financialsupport through Alexandre L. M. Levada studentscholarship (process nº 06/01711-4) and also CNPq andCAPES for the financial support through Denis H. P.Salvadeo and Débora C. Corrêa student scholarships.6. References[1] A. K. Jain and S. Z. Li, Handbook of FaceRecognition: Springer-Verlag New York, Inc., 2005.[2] W. Zhao, R. Chellappa, P. J. Phillips, and A.Rosenfeld, "Face recognition: A literature survey," ACMComputing Surveys, vol. 35, pp. 399-459, 2003.[3] M. A. Turk and A. P. Pentland, "Eigenfaces forrecognition", Journal of Cognitive Neuroscience, vol. 3,n. 1, pp. 71-86, 1991.[4] K. Etemad and R. Chellapa, "Discriminant Analysisfor Recognition of Human Face Images", Journal of theOpt. Society of America A, vol. 14, pp. 1727-1733, 1997.[5] B. A. Draper, K. Baek, M. S. Bartlett and J. R.Beveridge, "Recognizing Faces with PCA and ICA",Computer Vision and Image Understanding, vol.91, n.1,pp. 115-137, 2003.[6] K. Fukunaga, An Introduction to Statistical PatternRecognition, Second ed., Academic Press, 1990.[7] T. Y. Young, T. W. Calvert, Classification,Estimation, and Pattern Recognition, Elsevier, 1974.[8] R.O. Duda, P.E. Hart, and D.G. Stork, PatternClassification, Wiley, Second ed., New York, 2000.[9] M. H. Yang, N. Ahuja, Face Detection and GestureRecognition for Human-Computer Interaction, KluwerAcademic Publishers, 2001.[10] Wang, H., Wu, X..; “Eigenblock Approach for FaceRecognition”, International Journal of ComputationalIntelligence Research, vol. 3, n. 1, pp. 72-77, 2007.[11] Wang, L., Wang, X., Zhang, X., Feng, J.; “Theequivalence of two-dimensional PCA to line-based PCA”,Pattern Recognition Letters, vol. 26, pp. 57-60, 2005.177


Voltar ao sumárioComplex Wavelet Features for Bark Texture ClassificationSamuel Tschiedel Guedes and Díbio Leandro BorgesUniversity of BrasiliaDepartment of Computer ScienceCampus Darcy Ribeiro, ICC, Asa NorteBrasília DFBrazilmukaobr@gmail.com, dibio@unb.brAbstractBark texture classification is a difficult image analysisproblem because of the lack of regularity in those textureimages. In this work bark texture features are extractedusing magnitude coefficients of a Dual­Tree ComplexWavelet Transform (DT­CWT). A database with acquiredimages of 51 classes of barks, 36 samples for each class,is tested computing recall and precision curves for 4different distance metrics. Experiments are done alsoincluding Brodatz images and Gabor features. Resultsshow that the DT­CWT coefficients are as accurate asGabor features for bark texture classification if estimatedand compared with equivalent orientations and scales.Advantages are to the DT­CWT features since they arefaster to compute.1. IntroductionContent­based image retrieval has been considered oneof the major challenges for Computer Science for the nextdecades [1]. Issues related to feature design [3][5], anddifferent classification approaches have been addressed byexperienced researchers in the area. Although globalapproaches and complete systems toward image retrievalare aimed, there is major agreement that small steps haveto be taken in designing new features and testing them onspecific and important retrieval tasks in order to achievebetter understanding of precision and performance beforedeploying applications [6] [8] [11]. It is known [3] thatuse of color can improve image classification performancein 6­8% for some tasks, however in this work we aim topropose and test texture features using an experimentalsetup with gray level images initially. The reason for thisis that we are interested in classifying tree species bysample images of their bark structures. Color of thosestructures depends very much on the environmentresources to the trees such as water, sun exposition, andtemperature season. By considering an efficient approachfor tree classification based on bark structures, besidescolor features we can in the near future extend theapproach to include color and maybe other attributes. Oneaim here is to address texture, propose and test a barkclassification solution compared to the most efficientschemes reported in the literature [8] [9].Texture is an important and discriminating feature inimage analysis. Describing a texture is notstraightforward though, since it is related to periodicity,directionality, and coarseness of the image. Usually astatistical or a space transform technique is proposed inorder to describe and represent the texture attributes asfeatures. The Dual­Tree Complex Wavelet Transform(DT­CWT) [12] is a new signal analysis and synthesistransform with greater capacity for directional selectivity,and shifting invariance than a Discrete Wavelet Transform(DWT). One of the main problems in designing a goodtexture feature for image analysis is directional selectivity[2][6].Bark textures show an immense variety of visualstructures, fairly not regular, and present a major andpractical challenge for image classification. In a visual178


Voltar ao sumárioinformation retrieval context the task would be to classifya sample image according to its similarity to other imagesin the dataset, and rank the results regarding precision andrecall aspects [2]. The main attempts to bark textureclassification have used statistical methods directly ongray level values [13], with better performance shown byco­occurrence matrices using 160 images of bark textures.Gabor Wavelet Transform, and texture features extractedfrom its coefficients, has been demonstrated [9] to be oneof the best features for texture classification tasks. Someresults from the literature, such as [7][10], show that it ispossible to extract texture features from a DT­CWT withsimilar accuracy to Gabor features considering test imagesfrom the Brodatz dataset.In this work we present an study on bark textureclassification on 1800 bark images collected from typicalBrazilian Cerrado (a savanna like vegetation) trees. Asystem to help on the automatic classification of suchtrees is a major and important application task since onlyabout a 5 th part (i.e. 20%) of the number of trees from theCerrado Bioma is catalogued. An image classificationsystem would help Biologists on their classification andstudy of the trees. Additional tests on Brodatz images arealso presented, comparing complex wavelet featuresextracted from a DT­CWT to Gabor features, using fourdifferent distance metrics. Interesting results are achievedshowing improved conditions on bark textureclassification, texture descriptors, and feature transformdistance measurements.The remainder of this paper is organized as follows.Section 2 explains the main properties of the DT­CWT.In Section 3 the method for extracting the features fromthe DT­CWT as texture descriptors is presented, as wellas the distance metrics which are evaluated. Descriptionof the experimental protocol with the images datasets andthe results in the classification tasks are given in Section4. Section 5 presents the main conclusions of this work.2. Complex Wavelet TransformA complex wavelet function in 2­D can be representedas given in equation (1), where real and imaginary partsare supported by a particular computation of real waveletfunctions [12]. Complex wavelet coefficients are given inmagnitude and phase, and the frequency responses of thetransform are analyzed regarding orientations and scales.Figure 1 gives an analysis structure for a 1­D Dual­TreeComplex Wavelet Transform. The 2­D structure can beobtained by computing along rows and columns inseparate.ψ(x, y) = [ψh(x) + jψg(x)] [ψh(y) + jψg(y)].Some advantages of DT­CWT compared to a DiscreteWavelet Transform (DWT) are their approximatelyinvariance to shifting, their capacity to respond moreprecisely to different orientations, and because of lessredundancy its computations is faster than the GaborWavelet Transform.In this work we propose to apply a DT­CWT to extractand represent bark texture features for classification.Different quantization and selection of the DT­CWTcoefficients are tested for extracting the features, as wellas a performance comparison on distance metrics for theclassification task.Fig. 1. 1­D filter analysis structure of a Dual­TreeComplex Wavelet Transform (DT­CWT). The 2­Dstructure can be obtained by filtering along rows andcolumns in separate.(1)179


Voltar ao sumário3.Complex Wavelet Features andClassificationThe Complex Wavelet Transform produces magnitudeand phase coefficients, all related to a particularorientation and scale. The magnitude coefficients showinvariance to shifting and they will be used as features forthe images.Besides being able to encode and to extract properly afeature set from the data, a problem for performing theclassification is to find an appropriate distance metric forevaluating the similarities. Texture is a region basedvisual property, and the estimation of the distributionmodel for the features used, and the measurement of thesimilarities between the samples, are to be judgedempirically because of the uncertainties about the sourcesand their influence on the features encoded. We proposeto evaluate the classification of the bark texture features inthis work using four different distance metrics. Equations2, 3, and 4 presents the Arithmetic, Median, andGeometric distances [3]. Equation 5 shows the SquaredLogarithmic distance [10].Δ = Σ(x – μ) 2 where μ = 1 ∕ N Σx , N samples. (2)Δ = Σ│x – μ│ where μ = median (x 1… x N ) ,N samples.(3)database [4] with 111 original, which are divided into 4images each of size 256x256 pixels.Classification was done by querying one image andordering the dataset of images with smallest distancesfrom the query. Four different distance metrics are tested:Arithmetic (equation 2), Median (equation 3), Geometric(equation 4), and Squared logarithmic (equation 5). Thefeatures used were the mean, and the standard deviation ofthe magnitude coefficients of the DT­CWT, considering 6orientations and 4 scales for each image. We have alsotested the results with Gabor features (6 orientations and 4scales) for comparison.Figure 2 shows a result of a query with the 35 closestimages classified. Figures 3 and 4 gives the recall andprecision curves respectively for the bark texture dataset,showing the results for Gabor and DT­CWT features. Itcan be seen from those curves that the SquaredLogarithmic distance performs quite well for the DT­CWT features and for the Gabor features. When the Barktexture and Brodatz datasets are considered together asshown in Figures 5 and 6, for recall and precisionrespectively, the tendency keeps the same, showing thatDT­DWT features with Squared Logarithmic and Gaborfeatures, both with Geometric distance and the SquaredLogarithmic presents good performance in theclassification of the textures.Δ = Σ[log(x ∕ μ)] 2 where μ = (∏x) ­N ,N samples.(4)Δ = Σ(log(x) – log(r)) 2 where r = reference ,N samples.(5)4. Experiments and ResultsWe have collected data from 51 different adult treesusing a digital camera, one for each class. Each imagepictures a regular bark of the tree. These original imagesare then divided into 36 samples of 256x256 pixels each,making it a total dataset for bark images of 1836 images.Another dataset we have used which have significantamount of texture information is the Brodatz imageFig. 2. Example images of the datasets in this workshowing a query (image 415) and the 35 closest onesaccording to a Squared Logarithmic metric.180


Voltar ao sumárioDT­DWT features are faster to compute and haveprecision similar to the best feature presented yet in theliterature for texture (Gabor features). Our next stepwould be to design and test a complete tree classificationsystem using the CT­DWT features.5. ConclusionsThis work performed feature extraction based on DT­CWT and Gabor Wavelet coefficients for bark textureclassification. As texture features all the magnitudecoefficients are considered and tested, i.e. no selection ordenoising is performed. Four distance metrics are testedwith a total of 1836 bark textures and 444 Brodatzsamples. The squared logarithmic distance showedsimilar performance for Gabor and Complex Waveletfeatures. With Gabor features the geometric distanceperformed quite as well. This database search application(bark texture) is a difficult texture classification task, andthe DT­CWT achieved good performance. Color has notbeen used on purpose, since real bark images collectedfrom the trees can vary much on color aspects because ofenvironment conditions. Future extensions will for sureadd color features in conditions known to improve theclassification. The comparison of those texture features,together with the metrics evaluated, provided interestingresults for bark and texture classification in general to befurther explored. Further work is being pursued on thosedirections in our lab.Acknowledgments. This work is partially supported bygrants from FINATEC, DPP (University of Brasilia), andCNPq.6. References[1]. Batelle, J. The Search: How Google and Its Rivals Rewrotethe Rules of Business and Transformed Our Culture.Portfolio, NY (2005)[2].Bimbo, A. del: Visual Information Retrieval. MorganKaufmann, San Francisco (1999)[3]. Bosch, A.; Muñoz, X. & Marti, R.: Which is the best way toorganize/classify images by content?. Image and VisionComputing 25(2007) 778­­791[4].Brodatz, P.: Textures: A Photographic album for artists anddesigners. Dover, New York (1966)[5]. Deselaers, T.; Keysers, D. & Ney, H.: Features for ImageRetrieval: a quantitative comparison. In: 26 th DAGMSymposium, pp. 228—236. LNCS 3175, Springer­Verlag,Heidelberg (2004)[6] Hanjalic, A.; Sebe, N. & Chang, E.: Multimedia ContentAnalysis, Management and Retrieval: Trends andChallenges. In: Proc. Of SPIE­IS&T Electronic Imaging, vol.6073, pp.1—5 (2006)[7].Hatipoglu, S., Mitra, S., and Kingsbury, N.: Image Texturedescription using Complex Wavelet Transform. In: IEEEInternational Conference on Image Processing, pp. 530­­533.IEEE Press, USA (2000)[8]. Lew, M.; Sebe, N.; Djeraba, C. & Jain, R.: Content­BasedMultimedia Information Retrieval: State of the Art andChallenges. ACM Transactions on Multimedia Computing,Communications and Applications 2(1), 1—19 (2006)[9].Manjunath, B.S. and Ma, W.Y.: Texture Features forBrowsing and Retrieval of Image Data. IEEE Transactionson Pattern Analysis and Machine Intelligence 18(8), 837—842 (1996)[10].Rivaz, P. de, and Kingsbury, N.: Complex WaveletFeatures for Fast Texture Image Retrieval. In: IEEEInternational Conference on Image Processing, pp. 109­­113.IEEE Press, USA (1999)[11]. Rowe, L. & Jain, R.: ACM SIGMM Retreat Report onFuture Directions in Multimedia Research. ACMTransactions on Multimedia Computing, Communications,and Applications 1(1), 3—13 (2005)[12]. Selesnick, I.; Baraniuk, R. and Kingsbury, N.: The Dual­Tree Complex Wavelet Transform. IEEE Signal ProcessingMagazine November 2005, 123—151 (2005)[13].Wan, Y., Du, J., Huang, D., Chi, Z., Cheung,Y.,Wang, X. and Zhang, G.: Bark Texture FeatureExtraction based on Statistical Texture Analysis. In:International Symposium on Intelligent Multimedia,Video and Speech Processing, pp. 482­­485. HongKong (2004)181


Voltar ao sumárioFig. 3. Recall curves for bark texture classification considering Bark dataset (1836 images).Fig. 4. Precision curves for bark texture classification considering Bark dataset (1836 images).182


Voltar ao sumárioFig. 5. Recall curves for bark texture classification considering Bark dataset (1836 images) + Brodatz (444 images).Fig. 6. Precision curves for bark texture classification considering Bark dataset (1836 images) + Brodatz (444 images).183


Voltar ao sumárioContent-Based Video Retrieval through Wavelets and ClusteringCesar Castelo FernándezCatholic University of Santa MaríaUrb. San Jose s/n UmacolloArequipa, Perucesar.castelo@gmail.comAbstractIn this paper it is described all of the necessary conceptsfor the implementation of a Content-Based Video RetrievalSystem (CBVR), showing the main techniques usedin this task, and the application of some new ones for thevideo analysis. The techniques are Gabor Wavelets, Fuzzyc-means Clustering and Indexing with Slim-Trees. Finally,it is presented an algorithm that explains how whole processis done using the previous techniques.1. IntroductionActually we have a huge amount of multimedia content(images, videos, etc), whether in our personal computers,the Internet, in our cell phones, etc and every day this collectionbecomes more extensive, doing every time greaterthe need to have systems for perform efficient searches inthis collections, that means look for the content inside thevideos, and not only by text related to them.Content-Based Video Retrieval (CBVR) Systems [6] arethe answer to this need, because they perform the query processusing inherent features from the video like shape, color,texture, etc in the frames, allowing us to do queries throughwhich we enter a search pattern, which will try to be localizedin the video, or in a video collection repeating the processfor every single video.The search pattern entered to the system, could be an imageor a video clip [4]; with the image it is done a similaritysearch to find out if the image is inside the video; and withthe video clip it comes to determining if this sequence is insidethe video, doing a windowed search by sliding the clipalong the video to verify if it is inside it.Current CBVR techniques are divided into two categories[4]: frame sequence matching and key-frame basedmatching. The first one consist of analyzing the video frameby frame trying to find similar frame-sequences, but they requiresso much time. In the other hand, in the second categorykey-frames are extracted by every similar frame set(shot) which are the ones that represent the shot; this onesare faster due to the feature extraction is done only in thekey-frames, but they leave out the temporal variations andcorrelation between key-frames within an individual shot.In Section 2 it is presented a brief explanation of the featuresused for the CBVR systems as well as the selectedtechniques for this work; in Section 3 it is explained theVideo Segmentation process, along with the selected technique;in Section 4 it is explained how the Video Indexingis done; the algorithm for the query process is presented inSection 5 and the conclusions in Section 6.2. Texture like an Image DescriptorTo make the content-based video query process, it is necessaryto represent certain inherent characteristics, stressingshape, texture and color. A feature quantifies some propertyof an object. From an image it is possible to extract nfeatures, and the goal is to represent such image through an-dimensional vector named Features Vector, which representsthe object like a point in a n-dimensional space [8]. Itis important that the selected features are invariant to size,translation and rotation variations to achieve a proper representation.Texture is a pattern of elements with different densitiesthat is repeated in an interval; texture analysis can bedone through statistical analysis (analysis at intervals) orthrough structural analysis (analysis at texture elements),which sets the neighborhood, density, regularity and the objectspositioning rules [12]. To numerically represent texture,the most used techniques are digital signal processingtechniques, being the Wavelets one of the most efficient.2.1. Gabor WaveletsLike it is known, Wavelets Transform and Fourier Transformare techniques that are intended to represent a signalthrough coefficients (to occupy less space), transforming184


Voltar ao sumáriothe signal from the space domain to the frequency domain[15]; and this transformation is which produces the coefficients.A wavelet is a limited duration and compact supportfunction (different from zero in a finite space, and zeroin the rest), through which it is tried to reproduce the originalsignal through rotations and translations; and this featuremakes it useful to represent non stationary signals likeimages, in contrast with Fourier Transform which is usedfor stationary signals.The transform selected for this work was the GaborWavelet Transform, since in [14] it was demonstrated thatthey are specially useful for the texture recognition in images,showing more efficient than other wavelets for thistask (Haar, Daubechies); also because in [1] it is demonstratedthat they have very good performance in Content-Based Image Retrieval (CBIR) systems, due to it is assumedthat they would appear efficient for CBVR systems (an extensionfor video analysis from image analysis).The whole set of Gabor Wavelets is obtained from amother wavelet, applying rotations, translations, and dilations(Multiresolution Wavelets Analysis [9]), as shown inFigure 1, through which it is tried to cover all the image,generating different frequency centers and orientations.Where a −m is the scale parameter, which multiplies therotation matrix (sines and cosines) and the original values xand y;andxy = a −m cos θn sin θ n x,θ− sin θ n cos θ n y n = nπ/N(3)The Gabor Wavelet Transform (set of coefficients whichrepresent the image) is derived by convolution, i.e. throughthe internal product between original image and wavelettransform:W mn (x, y) = I(x ,y )ψ mn (x − x ,y− y )dx dy (4)And finally, features vector of the image is formed by themean and the standard deviation of the coefficients from deEquation 4 [1]:µ mn = |W mn (x, y)|dxdy, (5)σ mn = (|W mn (x, y)|−µ mn ) 2 dxdy (6)3. Video SegmentationFigure 1. Set of Gabor Wavelets having appliedrotations, translations and MultiresolutionAnalysisMother Gabor Wavelet is derived from: 1ψ(x, y) =exp − 1 x22πσ x σ y 2 σy2 + y2σy2 +2πjWx(1)Where σ x and σ y are the deviations along x and y respectively.The set of Gabor Functions (to cover all the image) is derivedfrom:ψ mn (x, y) =a −m ψ(x ,y ),a>1, (2)One of the most important tasks in CBVR systems (possiblythe most important) is video segmentation; whichmeans the division of the video in its smallest unit, shots.A shot is formed from a set of frames which were recordedby the same camera. Shots inside a video are united throughtransitions, which could be abrupt (abrupt change wheresimply a frame from a shot is placed next to a frame fromanother shot) or gradual (change is done gradually from oneshot to another along several frames).As explained in [5], video segmentation could be doneapplying some shot boundary detection algorithm, and likeit is explained there, algorithm for such task are classifiedinto five categories: Pixel based, Statistical based, Transformbased, Feature based and Histogram based; but in generalthe problem of applying any of these methods is that alwayspresent difficulties in detecting transitions; because ofthat there are other alternatives for video segmentation, likeClustering techniques.The advantage that we get when applying Clustering insegmentation, is precisely that we avoid the shot transitiondetection problem, since the implementation of Clusteringallows the grouping of video frames taking into accountonly similarity between them, to form clusters.3.1. ClusteringClustering is a technique that allows us to find groupsinto a disorder data set. Inside each cluster there must be185


Voltar ao sumáriothe highest similarity between its elements, and the lowestsimilarity with the other clusters [7].Each cluster has a centroid, who comes to be the elementthat represents the whole cluster, and to define which clusterbelongs to each element, what is done is to compute thedistance (similarity) that exists between all data with eachof the centroids, and it is defined that the element belongsto the cluster whose centroid is closer.The centroids must be defined initially and then distancesare calculated; then, depending on the chosen algorithm(k-means, k-medians, fuzzy k-means, etc. [7]), it isdefined which are the new centroids, and distances are calculatedagain, repeating the process until distances betweenprevious centroids and new ones are less than a threshold.To apply the concept of Clustering to the video segmentation,each of the video frames are considered as the elements,and the obtained clusters come to be the video shots.The key-frame could be defined as the frame closest to thecluster centroid.As explained above, to apply Clustering it must be calculatedthe distance between element and centroids, for thevideo, the distance between these will be obtained applyingthe techniques explained in Section 2, using the featuresvectors to determine the degree of similarity betweenframes.As shown in [7] and [16], there are many algorithmsto implement Clustering, stressing k-means, c-means, andlater an extension to the c-means algorithm to which it wasapplied fuzzy logic concepts, getting the Fuzzy c-means(FCM), which presents a good performance, but that hasmany problems too, to which it is given a solution in a newalgorithm proposed in [16] and which is presented below .3.2. Modified Fuzzy c-means AlgorithmThis algorithm works on the Fuzzy c-means algorithmproposed by [10], to which it has been applied many modificationsthat improve their performance, like a change inthe way that distance between elements is calculated (initiallyEuclidean distance). In FCM, rather than consideringthat the data belonging to a cluster rigidly, they can belongto several clusters with a certain degree of membership, beingthis expressed in a membership matrix.For FCM it is always considered an Objective Function,which must be minimized through the Centroids (centralvalues of a cluster) and the Indicator Functions. From theIndicator Functions it is builded the Membership Matrix, inwhich the matrix element µ ij indicates the degree of membership(value between 0 and 1) of the element j to the clusteri.But, a problem with the FCM is that the functions proposedin [10] for the Clustering, does not consider the spatialinformation of the data, i.e. the relation between eachobject with its neighbors, being in this way sensible to theapparition of noise in the clustering process.To solve this problem, it was first proposed to considerthe neighbors information adding the parameters α and σwhich control the neighbors effect, and this is called SpatialCorrection. With this new account, it changes the calculationof the three functions indicated before (J, a, µ).This proposal improves the classifier performance in contrastwith other proposals, and thanks to a last modificationmade, it is optimized the calculation of these new parameters.In addition to this improvement also proposed to considerthe distance calculation through a Gaussian distanceinduced with a Kernel function. With all of this improvements,functions J,a,µ, now are defined as follows:JS G m(µ, a) =a i =k=1ci=1 j=1cnµ m ij (1 − K(x j ,a i )) +i=1 j=1nη i µ m ij (1 − K(¯x j ,a i )) (7)nµ m ij (K(x j ,a i )x j + η i K(¯x j ,a i )¯x j )j=1nµ m ij K(x j ,a i )+η i K(¯x j ,a i )j=1i =1, 2, ..., c (8)µ ij = ((1 − K(x j,a i )) + η i (1 − K(¯x j ,a i ))) −1m−1,c((1 − K(x j ,a k )) + η i (1 − K(¯x j ,a k ))) −1m−1i =1, 2, ..., c; j =1, 2, ..., n (9)K(x, y) =exp(−x − y/σ 2 ) (10)where η and σ are the parameters that were added to considerthe neighbor information. But, a new problem that waspresented is that the algorithm depends strongly of such parameters,for which it was proposed that they are automaticallycalculated, having that the parameter σ is approximatelyby dispersion using sample variance:σ 2 =nx j − ¯x 2 /n;¯x =j=1,nx j /n (11)j=1and that the parameter η is obtained from the data by applyingmachine learning concepts, through which it is adjustedsuch parameter (it is learned) in each algorithm iterationwith the formula:186


Voltar ao sumárioη i = min i =i(1 − K(a i ,a i )),i=1, ..., c (12)max k (1 − K(a k , ¯x))In the equations presented above always it is necessaryto calculate the distance between two points using KernelFunctions; but in this paper, in order to calculate the Kernelfunction with Equation (10), it is necessary to make useof the Gabor Wavelets, finding the Features Vector for eachelement with Equations (5) y (6), and calculating the Euclidiandistance between them, instead of subtract them.Finally, it is important to stress that originally, in thework of [16] the topic is image segmentation, and the noisein the images is ”salt and pepper noise” (rain in the image),but for this work, the topic is video segmentation and notimage segmentation; then the noise that is eliminated withthe inclusion of spatial information could be those frameswhich are part of a gradual transition, and precisely they arethe element which could become in Outliers after a Clusteringprocess on the video frames.4. Video IndexingAs we know indexes are widely used in the field of computingto offer more efficient access methods to large volumesof data, like databases, which were one of the first areaswhere indexing was used.In videos, indexing is used so you can find more quicklyand easily inside them, i.e. to avoid that search algorithmshave to analyze all the video frames one bye one (whensearch pattern is an image), to verify the degree of similaritywith the video frames. And precisely to avoid suchprocess, the shots extracted from the video are used.Mostly, video indexing is done using the key-frames (themost representative frame from each shot) which is the onethat best describes the shot; but for this work another wayto get the index from each shot will be used, taking as a referencethe work in [4].4.1. Video Indexes ExtractionAs explained above, a key-frame is the frame which bestrepresents the shot, but in this way, we only consider thevalue of one frame (its features vector) to represent thewhole shot. Instead, it would be more proper if we representthe shot with an ”average” features vector.This vector will be obtained adding the features vectorsof each frame from the shot, and then it is normalized bydividing it by the number of frames. Then, the value of theshot index will be the normalized vector which representsthe whole shot.Using this vector is better than using the key-frame, sincethe normalized vector considers information of the wholeshot (each of the frames), which makes we work with moreconsistent information to the presence of any kind of noiseor Outliers in the key-frame. Also in the video standardMPEG-7 [11], is already accepted the representation of severalframes (a shot) through a single color histogram.Maybe it could be considered that the use of indexes insidea video is not very much necessary and it will not improvethe performance of the CBVR system so much sincethe indexes obtained are not very much (even if it is a verylong video, the indexes are not a high number). This is true,the number of indexes is not high in contrast with the thousandsof indexes that could be found in a Database, whichindex millions of data, and significantly improve the accesstime in the data; but in videos, the great improve in time andthe big difference with a Database, is that for a search we arenot going to compare numerical data or characters, but weare talking about a comparison between two images (findthe degree of similarity). While for the comparison of simpledata only it is necessary to compare the data, for imagesit must be applied some feature extraction technique (suchas those described in Section 2), thus it is obtained a featuresvector, and then the comparison between the obtainedvectors is done, which also implies to apply another techniqueto compute the distance between the vectors like EuclidianDistance (for Wavelets), Areas difference (for histograms),etc, that obviously also requires extra processingtime.For indexing, a metric data structure was chosen whichuses the distance between images to index them, which iscalculated using a Distance Function, that can take two values0 if they are equal or a value grater than 0 which indicateshow different they are. This function use the featuresvectors obtained from some feature extraction technique.As can be seen in [13] and [2] there are many indexingmetric structures, but one of the best is the Slim-Tree.4.2. Slim-TreesIt is considered that this is a better metric structure sinceunlike other structures it allows to be made insertions anddeletions after having been created, i.e. it is a dynamicstructure [13]; which is very advantageous in query systemslike CBVR systems, because this allows to add morevideos to the tree, i.e. that we maintain in a single structurethe indexes from various videos. This have advantages anddisadvantages. The advantage would be to do the queriesfaster, because we have a single structure; and a disadvantagewould be that it is a little more difficult to distinguefrom which video are each of the indexes and therefore wecould not know in which video is the image found in thequery , but it can be solved adding in each index an identifierof the video to which it belongs.Slim-Trees are organized in two kinds of nodes: Internalnodes, which are the ones who indexes the tree, i.e.187


Voltar ao sumáriothey present us an organization between them to reach morequickly the desired node (like a path between nodes), maintainingthis organization based on the distance betweenthem (because of that they are known as a metric structure).And the Leaf nodes which are the ones who reallycontain the objects, i.e. here is where the Normalized FeaturesVectors obtained before are really saved, and in the Internalnodes only it is saved an identifier of them.5. Query Algorithm for the proposed CBVRSystemIn the previous Sections it has been explained all of thenecessary concepts to develop a Content-Based Video RetrievalSystem, and an explanation of the chosen techniquesfor this paper, which according to previous analysis are theones who showed the best performance for this task.First, I will present the proposed algorithm to prepare thevideo for query processes, and then the algorithm for thequery process itself, using all of the explained techniques.Algorithm 1 Prepare-VideoInput:(1) F rames, set of video framesOutput:(1) T ree, SlimTree having the indexed videoProcedure:Shots = Segment-Video(F rames)Indexes = Get-Indexes(Shots)T ree = Build-Slim-Tree(Indexes) [13]return T reeAlgorithm 2 Segment-VideoInput:(1) F rames, set of video framesOutput:(1) Shots, set of segmented shotsProcedure:Estimate σ 2 using (11)Calculate η (s)i using (12)while a (s) − a (s−1) >εdoCalculate µ (s) with a (s−1) and η (s)i using (9)Calculate a (s) with a (s−1) , µ (s) and η (s)i using (8)end whileShots = µ (s)return Shots6. ConclusionsThe query process in a video is a complicated process,because as it was described it implies many complex tech-Algorithm 3 Get-IndexesInput:(1) Shots, set of segmented shotsOutput:(1) Indexes, set of video indexesProcedure:for all shot S in Shots dofor all frame F in shot S doFind the Features Vector VC i for F using (5) and(6).T ot = T ot + VC iNumF r = NumF r +1end forIndexes i = T ot/NumF rend forreturn IndexesAlgorithm 4 Video-QueryingInput:(1) T ree, Slim-Tree which contains the videos indexedpreviously(2) P attern, image or video clip which will be searchedin T reeOutput:(1) Belongs, indicates if the entered pattern is inside thevideosProcedure:if P attern is an Image thenBelongs = T ree.Search-Element(P attern)end ifif P attern is a Clip thenClipShots = Segment-Video(P attern)ClipIndexes = Get-Indexes(ClipShots)Belongs = T ruefor all index I in ClipIndexes doif T ree.Search-Element(I)=F alse thenBelongs = F alseend ifend forend ifreturn Belongsniques; that means it uses a considerable time, but at thesame time, while techniques are more advanced and betterdeveloped, the process will be done more efficiently.Video segmentation is the most important task of the process,since the proper video separation in shots and afterwardsin indexes depends on it.As it was explained, segmentation can be done using Clusteringtechniques, and these have advantages over other segmentationalgorithms due to it is not necessary to deal withtransitions detection problems between shots.In Clustering it is important to consider spatial information188


Voltar ao sumárioof the data , because this helps us to avoid Outliers problemsin the process, and also with the elimination of noisein the data.Gabor Wavelets are a very useful technique in image featuresrepresentation, and they are one of the best techniquesfor texture representation.For a Content-Based Video Retrieval System, it is importantto use an indexing structure like Slim-Trees, becausethese facilitate the query process, being them more efficientthan plain queries over data.[15] J. Wang. Methodological review - wavelets and imaging informatics:A review of the literature. Journal of BiomedicalInformatics, 2001.[16] M. Yang and T. H.S. A gaussian kernel-based fuzzy c-meansalgorithm with a spatial bias correction. Pattern RecognitionLetters, 2008.References[1] C. Beltrán. Recuperaçao de imagens por conteúdo através deanalise multiresoluçao por wavelets. Master’s thesis, ICMC- Universidade de Sao Paulo, 2003.[2] J. Bueno. Suporte à recuperaçao de imagens médicasbaseada em conteúdo através de histogramas métricos. Master’sthesis, ICMC - Universidade de Sao Paulo, 2001.[3] C. Castelo and F. Carranza. Recuperación de imágenesmédicas por contenido: Comparación entre histogramasmétricos y wavelets. In Jornada Internacional de Ingenieríade Sistemas UCSM, Perú, 2008.[4] L. Chen, K. Chin, and H. Liao. An integrated approach tovideo retrieval. In Proc. 19th Australasian Database Conference,2008.[5] L. Chen, C. Su, H. Mark Liao, and C. Shih. On the previewof digital movies. Journal of Visual Communication and ImageRepresentation, 2003.[6] Y. Chung, W. Chin, X. Chen, D. Shi, E. Choi, and F. Chen.Performance analysis of using wavelet transform in contentbased video retrieval system. In Proceedings of the 2007WSEAS International Conference on Computer Engineeringand Applications, Australia, 2007.[7] A. Cuadros. Agrupamiento de conjuntos de datos multidimensionalescon reducción de dimensionalidad. Master’sthesis, Universidad Católica San Pablo, 2007.[8] R. Gonzales and P. Wintz. Digital Image Processing. AddisonWesley, 1993.[9] S. Mallat. A theory for multiresolution signal descomposition:The wavelet representation. IEEE Transaction on PatternAnalysis and Machine Intelligence, 1989.[10] E. Ruspini. A new approach to clustering, 1969.[11] T. Sikora. The mpeg-7 visual standard for content description- an overview. IEEE Transactions on Circuits and Systemsfor Video Technology, 2001.[12] F. Tomita and T. Saburo. Computer analysis of visual textures,1990.[13] C. Traina, A. Traina, B. Seeger, and C. Faloutsos. Slim-trees:High performance metric trees minimizing overlap betweennodes. In International Conference on Extending DatabaseTechnology, Germany, 2000.[14] M. Tuceryan and A. Jain. Texture analysis. Handbook of PatternRecognition and Computer Vision, 1993.189


Voltar ao sumárioDetecção de Resíduos em Imagens de Bolsas de Sangue UtilizandoTransformada WaveletCássio Avelino Adornicassioaa@ig.com.brAdilson Gonzagaadilson@sel.eesc.usp.brDepartamento de Engenharia Elétrica, Escola de Engenharia de São CarlosUniversidade de São Paulo – USPRESUMO - A medicina de transfusão de sangue cada vezmais exige produtos e processos mais seletivos. Destemodo as bolsas de sangue são submetidas a processoscom grande variação de temperatura e a váriascentrifugações sucessivas, e se no seu filme existirqualquer material ou resíduo poderá causar ruptura dabolsa com conseqüente perda de seu conteúdo. Estesmateriais ou resíduos podem ser detectados durante oprocesso de manufatura e fabricação, mas algumasempresas adotam o sistema de inspeção visual manual,que não garante que todas as bolsas estejam livres destesresíduos, devido ao fator humano e a juízo de valor. Paraautomatizar este processo este artigo propõe umametodologia de Inspeção Visual Automática. Noprocessamento das imagens foi utilizada a TransformadaWavelet para destacar as altas freqüências nas imagens.A metodologia proposta, baseada em wavelets, alcançouresultados promissores e confiáveis indicando que suaimplantação em uma linha de produção pode melhorar aqualidade do produto final.Estes materiais ou resíduos podem ser detectadosno processo de fabricação e manufatura da bolsa desangue, durante as inspeções de qualidade.Em algumas empresas o processo de inspeção debolsa de sangue é feito visualmente, a olho desarmado oua olho nu, como na Figura 1, fato que não permite garantira ausência de resíduo por estar diretamente ligado ao fatorhumano e a juízo de valor [2].INTRODUÇÃOCom a evolução da medicina de transfusão desangue nos últimos tempos, são necessários processos eprodutos mais seletivos. As bolsas de sangue, produtoutilizado na armazenagem de componentes sanguíneos,são submetidas a vários processos com grandes variaçõesde temperatura, de 120ºC na esterilização à -70ºC noarmazenamento de sangue e centrifugações sucessivas deaté 5000 RPM [1].Para garantir sua qualidade, o filme plástico coma qual é fabricada, não pode conter qualquer material ouresíduo que cause alteração em seu estado ou resistência,para evitar que durante os processos de armazenamentoou centrifugação não haja ruptura da bolsa, causando aperda do conteúdo e por conseqüência graves transtornos.Figura 1 – Processo de Inspeção Visual manual.É preciso garantir que as bolsas comercializadaspara coleta de sangue, não contenham qualquer tipo deresíduo, a um custo que não inviabilize a competitividadecomercial das empresas, que somente pode ser conseguidacom sistemas automatizados.Para automatizar o processo de inspeção visual,este artigo propõe uma metodologia para odesenvolvimento de um sistema de visão de máquina(Inspeção Visual Automática), por meio de VisãoComputacional. Com o avanço dos sistemascomputacionais, os algoritmos para reconhecimento depadrões em imagens têm apresentado excelentesresultados quando aplicados em sistemas automatizados,obtendo avanços significativos em várias áreas [3] [4].190


Voltar ao sumárioCAPTURA DAS IMAGENSNa captura das imagens, foi usado um sistema deiluminação omni-direcional [5], para isolar as bolsas paracoleta de sangue das adversidades do ambiente.Este equipamento, na parte superior possui umaabertura e um suporte no qual é fixada a câmera paradigitalização das imagens. A iluminação é realizadaatravés de quatro lâmpadas fluorescentes tubulares de luzbranca excitadas por fonte de alta freqüência (15 KHZ).Estas lâmpadas estão direcionadas para a parte superiordo difusor, que reflete a luz na bolsa para coleta de sanguee assim distribuindo a luz de maneira uniforme e isolandodas adversidades do ambiente.Foi utilizada a câmera de vídeo KP-110CCD daHitachi, com um conjunto de lentes de zoom óptico de 16vezes e controle de abertura do diafragma.Esta câmera gera imagens analógicas queposteriormente são digitalizadas.Para a formação do primeiro banco de imagensforam utilizadas 48 bolsas para coleta de sangue com osdois tipos de filmes: Di (2-etilhexil) ftalato (DEHP) e tri(2-hetilexil) trimelitato (TEHTM), nos formatos de bolsasatélite e mãe. Estas bolsas foram retiradas da linha deprodução, e classificadas, por um Laboratório de Controlede Qualidade, em “Bolsa com resíduo” e “Bolsa semresíduo”, determinando-se a quantidade de resíduos emcada bolsa.Cada bolsa para coleta de sangue foi catalogada,numerada e dividida em oito partes, como na Figura 2.Figura 2 - Imagens geradas de uma bolsa de sangue.As imagens foram dividas em oito partes, porquedesta maneira pode-se ampliar as imagens usando osrecursos da filmadora e do conjunto óptico.Além das oito imagens de cada bolsa foramcapturadas imagens de partes das bolsas que representemcenas que possam gerar dificuldades no processamento ena classificação dos pixels de resíduos. Estas imagensgeralmente são partes escuras, com níveis de cinzapróximos aos de resíduos, ou que tem grande variação. Asimagens contêm hímens, “tear off”, tubos de saída,interruptor de fluxo e vários resíduos próximos das bordase com níveis de cinza diferentes, como mostrados naFigura 3.Figura 3 - Exemplos de imagens capturadas.O primeiro banco de imagens foi gerado noformato BMP, resolução de 608 x 456 pixels e 256 níveisde cinza, com 504 imagens das quais 380 sem resíduos e124 imagens com resíduos.O segundo banco de imagens foi gerado usandocem bolsas para coleta de sangue retiradas da linha deprodução, também com os dois tipos de filmes e com osmesmos formatos, resolução e níveis de cinza doprimeiro, com 800 imagens, ou seja, 8 imagens de cadabolsa.Estas bolsas foram inspecionadas, classificadasapenas em “Bolsa com resíduo” e “Bolsa sem resíduo”pelo mesmo laboratório de controle de qualidade, semdeterminar a quantidade de resíduos em cada bolsa, e emseguida numerada de um a cem. Nenhuma das bolsasusadas nesta inspeção foi usada na geração das imagensdo primeiro banco de imagens.A captura das imagens foi realizada da mesmamaneira que na geração do primeiro banco de imagens,considerando-se as oito imagens, sem imagens adicionais.PROCESSAMENTO DAS IMAGENS UTILIZANDO ATRANSFORMADA WAVELET191


Voltar ao sumárioNesse trabalho foi usada a análise demultiresolução (Multiresolution Analisys - MRA),desenvolvida por Mallat [6] [7] e a Wavelet de Haar [8][9], devido sua simplicidade para implementação, baixocusto computacional, e ser amplamente usada emprocessamento de imagens digitais [10].Foram utilizados dois níveis de decomposição,mas somente os coeficientes horizontais do segundo nível[11] foram capazes de detectar a presença de resíduos.Os resíduos presentes nestas bolsas nãoapresentam tamanho inferior a 10 e superior a 60 pixels,pois, são oriundos de pequenos fios de cabelo humano,partículas de poeira ou outros materiais. Entretanto, asbordas das bolsas quando processadas via TransformadaWavelet destacam-se da mesma maneira que os resíduosprocurados. A diferença está no tamanho do agrupamentode pixels formantes das bordas.Portanto, verificando-se na imagem decoeficientes horizontais do segundo nível dedecomposição a conectividade de todos os pixels, usandoa vizinhança de quatro na vertical e na horizontal (N4(p))[2] [3] e em seguida identificando-se quais os objetos(grupos de pixels conectados) na imagem possuem maisde 350 pixels conectados, é possível descartar “blobs”maiores considerando-os como bordas e não resíduos.Foi usado um limiar para gerar os pixels deinteresse, e dessa forma isolar os pontos de mais altafreqüência. Este limiar foi determinado em testesempíricos, com auxílio da base de imagens, observandoseas características dos resíduos. O valor do limiar foiestabelecido em 204.Por fim, para cada agrupamento encontrado naimagem, foi verificada a quantidade de pixels quepossuíam e considerado resíduos somente aqueles entre10 e 60 pixels conectados, gerando-se uma imagembinária com apenas os pixels que representam resíduos,como na Figura 4.Para a avaliação dos resultados obtidos foirealizada uma inspeção visual manual em cada bolsa paracoleta de sangue utilizada na montagem do primeirobanco de imagens. Esta inspeção visual manual foirealizada por três inspetoras de uma linha de produção.Cada inspetora tem características e experiênciadiferentes, como acontece no trabalho de qualquerempresa. A Inspetora 1 tem 3 meses de experiência nestafunção, a Inspetora 2, um ano de experiência nesta funçãoe a Inspetora 3, um ano e dois meses de experiência nestafunção. Nenhuma das inspetoras usam lentes corretivas.ANÁLISE ESTATÍSTICANa comparação dos resultados foi utilizada aanálise estatística do Teste t Student [12] para amostraspareadas, com o intervalo de confiança de 95%, sendoconsideradas diferenças estatisticamente não significantesquando o valor de p < 0,05, ou seja, com baixo nível deincerteza.O coeficiente de correlação de Pearson [12] foiutilizado para análise comparativa entre os resultados dasinspeções realizadas e a classificação do laboratório decontrole de qualidade. Esta correlação varia de -1 a 1,onde -1 indica correlação inversa e 1, a correlaçãoperfeita.INSPEÇÃO VISUAL MANUALFigura 4 – Exemplo de Processamento das Imagenspela abordagem propostaTodas as inspetoras foram treinadas para exerceresta função e os treinamentos são realizadosperiodicamente de três em três meses.As três inspetoras analisaram todas as quarenta eoito bolsas, tal como em suas atribuições diárias, ou seja,com a rotina de trabalho habitual.192


Voltar ao sumárioPara se obter um resultado único do sistema deinspeção visual manual foi gerada a média das trêsinspeções realizadas.As bolsas usadas na captura das imagens foramclassificadas e a quantidade de resíduos anotada. Osresultados obtidos pelas inspetoras, bem como média doprocesso de inspeção visual manual e o tempo deexecução desta tarefa, foram comparados ao resultado doLaboratório de Controle de Qualidade e são apresentadosna Tabela 1.Como era de se esperar, as inspetoras obtiveramresultados diferentes na inspeção de uma mesma bolsa desangue. Por exemplo, o resultado obtido pelas inspetorasna bolsa_46 são divergentes; a Inspetora 1 encontrou 4resíduos e as outras duas não encontraram resíduo algum.O tempo médio para processar uma imagem everificar a existência de resíduos foi de 1,4 segundos. Nasoito imagens, que uma bolsa pode gerar, o tempo médiode inspeção foi de 11,2 segundos e o tempo total paraanálise das 48 bolsas para coleta de sangue, foi deaproximadamente 10 minutos, ou seja, tempo este inferiorà média dos tempos das inspetoras humanas.Tabela 1 - Resultados da inspeção visual manualTempo(Min.)Coeficiente deCorrelaçãoInspetora % Acerto1 68,75 10 0,70162 77,08 15 0,24363 62,5 15 0,3343Média 70,8 12 0,6690Figura 5 - Digrama de blocos do algoritmodesenvolvido.Este fato comprova a interferência do fatorhumano nos resultados de classificação.RESULTADOS DA INSPEÇÃO VISUALAUTOMÁTICAPara analisar as imagens do banco de imagens foidesenvolvido um algoritmo na plataforma Matlab versão7.0 da MathWorks, Inc. Este algoritmo foi aplicado emtodas as 504 imagens do primeiro banco de imagens. AFigura 5 mostra um diagrama de blocos do algoritmodesenvolvido.A metodologia proposta neste trabalhoidentificou corretamente, ou seja, considerando-se onúmero total de resíduos em cada uma, a existência deresíduos em 46 das 48 bolsas analisadas, ou seja, com96% de precisão, e o coeficiente de correlação de 0,9753.A Figura 6 traz o gráfico com os resultados daclassificação realizada pelo laboratório e da inspeçãorealizada.Apenas duas bolsas, a bolsa_6 e a bolsa_13, nãoforam corretamente analisadas. Estas bolsas têm comocaracterísticas, resíduos nas bordas da imagem, comoapresentado na Figura 7.O algoritmo não conseguiu identificar resíduosnessas imagens, porque o resíduo estava na borda dabolsa, e como a borda foi removida, também foi removidaa informação com o resíduo.INSPEÇÃO VISUAL AUTOMÁTICA APLICADA ÀSBOLSAS RETIRADAS DA LINHA DE PRODUÇÃOPara se avaliar o desempenho do sistema deInspeção Visual Automático desenvolvido neste trabalho,o algoritmo desenvolvido foi aplicado nas 800 imagens dosegundo banco de imagens retirado diretamente da linhade produção.Figura 6 - Comparação dos resultados da inspeçãovisual automática e a classificação do laboratório decontrole de qualidade.193


Voltar ao sumáriocoeficiente de correlação de 0,9526. Estes resultadosestão demonstrados na Figura 8, onde 1 indica resíduo e 0a ausência de resíduo.Da mesma maneira o método não obteve êxitoem duas bolsas, a bolsa_7 e a bolsa_12, porque osresíduos nestas bolsas estão localizados na borda daimagem, como na Figura 9.Figura 7 - (a) Imagem do resíduo da bolsa_6; (b)Imagem do resíduo da bolsa_13.Nesta inspeção somente foi avaliado se existemou não resíduo na bolsa para coleta de sangue, semespecificar a quantidade de resíduos encontrada.Figura 9 - (a) Imagem do resíduo da bolsa 7; (b)Imagem do resíduo da bolsa 12.CONCLUSÃOFigura 8 - Comparação resultados Inspeção VisualAutomática das bolsas retiradas da linha de produção.Os resultados mostram que a abordagemdesenvolvida neste trabalho conseguiu identificarcorretamente resíduos em noventa e oito das cem bolsasanalisadas, ou seja, com precisão de 98%, e obteve oOs resultados obtidos com as inspeçõesrealizadas pelas inspetoras da linha de produção indicamque existem divergências na inspeção de uma mesmabolsa.As análises realizadas neste trabalho mostramque o percentual de acerto obtido é pequeno quando ainspeção é realizada de maneira manual, mesmo que porinspetores treinados. Este fato expõe a fragilidade doprocesso e indica claramente a necessidade deautomatização da Inspeção Visual.Portanto a automatização desta tarefa pode obterresultados mais uniformes com padrões mais bemdefinidos.194


Voltar ao sumárioA metodologia de inspeção visual automáticabaseada em Wavelets alcançou resultados mais precisoscom o percentual de acerto de 96% das bolsas analisadasno primeiro banco, com o coeficiente de correlação de0,9753 e de 98% das bolsas analisadas na linha deprodução, com o coeficiente de correlação de 0,9526.O tempo que o sistema de Inspeção VisualAutomático levou para processar e classificar as imagensdas 48 bolsas do primeiro banco foi de aproximadamente10 minutos, sendo que a média do tempo da inspeçãomanual foi de 12 minutos para as mesmas bolsas. Ou seja,o tempo de processamento do sistema automático, mesmonesta versão implementada em Matlab, foi menor,demonstrando a viabilidade de desenvolvido em códigocompilado e instalado diretamente em uma linha deprodução.REFERÊNCIAS BIBLIOGRÁFICAS[1] VERCEZE, A V. PEREIRA, N L., BUZZO, E. J.,Estudo físico-químico de diferentes filmes de bolsa desangue visando a segurança frente ao processohemoterapêutico. Revista Brasileira de Hematologia eHemoterapia 2006, Rio de Janeiro, 2006, pág 139-143.[8] HAAR A., Zur Theorie der orthogonalenFunktionensysteme, Mathematische Annalen, pp 331-371, 1910.[9] ALMEIDA, O. C. P.,Técnicas de Processamento deImagens para Localização e Reconhecimento de Faces,Dissertação de Mestrado – Instituto de CiênciasMatemáticas e da Computação (ICMC-USP) –Universidade de São Paulo, 2006.[10] LIMA, P. C., Wavelets: Teoria, Algoritmos eAplicações. Departamento de matemática, UFMG, 2004.[11] PARRAGA, A., Aplicação da Transformada WaveletPocket na Análise e Classificação de vozes Patológicas,Dissertação de Mestrado (Mestrado em EngenhariaElétrica) - Universidade Federal do Rio Grande do Sul,2002.[12] MARTINS A. G., Estatística Geral Aplicada, SãoPaulo: Atlas.2005.[2] ADORNI, C.A.; GONZAGA, A.; Da SILVA, I.N.Detecção de Resíduos em Imagens de Bolsas para Coletade Sangue Utilizando um Sistema Fuzzy nos canais RGB,X Congresso Brasileiro de Informática em Saúde CIBIS –2006, Sociedade Brasileira de Informática em Saúde,Joinvile, Anais p. 178-179, 2006.[3] Marques Filho, O., Vieira neto, H.“ProcessamentoDigital de Imagens”, Brasport, 1999.[4] Rafael C. Gonzalez and Paul Wintz. “Digital ImageProcessing”, Addison-Wesley Pub. Co., 1987.[5] Batchelor, B.G., Hill, .A. Hodgson, D.G. “AutomatedVisual Inspection”, IFS Publi Carton Ltd, North-HollandPub. Co., 1985.[6] MALLAT, S., Theory for Multiresolution SignalDecomposition: The Representation. IEE Transaction onPattern Analysis and Machine Intelligence, v 11, p.674-693, 1989.[7] CASTELANO, C. R., Estudo Comparativo daTransformada Wavelet no Reconhecimento de padrões daÍris Humanas, Dissertação de Mestrado – Escola deEngenharia de São Carlos - Universidade de São Paulo2006.195


Voltar ao sumárioDimensão Fractal Volumétrica aplicada à imagens urbanas de sensoriamentoremotoAndré R. BackesUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPbackes@icmc.usp.brAdriana B. BrunoUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPadbbruno@gmail.comOdemir M. BrunoUniversidade de São PauloInstituto de Ciências Matemáticas e ComputaçãoSão Carlos - SPbruno@icmc.usp.brMauro N. Barros FilhoFaculdade de Ciências Humanas EsudaDepartamento de Arquitetura e UrbanismoRecife - PEmbarrosfilho@gmail.comResumoImagens de sensoriamento remoto são uma fonte rica eminformações sobre a superfície terrestre. Por meio delas épossível desenvolver aplicações envolvendo mapeamentose estudos urbanos. Neste artigo é apresentado um estudosobre a correlação entre complexidade e as característicasmorfológicas de áreas urbanas. Em imagens, essas característicasse apresentam na forma de complexas interaçõesde diferentes tipos de superfície, onde cada superfície correspondea um tipo diferente de textura. Neste trabalho, ométodo de Dimensão Fractal Volumétrica é aplicado emimagens de áreas urbanas, obtendo assim uma estimativada complexidade da textura dessas imagens e, conseqüentemente,uma medida das características morfológicas presentes.1. IntroduçãoA utilização da geometria fractal em visão computacionalvem se consolidando à medida que novos métodos baseadosem fractais surgem com a finalidade de segmentarou analisar imagens. Em geral, as imagens não apresentamas características formais de um fractal (auto-similaridadee complexidade infinita), entretanto, quando os métodos dedimensão fractal são aplicados à objetos não fractais comoas imagens, as medidas obtidas são relacionadas ao atributode complexidade [5]. Embora subjetivo, o atributo da complexidadepode ser adaptado, de modo a permitir a aferiçãode outros atributos visuais importantes em visão computacionaltais como: formas [12, 4] e textura [6, 7]. Nestetrabalho é realizado um estudo de um recente método deanálise de textura baseado em fractais - Dimensão fractalvolumétrica aplicada na análise da morfologia urbana deimagens de sensoriamento remoto.A morfologia urbana surge das correlações entre os elementosde uma cidade, tais como edificações, distribuiçãode lotes e quadras, arranjo das vias, distribuição de espaçospúblicos, áreas verdes, rios e etc. A complexa estruturaformada por este conjunto varia de acordo com o crescimentoda cidade, de seu planejamento, das característicasgeográficas, ambientais e sócio-econômicas. Juntos, esteselementos, determinam a ocupação urbana e consequentementefatores como qualidade de moradia e qualidade devida dos habitantes da cidade. Aferir a morfologia urbanaentretanto é um tarefa difícil, realizada sobretudo de maneirasubjetiva. A utilização de métodos de visão computacionalna análise de imagens urbanas de sensoriamento remotopodem contribuir para quantificar e tornar a morfolo-196


Voltar ao sumáriogia urbana menos subjetiva.Neste trabalho, é apresentado um estudo de análise deimagens urbanas de sensoriamento remoto por meio da DimensãoFractal Volumétrica. Foram utilizadas imagens desatélite da cidade de S. Carlos (SP), obtidas pelo GoogleEarth. As imagens foram retiradas de diferentes bairrosresidências da cidade. O trabalho é uma continuaçãoda pesquisa realizada pelos autores em morfometria urbanade imagens de sensoriamento remoto por fractais [2, 1].O objetivo do estudo é verificar a potencialidade de extrairinformações relacionadas ao urbanismo por meio daanálise de textura das regiões da cidade. O artigo descreve ométodo de estimativa da Dimensão Fractal Volumétrica, naseqüência são detalhados os experimentos realizados como mosaico de bairros da cidade. Foram consideradas duasabordagens experimentais: classificação das imagens e a suacorroboração com aspectos urbanísticos e a recuperação deimagens por similaridade. Os resultados obtidos são apresentadose a capacidade da técnica em aferir característicasurbanas é discutida.2. Dimensão Fractal VolumétricaEntende-se por Dimensão Fractal uma medida capaz derepresentar o nível de complexidade/irregularidade de umobjeto. Diferente da dimensão topológica, um valor inteiroque representa o número de dimensões do espaço onde oobjeto se encontra, a Dimensão Fractal utiliza um valor fracionáriopara descrever o quão irregular um objeto é e/ouquanto do espaço ele ocupa [13, 15].A literatura apresenta uma vasta quantidade de métodospara estimar a Dimensão Fractal de um objeto. Dentreos métodos existentes, o método de Bouligand-Minkowskidestaca-se por apresentar os resultados mais precisos. Essemétodo se baseia no estudo da área de influência, A(r),criada a partir da dilatação de um objeto A por um discode raio r. Aárea de influência A(r) computada é muitosensível a alterações estruturais do objeto, de modo quemesmo pequenas alterações podem ser detectadas [13, 15,8].A Dimensão Fractal de Bouligand-Minkowski, DF, édefinida como:comDF = N − limr→0log A(r)log r(1)A(r) = p ∈ R N |∃p ∈ A : |p − p |≤r , (2)onde N representa o número de dimensões do espaço ondeo objeto se encontra. No caso de imagens binárias, N =2.No método proposto, a imagem A ∈ R 2 é consideradacomo um superfície S ∈ R 3 . Cada pixel da imagemé convertido para um ponto p = (y,x,z), p ∈ S, comz = A(y, x), onde A(y, x) é a intensidade do pixel (y, x)na imagem A, permitindo a aplicação do método em imagensde texturas [3].Aplicando o método de Bouligand-Minkowski sobre asuperfície S, é possivel estimar a dimensão Fractal, DF, deS e, conseqüentemente, da textura original:comFD =3− limr→0log V (r)log r(3)V (r) = p ∈ R 3 |∃p ∈ S : |p − p |≤r , (4)onde V (r) representa o volume de influência calculado apartir da dilatação de cada ponto de S utilizando uma esferade raio r.De acordo com o valor do raio r, o volume de uma esferaproduzida por um ponto p ∈ S interfere no volume deoutras esferas, perturbando a maneira como o volume de influênciaaumenta (Figura 1). Isto torna volume de influênciaV (r) bastante sensível as mudanças estruturais da textura,permitindo a detecção de mesmo pequenas mudanças [3].(a)(c)(b)(d)Figura 1. Exemplo do volume de influênciade uma textura: (a) Textura original; (b) Texturamodelada como uma superfície; (c)-(d)Volume de influência para diferentes valoresde raio (r = {3, 5}).3. ExperimentosExperimentos foram realizados visando verificar acorrelação entre a Dimensão Fractal obtida pelo métodoproposto e características morfológicas de áreas urbanas(tamanho de quadra, geometria das quadras, tamanho197


Voltar ao sumáriodas ruas, disposição de praças e áreas verdes). A morfologiade uma área urbana se apresenta em imagens de sensoriamentoremoto na forma de complexas interações de diferentestipos de superfície, onde cada superfície correspondea um tipo diferente de textura [10, 11]. Diferentes texturas,por sua vez, apresentam diferentes organizaçõesem seus pixels, o que resulta em um volume de influênciaV (r) característico para aquele padrão de textura.Isso possibilita o uso de V (r) como uma assinatura de texturacapaz de descrever o padrão de distribuição de seus pixels,e conseqüentemente, sua complexidade. Por meio daDimensão Fractal é possível obter uma estimativa da complexidadedessa textura e, conseqüentemente, uma medidadas características de morfologia urbana.Para a realização dos experimentos um conjunto de imagensde sensoriamento remoto foi considerado. Essas imagensforam obtidas a partir do software Google Earth R .Elas representam regiões com diferentes condições de habitabilidadee desenvolvimento urbano da cidade de São Carlos,interior do estado de São Paulo. Ao todo, foram consideradas75 imagens de 200 × 200 pixels, provenientes dediferentes regiões da cidade (Figura 2). Um mínimo de 2 emáximo de 5 imagens foram obtidas para cada região da cidade.As imagens foram obtidas a uma altitude de 10.000pés, sendo a informação de cor descartada, ou seja, apenasseus níveis de cinza foram considerados durante as etapasde análise e estimativa da Dimensão Fractal.Os experimentos realizados tiveram como objetivos principaisa classificação e a comparação das imagens obtidassegundo a complexidade das características morfológicasexistentes. Desse modo, é possível avaliar de maneira quantitativao nível de desenvolvimento urbano dessa região.4. ResultadosUma etapa importante na realização dos experimentos éa escolha do valor do raio de dilatação r a ser utilizado.Isso por que esse valor está relacionado a quantidade deinformação extraída da textura. A medida que o raio r aumenta,mais informação sobre a textura em diferentes escalasé incorporada ao volume de influência, V (r). No entanto,após determinado raio, a informação adicionada aovolume se torna irrelevante. Isso ocorre por que as esferasdilatadas se tornam excessivamente grandes, de modoque toda a informação relevante já esta incorporada ao volume.Assim, essa nova informação não representa mais ainteração entre pixels da imagem e acaba por agir como umruído nos dados. Nos experimentos realizados o valor doraio de dilatação foi empiricamente definido como r =5.Num primeiro experimento, além do cálculo da DimensãoFractal, foi também realizada a classificaçãodas imagens. Para tanto, utilizou-se um classificadorhierárquico aplicado sobre o logaritmo da curva de volumede influência, log V (r), de cada imagem considerada.A métrica utilizada foi a distância euclidiana médiaentre as curvas das amostras, pois esta sofre menor interferênciade valores espúrios. Como resultado, percebe-seum aumento da Dimensão Fractal e, conseqüentemente,da complexidade, a medida que se afasta do centro da cidade.Isso indica que áreas periféricas apresentam umcaráter mais heterogêneo, ou seja, sua organização das estruturasmorfológicas apresenta um padrão mais caóticoquando comparadas as áreas centrais da cidade. Issoocorre por que áreas centrais das cidades são, em geral,alvo de maior número de benfeitorias, portanto, nãosofrem de processos de ocupação espontâneos ou informal[9, 14]. Esse aumento de complexidade também énotado em regiões equidistantes do centro da cidade, indicandouma organização de estruturas morfológicas semelhante.A Figura 3 apresenta os anéis concêntricos delimitandoas regiões a partir do marco central da cidade de SãoCarlos (Praça Dom José Marcondes Homem de Melo).As áreas analisadas durante o experimento estão destacadasno gráfico, onde cada cor, escolhida ao acaso, representaum grupo de áreas com complexidade semelhante.As distorções presentes na disposição das regiões segundoo seu nível de complexidade se devem principalmente pordois motivos: (i) a geometria da cidade não ser exatamentecircular e (ii) a realização de obras de infra-estrutura e planejamentoem regiões mais afastadas do centro, diminuindoassim a sua complexidade.Um segundo experimento foi realizado para demonstrara performance do método em aplicações envolvendo arecuperação de imagens por conteúdo. A Figura 4 ilustra osresultados de três buscas diferentes realizadas no conjuntode imagens. Nela, a imagem disposta a esquerda representaa imagem entrada na busca. As imagens restantes (partindoda esquerda para a direita) são aquelas que se mostrarammais similares à imagem de entrada.Os resultados da busca por similaridade confirmam aexistência de uma separação das diferentes regiões da cidadesegundo o seu nível de complexidade e, conseqüentemente,as diferenças na organização das estruturas morfológicasem diferentes áreas.5. ConclusõesEste trabalho apresentou um estudo sobre a utilizaçãodo método de Dimensão Fractal Volumétrica na análise detexturas de imagens de sensoriamento remoto de áreas urbanas.A textura presente neste tipo de imagem é o resultadode uma complexa interação entre diferentes característicasmorfológicas (tamanho de quadra, geometria dasquadras, tamanho das ruas, disposição de praças e áreas verdes)da região analisada, sendo portanto uma rica fonte de198


Voltar ao sumário1,2334 1,2904 1,3567 1,4035Figura 2. Exemplo de imagens de satélite de diferentes áreas obtidas a 10.000 pés de altitude e seusrespectivos valores de Dimensão Fractal.Figura 3. Anéis concêntricos, apresentando as regiões a partir do marco central da cidade e suaDimensão Fractal.informações sobre a superfície terrestre. Além disso, essascaracterísticas estão também relacionadas com a qualidadede vida e o nível de desenvolvimento da região.Os resultados obtidos demonstram que a DimensãoFractal Volumétrica é capaz de quantificar a complexidadedessas texturas, de modo a permitir a comparação erecuperação de imagens de diferentes regiões da cidade segundoo seu nível de desenvolvimento urbano, evidenciando,portanto, a existência de uma correlação entre asmedidas realizadas pelo método e o desenvolvimento urbano.AgradecimentosOdemir M. Bruno agradece ao CNPq (Procs.#303746/2004-1 e #504476/2007-6) e a FAPESP (Proc.#06/54367-9). André R. Backes agradece a FAPESP(Proc. #06/54367-9) pelo apoio financeiro ao douto-199


Voltar ao sumário(a)(b)(c)Figura 4. Exemplos de recuperação de imagens por conteúdo realizadas na base.rado. Adriana B. Bruno agradece ao CNPq pela bolsa deiniciação científica. Mauro N. Barros Filho agradece a Facepe(BFP-0055-6.0407).Referências[1] A. R. Backes, A. B. Bruno, M. N. B. Filho, and O. M. Bruno.Análise da complexidade de texturas em imagens urbanasutilizando dimensão fractal. In IX Simpósio Brasileiro deGeoinformática, pages 215–220, 2007.[2] A. R. Backes, A. B. Bruno, M. N. B. Filho, and O. M. Bruno.Dimensão fractal aplicada em imagens de satélite de áreasurbanas. In III Workshop de Visão Computacional, pages –,2007.[3] A. R. Backes, D. Casanova, and O. M. Bruno. Plant leafidentification based on volumetric fractal dimension. InternationalJournal of Pattern Recognition and Artificial Intelligence(to appear), 2008.[4] O. M. Bruno, R. de Oliveira Plotze, M. Falvo, and M. de Castro.Fractal dimension applied to plant identification. InformationSciences, 178(12):2722–2733, 2008.[5] M. Carlin. Measuring the complexity of non-fractal shapesby a fractal method. Pattern Recognition Letters,21(11):1013–1017, 2000.[6] B. B. Chaudhuri and N. Sarkar. Texture segmentation usingfractal dimension. IEEE Transactions on Pattern Analysisand Machine Intelligence, 17(1):72–77, 1995.[7] G. Dougherty and G. M. Henebry. Fractal signature andlacunarity in the measurement of the texture of trabecularbone in clinical CT images. Medical Engineering & Physics,23(6):369–380, 2001.[8] K. J. Falconer. Fractal geometry : mathematical foundationsand applications. Chichester ; New York : Wiley, 1990, 288p. CALL NUM: QA614.86 .F35 1990, 1990.[9] C. Iovan, D. Boldo, M. Cord, and M. Erikson. Automatic extractionand classification of vegetation areas from high resolutionimages in urban areas. In Scandinavian Conferenceon Image Analysis, pages 858–867, 2007.[10] J. Lourenço, L. Ramos, R. A. R. Ramos, H. Santos, andD. Fernandes. Urban areas identification through clusteringtrials and the use of neural networks. 2005.[11] M. Pesaresi. Textural classification of very high-resolutionsatellite imagery: Empirical estimation of the relationshipbetween window size and detection accuracy in urban environment.In International Conference on Image Processing,pages I:114–118, 1999.[12] R. O. Plotze, J. G. Padua, M. Falvo, M. L. C. Vieira, G. C. X.Oliveira, and O. M. Bruno. Leaf shape analysis by the multiscaleminkowski fractal dimension, a new morphometricmethod: a study in passiflora l. (passifloraceae). CanadianJournal of Botany-Revue Canadienne de Botanique, 83:287–301, 2005.[13] M. Schroeder. Fractals, Chaos, Power Laws: Minutes Froman Infinite Paradise. W. H. Freeman, 1996.[14] A. J. Tatem, H. G. Lewis, P. M. Atkinson, and M. S. Nixon.Super-resolution mapping of urban scenes from IKO-NOS imagery using a Hopfield neural network. IEEE, 2001.[15] C. Tricot. Curves and Fractal Dimension. Springer-Verlag,1995.200


Voltar ao sumárioEstimação da maturidade óssea utilizando dimensões dos centros de ossificaçãoextraídas por SNAKES – modelos de contornos ativosC.J. Olivete, E. L. L. RodriguesUSP / Escola de Engenharia de São Carlos - Departamento de Engenharia Elétrica, São Carlos, SãoPaulo, Brasil{olivete, evandro}@sel.eesc.usp.brAbstractSkeletal age assessment is one of the important featuresin analyze of carpal radiography in the pediatric radiologyarea. Skeletal age can be assessed using a set of featuresextracted from the hand bones ossification centers. Themethods most widely used for bone age determinationpresents high complexity degree for estimation and thistask is extremely complex and time-consuming producingresults with high charge of personal interpretation. Thisgoal of the present work is presents a methodology thatwork in an automatic and simplified mode, producingresults exempt of the subjective human analyze for the bonegrowth accompaniment. The images segmentation wasrealized used Active Contours Snake method (Snakes). Theresults obtained are very promising, getting high-rate ofconcordance with the medicals reports mean (Eklof &Ringertz, Tanner & Whitehouse and Greulich & Pyle).1. IntroduçãoA estimativa da idade óssea é freqüentemente utilizadapara avaliar desordens no crescimento em pacientespediátricos, obtendo o quanto o seu crescimento evoluiuem relação à sua maturidade óssea. Os ossos presentes namão são frequentemente utilizados para realizar esteacompanhando, devido ao fato de conter vários centros deossificação. Os métodos mais difundidos e que se baseiamna análise dos centros de ossificação no processo deestimação são: Eklof & Ringertz (E&R), Tanner &Whitehouse (T&W) e Greulich & Pyle (G&P) [1].A segmentação é o processo inicial que atua na etapa deextração dessas características [1], presentes nos centros deossificação. Esse processo pode ser realizado utilizando osmétodos de detecção de bordas, responsáveis por detectar edefinir o contorno dos objetos presentes na imagem [2,3,4],onde neste estudo o objeto é uma imagem radiográfica damão e as bordas definem as regiões de interesse (centros deossificação). Tratando-se de imagens carpais, a maioria dosmétodos clássicos utilizados para segmentação apresentadeficiências em algumas situações devido aos diferentesníveis de intensidade que elas apresentam [3,5].O método de contornos ativos Snakes é uma dasabordagens mais vigorosas encontradas na literatura para aetapa de segmentação, oferecendo um poderoso métodoque mistura geometria, física e teoria de aproximação. Estemodelo é caracterizado por tentar ajustar uma curvafechada sobre as bordas dos objetos de interessepertencentes à imagem [2,4].O presente trabalho apresenta resultados de umaplataforma que contém uma rotina, baseada em modelos decontornos ativos – Snakes, capaz de segmentar e extrairinformações (em mm 2 ) das regiões de interesses deimagens carpais. Essas informações, posteriormente,alimentam uma outra rotina responsável por estimar aidade óssea. Por fim, a plataforma informa qual adiscrepância entre a idade óssea obtida e o laudo médicomédio (obtido através dos métodos de E&R, G&P eT&W). Outros métodos de estimativa de idade ósseapodem ser encontrados no trabalho de Olivete, Queiroz eRodrigues [3].2. Metodologia2.1. Modelos de contornos ativos – SnakesO método tradicional de Snakes foi proposto por Kass,Witkin e Terzopoulos [4], onde uma Snake se inicia emuma configuração mais ou menos arbitrária, através de umacurva inicial que evolui até contornar o objeto de interesse.A evolução do contorno ocorre de forma a tentar minimizara energia funcional [4], que basicamente é dado pelacombinação das energias da curva ou energia interna e daimagem ou externa. Devido a estas forças é que a Snakepode se deformar até encontrar a borda do objeto, queneste caso são as regiões de interesse, formada pormetacarpos e falanges [5].A energia interna considera aspectos físicos comoelasticidade, responsável por deformar a curva sob a açãode uma força específica e aspectos de rigidez, que éresponsável por garantir a sua suavização. Por sua vez aenergia externa considera as características intrínsecas daprópria imagem, sendo responsável por fazer a Snake seguiar por regiões mais escuras na imagem, até a suaconformidade [6,7].201


Voltar ao sumário2.2. O Modelo Discreto de SnakesUma definição em termos computacionais retrata umaSnake como um conjunto de N pontos de controle, ousnaxels, cujas posições, ilustradas na equação 1 sãointerligadas e variam no decorrer do tempo [6].{ v ( t)= ( x ( t),y ( t)),i = 0, k,N −1}iiiO modelo de energias utilizado no desenvolvimentodesta ferramenta de pré-processamento é baseado na Snaketradicional e possui a característica de atuar sobre a curvade maneira simples. Desenvolveu-se a deformação daSnake tanto para processos de contração quanto paraexpansão, possuindo a característica de manter, da melhorforma possível, as snaxels com critérios de espaçamentoequivalentes [8]. Nos resultados é mostrado apenas oprocesso de de contração, por apresentar o melhorresultado.Para a configuração inicial da Snake são consideradosdois tipos de polígonos fechados: circular e definido pelousuário. Assim, a criação da Snake por intermédio de umpolígono circular é realizada por uma equação quedescreve um círculo, dado um ponto e seu raio. Para estaconfiguração também é necessário especificar a quantidadede snaxels, que serão dispostos pela curva de maneiraeqüidistante. A configuração por um polígono definidopelo usuário descreve a curva inicial pela interligação desnaxels escolhidas manualmente. No entanto, a curvainicial depende de uma combinação de energias paraproporcionar a sua evolução até as bordas de interesse. Adeformação da Snake é feita através da ação da energiainterna normal, de tensão, rigidez e da energia externa,iterativamente sobre todos os snaxels [6,7,8].A energia interna normal e de tensão agem de formaconjunta para movimentar e manter um espaçamentouniforme entre os snaxels. O processo de contração dacurva é exemplificado na Figura 1.(1)A força interna de rigidez relaciona-se à suavidade daSnake, sendo descrita através de Splines sobre as snaxels.Por fim, a energia externa é definida em função dascaracterísticas de interesse na imagem, neste caso asbordas. Assim, aplicam-se máscaras Laplacianas queguiam as snaxels para regiões de conformidade com aborda [8].2.3. Estimação da idade ósseaApós a segmentação das imagens, foram obtidas todasas medidas de área dos centros de ossificação selecionadospara estimar a idade óssea, baseando-se no método de E&R[3], nos dois conjuntos de imagens (sexo masculino efeminino). Os centros de ossificação selecionados sãoformados pelos ossos: metacarpo II, III e IV e pelasfalanges proximais II e III. Uma descrição mais detalhadadesses centros de ossificação e dos passos necessários paraa utilização da metodologia de Snakes, pode-se encontrarno trabalho de Olivete e Rodrigues [9].Após a segmentação, foram gerados gráficos (paratodos os ossos e em ambos os sexos) com a finalidade deanalisar o comportamento da área encontrada para cadaosso em função da faixa etária, de acordo com a idadeóssea e com os valores dos laudos médicos. O gráfico daFigura 2 mostra o comportamento para os metacarpos nabase de imagens do sexo masculino.área (pixels)7000600050004000300020001000área média - metacarpos06 8 10 12 15 18laudo médico (anos)metacarpo II metacarpo III metacarpo IVFigura 2. Área média em pixels encontrada para osmetacarpos II, III e IV - sexo masculino baseado nos valoresdo laudo médico.Figura 1. Processo de atuação da Snakes: no ponto p1: adeformação é iterativa e ocorre deslocando o ponto analisadopara um novo ponto central, que é o produto vetorial entre ossnaxels de p0p1 e p1p2.[8].Analisando a Figura 2, claramente observa-se aexistência de uma relação bem comportada entre idadeóssea e a área (mínima e máxima) dos centros deossificação Em seguida, encontrou-se uma área média paracada osso e gerou-se uma tabela (ver Tabela 1 – sexo202


Voltar ao sumáriomasculino) com a medida de cada osso e a idadecorrespondente.Tabela 1: Áreas médias (em mm) obtidas para cada centro deossificação de acordo com a idade óssea (6 a 16 anos). Sexomasculino.IdadeMetacarpo(mm 2 )Falange Proximal(mm 2 )anos II IV II III IV6.0 998.11 757.25 607.59 726.64 607.146.5 1043.38 789.85 663.54 776.92 649.357.0 1088.64 822.45 719.50 827.19 691.567.5 1212.60 854.71 745.51 847.65 720.948.0 1336.55 886.97 771.51 868.10 750.328.5 1358.14 916.35 807.57 894.98 767.169.0 1379.73 945.73 843.63 921.85 784.019.5 1418.67 982.21 876.05 973.67 825.7510.0 1457.62 1018.69 908.47 1025.48 867.49(a)(b)Através das informações presentes na Tabela 1, queapresenta apenas o padrão de medidas para a faixa etária de6.0 a 10.0 anos, foi possível construir uma base deinformações representativas que ilustram o comportamentodo crescimento ósseo da população analisada. O mesmoprocedimento foi realizado para as imagens do sexofeminino e, os resultados obtidos também foram coerentes.No item a seguir, são apresentados os passos utilizados naaquisição das imagens, a etapa de segmentação dasimagens utilizando Snakes e, uma confrontação entre oslaudos estimados pela plataforma em relação ao laudomédico médio (obtido através dos métodos de E&R, G&Pe T&W).3. Resultados3.1. Obtenção das imagens radiográficas da mãoAs imagens radiográficas da mão foram obtidas em umequipamento de raios-X convencional (Pendullun 300MA -150KV de alta freqüência), utilizando tensão de 45 kVp,corrente de 0.3 mA e distância foco-filme de 1m,considerando ainda o feixe de raios-X dirigidoperpendicularmente ao centro do filme. Essas imagens eoutras informações podem ser vistas através do sitedisponível em www.carpal.eesc.usp.br.(c)Figura 3. (a), (b): Processo de contração da Snake para asfalanges distais e proximais, (c): segmentação das falangesproximais.Como pode ser visto nas Figuras 3a e 3b, a Snakesconseguiu contrair até o limite da região de interesse,delimitada pela borda do osso das falanges médias eproximais. Na Figura 3c nota-se que o algoritmo de Snakesfoi capaz de isolar com precisão todas as falangesproximais, sem perder pixels pertencentes aos ossos. Comesse processo, é possível isolar todas as regiões deinteresse necessárias para a estimativa da idade óssea [3]de uma maneira rápida, precisa e eficaz. A seguir sãoapresentados os resultados da estimação da idade óssea.3.3. Confrontação entre laudos gerados versus médiados laudos médicosA Figura 4 apresenta os resultados da estimação ósseatomando como base a tabela de medidas (Tabela 1) e,levando em consideração um desvio padrão de 0.3 a 0.5anos para o conjunto de imagens do sexo masculino. Paramedir a porcentagem de acertos e erros obtidos, foiconsiderado o laudo médico médio (obtido através dosmétodos de E&R, G&P e T&W).3.2. Atuação da rotina de Snakes na segmentação dasimagensA Figura 3 ilustra uma imagem de mão e a atuação darotina de Snakes para as falanges médias e proximais(Figura 3a e 3b, respectivamente) e o resultado dasegmentação para as falanges proximais (Figura 3c).203


Voltar ao sumárioConfrontação entre os laudos obtidos ea média dos laudos médicos - sexomasculino100%80%60%40%20%0%Desvio0.358% 42%Desvio0.478%22%Desvio0.596%4%AcertosErrosFigura 4. Confrontação da metodologia com o laudomédico médio – imagens do sexo masculino.Analisando a Figura 4 verifica-se uma fraca taxa deconcordância (58%) da metodologia quando utilizando odesvio padrão de 0.3 anos. Já, quando utilizado o desvio de0.4, a porcentagem foi maior, 78% e, chegando a 96%quando utilizado o desvio de 0.5 anos. Esses resultadosforam obtidos utilizando como base a média dos laudosmédicos. O mesmo procedimento foi realizado para oconjunto de imagens do sexo feminino, obtendo 97% dediscrepância em relação a media dos laudos médico, nomelhor caso (utilizando desvio de 0.5 anos). O gráfico daFigura 5 mostra os resultados da atuação da metodologiano conjunto de imagens do sexo feminino.100%80%60%40%20%Confrontação entre os laudos obtidos e amédia dos laudos médicos - sexo feminino0%63%Desvio 0.337%Desvio 0.482%18%Desvio 0.597%3%AcertosErrosFigura 5. Confrontação da metodologia com o laudomédico médio – imagens do sexo feminino.4. DiscussõesCom a aplicação do algoritmo de Snakes foi possívelobter todas as regiões de interesse, apresentadas notrabalho de Olivete [3], necessárias para a análise eestimativa da idade óssea, sem a utilização de métodos préprocessamento[5].Analisando as curvas (Figura 2) foi possível verificarum relacionamento bem comportado das áreas dos centrosde ossificação de acordo com a idade óssea, sendo possívelconstruir uma base de informações representativas queilustram o comportamento do crescimento ósseo dapopulação analisada. Baseando-se nessas informaçõesconsolidou-se a metodologia de estimativa da idade ósseabaseada na análise das áreas dos centros de ossificação. Osresultados obtidos foram coerentes quando comparados àmedia dos laudos médicos (G&P, T&W e E&R) e foramilustrados através dos gráficos presentes nas Figuras 4 e 5.5. Referências[1] HAITER, F.; KURITA, L. M.; CASANOVA, M. S. “Skeletalage assessment: A comparison of 3 methods”, American Journalof Orthodontics and Dentofacial Orthopedics, October, 2006.[2] XU, C.; PRINCE, J. L. (1997). “Gradient Vector Flow: ANew External Force for Snakes”, IEEE PROC. CONF. ONCOMP. VIS. PATT. RECOG., p. 66-71, 1997.[3] OLIVETE, C.J., QUEIROZ, A. C., RODRIGUES, E. L. L.(2005). “Simplificação do Método de Eklof & Ringertz para aEstimativa da Idade Óssea Através da Análise de ImagensRadiográficas da Mão”. In: V WIM – Workshop de InformáticaMédica, 2005, Porto Alegre - SC, 2005, CD-ROM.[4] KASS, M., WITKIN, A., TERZOPOULOS, D. (1998)“Snakes: Active Contour Models”. In: International Journal ofComputer Vision, 1988.[5] OLIVETE, C.J., NASCIMENTO, M.Z., RODRIGUES,E.L.L.. (2004), “Metodologia de Pré-Processamento Baseada naCorreção do “Efeito Heel” Aplicada em Imagens Radiográficasda Mão”, In: Anais do III Congresso Latino-Americano deEngenharia Biomédica, João Pessoa, 2004, Brasil, pp. 106.[6] YOUNG, D., (1995) “Active Contour Models Snakes”.Disponívelem:http://www.cogs.svsx.ac.uk/users/davidy/teachvision/vision7.html[7] SONKA, M.; HLAVAC, V.; BOYLE, R (1998). “ImageProcessing, Analysis and Machine Vision”, Chapamn & HallComputing, London, 1998. p. 33[8] MACKIEWICH, B., “Active Contour Models Snakes”.Disponívelem:http://www.cs.sfu.ca/people/Faculty/Atkins/papers/blairthesis/main/node28.html. Acesso em 05/04/2005.[9] OLIVETE, C. J.; RODRIGUES, E. L. L. (2007). “IdadeÓssea: Uma Nova Metodologia de Estimação”, CongressoLatino-Americano de Engenharia Biomédica, Venezuela, 2007.204


Voltar ao sumárioEstrutura para Utilização de Recuperação de Imagens Baseada em Conteúdo emOráculos de Teste de Software com Saída GráficaRafael A. P. Oliveira 1 , Márcio E. Delamaro 2 , Fátima L. S. Nunes 11Univem – Centro Universitário Eurípedes de MaríliaAv. Hygino Muzzi Filho, 529, CEP 17509-901, Marília, SP2ICMC/USP - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo,Av. do Trabalhador São-Carlense, 400, CEP 13560-970, São Carlos, SPrafa@univem.edu.br, delamaro@icmc.usp.br, fatima@univem.edu.brAbstractThis paper presented a prototype of a systemwhose goal is to highlight the opportunity to explorecomputer vision applied in the Content-based ImageRetrievial (CBIR), in order to testing oracles for softwarethat generate graphical output. Using libraries of Javaprogramming language Java, a structure that allows thealliance of two such disparate areas in the currentscenario of computing has been implemented. A greatflexibility was given to the structure, so that the userchooses the way of analysis of images. In this context it ispossible such a user choose the characteristics that mustbe extracted from the images and how these should beconsidered in the test, thus creating what was called‘Graph Oracle’.1. IntroduçãoEmbalados pela contínua evolução do meio gráficodos mais distintos sistemas computacionais, os aplicativos quetêm como finalidade de processamento alguma saída gráficasão muito comuns em diversas áreas de conhecimento. Umexemplo evidente é a área das ciências médicas que ganhoumuito conforto com os esquemas CAD (Computer-AidedDiagnosis) usados com a finalidade de auxiliar diagnósticosmédicos [7].Tais sistemas devem ter o acerto como característicafundamental. É essencial que tais programas forneçam alto graude confiança e, para tanto, é necessário que sejam implantadastécnicas de teste de software em seu processo dedesenvolvimento.O presente trabalho visa a apresentar um sistema parautilizar Recuperação de Imagem Baseada em Conteúdo (CBIR -Content-Based Image Retrieval), para apoiar a criação deoráculos de teste, que neste caso poderão ser chamados de“oráculos gráficos”. Esses são capazes de apoiar o teste doproduto final de softwares com saída gráfica, avaliando assimseu funcionamento de uma forma bem objetiva.A primeira, a segunda e a terceira seções sãointrodutórias e visam a apresentar alguns conceitos importantesque foram levados em consideração para a idealização doprojeto. A forma como se deve usar a parametrização deextratores de características de imagens é apresentada na quartaseção. Um exemplo de utilização do protótipo pode ser visto naquinta seção do artigo, que apresenta os resultados obtidos até omomento. Por fim, a última seção apresenta as conclusõespreliminares do trabalho e as contribuições para as quais elepode remeter.2. Oráculos de testeTodo desenvolvedor de software sabe que no mercadocompetitivo atual, a qualidade de seu produto final é fatoressencial em qualquer processo de desenvolvimento. Também éde domínio dos desenvolvedores que a implantação deatividades de avaliação e testes, durante todo o processo dedesenvolvimento, eleva consideravelmente o tempo e o custodo projeto [2].Isso se dá em função da grande dificuldadeencontrada quando se busca uma definição precisa do modo deavaliar a qualidade de determinado processamento. Dificuldadesimilar é encontrada na procura de um conjunto ideal de testesque seja completo o bastante para revelar os mais diferentesdefeitos [2].Nesse contexto é que se insere o conceito genérico deoráculo, definido como “mecanismo que se utiliza para definir asaída ou comportamento esperado de uma execução qualquer”[5]. É importante salientar que diferentes aspectos influenciamno modo de obtenção de um oráculo para determinado sistema.Quando se pode extrair o comportamento dedeterminado processamento usando um modelo formal, épossível automatizar uma função de oráculo por intermédio deum comparador entre a saída produzida e a saída esperadadefinida por meio do modelo.Oráculos automatizados de teste sãocomponentes essenciais na atividade de teste de software.205


Voltar ao sumárioDefinir um Oráculo implica em sintetizar uma estruturaformal, ou até mesmo informal, automatizada, que sejacapaz de oferecer ao usuário um veredicto indicativo daexatidão de uma execução do sistema ao final dasaplicações do teste. Sendo assim, pode ser dito queoráculo é o mecanismo que define e dá um veredictoacerca da correção de uma execução de um programa emteste [6].do funcionamento do protótipo pode ser observado naFigura 1.2.1. Oráculos gráficos e CBIRQuando se trata de processamento com saídasgráficas, o problema de determinar a correção torna-se maiscomplexo, uma vez que nem sempre estão claras quais são ascaracterísticas que devem ser consideradas. Outro obstáculo sedeve ao fato de que o formato gráfico não é trivial para aautomação de testes. Em particular, decidir se a saída geradapor uma execução corresponde à saída esperada – papel dooráculo de teste [5]– é uma tarefa complicada. É exatamente omesmo problema que se tem ao efetuar-se uma busca em umabase de dados: quando a busca é textual, ela pode ser realizadafacilmente, existindo para tanto técnicas conhecidas econsolidadas. Quando se trata de busca baseada em conteúdográfico, a situação se torna mais complexa.O princípio dos sistemas que utilizam CBIR épesquisar em base de imagens uma determinada quantidade deimagens similares a uma imagem de consulta, de acordo comum ou mais critérios fornecidos [7]. Os critérios de similaridadede imagens são obtidos a partir da extração de características deimagem como cor, textura e forma. A extração de característicasde imagens é uma etapa fundamental em um sistema derecuperação de imagens baseada em conteúdo. Ascaracterísticas representam alguma propriedade (quantitativa ouqualitativa) relativa ao objeto, à região ou à imagem toda [7].Essas propriedades são agrupadas em um vetor decaracterísticas.Dada uma imagem modelo, a busca é realizadacalculando se a proximidade do seu vetor decaracterísticas em relação aos vetores de característicasdas imagens armazenadas na base de imagens. Essacomparação é realizada por meio de funções desimilaridade [7].A forma com a qual se utilizou os conceitosapresentados para a confecção de oráculos gráficos estádescrita na seção seguinte.3. Modelo de CBIR para Oráculos gráficosPara a concepção do protótipo de OráculoGráfico aproveitou-se do princípio de CBIR para criaruma estrutura flexível de tal maneira que seu própriousuário-testador fosse capaz de selecionar quaiscaracterísticas devem ser consideradas em um teste ecomo as mesmas devem ser parametrizadas. Um diagramaFigura 1. Estrutura obtida do protótipodesenvolvido.Obteve-se, assim, um ambiente que possibilita acriação de extratores e funções de similaridadeparticulares. Dessa forma, os critérios do teste que serãorealizados dependerão diretamente do processamento deimagens para comparar o resultado da execução de umprograma que tenha saída gráfica com as característicasde uma imagem modelo. O sistema foi implementado nalinguagem de programação Java, devido principalmenteàs virtudes de portabilidade e flexibilidade por elaapresentadas. Em complemento a esta linguagem deprogramação foi utilizada a API (Application ProgramInterface) JAI (Java Advanced Image), que facilita amanipulação de imagens, implementando uma grandequantidade de operadores e transformações sobre eles.A flexibilidade da estrutura possibilita queextratores das mais variadas características de imagenspossam ser instalados na ferramenta e usados nos maisvariados testes. Isso acontece porque é fácil a adaptaçãode classes extratoras de características de imagens parasua utilização na estrutura. Uma instalação de um extratorde característica nada mais é do que a realização de umacópia do pacote principal das classes Java de tal extratorpara um diretório de conhecimento da estrutura queadministrará o ambiente.Assim, basta fazer com que tal classe extratora decaracterística realize a implementação de umadeterminada interface Java, chamada de IExtractor. Estainterface deve ser implementada por todos os extratoresde características de imagens que serão instalados parauso do programa. É um contrato ou um protocolo quedeve ser seguido por uma classe para que ela sejaconsiderada um Extrator de características de imagensválido.Tal interface contém alguns métodos Java que sãode fundamental importância durante a parametrização dos206


Voltar ao sumáriotestes, possibilitando o sucesso do oráculo gráfico.Classes Java que implementam funções desimilaridade podem ser instaladas na estrutura da mesmamaneira que são instalados os extratores decaracterísticas. A interface Java que é necessária para ofuncionamento adequado das funções de similaridade énomeada no projeto de ISimilarity. Tal interface consistebasicamente de alguns métodos que facilitam amanipulação dos extratores escolhidos pelo usuário paraserem usados nos testes.Para cada tipo de acessório, extrator decaracterística ou função de similaridade, o programamantém um arquivo no formato XML (eXtensibleMarkup Language) de estrutura simples, que contém osnomes de instalação dos acessórios e os nomes da classesprincipais dentro do pacote de classes que será instalado.Cada vez que o núcleo do sistema é executado, eleconsulta esses arquivos para saber quais são os extratorese funções de similaridade disponíveis para uso.Em função da possibilidade de ocorreremproblemas de acesso aos diretórios onde são armazenadosos extratores e as funções de similaridade, foramimplementados dois tipos de instalações: locais e globais.Instalações globais são aquelas realizadas em umdiretório particular de conhecimento do núcleo daestrutura. As instalações locais são aquelas em que opacote com as classes do acessório a ser instalado écopiado para um diretório dentro da área do usuário,eliminando possíveis problemas de acesso aos arquivosdurante uma execução de comando do usuário ao oráculográfico.3.1. Instalações globais de extratores decaracterísticas e funções de similaridadePara realizar a instalação de um acessório de formaglobal é necessário que sejam passados os seguintesargumentos:• "install" - que corresponde ao comando de instalaçãode acessórios na estrutura, logo deve ser o primeiroparâmetro do programa (args[0]);• "Nome_do_Acessorio" - corresponde ao nome peloqual o acessório será identificado na ferramenta, deveser inédito para que não haja conflito com outroacessório instalado. Este deve ser o segundoargumento de chamada do programa (args[1]);• “Diretório da raiz do acessório" - corresponde aocaminho em disco até o diretório raiz do acessório aser instalado. O caractere "/" deve ser usado comoseparador de pastas, este deve ser o terceiroparâmetro passado à estrutura quando se desejainstalar um acessório local (args[2]);• "Nome completo da classe principal do acessório",trata-se do nome da classe, usando a notação de “.”para separar pacotes e classe. Este deve ser o quarto eúltimo argumento exigido para a instalação bemsucedida de um extrator de características de imagemou uma função de similaridade (args[3]);A Figura 2 ilustra como podem ser passados oscomandos de instalação de acessórios globais à estrutura.Figura 2. Parâmetros necessários para ainstalação global de acessórios na estrutura.No exemplo, um extrator de características deimagens denominado pelo usuário de “Extrator de Área” e comclasse principal br.extractors.MainExtArea é instalado. Issoimplica em informar ao sistema que tal classe implementaIExtractor e/ou ISimilarity. Após o reconhecimento docomando, a estrutura verificará qual interface é implementada,ou até mesmo se as duas interfaces são implementadas pelaclasse referenciada. Caso isso se confirme ela fará a cópia dopacote inteiro para um diretório de seu conhecimento.Antes da realização da cópia, o arquivo XML decontrole de acessórios é atualizado com o nome do acessórioinstalado e sua classe principal. Caso já exista algum acessórioinstalado com aquele mesmo nome, uma mensagem de erro éenviada para o usuário, e o diretório não é copiado para odestino.Pode-se perceber que há a possibilidade de umacessório ser enxergado pela estrutura como função desimilaridade e extrator de característica de imagens ao mesmotempo. Para isso, basta que ao executar o programa, a classeprincipal passada como quarto argumento implemente as duasinterfaces definidas correspondentes. Quando isso acontecer, oitem em processo de instalação será copiado para cada um dosdiretórios de acessório, ou seja, uma cópia do pacote raiz serácriada no diretório de extratores de características e outra cópiaserá criada no diretório de funções de similaridade.3.2. Instalações locais de extratores de característicase funções de similaridadePara realizar a instalação de um acessório de formalocal, ou seja, para que tal item tenha seu pacote raiz copiado207


Voltar ao sumáriopara um diretório de conhecimento da estrutura, que sejalocalizado dentro da área do usuário, os comandos que devemser passados durante a execução do sistema são os mesmos deuma instalação global, exceto que o primeiro argumento deveser “localinstall” em vez de “install”.Como pode ser observado, os comandos parainstalações locais são muito similares aos comandos deinstalações globais. Além disso, instalações de funções desimilaridade e extratores de características de imagens sãoiguais e a diferenciação destes acessórios fica a critério daestrutura.3.3. Acesso aos acessórios instalados corretamente noprotótipoA estrutura criada também permite ao usuário verificarquais são os acessórios que estão disponíveis para que ele osutilize da forma como desejar para customizar um oráculográfico qualquer.Podem ser realizados dois tipos de buscas. A primeiradelas é a busca que realiza pesquisa fundamentando-se no nomedo acessório e no tipo deste acessório, que devem ser passadoscomo parâmetro para o programa. Esta pesquisa revela sedeterminado acessório está instalado com sucesso naferramenta. Para isso é necessário que os seguintes argumentossejam fornecidos:• "search" - corresponde ao parâmetro entendido pelaestrutura como comando de busca (args[0]);• "extractor" ou "function" - será o parâmetro que determinao tipo de acessório que está sendo buscado nos arquivosXML comandados pela estrutura (args[1]);• "nome_do_acessorio" - deve corresponder ao nome deinstalação do item buscado (args[2]);A estrutura permite também a busca por todos os itensde determinado tipo de acessório. Esse tipo de busca retornauma pesquisa contendo o nome de instalação e a classeprincipal de todos os acessórios de determinado tipo passadocomo parâmetro à estrutura. Os comandos de busca sãosimilares aos comandos da pesquisa por nome. No entanto, nocomando que faz referência ao nome do item a ser buscado,deve ser passado como parâmetro o nome “all”, parareferenciar a todos os acessórios.3.4. CBIR para Definição de Oráculos de TesteA definição de oráculos para testar programas com umprocessamento gráfico, ou seja, que têm o resultado deexecução em uma forma não textual, é uma atividade complexa.Como já se sabe, o CBIR é usado para fazer buscasem uma base de imagens, de uma forma geral, seguindo juízosde similaridade[4]. Tais juízos ou critérios de similaridade entreimagens são obtidos através da extração de algumas de suascaracterísticas. Em linhas gerais, tem-se uma imagem deconsulta qualquer da qual se pode extrair características ecompará-las com as características das imagens armazenadasem uma base de dados, recuperando as que lhe foremconveniente.Dependendo do objetivo que se tenha, a extração decaracterísticas de uma imagem pode variar sobremaneira.Embasado nisso flexionou-se a estrutura de tal forma que seuusuário possa criar um oráculo gráfico particular para cadateste. O formato que possibilita essa manipulação estáexplicado e exemplificado nas seções seguintes.4. Parametrização dos extratores decaracterísticas de imagens nos testesComandos passados ao protótipo possibilitamajustar os testes de forma que qualquer função desimilaridade, previamente instalada na ferramenta possaser associada a quaisquer extratores de características deimagens. Isso é possível utilizando-se um parametrizadorconstruído com auxílio da ferramenta Javacc, que é umageradora de analisadores sintáticos em linguagem Java. Oparametrizador lê um arquivo com a descrição do oráculoe passa essa descrição para o núcleo da ferramenta.Um arquivo de parâmetros deve ser iniciado com apalavra reservada "similarity", seguida do nome da funçãode similaridade que é desejada no teste, a qual deve estarpreviamente instalada na ferramenta. Verificada avalidade da função de similaridade, um objeto da funçãode similaridade escolhida é instanciado, ficando, assim, àdisposição do oráculo que será criado.Uma função de similaridade sempre trabalhaassociada a, no mínimo, um extrator de características.Sendo assim, o parâmetro seguinte deve ser a palavrareservada "extractor", seguida do nome de um extrator jáinstalado na ferramenta. Dessa forma a estrutura verifica avalidade de instalação do extrator e, caso ele seja válido,adiciona o extrator ao oráculo. A parte mais flexível einteressante proporcionada pela estrutura propicia que ousuário ajuste os parâmetros particulares de cada extratorde características de imagens. A seqüência de parâmetrospara que isso seja entendido com sucesso pela estruturadeve aparecer entre os caracteres de abertura efechamento de chaves na seguinte seqüência: nome doparâmetro, sinal de igual para representar atribuição, valorde ajuste do parâmetro. Parâmetros do tipo vetor devemser designados separados por vírgulas e entre oscaracteres de abertura e fechamento de colchetes. Dessaforma, podem existir vários extratores associados àfunção de similaridade, desde que todos estejaminstalados corretamente na estrutura. Um exemplo de usodessa estrutura é apresentado na próxima seção.Mais de uma função de similaridade pode serajustada no mesmo arquivo de parâmetros de teste, desdeque cada uma delas tenha pelo menos um extrator208


Voltar ao sumárioadicionado.4.1. Uso de acessórios para gerar OráculosgráficosPara ilustrar o trabalho realizado pelo protótipo,criaram-se alguns acessórios para a apresentação de umexemplo. Trata-se de dois extratores de características deimagens e uma função de similaridade.A Função Similaridade que aqui será usada émuito conhecida, trata-se do cálculo da distânciaEuclidiana entre dois vetores de características deimagens [4]. Estes vetores de características serãopovoados com os valores resultantes dos extratoresparticulares de características de Diâmetro e/ou Área.O extrator de diâmetro foi implementado pararetornar a maior distância entre dois extremos de umaelipse qualquer, sendo normalizado em função da área dafigura em teste. O extrator de área foi implementado pararetornar um valor de área normalizado pelo número depixels pretos da figura.A Figura 3 exemplifica a forma com a qual aestrutura pode ser manipulada para realizar um testeutilizando-se dos acessórios acima descritos.funções de similaridade, bastando que o testador verifiquequal característica e como a mesma deve ser comparadano teste.Obteve-se assim uma ferramenta flexível obastante para que seus usuários possam customizar cadateste através da adição de extratores às funções desimilaridade e de modificações nos parâmetros dosextratores de características, criando assim seu própriooráculo gráfico.5.1. Exemplo de execução do oráculo gráficoA Figura 4 apresenta uma imagem modelo, cujascaracterísticas de área e diâmetro devem ser comparadasàs correspondentes características de uma imagem que ousuário escolher, usando a distância Euclidiana comocritério para mensurar a similaridade.Figura 4. Modelo considerado como ideal para ocaso de teste (tamanho (400x300)).Figura 3. Exemplo de comandos deparametrização.No exemplo da Figura 3, o oráculo gráfico tratasede uma associação da função de similaridadedenominada ‘Euclidiana’, utilizando-se o extrator de área,denominado apenas de “Area” pela estrutura, com oparâmetro ‘thr’, que corresponde à variação permitidamáxima entre os pixels, com valor um. Para finalizar, ooráculo utiliza o extrator de diâmetro, denominado apenasde “Diameter”, sem ajuste de parâmetros.O resultado da similaridade obtido pelo comandoapresentado pelo oráculo gráfico da Figura 3, levando-seem consideração a imagem modelo e a imagemapresentada na Figura 5, tem o seguinte valor“0.0798375103291401”.É importante salientar que na função desimilaridade da distância Euclidiana, quanto maissimilares forem as imagens (considerando ascaracterísticas utilizadas), mais o valor de retorno seaproxima de zero.5. Resultados obtidosO resultado do trabalho realizado até o momentofoi uma estrutura para ser utilizada ou associada a outrasferramentas, especificamente em automatização deoráculos de teste para programas com saída gráficaempregando-se técnicas de CBIR para flexibilizar asavaliações.Os mais diversos extratores de características deimagens podem ser adaptados de modo que funcionemsob a estrutura criada, o mesmo podendo acontecer comFigura 5. Figura que teve sua similaridadecomparada à imagem modelo (Figura4),(tamanho (400x300)).Observa-se a imagem apresentada na Figura 6que se trata de uma imagem com o tamanho maior que otamanho da figura modelo, por este motivo é que foisalientado que o retorno é normalizado, levando-se em209


Voltar ao sumárioconta a área da imagem em teste. Sendo assim, oresultado obtido quando se aplica o mesmo oráculográfico para tal imagem terá o valor“0.04652242538140137”.Utilizando-se os critérios do oráculo de testecitados para exemplificar o funcionamento da estrutura,ou seja, um extrator de área com a variação máxima depixels valendo “um” e um extrator de diâmetronormalizado em função da área da imagem, a imagem daFigura 6 é mais similar à imagem modelo do que àquelaapresentada na Figura 5. Isso se dá em função do valor desimilaridade aqui obtido ser mais próximo de zero que ovalor resultando do outro exemplo.Figura 6. Nova figura que terá sua similaridadecomparada à imagem modelo (tamanho(400x400)).Para concluir os testes, aproveitou-se a mesmaimagem da Figura 5, desta vez com uma resolução de400x400 pixels, e mais uma vez baseando-se no oráculográfico proposto pela Figura 3, tendo como modelo deexecução a Figura 4. Obteve-se o seguinte resultado“0.024512683171874945”. Logo se concluí que aimagem da Figura 5, quando na resolução 400x400 pixelsé mais similar que a Figura 6, em relação à imagemmodelo.6. ConclusõesOs oráculos são baseados no armazenamento dosresultados da execução de outros programas. Observa-seque a complexidade de sua automatização é diretamenteproporcional à complexidade de sua saída. Dessa forma,quando a saída de processamento é complexa, emparticular, no formato gráfico, sua automatização tambémserá complexa.A contribuição almejada neste projeto é inédita,uma vez que se pretende utilizar um conceitorelativamente novo na Computação (recuperação baseadaem conteúdo) para realizar testes em programas comsaídas gráficas, que são pouco explorados na literatura.Pretende-se ainda medir a eficiência dessatecnologia e ter uma visão mais aprimorada sobre osproblemas relacionados com a automatização de oráculosque utilizem informações na forma de imagens, em lugarde informações convencionais como texto ou sinais. Alémdisso, há um protótipo de uma ferramenta deautomatização de oráculo que emprega técnicas derecuperação de imagem baseada em conteúdo, o que jáconstitui sólida contribuição.Referências[1]Bugatti, Pedro H., Análise de influência de funções dedistância para o processamento de consulta por similaridadeem recuperação de imagem baseada em conteúdo. 2008. 91 f.Dissertação apresentada ao Instituto de Ciências Matemáticas ede Computação – ICMC-USP – para obtenção do título deMestre em ciência da computação e matemática computacional,São Carlos, 2008.[2] Delamaro, M. E., Maldonado, J. C., Mathur, A. P. InterfaceMutation: An approach for integration testing. IEEETransactions on Software Engineering, v. 27, n. 3, p. 228-247,2001.[3] Delamaro, M. E., Maldonado, J. C., Jino, M. Introdução aoteste de Software. – Rio de Janeiro: Elsevier, 2007.[4] Gato, H. E. R., Nunes, F. L. S., Schiabel, H. Uma propostade recuperação de imagens mamográficas baseada em conteúdo.In: IX Congresso Brasileiro de Informática em Saúde. Nanais doCongresso Brasileiro de Informática em Saúde.Ribeirão Preto,2004.[5] Hoffman, D., Using oracles in testing automation. PacificNorthwest Software Conference, (PNSQC, 2001).[6]Hoffman, Douglas. Using Oracles in Testing and TestAutomation (1-3). Software Quality Methods, LLC. em:http://www.logigear.com/newsletter/using_oracles_in_testing_and_test_automation_part1.asp, 2006.[7] Santos, A. P. O., (2006), Recuperação de imagensmamográficas baseada em conteúdo. Marília, p.21. Trabalho deconclusão de curso apresentada ao Centro UniversitárioEurípedes de Marília – Univem.210


Voltar ao sumárioESTUDO PRELIMINAR DA DIMENSÃO FRACTAL DE IMAGENSMAGNÉTICAS PARA AVALIAR A DESINTEGRAÇÃO DE COMPRIMIDOSAndré R. Backes 1backes@icmc.usp.brGiovana S. Evangelista 2gsevangelista@ibb.unesp.brPaulo R. Fonseca 2prfonseca@ibb.unesp.brLuciana A. Corá 2lacora@ibb.unesp.brOdemir M. Bruno 1bruno@icmc.usp.brMurilo Stelzer 2stelzer@ibb.unesp.brJosé Ricardo A. Miranda 2jmiranda@ibb.unesp.br1 Universidade de São Paulo - Instituto de Ciências Matemáticas e ComputaçãoSão Carlos - SP2 Universidade Estadual Paulista - Instituto de Biociências de BotucatuBotucatu - SPResumoComprimidos são formas farmacêuticas amplamenteutilizadas na administração oral de drogas. Aliberação da droga ocorre por desintegração, o que resultana fragmentação do comprimido. Como esse processoestá diretamente relacionado com a biodisponibilidadeda droga, é essencial a utilização de diferentestécnicas para o controle de qualidade dos parâmetrosfísicos envolvidos na desintegração. Para acessar essasinformações, diversas metodologias foram utilizadas(cintilografia e ressonância magnética). Recentementea Biosusceptometria AC (BAC) foi proposta para avaliara desintegração de comprimidos através de imagens,cuja quantificação é feita por segmentação de imagens.Todavia essa segmentação é extremamente sensível àexperiência do pesquisador, sendo necessário complementara análise a partir de uma metodologia semi-automática,como a Dimensão Fractal (DF). O objetivo do trabalhofoi comparar o desempenho da segmentação e da dimensãofractal na quantificação de imagens da BAC. Osresultados mostram uma forte correlação entre as duas metodologiasde quantificação (área da imagem e dimensãofractal), assim como possibilitaram o ajuste das curvasa um modelo que descreve a desintegração de comprimidos.Esses resultados demonstram um grande potencialde aplicação da dimensão fractal na quantificação de processosde interesse farmacêutico através da BAC.1. IntroduçãoFormas farmacêuticas sólidas (FFS) são amplamenteutilizadas na administração oral de drogas. Nestasformulações a liberação da droga ocorre por meio do processode desintegração, o que resulta na fragmentaçãoda FFS. Como esse processo está diretamente relacionadocom a biodisponibilidade da droga, é essencial autilização de diferentes técnicas para o controle de qualidadedos parâmetros físicos envolvidos na desintegração.Para avaliar o desempenho dessas FFS, métodos de imagemmédica como cintilografia [9], SQUID (superconductingquantum interference device) [12] e ressonânciamagnética [6] são utilizados. Recentemente, a Biosusceptometriade Corrente Alternada (BAC) foi propostacomo técnica alternativa aos métodos atuais, que possuemalto custo operacional ou empregam de radiaçãoionizante, destacando-se por sua eficácia ao monitorarFFS através de imagens do processo de desintegração[4].As imagens obtidas apresentam padrões de forma e texturaque se alteram conforme o processo de desintegraçãoocorre. Uma vasta coleção de métodos que permitem estimaressa variação nas imagens é descrita na literatura,destacando-se entre eles, a Dimensão Fractal (DF).A Dimensão Fractal [11, 2, 1] é uma medida da complexidadeque existe na organização dos pixels que constituema textura de uma imagem. Tem-se que o nível decomplexidade de uma textura está diretamente relacionadoao seu aspecto visual. Assim, utilizando a Dimensão Fractal,é possível quantificar a textura da imagem analisada211


Voltar ao sumárioem termos de homogeneidade, tornando possível a suacomparação com outras texturas [11].Este trabalho tem como objetivo aplicar o cálculo dacomplexidade a seqüências de imagens para verificar a possibilidadeda aplicação da desse recurso na estimativa deparâmetros que caracterizam a desintegração de comprimidosin vitro, correlacionando o resultado obtido com ométodo de quantificação por área magnética (segmentaçãode imagens).2. BAC - Imagens MagnéticasOs comprimidos (500 mg de ferrita e 75 mg de excipientes)foram obtidos por compressão direta em dois diferentesníveis de compressão: 10 e 20 kN.O sistema de BAC multisensores possui um par de bobinasde excitação (φ = 11cm) e sete pares de detecção(φ =3cm), arranjadas coaxialmente na configuração gradiométricade primeira ordem. Este sistema trabalha comoum transformador duplo de fluxo magnético, no qual o par(excitação/detecção) mais próximo do material magnético(ferrita) atua como medida enquanto aquele mais distanteatua como referência. Na ausência de material magnéticopróximo ao par medida, a resposta é minimizada. Ao aproximaro material magnético, ocorre um desbalanceamentono fluxo magnético do sistema gradiométrico e o materialé monitorado . Os sinais são adquiridos por amplificadoreslock-in (Stanford Research Systems), digitalizados (10Hz) earmazenados para processamento e análise, conforme descritopor Corá et al [4], em que a seqüência de imagens énormalizada após remoção de background e ajustes de contraste.Essas imagens são então segmentadas usando o detectorde bordas Canny para para cálculo de área.As curvas de variação de área versus tempo tempo foramentão analisadas aplicando-se a distribuição de Weibull[7], modificada de acordo com o modelo proposto por PenaRomero et al [8], conforme descrito pela equação abaixo:A−0,63212t t=1− eβ 63,2(1)A infem que, A éaárea do comprimido no tempo t e A inféaárea máxima de desintegração; t 63,2 é o intervalo detempo necessário para alcançar 63,2% da área máxima e oexpoente β está relacionado à forma da curva, ou seja, permiteinferir se houve dificuldade na desintegração ou se esseé um processo contínuo, por exemplo. O ajuste das curvasfoi implementado usando o método de mínimos quadradosnão-linear iterado até 10000 vezes.3. Dimensão FractalDimensão Fractal constitui uma das ferramentas maisutilizadas para se quantificar a complexidade de um objeto.O termo complexidade é definido na Literatura comoFigura 1. Exemplo de contagem de cubos emimagens tons de cinza.uma medida do nível de irregularidade de um objeto oudo quanto do espaço ele ocupa. Diferente da dimensão topológica,caracterizada por um número inteiro que representao número de dimensões do espaço onde o objeto estáinserido, a Dimensão Fractal (DF) é definida como um valorfracionário capaz de representar o nível de ocupação doespaço e irregularidade do objeto analisado [10, 11, 2, 1].4. Metodologia PropostaFigura 2. Exemplo de imagens dadesintegração de comprimidos em trêsinstantes distintos.A literatura apresenta diversos métodos para se estimara Dimensão Fractal. Dentre eles, se encontra o método deBox-Counting, muito utilizado devido características comofácil implementação e simplicidade do cálculo envolvido.Esse método se baseia na contagem do número de quadrados,N(r), que interceptam o objeto contido na imagemA ∈ R 2 quando esta é coberta com uma malha de quadradosde aresta r [3, 10, 11]. A Dimensão Fractal é obtidaa partir da relação entre o tamanho da caixa utilizada,r, e o numero de caixas contadas, N(r), obedecendo a se-212


Voltar ao sumárioFigura 3. Curva média de área e Dimensão Fractal para comprimidos de 10 kNFigura 4. Curva média de área e Dimensão Fractal para comprimidos de 20 kNguinte equação:DF = − limr→0log(N(r))log(r)Visando aplicar o método de Box-Counting em imagensem tons de cinza, como é o caso das texturas, optou-sepor utilizar uma versão do método onde se considera a intensidadedo pixel como a altura daquele ponto da imagem.Desse modo, substitui-se a contagem de quadrados dométodo por uma contagem de cubos de aresta r (Figura 1).Essa alteração produz um novo N(r), onde N(r) é agoraonúmero de cubos que interceptam a imagem A, sem queisso altere a relação que conduz a estimativa do valor de(2)DF, definida anteriormente [1].O processo de desintegração de um comprimido consistena fragmentação desta forma farmacêutica em pequenaspartículas para que ocorra a liberação do princípio ativo.A metologia proposta é baseada na idéia de que um comprimidoem desintegração parte de uma forma fixa conhecidae se expande em todas as direções, aumentando seu volume(registrado como a área na imagem). Esse processo acompanhauma perda na regularidade de suas bordas a qual podeser registrada através da complexidade da imagem medidapor Dimensão Fractal.Assim, para cada imagem obtida do processo dedesintegração do comprimido analisado foi calcu-213


Voltar ao sumáriolada o valor da Dimensão Fractal utilizando o métodode Box-Counting. Curvas relacionando a Dimensão Fractalvs tempo foram geradas e ajustadas utilizando-sea Equação 1. Isso foi feito de modo a verificar se osparâmetros encontrados para as curvas de Dimensão Fractalapresentam alguma relação com os parâmetros utilizadosatualmente para a análise da área magnética[5].5. Resultados e DiscussãoUm total de 14 seqüências de 16 imagens obtidas porBAC para avaliar a desintegração de comprimidos. Paracada imagem foi detectada sua borda utilizando o operadorCanny sendo em seguida medida a sua área interna (númerode pixels). A figura 2 apresenta exemplos de imagens segmentadasem três instantes distintos da desintegração: inicial(9s), intermediário (25s) e final (257s).Figura 5. Curva de ajuste da área.Parâmetro 10 kN 20 kNÁrea β 1, 51 ± 0, 17 1, 34 ± 0, 09t 63(s) 32, 39 ± 15, 89 30, 05 ± 13, 23DF β 2, 46 ± 0, 20 1, 95 ± 0, 65t 63(s) 1769, 41 ± 626, 60 1042, 33 ± 806, 92Correlação Área x DF 0, 95 ± 0, 074 0, 980 ± 0, 008Tabela 1. Parâmetros de saída do ajuste.As Figuras 3 e 4 apresentam os valores médios de área ede Dimensão Fractal, ambos normalizados, obtidos duranteo processo de desintegração utilizando diferentes forças decompressão (10 kN e 20 kN, respectivamente). Nota-se que,independente da força de compressão utilizada, o processode desintegração das amostras é acompanhado por um aumentoda área e complexidade da imagem. Esse aumentoocorre de forma rápida e significativa, tornando-se constantelogo em seguida.Esse comportamento similar entre a área calculada e acomplexidade das imagens também é notado quando se calculao coeficiente de correlação entre esses resultados. AsFiguras 5 e 6 exemplificam os ajustes realizados nos dadosde área e dimensão fractal com a Equação 1, sendo acorrelação entre as técnicas apresentada na Tabela 1. Notasenesses dados que os valores encontrados nos dois casosestão de acordo com o modelo descrito em [8]. Todavia,ocorrem algumas discrepâncias nos valores estimados parao parâmetro β (formato da curva), já que esse parâmetro dependefortemente do comportamento que os pontos descrevemno início da curva, os quais são visivelmente diferentesnas figuras 3 e 4. Conseqüentemente os valores de t 63também sofrem alteração devido a esses pontos.Figura 6. Curva de ajuste da complexidade.6. ConclusõesEstes resultados preliminares demonstram que ambas astécnicas (análise da área magnética e Dimensão Fractal)permitem avaliar o processo de desintegração com a mesmasensibilidade. A aplicação da análise por Dimensão Fractalnesse caso foi crucial por possibilitar o cálculo das curvasde desintegração do comprimido sem a subjetividade daavaliação humana, algo constantemente registrado no casodas medidas obtidas por segmentação de imagens da BAC,um processo que ainda não foi automatizado. Esse trabalhoapresenta um ponto de partida para novas análises, onde214


Voltar ao sumáriouma quantidade maior de amostras de comprimidos seráavaliada, visando assim melhor avaliar a metodologia empregadae sua sensibilidade na detecção de variações noscomprimidos.AgradecimentosOs autores agradecem o suporte financeiro das agênciasFAPESP, CAPES e CNPq.Referências[1] A. R. Backes and O. M. Bruno. Segmentação de texturas poranálise de complexidade. INFOCOMP Journal of ComputerScience, 5(1):87–95, 2006.[2] B. B. Chaudhuri and N. Sarkar. Texture segmentation usingfractal dimension. IEEE Trans. Pattern Anal. Mach. Intell,17(1):72–77, 1995.[3] R. C. Coelho and L. F. COSTA. The box-counting fractal. dimension:Does it provide an accurate subsidy for experimentalshape characterization? if so, how to use it? In Anais doSibgrapi 95, pages 183–191, 1995.[4] L. Cora, U. Andreis, F. Romeiro, M. Americo, R. Oliveira,O. Baffa, and J. Miranda. Magnetic images of the disintegrationprocess of tablets in the human stomach by ac biosusceptometry.Physics in Medicine and Biology, 50:5523–5534(12), 2005.[5] L. A. Cora, P. R. Fonseca, M. F. Americo, R. B. Oliveira,O. Baffa, and J. R. A. Miranda. Influence of compressionforces on tablets disintegration by ac biosusceptometry.European Journal of Pharmaceutics and Biopharmaceutics,69(1):372–379, 2008.[6] S. Kwiecinski, M. Weychert, A. Jasinski, P. Kulinowski,I. Wawer, and E. Sieradzki. Tablet disintegration monitoredby magnetic resonance imaging. Appl. Magn. Reson.,22:23–29, 2002.[7] F. Langenbucher. Linearization of dissolution rate curves bythe weibull distribution. J. Pharm. Pharmac., 24:979–981,1972.[8] A. P. Romero, C. Caramella, M. Ronchi, F. Ferrari, andD. Chulia. Water uptake and force development in an optimizedprolonged release formulation. Int. J. Pharm., 73:239–248, 1991.[9] I. R.Wilding, A. J. Coupe, and S. Davis. The role of γ-scintigraphy in oral drug delivery. Adv. Drug Deliv. Rev.,46:103–124, 2001.[10] M. Schroeder. Fractals, Chaos, Power Laws: Minutes Froman Infinite Paradise. W. H. Freeman, 1996.[11] C. Tricot. Curves and Fractal Dimension. Springer-Verlag,1995.[12] W. Weitschies, M. Karaus, D. Cordini, L. Trahms, J. Breitkreutz,and W.Semmler. Magnetic marker monitoring of disintegratingcapsules. Eur. J. Pharm. Sci., 13:411–416, 2001.215


Voltar ao sumárioEVALUATION OF THE ERROR OF A STEREOPHOTOGRAMMETRIC SYSTEM AS AFUNCTION OF THE OBJECT POSITION WITH RESPECT TO THE CALIBRATION GRIDJúlio C. B. Torres (1) , José Gabriel R. C. Gomes (2) , Rafael S. de Moraes (2) , Mariane R. Petraglia (2) , and Antonio Petraglia (2)(1) Federal University of Rio de Janeiro, Department of Graphics Engineering – POLIRio de Janeiro, RJ 21945-970, Brazil. juliotorres@ufrj.br(2) Federal University of Rio de Janeiro, Department of Electrical Engineering – COPPERio de Janeiro, RJ 21945-970, Brazil. (gabriel,mariane,antonio)@pads.ufrj.br, rafaelsm@gmail.comABSTRACTIn this paper, we propose an experimental method for quantitativedescription of the error expected from a stereophotogrammetricmeasurement system. The dimensioning errorclearly appears as a function of the difference between thepositions of the object and of the calibration grid, which isan intuitively appealing result. This result is useful for thefuture derivation of a closed-form formula for the dimensioningerror; it is also useful for the development of automaticmeasurement systems that can load the most appropriate calibrationparameters after a rough estimate of the distance fromthe cameras to an object of interest.Index Terms— Camera Calibration, Disparity, Stereophotogrammetry,Least Squares Error Analysis1. INTRODUCTIONMany well-known, efficient, and accurate algorithms exist inthe literature about 3-D reconstruction and the measurementof 3-D objects from data generated by a pair of cameras (seefor example [1]). In this paper, we analyze the accuracy ofone such algorithm, which was proposed in [2], and whichis based on 3-D reconstruction after the calibration of camerasystem parameters from a robust least squares approach.Since the camera parameters are fit by least squares, it isreasonable to expect that large extrapolation errors will occurwhen one deviates from the original training data, i.e.when one uses dimensioning data that are significantly differentfrom the calibration data. Although this statement is quiteintuitive, an analytical treatment of this fact has not yet beenprovided in the literature. As a first step into this analyticaltreatment, we focus on a detailed quantitative description ofthe average dimensioning error as a function of the differencebetween the object position and the calibration data. This descriptionis based on a large amount of experimental data, thatwere gathered from long sessions of image capture in a controlledenvironment. Experimental results (presented after aThis work was supported by CNPq (Brazilian Ministry of Science andTechnology), by FUJB/UFRJ, and by FAPERJ/Brazil.brief presentation of the stereophotogrammetry theory and ofour analysis methods) clearly show that a strong correlationexists between the dimensioning error and the difference betweenthe positions of the object and the calibration grid.2. STEREOPHOTOGRAMMETRYThe relationship between a point [pqs] T in the camera referenceframe and a point [xyz] T in the world reference frame,as shown in Fig. 1, is described by a translation followed bya sequence of three rotations:⎡⎣pqs⎤⎡⎦ = R(ω, φ, κ) ⎣x − x 0y − y 0z − z 0⎤⎦ (1)The translation vector [x 0 y 0 z 0 ] T and the three anglesω, φ, and κ defining the rotation matrix R compose the setof six extrinsic parameters of each camera. From this representationof the 3-D point in the camera reference frame, weobtain the respective 2-D projection on the image plane. Thecoordinates of this 2-D point are given by Eq. (2). s u0= + 1 αu p(2)v v 0 s α v qThe 2-D coordinates of the principal point (which is theintersection of the optical axis with the image plane) are givenby [u 0 v 0 ] T . The scaling factors α u and α v are horizontal andFig. 1. Camera and object reference frames.216


Voltar ao sumáriovertical approximations of f (see Fig. 1), which is the distancefrom the the image projection plane to the camera lens.These four numbers compose the set of intrinsic parametersdescribing the construction of each camera.Since we use two cameras in our stereo imaging system,a total of 20 parameters must be used to describe the position,orientation, and construction of both cameras (i.e. (6 + 4) ×2 parameters). To estimate these parameters, we collecteddata from a calibration grid as described in Sec. 3.1. Thecalibration data are represented by a calibration text file withthe 3-D coordinates of a set of reference points from the grid,as well as the 2-D coordinates of each reference point on theleft and right camera images. We then used a robust nonlinearleast-squares optimization algorithm [2] to estimate the20 parameters. The algorithm minimizes the mean-squarederror between the 2-D projections from Eq. (2) and the 2-Dprojections stored in the calibration text file. Once the meansquared error is minimized, an stereo triangulation scheme[3] is applied to estimate the 3-D coordinates of any point[x yz] T from the 2-D coordinates ([u L v L ] T and [u R v R ] T )of the point projection on each image of the stereo pair. Usingthese 3-D coordinates, which are relative to the calibrationgrid origin, the length ˆl of any object can be computed.3. EXPERIMENTAL METHODSIn this section, we present the methodology that is used toinvestigate the influence of the calibration distance d cal overthe dimensioning error (Eq. (4)). The calibration distanced cal is the distance from the origin of the calibration grid tothe center of the segment connecting the centers of the cameralenses, as shown in Fig. 2. We also call this segment thecamera support. The distance to the object (d object ) is takenfrom the object center to the center of the camera support. Itis also shown in Fig. 2.3.1. Calibration GridFigure 3 shows the calibration grid. The centers of the whitecrosses inside the black squares define calibration referencepoints in a 3-D cartesian coordinate system. Out of the 28available points, just the 12 upper points and the 12 lowerpoints are used for the calibration of both cameras. The or-thogonal axes x, y and z are also shown in Fig. 3. The z axisof the grid is always orthogonal to the floor plane.3.2. Camera PositioningWe used two identical cameras in this experiment. They areCanon Powershot G7 cameras with 10.1 megapixel resolution.The image compression algorithm is JPEG and no zoomwas used. The cameras were mounted on a metallic support,which was kept fixed on the floor during the entire photo session.The distance between the centers of the lenses was 14.0cm. The support was placed 14.2 cm above the floor and the zaxis of the camera coordinate system was parallel to the floorplane, pointing towards the grid origin.3.3. Reference SegmentsIn order to evaluate the dimensioning error, a mesh grid wasprinted on A0-series papers and placed on the floor, as shownin Fig. 4. The trace in the paper is approximately 5 mm wide.The mesh is composed by connected squares of size 10 cm ×10 cm. The mesh is 40-cm wide and 10-m long. Althoughthe mesh grid is 10-m long, only the segments placed up to3.40 meters away from the camera were used, because it wasimpossible to visualize the segment edges for larger distances.The distance from the mesh to the cameras was 60 cm, whichwas the minimal distance allowing the nearest segments tobe included in both pictures. Therefore, only segments morethan 60 cm away from the cameras could be dimensioned. InFig. 4, the markers indicating 1.00 m, 2.00 m, and so on referto the distance to the camera support.A mesh matrix with size 5 × 35 is associated to the meshgrid from Fig. 4. The elements of this mesh matrix are thevertices of the mesh. The reference segments are defined bythe combinations of any two vertices of the mesh grid. Theminimal segment length is 10 cm. The shortest segments areobtained by choosing any two adjacent vertices. The longestsegment corresponds to the diagonal of the mesh matrix. Thelength of the segment defined by two points A and B locatedat positions (i, j) and (m, n) of the mesh matrix is given byl = L ∗ (m − i) 2 +(n − j) 2 , (3)Fig. 2. Scheme of pair of cameras and calibration grid setup.Fig. 3. Calibration grid.217


Voltar ao sumáriowhere L = 10 cm is the minimum segment length, and m,n, i, and j are the matrix indices for the segment edges.The computation of a segment length estimate ˆl was explainedin Sec. 2. The dimensioning error ε is defined asthe relative absolute error between the actual segment lengthl and its estimate ˆl:ε = |l − ˆl|/|l|. (4)Table 1. Calibration indices C i for nine d cal values.i d cal (cm) C i (%)1 100 0.602 150 0.823 200 0.734 250 1.035 300 1.346 350 1.567 400 2.238 450 2.399 500 2.774. CALIBRATION GRID POSITIONINGThe calibration grid positions were chosen so that the gridorigin was placed at multiples of 50 cm from the camera support,starting at 100 cm. Although the reference segmentsfrom Sec. 3.3 were defined up to 400 cm from the camerasupport, the calibration operations were performed with thegrid origin up to 500 cm away from the camera support. Thisis because the calibration grid markers were still visible 500cm away from the cameras in spite of the JPEG compression.To calibrate the system, a pair of pictures were taken for eachgrid position. Figure 4 shows the calibration grid at position350 cm counting from the camera support.To evaluate the calibration, a set of 276 segments was definedfrom the 24 calibration points mentioned in Sec. 3.1(note that 276 is the number of pairwise combinations of the24 points). The lengths of all these segments are known accuratelyfrom the 3D coordinates of the calibration points.Using the camera parameters obtained from calibration, eachone of the 276 segments had its length estimated. The absoluterelative errors were computed for each segment. Theaverage value of all such errors was computed, and denotedthe calibration index C i of the i-th calibration. Table 1 showsthe C i values obtained in calibration operations 1 to 9.5. ERROR ANALYSISIn this paper, we want to experimentally derive the relationshipbetween the average dimensioning error and the locationof the segment that is being measured, taking into account agiven position of the calibration grid. Since the segment edgescan be at different distances from the camera support, the segmentdistance d object was defined from the camera support tothe center of the segment. This was also shown in Fig. 2. Inour experiment, the segments have lengths varying from 10cm to 342.35 cm, which is the mesh diagonal. The minimaldistance from a segment center to the cameras is 60 cm, andthe maximal distance from a segment center to the cameras is400 cm (which is 60 cm + 340 cm).In order to analyze the behavior of the dimensioning algorithm,the segments were separated into three classes accordingto their orientation with respect to the camera support (seeFig. 2): parallel, orthogonal and oblique to the camera support.The total number of segments obtained from the meshmatrix of size 5 × 35 is 25200, out of which 450 are parallel,4950 are orthogonal and 19800 are oblique.Figure 5 presents the relative errors for the segments withlengths equal to 10.0 cm and 14.1 cm, for a calibration atposition d cal = 300 cm. From Fig. 5, we observe that thesmallest errors occur for parallel segments, and the largest errorsare obtained when segments are orthogonal to the camerasupport. Errors between these two limits were obtained withoblique segments. The three thick lines show the mean errorfor each type of segment. Figure 6 shows the relative absoluteerrors for all segments with length between 10 cm and200 cm, considering d cal = 200 cm.Another important conclusion from Figs. 5 and 6 is thatthe smallest errors, for any class of segments, occur close to807060obliqueparallelorthogonalRelative Error (%)5040302010Fig. 4. Mesh grid that was used to define reference segmentsfor the measurements. The calibration grid is positioned 3.50meters away from the cameras.050 100 150 200 250 300 350 400Segment Distance d_object (cm)Fig. 5. Dimensioning error for segments with length 10.0 cmand 14.1 cm, for calibration distance d cal = 300 cm.218


Voltar ao sumáriothe grid origin position but not exactly at the grid origin. Thisoccurs because all grid points that were used to calibrate thesystem are located at distances from the camera support thatare below d cal . For segments located at distance d object >d cal , a larger error dispersion is observed and only parallelsegments keep lower relative errors. The same behavior isobserved for all grid positions (100 cm d cal , the error also increases as the object movesaway from the grid, but the error spread is larger than thespread that occurred for segments located before the grid.Also, segments which are parallel to the camera support leadto the smallest errors. Orthogonal segments presented thelargest errors, which is due to uncertainty in the stereo disparitydifference between the segment edges. Measures ofoblique segments yielded intermediate error values.Relative Error (%)8070605040302010obliqueparallelorthogonal050 100 150 200 250 300 350 400Segment Distance d_object (cm)Fig. 6. Dimensioning error for segments with length between10 cm and 200 cm, for calibration distance d cal = 200 cm.Table 2. Global behavior of average dimensioning error (percentage)as a function of the segment distance d object and thecalibration distance d cal . The minimal values of each columnare printed in boldface characters.Intervals ofCalibration Distance d cal (cm)d object (cm) 100 150 200 250 30075-125 2.83 4.60 14.46 24.37 33.91125-175 7.49 2.21 7.73 19.67 29.75175-225 11.74 8.85 3.94 10.38 21.92225-275 14.12 17.83 16.08 6.09 11.40275-325 14.64 26.73 30.17 17.19 3.48325-375 14.06 35.77 45.33 33.26 13.25375-425 10.66 42.65 59.79 51.25 26.06425-475 10.82 50.12 76.30 80.32 41.31475-500 21.68 52.67 77.88 122.22 49.38Intervals ofCalibration Distance d cal (cm)d object (cm) 300 350 400 450 50075-125 33.91 33.59 41.54 62.08 49.83125-175 29.75 31.64 42.34 61.22 59.04175-225 21.92 26.95 38.66 56.83 61.08225-275 11.40 20.82 32.62 50.04 59.09275-325 3.48 14.55 25.62 41.87 54.63325-375 13.25 9.01 17.95 32.15 48.07375-425 26.06 10.64 11.83 21.03 40.53425-475 41.31 23.91 16.80 10.07 31.61475-500 49.38 44.54 43.29 19.72 19.32To achieve minimal error in a segment measurement, thecalibration distance d cal must be near the distance d objectfrom the segment center to the camera support. Therefore,any method to estimate the distance from the segment centerto uncalibrated cameras should be applied and, from theuncalibrated distance estimate, the user should select the calibrationparameters that will produce the smallest errors.The results presented in this paper can be considered as asubset of the extensive results that are typical of Normal CaseError Theory [4], [5]. In a future study we intend to conductmore extensive tests following the procedures describedin these references. It is also important to take into accountthe influence from other parameters related to the geometricalconstruction of the camera system. For example, eccentricradial distortion parameters can be considered [6], [7], [8].7. REFERENCES[1] O. Faugeras, Three-Dimensional Computer Vision: a GeometricViewpoint. MIT Press, 1993.[2] L. C. Silva, M. R. Petraglia, and A. Petraglia, “Camera calibrationand 3-D reconstruction for stereo vision,” in Proc.12th European Signal Processing Conference, Vienna, Austria,2004.[3] L. C. Silva, Robust Method for Camera Calibration inStereophotogrammetry. Ph.D. Thesis (in Portuguese), FederalUniversity of Rio de Janeiro, Brazil, 2003.[4] K. Kraus, Photogrammetry – Fundamentals and StandardProcesses. Volume 1, Ferd. Dümmlers Verlag, 1993.[5] K. B. Atkinson (Editor), Close Range Photogrammetry andMachine Vision. Whittle Publishing, 1996.[6] R. Jain, R. Kasturi, and B. G. Schunk, Machine Vision.McGraw-Hill Computer Science Series, 1995.[7] D. C. Merchant, Analytical Photogrammetry – Theory andPractice. Part 1, Ohio State University, Department ofGeodetic Science, 1980.[8] T. Schenk, Digital Photogrammetry. Volume 1, TerraScience,Ohio, 1999.219


Voltar ao sumárioIdentificação de Pessoas através de Algoritmo Genético aplicado em medidas dasProporções Áureas da Face HumanaWalison Joel Barberá AlvesE-mail: wbarbera@bol.com.brAdilson GonzagaE-mail: agonzaga@sc.usp.brEscola de Engenharia de São Carlos – Universidade de São Paulo – USPSão Carlos, São Paulo, BrasilAbstractThere has been an emerging interest of automaticsystems that provide the recognition of human faces.Seeing that, scientists have gathered different techniquesin order to obtain more and more positive and concreteresults.This interest is not of academic concern only, but thereis also legal and commercial interest in using systems thatcan recognize faces in places where it is difficult forhumans to locate a person, that is when it is necessary tolocate outlaws in crowded places.Tthis work aims at developing a system for theautomatic recognition of human faces using proportionsand applying an innovative technique that implements aGenetic Algorithm. This algorithm uses the number offacial golden proportion sections as its input, so it ispossible to determine the existing proportions andconsequently, to locate the desired face no matter theperson’s facial expression.The results show that the golden ratio, which has beenused since the earlier times by painters and sculptors, ispresent in human facial proportions and is a biometricmeasurement that enables to identify an individual evenwith facial expressions.1.IntroduçãoO reconhecimento de faces humanas é um problemabastante complexo para ser implementado de formaautomática, devido a diversos fatores como: diferentesvariações de orientação e tamanho da imagem, condiçõesde iluminação do ambiente, diferenças na aparência, naexpressão facial e na cor da pele, entre outros fatores queinfluenciam a extração de características [1].Esse tipo de técnica exige algoritmos robustos parapoderem reconhecer as faces em diferentes tipos decondições de iluminação, expressões faciais e outrosempecilhos que dificultam o processo.2. Sistemas BiométricosDe largo uso desde o início do século XX, foi definidacomo “a aplicação de teorias matemáticas e estatísticasem mensurações de características humanas” [2].Mais recentemente a palavra Biometria tem sido usadapara designar mensurações fisiológicas ou característicasdo comportamento que podem ser utilizadas naidentificação de uma pessoa a partir de característicasindividuais como: veias da palma da mão, impressõesdigitais, reconhecimento da face, estrutura da retina,estrutura da íris e geometria da mão.Teoricamente, qualquer característica humana, querseja fisiológica ou comportamental pode ser usada comouma identificação pessoal quando satisfaz os requisitos deuniversalidade (todos os indivíduos possuíremdeterminada característica), unicidade (fenômeno provadoque não existem dois indivíduos com o mesmo padrão),imutabilidade (a característica estudada não muda com otempo) e coletabilidade (característica que pode sermensurada ou medida).Na Figura 1 é possível ver um esquema básico dosSistemas Biométricos:DispositivosBiométricos3. Algoritmo GenéticoSistemas BiométricosInscriçãoVerificaçãoBaseDeDadosResultadoFigura 1: Funcionamento básico dos sistemas BiométricosAlgoritmos Genéticos (AGs) são métodos deotimização e busca inspirados nos mecanismos deevolução dos seres vivos. Foram introduzidos por Holland[3] e popularizados por um dos seus alunos [4]. Os AGspossuem uma analogia direta com a teoria naturalista efisiologista do inglês Darwin, pai da teoria da evoluçãodas espécies, segundo a qual quanto melhor um indivíduose adaptar ao seu meio ambiente, maior será sua chancede sobreviver e gerar descendentes [5].A idéia básica de funcionamento dos algoritmosgenéticos é a de tratar as possíveis soluções do problemacomo "indivíduos" de uma "população", que irá "evoluir"a cada iteração ou "geração". Para isso é necessário220


Voltar ao sumárioconstruir um modelo de evolução onde os indivíduossejam soluções de um problema [6].3.1 Definições em AG Cromossomo: cada indivíduo que representa umapossível solução é representado, de forma codificada, poruma seqüência de códigos agrupados. População: conjunto de cromossomos ou soluçõesdo problema. Avaliação de aptidão: também conhecida comofunção de avaliação, tem o objetivo de proporcionar umamedida do grau de aptidão (fitness) de um indivíduo, aqual pode ser vista como uma nota dada a cada indivíduopara medir a qualidade quanto à solução ótima doproblema. Seleção: o principal objetivo do operador de seleçãoé copiar boas soluções, eliminar soluções de baixaaptidão, quando o tamanho da população for constante[7]. Operadores Genéticos: o princípio básico dosoperadores genéticos é transformar a população através desucessivas gerações, de forma a obter um resultadosatisfatório no final do processo. Deste modo eles sãoextremamente necessários para que a população sediversifique e mantenha as características de adaptaçãoadquiridas pelas gerações anteriores [8]. Os operadoresgenéticos mais utilizados são Cruzamento (Crossover) eMutação. Critérios de parada: quando bem implementado, oprocesso geral de aplicação dos AGs tem comoconseqüência a evolução dos indivíduos de suapopulação, passando para sucessivas gerações, fato queindica solução ótima ou, dependendo do problema,solução satisfatória.Na Figura 2 é demonstrada a estrutura básica de umAlgoritmo Genético:NãoPopulaçãoAvaliação de AptidãoSeleçãoCruzamentoMutaçãoCritério deParada?SimRetornar melhorindivíduoFigura 2: Estrutura básica de um AG [6]OperadoresGenéticos4. Algoritmo G-GoldVários são os exemplos de problemas complexos, dedifícil solução computacional por técnicas tradicionais,que facilmente são resolvidos pela natureza. Com essaidéia, a Computação Evolutiva, neste caso particular oAlgoritmo Genético, busca modelar e simularcomputacionalmente alguns conceitos e fundamentosutilizados pela natureza para a resolução de problemas.Este trabalho propõe uma metodologia inovadorapara a identificação de pessoas através de imagensfrontais da face.O método pré-processa as imagens para reduzirruídos e detectar bordas tal que partes característicascomo olhos, nariz, boca, sobrancelha e contorno do rostopermaneçam na imagem processada.O algoritmo, denominado de G-Gold, extrai então aquantidade de razões áureas existente em setores da facepreviamente estabelecidos e gera um cromossomo queatravés de técnicas de Algoritmo Genético realiza aevolução de cada indivíduo da base aproximando-o de suaclasse por similaridade.A Figura 3 mostra todas as etapas seguidas para arealização do trabalho.Imagem da FacePré-ProcessamentoExtração dosSegmentosÁureosFigura 3: Etapas do algoritmo G-Gold5. MateriaisReconhecimentoIdentificaçãoAlgoritmoGenéticoPara executar as aplicações da metodologia propostafoi utilizado o Software Matlab na versão 7.0 em umnotebook DELL, com Processador Intel Core 2 Duo 1.8GHz, 2 GB de memória RAM, HD de 80 GB e sistemaoperacional Windows Vista Ultimate.A base de imagens é composta por 119 indivíduos(65 homens e 54 mulheres) que representam quatrodiferentes expressões faciais e três com variações deiluminação, totalizando 833 imagens de faces frontaisadquiridas do banco AR [9].A Figura 4 exemplifica um dos indivíduos da Base deimagens:Figura 4: Exemplo de um indivíduo Base de ImagensFigura 4: Imagens um indivíduo da Base de Imagens221


Voltar ao sumário6. Pré-processamentoO pré-processamento das imagens foi implementadoda seguinte maneira: na imagem original (Figura 5) foiaplicado o filtro da mediana, empregado na eliminação deruídos e preservação de contornos em imagens digitais(Figura 6). Na seqüência foi utilizado o detector de bordasde Sobel, por obter um resultado bem satisfatório nadetecção dos olhos, nariz, boca, sobrancelha e contorno daface (Figura 7).Região 1 Região 2 Região 3 Região 4Região 5 Região 6 Região 7Figura 5:Imagem OriginalFigura 6:Filtro da MedianaFigura 7:Detector de Sobel7. Extração dos Segmentos ÁureosO algoritmo para extração dos segmentos áureos dasimagens de faces humanas foi baseado no trabalho de [10]que demonstra a existência de segmentos áureos emalgumas regiões da face. Apesar de também existiremretângulos e triângulos áureos nas proporções de uma facehumana, nosso trabalho propõe apenas o uso desegmentos áureos verticais e horizontais. Nossasinvestigações poderão ser feitas, no futuro, envolvendoretângulos e triângulos áureos.Na detecção de faces humanas em imagens digitaisgenéricas, [10] comprovou a existência de segmentosáureos horizontais na região da testa e cabelo, na regiãodos olhos, do nariz, da boca e queixo. Também foramcomprovadas a existência de segmentos áureos verticaisque envolvem o olho, o nariz e a boca simetricamente emrelação ao eixo médio vertical da face que passa sobre onariz.Região 8 Região 9 Região 10Figura 8: Definição das 10 regiões para extraçãodos segmentos áureosCada região desta foi considerada por apresentarcaracterísticas importantes para o reconhecimento. Assim: Região 1: Cabelo e contorno da cabeça na partesuperior; Região 2: Olhos; Região 3: Nariz; Região 4: Boca e contorno da cabeça na parte inferior; Região 5: Lateral direita; Região 6: Lateral esquerda; Região 7: Quadrante superior direito; Região 8: Quadrante superior esquerdo; Região 9: Quadrante inferior direito; Região 10: Quadrante inferior esquerdo.As regiões 1, 2, 3, 4 capturam características desegmentos áureos horizontais. As regiões 5 e 6 localizamcaracterísticas provenientes de segmentos áureosverticais. As regiões 7, 8, 9, 10 são usadas para localizarsegmentos áureos em ambas as direções.A idéia é inspirada biologicamente, adotando-se umcromossomo para formação das características da facecom proporcionalidade e simetria geradas através donúmero de ouro.7.1 Número de Ouro e Segmentos ÁureosNúmero de Ouro é um número que aparece numainfinidade de elementos da natureza na forma de umarazão, sendo considerada por muitos como uma oferta deDeus ao mundo [NN]. Também chamado de razão áurea222


Voltar ao sumárioou seção áurea é simbolizada pela letra Ф (lê-se fi), inicialde Fídias, escultor grego que utilizou este número [11]. Éo número obtido quando se divide (a) por (b):(a+b) / a = a / b = Ф = 1,618034Ф 2 = 2,6180341 / Ф = 0,618034Esta proporção diz que a relação entre a soma de duasgrandezas, e uma delas (a maior, que no caso é "a"), éigual à relação entre esta (a) e a outra (b). Isto de fato seobtém quando a = 1,618, que é o número de ouro.Portanto 1,618 é a razão entre os termos da proporção. É oúnico número positivo que satisfaz a relação Ф 2 = 1 + Ф.A estrutura unidimensional corresponde ao segmentode reta com extremidade A e B, interceptado por umponto S que divide em dois segmentos AS e SB. Ossegmentos originados relacionam-se segundo a razãoáurea [10], conforme a Figura 9.A S BFigura 9: Segmento ÁureoEm outras palavras, isso significa que é possível obterum ponto S que permite encontrar um segmento áureoneste segmento AB, utilizando-se da seguinte razão:AB AS= = ФAS SBNas Figuras 10 e 11 são mostrados alguns exemplos desegmentos áureos horizontais e verticais encontrados naface, considerando a razão entre os segmentos AS e SB .AASAASSSSBSBSSBBS AA B SS ASB8. Codificação e PopulaçãoCada indivíduo é codificado por uma seqüência dedígitos binários, denominados cromossomos. Oscromossomos são divididos em genes; cada generepresentará o número de segmentos áureos encontradosem cada região da face. A regra adotada para arepresentação de cada gene foi descrever em númerosbinários o número de segmentos áureos encontrados emcada região da face (Figura 12).G1 – 600110G2 – 630111111G3 – 10001G4 – 5101G5 – 500101O gene 1(G1) representa a região 1, que apresentou noexemplo utilizado 6 segmentos áureos, gerando acodificação 00110. Os demais genes seguem o mesmométodo de codificação, formando juntos o cromossomo0011011111100011010010101000001000101101011.9. ClassificadorCromossomoCodificado0011011111100011010010101000001000101101011Figura 12: Codificação utilizadaG6 – 801000G7 – 20010G8 – 500101G9 – 5101G10 – 3011No banco de faces cada indivíduo é representado por seteimagens diferentes, sendo quatro com variações deexpressões e três com variação de iluminação; portantoquando houver busca por determinada imagem (imagemquery) o algoritmo deve encontrar essa imagem e asoutras seis imagens do mesmo indivíduo, através de suasproporções (Figura 13).Imagem QueryFigura 10: SegmentosÁureos HorizontaisFigura 11: SegmentosÁureos VerticaisO processo de extração de características baseado nonúmero de segmentos áureos encontrados na face tem porobjetivo a construção da população inicial do algoritmogenético proposto.Imagens a serem encontradasFigura 13: Objetivo do G-Gold223


Voltar ao sumário10. ResultadosA eficiência do algoritmo G-Gold foi avaliado atravésde vários testes e alterações, como por exemplo, nospontos de “crossover” no AG e na taxa de mutação.O cromossomo gerado através do número desegmentos áureos encontrados em cada região das 7 facesde cada classe das imagens da base, o resultado desimilaridade entre cada imagem da base e as outras podeser visto nas Tabelas 1 e 2.As Tabelas 1 e 2 mostram a posição retornada paracada imagem de busca (Imagem Query) considerando-se amenor Distância Euclidiana (similaridade) antes e depoisda aplicação do Algoritmo G-Gold. Por exemplo, naTabela 1 comparando-se o cromossomo da imagem 1 comos outros cromossomos da Base, as imagens da classe sóaparecem nas posições 18, 267, 343, 471, 769 e 814indicando uma baixíssima recuperação, ou melhor, muitasoutras imagens são mais “similares” à imagem 1 do queas 6 outras da mesma classe. No entanto, após o AG, naTabela 2 estas aparecem como as mais similares àimagem de busca 1.Após a aplicação do G-Gold as posições derecuperação das imagens similares, ou seja, da mesmaclasse, são significativamente melhoradas. Por exemplo,para cada imagem query, o resultado de recuperação das 7imagens da mesma classe seria 100% se em cada linha daTabela 2 as posições das imagens após o G-Gold fossemsempre (1, 2, 3, 4, 5, 6, 7).Tabela 1: Comparação das posições das imagens antesdo G-GoldImagemQueryPosição das imagens antes do G-Gold1 1 18 267 343 471 769 8142 1 172 238 516 568 687 8183 1 60 79 450 473 513 7824 1 154 384 405 477 547 7725 1 138 337 464 507 750 7606 1 337 99 703 767 373 3927 1 394 303 725 46 554 6958 1 14 339 345 449 482 714: : : : : : : :833 1 51 56 147 299 437 815Tabela 2: Comparação das posições das imagens apóso G-GoldImagemQueryPosição das imagens após o G-Gold1 1 2 3 4 5 6 72 1 2 3 4 5 6 73 1 2 4 5 6 7 214 1 2 3 4 5 7 715 1 2 3 4 5 6 76 1 2 5 6 7 21 587 1 2 3 4 5 7 568 1 3 4 5 6 7 72: : : : : : : :833 1 2 3 4 5 6 7Para melhor analisar os resultados obtidos peloalgoritmo G-Gold foram montadas as Matrizes deConfusão, onde em cada linha é mostrada a percentagemde recuperação correta para cada imagem e a confusãoentre classes, tendo assim através da média da diagonalprincipal da matriz a precisão de recuperação, ou deidentificação correta dos indivíduos.A média de recuperação antes foi de 24,2% e após aaplicação do Algoritmo G-Gold houve uma considerávelmelhora, atingindo 83,1% de recuperações corretas.Para avaliar graficamente a eficiência da metodologiaforam construídas as curvas de Recall x Precision. Afigura 14 mostra este resultado considerando-se a buscada imagem query para todas as outras imagens do banco,antes e depois da aplicação do AG no cromossomogerado:Figura 14: Recall x Precision - Antes do AG e G-GoldPara validar a eficiência do algoritmo G-Gold, seusresultados são comparados a identificação através dePrincipal Component Analysis (PCA), uma metodologiaamplamente utilizada na área de reconhecimento de faces,como mostram os trabalhos de Yang (2000), Lee (2005) eAndrade (2003).Como o PCA é bastante sensível a iluminação nasimagens por tratar a informação diretamente do valor dopixel, o método G-Gold superou PCA. Utilizando-se aDistância Euclidiana, como métrica de similaridade natécnica PCA a precisão foi de 80,5% e com G-Gold arecuperação média foi de 83,1%.224


Voltar ao sumárioA figura 15 mostra as curvas de Recall x Precisioncom os resultados obtidos:áreas de Computação Evolutiva em Visão Computacional,mostrando uma nova abordagem para a identificação depessoas.AgradecimentosOs autores agradecem à FAPESP – Fundação de Amparoà Pesquisa do Estado de São Paulo, pelo suportefinanceiro à realização deste trabalho.Figura 15: Recall x Precision - Antes do AG, G-Gold ePCAA vantagem do algoritmo G-Gold pode ser observadadiretamente no gráfico, demonstrando que o métodoproposto é robusto para identificar pessoas através da facecom gestos e variação de iluminação.11. ConclusõesAs faces humanas são proporcionais e o número deouro ou razão áurea, utilizada há muitos séculos porpintores e escultores, está presente como característicaconstituinte destas proporções.A quantidade de proporções áureas detectáveis emimagens digitais de faces humanas pode variar de pessoapara pessoa, mas este número mantém-seaproximadamente constante entre imagens da mesmapessoa independente de gestos faciais ou variação dailuminação. Inspirada biologicamente, a metodologiaproposta nesta dissertação denominada de G-Gold, geroucromossomos característicos com genes que representou onúmero de razões áureas existentes em cada uma das dezregiões pré-definidas da face. A definição dessas regiõesprocurou manter locais com importância para oreconhecimento como os olhos, o nariz, a boca, assobrancelhas e o contorno do rosto. Através de técnicasevolutivas de Algoritmos Genéticos o G-Gold gerourecuperação das imagens em uma base com variação nosgestos faciais e variação na iluminação das imagens. Osresultados obtidos em uma população de 119 indivíduosou classes com 7 imagens por classe demonstraram arobustez do G-Gold.Os resultados obtidos nesta Base de 833 imagensdemonstraram que o G-Gold é superior ao PCA emsituações mais próximas da realidade, onde a iluminaçãoda face é mais difícil de ser controlada.Com base nos resultados apresentados é possívelconcluir que esse artigo originou contribuições para asReferências[1] SUNG, K.-K.; POGGIO, T. (1998). “Example-BasedLearning for View-Based Human Face Detection”, IEEETransactions on Pattern Analysis and MachineIntelligence, vol.20, no.1, pp.39-51.[2] DANTAS, G. F. L. (2003). Sistemas Biométricos deIdentificação pela Imagem Facial. Inwww.logicengenharia.com.br/mcamara/alunos/Biometria.pdf. Acesso em: 14 nov. 2006.[3] HOLLAND, J. H. (1975) .Adaptation in Natural andArtificial Systems. University of Michigan Press, AnnArbor.[4] GOLDBERG, D.E. (1989). Genetic Algorithms inSearch, Optimization, an Learning. Addison-Wesley,USA.[5] MILARÉ, C. R. (2003). Extração de conhecimento deredes neurais artificiais utilizando sistemas deaprendizado simbólico e algoritmos genéticos. Tese(Doutorado). Instituto de Ciências Matemáticas e deComputação, Universidade de São Paulo, 2003.[6] POZO, A.; CAVALHEIRO, A. F.; ISHIDA, C.;SPINOSA, E.; RODRIGUES, E. M. (2005). ComputaçãoEvolutiva. Grupo de Pesquisas em ComputaçãoEvolutiva. Departamento de Informática. UniversidadeFederal do Paraná.[7] DEB, K. (2001). Multi-Objective Using EvolutionaryAlgorithms. John Wiley & Sons, Ltd, 2001.[8] SILVA, E.S. (2001). Otimização de Estruturas deConcreto Armado Utilizando Algoritmos Genéticos.Dissertação (Mestrado). Escola Politécnica daUniversidade de São Paulo.[9] MARTINEZ, A. M.; BENAVENTE, R. The AR FaceDatabase, CVC Technical Report no. 24, June 1998.[10] PRADO, J. L. (2004). Investigação Biométrica emImagens Digitais para Detecção de Faces Humanasatravés de Proporção Divina. Dissertação (Mestrado).Escola de Engenharia de São Carlos. Universidade de SãoPaulo.[11] BARISON, M. B. (2005). Proporção Áurea emDesenho Geométrico e Arquitetura. Geométrica vol.1n.4ª.225


Voltar ao sumárioImplementação de um Sistema de Visão Estéreo e Triangulação como Técnicapara Determinação de Distância.Renato Quarentei Gardiman, Ivando Severino Diniz, Robinson Franklin Bruginski.Unesp – Universidade Estadual Paulista – Campus Sorocaba{renatorqg@gmail.com , ivando@sorocaba.unesp.br , bruginski@gmail.com }AbstractThis paper presents a low cost prototype with twocameras, a card capture installed in a personal computerfor acquisition of images from the two cams and a controlcard for servomotors. This system has a software withimage recognition algorithm and sends the controlsignals via serial port. It also gets depth fromtriangulation of the two cams and the target.ResumoEste artigo apresenta um protótipo de baixo custoequipado com duas câmeras, uma placa de captura devídeo para aquisição da imagem para processamento emum computador pessoal e uma placa de controle paraservomotores. O software reconhece objetos e determinasua distância por triangulação.1. IntroduçãoA visão é o sentido que nós humanos mais usamos, pormeio dela recebemos uma quantidade enorme deinformação a respeito do ambiente que nos possibilitauma interação rica e inteligente dentro de um espaçodinâmico [1]. Portanto, um grande esforço é realizadopara prover às máquinas a habilidade da visão humana.Pode-se definir visão computacional como sendo umconjunto de algoritmos através dos quais sistemasbaseados em computadores podem extrair informaçõesdos pixels que compõem a imagem [2].Trabalhos envolvendo veículos autônomos promovidospelo DARPA (Defense Advanced Research ProjectsAgency) no evento chamado Gran Challenge cujoobjetivo é fomentar o desenvolvimento de veículoscapazes de respeitar as regras de trânsito interagindo comoutros carros além de realizarem tarefas específicas comoestacionar em uma vaga. Tais projetos fazem uso dediversos sensores inclusive sistemas de visãoestereoscópicos.Este artigo apresenta um protótipo de baixo custo quepossui duas câmeras, uma placa de captura instalada emum computador pessoal para aquisição das imagens e umaplaca de controle de servomotores, que são integradoscom um software de reconhecimento de imagens quetambém envia comandos para placa de controle dos servosvia porta serial.2. Idealização do SistemaA princípio objetivou-se a construção de um protótipocom materiais módicos. Desenvolveu-se uma estruturamecânica cujo objetivo é abrigar os servos e as câmeras eainda possuir uma parte móvel para realizar osmovimentos. Com relação à parte elétrica e eletrônica decontrole para facilitar os testes e baratear o projeto foiescolhida uma arquitetura de controle não embarcada,facilitando principalmente a visualização das imagenscapturadas, o que não seria possível com um processadorembarcado para tratar as imagens.2.1. Arquitetura do sistema.O sistema é formado por basicamente três módulos: ocomputador pessoal, o módulo de controle dos servos e aparte mecânica com os atuadores e sensores. Essescomponentes são integrados por conexões ilustradas naFigura 1.3. Software e hardware no PCA linguagem de programação utilizada foi C, com ocompilador Lcc-win32, que é livre para usos nãocomerciais [4]. Utilizando API. (Aplication ProgramingInterface) do Windows.Através das funções do API do Windows e tambémdas funções contidas no arquivo de cabeçalho “vfw.h”(Video for Windows) e um driver do dispositivocompatível com o Windows Driver Model – WDM, a226


Voltar ao sumárioalocação de um ponteiro que varre uma matriz RGB érealizada.O software é visual e apresenta-se em uma grandejanela contendo a imagem de uma câmera, alguns botões ealgumas caixas de texto usadas para depurar o programadurante o desenvolvimento, os quais podem ser vistos naFigura 2.Na janela principal tem-se 6 (seis) botões do tipo pushbuttone suas funções serão descritas a seguir:• V1 – Mostra a visão da câmera DIREITA• V2 – Mostra a visão da câmera ESQUERDA• DEBUGGER – Usado durante a depuração doprograma, sem função específica• SERIAL – Inicializa a porta serial• FR – Volta os servos para posição inicial• CORE – Liga a funcionalidade Estérea3.1. Sistema de visão.Para determinar o centro do objeto procurado, utilizouseum conjunto de funções reunidas em uma bibliotecachamada libcoreblob, essas funções buscam a imagem porum pixel que esteja dentro de um intervalo previamenteestabelecido e fazem a expansão da área para encontrar oobjeto inteiro, determinando a sua massa e o seu centro.Com a informação da posição do pixel do centro doobjeto, extrai-se um erro (em pixels) com relação aocentro da imagem e a esse erro é associado um ganhoproporcional e integral para determinar a saída que seráenviada para o servo. Dessa forma programou-se umcontrolador PI (Proporcional e Integrador) para manter oalvo no centro da imagem e com a triangulação, extrair ainformação de distância.A Figura 3 ilustra o método como são mensurados oserros na horizontal e na vertical respectivamente “erro x”e “erro y”. Assim, para cada um existe uma malha decontrole PI para atribuir seus sinais de controle para aposição dos servomotores. Na vertical os erros sãosomados e tira-se a média, pois as duas câmeras estãodentro da mesma caixa e sujeitas ao mesmo movimento. Aseguir tem-se a forma geral do controlador discretoproporcional e integral [5] utilizada no programa. α β (1) Partindo da idéia de que as câmeras com controladorPI estão sempre apontadas para o centro do alvo, utilizouseo conceito de triangulação para determinar a distânciado objeto em questão.3.2. Determinação da distância por triangulação.Muito utilizada em topografia, baseia-se na Lei dosSenos, que permite inferir os lados do triângulo, quandose tem o valor de um dos lados, e o valor de dois ângulosdo triângulo, a Figura 4 ilustra um triângulo genérico.Analogamente, este triângulo pode servir de modelopara um objeto que se encontre no ponto A e as duascâmeras nos pontos B e C, assim a distância representadapor “L” é a distância do alvo até a linha de base dascâmeras e pode ser determinada aplicando-se a Lei dosSenos ao sistema. O ângulo do ponto C e B podem ser227


Voltar ao sumárioinferidos a partir da variável de posição do servo. Duasequações são usadas para determinar a distância L(2)(3)Onde no caso do sistema, L seria a distância do objetoe c seria a distância entre o ponto B e A que analogamenterepresenta a distância do alvo à própria câmera direita.3.3. Especificações do PC.O sistema computacional adotado foi uma plataformaPC Sempron 2800+ com 768 MB de memória RAM, umaplaca de vídeo off-board AGP GeForce4 440 MX com 64MB de memória dedicada e com sistema operacionalWindows XP Professional SP2.3.4. Placa de captura e driver.Seguindo o objetivo de baixo custo, optou-se pelaplaca modelo Pico2000 para fazer a captura da imagem, aqual pode ser vista na Figura 5. Esta placa possui 4(quatro) entradas de sinal NTSC/PAL e é inserida nosistema computacional pelo slot de expansão PCI.Na seqüência, encontrou-se dificuldade de selecionar aentrada de vídeo da placa de captura, pois o drivergenérico não dava suporte específico a uma placa de 4(quatro) entradas. Para solucionar esse problema utilizousede uma ferramenta que lê e altera um valor de memóriadentro da região de endereçamento do barramento PCI.Utilizando um software chamado RW-Everything [7] foipossível identificar qual posição de memória eraresponsável pela seleção da entrada de vídeo.De posse dessa informação foi necessário acrescentaruma biblioteca chamada Tvicport que pertence a um kit dedesenvolvimento para acesso direto a portas de I/O emaplicativos Win32 , da empresa EnTech Taiwan. Esse kit,que também é gratuito para fins não comerciais, inclui umsuporte transparente fornecendo aos programadoresmétodos padrão para acesso em tempo real a portas ememórias mapeadas ou como foi o caso aqui, acesso aregião da memória restrita - sem requerer que se escrevaum dispositivo virtual personalizado ou um driver nomodo kernel 1 .A comunicação serial é realizada por um conjunto debasicamente 3 (três) funções: inicializa, envia e a finaliza.Além das funções, existem também os parâmetros daporta serial que devem ser configurados para que funcionecorretamente, dentre eles destacam-se a taxa detransferência (BaudRate), a paridade (Parity), bit deparada (StopBit) e o tamanho em bits do caractere(ByteSize).4. Módulo de controle dos servomotoresO controle dos servos é realizado ao enviar pela portaserial um conjunto de caracteres que define qual o servo ea posição final do movimento.O Sinal de controle dos servomotores é gerado poruma placa da marca Linxmotion modelo SSC-32 ServoController, a qual se pode ver na Figura 6.A placa de vídeo Pico2000 foi desenvolvidaespecificamente para gerenciamento de câmeras decircuito fechado de televisão comumente utilizado emsegurança. Assim sendo o driver de dispositivo que vemcom o fabricante não tem suporte ao WDM. Por isso foinecessário utilizar um driver genérico de código aberto[6], desenvolvido para o controlador CONEXANTFUSION BT878A que é empregado na placa Pico2000.1 Kernel – Núcleo do Sistema Operacional228


Voltar ao sumárioDentre os principais atributos da placa, destacam-se:• Baseada no microcontrolador da AtmelATMEGA168-20PU trabalhando a 14,75MHz;• Interface de porta serial RS-232;• Pode controlar até 32 servos;• Tem 4 (quatro) entradas analógicas ou digitais;• Range do servo 180º;• Resolução de 1µs;• Distribuição da alimentação dos servomotores.5. Estrutura mecânica do protótipoCom o fito de usar materiais econômicos escolheu-se amadeira como material estrutural. Um modelo foielaborado no software SolidEdge V16 e pode ser visto naFigura 7, para documentar o protótipo, suas partes e suasmedidas, além de servir como referência para o trabalhodo marceneiro. A Figura 8 mostra a estrutura mecânicafeita de madeira 6. ResultadosA metodologia usada para verificar o desempenho doprotótipo para aferir distâncias baseou-se em colocar os 3(três) alvos diferentes, apresentados na Figura 9, emposições pré-determinadas com auxílio de uma trenacomo pode ser visto na Figura 10.Estruturalmente o protótipo é formado por duas peças,sendo uma delas a caixa onde se abrigam as câmeras e aoutra o suporte para essa caixa com os rolamentos paradar liberdade ao movimentoNa parte dos atuadores foram usados servomotores damarca MotorTech, que são fabricados paraposicionamento de antenas parabólicas. Já no caso dossensores da visão foram empregadas câmeras do modelo208C com sensor CMOS colorido com sinal de saídaNTSC. A seguir a Figura 8 traz a imagem do protótipomontado.229


Voltar ao sumárioa até 30 centímetros, apesar de outros alvos apresentaremresultados ligeiramente diferentes.Ademais, o projeto foi construído a um baixo custoeconômico, pois chegou ao final com um custo de 400(quatrocentos) reais, tendo assim um grande potencialpara se transformar em um Kit de Desenvolvimento deEnsino e Pesquisas em Visão Computacional.8. AgradecimentosOs autores externam seus agradecimentos a UNESP –Universidade Estadual Paulista, Campus Sorocabaprincipalmente aos docentes que fizeram parte da BancaExaminadora, Prof. Dr. Alexandre da Silva Simões eespecialmente o Prof. Dr. Antonio Cesar GermanoMartins.Foi programado um botão para armazenar em umavariável de várias posições as leituras realizadas pelo 9. Referênciaspróprio software e disponibilizá-las em duas caixas detexto respectivamente relacionadas à distância e a massa 2 . [1] SIEGWART, R. e NOURBAKHSH, I., Introduction toAutonomous Mobile Robots. MIT Press. Cambridge, 2004.Dessa caixa de texto as leituras foram transferidas para oCapítulo 4programa Excel da Microsoft.Assim, para cada variação de posição testada, uma [2] BERTHOLD, H. – Robot Vision, MIT Press. Cambridge,série de leituras fora coletada e transportada para o Excel,cada série foi extraída uma média e finalmente transcritas [3] GARDIMAN, R. Q. – Visão Estéreo: Implementação depara o gráfico, que pode ser visto a seguir.um Protótipo. 50f. Trabalho de Graduação (Bacharel emEngenharia de Controle e Automação), UNESP – UniversidadeEstadual Paulista – Campus Sorocaba, 2008.[4] NAVIA, J. – Lcc-Win32: A compiler sistem for Windows,disponível em Acessoem 20 de janeiro de 2008.[5] DIENE, O., BHAYA, A., - “Métodos iterativos linearesprojetados através da teoria de controle e suas aplicações”,Sba Controle & Automação vol.17 no.3 Campinas July/Sept.2006[6] TAGLE, E. J. WDM bt848/bt878 video adquisition driver.Disponível Acesso em 25 de janeiro de 2008.[7] CHAN, J. RW – Read Write Utility – v0.30. Disponível em7. Conclusões Acesso em 29 dejaneiro de 2008.Ao final observou-se que o protótipo idealizado éfuncional e satisfatório como plataforma de estudo para [8] ANTHONY, R., CHARLES, R., ILLAH NOURBAKHSH –visão estéreo, possibilitando a aplicação de outras técnicasA Low Cost Embedded Color Vision System. – In:Proceedings of IIROS2002.de visão computacional como trabalhos futuros.Os resultados obtidos com os testes mostram que emcertas condições o protótipo apresenta um desempenhosatisfatório, como foi o caso do Alvo 1 em distâncias de 62 Nesse caso a massa é a área do alvo identificado pelo software230


Voltar ao sumárioInspeção Visual de Placas de Circuito Integrado com Alta Densidade deMicrocomponentesFelipe Gomes de Oliveira e José Luiz de Souza Pio.Departamento de Ciência da Computação/ICE – Universidade Federal do Amazonasfgo@dcc.ufam.edu.br – josepio@dcc.ufam.edu.brAbstractThis work presents a visual inspection approach todetect absence/presence of surface mount components(SMC) on printed circuit boards (PCB). We propose amethodology based on Bayesian Statistics to detectcomponent absence, with more quality and precision,using noised digital images acquired directly fromPCB industrial production line. The applicability ofmethod was tested for automatic visual inspection inmotherboards, where the demand of these componentsis high. The results obtained demonstrates therobustness of our methodology in images with highlevels of gaussian and salt and pepper noise, where alltested cases of component absence are detected.Key-words: Industrial Inspection, Computer Vision,Bayesian Statistics.1. IntroduçãoNa economia atual as indústrias visam àcompetitividade. Mas para alcançar tal competitividadeé de grande importância que as indústrias possamassegurar o aumento da produtividade com a garantiade qualidade de seus produtos [3].A principal maneira de se garantir competitividade comqualidade é dispor de um processo de inspeção quegaranta um controle de qualidade rigoroso,apresentando um mínimo de erros sobre um máximo deprodução. A automatização do sistema de inspeçãoelevaria os níveis de qualidade da indústria de modoimpossível de se conseguir sem a automatização. Sendoos seus resultados almejados por qualquer empresa quebusque competitividade, tais como:• Redução de desperdícios;• Aumento da lucratividade;• Melhoria da qualidade dos produtos finais.A inspeção visual convencional, feita por um operadorhumano treinado, é efetiva para 80% a 90% dos casosinspecionados e após meia hora de trabalho apresentamum decaimento da acuidade visual para um únicodefeito.Melhorias no controle de qualidade têm sidoalcançadas por meio da inspeção automática com usodas tecnologias de visão de máquina [8]. Tendo aautomatização do processo de inspeção de placas decircuito impresso se mostrado uma maneira eficiente decontrole de qualidade, uma vez que garante a inspeçãode 100% do volume produzido, não tem interrupção,não diminui a velocidade da linha de produção,mantém o fluxo de produção consistente e o volumeinspecionado aumenta consideravelmente [8, 12].Nesse contexto, este trabalho aborda o problema dedetecção da ausência (ou da presença) demicrocomponentes de superfícies (SMC) emdispositivos que utilizam a tecnologia SMD, como asplacas mãe de computadores pessoais.O objetivo principal é o desenvolvimento de umaabordagem para a identificação de microcomponentes,garantindo assim a velocidade, precisão e flexibilidadedo controle de qualidade com competitividade dosprodutos da empresa.Este texto está organizado em seis seções. A seçãoseguinte descreve os sistemas de inspeção visualautomática e suas aplicações no contexto destetrabalho. A Seção 3 oferece uma visão geral do estadoda arte por meio dos principais trabalhos relacionadoscom a inspeção de componentes eletrônicos. Ametodologia desenvolvida é mostrada na Seção 4. Aseção 5 mostra os resultados experimentais e, por fim,na Seção 6 são apresentadas as conclusões destetrabalho.2. Inspeção Visual Automática em Placasde Circuito IntegradoEm placas de circuito impresso os componentes demontagem em superfície são pequenos e encontram-sedensamente agrupados em posições específicas dasplacas de circuito impresso, tornando-se alvo freqüentede defeitos oriundos do processo de InserçãoAutomática. Sendo assim a automatização do processo231


Voltar ao sumáriode inspeção de placas de circuito impresso surge comomelhoria para o controle de qualidade das empresas.Os sistemas de inspeção automatizada com Visão deMáquina atuam sobre os processos de manufatura pormeio de câmeras especiais que capturam as imagensdiretamente da linha de montagem, mesmo em esteirasque trabalham em altas velocidades. Estas imagens sãodigitalizadas em tempo real. Programas de computadorespecificamente projetados analisam as imagens embusca de defeitos, irregularidades e efetuam mediçõesprecisas sobre os objetos visualizados pela câmera.Baseando-se em sua análise, esses programas sãocapazes de tomar decisões acerca de cada peça ouproduto analisado. Estas decisões permitem aimplementação de ações corretivas, que poderão sermanuais ou automatizadas.A Figura 1 ilustra um exemplo típico de linha deprodução industrial com inspeção automática por meiode Visão de Máquina apresentando um controle decâmera conectado a um computador que realiza oprocessamento das imagens.Figura 1 – Linha de produção manufaturada cominspeção automatizada por meio de um sistema devisão de máquina [12].Figura 2 – Segmento de placa de circuito impressoapresentando ausência de microcomponentes.A Figura 2 mostra um segmento de uma placa mãe decomputador apresentando componentes ausentes quesão indicados pelas setas.Neste trabalho é desenvolvida uma abordagem para adetecção da ausência/presença de microcomponentes(SMC) em placas de circuito impresso. Pois a ausênciade componentes é uma das principais causas de falhasnas placas de circuito impresso ao saírem dos fornos deinserção das modernas linhas de produção.A literatura científica é muito rica em exemplos desistemas de inspeção visual para placas de circuitoimpresso [4,7,10]. A maior parte desses trabalhostratam problemas relativos a identificação de trilhas desoldas ou a identificação de componentes malposicionados. A seção seguinte destaca os trabalhosrelacionados com a identificação da ausência decomponentes e oferece uma visão geral do estado daarte.3. Trabalhos RelacionadosUm dos primeiros trabalhos com trilhas de solda emplacas de circuito impresso, foi o desenvolvido porBorba e Facon [2]. Os autores desenvolveram ummétodo de inspeção que mesmo sem prévioconhecimento da placa e sem um padrão de referência,detecta a falta ou excesso de cobre. Para apadronização de defeitos eles usaram três regras deinspeção. Segundo os autores, a imagem em escala decinza não é a melhor solução, por isso usaram oconceito de binarização da imagem. Desde que a escalade cinza da imagem tenha uma boa resolução a imagembinarizada é satisfatória e se houver algum ruído é fácila sua eliminação com filtros. O sistema de captação daimagem em escala de cinza utilizado é composto poruma caixa com uma fonte interna de luz e uma câmeracaptando a imagem. Nesta configuração a câmera nãocria sombras e não existem reflexos e todas as partesmais importantes da placa podem ser capturadas comuma boa resolução de escala de cinza. Como aabordagem é feita em uma placa nua e semcomponentes não temos nenhuma evidência de como secomportaria este sistema para detectar ausência oupresença de componentes, uma vez, que o sistema deinspeção não utiliza um template para fazer umacomparação com a imagem de teste captada.O sistema desenvolvido por Acciani e Brunetti [1]baseia-se em um Sistema de Inspeção Visual queutiliza rede neural com a finalidade de detectar defeitosencontrados nos terminais de solda nas placas decircuito integrado. As imagens das placas de testes sãocapturadas e processadas para extrair a região deinteresse do diagnóstico. Três tipos de vetores decaracterísticas são avaliados em cada região que são a232


Voltar ao sumárioexploração das propriedades da onda, as característicasgeométricas e o pré-processamento das imagens.O trabalho de Du e Dickerson [4] apresenta um sistemade inspeção automática para componentes passivos,para localizar componentes, medir seu tamanho e suaspropriedades, suas bordas e detectar defeitos nasuperfície em ambos os lados. Os autores utilizam umalgoritmo para detectar as bordas e os cantos. Por meioda segmentação da imagem, extrai-se e calculam-se ascaracterísticas do componente, como largura, tamanho,localização, orientação, etc., e com estas informaçõesidentifica defeitos, como componentes deslocados,pontos de ruptura na solda, mau contato na superfície.Essa técnica de inspeção não aborda informaçõesquanto à ausência ou presença de componentes, pois naabordagem que é feita, cita a localização docomponente como uma das características deidentificação de defeitos.A pesquisa de Mostafa e Hwang [11] propuseram umsistema de inspeção para medir as característicaselétricas de uma PCB em um ambiente de manufaturaindustrial. Para os autores, este sistema de inspeçãopode atuar on-line, substituindo a pessoa queinspeciona e sendo de fácil adaptação em quaisqueroutros sistemas manufaturados. O sistemadesenvolvido é baseado no microcontrolador 8031 de 8bits e é dividido em cinco partes a saber: placa decircuito impresso, aquisição de dados, barramento deinterface, mesa de microswitch e ponta de contatos.Dois robôs são usados para auxiliar no processo. Oprimeiro deles pega a placa já montada na mesadenominada microswitch e coloca na esteira. Osegundo é responsável para fazer as medidas dascaracterísticas elétricas da placa na estação de medição.Como o sistema usa robôs para auxiliar na inspeção dasplacas, o custo para implementar este sistema érelativamente alto.Sandra et all. [13] desenvolveu um sistemaautomático de inspeção de terminais de solda nos furosem PCB. Duas aproximações são utilizadas, oreconhecimento de teste padrão estatístico e umaaproximação baseada em conhecimento. Um métodoobjetivo de redução de dimensionalidade é usado pararealçar o desempenho de aproximações estatísticastradicionais de reconhecimento de teste padrão,gerando pesos característicos e reduzindo o tempocomputacional. O sistema é inteligente e utilizacaracterísticas bem análogas as que são utilizadas pelosinspetores na inspeção visual para classificação dedefeitos. Segundo os autores, estas duas aproximaçõescomparadas com o desempenho de inspetores humanossão bem favoráveis.A próxima seção apresenta a metodologia desenvolvidapara a realização da detecção automática demicrocomponentes em placas de circuito impresso.4. MetodologiaA Metodologia utilizada neste trabalho é decompostaem três etapas principais, que podem ser observadasFigura 2. As etapas são:1. Aquisição das Imagens.2. Pré-Processamento das Imagens.3. Classificação Probabilística da presença/ausência decomponentes.Figura 3 – Esquematização da metodologia adotada.4.1. Aquisição das ImagensEsse processo consiste na captura de uma imagemcolorida de uma placa de referência e sequencialmentena captura das imagens das placas de teste por meio deuma câmera digital, transferindo então as mesmas paraum computador. A imagem de referência tem um papelfundamental no processo. Sobre esta imagem serárealizado o processamento de casamento entre asimagens com a finalidade de encontrar semelhançasentre os componentes das placas de teste e da placa dereferência.4.2. Pré-Processamento das ImagensEsta etapa pode ser subdividida em procedimentosmenores que são:• Conversão das Imagens: As imagens coloridascapturadas contidas no computador são convertidaspara escala de cinza.• Alinhamento das Imagens: O alinhamento deimagens pode ser definido como sendo ummapeamento entre as duas imagens de forma queessas diferenças sejam minimizadas. As imagens daplaca de referência e da placa teste são alinhadas demodo automático, a fim de solucionar um problemamuito comum nas esteiras, que são as mudançassúbitas que ocorrem no processo de captação.233


Voltar ao sumário• Binarização das Imagens: O processo de binarizaçãoé utilizado, pois segundo [6] o meio mais óbvio dedistinguir objetos do fundo é por meio da seleção deum limiar que separe os dois grupos.• Casamento de Padrões: Neste procedimento sãofeitas comparações entre os componentes das placasde referência e de teste e a máscara binária. Amáscara binária consiste em uma imagem de umcomponente ausente com área hipoteticamenteperfeita, como pode ser observado na Figura 4.Figura 4 – Máscara binária de um componente ausente[5].As comparações entre os componentes e a máscarabinária ocorrem por meio de uma operação lógica and,podendo ser observado na Figura 5.Figura 5 – Operação lógica and entre um componente ea máscara binária, para a extração de ruídos adquiridosna captura da imagem [5].4.3. Classificação Probabilística da presença/ausência de componentes.O processo de decisão do algoritmo baseia-se em ummétodo estatístico de aprendizagem bastanteconsolidado na literatura, a Aprendizagem Bayesiana.A Aprendizagem Bayesiana calcula a probabilidade decada hipótese, considerando os dados, e faz previsõesde acordo com ela. Isto é, as previsões são feitas com ouso de todas as hipóteses, ponderadas por suasprobabilidades, em vez de utilizar apenas uma única“melhor” hipótese. Desse modo, a aprendizagem éreduzida à inferência probabilística. Seja X arepresentação de todos os dados, com valor observadox; então, a probabilidade de cada hipótese é obtida peloteorema de Bayes, expresso abaixo:P(Wi| x) = [P(x| Wi).P(Wi)] / P(x), (1)onde2P(x) = ∑ P(x| Wi). P(Wi). (2)i=1Nessa abordagem do teorema de Bayes sãoconsideradas as seguintes hipóteses:• W 1 é a hipótese denominada componente (presença).• W 2 é a hipótese denominada almofada (ausência).Sendo P(W 1 ) definida como a razão entre D1/(D1+D2)e P(W 2 ) definida como a razão entre D2/(D1+D2), ondeD1 é a diferença do número de pixels brancos docomponente da placa referência pelo número de pixelsbrancos da máscara binária e D2 é a diferença donúmero de pixels brancos do componente da placa testepelo número de pixels brancos da máscara binária.Estas são as probabilidade a priori das hipóteses W 1 eW 2 respectivamente.P(x) representa a freqüência com a qual encontramosdeterminada característica, onde considera-se x comoum vetor de características formado a partir do númerode pixels brancos extraídos de um componente daimagem.A probabilidade P(W 1 |x) representa a probabilidade queo componente da placa referência satisfaça a hipóteseW 1 dado a característica x. A probabilidade P(W 2 | x)representa a probabilidade que o componente da placateste satisfaça a hipótese W 2 dado a característica x [9].Utilizando o teorema de Bayes, queremos determinarqual a probabilidade do componente está na placa deteste dado que se sabe a priori que o componente estána placa referência. Em outras palavras, deseja-sedeterminar P(W 2 | x).Agora supondo que se queira fazer uma previsão sobreuma quantidade desconhecida N de componentes.Então temos a seguinte representação matemática daaprendizagem bayesiana:P(x) = ∑ P(N| Wi). P(Wi | x), (3)iOnde têm-se que, P(Wi | x) representa o valorresultante do teorema de Bayes para cada componentee P(N| Wi) consiste na representação do conhecimentoadquirido pelo método de aprendizagem a cadacomponente inspecionado.5. Resultados ExperimentaisOs experimentos realizados visaram mostrar aaplicabilidade da abordagem para a detecção daausência de componentes em placas mãe decomputadores pessoais. Para isso foram testadas 25placas com 300 componentes cada, com componentesausentes em diversas posições da placa. Com o ajustedos parâmetros de probabilidade, foi possível detectar234


Voltar ao sumáriotodas as ausências com a realização automática doprocesso de alinhamento de imagens, onde buscam-seas coordenadas dos vértices das placas, com afinalidade de encontrar pontos de controle que sejamcomuns tanto à imagem da placa de referência quantoàs imagens das placas de teste.Para avaliar a robustez do método, foram adicionadosruídos Gaussianos e “Salt and Pepper” à imagem, afim de simular ambientes com condições críticas para aaquisição das imagens e podendo assim verificar arobustez do método quanto a problemas reaisencontrados nas linhas de montagens das indústrias.Para a adição de ruído Gaussiano foram feitosexperimentos com a densidade de ruído iniciando de0.01 até 0.08, onde pôde-se observar o bomdesempenho do algoritmo, que reconheceu todas asausências da placa com densidade até 0.05.Para a inserção de ruídos “salt and pepper” o métododetectou todas as ausências iniciando de 0.01 até 0.30como pode ser observado na Figura 5.Figura 8 – Relação Detecção X Densidade de ruído Saltand Pepper, mostrando um bom desempenho mesmocom uma grande concentração de ruído.Na Figura 6 pode ser observada a grande perturbaçãosofrida pela imagem da placa inspecionada na inserçãode ruído “salt and pepper” com densidade 0.30(Pixel/U.A), constatando-se a grande complexidade daabordagem em detectar com boa precisão aausência/presença de microcomponentes em placas decircuito impresso.Figura 6 – Relação Detecção X Densidade de ruídoGaussiano, onde observa-se a eficiência da abordagematé a densidade 0.05.Na Figura 7 pode ser observada a grande concentraçãode ruído Gaussiano na imagem da placa inspecionada,com densidade 0.05 (Pixel/U.A), constatando-se a boaprecisão da abordagem em detectar a ausência/presençade microcomponentes em placas de circuito impresso.Figura 9 – Placa com densidade de 0.30 de ruído Saltand Pepper.6. ConclusõesFigura 7 – Placa altamente carregada de ruído,apresentando densidade de 0.05 de ruído Gaussiano.Este trabalho mostrou uma abordagem metodológicapara a detecção da ausência/presença demicrocomponentes em placas de circuito de SMD.Utilizou-se a Aprendizagem Bayesiana comoferramenta principal de decisão para a identificação depixels que pertençam ao corpo de um componente ouque faça parte do ruído adicionado pelo processo oudispositivo de captura da imagem. Um avançoimportante no trabalho foi a realização automática do235


Voltar ao sumárioalinhamento de imagens, minimizando a interferênciahumana no processo de inspeção. Também se destaca aidentificação precisa dos parâmetros para a aplicaçãoda Aprendizagem Bayesiana, que visa adquirirconhecimento sobre os componentes à medida que osinspeciona, garantindo assim resultados mais precisos econfiáveis.Para a avaliação da robustez e viabilidade dessemétodo foram realizados vários testes com a adição deruídos Gaussianos e “Salt and Pepper”, buscandoverificar a robustez da abordagem frente a uma grandeconcentração de ruído nas imagens.Os resultados obtidos garantem a viabilidade dautilização desta abordagem no processo de manufaturasde placas mãe. Os experimentos foram realizados emplacas reais obtidas diretamente da linha de produção.Utilizou-se como imagem de referência, uma placapadrão usual para comparação nas inspeções doControle de Qualidade de uma empresa de manufaturade placas mãe de computadores pessoais.Mesmo sendo as imagens submetidas a situaçõesextremas de ruído os resultados apresentaram-seaceitáveis dentro do limiar de separabilidade deprobabilidade utilizado, garantindo assim a viabilidadeda abordagem.A concretização do trabalho amplia consideravelmenteas possibilidades de aplicação da visão de máquina e daestatística Bayesiana para diversos outros tipos deinspeção industrial.Como trabalhos futuros pretende-se adequar ametodologia em ambientes de inspeção visual real eaprimorar o processo de aprendizagem Bayesiana,agregando mais informação as características doscomponentes e provendo ao sistema a detecçãoautomática das coordenadas de todos os componentespor meio da decomposição espacial da placa..AgradecimentosOs autores agradecem ao CNPq pelo apoio eincentivo dado ao projeto de pesquisa o qual estetrabalho é vinculado.Referências[1] ACCIANI, Giuseppe; Brunetti, Gioacchino eFornarelli, Girolamo. Application of Neural NetworksOptical Inspection and Classification of Solder Jointsin surface Mount Technology, 2006.[2] BORBA, J.F. e Facon, J. A PRINTED CIRCUITBOARD AUTOMATED INSPECTION SYSTEM,Anais do IEEE Midwest Symposium on Circuits andSystems, Rio de Janeiro, Brazil, pp. 69-72, Aug. 1996.[3] DA FONTOURA Costa, L. and Meriaudeau, F.Special Issue on Applied Visual Inspection, Journal ofApplied Signal Processing, N.7, páginas 647-648,julho, 2002.[4] DU, Winncy Y. e Dickerson, Stephen L. PassiveComponent Inspection Using Machine Vision, 1998.[5] GONÇALVES de Araújo, Wilson. DetecçãoAutomática de Componentes de Montagem emSuperfície sobre Placas de Circuito Impresso. 2008.Dissertação (Mestrado em Engenharia Elétrica) –Curso de Pós-Graduação em Engenharia Elétrica,Universidade Federal do Amazonas, Manaus.[6] GONZALEZ, Rafael C. e Woods, Richard E.Processamento de Imagens Digitais. Rio de Janeiro.EDITORA EDGARD BLUCHER, 2000.[7] HATA, S. Practical Visual Inspection Techniques:Optics, Micro-electronics and Advanced SoftwareTechnology. Anais da International Conference onPattern Recognition 2000, vol. IV, páginas 114-117.[8] SASAI, M. Inspection Technique for FlexibleManufacture. Electronic Packaging Technology, vol. 2,páginas 41-46, 1998.[9] MARINOVO Doro, Marcos. Sistemática paraImplantação da Garantia da Qualidade em EmpresasMontadoras de Placas de Circuito Impresso. 2004.Dissertação (Mestrado em Metrologia) – Programa dePós-Graduação em Metrologia Científica e Industrial,Universidade Federal de Santa Catarina, Florianópolis.[10] MARTINEZ, Valguima V. V. A. Odakura_;Campos, Geraldo Lino. Uma Técnica paraAlinhamento de Imagens de Documentos Antigos,2006.[11] MOSTAFA, Dulal G.M. e Hwang, Santai. Designof an Inspection System for Electrical Characteristicsof a PC Board”, 1993.[12] PIO, José Luiz de S. Visão de Máquina: umaintrodução aos sistemas deinspeção automatizada, UEA editoras, no prelo, 2007.[13] SANDRA, B.L. et all. Automatic Solder JointInspection. Ieee Transactions on Pattern Analysis andMachine Intelligence, Vol. 10. NO.1, JANUARY 1988.236


Voltar ao sumárioMetodologias para estimação da idade óssea utilizando a proporção divina com oauxílio da plataforma ANACARPC.J. Olivete, E. L. L. RodriguesUSP / Escola de Engenharia de São Carlos - Departamento de Engenharia Elétrica, São Carlos, SãoPaulo, Brasil{olivete, evandro}@sel.eesc.usp.brAbstractThis paper presents a bone age accompanimentsoftware – Anacarp. This software is formed by newsmethodology that work in simplified mode, producingresults exempt of the subjective human analyze for the bonegrowth accompaniment. This presents five manners of thebone age estimation. The first one is based on the areameasure of interest ossification centers. Others check thegrowth through the golden proportion among someossification centers measurements of the hand bones,producing one relation between the bone growths and thechronological age. Finishing was verified the bone growththrough the presence of the Fibonacci sequence inphalanges and metacarpals bones. There were used 640hand X-rays from children’s among six and sixteen yearsold. The results were analyzed using the t-Student testregarding the mean of the report medical obtained throughof classical methods (Eklof & Ringertz, Tanner &Whitehouse e Greulich & Pyle). The results obtainedarevery promising, getting high-rate of concordance with themedicals reports mean.1. IntroduçãoA estimativa da idade óssea é freqüentemente utilizadapara avaliar desordens no crescimento em pacientespediátricos, obtendo o quanto o seu crescimento evoluiuem relação à sua maturidade óssea [1]. Teoricamente essaestimativa pode ser obtida através da análise de qualquerosso do corpo humano, através de radiografias das regiõesde interesse. A mão, é a região mais comumente utilizadapois se trata de um local de fácil acesso e também por nãoconter órgãos vitais, podendo ser submetida a doses deradiação com uma maior freqüência. A idade cronológicanão é um bom indicador para avaliar o desenvolvimento e ocrescimento, pois existem diferenças relacionadas ao sexo,fatores genéticos, ambientais e nutricionais [2].Os métodos mais difundidos e utilizados para realizar aestimação da maturidade óssea através da análise carpal,apresentados no trabalho de Haiter, Almeida e Leite [3],são: Greulich & Pyle (G&P) [4], que faz uma avaliaçãoinspecional dos ossos da mão através de um Atlas; ométodo de Tanner & Whitehouse (T&W) [5], que analisa20 ossos da mão e punho atribuindo um escore específicopara cada osso e sexo, e através da soma desses escoresobtém-se a idade óssea; e o método Eklof & Ringertz(E&R) [6], o qual se baseia em medidas de 10 centros deossificação.O objetivo deste trabalho é apresentar novasmetodologias de acompanhamento da idade ósseabaseando-se em medidas de área, na proporção áurea e naseqüência de Fibonacci presente em determinados centrosde ossificação.A idéia de propor uma metodologia baseada em áreasurgiu devido aos métodos de estimativa se basear emmedidas de comprimento e/ou largura, padrões ou Atlas.Essa metodologia já está consolidada e, os resultadosalcançados foram excelentes. Mais detalhes, referentes àmetodologia e aos resultados obtidos, estão dispostos notrabalho de Olivete e Rodrigues [7,8,9]. Já, as metodologiasbaseadas em número de ouro foram propostas devido estaproporção estar presente na matemática, filosofia, arte e emalgumas partes do corpo. Essa proporção pode ser obtida apartir da divisão de um segmento de reta em média eextrema razão da seguinte forma: “ao se dividir uma reta demaneira assimétrica em duas porções desiguais, mantém-seuma proporção tal que, o segmento maior está para omenor assim como a soma de ambos está para o segmentomaior” [10,11,12,13] . Essa relação está expressa na Figura1.Figura 1. O segmento áureo [12]Essa proporção é encontrada em estruturas que estão emharmonia e equilíbrio funcional, como por exemplo: arazão entre a altura de uma pessoa e a distância do umbigoaos pés, entre outras. Tendo conhecimento que essaproporção está presente em partes do corpo humano,buscou-se analisar se através dela era possível realizar umacompanhamento do crescimento humano, verificando se ocrescimento ósseo está de acordo com a idade cronológica.237


Voltar ao sumário2. Metodologia2.1. Imagens utilizadas no estudoPara analisar o comportamento das metodologias,utilizou-se de imagens de radiografias da mão esquerda(Banco de Dados do Departamento de Engenharia Elétricada USP - São Carlos – www.carpal.eesc.usp.br), [14] depacientes do sexo masculino e feminino e com idades entre6 e 16 anos, juntamente com seus respectivos laudosmédicos, que foram obtidos utilizando os métodos de G&P,E&R, T&W. A Figura 2 mostra a distribuição das imagensde acordo com a idade óssea.A plataforma (ver Figura 3) é composta por cincometodologias, sendo elas: ER-3, N-Ouro-1, N-Ouro-2, N-Ouro-3, N-Ouro-4. A seguir, são apresentadasindividualmente cada uma das metodologias baseadas naproporção áurea, com exceção da ER-3, por se tratar deuma metodologia, que utiliza medidas de dimensões deárea para realizar o processo de estimação da idade óssea e,que já foi previamente apresentada em outros trabalhosdesenvolvidos por Olivete e Rodrigues [7,8,9].2.3. As razões analisadas no estudoAs metodologias desenvolvidas visam analisar ocrescimento ósseo do paciente tomando por base a análiseda presença da proporção áurea [5] nos ossos da mão, maisespecificamente os pertencentes às falanges e metacarpos.Esses ossos foram selecionados por fazerem parte doscentros de ossificação utilizados pelo método de E&R e jáestudados nos trabalhos realizados anteriormente [4,6]. AFigura 4 mostra os ossos (razões) utilizados durante abusca pelo número de ouro em cada metodologia.2.3.1. Metodologia N-Ouro-1Figura 2. Distribuição das imagens de acordo com a idadeóssea [14]Esta metodologia tem como objetivo verificar se ocrescimento ósseo do paciente está de acordo com a suaidade cronológica tomando por base a análise da presençada proporção áurea nos ossos da mão, maisespecificamente os pertencentes à terceira falange proximale terceira média (ver Figura 4a).2.2. Metodologias para acompanhamento docrescimento humanoFigura 3. Interface inicial da plataforma de estimação da idade óssea [7].238


Voltar ao sumário(a) (b) (c)(d)Figura 4. Proporção áurea utilizada pelas metodologias. (a): N-Ouro-1; (b): N-Ouro-2; (c): N-Ouro-3 e (d): N-Ouro-4.2.3.2. Metodologia N-Ouro-2Nesta metodologia, é verificada a existência de algumrelacionamento (proporção áurea) entre o comprimento daterceira falange proximal mais a terceira falange distal como comprimento do terceiro metacarpo, conforme ilustra aFigura 4b.2.3.3. Metodologia N-Ouro-3O acompanhamento do crescimento ósseo é buscadoatravés da presença do número de ouro entre a soma daterceira falange proximal mais a terceira falange média e asoma da terceira falange média mais a terceira falangedistal. Esses ossos podem ser vistos na Figura 4c.2.3.4. Metodologia N-Ouro-4Esta metodologia tem por objetivo verificar aexistência da seqüência de Fibonacci nos ossos da mão e,desta forma de analisar o crescimento ósseo. Foramutilizados em específico os ossos da terceira falangeproximal, média e distal. A análise desta proporção foi feitatomando como valores iniciais para a seqüência deFibonacci os comprimentos da terceira falange distal eterceira falange média (representadas por 2 e 3 na FiguraTabela 1. Análise da razão entre os fatores selecionados –terceira falange proximal e terceira falange média.4d). A falange proximal (representado pelo número 5 –Figura 4d) é estimada através da soma entre os dois termosanteriores (terceira falange distal e terceira falange média).A seguir, é mostrado como é feito o acompanhamento docrescimento ósseo através da proporção áurea.2.4. Verificando a presença da proporção áurea emcada razãoA fim de verificar se cada uma dessas razões presentesem N-Ouro-1, N-Ouro-2, N-Ouro-3 e N-Ouro-4 poderiamrepresentar o número áureo (1,618), aplicou-se o teste t deStudent, adotando-se 5% de significância. Por meio desteteste, para cada razão, o valor estimado correspondente àsfases de crescimento analisadas, foi comparado ao númerode ouro. Valores estimados que poderiam representar onúmero áureo, ficaram dentro da faixa de significância doteste (estes resultados são apresentados na coluna |A - B| daTabela 1).Para ilustrar a aplicação deste teste, utilizou das razõesapresentadas na metodologia N-Ouro-1 (ver parte dosresultados na Tabela 1). O mesmo teste foi conduzido paraas demais metodologias, não sendo mostrados neste artigopor falta de espaço.ImagemF1/F2(A)(F1+F2)/F1(B)F2/F1 |A - B|239


Voltar ao sumário1 1.6694 1.5990 0.5990 0.07042 1.6161 1.6188 0.6188 0.00273 1.6175 1.6182 0.6182 0.00074 1.6122 1.6203 0.6203 0.00805 1.6198 1.6173 0.6173 0.00256 1.7008 1.5879 0.5879 0.11297 1.6199 1.6173 0.6173 0.00258 1.7167 1.5825 0.5825 0.1342F1: Comprimento da terceira falange proximalF2: Comprimento da terceira falange média|A - B|: Diferença, em módulo, dos dois fatores quefornecem a proporção áureaOs valores em negrito (última coluna) indicamestimativas fora da faixa de significância (maior que0.05) do número áureo.Como pode ser visto na Tabela 1, os fatoresrepresentados pelas falanges proximais e médias (R1)apresentam a razão áurea (número de ouro) em grandeparte das imagens analisadas. Buscando a análise docrescimento humano, uma desordem pode ser notadaquando a diferença (em módulo), representado por |A - B|nas tabelas anteriores, fica fora da faixa de significância(5% utilizando o teste t de Student).O próximo item apresenta os resultados obtidos atravésde cada uma das metodologias quando aplicadas em umconjunto de imagens selecionadas da base de dados.Confrontação entre os laudos obtidos e a médiados laudos médicos - metodologia N-Ouro-13. ResultadosA fim de verificar se esta relação poderia ser aplicadana avaliação do crescimento ósseo, selecionou-se 150imagens do banco de imagens, sendo divididas entreindivíduos com o crescimento normal – quando o valor dolaudo médico coincidia com a idade cronológica, levandoem consideração um desvio padrão de 6 meses, para os decrescimento desordenado e para a base de imagens emgeral – sem fazer distinção quanto ao crescimento.A Figura 5 mostra a taxa de concordância para cadametodologia levando em consideração os valores doslaudos médicos obtidos através da média dos laudos (E&R,T&W e G&P).Analisando a Figura 5, verifica-se alta concordância daproporção áurea em todas as metodologias. A metodologiaque apresentou um melhor desempenho foi a de N-Ouro-1,alcançando 97.4% de concordância para os pacientes comcrescimento normal e 98.5% para os de crescimentodesordenado. Quando aplicada na amostra em geral, obteveuma concordância de aproximadamente 99%. Ametodologia que apresentou o pior desempenho foi a de N-Ouro-4, chegando a 90.3% de concordância no melhorcaso.Confrontação entre os laudos obtidos e a médiados laudos médicos - metodologia N-Ouro-2100.0%80.0%60.0%40.0%20.0%0.0%97.4%Normal98.5%98.7%2.6% 1.5% 1.3%DesordenadoTeste cegoAcertosErros(a)100.0%80.0%60.0%40.0%20.0%0.0%95.2%Normal96.7%98.0%4.8% 3.3% 2.0%DesordenadoTeste cegoAcertosErros(b)240


Voltar ao sumárioConfrontação entre os laudos obtidos e a médiados laudos médicos - metodologia N-Ouro-3Confrontação entre os laudos obtidos e a médiados laudos médicos - metodologia N-Ouro-4100.0%92.0%95.7%94.2%100.0%90.1%89.0%90.3%80.0%80.0%60.0%40.0%20.0%0.0%8.0% 4.3% 5.8%AcertosErros60.0%40.0%20.0%0.0%9.9% 11.0% 9.7%AcertosErrosNormalDesordenadoTeste cego(c)NormalDesordenadoTeste cego(d)Figura 5. Taxa de concordância para o acompanhamento da idade óssea utilizando as metodologias baseadas em proporção áurea. (a):metodologia N-Ouro-1; (b): N-Ouro-2; (c): N-Ouro-3 e (d) N-Ouro-44. DiscussõesCom os resultados expressos na Figura 5, pode-seconcluir que é possível analisar o crescimento de umapessoa, indicando se o crescimento está de acordo com asua idade, através da presença do número de ouro emdeterminados centros de ossificação pertencentes àsfalanges e metacarpos.5. Referências[1] NIEMEIJER, M. (2002). Automating Skeletal AgeAssessment, Master’s Thesis,University Utrecht.[2] HAITER, F.; KURITA, L. M.; CASANOVA, M. S. (2006);“Skeletal age assessment: A comparison of 3 methods”,American Journal of Orthodontics and Dentofacial Orthopedics,October, 2006.[3] HAITER N, F.; ALMEIDA, S. M. de; LEITE, C. C (2000).Comparative Study of the Greulich & Pyle and Tanner &Whitehouse. In: Pesquisa Odontol Bras, v. 14, n. 4, p. 378-384,out./dez. 2000.[4] GREULICH, W. W.; PYLE, S. I. (1992). RadiographicAtlas of Skeletetal Development of the Hand and Wrist. 2.ed.,Ed. University Press.[5] TANNER, J. M.; WHITEHOUSE, R. W.; HEALVY (1969).A New System for Estimating Skeletal Maturity from Hand andWrist, with Standarts Derived From a Study Of 2600 HealthyBritish Children, Departament of Growth and DevelopmentInstitute of Child Health, University of London; andDepartament of Statistics, Rothamsted Experimental Station,Harpenden.[6] EKLOF, O.; RINGERTZ, H. (1967). A method forassessment of skeletal maturity. Annals Radiology. vol. 10, pp330-336.[7] OLIVETE, C. J.; RODRIGUES, E. L. L. (2006). Anacarp:uma Ferramenta para estimativa da idade óssea voltada aodiagnóstico médico. In: XX Congresso Brasileiro de EngenhariaBiomédica, 2006, São Pedro-SP. XX Congresso Brasileiro deEngenharia Biomédica, p. 644-647, 2006[8] OLIVETE, C. J.; RODRIGUES, E. L. L. (2006). Softwareautomático para determinação da idade ossea baseado nasimplificação do Método de Eklof & Ringertz. RevistaBrasileira de Física Médica, 2006.[9] OLIVETE, C. J.; RODRIGUES, E. L. L. (2006), Estimadorda Idade Óssea via Análise Carpal/Anacarp - Software paraEstimação da Idade Óssea Baseado no Método de Eklof &Ringertz. In: VI Workshop on Medical Informatics(WIM´2005), 2006, Vila Velha - ES, 2006.[10] TORRES, R. (1970); “Crescimiento armonioso y la divinaproporcion”. Divulgação Cultural Odontológica, volume 162,páginas 3-13, Março./Abril, 1970.[11] BAKER, B.W.; WOODS, M.G. (2001); “The role of divineproportion in the esthetic improvement of patients undergoingcombined orthodontic/orthognatic surgic treatment”. Int J Adult241


Voltar ao sumárioOrthodon Orthognath Surg, volume 16, número 2, p. 108-20,2001.[12] Gil, C.T.L.A.; Medici-Filho, E. (2002); “Estudo daproporção áurea naarquitetura craniofacial de indivíduos adultoscom oclusão normal, a partir detelerradiografias axiais, frontais e laterais”. Ortodontia, p. 69-85,abril/junho, 2002.[13] Moraes, M. E. L. (1995) Verificação da assimetria bilateralde desenvolvimento por meio de radiografias de mão e punho,baseada na avaliação da idade óssea. São José dos Campos,1995. 58 p. Dissertação (Mestrado). Faculdade deOdontologia de São José dos Campos, Universidade EstadualPaulista Júlio de Mesquita Filho.[14] Banco de Dados de Imagens Carpais – EESC/USPdisponível em http://www.carpal.eesc.usp.br242


Voltar ao sumárioNLMAP - Localização e Navegação de Robôs Cooperativos paraInspeçãoEder Gonçalves, Emanuel Estrada, Gabriel Leivas, Silvia BotelhoAbstract— O uso de veículos autônomos para inspeção visualé um promissor campo da robótica. As imagens capturadasusadas para avaliar o meio inspecionado podem tambémauxiliar em sua localização/navegação. Nesse contexto, estetrabalho propõem o uso de técnicas de visão computacionalpara localização e mapeamento de robôs autônomos. Supondoo uso de câmeras de inspeção, nossa proposta é composta de doisestágios: i o uso de visão computacional através do algoritmoSIFT para extrair pontos característicos em uma seqüênciade imagens,capturadas por um robô de inspeção subterrâneade cabos elétricos, e ii o desenvolvimento de mapas topológicospara localização e navegação. A integração destas duas técnicaspermitirá ao sistema desenvolvido simultaneamente fazer alocalização e mapeamento do ambiente. Teste inicias com umprotótipo foram realizados, revelando como resultados uma boaprecisão e robustez para uma série de condições, iluminaçãoe ruído, mostrando ser uma técnica de SLAM promissora eoriginal.I. INTRODUÇÃOA utilização de tecnologias para exploração de ambientesnão estruturados desconhecidos e de difícil acesso paraexploração humana, como um ambiente de inspeção, faz comque robôs móveis remotamente controlados sejam cada vezmais usados. Assim sendo, o desenvolvimento de sistemasde inspeção visuais aplicados a veículos não tripuladosapresenta-se como uma interessante área de pesquisa.No seguinte artigo propõe-se uma nova abordagem paraextrair e mapear pontos característicos entre imagens consecutivasem um ambiente de inspeção. Usa-se Scale InvariantFeature Transform (SIFT), o qual é um método robustopara detecção de pontos característicos [12]. Além disso,estes pontos-característicos são utilizados como marcos nomapeamento topológico. Propõe-se o uso de mapas autoorganizáveisbaseados em mapas de Kohonen [11] e estruturasde células de crescimento (GCS - Growing CellStructures) [7] que permite a construção de mapas, mesmoem presença de informações ruidosas.Vários métodos de localização e mapeamento são baseadosem mosaicos [8], [10]. No entanto, a utilização do SIFTpara extrair características visuais e mapas topológicos nãofoi encontrada na literatura. Algumas abordagens usam SIFTpara SLAM visual indoor[15][16]. Estas abordagens utilizamo SIFT em um sistema estéreo visual para detecção demarcos visuais, juntamente com a odometria, utilizando filtrode Kalman. Tal proposta é validada a priori em ambientesconhecidos e estruturados.Todos os autores são do Curso de Engenharia de Computação daUniversidade Federal do Rio Grande (FURG), Km 8, Itália Av., Rio Grande,Brasil eder,emanuel,gabriel,silviacb@ee.furg.brDe forma semelhante à abordagem desenvolvida no presentetrabalho, [2] apresenta SLAM topológica visual commapas baseados em aparência, utilizando SIFT em imagensomnidimensionais. No entanto, esta abordagem só é validadacom robôs móveis em ambiente terrestre.Na seção II é descrito o sistema de visão para mapeamento,sendo cada etapa envolvida neste processo, detalhadaem subseções. As implementações assim como testes eresultados são apresentados na seção III Por último, alhosfuturos.II. SISTEMA DE VISÃO PARA MAPEAMENTOCom a finalidade de montar um mosaico, as várias imagens(frames) capturadas de forma consecutiva devem seralinhadas sucessivamente, resultando em um único mapavisual. Normalmente, o processo pode ser resumido pelosseguintes passos:- pré-processamento da imagem, objetivando a correçãode deformações geométricas e remoção de característicasinadequadas para processamento;- detecção de características relevantes de cada imagem;- correlação de características entre imagens consecutivas;- estimativa de movimento entre imagens;- construção do mosaico.Cada fase da criação do mosaico é abaixo explicada.Fig. 1.A. Pré-ProcessamentoVisão geral do sistema proposto.O pré-processamento tem como objetivo corrigir deformaçõesgeométricas causadas por imperfeições no sistema243


Voltar ao sumárioóptico e solucionar problemas relativos à iluminação nãohomogêneado ambiente. Estas distorções introduzem umaincorreta interpretação do posicionamento real do robô e,conseqüentemente, erros de mapeamento e localização. Adistorção causada pelas lentes da câmera na imagem éuma etapa que demanda um certo tempo de processamento,podendo ser modelada por uma aproximação radial e tangencial.Porém, como a componente radial é a que causamaior distorção, a maioria dos trabalhos desenvolvidos atéhoje corrige apenas esta distorção [9], sendo suficiente paraa solução do problema. Da mesma forma, optou-se nestetrabalho apenas pela correção da distorção radial.Em ambiente subaquático, há ainda a distorção causadapela difração da água. A Equação 1 mostra um método pararesolver este problema [20], onde (mx, my) é o ponto semdistorção radial, (m0x, m0y) é o novo ponto sem distorçãopor difração e u0 e v0 são as coordenadas do ponto central.escala de freqüência. Esta vizinhança é definida como sendouma janela n x n, tanto no mesmo espaço de escala quantonos adjacentes, como mostra a Figura 2. Por meio daoperação de Diferença Gaussiana (Equação 3) obtida pelasubtração de duas imagens geradas a partir da convolução,chega-se à banda de freqüência para cada escala.B. SIFTm 0 x = m x + R 0R (m x − u 0 )m 0 y = m y + R 0R (m y − v 0 ) (1)R 0 = f tan (sin −1 (1.33 ∗ sin(tan −1 R ))) (2)fO algoritmo Scale Invariant Feature Transform - SIFT -é um eficiente filtro para extração e descrição de pontos decaracterísticas relevantes para a análise de imagens [12]. Emtermos gerais, é um método robusto em relação a ruídos,iluminação imprópria, oclusão e variações mínimas no pontode vista de captura da imagem, e constitui-se de quatroestágios principais:Detecção de extremos no espaço de escala O primeiroestágio utiliza-se do filtro de diferença gaussiana (DOG) paradetectar pontos potencialmente interessantes em um espaçoinvariante à escala e rotação;Localização de pontos relevantes A localização e escalade cada ponto encontrado no estágio anterior são calculadase pontos relevantes são selecionados baseado em medidas deestabilidade;Definição de orientação dos pontos relevantes Considerandocaracterísticas das imagens, como gradientes locais,as orientações dos pontos relevantes são determinadas.Todas as operações futuras serão feitas em relação a estaorientação, além de escala e posição, garantindo invariânciaem relação a estas transformações;Criação do descritor dos pontos relevantes Os gradienteslocais da imagem são calculados baseados na vizinhançade cada ponto relevante. Estes cálculos são transformadosem uma representação que permite mudanças significantesnos níveis de distorção e iluminação. Sendo assim, ovetor descritor de cada ponto armazena suas característicaspara que um mesmo ponto possa ser encontrado em diferentesregiões de imagens consecutivas.Um ponto candidato à relevância é um pixel extremo emrelação à sua vizinhança, localizado em uma determinadaFig. 2.Espaço de escala.D(x, y, σ) = (G(x,y,kσ) − G(x, y, σ)) ∗ I(x, y)= L(x, y, kσ) − L(x, y, σ) (3)Onde L(x, y, σ) é a escala do espaço determinada pelaconvolução entre a imagem I(x, y) com o filtro GaussianoG(x,y,σ). Os pontos na função DOG que são extremoslocais em sua própria escala e em maiores ou menoressão extraídos como pontos chave. Para obter esses pontosextremos é necessário uma freqüência de amostra na escalado espaço k e um nivelamento inicial σ 0 . Após, os pontoschave são filtrados para as mais estáveis correlações na escalacom maiores precisões e com maior acurácia de subpixelusando o método descrito em [3].Depois da construção de descritor de pontos chaves,é necessário computar a orientação desses pontos, assimconseguindo um descritor invariante a rotação. A orientaçãoreferida é calculada com base nos histogramas de gradienteslocais L(x,y,σ). Para cada amostra L(x, y) na mesma escalade pontos chaves, a magnitude do gradiente m(x, y) eorientação θ(x, y) é computado usando diferença de pixels,como na equação 4 e 5.m(x, y) =(L(x +1,y) − L(x − 1,y)) 2 +(L(x, y + 1) − L(x, y − 1)) 2 ) 1/2 (4)θ(x, y) =tan −1 ((L(x, y + 1) − L(x, y − 1))/(L(x +1,y) − L(x − 1,y))) (5)A nossa orientação de histograma tem 36 valores cobrindo360 graus do alcance de rotação. Cada amostra adicionadaao histograma é uma medida de gradiente por sua magnitudee por uma ponderada circular-Gaussiana com um σ que é 1,5vezes mais elevado do que a escala do ponto chave.O local mais próximo do gradiente de dados de imagemsuavizados L(x, y, σ) também é utilizado para criar244


Voltar ao sumárioo descritor de pontos chave. Com este valor, uma métodoquicksort é utilizado para selecionar os melhores pontos.Este gradiente informação é primeiro rotacionado para obterseum alinhamento com a orientação definida pelos pontoschave e ponderada por um Gaussiano com uma variância σ.Os dados ponderados são utilizados para criar um númeronomeado de histogramas, ao longo de um conjunto emtorno da janela de pontos característicos. O histogramatêm 8 valores de orientação, cada um criado ao longo deuma janela de apoio de 4x4 pixels. O vetor resultante decaracterística tem 128 elementos com uma janela de apoiototal de 16x16pixels redimensionado.C. Correlação de características entre imagens consecutivasNormalmente, os candidatos à correlação de um pontode relevância são pontos próximos ao mesmo, de maneiraque o melhor candidato é o ponto que apresenta a menordistancia Euclidiana. No entanto, alguns pontos instáveis(outliers) são detectados ao longo do processo, levando afalsas correspondências. Para a eliminação desse problema,um método para comparar a menor distancia com a segundamelhor distancia é usado, selecionando somente correspondentespróximos por treshold [12].Além disto, uma Matriz Fundamental estimada pelosmétodos RANSAC e LMedS é usada para remoção deoutliers, validando cada correspondência encontrada.D. Estimando a matriz de homografiaAs imagens correlatas fornecem um conjunto de vetoresdeslocamento relativo,((x i ,y i ), (x, yprime)) associadascom os pontos correspondentes. Os n pares são utilizadospara determinar a matriz de homografia H. Estamatriz vai proporcionar o movimento estimado entre essasimagens, transformando as coordenadas homogêneas emnão-homogêneas. Os termos são operados a fim de obter umsistema linear, como mostrado pela equação 6:⎡⎤x 1 0 ··· x n 0y 1 0 ··· y n 01 0 ··· 1 00 x 1 ··· 0 x n 0 y 1 ··· 0 y n ·⎢ 0 1 ··· 0 1⎥⎣−x 1 .x 1 −y 1 .x 1 ··· x n .x n y n .x n ⎦−x 1 .y 1 −y 1 .y 1 ··· −x n .y n −y n .y n ⎡ ⎤x 1 y 2h11 h 12 h 13 h 21 h 22 h 23 h 31 h 32 = . ⎢ .⎥⎣ x n⎦y nA posição atual do robô pode ser estimada com o inicioda equação 7, onde 1 H k+1 é a matriz de homografia entreas imagens I 1 e I k+1 . A matriz 1 H 1 é definida pela matrizidentidade 3x3.(6)1 H k+1 =ki H i+1 (7)i=1Das posições estimadas do centro do frame, pode-seestimar a posição global do robô (sabe-se a posição relativaentre o robô e a câmera)O SIFT prove um conjunto de pontos chave invariante àescala, descritos por um vetor de características. Este vetoré usado para obter o mapa topológico, detalhado na próximaseção.E. Mapas TopológicosOs vetores extraídos pelo SIFT são utilizados para comporo mapa topológico obtido pelo uso de mapas autoorganizáveisbaseados em redes neurais de Kohonen [11] eEstruturas Celulares Crescentes [7].O Mapa de Kohonen é um tipo de rede neural artificialtreinada através de aprendizado não supervisionado. Ummapa de pequena dimensão, normalmente de duas, discretizao espaço de entrada das amostras de treinamento, tentandopreservar as propriedades topológicas do mesmo. A estruturade uma rede de Kohonen consiste de componentes chamadasnodos ou neurônios. Associado a cada nodo há um vetor depesos da mesma dimensão dos vetores dos dados de entrada euma posição no espaço. Os nodos são conectados por linhas,resultando em um grid 2D.A atual proposta do projeto opera no espaço de característicasinvariantes à escala ao invés do espaço da imagem.Durante o processo de navegação, vetores de característicassão apresentadas aos mapas auto-organizáveis. O algoritmode aprendizagem é baseado no conceito de aprendizado devizinho mais próximo (nearest-neighbor). Quando uma novaentrada é obtida, o mapa topológico determina o vetor decaracterísticas do nodo de referencia que melhor correspondeao vetor de entrada. Como o sistema usa diversos vetoresde características associados a cada imagem, o algoritmode nearest-neighbor é aplicado a cada vetor separadamente.Os resultados deste algoritmo são então combinados comum esquema simples de votação unânime. Nodos podem sercriados ou deletados durante o processo de aprendizado.O mapa topológico final permite duas possibilidades denavegação: através de posições alvo ou através de metasvisuais. Da posição corrente, algoritmos de busca em grafo,[6] ou A ∗ algoritmo [5] podem ser usados para achar ocaminho ideal até o ponto desejado.III. IMPLEMENTAÇÃO DO SISTEMA,TESTES ERESULTADOSPara validar este trabalho, realizou-se testes com dois tiposde robôs, um subaquático e um capaz de mover-se no interiorde um duto. Primeiramente, é apresentado na figura 3 orobô subaquático. Este é equipado com uma câmera de vídeoTritech Typhoon Colour Underwater, um sonar Miniking eum conjunto de sensores (altímetros e acelerômetros) [4].O sistema visual foi testado em um desktop Intel core 2Quad Q6600, com 2 Gb of RAM. A câmera é padrão NTSC245


Voltar ao sumárioFig. 3.ROVFURGII em campo de teste.Distorção 1 2 3 4 5Distância da Fonte de Luz(m) 0.2 0.22 0.25 0.25 0.3Valor de Atenuação(%) 0.05 0.05 0.06 0.05 0.05Ruído gaussiano(σ) 2 2 2 4 4Mínimo Nível de Cinza 20 30 20 20 20Número de Flocos de Neve Marinha30 30 30 30 30TABLE ICARACTERÍSTICAS SUBMARINAS PARA CADA DISTORÇÃO USADA NOSTESTES.usando 320x240 pixels a uma taxa máxima de 29.97 framespor segundo.Diferenças de características submarinas foram aplicadasas imagens, como a turbidez, neve marinha, iluminação nãolinear,e outros, simulando diferentes condições subaquática.A Tabela I mostra os recursos aplicados.A. O método em diferentes características subaquáticaO sistema visual foi testado em cinco diferentes sistemassubmarinos, o correspondente a cada uma (filtro i) é apresentadona tabela I. A figura 4 enumera a detecção ecorrespondência de pontos chave obtidos em uma navegaçãovisual. Apesar de o número de pontos e de correlaçõesdiminuir de qualidade por causa da perda de condiçõessubaquática, ainda é possível localizar o robô, de acordocom a figura 5. Nesta figura, o movimento referencial érepresentado em azul, executado por um braço robóticocomposto por um atuador harmonic drive acoplado com umodômetro fornecendo leituras em cada 0,000651 segundos,com uma câmera acoplada a este. É possível ver que aabordagem proposta é robusta a ambientes subaquáticosmutáveis.B. Localização Online do RobôAlguns testes foram realizados para comparar a desempenhodo algoritmo SIFT frente a um algoritmo muitoutilizado para localização robótica em ambiente subaquático,o KLT [14] [19]. Ele foi proposto por Lucas e Kanade [13],sendo melhorado, posteriormente [18] [17]. Para os testescom KLT foi utilizado a implementação de Birchfield [1],com algumas modificações, como a busca por pontos a cada5 imagens. Visto que a KLT é um método que utiliza fluxoótico para procurar pontos em uma janela de busca, assim,Fig. 4. Número de pontos chave e correlações verdadeira em ummovimento de um braço robótico.Fig. 5. Posição determinada por odometria e pelo sistema visual com esem distorção.buscando pontos apenas no início do processo, depois apenaslocaliza estes pontos nas imagens consecutivas.A figura 6 mostra os resultados de performance usandoos métodos SIFT e KLT. O SIFT obteve uma taxa médiade 4.4 fps sobre as imagens originais, sem distorção, euma taxa de 10.5 fps com o uso do filtro 5, com a piordistorção aplicada. O KLT apresentou maiores médias, 13.2fps and 13.08 fps, respectivamente. Note que SIFT tevepiores tempos de processamento em imagens de alta qualidade,porque teve um maior número de pontos detectadose conseqüentemente um maior número de descritores a serprocessado. O KLT, ao invés disso, manteve um tempo quaseconstante de processamento.No entanto, devido à lenta dinâmica associada ao movimentode veículos submarinos, os dois métodos podem seraplicados.246


Voltar ao sumárioOs resultados relacionados a localização de robôs usandoSIFT foram considerados satisfatórios, mesmo em ambientescom extrema distorção (filtro 5). De outra forma, KLTobteve resultados insatisfatórios em ambos os casos, uma vezque o robô é muito suscetível a variações de profundidadeou de escala na imagem, o que ocorre constantemente nomovimento de AUV’s (Autonomous Underwater Vehicle -Veículo Autônomo Subaquático).Fig. 7. Localização com translação e movimento de escala com e semdistorção.Fig. 6. Localização real de um robô em um sistema online com e semdistorção.C. Robustez a escalaTestes foram realizados para estimar a robustez do sistemaproposto a súbitas variações de escala. Neste caso, o movimentode translação com zoom constante foi realizado coma câmera para simular um movimento do robô em condiçõescríticas.A figura 7 mostra o deslocamento do SIFT x KLT medidosa partir do centro de captura dos frames. O desempenhodo SIFT é considerado satisfatório, mesmo em condiçõesaquáticas críticas. Considerando-se o uso de alguns filtrosem condições extremas, o SIFT é superior ao KLT, emboraele mostre a inexistência do movimento no eixo Y. Repareque, devido à escala tratar variação, o desempenho do SIFTé muito melhor do que o KLT.Durante os ensaios, o SIFT demonstrou uma taxa médiade mais de 6,22 fps sobre as imagens originais capturadaspela câmera e uma taxa de 7,31 fps utilizando o filtro 1 e10.24 fps usando o filtro 5. O KLT mostrou 12.5, 10.2 e11.84 fps, respectivamente.D. Mapas TopológicosTestes para validação do sistema de mapeamento foramrealizado, utilizando as imagens capturadas pelo veículosubaquático, gerando assim o gráfico mostrado na figura8, permitindo assim a navegação do veículo, tanto peladeterminação de uma posição objetivo quanto a partir deum local(imagem) objetivo. Tendo assim um sistema capazde realizar SLAM e permitir a navegação em online.Por último, foram realizados testes no sistema de localizaçãode uma robô para inspeção de linhas subterrâneas dedistribuição de energia. Este robô desloca-se no interior deum duto junto a cabos de energia. Para validar o sistemade localização do robô, foi acoplada uma câmera de vídeoSamsung SC-D364 a base do robô e gravado um deslocamentolinear de 96 centímetros e um tempo de 38 segundosno interior do duto.O sistema visual foi testado em um desktop Intel core 2Quad Q6600, com 2 Gb of RAM. A câmera é padrão NTSCusando 320x240 pixels a uma taxa máxima de 29.97 framespor segundo, da mesma forma do teste anterior.O resultado apresentado pelo sistema de visão é demonstradopela figura ??. A linha verde desta figura representao movimento principal, usado como comparação para adistância previamente conhecida. Foi encontrado um erro de247


Voltar ao sumárioFig. 8.Mapa topológico gerado pelo ROVFURGII.aproximadamente 2 centímetros entre o valor real e o valorretornado pelo SIFT. O outro movimento, representado pelalinha azul, mostra uma pequena rotação no interior do duto,o qual será desprezada. Estes valores foram ao encontro doesperado, apresentando um gráfico linear. Assim o sistema devisão deste robô é capaz de auxiliar na navegação, uma vezque fornece dados de posição, tempo e, conseqüentemente,velocidade.devido a sua invariância a escala e rotação, além de parcialmenteinvariante a condições de iluminação e transformaçõesperspectivas. Também, foram realizados testes em um veículoprojetado para deslocar-se no interior de um duto. Nestecaso, avaliou-se dados de odometria comprovando ser umaalternativa à odômetros acoplados em rodas, visto que estespodem fornecer dados inconsistentes devido a derrapagens.A correlação dos pontos de interesse provido pelo SIFT foisatisfatória, apesar de, na presença de muitas outliers (falsascorrelações). A proposta de utilização da matriz fundamentalestimada em formas sólidas, a fim de remover outliers atravésdo algoritmo RANSAC e LMedS mostraram bons resultados.O mapeamento topológico baseado nas redes de Kohonene nas GCS, apesar de pouco difundido, mostrou potencialpara aplicações de SLAM subaquático utilizando informaçãovisual, sendo robusto a imprecisões sensoriais além de apresentarbaixo custo computacional.Como trabalhos futuros propõe-se a implementação dosistema em hardware embarcado. Também a utilização dainformação de escala fornecida pelo SIFT, que juntamentecom a informação do altímetro, possibilitaria a determinaçãodo movimento em profundidade do veículo. O uso de visãoestereoscópica também é uma possibilidade, fornecendo assim,diretamente, a profundidade do veiculo.REFERENCESFig. 9.Sistema de localização visual para um robô de inspeção subterrânea.IV. CONCLUSÃOO trabalho apresentou uma nova abordagem para localizaçãoe mapeamento simultâneo (SLAM) para robôsautônomos, utilizando apenas a informação visual online. Ouso de visão computacional como fonte sensorial mostrouseuma solução de baixo custo, com bom desempenho erobusta. Tal sistema pode ser utilizado em tarefas de inspeçãoautônomas ou no auxílio ao controle em malha fechada derobôs, no caso de existir um operador remoto.Diversos testes foram realizados com diferentes característicassubaquáticas. A efetividade da nossa proposta foivalidada em um conjunto de cenários reais, com diferentesníveis de turbidez, neve marinha, iluminação não-uniforme,ruído, entre outros. Os resultados mostraram a vantagem deutilizar SIFT, em relação a outros métodos como o KLT,[1] Stan Birchfield. Klt 1.3.4 : A c implementation of klt tracker.http://www.ces.clemson.edu/ stb/klt/, 2007. [Last Acessed in February,2008].[2] O. Booij, B. Terwijn, Z. Zivkovic, and B. Krose. Navigation using anappearance based topological map. In IEEE International Conferenceon Robotics and Automation, pages 3927–3932, April 2007.[3] Matthew Brown and David Lowe. Invariant features from interestpoint groups. In British Machine Vision Conference, pages 656–665,Cardiff, Wales, 2002.[4] Mario Centeno. Rovfurg-ii: Projeto e construção de um veículosubaquático não tripulado de baixo custo. Master’s thesis, EngenhariaOceânica - FURG, 2007.[5] Rina Dechter and Judea Pearl. Generalized best-first search strategiesand the optimality af a*. Journal of the Association for ComputingMachinery, 32(3):505–536, July 1985.[6] Edsger W. Dijkstra. A note on two problems in connexion with graphs.Numerische Mathematik, 1:269–271, 1959.[7] Bernd Fritzke. Growing cell structures - a self-organizing network forunsupervised and supervised learning. Technical report, University ofCalifornia - Berkeley, International Computer Science Institute, May1993.[8] Rafael Garcia, Xavier Cufi, and Marc Carreras. Estimating themotion of an underwater robot from a monocular image sequence. InIEEE/RSJ International Conference on Intelligent Robots and Systems,volume 3, pages 1682–1687, 2001.[9] N. Gracias, S. Van der Zwaan, A. Bernardino, and J. Santos-Vitor.Results on underwater mosaic-based navigation. In IEEE OceansConference, volume 3, pages 1588–1594, 10 2002.[10] Nuno Gracias and Jose Santos-Victor. Underwater video mosaics asvisual navigation maps. Computer Vision and Image Understanding,79(1):66–91, July 2000.[11] Teuvo Kohonen. Self-Organizing Maps. Springer-Verlag New York,Inc., Secaucus, NJ, USA, 2001.[12] David Lowe. Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision, 60(2):91–110, 2004.[13] Bruce D. Lucas and Takeo Kanade. An iterative image registrationtechnique with an application to stereo vision. In International JointConferences on Artificial Intelligence, pages 674–679, 1981.[14] K. Plakas and E. Trucco. Developing a real-time, robust, video tracker.In MTS/IEEE OCEANS Conference and Exhibition, volume 2, pages1345–1352, 2000.248


Voltar ao sumário[15] Stephen Se, David Lowe, and James Little. Mobile robot localizationand mapping with uncertainty using scale-invariant visual landmarks.The International Journal of Robotics Research, 21(8):735–758, 2002.[16] Stephen Se, David Lowe, and James Little. Vision-based globallocalization and mapping for mobile robots. IEEE Transactions onRobotics, 21(3):364–375, June 2005.[17] Jianbo Shi and Carlo Tomasi. Good features to track. In IEEEConference on Computer Vision and Pattern Recognition, pages 593–600, 1994.[18] Carlos Tomasi and Takeo Kanade. Detection and tracking of pointfeatures. Technical report, Carnegie Mellon University, April 1991.[19] T. Tommasini, A. Fusiello, V. Roberto, and E. Trucco. Robust featuretracking in underwater video sequences. In IEEE OCEANS Conferenceand Exhibition, volume 1, pages 46–50, 1998.[20] Xun Xu and Shahriar Negahdaripour. Vision-based motion sensingfor underwater navigation and mosaicing of ocean floor images. InMTS/IEEE OCEANS Conference and Exhibition, volume 2, pages1412–1417, October 1997.249


Voltar ao sumárioPrinciple of Maximum Entropy for Histogram Transformation and ImageEnhancementGilson A. GiraldiNational Laboratory for Scientific ComputingPetrópolis, RJ, Brazilgilson@lncc.brPaulo S.S. RodriguesComputer Science and Electrical Engineering Departments of the FEI Technologic UniversitySão Bernardo do Campo, SP, Brazilpsergio@fei.edu.brAbstractIn this paper, we present a histogram transformationtechnique which can be used for image enhancement in2D images. It is based on the application of the Principleof Maximum Entropy (PME) for histogram modification.Firstly, a PME problem is proposed in the context ofthe nonextensive entropy and its implicit solution is presented.Then, an iterative scheme is used to get the solutionwith a desired precision. Finally, we perform a transformationin the intensity values of the input image whichattempts to alter its spatial histogram to match the PME distribution.In the case study we take some examples in orderto demonstrate the advantages of the technique as a preprocessingstep in an image segmentation pipeline.1. IntroductionHistogram modeling and transformations are importanttools for image processing [5]. Point operations, such ascontrast stretching, equalization and thresholding, are basedupon the manipulation of the image histogram. In manyapplications involving image acquisition, such as medicalimaging, the targets are often characterized by low contrastor non-uniform intensity patterns in the regions on interest.Therefore, enhancement algorithms are generally requiredas a pre-processing step for image analysis [6].In the literature, many histogram based techniques havebeen proposed for image enhancement [1]. The simplestmethod consists in stretching the original histogram linearlyto occupy the full available intensity range [5]. Histogramequalization is another known contrast enhancing techniquewhich tries to keep the transformed histogram as uniformlydistributed as possible over the entire intensity range [9].However, the main disadvantage of these operations is thatthe frontiers between the original histogram modes are notwell preserved which decreases the homogeneity inside theobjects of interest. Such effect is undesirable mainly for imagesegmentation techniques based only on the gray-levelinformation in the image.For example, local minima of the gray-level histogramcan be used to segment the image by thresholding [8]. Thethreshold level can be also obtained by optimizing some informationmeasure associated, like entropy. For instance,[4] a generalization of the classical entropy, called Tsallisentropy, is applied in a general formalism for image thresholding.In the present paper, we propose a new histogram modificationtechnique for image enhancement. We consider theapplication of the Principle of Maximum Entropy (PME)for histogram transformation, inspired in analogous formulationin statistical physics [10]. The solution of a PMEproblem is a probability distribution (histogram) that maximizesthe entropy subject to some constraints.Firstly, a PME problem is proposed and its implicit solutionis presented. We focus on the nonextensive Tsallisentropy in this discussion due to its generality and capabilityto cover a larger range of applications. Then, a numericalscheme is designed based on the observation that the obtainedexpressions can be written as a global mapping in thehistogram space. Finally, we transform the intensity valuesof the input so that the histogram of the output image approximatelymatches the PME solution.Although there are others works using entropy in image250


Voltar ao sumárioenhancement (enhancement measure for parameter determination,fuzzy entropy approaches, entropy conservationtechniques, among others) [1, 3, 7], the novelty of our workis the application of a nonextensive PME for the histogrammodification.In the case study, we present some examples in order toshow the advantages of the proposed technique. We observean improvement in the homogeneity inside the regions of interestin the output image. It is important to emphasize that,traditionally, enhancement is accomplished by histogramtransformation that preserves the entropy, as much as possible,to avoid artifacts generation [7]. However, althoughwe do observe artifacts in the output, the results show thatsuch artifacts can be easily removed by simple morphologicaloperations or they are simply cut-off by a thresholdingtechnique to be described next. Besides, we get a considerablyimprovement in the final segmentation.2. PME and Image ProcessingIn the last decade, Tsallis [10] has proposed the followinggeneralized nonextensive entropic form:S q = k 1 − Wi=1 pq i, (1)q − 1where k is normalization factor, p i is a probability distributionand q ∈is called the entropic index. This expressionrecovers the Shannon entropy in the limit q → 1. TheTsallis entropy offers a new formalism in which the real parameterq quantifies the level of nonextensivity of a physicalsystems [10]. In particular a general PME has been consideredto find out distributions to describe such systems.In this PME, the goal is to find the maximum of S q subjectedto:Wp i =1, (2)i=1 Wi=1 e ip q i Wi=1 pq i= U q , (3)where U q is a known application dependent value and e irepresent the possible states of the system (in our case, thegray-level intensities). Expression (2) just imposes that p iis probability and equation (3) is a generalized expectationvalue of the e i (if q =1we get the usual mean vale). Theproposed PME can be solved using Lagrange multipliers αand β:F = k 1 − WW i=1 pq Wii=1+α p i − 1 +βe ip q iq − 1Wi=1i=1 pq i(4)Therefore, we have to solve the following equations:− U q .∂F∂p j= − kqq − 1 pq−1 j + α+⎛ W ⎜ i=1 pq i qe j p q−1 Wj −i=1 e ip q iβ ⎝ W 2i=1 pq iqp q−1j⎞⎟⎠ =0⎛ ∂F∂q = k ⎝ (1 − q) W i=1 pq i ln p i − 1 − ⎞Wi=1 pq i⎠(q − 1) 2 +⎛⎜β ⎝ ⎞Wi=1 e ip q i iln p Wi=1 pq i W 2i=1 pq i⎛ W ⎞⎜ i=1 e ip q Wi i=1 pq i iln pβ ⎝ W 2i=1 pq i⎟⎠ −(5)⎟⎠ =0, (6)subject to the constraints given by expressions (2) and (3).The equation (6) gives:(1−q)( P Wi=1 pq i ln pi)−(1−P W(q−1) 2i=1 pq i )β = −k P(Wi=1 pq i )( P Wi=1 eipq i ln pi)−(P Wi=1 eipq i )( P .Wi=1 pq i ln pi)( P Wi=1 pq i ) 2 (7)If we multiplying expression (5) by p j , and sum the resultover the p j , then, a simple algebra gives:p 1−qjα =kqq − 1Wp q j . (8)j=1If we substitute this expression in (5) and multiply bywe get:⎛ ⎞− kqq − 1 + kq W⎝ p q ⎠j p 1−qj +,q − 1j=1⎛ W W ⎞⎜ i=1 pq i (qe j ) −i=1 e ip q i q⎟β ⎝⎠ =0, (9) W 2i=1 pq iWe can take off the factor q in all terms, multiply by (q −1) and simplify the last term using the definition of U q inexpression (3) to obtain:⎛W−k+k ⎝p q jj=1⎞⎠ p 1−qj +(q−1)β e j − U q W=0, (10)i=1 pq i251


Voltar ao sumárioFrom this expression, we can isolate p 1−qjp 1−qj =1 W1 −j=1 jpq(q − 1)βkwhich gives:e j − U q W.i=1 pq i(11)By using this equation and a normalization, in order toguarantee that the condition (2) is satisfied, we finally get:p j =1 − (q−1)k Wm=11 − (q−1)kβ 1ej−U 1−qβ P qWi=1 pq i 1em−U 1−qP qWi=1 pq i, (12)with β defined by equation (7).Expression (12) is hard to solve because the right-handside of it depends also on the p j . However, if the right-handside works as a contraction map F (F (x) − F (y) ≤α x − y, with α ∈ [0, 1)) then, we can obtain a solutionthrough a recursive procedure [2]:where:p n+1p n+11 = F 1 (p n 1 ,p n 2 , ..., p n W ) ,2 = F 2 (p n 1 ,p n 2 , ..., p n W ) ,.................. (13)p n+1W −1= F W −1 (p n 1 ,p n 2 , ..., p n W ) ,p n+1W= F W (p n 1 ,p n 2 , ..., p n W ) ,F j (p n 1 ,p n 2 , ..., p n W )=We stop the iteraction when:D p n+1 , p n ≡ max p n+1i1 − (q−1)k Wm=11 − (q−1)kβ− p n i 1ej−U 1−qβ P qWi=1 pq i 1em−U 1−qP qWi=1 pq i(14) , i =, 2, ..., 256 < δ,(15)for some pre-defined δ ∈, where p n =(p n 1 ,p n 2 , ..., p n W ) .From the contraction map theory, it is known that thescheme (13) will converge to the solution for any startingpoint p 0 [2]. Therefore, we take an input image,compute its histogram, as well as the value U q from expression(3) and solve the expression (12) throughthe scheme defined by equation (13). This methodhas the advantage of been fast and keeping the property0 ≤ p j ≤ 1. If the map F (p 1 ,p 2 , ..., p W ) =(F 1 (p 1 ,p 2 , ..., p W ) , ..., F W (p 1 ,p 2 , ..., p W )) is not a contractionwe can not guarantee convergence.The form of expressions (14) makes it hard to prove suchproperty. So, in the case study of section 3, we perform aexperimental analysis by just applying the iterative schemeand, in the case of convergence, perform a proper histogram.modification of the input image. So, we transform the intensityvalues of the input such that the histogram of the outputimage matches the PME solution. The usual procedureto perform this task works as follows [5]. Suppose a randomvariable u ≥ 0 with probability density p 1 (u) givenby the histogram of the input image. The idea is to transformthe variable u in another random variable v ≥ 0 suchthat its probability density p 2 (v) is given by the solution ofthe PME. To perform this task, it is just a matter of definingthe random variables: u0p 1 (x) dx = F 1 (u) , v0p 2 (y) dy = F 2 (v) (16)and impose that the value v must satisfies the constraintF 2 (v) =F 1 (u), which gives:v (u) =F −12 (F 1 (u)) . (17)The so obtained random variable v is a function of thevariable u and its probability density is given by p 2 (v) ,according to the definition of F 2 (v) in expressions (16).Therefore it is the desired random variable which must bere-scaled to the range [0, 255] in order properly set the intensityrange of the output image. Once performed the imageenhancement, we can apply a segmentation technique.The whole pipeline is summarized on Figure 1.Figure 1. Pipeline for image enhancementand segmentation.In this paper, we apply the segmentation algorithm describedin [4], also called q-entropic algorithm, whichworks as follows. Suppose an image with W gray-levels,with probability distribution P = {p i } . So, when applyinga threshold t, we can consider two probability distributionfrom P , one for the foreground (P A ) and another onefor the background (P B ). The partitioned image has an entropydenoted by S q A+B(t) which depends on the Tsallis entropy,computed by expression (1), for the foreground andbackground separately (see [4] for details). As usual in entropicbased thresholding algorithms [8], the best t = t opt is252


Voltar ao sumáriothe one that maximizes the information measure (entropy),that means:3. Cases Studyt opt = argmax[S q A+B(t)]. (18)Let us take the image in the Figure 2. This image wasused in the reference [4] to demonstrate the q-entropic algorithm.We set q = 0.5 (also used in [4]) and obtainU q = 94.97 through expression (3).(a)(b)Figure 3. (a) Histogram of the original image.(b) Histogram obtained after 9 interactions ofthe scheme in expression (13), with δ = 10 −8and p 0 given by the original image histogram.Figure 2. Gray level image for case study.Now, we set p 0 as the entries of the original histogram,pictured on Figure 3.a, and apply the iterative scheme describedby expression (13). The Figure 3.b shows the solutionobtained after 9 interactions, with δ = 10 −8 .The image intensity transformation defined by expression(17) gives the output pictured on Figure 4.Figure 5 shows the segmentation obtained by the q-entropic segmentation algorithm for both the original andthe transformed images.We can observe that the object is better recovered in Figure5.b than in Figure 5.a although a pattern of artifacts ishighlighted in the background due to the entropy maximization[7]. Such artifacts can be easily removed by an openingmorphological operation [5], as we can observe in Figure6.In this example, we observe that the method stretches theimage luminance such that the intensity patterns inside theobjects become more homogeneous. Such behavior is alsoobserved in Figure 7, with tests performed on odontologicalX-Ray images.For all the presented tests, the number of interactions ofthe scheme (13) was less than 15 (few seconds in a PentiumIV), with δ = 10 −8 , which indicates a fast convergencerate. Also, the profiles of the obtained solutions weresimilar to Figure 3.b.The Figure 8 shows the effect of the transformation inthe segmentation. This Figure was generated by applyingFigure 4. Output image obtained after histogramtransformation.the q-entropic algorithm (expression (18)) over the imagesof Figure 7. We can observe an improvement in Figures8.b,d. The result in Figure 8.f shows undersegmented objects(teeth). Certainly, we could try to improve the segmentationof the original images by adjusting the q value.However, our aim in this discussion is to show that the histogram(image) transformation proposed can improve thesegmentation without concerning about the q value. However,we shall discuss the effect of this parameter for thetransformed image.The sensitivity respect to q value can be analyzed in Figure9. In this case, we notice that when increasing q fromq =0.5 to q =0.75 we also increase the image luminance253


Voltar ao sumário(a)(b)(a)(b)Figure 5. (a)Thresholding result for Figure2. (b) Segmentation obtained after histogramtransformation.(c)(d)(e)(f)Figure 6. Opening operation applied to imagepictured on Figure 5.b.everywhere. Such effect may reduce the contrast betweenthe foreground and background which is an undesirable results,as we can observe in Figure 9 nearby the right-handcorner, in the bottom of both images. We must deeply considerthese problem in further works.4. Conclusions and Future WorksIn this paper, we propose a histogram transformationtechnique which can be used to improve the homogeneityof the foreground in 2D images. It is based on the solutionof a Principle of Maximum Entropy (PME) and on thetransformation of the spatial histogram of the input imageto match the PME distribution. We present some results indicatingthat the technique can be used as a pre-processingone for thresholding methods. However, more experimentsmust be performed in order to quantify the efficiency of thetechnique.Further directions in this work are theoretical analysis ofthe global map (14) as well as strategies to avoid the observedartifact in the output image.Figure 7. Tests for X-Ray odontological images,with q =0.5: The fist collum (Figures(a),(c),(e)) shows the input images and thesecond one (Figures (b),(d),(f)) pictures thecorresponding outputs.References[1] S. S. Agaian, B. Silver, and K. A. Panetta. Transform coefficienthistogram-based image enhancement algorithms usingcontrast entropy. IEEE Transactions on Image Processing,16(3):741–758, 2007.[2] D. P. Bertsekas and J. N. Tsitsiklis. Parallel and DistributedComputation: Numerical Methods. Prentice-Hall Intern.Editions, 1989.[3] H. D. Cheng, Y.-H. Cheng, and Y. Sun. A novel fuzzy entropyapproach to image enhancement and thresholding. SignalProcess., 75(3):277–301, 1999.[4] M. P. de Albuquerque, I. A. Esquef, and A. R. G. Mello. Imagethresholding using tsallis entropy. Pattern Recogn. Lett.,25(9):1059–1065, 2004.[5] A. K. Jain. Fundamentals of Digital Image Processing.Prentice-Hall, Inc., 1989.[6] R. Malladi and J. A. Sethian. A unified approach to noise removal,image enhancement, and shape recovery. IEEE Trans.on Image Processing, 5:1554–1568, 1996.254


Voltar ao sumário(a)(b)(c)(d)(e)(f)(a)Figure 8. Segmentation by the q-entropic algorithm,with q =0.5: (a) Input image is Figure7.a and t o pt = 115. (b) Segmentation ofFigure 7.b with t o pt = 224. (c) Input image isFigure 7.c and t o pt = 72. (d)Input image: Figure7.d and t o pt = 228. (e) Thresholding ofFigure 7.e and t o pt = 103. (f)Input image: Figure7.f and t o pt = 209.[7] L. Ogorman and L. S. Brotman. Entropy-constant image enhancementby histogram transformation. In N. Chigier andG. W. Stewart, editors, App. of digital image processing VIII,volume 573, pages 106–113, January 1985.[8] P. K. Sahoo, S. Soltani, A. K. Wong, and Y. C. Chen. A surveyof thresholding techniques. Comput. Vision Graph. ImageProcess., 41(2):233–260, 1988.[9] J. A. Stark. Adaptive image contrast enhancement using generalizationsof histogram equalization. IEEE Transactions onImage Processing, 9:889–896, 2000.[10] C. Tsallis. Nonextensive statistics: Theoretical, experimentaland computational evidences and connections.BRAZ.J.PHYS., 29, 1999.(b)(c)Figure 9. Sensitivity against q value. (a) Inputimage. (b) Transformed image for q =0.5. (c)Output image for q =0.75.255


Voltar ao sumárioRedes Complexas Aplicadas no Reconhecimento de FacesWesley Nunes GonçalvesUSP - Universidade de São PauloICMC - Instituto de Ciências Matemáticas e ComputaçãoP.O. Box 668 - Campus da USP - 13560-970 - São Carlos (SP)- Brasilwnunes@icmc.usp.brOdemir Martinez BrunoUSP - Universidade de São PauloICMC - Instituto de Ciências Matemáticas e ComputaçãoP.O. Box 668 - Campus da USP - 13560-970 - São Carlos (SP)- Brasilbruno@icmc.usp.brResumoEste artigo apresenta uma nova metodologia para o reconhecimentode faces, um importante e difícil problemaque tem sido estudado pela comunidade de visão computacionale reconhecimento de padrões. A metodologia utilizadamodela a imagem de uma face através de uma redecomplexa e medidas são extraídas sobre essas redes paraa composição do vetor de característica. Os experimentosforam conduzidos usando diferentes configurações, incluindomodificações no limiar para a modelagem da rede.A metodologia com redes foi comparada com a técnicaeigenfaces, obtendo resultados promissores.1. IntroduçãoO reconhecimento de faces tem recebido cada vezmais atenção da comunidade de visão computacional.Esse crescente interesse se deve, principalmente, ao aumentono poder de processamento em tempo real ea grande quantidade de aplicações em que o reconhecimentode seres humanos é indispensável, como em sistemasde segurança[15, 3], interface humano computador[9], comunicaçãomultimídia[10], entre outros. Atualmente diversosmétodos de reconhecimento de seres humanosforam desenvolvidos, como reconhecimento de assinatura,íris ou impressão digital. Entretanto, esses métodosdependem da interação do usuário com o dispositivo, enquantoque, o reconhecimento da face pode ocorrer sem apercepção do usuário e conseqüentemente sem a sua interação,simulando o processo de visão.Em reconhecimentos de faces, as técnicas são divididasem métodos baseados na imagem como um todo e em métodosbaseados em características locais (e.g. imagens dosolhos, nariz e boca). Seguindo a idéia dos métodos baseadosem imagens, é possível representar uma imagem daface através das redes complexas e aplicá-las no reconhecimentode faces. Recentemente tem crescido o interesse emredes complexas devido à aquisição de dados em larga escala,e com isso, o foco das pesquisas tem se transferido daanálise de pequenas redes para a análise de redes com centenasou milhões de componentes interligados [12]. Em diversasaplicações, como no reconhecimento de faces, o estudoda relação entre os componentes é mais interessante do quea análise de cada um deles individualmente, o que reforçaa importância da utilização da teoria das redes complexas.Essa teoria tem se tornada desafiadora e promissora, pois asredes complexas podem descrever matematicamente, combinandoo formalismo da teoria dos grafos e a mecânicaestatística, diferentes aplicações nas mais diversas áreas,como a visão computacional e reconhecimento de padrões.Essas áreas possuem um amplo campo de pesquisa inexploradoa ser desenvolvido quanto à utilização das redes complexas,existindo poucos estudos relacionados à aplicaçãodesses métodos, e mesmo quanto a sua validação quandoaplicados em imagens.Neste artigo é apresentada e avaliada uma novametodologia para aplicação das redes complexas no reconhecimentode faces. Os experimentos foram realizadosna classificação de 50 imagens de 10 diferentes indivíduos.Para isso, a imagem é representada através deuma rede complexa onde cada pixel representa um vérticee as arestas são inseridas de acordo com a dissimilaridadeentre dois pixels. Em seguida, medidas são extraídas256


Voltar ao sumáriodessa rede e utilizadas na classificação das faces com as redesneurais. Os resultados obtidos foram comparados como método eigenfaces, tendo obtido resultados promissores.O artigo está organizado como segue. A Seção 2 apresentaos trabalhos correlatos sobre técnicas de reconhecimentode faces e trabalhos aplicando as redes complexasem problemas de visão computacional e reconhecimentode padrões. Seção 3 introduz os conceitos e apresenta umamodelagem de imagens através das redes complexas. NaSeção 4, são descritas algumas medidas extraídas em cadavértice da rede. A Seção 5 apresenta o método utilizado naclassificação das faces. Os experimentos realizados e os resultadosobtidos são descritos na Seção 5. Finalmente, aconclusão e os trabalhos futuros são discutidos.2. Trabalhos CorrelatosAs técnicas de reconhecimento de faces descritas na literaturasão divididas em métodos baseados em imagens -holistic approach (e.g. eigenfaces, fisherfaces) e métodosbaseados em características - features-based approach (eg.HMM, LBP).Os métodos baseados em características utilizam característicasfaciais locais, como os olhos, boca e nariz, naclassificação das faces. Entretanto, este trabalho é fundamentadonos métodos baseados em imagens, onde cadaface é representada por um vetor com alta dimensionalidade.Em seguida, para a classificação é realizada uma reduçãono espaço de dimensionalidade. Um dos métodos atualmentemais utilizado é o eigenfaces[14, 2]. Essa técnicautiliza diretamente a imagem sem utilizar qualquer modeloinicial da face, onde uma imagem com NxM pixels érepresentada como um vetor x ∈ R NM contendo as intensidadesde todos os pixels da imagem. A dimensionalidadede cada vetor é extremamente alta, sendo necessáriaa redução do espaço dimensional para encontrar os vetoresque melhor representam a distribuição das imagensdas faces. Nesse método, a redução da dimensionalidade érealizada com a análise de componentes principais (PCA).Todos os vetores que representam as faces são então projetadosnesse subespaço. Diversos resultados para o eigenfacesforam apresentados [14, 2, 16], mostrando que essemétodo possui uma desvantagem com relação à luminosidadeem diferentes direções[2], isso ocorre quando imagenscontendo faces são obtidas de diversas posições. Para corrigiros problemas apresentados pelo eigenfaces, o métodofisherfaces [16, 17, 18] foi apresentado e aplicado com basena informação das classes das faces. Esse método calculauma combinação entre as características projetadas, buscandomaximizar a razão entre a variância entre-grupos einter-grupos. Em [2] é apresentada uma comparação entreos métodos eigenfaces e fisherfaces, sendo que o métodofisherfaces apresentou melhores resultados com uma taxade erro de 0.6% contra 19.4% do método eigenfaces. A vantagemdos métodos baseados em imagens está na preservaçãoda textura e forma das faces e na representação de aspectosglobais através da redução da dimensionalidade.A utilização das redes complexas em aplicações devisão computacional e reconhecimento de padrões têmsido pouco explorada, existindo alguns trabalhos relacionandoa aplicação das redes. Em [1] foi apresentado ummétodo para calcular a aproximação poligonal de contornosde objetos. O contorno foi modelado como umarede complexa pequeno-mundo e a aproximação é identificadaatravés do menor ciclo encontrado na rede. Ométodo apresentou bons resultados, demonstrando superioridadesobre a aproximação por curvatura. A clusterizaçãode pixels em imagens através da identificação de comunidadesem redes complexas foi realizada em [13].A grande vantagem dessa abordagem está na estruturatopológica das redes, pois são obtidas não somentepropriedades estatísticas, mas também sobre as interaçõesentre os elementos. Os resultados são apresentados eobtidos sobre imagens artificiais e imagens reais. Uma interessanteanálise de textura foi realiza em [6], nessaabordagem, a imagem é modelada como uma rede e algumasmedidas, como o grau dos vértices, são extraídaspara caracterizar a rede, e conseqüentemente as diferentestexturas nas imagens. A metodologia foi comparadacom os filtros de Gabor e Haralik e obteve resultados superiores.3. Redes ComplexasAs redes complexas são representadas por um conjuntode vértices e um conjunto de arestas que interligamos vértices, assim como os grafos. Em matemática discreta,um grafo é descrito por G(V,E), onde o conjuntoV = {n 1 ,n 2 , ..., n N } são os vértices e o conjuntoE = {e 1 ,e 2 , ..., e M } são as arestas. Em algumas aplicaçõesé interessante medir a dissimilaridade entre osvértices, com isso as arestas possuem um peso associadoe sua representação é dada por uma tripla G(N,E,W),com W = {w 1 ,w 2 , ..., w M } representando o peso associadoa cada aresta.Computacionalmente, os grafos podem ser implementadosatravés de uma matriz de adjacência A, sendo uma matrizsimétrica ao longo da diagonal para grafos não direcionados.Cada componente a ij da matriz armazena o valor1 se existir uma aresta ligando o vértice i ao vértice j ou armazenao valor 0 se não existir uma aresta. Analogamente,para um grafo valorado, é utilizada uma matriz W com cadaelemento w ij representando o peso da aresta que liga o vérticei ao vértice j.257


Voltar ao sumárioUma possível representação de uma imagem através dasredes complexas é considerar cada pixel como um vérticena rede. Uma imagem de W xH pixels possui uma redecomplexa com WH vértices. O mapeamento entre um pixel(x, y) na imagem e um vértice i da rede é dada na Equação1.i = y +(x − 1) ∗ heightx = i−1height +1y = ((i − 1)%height)+1onde 1 ≤ x ≤ width, 1 ≤ y ≤ height, % é o operador deresto da divisão e . é o operador que retorna o inteiro inferior.As arestas interligando dois vértices i e j são inseridasde acordo com a diferença entre propriedades visuais (e.g.níveis de cinza ou textura) de dois pixels na imagem. Essadiferença entre as propriedades é então utilizada como opeso da aresta que interliga os dois vértices de acordo comas Equações 2 e 3. As arestas com peso maior que um determinadolimiar são desconsideradas. Além disso, apenas sãoconsideradas as arestas interligando um pixel i aos seus vizinhosem um determinado raio, como por exemplo os 8-vizinhos. Essa etapa de limiarização e vizinhança são importantespara eliminar ligações entre propriedades visuaisdiferentes (limiar) e muito distantes espacialmente na imagem(vizinhança). 1 se |P (i) − P (j)| ≤τ e ||i, j|| ≤ ra ij =0 caso contrário⎧⎨ |P (i) − P (j)| se |P (i) − P (j)| ≤τw ij =e ||i, j|| ≤ r⎩0 caso contrárioonde P (i) representa a propriedade visual do pixel i, |.| éovalor absoluto, τ é o limiar para construção da rede, ||., .|| éa distância euclidiana entre dois pixels e r é o raio da vizinhança.4. MedidasAs redes complexas podem ser agrupadas de acordo comos valores das medidas extraídas de cada vértice ou medidasglobais. A escolha dessas medidas é essencial, pois medidasque retornem valores redundantes ou estatisticamentesimilares para diferentes classes podem influenciar na classificação.Neste trabalho foram extraídas as medidas relacionadasà conectividade, coeficiente de aglomeração e hierárquicas.(1)(2)(3)4.1. ConectividadeAs redes complexas se diferenciam dos grafos por possuíremum conjunto de vértices e arestas compostos por umgrande número de componentes e propriedades topográficasparticulares, como o número de conexões entre os vértices[4]. O grau de um vértice k i é dado pelo número dearestas incidentes a ele, calculado através da Equação 4.k i =Na ij (4)j=1O grau com pesos kiw é calculado de maneira similar,mas somando-se o peso das arestas através da matriz de pesosW , Equação 5.k w i =Nw ij (5)j=1Essa medida é interessante, pois através da distribuiçãoda conectividade dos vértices é possível diferenciar diversosmodelos de redes complexas e decidir a sua natureza(aleatória ou seguindo determinada lei de formação) de diversasredes.4.2. Coeficiente de AglomeraçãoO coeficiente de aglomeração de um vértice mede arelação entre o número de arestas dos seus vizinhos e onúmero máximo de arestas possíveis entre esses vizinhos.Essa medida pode ser analisada como a probabilidade dedois vértices vizinhos de um vértice terem outro vizinho emcomum.Com isso, é possível mensurar a conectividade dos vizinhosde um vértice, uma medida interessante quando sepretende quantificar texturas em imagens. Com a utilizaçãoda matriz de adjacência, essa medida é calculada através daEquação 6. N Nj=1 k=1c i =a ija jk a ki(6)k i (k i − 1)O coeficiente de aglomeração com pesos é calculado demaneira similar através da Equação 7.c w i =1k w i (k i − 1)N4.3. Grau HierárquicoNj=1 k=1w ij + w ika ij a jk a ki (7)2As redes complexas podem ser caracterizadas demaneira hierárquica e basicamente todas as medidas podemser quantificadas através da hierarquização. O nível258


Voltar ao sumáriohierárquico é definido sobre a dilatação δ(g) em um subgrafo.A dilatação sobre um subgrafo resulta em outrosubgrafo que contém os vértices de g mais os vértices conectadosa cada vértice de g. Com isso, a d-dilatação deum grafo g é a aplicação δ(g) por d vezes como demonstradona Equação 8.δ d (g) =δ(δ(...(g)...)) dO d-anel de um subgrafo g, definido como R d (g), é compostopelos vértices e arestas de acordo com a Equação 9.(8)R d (g) =V (δ d (g)) − V (δ d−1 (g)) (9)onde V (.) é conjunto de vértices e − é a operação de diferençade conjuntos. As arestas são obtidas pelas conexõesentre os vértices resultantes da operação.Neste trabalho foi considerado o grau hierárquico ki d dasredes definido através do número de arestas que conecta osanéis R d (i) e R d−1 (i) sobre todos os vértices i presentesna rede. De forma análoga, o grau hierárquico com pesosk w,dié definido como a soma dos pesos das arestas que conectamos anéis em questão. O exemplo de cálculo do grauhierárquico 1 e 2 é apresentado na Figura 1.uma rede complexa é construída, onde cada pixel é representadocomo um vértice na rede e as arestas entre os vérticesvizinhos (r = √ 2 para vizinhança de 8) são inseridasde acordo com as Equações 2 e 3. O peso das arestas entrepares de pixels são calculados através da diferença entrepropriedades visuais, neste trabalho, a propriedade visualP (i) utilizada é a intensidade em níveis de cinza.Para descrever as redes complexas com eficiência, as medidaspara caracterização da rede, descritas anteriormente,são extraídas em cada vértice. Nesta etapa, cada vértice ipossui um vetor f i de medidas com dimensão R 8 , descritona Equação 10. A visualização de uma medida da rede, graudos vértices, é apresentada na Figura 2.f i =[k i ,k w i ,c i ,c w i ,k 2 i ,k 3 i ,k w,2i ,k w,3i ] (10)(a) Imagem original da face.(b) Imagem com o grau de cadavértice da rede.Figura 2. Visualização do grau de uma redecomplexa construída através de uma imagem,cada pixel representa o valor do grauk i .Figura 1. Exemplo do cálculo do nível hierárquico,ki 1 =4(arestas em laranja) e ki 2 = 13(arestas em verde). Note que o grau hierárquicoki 1 é igual à conectividade do vértice.5. MétodoO método apresentado neste trabalho é aplicado em imagenscontendo apenas faces. Uma estratégia baseada emum conjunto de características Haar-like[11] foi utilizadapara detectar a face nas imagens. Esse passo é interessantepara descartar informações irrelevantes do fundo e considerarapenas a região da face. Após a detecção da face,Com as medidas calculadas, devido à alta dimensionalidade,os momentos estatísticos são aplicados para cada medidade acordo com a Equação 11, onde p representa a ordemdo momento, x i representa o valor de uma medida paracada vértice i e X representa a média da medida.h p =N(x i − X) p (11)i=1Por fim, o vetor de características utilizado neste trabalhoé constituído pela média e momentos de ordem 2 a 5 de cadamedida, resultado em um vetor com 40 valores. O algoritmopara o reconhecimento de faces é apresentado abaixo.6. Experimentos e ResultadosOs experimentos com as redes complexas foram realizadoscom o banco de imagens de faces Yale B [8]. Desse259


Voltar ao sumárioAlgorithm 1 Passos para Reconhecimento de Facescn = criar_rede_complexa(imagem,τ,r){Equações 2 e 3}for i=0:N dof i = extrair_medidas(cn){Equações das medidas}end forfor p=2:5 dofor m=0:7 doψmp = calcular_momentos( f(m),p){momentos deordem p (Equação 11) para cada medida m}end forend forbanco, os experimentos foram aplicados em 50 imagens de10 indivíduos em diferentes condições de iluminação, totalizando500 imagens. Exemplos de algumas imagens utilizadasneste trabalho são ilustrados na Figura 3.Nos experimentos, os valores de limiar τ foram variadosde 1 a 50 na construção das redes complexas. Para a classificaçãodas faces, as redes neurais, disponível na ferramentaweka[7], foram treinadas com os vetores de característicasextraído de cada rede complexa e utilizada na classificação.Os experimentos foram realizados com base na estratégiade validação cruzada com 10 pastas.Os resultados obtidos são apresentados na Figura 4 e nasTabelas 1 e 2. No gráfico da Figura 4 são apresentados os resultadosna variação do limiar τ para organização da rede,onde o melhor resultado obtido foi de 96.8% com o valor14 de limiar. Para a curva de classificação obtida, é possívelnotar que entre os limiares 10 e 20 a porcentagem declassificação correta se mantém próximo a 95%, enquantoque, a partir do limiar 20 a porcentagem de classificaçãodecai. Esse comportamento é devido a pequenas diferençasnos tons de cinza das faces dos indivíduos. Com isso, a redecomplexa com um limiar pequeno representa a face commais detalhes e essas pequenas diferenças pode auxiliar naclassificação dos diferentes indivíduos. Entretanto, se o limiarfor muito pequeno, a rede complexa pode representaralgum ruído e não generalizar a face dos indivíduos, e comisso, confundir a classificação das faces.Figura 4. Limiar X Porcentagem de ClassificaçãoCorreta.Na Tabela 1 é apresentada a matriz de confusão para umarede complexa construída com limiar 14. Através dessa matrizé simples identificar se duas classes estão sendo confundidas.Figura 3. Exemplo de imagens do bancoYale B. Esse banco disponibiliza imagenscom faces de 10 indivíduos em diferentescondições de iluminação.1 2 3 4 5 6 7 8 9 101 502 49 13 1 46 34 1 495 1 48 16 1 45 1 37 1 498 509 1 1 4810 50Tabela 1. Matriz de confusão.Por fim, os resultados obtidos com as redes complexasforam comparados com a técnica eigenfaces na Tabela 2.Nessa tabela é comparada a porcentagem de classificação,o erro e a área sob a curva ROC. A área sob a curva ROC éuma análise interessante, pois comparada a testes estatísticos,são insensíveis a mudanças na distribuição das classese fornecem uma indicação entre a separação das classes e oíndice de decisão do algoritmo de classificação[5], neste trabalhoas redes neurais. Os resultados das redes complexas,comparados com o eigenfaces, são promissores, já que coma utilização de outros raios de vizinhança ou propriedadesvisuais, a classificação correta pode ser incrementada.260


Voltar ao sumárioPorcentagem Correta Erro Área ROCRedes Complexas 96.8% 0.0741 0.998EigenFaces 96.6% 0.0818 0.981Tabela 2. Comparação entre a metodologiacom redes complexas e eigenfaces.7. Conclusão e Trabalhos FuturosNeste artigo foi apresentada uma nova metodologia paraa aplicação das redes complexas no reconhecimento defaces. Experimentos no limiar foram conduzidos para encontrara melhor configuração da rede complexa para esteproblema particular. Os resultados obtidos mostraram queas redes complexas podem ser utilizadas nesse problemacom eficiência e, com a modelagem de imagens através dasredes e a extração de suas medidas, é possível avaliar diversosoutros problemas da área de visão computacional e reconhecimentode padrões.Como trabalhos futuros, é interessante avaliar as redescomplexas com diferentes raios de vizinhança e utilizar outraspropriedades visuais para quantificar o peso das arestas,como a textura. A extração de medidas somente de algumasregiões da face (e.g. olhos, boca e nariz), pois diversos trabalhosobtiveram bons resultados quantificando somente essasregiões.8. AgradecimentosEste trabalho recebeu apoio financeiro do Conselho Nacionalde Desenvolvimento Científico e Tecnológico -CNPq.Referências[1] A. R. Backes, D. Casanova, and O. M. Bruno. Método deaproximação poligonal de contornos utilizando redes complexas.INFOCOMP Journal of Computer Science, 6(2):71–80, 2007.[2] P. N. Belhumeur, a. P. H. Jo and D. J. Kriegman. Eigenfacesvs. fisherfaces: Recognition using class specific linear projection.IEEE Trans. Pattern Anal. Mach. Intell., 19(7):711–720, 1997.[3] J. Bigün, G. Chollet, and G. Borgefors, editors. Audio- andVideo-Based Biometric Person Authentication, First InternationalConference, AVBPA ’97, Crans-Montana, Switzerland,March 12-14, 1997, Proceedings, volume 1206 of LectureNotes in Computer Science. Springer, 1997.[4] S. Boccaletti, V. Latora, Y. Moreno, M. Chavez, and D. U.Hwang. Complex networks: Structure and dynamics.Physics Reports, 424(4-5):175–308, February 2006.[5] A. P. Bradley. The use of the area under the roc curve in theevaluation of machine learning algorithms. Pattern Recognition,30(7):1145–1159, 1997.[6] T. Chalumeau, L. L. da F Costa, O. Laligant, and F. Meriaudeau.Complex networks: application for texture classification.In Eighth International Conference on Quality Controlby Artificial Vision, volume 6356, may 2007.[7] S. Garner. Weka: The waikato environment for knowledgeanalysis, 1995.[8] A. Georghiades, P. Belhumeur, and D. Kriegman. From fewto many: Illumination cone models for face recognition undervariable lighting and pose. IEEE Trans. Pattern Anal.Mach. Intelligence, 23(6):643–660, 2001.[9] H. Hongo, M. Ohya, M. Yasumoto, and K. Yamamoto. Faceand hand gesture recognition for human-computer interaction.ICPR, 02:2921, 2000.[10] H. J.V. Human neural systems for face recognition and socialcommunication. Biological Psychiatry, 51:59–67(9), 2002.[11] R. Lienhart and J. Maydt. An extended set of haar-like featuresfor rapid object detection. volume 1, pages 900–903,2002.[12] M. E. J. Newman. The structure and function of complex networks.SIAM Review, 45:167–256, 2003.[13] T. C. Silva and L. Zhao. Pixel clustering by using complexnetwork community detection technique. In ISDA ’07:Proceedings of the Seventh International Conference on IntelligentSystems Design and Applications, pages 925–932,Washington, DC, USA, 2007. IEEE Computer Society.[14] M. Turk and A. Pentland. Face recognition using eigenfaces.pages 586–591, 1991.[15] V. Vetter, T. Zielke, and W. von Seelen. Integrating facerecognition into security systems. In AVBPA, pages 439–448,1997.[16] M.-H. Yang. Kernel eigenfaces vs. kernel fisherfaces: Facerecognition using kernel methods. In FGR ’02: Proceedingsof the Fifth IEEE International Conference on AutomaticFace and Gesture Recognition, page 215, Washington,DC, USA, 2002. IEEE Computer Society.[17] J. Yi, H. Yang, and Y. Kim. Enhanced fisherfaces for robustface recognition. In BMVC ’00: Proceedings of theFirst IEEE International Workshop on Biologically MotivatedComputer Vision, pages 502–511, London, UK, 2000.Springer-Verlag.[18] W. Zuo, K. Wang, D. Zhang, and H. Zhang. Combinationof two novel lda-based methods for face recognition. Neurocomput.,70(4-6):735–742, 2007.261


Voltar ao sumárioSeleção de Atributos para a Segmentação do Couro Bovino.Lia Nara Balta QuintaGrupo de Pesquisa em Engenharia e ComputaçãoUniversidade Católica Dom BoscoAv. Tamandaré, 6000, Jardim Seminário79117-900 Campo Grande, MSlianaraq@gmail.comHemerson Pistoripistori@ucdb.brResumoO projeto DTCOURO 1 tem como objetivo desenvolverum sistema que realize a detecção das imperfeiçõesdo couro bovino usando técnicas de visão computacionalbaseadas em textura. No couro bovino a variação de texturaé muito grande, por esse motivo técnicas de extraçãode atributos foram implementadas neste projeto. Este trabalhotem como objetivo realizar experimentos com a fusãode características dos algoritmos de extração de atributospresentes no projeto DTCOURO, selecionar os atributosextraídos e segmentar a peça de couro usando asinformações selecionadas. Após segmentar a imagem estimara área do couro bovino. Os experimentos realizadosusaram imagens no estágio couro cru e wet-blue, comfundo branco e madeirado. Os resultados foram satisfatórios,tanto na seleção de atributos e na segmentação deimagens quanto na estimativa da área da peça de couro.1. IntroduçãoNo setor coureiro Brasileiro, uma parte significativa daspeças de couro produzidas são de baixa qualidade. Asmaiores causas dos defeitos presentes no couro bovino sãooriundas do manejo incorreto dos animais no meio rural.Dentre as principais causas, destacam-se os riscos ocasionadospor pregos e parafusos e marcas de ferrões, usadosno manejo do gado. Esses defeitos depreciam o material,ocasionando um menor retorno financeiro à essas peças decouro, quando comparadas à peças de boa qualidade[3].A classificação do couro bovino é realizada por um especialistaque analisa a peça de couro e atribui a esta umaclassificação. Discordâncias em relação à classificação são1 Detecção Automática de Defeitos em Pele e Couro Bovino,http://www.gpec.ucdb.br/projetos/dtcouro/comuns devido ao fato desta tarefa estar sujeita a subjetividadehumana[3].Diante dessa situação surgiu o projeto DTCOURO queestá sendo desenvolvido pelo Grupo de Pesquisa de Engenhariae Computação (GPEC) na Universidade CatólicaDom Bosco (UCDB) em parceria com a Empresa Brasileirade Pesquisa Agropecuária (EMBRAPA) Gado de Corte.Esse projeto almeja um sistema capaz de capturar e processarimagens de couro bovino, realizando tanto a detecçãodos defeitos quanto a classificação dessas peças. Com acriação desse sistema, a classificação tornar-se-á mais segurae imparcial, aumentando sua precisão.O couro bovino apresenta uma variação de texturas,tonalidades e espessuras muito grande. Devido aesses fatores, algoritmos de extração de atributos foram implementadosafim de obter a extração mais adequadapara cada tipo de ambiente e estágio da peça de couro.Nesse trabalho foram utilizados os estágio couro cru, exemplificadonas Figuras 1 (a) e (b) e wet-blue (c) e (d).Os métodos de extração de atributos usados nesse trabalhoforam: Padrões Binários Locais (Local Binary Pattern),Mapas de Interação, Matriz de Co-ocorrênciae Filtros de Gabor, esses métodos estão implementadosno projeto DTCOURO. Este trabalho teve a finalidadede realizar experimentos com a fusão dos atributos obtidoscom estes métodos através de diferentes algoritmosde seleção de atributos presentes no WEKA e usar essasinformações para segmentar uma imagem em duasclasses, couro e fundo, com o objetivo de evidenciar somentea peça de couro. Para realizar o cálculo da imagem,o sistema foi calibrado através de uma moeda, com essa referênciaa área da imagem foi estimada.A seção 2 apresenta as técnicas de extração de atributosutilizadas neste trabalho, as seções 3 e 4 tratam de seleçãode atributos e segmentação, respectivamente. A seção 5 relataos experimentos, as seções 6 e 7 apresentam, respectivamente,a conclusão e os trabalhos futuros.262


Voltar ao sumário(a) (b) (c) (d)Figura 1. (a) carrapato e (b) risco fechado noestágio couro cru, (c) marca a fogo e (d) estriano estágio wet-blue.(a)(b) (c) (d) (e)Figura 2. Exemplo do método LBP.2. Extração de AtributosO objetivo da extração de atributos (características)é evidenciar diferenças e semelhanças entre objetos.As características podem ser analisadas levandoem consideração cor, brilho, textura, dentre outros. Existemvárias maneiras de extrair atributos de uma imagem.A forma de apresentação desses atributos pode ocorrerde maneira numérica, como centro de massa ou de maneiradescritiva como no caso da diferenciação de gestos[7].Neste trabalho a extração de atributos é aplicada com o objetivode encontrar a distinção entre as classes (couro efundo), para a realização dessa tarefa pode-se extrair característicasde formas, cores, ângulos, regiões, entre outras.Essa seção apresenta algumas técnicas de extração de atributos,essas técnicas fazem parte do projeto DTCOURO.Somente Padrões Binários Locais e Mapas de Interaçãoserão descritas nesta seção pelo fato de serem técnicasmenos clássicas como Matriz de Co-ocorrência[4] e Filtrosde Gabor[9].2.1. LBP - Padrões Binários LocaisO LBP éummétodo de extração de atributos em tons decinza. Consiste em atribuir um valor a cada pixel de umaimagem de acordo com a variação na intensidade do pixelem relação aos seus vizinhos. Várias aplicações utilizamométodo LBP, dentre elas podemos destacar o reconhecimentode faces e texturas[6][13][8].A Figura 2 (a) representa uma imagem na forma de matriz.Cada posição dessa matriz representa um pixel da imagem.O método realiza uma varredura na imagem e paracada pixel calcula sua vizinhança através de um númerode vizinhos v e um raio r. Por exemplo, o pixel (2,3) damatriz da Figura 2 (a), com r=1 e v=8, terá a vizinhançaconforme ilustrado na Figura 2 (b). Posteriormente ocorreuma comparação do valor da intensidade do pixel central,no caso (2,3), com cada pixel vizinho. Os vizinhos que possuemvalor maior ou igual ao pixel central recebem 1 e osmenores 0, conforme ilustração presente na Figura 2 (c).Os valores binários são convertidos para decimais e a somatóriadestes é o valor do LBP para o pixel (2,3).2.2. Padrões Binários Locais Invariantes àRotaçãoCom o intuito de aprimorar o método LBP, surgiu oLBPROT, Padrões Binários Locais Invariantes à Rotação.O LBPROT realiza uma rotação, “shift”circular à direita,na cadeia de binários ilustrada na Figura 2 (c), afim de encontrarum atributo que seja invariante à rotação. O númerode rotações realizadas é igual ao tamanho da cadeia emquestão. A cada rotação na cadeia de binários o valordecimal dessa cadeia é calculado, após realizada todas asrotações, o menor valor é escolhido[10] [5][8].2.3. Mapas de InteraçãoOmétodo baseado em mapas de interação analisa ospares de tons de cinza de uma imagem. Permite a análisede atributos como entropia, dissimilaridade, contraste, momentoda diferença inversa, segundo momento angular ediferença inversa de uma imagem.Ométodo percorre a imagem e a cada pixel, dado umvalor do ângulo a e uma distância d, encontra um outropixel. Com a informação dos dois pixels calcula o móduloda diferença entre os pares de tons de cinza e armazenaeste valor em uma matriz. Esta matriz, chamada de mapapolar de interação, terá dimensões iguais às variações dedistâncias e ângulos. O valor da diferença entre os tons decinza é armazenado na posição referente ao valor do ânguloe da distância respectivamente. Os valores seguintes são somadosàs suas respectivas posições até que a varredura daimagem seja concluída[1]. Nesses experimentos foram usadosas distâncias de 1, 2 e 3 pixels e ângulos de 0 ◦ à 180 ◦com incremento de 45 ◦ .3. Seleção de atributosO objetivo da seleção de atributos é encontrar um subconjuntoque represente, de forma mais relevante, as classesem um determinado problema de classificação. Esse subconjuntodeve possuir a mesma porcentagem de acerto coma menor quantidade de atributos possíveis. Neste trabalho,o conjunto inicial é representado pelo resultado da extração263


Voltar ao sumáriode atributos, das classes couro e fundo, de todos os métodosusados nesse trabalho. Em seguida são apresentados os algoritmosde seleção de atributos usados nesse trabalho,esses algoritmos fazem parte do WEKA.3.1. Subida da encostaO objetivo deste algoritmo é encontrar o melhor valor local.Para a escolha deste valor, todas as possibilidades de escolhasão consideradas, porém o sentido sempre segue emdireção do valor crescente, por este motivo, alguns autoreso conhecem como algoritmo de busca gulosa local[12].Porém este algoritmo apresenta alguns problemas, comoos platôs que são regiões planas encontradas no caminhoda subida. Diante dessa situação o algoritmo da subida daencosta apresenta certa dificuldade na solução, pelo fatode “enxergar” apenas os valores vizinhos dos nós analisados.Os máximos locais, representam o valor máximo encontradodentre os vizinhos, porém menor que o máximoglobal 2 [12].3.1.1. Best-First search Ométodo best-first search temcomo objetivo selecionar o nó mais promissor dentre osgerados. Para a escolha desse nó é usada uma função deavaliação. Se não houver nó a ser expandido, uma mensagemde falha é retornada, caso contrário a expansão ocorrerá.A parada ocorre quando o estado “meta” é encontrado,nesse caso a solução é retornada[12].3.1.2. Busca gulosa O objetivo deste algoritmo é expandironó com menor custo entre as transições, com o intuito deobter a solução mais rápida. Para a avaliação dos nós usa-sea heurística f(n)=h(n), sendo que h(n) representa o custo entreas transições[12].O problema apresentado por este método é o fato destepoder escolher um caminho maior, visto que leva emconsideração apenas a transição dos nós não possuindo retorno,desse modo o algoritmo não pode testar outrasrotas. A Figura 3 ilustra um exemplo da aplicação do algoritmo.3.2. Algoritmos GenéticosOs algoritmos genéticos 3 (AG) são uma técnica inspiradano processo evolutivo e na genética. O ponto de partidadesse algoritmo é uma população inicial gerada aleatoriamente.A avaliação dessa função é baseada na proximidadeda mesma com a solução do problema. Os melhoresatributos servirão de base para as próximas populações. Oprocesso evolutivo prossegue até que se chegue a soluçõessatisfatórias[12].Figura 3. Exemplo do algoritmo GreedySearch.4. SegmentaçãoO objetivo da segmentação de textura é identificar umobjeto de acordo com regiões similares em uma imagem.Para obter uma melhor segmentação pode-se melhorar aqualidade da classificação do algoritmo. Vários estudosestão sendo realizados nesta área, um deles realiza a fusãoda Matriz de co-ocorrência com Filtro de Gabor. Estesatributos foram testados individualmente, em duplas e asmesmas duplas de atributos foram submetidas à análise deComponentes Principais (PCA) e pelo contraste de características(FC)[2]. Já [14] usou a extração e seleção de atributoscom o intuito de reconhecer uma malha viária e demaiscomponentes do transporte urbano, para alcançar esseobjetivo foram usados os algoritmos genéticos e algoritmode busca exaustiva por máxima verossimilhança exaustiva.Neste trabalho foram usados algoritmos para a seleçãodas características da fusão dos métodos LBP, Mapas deInteração, Matriz de Co-ocorrência e Filtros de Gabor. Essaseleção foi realizada pelos métodos best-first, algoritmosgenéticos e busca gulosa. Com os atributos selecionados aimagem foi segmentada.5. ExperimentoPara a realização dos experimentos foram usadas 2 imagensde couro no estágio couro cru e 6 imagens do courono estágio wet-blue, sendo que 3 possuem fundo madeiradoe as demais fundo branco. As imagens foram selecionadasdo banco de imagens do projeto DTCOURO, essas imagensforam capturadas por uma câmera digital em visitastécnicas a frigoríficos e curtumes. Todas as imagens usadasnos experimentos apresentam resolução de 640x480 pixels.A Figura 4 ilustra exemplos de imagens usadas nos testes 4 .O objetivo dos experimentos é encontrar um conjuntoque represente as classes usadas nesse trabalho,couro e fundo, que possua a menor quantidade de atributossem perda na porcentagem de acerto. Após encon-2 Valor mais alto (pico mais alto)3 Genetic search4 As imagens no estágio wet-blue usadas nos experimentos são imagenspequenas que imitam o contorno das peças do couro bovino.264


Voltar ao sumário(a) (b) (c)Figura 4. Exemplos de imagens usadas nosexperimentos (a) couro cru, (b) wet-blue comfundo madeirado e (c) wet-blue com fundobranco.QCI QSCBest-First 90 8Busca gulosa 90 8Algoritmos genéticos 90 29Tabela 1. Resultados da seleção de atributosno estágio couro cru. Na segunda coluna sãoapresentados a quantidade de atributos noconjunto inicial e na terceira coluna a quantidadede atributos no subconjunto.trar esse conjunto, usá-lo como base para a segmentaçãoda imagem. Com a imagem segmentada, estimar a área docouro usando uma moeda para calibrar o sistema. Para extraircaracterísticas das imagens foram utilizados algoritmosde extração de atributos presentes no projetoDTCOURO, sendo eles: LBP, Mapas de interação, Matrizde co-ocorrência e Filtros de Gabor. Para a etapade seleção de atributos foram utilizados os métodosbest-first, busca gulosa e algoritmos genéticos, esses algoritmosestão implementados no WEKA.Selecionadas as imagens, iniciou-se a etapa de marcação,sendo que nesta fase foram marcadas regiões das classescouro e fundo. Realizadas as marcações, foram obtidasamostras de 40x40 pixels com espaçamento de 2 pixels entrecada amostra. No estágio wet-blue com fundo madeiradoforam extraídas 2598 amostras de couro e 1454 amostras defundo. Já no estágio wet-blue com fundo branco foram extraídas2369 amostras de couro e 1203 amostras de fundo.No estágio couro cru totalizaram 2352 amostras de couro e4457 amostras de fundo.O conjunto de dados foi submetido aos métodos deseleção de atributos e, para cada experimento, obteve-se umsubconjunto de informações selecionadas. O subconjuntoescolhido é composto pelo menor conjunto de atributos querepresente as classes tratadas nesse trabalho sem perda naporcentagem de acerto. Este subconjunto foi usado comobase para a segmentação da imagem. Para a segmentação, aimagem é percorrida e são extraídas amostras com a mesmaconfiguração, tamanho e distância entre pixels, das amostrasextraídas na etapa inicial. As informações obtidas são classificadaspelo algoritmo de classificação escolhido, paraestes experimentos foi usado o algoritmo C4.5[11]. O resultadoda classificação da amostra em questão recebeu umacor escolhida pelo usuário, a cor escolhida nesses experimentosfoi preto para couro e para o fundo a cor não sofreualteração, logo este ficou com sua coloração natural. Naclassificação, a árvore do algoritmo C4.5 foi treinada comos atributos selecionados. A imagem em questão foi percorridae, a cada dois pixels no eixo x e dez no eixo y, umanova amostra foi capturada. Para cada amostra os algoritmosde extração de atributos foram aplicados e os resulta-dos foram classificados pela árvore de decisão. Na extraçãode características, foram extraídos apenas os atributos usadospara o treinamento da árvore. Os parâmetros para odeslocamento usados nesse trabalho foram os valores queobtiveram os melhores resultados.Para os testes da área da imagem, foi usada uma moedade R$0,05 centavos, este objeto foi escolhido por ser de fácilacesso e possuir área fixa e conhecida. A moeda foi capturadaatravés de uma ROI (região de interesse) e foi obtidaa quantidade de pixels presente na moeda. Armazenados osdados da moeda, a região com cor preta na imagem segmentadafoi analisada e a quantidade de pixels calculada.Com as informações da quantidade de pixels da moeda, dapeça de couro segmentada e da área real da moeda, uma regrade três foi aplicada e a área da peça de couro foi estimada.6. Discussão dos resultadosO conjunto inicial de atributos foi comparado ao subconjuntoselecionado, os resultados estão presentes nas Tabelas1, 2 e 3. Como esse trabalho tem objetivo de encontrar oconjunto que possua a menor quantidade de atributos semperda de resultado, as porcentagens de acerto do conjuntoinicial e do subconjunto, permaneceram as mesmas.A Tabela 1 mostra os resultados da seleção de atributosno estágio couro cru. A porcentagem de acerto foi de99,98%. As siglas QCI e QSC, correspondem à quantidadede atributos no conjunto inicial e à quantidade de atributosno subconjunto, respectivamente.A Tabela 2, mostra os resultados da seleção de atributosno estágio wet-blue com fundo madeirado. A porcentagemde acerto foi de 100,00%.A Tabela 3, mostra os resultados da seleção de atributosno estágio wet-blue com fundo branco. A porcentagem deacerto foi de 99,97%.Os resultados da seleção de atributos foram usados parasegmentar uma imagem de couro. A Figura 5 ilustra asegmentação de uma imagem de couro bovino no estágiowet-blue com fundo branco submetida ao método de seleçãode atributos busca gulosa. Pode-se perceber que houve265


Voltar ao sumárioQCI QSCBest-First 90 6Busca gulosa 90 6Algoritmos genéticos 90 31Tabela 2. Resultados da seleção de atributosno estágio wet-blue com fundo madeirado.Na segunda coluna são apresentados aquantidade de atributos no conjunto inicial ena terceira coluna a quantidade de atributosno subconjunto.QCI QSCBest-First 90 37Busca gulosa 90 37Algoritmos genéticos 90 42Tabela 3. Resultados da seleção de atributosno estágio wet-blue com fundo branco. Nasegunda coluna são apresentados a quantidadede atributos no conjunto inicial e naterceira coluna a quantidade de atributos nosubconjunto.grande diferença apresentada entre as classes. A distinçãoentre wet-blue e madeira é muito grande o mesmo acontececom o fundo escuro e o couro claro, estágio couro cru, dessemodo, um pequeno conjunto de atributos é capaz de caracterizarcada classe (couro e fundo).A Figura 6 mostra algumas imagens usadas para os testesda área da imagem. Para verificar a veracidade dos resultadostambém foram usadas imagens com a área já conhecidae posteriormente os testes com as imagens do projetoDTCOURO foram realizados. A Figura 6 (a) possuiárea estimada de 29cm 2 e a Figura 6 (b) possui área estimadade 5,34m 2 . Nos experimentos com imagens cujos objetospossuíam áreas conhecidas, em 87,5% dos casos o sistemaacertou 97% da área da peça de couro.(a)(b)Figura 6. Exemplos de imagens usadas noexperimentos para cálculo da área.uma boa segmentação, porém com confusões na regiões detonalidades semelhantes.(a)(b)Figura 5. Imagens wet-blue com fundobranco, (a) imagem original e (b) imagemsegmentada.Observou-se que os algoritmos best-first e busca gulosalevam em consideração atributos distintos, por exemplo,dissimilaridade, correlação, entropia alguns atributosdo LBP e Gabor. Já os algoritmos genéticos trabalham comvários atributos de um mesmo método caso todos não sejamescolhidos e utilizam em poucos testes os atributos dométodo LBP.Como visto, os resultados para os experimentos comimagens com fundo madeirado e imagens couro cru obtiveramresultados com um número de atributos muito baixoem relação ao conjunto inicial. Tal fato é justificado pela7. Conclusão e trabalhos futurosNos resultados da seleção de atributos observou-se umadiminuição significativa na quantidade de atributos selecionados.Em relação à estimativa da área da peça de couroo sistema comportou-se de forma satisfatória.Estima-se que em um futuro próximo, com um banco deimagens com um maior número de fotografias, os atributospara cada tipo de estágio do couro bovino (couro cru e wetblue)sejam fixados. Com isto serão extraídos apenas atributosrelevantes a cada situação, sem perda na porcentagemde acerto. A extração de apenas um subconjunto específicotorna tanto a extração quanto a segmentação tarefas maisrápidas, enriquecendo, ainda mais, o projeto DTCOURO.A alta porcentagem de acerto apresentada naclassificação, o baixo número de imagens usadas nostestes pode ter contribuido para este fato. As imagens presentesno banco do projeto DTCOURO são imagenspreliminares e não possuem o plano da peça de couro paraleloao plano da câmera, porém tais características foramassumidas para a realização dos experimentos. Como trabalhofuturo pretende-se realizar visitas técnicas com osequipamentos específicos (grua, tripé, etc), para obter imagensmais padronizadas e com planos, de câmera e peçado couro, paralelos. Ampliar o número de algoritmos de266


Voltar ao sumárioseleção de atributos, aprimorar os critérios de seleção deatributos. E realizar experimentos com um maior conjuntode imagens, a ampliação do conjunto de imagenstem como objetivo testar as técnicas utilizadas neste trabalhoem novas situações, tais como: novas pelagens,tonalidades, etc.8. Agradecimentos[12] S. Russel and P. Norvin. Inteligência Artificial. PrenticeHall.[13] C. L. Sanches. Novel image processing of 3d textures. Master’sthesis, Heriot Watt University, september 2003.[14] J. C. Santos, J. R. de Freitas Oliveira, L. V. Dutra, S. J. S.Sant’Anna, and C. D. Rennó. Seleção de atributos usandoalgoritmos genéticos para classificação de regiões. In XIIISimpósio Brasileiro de sensoriamento remoto., pages 6143–6150.Este trabalho recebeu apoio financeiro da UniversidadeCatólica Dom Bosco, UCDB, da Agência Financiadora deEstudos e Projetos, FINEP. O co-autor é bolsista de Produtividadeem Desenvolvimento Tecnológico e Extensão Inovadorado CNPQ e a autora recebeu bolsa do CNPQ.Referências[1] D. Chetverikov. Structural filtering with texture featurebased interaction maps: Fast algorithm and applications. InIn Proceedings of International Conf. on Pattern Recognition,volume 2, pages 795–799, 1996.[2] D. A. Clausi and H. Deng. Feature fusion for image texturesegmentation. In 17th International Conference on PatternRecognition, volume 1, pages 23–26, august 2004.[3] A. Gomes. Aspectos da cadeia produtiva do couro bovino noBrasil e em Mato Grosso do Sul. In Palestras e proposicoes:Reunioes Tecnicas sobre Couros e Peles, 25 a 27 de setembroe 29 de outubro a 1 de novembro de 2001, pages 61–72.Embrapa Gado de Corte, 2002.[4] A. Latif-Amet, A. Ertuzun, and A. Ercil. An efficient methodfor texture defect detection: Sub-band domain co-occurrencematrices. Image and Vision Computing, 18(6):543–553, May2000.[5] M. P. T. O. T. Mäenpää. Multiresolution gray scale and rotationinvariant texture classification with local binary patterns.In IEEE Transactions on Pattern Analysis and Machine Intelligence24, pages 971–987, 2002.[6] T. Mäenpää. The local binary pattern approach to textureanalysis. Master’s thesis, University Oulu, 2003.[7] M. S. Nixon and A. S. Aguado. Feature Extraction and ImageProcessing. Butterworth-Heinemann, 2002.[8] T. Ojala, M. Pietikäinen, and T. Mäenpää. Multiresolutiongray-scale and rotation invariant texture classification withlocal binary patterns. IEEE Trans. Pattern Anal. Mach. Intell.,24(7):971–987, 2002.[9] A. L. Pasquali, R. Rodrigues, R. Viana, and H. Pistori.Extração de características utilizando filtro de gabor aplicadoà identificação no couro bovino. In Hífen, pages 99–105.[10] M. Pietikäinen, T. Mäenpää, and T. Ojala. Gray scale and rotationinvariant texture classification with local binary pattern.In Springer, editor, Computer Vision, Sixth EuropeanConference on Computer Vision Proceedings, Lecture Notesin Computer Science 1842, pages 404 – 420, 2000.[11] J. R. Quinlan. C4.5: programs for machine learning. MorganKaufmann Publishers Inc., San Francisco, CA, USA, 1993.267


Voltar ao sumárioEstudo e proposta de adaptação do algoritmo SIFT em relação ao problema deiluminação em imagensMachado, W. R. S. 1,2 , Louro, A. H. F. 2 , Gonzaga, A. 2 , Boaventura, M. 31 Pontifícia Universidade Católica de Minas Gerais, Av. Padre Francis Cletus Cox, 1661, Poços deCaldas, Brasil2 Departamento de Engenharia Elétrica, Universidade de São Paulo, São Carlos, Brasil3 Departamento de Ciências de Computação e Estatística, IBILCE, Universidade Estadual Paulista,São José do Rio Preto, Brasilwill@pucpcaldas.br, ahfl63@hotmail.com, agonzaga@sc.usp.br, maurilio@ibilce.unesp.brAbstract.In recent years, two promising approaches for salientregions detection in images have received specialattention from the scientific community: SIFT (ScaleInvariant Feature Transform) and SURF (Speeded UpRobust Features). Based in recent studies that describesome limitations of the SIFT, this work has as objectiveto prove the deficiency of the algorithm in relation to theillumination problem and to pose an adaptation inoriginal algorithm through an innovative approach thatuses a process of not homogeneous suavization toimprove the performance of the algorithm SIFT.1. IntroduçãoAlgoritmos baseados em métodos que não detectamapenas pontos de interesse ou as chamadas característicaslocais de regiões nas imagens, tem se mostrado bastanteeficientes na resolução de problemas relacionadas á áreade reconhecimento de padrões. Algoritmos como o SIFT(Scale-Invariant Feature Transform), proposto por Lowe[1], o SURF (Speeded Up Robust Features), proposto porBay et al. [2] e suas respectivas variações, como o PCA-SIFT [3], U-SURF [2], SURF-128 [2], são algoritmoscompletos que englobam diversas metodologiasrelacionadas aos processos de identificação de pontos deinteresse, geração de descritores e correspondência entreos pontos de interesse.Alguns dos fatores que permitiram que essesalgoritmos ganhassem popularidade devem-se ao fato dosmesmos agregarem características que os tornaminvariantes a transformações como translação,escalamento, rotação e perspectiva, alterações inerentesas condições de iluminação do ambiente onde as imagenssão adquiridas e a existência de ruídos gerados noprocesso de aquisição ou gravação das imagens.Entretanto, dependendo do grau de alteração de algumdesses fatores nas imagens, os detectores decaracterísticas desses algoritmos poderão comprometer asua eficiência nos processos de identificação dos pontosde interesse, na geração dos descritores baseados nospontos identificados ou na correspondência dessesdescritores.Para que se possa definir qual a melhor abordagem aser adotada como solução em certas aplicações éimportante avaliar o desempenho das mesmas analisandoquão invariantes elas são em relação às transformaçõesespaciais, mudança de iluminação e presença de ruídonas imagens que serão processadas pelos algoritmosavaliados.Existe uma variedade de outros métodos disponíveisna literatura que possuem o mesmo objetivo que o SIFT eo SURF, mas no trabalho de Mikolajczyk e Schmid(2005) [4] foi realizado um levantamento sobre outrosdetectores de pontos de interesse e descritores. Nestetrabalho foi constatado que o SIFT apresenta umdesempenho superior em relação aos demais algoritmosmencionados no artigo em termos de invariância. Osautores do SURF, Bay et al. (2005) [2], afirmam que oseu algoritmo é superior ao SIFT em termos de eficiênciade tempo de processamento e que o mesmo apresenta umbom desempenho no processo de reconhecimento deobjetos, considerando a qualidade dos pontos decaracterística.O artigo de Bauer et al. (2007) [5] também realiza umestudo comparativo entre os dois algoritmos e suasvariações, descrevendo os aspectos positivos e negativosinerentes a cada um deles. Os experimentos descritosneste trabalho basearam-se no desenvolvimento de umsistema que controla a navegação de um robô em umambiente aberto, implementado com base nos algoritmosestudados.Baseado nos resultados apresentados nos trabalhos deMikolajczyk e Schmid (2005) [4], e Bauer et al. (2007)[5], foram realizados alguns experimentos neste trabalhoque também nos permitiram avaliar o desempenho do268


Voltar ao sumárioSIFT em relação a variação das condições de iluminaçãonas imagens processadas pelo algoritmo, comprovar suadeficiência e propor uma abordagem para melhorar odesempenho do algoritmo tornando-o menos suscetível aeste tipo de alteração.Um dos objetivos deste trabalho foi avaliar se asubstituição da metodologia de suavização linearutilizada no processo de detecção de pontos chave poroutra metodologia baseada no processo de suavizaçãoseletiva, usando o modelo de Barcelos, Boaventura eSilva Jr. [6], proporcionaria ao algoritmo SIFT um ganhode desempenho em relação a imagens que foram obtidasem diferentes condições de iluminação.Em um dos estudos realizados foi constatado que obrilho próximo a regiões de borda exerce importanteinfluência no processo de detecção de pontos chavesusando a metodologia de suavização linear utilizada peloSIFT. Como a iluminação do ambiente influênciasignificativamente nas regiões de brilho de objetospresentes na imagem, a adoção de uma metodologiabaseada na aplicação de diferentes níveis de suavização,de acordo com certas características de regiões, comohomogeneidade e fronteira, nos pareceu ser um caminhointeressante para minimizar os problemas relacionados aeste problema.2. SIFTO SIFT tem sua origem na necessidade de lidar com oreconhecimento de objetos em cenas reais repletas comobjetos de todos os tipos onde o perigo de oclusões égrande e na “recente” pesquisa sobre o uso decaracterísticas locais densas. O SIFT transforma essascenas reais em um conjunto denso de vetores de feiçõeslocais (descritores). Cada um desses vetores é invariantea translação, rotação e escala e parcialmente invariante ailuminação e a projeções 3D ou afim. Essas feições sãoeficientemente identificadas usando um processo defiltragem em estágios. O primeiro estágio identifica asposições chave no espaço-escala através da busca porposições de máximo ou mínimo de uma função diferençade Gaussianas (DoG), a qual é uma aproximação doLaplaciano da Gaussiana (LoG). Cada ponto detectado éusado para gerar um vetor de feições que descreve umaregião local da imagem amostrada em relação aos eixosde coordenadas espaço-escala, isto é, os pontos têm umalocalização tanto nas coordenadas espaciais (x,y) quantono eixo das escalas () e o vetor de característicasdescreve a vizinhança em torno desses pontos em relaçãoa cada escala utilizada do espaço-escala. Com essadescrição em várias escalas obtém-se a invariância aescala.Os trabalhos de Bauer et al. (2007) [5] e Ballesta et al.(2007) [7] basearam-se na avaliação do desempenho dealguns dos principais métodos de detecção e descrição deregiões salientes, comparando a proposta daimplementação original do SIFT, SIFT++, LTI-Lib SIFT,Harris, SUSAN (Smallest Univalue SegmentAssimilating Nucleus), SURF e o SURF-d. No trabalhode Bauer et al. (2007) [5] os algoritmos foramsubmetidos a um conjunto de testes com o objetivo deavaliar suas invariâncias em relação a rotação, mudançade escala, ruído, mudança das condições de iluminação emudança de perspectiva. Ballesta et al. (2007) [7] avalioua compatibilidade dos detectores quando usados comoextratores de pontos de referência em sistemas de visãobaseados simultaneamente em localização e mapeamento,também conhecidos como visual SLAM. Esta análise foirealizada com base na repetibilidade dos pontos emrelação às mudanças de perspectiva de visualização eescala no espaço 2D e 3D.3. Suavização em imagensExistem diversas metodologias e técnicas na literaturaque podem ser aplicadas para eliminar ou reduzir ruídospresentes nas imagens. As abordagens destinadas a estefim são comumente conhecidas como processos desuavização, que podem ser classificados como lineares enão lineares.Nos últimos anos, a aplicação de equações diferenciaisparciais (EDP) em problemas relacionados a área deprocessamento de imagens e sinais tem atraído a atençãode alguns pesquisadores ligados a matemática e acomputação. As EDPs têm sido estudadas e utilizadas emdiversos tipos de aplicações, como análise e remoção deruído, estimação do fluxo óptico, retoque digital,segmentação, registro, técnicas de construção erestauração de imagens, entre outras.A grande vantagem em se substituir métodostradicionais e filtros discretos pelas EDPs emprocessamento de imagens é a possibilidade de se fazer aanálise de imagens em um domínio contínuo. Outragrande vantagem é a possibilidade de se obter“estabilidade e exatidão” no processo numérico,utilizando os recursos disponíveis da análise numérica eescolhendo algoritmos adequados para resolver as EDPs[6].Como exemplo de um processo de suavização linear,podemos citar o uso de uma função Gaussiana para filtraraltas freqüências através da convolução da função a serfiltrada com a função Gaussiana. Devido ao fato doproduto de convolução ser um operador linear einvariante, a suavização obtida através da aplicação desteoperador é considerada um processo de suavização linear269


Voltar ao sumário[6]. A convolução com a máscara gaussiana de desviopadrãoσ pode ser vista como a solução da equação decondução de calor, onde o valor da imagem original Qnum ponto (x, y) é a temperatura inicial nesse ponto, o2tempo decorrido é t = σ / 2 , e a imagem Q na escala σrepresenta as temperaturas no instante t. Assim, aconvolução gaussiana é um processo de difusão isotrópicae a solução de uma EDP ou equação de calorbidimensional pode ser expressa como uma convoluçãocom gaussianas bidimensionais.3.1. Suavização não linearProcessos de difusão anisotrópica, ou não linear, têmsido usados recentemente para melhorar a tarefa dedetecção de bordas e eliminar ruídos de imagens emvárias áreas. Com imagens médicas, Chung e Sapiro [8]usaram o modelo de difusão para detector as bordas delesões de pele em imagens digitais clínicas de pele [9].Demirkaya aplica as equações diferenciais parciais (EDP)do modelo de difusão para atenuar problemas de ruídoem imagens médicas de tomografia do tipo positronemission tomography (PET). Os resultados mostraramuma significativa melhora na qualidade das imagensfiltradas com perda mínima de resolução. Gibou et al.[10] fazem uso das EDP em imagens clínicas depacientes obtidas pelos métodos de radioterapiaconformal 3D e de terapia de radiação moduladas porintensidade [9].Para realizar o processo de restauração de imagensAlvarez et al. [11] adotou o modelo de difusãoanisotrópica conseguindo eliminar ruídos, minimizar oefeito de suavização e realçar bordas. Variantes domodelo de difusão anisotrópica aparecem em outrostrabalhos encontrados na literatura, usando multireticulado,um método de relaxamento hierárquico, queapresenta suavização intra-região rápida e reduz ruídosdevido à eliminação de erros de baixa-freqüência; eGilboa et al. apresentam duas modificações no processode difusão anisotrópico que convergem para soluções nãotriviais, eliminando a necessidade de impor um tempoarbitrário de parada para a difusão nas EDP [9].Nesta linha evolutiva de modelos não lineares, otrabalho de Barcelos et al. [6] propôs um modelo dedifusão que apresenta uma excelente ponderação entresuavização e preservação de bordas e quinas, umaevolução em relação a outros modelos anteriores que nãopreservam a localização dessas regiões nas imagenssuavizadas.3.2. O modelo de BBSObservando-se a deficiência de modelos como oAlvarez, Lions e Morel (ALM) [11], que apresenta fortetendência em deformar bordas e quinas, e metodologiascomo a sugerida por Nordstrom [12], que preserva bordase fronteiras, mas não apresenta uma eliminaçãosatisfatória do ruído presente nas imagens, o modelo deBarcelos, Boaventura e Silva Jr. (BBS) [6] propõe umbalanceamento da atuação da difusão e do termo forçante,proporcionando suavização completa em regiõeshomogêneas e superficial sobre as arestas. u u tg( G * u ) u div∇= ∇σ∇− (1 − g)( u − I)uλ ∇ A equação 1 descreve o modelo BBS, onde u(x, y, 0) =I(x,y) representa a imagem original com ruído, u(x, y, t) éa versão da imagem I(x, y) suavizada na escala t, G σ éuma função gaussiana que representa o núcleo daconvolução, g(|∇G σ ∗ u|) é uma função monótona nãocrescente definida de forma análoga aos modelosanteriores, σ e λ são parâmetros. A primeira parcela dosegundo membro da equação representa o modelo ALM[11]. A segunda parcela, ainda no segundo membro, écomposta pelo termo forçante sugerido por Nordstrommultiplicado pelo termo regularizador (1 – g), o qual édenominado por seletor de moderação e ainda na segundaparcela há uma constante λ que age como peso para essetermo. Neste trabalho foi considerada a função1g( ∇G* u ) = [6].σ 21 + KsAnalisando a equação 1, pode-se observar que, nasregiões homogêneas da imagem, tem-se g(|∇G σ ∗ u|)pequeno, o que implica g ∼ 1. Logo, tem-se (1 – g) ∼ 0 eo termo forçante (u – I) age de forma praticamenteinsignificante. Consequentemente, o processo de difusãoefetuado pela primeira parcela da equação é intenso, istoé, o modelo ALM será incisivo nessas regiões. Por outrolado, para as regiões de contorno onde |∇G σ ∗ u| égrande, tem-se g ∼ 0, o que implica em (1 – g) ∼ 1. Issofaz com que o termo (u – I) retenha fortemente ascaracterísticas iniciais da imagem contida em I(x, y) e,dessa forma, reforce mais as fronteiras originais naimagem [6].4. ExperimentosEmbora já existam alguns trabalhos que se propõem aavaliar as características de invariância do algoritmoSIFT, foram realizados neste trabalho algunsexperimentos complementares para avaliar melhor arobustez do método em relação ao problema de alteraçãodas condições de iluminação do ambiente onde asimagens são adquiridas. Esses experimentos visamidentificar os motivos que levam o algoritmo a ter uma270


Voltar ao sumárioqueda de desempenho e propor uma abordagemalternativa para que esta queda não ocorra em relação áproblemática estudada.4.1. Avaliação da invariância a iluminaçãoPara avaliar o quão invariante o método SIFT é emrelação à alteração das condições de iluminação foiutilizado o banco de imagens ALOI (Amsterdam Libraryof Object Images), que apresenta um conjunto deimagens de 1.000 objetos obtidos em diferentescircunstâncias, totalizando 110.250 imagens geradas paradiferentes fins.Figura 1 – Imagens utilizadas para avaliar a robustez dométodo SIFT em relação às mudanças de iluminação.Para analisar a influência do brilho e a característicado método SIFT em imagens de objetos que apresentambordas não lineares, foram escolhidas as imagens de umalâmpada, obtidas em diferentes níveis de intensidade deiluminação, conforme ilustrado na figura 1 Ascaracterísticas inerentes a variação das condições deiluminação são descritas por Geusebroek et al. [13], asimagens foram obtidas através do uso de iluminaçãonatural, variando-se o tempo de aquisição das mesmas deacordo com a iluminação emitida pelo por do sol.(a)(c)(d)Figura 2 – Correspondência entre pontos chaves,comparando a imagem 1 com (a) imagem 1, (b) imagem4, (c) imagem 8 e (d) imagem 12.Este experimento baseou-se no processo decomparação entre a imagem 1 e as demais imagens,sendo a imagem 1 tendo sido obtida com um maior nívelde iluminação e as demais foram obtidas com o nível deiluminação sendo reduzido gradativamente.(b)Analisando as correspondências dos pontos chaves,ilustrados na figura 2, podemos observar que,aparentemente, ocorrem poucos erros classificação,mesmo na comparação envolvendo a imagem da lâmpadaobtida com mais iluminação, primeira lâmpada ilustradana figura 1, e a imagem da lâmpada obtida com menosiluminação, última lâmpada ilustrada na figura 1.Tabela 1 – Resultados das classificações entre asimagens ilustradas na figura 1.Corres-pond.AcertosErrosCorres-pond.AcertosErros1 – 1 93 0 1 – 7 67 71 – 2 76 6 1 – 8 72 41 – 3 74 3 1 – 9 71 11 – 4 50 11 1 – 10 65 61 – 5 69 3 1 – 11 67 51 – 6 74 5 1 – 12 64 7Através da realização de uma análise quantitativa dascomparações entre a imagem 1 com as demais imagens,cujos resultados foram descritos na tabela 1, podemosconstatar que a quantidade de pontos chaves nãoclassificados somada a quantidade de classificaçõesincorretas é relativamente alto.Considerando que foram detectados 93 pontos chavesna imagem 1, os percentuais de classificações corretas doalgoritmo na comparação da imagem 1 com a imagem 4,imagem 1 com a imagem 8, e a imagem 1 com a 12, sãode 53,8%, 77,4% e 68,9%.4.2. Adaptação da detecção de pontos chaves noSIFTBaseado nos fatos dos modelos para processamento deimagens via EDPs fornecerem resultados extremamentesatisfatórios, não somente no que diz respeito àsuavização de imagens no aspecto visual, ou seja,remoção de ruídos, mas também por gerar segmentaçõescom alto grau de nitidez [6], este experimento propõe asubstituição do processo de simples suavização dasimagens para obter as DoGs através da simples aplicaçãode gaussianas, por um processo de suavização maismoderno e eficiente, como o modelo de BBS. Estemodelo pode ser considerado mais inovador e adequadopelo simples fato do processo de suavização não seraplicado de forma homogênea nas imagens.Para determinar o mecanismo de como esta adaptaçãodo algoritmo poderia ser feita foram realizados estudospreliminares para avaliar a melhor forma de extração dospontos candidatos a pontos chaves, de forma aproporcionar a obtenção de resultados melhores do que os271


Voltar ao sumárioresultados obtidos através da aplicação do métodotradicional. Para isso, aplicamos o modelo BBS sobre aimagem da primeira lâmpada, gerando a quantidadeempírica de 50 imagens suavizadas através de umprocesso iterativo.A partir dessas imagens, usando a mesma metodologiaque define a quantidade de níveis em uma mesma escalaque a pirâmide gaussiana deve ter, com base na propostado SIFT original, propusemos duas formas para extrair ospontos candidatos através do processo de subtraçãodessas imagens. Uma das formas foi subtrair a imagemsuavizada f’ (n+1) pela imagem anterior f’ n , e a outra formafoi subtrair a imagem suavizada f’ (n+1) pela primeiraimagem suavizada f’ 1 , variando a suavização dasimagens utilizadas neste processo.Após a obtenção das subtrações das imagenssuavizadas, manteve-se a aplicação do algoritmo original,selecionando os pontos de máximo e mínimo em umavizinhança 3x3 entre as imagens subtraídas adjacentescomo candidatos a pontos chaves, mantendo o mesmoprocesso de refinamento, geração de descritores e buscade correspondências.Tabela 2 – Quantidade de pontos chaves detectadosusando duas abordagens diferentes no processo desubtração de imagens suavizadasf’ (n+1) –Imagens suavizadas f’ n f’ (n+1) – f’ 1F’ 1 , f’ 2 , f’ 3 , f’ 4 , f’ 5 , f’ 6 4 2f’ 1 , f’ 3 , f’ 5 , f’ 7 , f’ 9 , f’ 11 6 26f’ 1 , f’ 4 , f’ 7 , f’ 10 , f’ 13 , f’ 16 5 68f’ 1 , f’ 5 , f’ 9 , f’ 13 , f’ 17 , f’ 21 3 159f’ 1 , f’ 6 , f’ 11 , f’ 16 , f’ 21 , f’ 26 3 253f’ 1 , f’ 9 , f’ 17 , f’ 25 , f’ 33 , f’ 41 3 500Para comparar o desempenho com o algoritmooriginal, aplicamos o modelo BBS sobre as imagens 1, 4,8, 12 e fizemos a mesma comparação entre as imagensdescritas na seção anterior, tabela 1. Utilizando as 1ª, 3ª,5ª, 7ª, 9ª, 11ª imagens suavizadas através da aplicação domodelo BBS sobre as imagens 1, 4, 8 e 12, foram obtidos26, 17, 14 e 8 pontos chaves referentes a essas imagens.Já utilizando as 1ª, 4ª, 7ª, 10ª, 13ª, 16ª imagenssuavizadas através da aplicação do modelo BBS sobre asimagens 1, 4, 8 e 12, foram obtidos 68, 67, 64 e 38pontos chaves referentes a essas imagens.Tabela 3 – Resultados das classificações de pontoschaves localizados na imagem 1 em relação das demais.Imagens 1 - 4 1 - 8 1 -12suavizadasAcertosEr-rosAcertosEr-rosAcertosEr-rosf’ 1, f’ 3, f’ 5, 17 3 14 4 2 4f’ 7, f’ 9, f’ 11f’ 1, f’ 4, f’ 7,f’ 10, f’ 13, f’ 1664 2 61 5 4 12Utilizando as 1ª, 3ª, 5ª, 7ª, 9ª, 11ª imagens suavizadasatravés da aplicação do modelo BBS sobre as imagens 1,4, 8 e 12, foram obtidos 26, 17, 14 e 8 pontos chavesreferentes a essas imagens. Já utilizando as 1ª, 4ª, 7ª, 10ª,13ª, 16ª imagens suavizadas através da aplicação domodelo BBS sobre as imagens 1, 4, 8 e 12, foram obtidos68, 67, 64 e 38 pontos chaves referentes a essas imagens.A tabela 2 descreve as quantidades de pontos chavesgerados através do modelo BBS em uma única oitava,utilizando duas abordagens diferentes no processo dedetecção desses pontos. Observando as informaçõesdescritas nesta tabela, constatamos que a abordagem desubtração da imagem suavizada f’ (n+1) pela imagemanterior f’ n , mesmo aumentando a suavização entre asmesmas, gera poucos pontos chaves neste processo.Sendo assim, para realizar os estudos subseqüentes foiutilizada a abordagem f’ (n+1) - f’ 1 , com n = 2, utilizandoas 1ª, 3ª, 5ª, 7ª, 9ª, 11ª imagens suavizadas, e com n = 3,utilizando as 1ª, 4ª, 7ª, 10ª, 13ª, 16ª imagens suavizadas.Esses intervalos entre as imagens suavizadas foramescolhidos devido à quantidade de pontos chaves geradosser considerada uma quantidade razoável de pontosdetectados em uma única oitava, 26 e 68 pontos chavesusando n = 2 e n = 3, respectivamente.(a) (b) (c)(d) (e) (f)Figura 3 – Correspondência entre pontos chavescomparando a imagem 1 com a imagem 4 (a) e (d), coma imagem 8 (b) e (e), e com a imagem 12 (c) e (f). (a) (b)e (c) foram obtidas com intervalo de suavização n=2 e (d)(e) e (f) com intervalo de suavização n=3.Como todas as comparações realizadas nesteexperimento foram realizadas com base na comparaçãoda imagem 1 em relação as demais, o percentual deacerto foi medido através da quantidade total de pontos272


Voltar ao sumáriochaves detectados na imagem 1. Sendo assim,observando-se as colunas de acerto descritas na tabela 3 eque foram detectados 26 pontos chaves utilizando ointervalo de suavização n = 2, os percentuais de acertodas comparações entre a imagem 1 e a imagem 4,imagem 1 e a imagem 8, e a imagem 1 e a imagem 12,são de 65,4%, 53,8% e 7,7%, respectivamente.Considerando-se a utilização do intervalo de suavizaçãon = 3 e que foram detectados 68 pontos chaves usandoesta abordagem, os percentuais de acerto dascomparações entre a imagem 1 e a imagem 4, imagem 1e a imagem 8, e a iamgem 1 e a imagem 12, são de94,1%, 89,7% e 5,9%, respectivamente.5. ConclusãoCom base nas deficiências do algoritmo SIFTdescritas nos trabalhos de pesquisadores relacionados aesta linha de pesquisa e no experimento descrito na seção4.1 deste trabalho, podemos constatar que o algoritmooriginal proposto por Lowe é um método que apresentasensibilidade em relação ao problema de alteração dascondições de iluminação no ambiente onde as imagenssão adquiridas. Além desta constatação, este trabalhoapresentou uma alternativa para deixar o algoritmo maisrobusto em relação ao problema estudado, através daadaptação do processo de detecção de pontos chaves doalgoritmo original.Os resultados obtidos através da utilização do modeloBBS no processo de suavização, apresentou umdesempenho satisfatório e superior ao desempenho obtidoatravés da aplicação do algoritmo original comparando aimagem 1 com a imagem 4, e a imagem 1 com a imagem8. Nesses casos, o ganho de desempenho foi muitosignificativo, aumento a eficiência do algoritmo em40,3% e 12,3%, respectivamente. Entretanto, no caso dacomparação da imagem 1 com a imagem 12, odesempenho foi muito inferior comparando-se com aaplicação do algoritmo original. Além disso, a técnicaprecisa ser aperfeiçoada, se fazendo necessário adaptartambém o processo de refinamento e melhorando aindamais o desempenho do algoritmo quando a iluminação doambiente é muito baixa.6. Referências[1] Lowe, D. G., Distinctive image features from scaleinvariantkeypoints, International Journal of ComputerVision, 2:91–110, 2004.[2] Bay, H., Tuytelaars, T., and Gool, L. V., SURF:Speeded up robust features. In European Conference onComputer Vision, 2006.[3] Ke, Y. and Sukthankar, R., PCA-SIFT: A moredistinctive representation for local image descriptors. InIEEE Conf. on Computer Vision and Pattern Recognition(CVPR), vol. 2, pages 506–513, 2004.[4] Mikolajczyk, K. e Schmid, C. A PerformanceEvaluation of Local Descriptors, IEEE Trans. on PatternAnalysis and Machine Intelligence, Volume 27 , Issue10, Pages: 1615 - 1630, 2005.[5] Bauer, J., S¨underhauf, N., e Protzel, P., ComparingSeveral Implementations of Two Recently PublishedFeature Detectors. In Proc. of the InternationalConference on Intelligent and Autonomous Systems,IAV, Toulouse, France, 2007.[6] Barcelos, C. A. Z., Boaventura, M. e Silva Jr., E. C.,A well-balanced flow equation for noise removal andedge detection. IEEE Trans. on Image Processing, vol.12, nro. 7, 2003.[7] Ballesta, M., Gil, A., Reinoso, O. and Mozos , O. M.,Evaluation of interest point detectors for visual SLAM,International Sar, Recent Advances in Control SystemsRobotics and Automation, 2º ed., pp. 190-199, 2008.[8] Chung, D. H.; Sapiro, G. Segmenting skin lesionswith partial differential equations based image processingalgorithm. IEEE Transactions on Medical Imaging, v.19, n. 7, p. 763-767, 2000.[9] Miranda, J. I., e Neto, J. C., Anais XIII SimpósioBrasileiro de Sensoriamento Remoto, Florianópolis,Brasil, 21-26 abril 2007, INPE, p. 5957-5964, 2007.[10] Gibou, F., Levy D, Liu, P. and Boyer, A. L., Partialdifferential equations-based segmentation forradiotherapy treatment planning. Mathemat. Biosciencesand Engineering, v. 2, n. 2, p. 209-226, 2005.[11] Alvares, L., Lions, P. L., e Morel, J. M., Imageselective smoothing and edge detection by nonlineardiffusion, SIAM J. Numer, Anal. 29, (1992) pp. 845-866.[12] Nordstrom, K. N., Biased anisotropic diffusion: aunified regularization and diffusion approach to edgedetection, Image and Vision Computing, (8), (1990) pp.318-327.[13] Geusebroek, J. M., Burghouts, G. J., Smeulders, A.W. M., The Amsterdam Library of Object Images,International Journal of Computer Vision, vol. 61, 2005.273


Voltar ao sumárioSurgical Device for Supporting Corneal TransplantsLiliane Ventura a , Jean-Jacques De Groote a , Sidney J.F. Sousa bDept. of Elect. Engineering USP, Av. Trabalhador Saocarlense 400, S. Carlos, SP Brasil 13566-590b Dept. of Opthalmology USP, Av. Bandeirantes 3900, Rib. Preto, SP Brasil 14100-900liliane@sel.eesc.usp.brAbstractA system for supporting corneal suture for minimizinginduced astigmatism, due to irregular manual stitches,has been designed. The system projects 48 light spots,from LEDs, displayed in a precise circle at the lachrymalfilm of the examined cornea. The displacement, the sizeand deformation of the reflected image of these light spotsanalysis providies the keratometry and the circularity ofthe suture. Measurements in the range of 32D – 55D anda self-calibration system has been designed in order tokeep the system calibrated. The system has been tested in13 persons in order to evaluate its clinical applicabilityand has been compared to a commercial keratometerTopcon OM-4. The correlation factors are 0.92 for theastigmatism and 0.99 for the associated axis. The systemindicates that the surgeon should achieve circularity≥98% in order to do not induce astigmatisms over 3D.1. IntroductionFor many years, optometrists, ophthalmologists andresearchers of the ocular area have used equipments tostudy the eye. Some of these equipments have been in usesimply to observe parts of the eye, subjectively, such as:magnifying glasses, Slit Lamps and bio-microscopes.Other instruments referred to as keratometers orophthalmology meters have been used to measure theradii of corneal curvature along the two main meridiansof the eye. The physics principle of such instruments isalready well known [1]. Currently, keratometers alreadyhave technological advancements that allow themeasuring of corneal curvature radii, therefore measuringthe corneal astigmatism, and some are equipped withrings projection covering the entire surface, showing thetopography of the cornea.One of the significant factors that induces cornealastigmatism during the surgical procedure is theirregularity in suturing the tissue. Sutures are manuallyperformed on the cornea and systems for monitoring thecircularity of the suturing [2,3,4,5], are not often used.Most of them are just qualitative.The intention of the present work is to provide a systemthat allows automated keratometry as well as an objectivereal-time orientation for the surgeon for suturing thecorneal tissue as most circular as possible, expecting toreduce the residual corneal astigmatism post- surgery.A brief description of the optical properties of the humancornea that concerns this work will be made as well as thecalculus involved for determining the radii of curvature ofthe cornea will be described.1.1 Optical Properties of the Human Cornea. Thecornea has a curved surface with refractive index of 1.376and thickness of 0.480mm [1,6,7]. The external curvatureradius is approximately 7.8mm (it varies from 7.00-8.00mm for emmetrope eye) and the internal radius ofcurvature varies from 6.2-6.8mm. Hence, the cornea isequivalent to a positive lens. However it is very thin andfor calculus regarding the central part of the cornea, it ispossible to consider this region of the cornea as havingparallel faces [7,8].The light rays that strike the cornea refract mainlybecause of the relative difference of refractive indexbetween the air and the corneal surface, rather thanbecause of its corresponding refraction power (42.95D).The cornea is not perfectly spherical, actually it isellipsoidal, and just the central part of the cornea, the socalled central optical zone of approximately 4,0mm, maybe considered spherical. The central zone is exactly wherekeratometry is obtained.The power of refraction of the small central portion ofthat region varies from 41-45D.In unusual conditions this region may be flatteneddown to 37D or may be curved up to 60D. Precisely, it itswell known that the so called regular zone is not alwaysspherical, actually it is toric, therefore the vertical andhorizontal axes have different values.1.2 Calculus for obtaining the radii of curvature of thecornea using a fixed dimension mire target. The humancornea has specific mechanical properties, which definesits stability and which are correlated to the stromastructure, having connections among its layers andthickness. Hence the cornea may assume different shapes,being difficult to predict a theoretical model for it. Any274


Voltar ao sumárioproposed model will present negative and positiveaspects. So, the choice of which model to be used is theone that is best suitable for the present system.The cornea may be considered as a convex mirror, whichprovides a virtual image of the projected light sourcestructure.As earlier mentioned, the cornea assumes a sphericalshape in the central optical zone. These features arerelevant for considerations of the model to be used. Thespherical model is a very good approximation for thementioned zone, but due to the flattening of the corneatoward the peripheral zone, we may obtain a smalldiscrepancy for the keratometric results in this zone whencompared to the actual keratometry measurementsobtained from the corneal topographers, for instance.However, for a more criterious and accurate study of theperiphery of the cornea, the elliptical model is applied. Inthis model, the cornea is treated as an ellipsoid, andtherefore the results of the keratometry obtained for thecornea are more realistic.The results presented by the elliptical model differ fromthe ones obtained by the spherical model, especially at theperiphery of the cornea.For keratometry purposes it can be said that, since just thecentral optical zone will be analyzed, the spherical model,which is much simpler to be implemented than theelliptical model, is sufficient and accurate, but for smallradii of curvature, no approximations should be made, aswe have learned from the development and tests of ourfirst keratometry system for slit lamps [9].1.3 Spherical Model Without Approximations. Thecentral zone of the cornea where the circular light mire isprojected (3mm in diameter) is spherical and therefore thecornea may be considered as a convex mirror.Figure 1 shows a schematic diagram of the keratometricprinciple.An object of size h (radius of the circular target mire) ispositioned at a distance a from the cornea, where it isperfectly focused onto the cornea.The reflection of object h provides a virtual image y,which is half of the dimension of the projected target onthe cornea (around 1.5mm) and is at a distance b from thecorneal surface.Distance d is 200mm for the surgical ocular microscopethat we have used. Dimension b is the distance betweenthe corneal surface and the actual position of the virtualimage of the object (projected target).Figure 1: Schematic diagram of the keratometric principle[9].Considering that the light rays coming from h reach theoptical axis at small angles, it is possible to say that thefocusing distance is one half of the curvature radius of thecornea (R).Observing triangles HOV and VIM and sinced = a + b (1)The radius of curvature of the surface to be determined is:2 d h yr = (2)2 2h − yThe keratometric results are usually presented in“Refraction Power” (F), given by expression (5) and theunit is expressed in diopters (D).nc −1F = (3)rn c (1.3375) is the corneal refractive index .This paraxial equation (3) provides the refractive powerof the corneal surface for incident rays that areapproximately normal to the cornea and it is validated justfor the central optical zone.2. The developed moduleThe system consists of a projected light ring onto thecornea in such manner that any distortion of the reflectedimage is analyzed for keratometric measurements.The keratometry system can be divided in two distinctportions: the projection system and the image capturingsystem.The projection system consists in projecting onto thepatient’s cornea a mire with 36 red LEDS displayed in aperfect circle, which is to be held by the surgeon asshown in figure 2. The mire has 5 extra LEDS (one for275


Voltar ao sumáriocenter alignment of the system and 4 others for angularalignment). The mire has a special design that projects thelight spots homogeneously and in a precise circle of 3mmof diameter in a standard cornea, i.e., with radius ofcurvature of 7.895mm (a stainless steal sphere withprecision of 0.0025mm for its radius of curvature hasbeen used as a standard cornea for calibrating the system,as shown in figure 3a). Figure 3b shows the target’s mireprojected onto a patient’s cornea.Figure 3: Target’s mire projected onto: (a) a stainlesssteal sphere; (b) the patient’s cornea duringsurgery.Figure 2: The projection system: Mire with 36 LEDSdisplayed in a perfect circle to be used during acorneal suture.The image of the target projected onto the patient’scornea is reflected back to the microscope and passesthrough the observation system. A beam-splitter is placedbetween the magnification system and the eyepiece lensesof the slit lamp, where 70% of the reflected light isdeviated to the eyepiece lenses. A regular video opticaladapter for slit lamps (lenses, pin-holes and prisms) iscoupled to the beam-splitter and a CCD camera WATEC221S is attached to it. The reflected image is analyzed bythe software at a micro computer OQO – model 2 coupledto the CCD camera via a video bus cable, as show infigure 4.Figure 4: Devices for assisting regular corneal suturing.The digitized image is processed by dedicatedsoftware for the system.The software is based on the information provided bythe structure of the projecting target, determining itsdistortion as its image is reflected back from the cornea.The distortions analyzed between the original shape ofthe projected target and its reflected image containsinformation to provide the keratometric data.Unlikely the usual keratometers, the keratometricmodule for the ocular microscope is not usually operatedin an environment free from external disturbances, aslight, for example. Hence, the developed algorithm iscapable to avoid these kinds of interferences in the imageprocessing.The image provided by the system is initiallydescribed in a matrix Im[x,y], which gives the position ofthe image in pixels and its brightness value in grayscale,hence0 ≤ Im[ x , y]≤ 255 (4)The result of the non-uniformity of the brightnessdistribution in the image of the light spots that reach theexamined surface is loss of information in theidentification process of the target’s shape. Thedeveloped algorithm considers this possibility, once itprovides the keratometric results even if some light spotis missing in the identification process.The image to be processed is composed by the 36spots of light displayed in a highly accurate circular form,where the size of the target mire as well as the focusingdistance is accurately known. The reflected imagecaptured by the optical system will carry the distortions ofthe examined surface, the cornea.276


Voltar ao sumárioAs the intensities of the light spots are nothomogeneously distributed, a convolution process is usedhaving a circular mask with a radius of the size of theaverage radius obtained by the light spots.As the center of the mask has a well defined positionit identifies its center and stores its position as Px[1],Py[1]. Proceeding similarly, structures with lowerintensities are identified.When all the N e structures have been identified, aswell as the position of their center of mass (Px[i],Py),(x cm0 , y cm0 ) may be determined, which defines the positionof the center of mass of the image by:x cm0 = ∑Px[i] / N e e y cm0 = ∑Py[i] / N e (5)The mathematical fitting expression for representingthe reflected image of the target onto the cornea is anellipse, with an inclination angle of θ related to the x axisof the coordinate system, as represented in figure 5. Thecoordinate system is X,Y and a and b are the minor andmajor axis of the ellipse, respectively.It should be noted that for the ellipse 0


Voltar ao sumáriocorrelation between our system and the Topcon OM-4 isr 2 =0.97 for the axis.4. Discussions and ConclusionFigure 7: Real time surgery measurement of keratometryand eccentricity of a cataract surgery.3. ResultsIn order to know the accuracy of our system, 21standard steal spheres have been analyzed.Figure 8 shows the correlation curve between oursystem and the data provided by the manufacturer of thestandard spheres, in a range of 3.0000mm – 17.0000mm±0.0025mm.Spheres with radius of curvature of 7.8mm, which arethe best representative for the corneal model, is 90%reproducible.Regarding figure 7, it may be noticed that high postoperatoryastigmatisms are usually induced by theirregular manual suturing of the tissue. Even a higheccentricity (98% of circularity) achieved during thesuture indicates that an astigmatism of the order of 1Dstill remains.Around 290 patients have been tested and it has beenobserved that circularity is corneal geometrical structuredependent. For instance, in order to remain astigmatismslesser then 3D, for patients with corneas having radii ofcurvature around 7.8mm, a 97% of eccentricity should beachieved; for flatter corneas (refractive power of 38D)and more warped corneas (refractive power of 55D),eccentricities of 95% and 99%, respectively should beaccomplished.This may lead to an awareness that manual sutureshould be carefully performed in order to obtain betterpost-operatory results related to remaining astigmatism.Maybe automated systems for suturing should beconsidered in the near future.5. AcknowledgementsThe authors would like to thank CNPq (477226/2003-5)for all the financial support for this research and for someof the researchers, and Hospital das Clínicas de RibeirãoPreto (São Paulo – BRASIL), which is the Hospital thathas always been contributing for the success of ourresearches.6. ReferencesFigure 8: Correlation curve between our system and thedata provided by the manufacturer of the standardspheres, in a range of 3,0mm – 17,0mm.Patients have been submitted to our system and theobtained results have high correlation factors (r 2 =0.96)with the keratometers available on the market (TopconOM-4).In order to know the accuracy of the axis componentof our system a device for distorting a contact lenscoupled to a precise angular ruler was developed. Itconsisted of a vertical wedge, where the lens was placedand slightly pushed to be vertically deformed. Threedifferent deformations were performed and they wereprecisely rotated at steps of 1 0 for the 360 0 . The1. G. Smith and D.A. Atchison, The eye and Visual OpticalInstruments, Cambridge University Press, p.175, 1941.2. Ballin, N.; Flieringa ring - the poor man's operatingkeratometer. Ophthalmic. Surg., v. 12, p.443-4, 1981.3. Igarashi, H.; Akiba, J.; Hirokawa, H. ; Yoshida, A.Measurement of the radius of corneal curvature with theMaloney surgical keratometer. Am. J. Ophthalmol., v. 112,p.211-2, 1991.4. Troutman, R. C.; RUSSA, J. A. L. ; SurgicalMicrosystems, Inc. Indicating an asphericity of the cornea of aneye - US 4046463. Sept. 6, 1977.5. Troutman, R.; Surgical keratometer in the management ofastigmatism in keratoplasty. Ann. Ophthalmol., v. 19, p.473-4,1987.6. D.J. Spalton, R.A. Hitchings and P.A. Hunter, “TheCornea”, in Ophthalmology, Merck Sharp & DohmeInternational, 1987.278


Voltar ao sumário7. B. Jue and D.M. Maurice, “The Mechanical Properties ofthe Rabbit and Human Cornea”, J. Biomechanics, vol. 19, n. 10,pp. 847-853, 1986.8. M.J. Hogan, J.A. Alvarado, E. Weddell, Histology of theHuman Eye, Philadelphia, WB Saunders, 1971.9. Ventura, L.; Riul, C.; Sousa, S.J.F.;De Groote, J.G.S.;Rosa, A.B.; Oliveira, G.C.D.; Corneal astigmatism measuringmodule for slit lamps – Phys. Med. Biol. 51 p. 1–14 (2006).10. Steinbruch, A.; Winterle, P.; Geometria Analítica -2.ªedição – São Paulo, McGraw-Hill, 1987.279


Voltar ao sumário 280


Voltar ao sumário 281


Voltar ao sumário 282


Voltar ao sumário 283


Voltar ao sumário 284


Voltar ao sumário 285


Voltar ao sumárioUm Sistema Multiagente para a Estimação da Cobertura da Conformação porJateamento em Placas de AlumínioLuiz Carlos VieiraInstituto de PesquisasTecnológicas do Estado deSão Paulocontato@luiz.vieira.nom.brFlavius P. Ribas MartinsEscola Politécnica daUniversidade de São Pauloflavius.martins@poli.usp.brAgenor de Toledo FleuryCentro Universitário da FEIagfleury@fei.edu.brAbstractPeen Forming is an industrial process based on theinduced impact of spherical particles made of steel orceramic against metallic surfaces, with the purpose ofmanipulating its shape. Its coverage estimation, animportant measurement of the reason between the hit andthe exposed areas, is still made by manual fashions andlargely dependent on human intervention. However, theautomatic segmentation of images captured from surfacesexposed to the process is difficult due to noise-likeformations such as shadows and reflections. MultiagentSystems (MAS) are a model from Artificial Intelligence inwhich computer agents interact to resolve problemsdistributed and cooperatively. They have been applied toimage processing in different domains producinginteresting results. This paper presents the efforts inconstructing a MAS to segment images captured fromaluminum alloy plates submitted to Peen Forming inorder to aid in the automatic estimation of the coverage.Keywords: Peen Forming, Coverage, MultiagentSystems, Computer vision.1. IntroduçãoO Jateamento de Granalhas (Shot Peening) é umprocesso industrial em que partículas esféricas de aço oucerâmica são projetadas contra superfícies metálicas,deformando-as para conferir maior resistência à fadiga e àcorrosão ou para controlar a forma [1]. Essa últimaaplicação, amplamente utilizada pela indústria aeronáuticae também chamada de Conformação por Jateamento(Peen Forming), tem como importante variável decontrole a cobertura – razão entre área atingida e áreatotal [2]. A medição da cobertura é ainda efetuada deforma subjetiva e largamente dependente de inspeçãovisual humana, motivando assim grande interesse deautomação.Entretanto, as imagens capturadas das superfíciesexpostas a esse processo são de difícil segmentação,principalmente devido à ocorrência de reflexos e sombrassurgidos nas endentações produzidas pelos impactos(crateras), mas também a outras formas de ruído como asestrias produzidas pela usinagem do material. Assim,métodos gerais baseados na similaridade falham emseparar pixels nos locais em que ocorrem reflexos,sombras e estrias, e métodos baseados na descontinuidadeproduzem um grande volume de bordas inválidas.Dessa forma, acreditando-se ser necessário o auxílio detécnicas da Inteligência Artificial (IA) na segmentaçãodessas imagens, uma pesquisa anterior [3] do Instituto dePesquisas Tecnológicas do Estado de São Paulo (IPT)utilizou um algoritmo indutivo para a classificação depixels entre as classes de placa e cratera a partir de dadosestatísticos obtidos com a intervenção humana. Esseesforço produziu resultados cuja taxa de erro, medida emcomparação a uma segmentação ideal realizadamanualmente, foi estimada em torno de 5% de pixelserroneamente classificados.Na busca por identificar modelos da IA quepermitissem melhorar esses resultados, observou-sepotencial nos Sistemas Multiagentes (SMA). Agentes sãoentidades computacionais que existem, observam e agemem um ambiente de execução, de forma autônoma e embusca de objetivos próprios [4]. Individualmente suaarquitetura reativa lhes permite serem flexíveis face àincerteza ou incompletude, mas em conjunto elesexploram a interação para complementar as capacidadesindividuais, dividir esforços ou ampliar a visão doambiente [5]. Da interação emergem soluções aplicáveis adiferentes domínios de problema, e já é possível observarna literatura um grande número de propostas aplicadas aoprocessamento de imagens digitais.Este artigo apresenta um SMA em estudo para auxiliara segmentação e a estimação da cobertura de imagenscapturadas de placas de alumínio submetidas àConformação por Jateamento. Ele está organizado daseguinte forma. Na seção 2 são apresentados trabalhosrelacionados e na seção 3 a proposta em construção. Naseção 4 são apresentados os resultados iniciais e na seção5 as conclusões e os direcionamentos futuros.286


Voltar ao sumário2. Trabalhos RelacionadosUm dos primeiros SMAs empregado no processamentode imagens digitais utilizou agentes para acompanharcélulas vivas em seqüências de imagens [6].Especializados em cada parte de uma célula, os agentesutilizam critérios individuais de similaridade para agregarpixels e interagem para unir esforços com agentes demesmo papel ou negociar pixels nas fronteiras. Comoforma de acompanhar a movimentação das células, osagentes duplicam-se na imagem seguinte a partir daposição na imagem anterior.Em [7] foi reproduzido o comportamento social dearanhas para realizar uma segmentação por similaridade.Durante sua movimentação, os agentes marcam pixelssimilares segundo critérios individuais “tecendo” teiasentre eles. Tal movimentação é aleatória e tambémconduzida pelas teias existentes, de forma a reforçargradualmente as maiores similaridades. Um fator deatração às teias controla a exploração da imagem, e onúmero de marcas serve à classificação das similaridades.Em [8] agentes foram utilizados para validar anéis emimagens de ossos do ouvido interno de peixes. Os agentes,especializados em anéis escuros ou claros, seguem asmaiores variações no gradiente local da região angularobservada à frente do sentido de movimento. Agentesobservados próximos permitem o distanciamento mútuoque diferencia anéis em locais de baixa variação, e osanéis são validados quando os agentes retornam ao localde partida.Em [9] empregaram-se agentes no reconhecimento deobjetos. Após serem posicionados aleatoriamente sobre aimagem, esses agentes se movem segundo fatores demomento e aleatoriedade utilizados para controlar aamplitude de exploração. O movimento também é guiadopor um fator de atração mútuo, que permite a formação degrupos distintos. Individualmente, avaliam o valor dogradiente local enquanto se movem, rotulando-se como“borda vertical”, “borda horizontal” ou “borda angular”no ponto de máximo encontrado. Os agrupamentosformados caracterizam diferentes objetos e os rótulosindividuais permitem a interpretação por meio de umarede neural.Em [10] agentes foram utilizados para a integração dediferentes operadores para a interpretação de texto doidioma japonês. Os agentes são contemplados comconhecimento formal a respeito de linhas, palavras(ideogramas) e traços, composto por indicações delocalização provável, relações com outros objetos e umafunção de custo para minimização. Individualmentebuscam minimizar essa função, mas interagem para seorganizar dinamicamente em uma estrutura hierárquica depais e filhos. O conhecimento hierárquico restringe aatuação dos agentes filhos em termos da região de busca.Avaliando suas relações em quaisquer dos níveis, umagente altera sua posição na hierarquia ou negocia filhoscom outros agentes para satisfazer seus critériosindividuais. A hierarquia final resulta na interpretação dotexto contido na imagem.Em [11] agentes foram empregados na construçãodinâmica e adaptativa de uma aplicação de processamentode imagens de propósito geral. O sistema é provido dedescritores visuais do objeto desejado e de um conjuntode imagens de treinamento. Os agentes encapsulamoperadores e executam-nos sobre uma imagem de entrada.Eles interagem diretamente entre si para solicitar aexecução de seus respectivos operadores e então seatribuem valores de credibilidade que são calculados emrelação ao quanto os resultados auxiliam na credibilidadeindividual perante os próprios demandantes. A evoluçãodas credibilidades no escopo individual permite a umagente escolher os melhores provedores e ajustar seuspróprios parâmetros, enquanto que no escopo dasociedade permite o surgimento gradual de uma seqüênciahierárquica que representa o melhor método encontradopara o processamento de imagens do problema proposto.3. Materiais e MétodosDentre os problemas abordados no projeto"Modelamento, Monitoramento e Controle de Processo deConformação por Jateamento de Esferas de PeçasUsinadas de Ligas de Alumínio", realizado pelo IPT emparceria com a Embraer e a Unicamp, destaca-se o de seestimar a cobertura de placas usinadas de ligas dealumínio (70s0-7451) submetidas à conformação porjateamento com granalhas de aço de 3,175mm dediâmetro. Considerando-se que a análise de imagens deexemplares dessas placas se apresenta como a técnicanatural para a estimação da variável de interesse, montouseum arranjo experimental para captura ilustrado naFigura 1. Ele inclui um microscópio óptico Carl Zeissmodelo Citoval 2 (30x de ampliação), uma fonte de luzbranca colimada de 30W, uma câmera de vídeo CCDcolorida da marca Moticam modelo 480, e o software deaquisição de imagens Motic Image Plus.Figura 1 – Vista frontal (a) e de topo (b) doarranjo de captura das imagens.287


Voltar ao sumárioEsse arranjo tem o propósito de auxiliar na diminuiçãodos efeitos da reflexão nas crateras e estrias durante acaptura. A placa é posicionada com as estriasperpendiculares à câmera, e então são capturadas duasimagens sob orientação de luz em 30º e 150º,respectivamente. Assim as concentrações de pixels comalta intensidade decorrentes dos reflexos permanecem emlados diferentes nas imagens (Figura 2 a, b), permitindoquase totalmente sua eliminação com um operador defusão em que cada pixel na imagem de saída é igual aopixel correspondente de menor intensidade nas imagensde entrada. Na imagem final (Figura 2, c), convertida emmonocromática uma vez que a informação de cor édesnecessária ao problema, percebe-se como efeitocolateral que as sombras e estrias escuras são realçadas.Figura 2 – Imagens originais sob iluminaçãoem 30º (a) e 150º (b), e imagem resultante dafusão (c).Os métodos gerais de segmentação no domínioespacial mostraram-se insuficientes para a segmentaçãodessa imagem, dada a grande variedade de intensidade.Apesar da tendência das crateras a apresentarem a formacircular, as sobreposições, sombras e estrias tambémdificultam a utilização direta de métodos de identificaçãode círculos. Também não se cogitou aplicar métodosbaseados no domínio das freqüências devido à dificuldadede síntese de filtros capazes de atenuar os objetosindesejáveis (sombras, reflexos e estrias escuras).No estudo dos trabalhos relacionados verificou-se queo processamento de imagens digitais por agentes baseia-seno refinamento ou reconstrução dos resultados de préprocessamentosobtidos com operadores gerais tornadosdisponíveis no ambiente de execução dos agentes. Assim,acredita-se que o sistema proposto deve utilizar agentespara reconstruir as crateras com a eliminação de resíduosgerados por sombras e estrias e com a complementaçãodas falhas decorrentes de reflexos. Como já mencionado,em um trabalho anterior [3] optou-se por utilizar ummétodo indutivo que gerou como resultado a imagemapresentada na Figura 3 (a). Logo, essa seria uma boaimagem de entrada para os agentes de um SMA.Todavia, o fato de esse algoritmo necessitar detreinamento prévio e também a percepção de que osagentes poderiam talvez produzir bons resultados sobrepré-processamentos de menor qualidade, motivaram oestudo de um procedimento similar composto apenas pormétodos gerais, guiado por conhecimento de domínio nosâmbitos da intensidade luminosa e da geometria.As crateras são consideravelmente mais escuras do queas estrias, e essas são em geral mais escuras do que aplaca. Assim aplicou-se à imagem original o algoritmo k-médias para classificar os pixels em três classes e produziruma imagem binária contendo apenas a classe de menorcentróide (média de intensidade) (1). As crateras tambémtendem a apresentar uma forma circular, e então foiutilizada em seguida uma composição das operaçõesmorfológicas de abertura e fechamento com um elementoestruturante do tipo “disco” de raio 3 para eliminar furos ediminuir artefatos em forma de península associados àspartes remanescentes de estrias (2).3⎪⎧2 ⎪⎫K( I ) = Si∈ ⎨∑∑( xj− µi) ⎬ | MIN ( µi) (1)⎪⎩ i= 1 x j∈Si⎪⎭( K( I ) D 3)•D3R = (2)Afortunadamente esse procedimento produziu umresultado similar àquele gerado com o algoritmo indutivo,conforme ilustra a Figura 3, mesmo não se tendo esseobjetivo à ocasião.Figura 3 – Resultados do algoritmo indutivo (a)e do procedimento com k-médias e morfologiamatemática (b).Dos trabalhos relacionados percebeu-se que os papéis ea organização de um SMA são o meio para a resolução doproblema, assim como a forma de representaçãonecessária à interpretação do conteúdo (rótulos). Dessemodo, optou-se por se iniciar o projeto do SMA com adefinição dos papéis e relacionamentos entre os agentes.Tal definição foi direcionada pelo resultado do préprocessamentodescrito anteriormente: como a imagem aser reconstruída é binária, grande parte das classificações288


Voltar ao sumáriojá está efetuada e os erros restantes são falhas internas(reflexos) ou externas (sombras). Ambos esses tipos deerros requerem correções nas bordas para que pixelserroneamente classificados como “cratera” ou “placa”sejam ajustados.As bordas existentes contêm informação para suaprópria reconstrução em termos da tendência decircularidade, mas, por outro lado, a sobreposição deimpactos requer que as crateras sejam diferenciadas para ocorreto ajuste das bordas, de maneira que precisam seridentificadas pelas coordenadas de seus centros ecomprimento de seus raios. Por isso foram estabelecidosos seguintes papéis para os agentes do sistema:i. Gerente de Segmentação (GS). Representa aprincipal interface do sistema, gerenciando as açõesrequisitadas e apresentando os resultados produzidospelos Decompositores de Região que cria sob aimagem no ambiente. Além disso, compete a essepapel calcular a cobertura ao final da segmentação.ii. Decompositor de Região (DR). Representa umaregião de pixels da cratera na imagem do ambiente.Para tanto, cria os marcadores, coleta seus resultadosproduzidos e valida as crateras encontradas segundoum parâmetro de tamanho mínimo ideal.iii. Marcador de Borda (MB). É responsável por marcaruma borda em um ponto específico da região,movendo-se de modo a ajustá-la nesse ponto. Isso éfeito mediante interação direta com um Marcador deCentro, de quem se aproxima ou se afasta, conformeo caso.iv.Marcador de Centro (MC). É responsável porlocalizar e marcar o centro de uma cratera e tambémpor identificar seu raio. Interage com Marcadores deBorda, movendo-se para manter a mesma distância,relativa a eles, ou sugerindo novas localidades queatendam satisfatoriamente ao grupo.A reconstrução decorre da organização dos agentes,que é parte institucionalizada no projeto (papéis) e partedinamicamente formada pelos agentes (coalizões).Utilizando uma interface gráfica, o usuário carrega aimagem no sistema, que é então processada e posta àdisposição dos agentes no ambiente. Após a solicitação deinício da segmentação, o GS cria um DR para cada regiãona imagem binária (sendo uma região um conjunto depixels de cratera conectados e delimitados por pixels deplaca). Por sua vez, cada DR cria múltiplos MBs e MCs.Os MBs são distribuídos ao longo da borda e os MCsinternamente na região.O espaçamento dos MBs é parametrizado em função datolerância aceitável para a discrepância entre a borda reale a detectada. Já a distribuição dos MCs se dá segundo osvértices do Diagrama de Voronoi calculado a partir dosMBs já posicionados. Como em um círculo ideal o vérticedo Diagrama de Voronoi construído a partir de seuspontos de perímetro coincide com o centro, isso significaque nas regiões eles indicam o melhor posicionamentoinicial para os MCs além de uma boa aproximação para onúmero necessário deles. A Figura 4 representa aorganização institucionalizada dos agentes, formadadurante a iniciação da segmentação.Figura 4 – Organização e iniciação dos agentesA organização dinâmica se dá por coalizões formadasentre os dois tipos de marcadores. Enquanto os MBsbuscam se unir a um único MC, os MCs procuram se unircom o maior número de MBs possível, desde que possammantê-los eqüidistantes de si. Essa condição é mantidapelos próprios agentes, que precisam se mover paraajustar sua posição a múltiplos MBs (no caso de um MC)ou para serem aceitos em uma coalizão com um MC (nocaso de um MB). Com essas movimentações, as bordassão ajustadas e as crateras identificadas em termos de umcentro (posição de um MC) e raio (distância aos MBs).A análise preliminar dessa arquitetura permitevislumbrar a necessidade de se estabelecer outras formasde interação entre os agentes. Por exemplo, os MCsdeveriam buscar a união de esforços ao se aproximarem,de modo a agrupar seus respectivos MBs. Também osMBs deveriam interagir com outros MCs, para substituircoalizões por outras mais adequadas. Ainda assim, asolução utilizando agentes é emergente e ocorre sem umcontrole centralizado, o que a torna também poucodeterminística. Por esse motivo, considerou-sefundamental avaliar a interação principal MB-MC comauxílio de um protótipo antes de se evoluir as demais.Para a construção dos agentes do protótipo,desenvolvido na linguagem Java (versão 6.1SE),utilizaram-se as ferramentas de código aberto JADE(versão 3.4.1) [12] e JADEX (versão 0.96) [13]. O JADEé uma plataforma de desenvolvimento que oferece umaextensa biblioteca de objetos para a construção de agentese de sua comunicação direta, baseada nos padrões daFIPA (Foundation for Physical Intelligent Agents). OJADEX é uma ferramenta para a construção domecanismo de raciocínio dos agentes, fundamentada naarquitetura de Crenças, Desejos e Intenções [4]. Com essaarquitetura, as observações de um agente são descritas emanipuladas como fatos (crenças) e empregadas na289


Voltar ao sumárioativação ou inibição de objetivos (desejos) conforme sealteram. O mecanismo se encarrega das ativações dosobjetivos, produzindo as intenções, cabendo ao projetistaapenas a missão de modelar as crenças e objetivos deacordo com as motivações dos agentes, e concretizar asações necessárias por meio de planos – classes escritas emcódigo Java.O protótipo construído inclui todos os agentes, massomente as interações necessárias à iniciação e a interaçãoprincipal entre os MBs e MCs. As observações e atuaçõesdos agentes foram produzidas como métodos públicos emuma classe compartilhada (singleton), compreendendo nasobservações os pixels da imagem binária, os agenteslocalizados na vizinhança (segundo raio parametrizado), eas mensagens recebidas, e nas atuações a movimentaçãoespacial e o envio de mensagens entre os agentes.O comportamento de um MB consiste em observar suavizinhança e identificar o MC mais próximo ainda nãoanotado. A esse MC envia então uma proposta, cujaresposta encerra a atuação se indicar aceitação. Se aocontrário, contiver uma sugestão de localidade, ela éanotada para uma nova observação e proposição decoalizão a outro MC. Essa atuação se repete até que o MBseja capaz de decidir o melhor MC a se unir, movendo-seentão apropriadamente e indicando ao MC a aceitação.Já o comportamento do MC consiste em esperarpropostas de coalizão, calcular a distância que o separa doproponente e compará-la às distâncias que o separam dosMBs já em coalizão. Se a distância ao proponente for amesma do raio atual, a coalizão é imediatamente aceita.Senão, o MC verifica, também calculando Vértices deVoronoi, se existe uma localidade que satisfaça tanto aosMBs já em coalizão quanto ao novo proponente. Em casoafirmativo, aceita a proposição e realiza o movimentopertinente; em caso contrário, sugere uma nova localidadecom base no raio atual e a envia ao proponente, instandooa que se aproxime ou se afaste.4. Resultados IniciaisUma vez que o objetivo do protótipo é a análise dainteração principal entre MBs e MCs, optou-se por realizartestes em sub-imagens de regiões contendo uma únicacratera e com a criação de um único MC posicionadosobre um dos vértices do Diagrama de Voronoialeatoriamente escolhido. A Figura 5 ilustra algunsresultados obtidos utilizando-se uma sub-imagem em queos pixels vermelhos representam os MBs, o pixel amareloo MC e os pixels azuis os vértices do Diagrama deVoronoi. Em (a) observa-se o posicionamento dos agentesantes da segmentação, e em (b), (c) e (d) observam-se trêsdiferentes resultados, sendo o primeiro considerado ideale os demais contendo erros grosseiros.Figura 5 – Sub-imagem submetidaaos agentes em três execuçõesEssas diferenças decorrem da seqüência em que ascoalizões são formadas. No caso da execução bemsucedida (b), os MBs do canto superior direito foram osprimeiros a solicitar e formar coalizões com o MC único,conferindo, assim, uma maior importância sobre asnegociações subseqüentes. Por outro lado, em (c) foramos MBs do canto inferior direito os primeiros solicitantes eem (d) os do canto inferior esquerdo. Essa falta dedeterminismo é ainda mais crítica em regiões contendofalhas internas, como ilustrado na Figura 6, pois nomelhor dos casos (b) o resultado é ainda umaaproximação inferior à desejada.Figura 6 – Sub-imagem de testecom cratera incompletaAlém disso, após a realização de testes com todos osMCs criados foi possível confirmar uma suspeita queapenas se levantou durante a construção do protótipo: coma utilização do Diagrama de Voronoi para oposicionamento dos MCs, os MBs simplesmente não semovem, pois naturalmente já se encontram eqüidistantesdos outros MBs formadores dos vértices. Ainda assim,mesmo marcando centros potenciais, não é possívelsimplesmente escolher aqueles vértices formados pelomaior número de MBs, pois eles não correspondem aoscentros ideais.Faz-se necessário considerar a interação entre os MCscomo a mais importante na escolha desses centros e naunificação dos círculos já identificados. Também épreciso reavaliar o papel dos MBs, uma vez que parecemservir apenas ao cálculo dos vértices e como marcaçõesno ambiente, ferindo o conceito fundamental de agentespró-ativos e autônomos. Com esse novo direcionamento290


Voltar ao sumáriode interação indireta entre MCs, movendoconcorrentemente marcas de borda passivas no ambiente,espera-se que não somente a complexidade da soluçãodiminua, mas que também seja possível obter resultadosmais controlados.5. ConclusõesOs Sistemas Multiagentes tem se apresentado comoferramenta promissora no refinamento e reconstrução deresultados obtidos com operadores gerais, e os papéiscomo um modelo de representação de conteúdo. Nasolução idealizada, a reconstrução se dá com o ajuste dasbordas originalmente circulares e com a identificação doscentros e raios das crateras, realizadas por agentesespecializados que se movem sobre a imagem à medidaque formam coalizões. Entretanto, a falta de determinismona seqüência de interações induz a muitos erros e por issoa organização e as interações precisam ser revisadas.O posicionamento dos MCs sobre os vértices doDiagrama de Voronoi lhes confere posição e raiofavoráveis, que podem ser mais bem explorados eminterações indiretas decorrentes da concorrência namovimentação de marcas de borda. Também por isso opapel dos MBs como agentes precisa ser revisado, poiseles se mostraram úteis apenas para o cálculo dos vérticese para serem passivamente movimentados pelos MCs.AgradecimentosEste trabalho recebeu apoio da FINEP e daEMBRAER, a quem agradecemos pelo auxílio.Referências[1] G. H. R SERIZAWA e J. GALLEGO, AnáliseEstrutural da Aplicação do Processo de Jateamento deGranalhas de Aço (Shot Peening) em RotoresHidroelétricos, Anais do XII Congresso Nacional dosEstudantes de Engenharia Mecânica, Ilha Solteira, 2005.[2] D. B. BARRIOS et al., O Processo de Jateamentocomo Via para Melhorar a Resistência à Fadiga e àCorrosão de Juntas Soldadas: uma Revisão (Parte I: Ligasde Alumínio e Outros Materiais), Revista Soldagem &Inspeção, Uberlândia, v. 12, n. 1, jan./mar. 2007.[3] R. Z. H. ALMEIDA, F. P. R. MARTINS e A. T.FLEURY, A Medição da Cobertura sobre Chapas deAlumínio Submetidas ao Processo de Conformação porJateamento Utilizando Visão Computacional, Anais doCIBIM 8/8vo Congreso Iberoamericano de IngenieríaMecânica, Cuzco, 2007.[4] M. WOOLDRIDGE, Intelligent Agents. In: G.WEISS, Multiagent Systems and Distributed ArtificialIntelligence, Multiagent Systems: A Modern Approach toDistributed Artificial Intelligence, MIT Press, Cambridge,1999.[5] J. S. SICHMAN, Raciocínio Social e Organizacionalem Sistemas Multiagentes: Avanços e Perspectivas,Departamento de Engenharia de Computação e SistemasDigitais, Escola Politécnica da Universidade de SãoPaulo, São Paulo, 2003.[6] A. BOUCHER e C. GARBAY, A Multi-Agent Systemto Segment Living Cells, Proceedings of the InternationalConference on Pattern Recognition, IEEE Press,Washington, 1996.[7] C. BOURJOT, V. CHEVRIER e V. THOMAS, HowSocial Spiders Inspired an Approach to Region Detection,Proceedings of the 1st International Conference onAutonomous Agents, Bolonha, 2002.[8] A. GUILLAUD et al., A Multiagent System for EdgeDetection and Continuity Perception on Fish OtolithImages, EURASIP Journal on Applied Signal Processing,Nova York, 2002.[9] T. MIRZAYANS et al., A Swarm-Based System forObject Recognition, Neural Network World Journal,Praga, 2005.[10] K. GYOHTEN, Optimization-Based Image AnalysisDealing with Symbolic Constraints Using HierarchicalMulti-Agent System, Proceedings of the 4th IEEEInternational Conference on Systems, Man, andCybernetics, IEEE Press, Washington, 2000.[11] Y. ABCHICHE, P. DALLE e Y. MAGNIEN,Construction Adaptative de Concepts par StructurationD’Entités de Traitement D’Images, Congrés Francophonede Reconnaissance des Formes et Intelligence Artificielle,AFRIF-AFIA, Angers, 2002.[12] F. BELLIFEMINE, A. POGGI e G. RIMASSA,JADE – A FIPA-Complaint Agent Framework,Proceedings of the 4th International Conference on ThePractical Application of Agents and Multi-AgentTechnologies, Londres, 1999.[13] A. POKAHR, L. BRAUBACH e W.LAMERSDORF, JADEX: Implementing a BDI-Infrastructure for JADE Agents, In Search of Innovation(Special Issue on JADE), Turim, 2003.291


Voltar ao sumário Computing Department – Federal University of São Carlos{renato_violin 1 , saito 2 }@dc.ufscar.brThis work proposes the quantum computing approach tothe Fast Fourier Transform (FFT) implementation invision processing. Although quantum computation is stillin development, there are many researchers working inthis new computation paradigm, and some simulators areavailable. The Quantum Fourier Transform (QFT)operation has a better computational cost than FFTalgorithm. We will try to make use of Quantum FourierTransform to verify its advantages, in the number ofquantum gates, and possibly in processing speed. It isshowed that the number of operations in QFT isO((log 2 ) 2 ), while in FFT is O(log 2 ), a huge differenceof O() between them. 292


Voltar ao sumário M−uxFu =∑ fxWMMx = M−M−⎡ ux ux+ ⎤= ⎢ ∑ f xWM+ ∑ f x+WMM x M⎥⎣ = x=⎦ M−M−⎡ ux ux u ⎤ Fu = ⎢ ∑ f xWM + ∑ f x+WM WMM x M⎥⎣ = x=⎦ −Fu= ∑ f x−πux x = −f x= ∑ Fuπux u = 2 2 −uxFu = ∑ fxW x = W= −π = n = M ψ = α + β ψ α β βα βα 293


Voltar ao sumário ⎡⎤⎡⎤ = ⎢ ⎥ = ⎢⎣ ⎦ ⎥ ⎣ ⎦ U UU = U U = I X Y Z H, X ⎡ ⎤ ⎡− i⎤= ⎢ ⎥ Y= ⎢⎣ ⎦ i ⎥ Z = ⎡ ⎤⎢⎣ ⎦ −⎥ H = ⎡ ⎤⎢⎣ ⎦ −⎥ ⎣ ⎦X H = + H = − x y x x U xy = xy ⊕ fx f x y x ⎛ + ⎞ Uf ⎜ ⎟ = ( Uf + Uf )⎝ ⎠ ⊕ f + ⊕f= f f −πi jkxejj=yk= ∑ − 294


Voltar ao sumário − πi jk y >→ ∑ e k> k = −−∑x j >→ ∑ ykk> jj= k= y k x j − −πi jkk >→ ∑ e j > j= π ( i j n π ) ( i j n−) n>+ e > >+ ej > jjn>→ nn− n− j= j + j + + j n 0.j = j lj l+1 ... j m j = j l /2 1 + j l+1 /4 2 +... + j m /2 ml+1 ⎡ ⎤R k= k i ⎢⎣e π⎥⎦H = ⎡ ⎤⎢ −⎥ ⎣ ⎦ j j jn j α β n 2 , l 2 2 295


Voltar ao sumário 2 ComputerVision Processamento deimagens digitais Quantum Computing andCommunications AnIntroduction to Quantum Computing Quantumcomputation and Quantum information Quantum computing explained A short introduction to quantuminformation and quantum computation Principlesof quantum computation and information Quantumcomputing devices: AnIntroduction to Quantum Computing Quantum algorithms and the Fouriertransform. Quantum computer science: Quantum computing: The temple of quantum computation Uma introdução àcomputação quântica ecture otes for Phsics 296


Voltar ao sumárioUtilização do filtro passa banda Butterworth no domínio da freqüência pararealce de microcalcificações em imagens mamográficas digitaisLarissa C. S. Romualdo, Marcelo A. C. Vieira, Cláudio E. Góes, Homero SchiabelLaboratório de Análise e Processamento de Imagens Médicas e Odontológicas (LAPIMO)Universidade de São Paulo (USP)/Escola de Engenharia de São Carlos (EESC), São Carlos, Brasil{lromualdo, mandrade, homero}@sel.eesc.usp.br, cegoes@gmail.comAbstractThis work proposes a preprocessing technique toenhance microcalcifications on digitized mammographicimages based on a frequency domain band passButterworth filter. The parameters for the filter areobtained from specifications of cutoff frequency and bandwidth that define the dimension of the structures thatshould be enhanced by the filter. In this case, it wasadjusted to enhance the corresponding band of typicalsizes of microcalcifications in mammographic images, inorder to improve the efficiency of a computer-aideddiagnosis (CAD) scheme. Results with a well knownprocessing technique to detect microcalcifications showedbetter performance using images enhanced by theproposed filter.1. IntroduçãoO câncer de mama é o tipo de câncer mais ocorrente ecom maior índice de mortalidade entre as mulheresbrasileiras. A chance de cura dos pacientes com este tipode câncer aumenta em até 40% se a detecção do mesmoocorrer ainda em seu estágio inicial [1].Para a detecção precoce do câncer de mama o examemamográfico é o mais indicado e é destinado a produzirimagens internas da mama, com intuito de detectar apresença ou ausência de estruturas indicativas da doença[2].Entretanto, a avaliação do exame mamográfico ésubjetiva, requerendo grande habilidade do radiologista.Nas últimas décadas, técnicas computacionais vêm sendodesenvolvidas com o propósito de detectarautomaticamente estruturas que possam estar associadas atumores nos exames de mamografia, visando melhorar ataxa de detecção precoce de estruturas de interesse ligadasao câncer de mama [1, 2].Esses esquemas de processamento são conhecidoscomo sistemas CAD (“Computer Aided Diagnosis”), e jáestão presentes em diversos centros de diagnóstico porimagem, principalmente em países do primeiro mundo,como EUA e alguns países da Europa [3].Um indício que revela a existência de câncer de mamaé a presença de pequenas estruturas conhecidas comomicrocalcificações. Diversas técnicas de processamentotêm sido desenvolvidas visando à detecção e acaracterização das microcalcificações. Entretanto, estasestruturas são de pequena dimensão (entre 0,2mm e0,5mm de diâmetro), um dos requisitos de extremaimportância desses esquemas de processamento é umaimagem de boa qualidade [4]. Com estudos anteriores foipossível evidenciar que a eficácia de um esquema CAD étotalmente dependente da qualidade da base de imagensutilizada [5]. Assim, revela-se ser de suma importânciapara um esquema CAD, que antes de um processamentopara detecção de estruturas, faça-se um préprocessamentopara realce destas imagens, com o intuitode garantir que o esquema de detecção tenha o melhordesempenho possível.Portanto, este trabalho propõe o desenvolvimento deum algoritmo de pré-processamento para realce demicrocalcificações em imagens mamográficas digitaisbaseado no filtro passa-banda do tipo Butterworth(FPBB). Ao aplicar este filtro no domínio da freqüência,leva em consideração o tamanho das estruturas a seremrealçadas e pode ser ajustado para realçar apenas aquelaspresentes em um determinado intervalo de valores. Nessasituação, ajustando o filtro para o realce da faixacorrespondente às dimensões típicas dasmicrocalcificações em imagens mamográficas, torna-sepossível fazer com que somente essas estruturas sejamrealçadas. Assim, esse pré-processamento pode contribuirnão apenas na detecção visual de microcalcificações peloradiologista, mas também para aumentar o desempenhodos sistemas CAD.2. Filtro Passa-Banda ButterworthA partir do produto da transformada de Fourier daimagem com uma função de transferência H(u,v) pode-seobter o realce de uma imagem no domínio da freqüência.A transformada inversa do resultado será a imagemtransformada.O filtro passa-banda de Butterworth (FPBB), entre asvárias técnicas de realce, é o filtro que possui acaracterística de permitir que sejam mantidas na imagemapenas as freqüências espaciais que estão dentro de umdeterminado intervalo. Outros componentes, que estãofora da faixa de freqüências definidas na construção dofiltro, são retirados da imagem.297


Voltar ao sumárioFigura 1: Imagem do Filtro passa-banda de ButterworthO filtro passa-banda bidimensional de Butterworthpode ser construído utilizando a seguinte equação:(1)Na equação (1), D é a distância do centro da imagem(freqüência zero), D 0 é a freqüência de corte, n é a ordemdo filtro, e W é a largura da banda [6].Freqüências dentro da faixa definida são cada vezmais realçadas na imagem à medida que se aproximam deD 0 , pois possui transição suave determinada pela ordemdo filtro de Butterworth.Tendo como base o FPBB, o filtro de realce propostoneste trabalho tem como objetivo realçar na imagemapenas estruturas entre 0,2mm e 0,5mm de diâmetro, quesão os tamanhos aproximados das microcalcificações.Assim, , a imagem só realçará estruturas que possuam estetamanho, evitando o realce de outras estruturas que nãosejam as microcalcificações.3. Realce de microcalcificações utilizando oFPBBAntes de submeter a imagem ao algoritmodesenvolvido, esta deve ser transformada em uma imagemquadrada 2 n para eliminar o ruído de borda produzido pelatransformada de Fourier. A seguir o FPBB é criado deacordo com os parâmetros definidos para freqüência decorte e largura de banda. Para realçar a imagem,multiplica-se o filtro criado pela transformada de Fourierda imagem e calcula-se a transformada inversa.No entanto, o FPBB , retira os componentes que estãofora da banda passante, o que não seria ideal para estetrabalho. Deste modo, , para não eliminar da imagem oscomponentes que estão fora da faixa de freqüência pararealce, a cada pixel imagem multiplicada pelo FPBB ésomada com uma constante de valor 1, fazendo com queos componentes que não serão realçados permaneçam naimagem sem alteração e os componentes da bandapassante sejam realçados.O FPBB foi desenvolvido em JAVA utilizando ocompilador NetBeans6.1, juntamente com outrasfuncionalidades para processamento de imagens comorecortes, zoom, e um controlador de realce onde o usuáriopode escolher a porcentagem de realce a ser aplicado naimagem. Dessa forma, desenvolveu-se um algoritmo queutiliza de forma simples e rápida, informações a respeitoda dimensão da estrutura a ser realçada pelo FPBB.4. Resultados e DiscussõesA fim de avaliar o desempenho do filtro de realce aquidesenvolvido, foram utilizadas duas imagensmamográficas de um phantom de certificação (modelo18-220 da Nuclear Associates – EUA). Esse phantomcontém diversas regiões de interesse com agrupamentosde microcalcificações, fibras e nódulos (Figura 2). Estasimagens foram adquiridas pelo equipamento mamográficoPhilips Mammo Diagnostic MD 4000, instalado no Setorde Mastologia do Hospital São Paulo (UNIFESP), nacidade de São Paulo (SP).ABFigura 2: Phantom de certificação modelo 18-220utilizado nos testes experimentais. (A) imagem obtidacom o mamógrafo Philips Mammo Diagnostic MD4000;(B) Gabarito fornecido pelo fabricante contendo asregiões de interesse contidas em seu interior. Asestruturas de 7 a 11 correspondem a agrupamentos de seismicrocalcificações de tamanhos conhecidos: (7) 0,54mm;(8) 0,40mm; (9) 0,32mm; (10) 0,24mm e (11) 0,16mm.Para avaliar o efeito do FPBB desenvolvido pararealce de microcalcificações em imagens de mamografia,foram selecionadas 20 regiões de interesse nas imagens dephantom digitalizadas: 10 regiões contendo agrupamentosde microcalcificações e 10 regiões que não continhammicrocalcificações. Todas as imagens foram realçadaspelo filtro desenvolvido, totalizando 40 imagens: 20originais e 200 realçadas. Após as imagens seremrealçadas, , estas foram submetidas a um algoritmo de298


Voltar ao sumáriodetecção automática de microcalcificações, paracomparação dos resultados obtidos entre as imagensoriginais e as imagens realçadas pelo FPBB.O algoritmo de detecção utilizado, desenvolvido emtrabalho prévio [7], utiliza técnicas clássicas deprocessamento e segmentação de imagens para detectarautomaticamente microcalcificações em imagensmamográficas. Para os testes, foi escolhida a técnica desegmentação de Nishikawa [8] presente no algoritmo dedetecção automática de microcalcificações. A Figura 3abaixo ilustra alguns resultados obtidos com o algoritmode detecção automática de microcalcificações. Asimagens da esquerda (a e c) são as microcalcificaçõesdetectadas pelo sistema quando utilizadas as imagensoriginais e as imagens da direita (b e d) ilustram asmicrocalcificações detectadas quando utilizadas asimagens realçadas pelo FPBB.abcdFigura 3: Resultados obtidos com o programa de detecçãoautomática de microcalcificações. (a e c) Imagensoriginais; (b e d) Imagens realçadas pelo FPBB.Para um teste mais completo, foram calculadas astaxas de acerto e erro (verdadeiro positivo e falsopositivo) para todas as 40 regiões de interesse extraídasdo phantom. . Para calcular o acerto e erro nas imagensnegativas (verdadeiro negativo e falso negativo), foramutilizadas as imagens que não continhammicrocalcificações.Na Tabela 1 estão apresentados os resultados obtidoscom os testes do algoritmo de detecção quando utilizadasimagens originais e imagens realçadas. O desvio padrão(DP) corresponde a um parâmetro de segmentaçãopresente no algoritmo de detecção, e que pode ser alteradopelo usuário. Quanto menor for o desvio padrão, maissinais serão detectados, mas, ao mesmo tempo, aumentaráo número de falsos positivos. O valor do desvio padrãoque deve ser utilizado para um melhor desempenhocorresponde ao ponto onde se consegue a maior taxa deacerto para a menor taxa de erro possível.Tabela 1: Resultados obtidos com o processamento dasimagens de phantom. . (DP = desvio padrão; O = imagemoriginal; R = imagem realçada pelo FPBB;VP = verdadeiro positivo; FN = falso negativo;VN = verdadeiro negativo; FP = falso positivo)VP FN VN FPDP O R O R O R O R4,0 68,3 76,7 31,7 23,3 91,7 88,3 8,3 11,74,5 66,7 70,0 33,3 30,0 93,3 90,0 6,7 10,05,0 65,0 66,7 35,0 33,3 95,0 95,0 5,0 5,05,5 63,3 66,7 36,7 33,3 95,0 95,0 5,0 5,0Os resultados obtidos evidenciaram que as imagensrealçadas pelo FPBB proposto nesse trabalho melhoram odesempenho de um esquema automático de detecção demicrocalcificações. Na Figura 3, as imagens (a e c), porexemplo, verifica-se que o processamento das imagensoriginais registrou 8 falsos negativos, já que cadaagrupamento contém 6 microcalcificações. Ao utilizar asimagens realçadas (b e d), o número de estruturasdetectadas aumentou significativamente, reduzindo oscasos de falso negativo para somente 3microcalcificações. Além disso, as estruturas realçadas naimagem (d) correspondem a estruturas muito pequenas(0,24mm) o que demonstra a precisão do filtro no realcede estruturas que são difíceis de detectar devido a seutamanho reduzido.As estruturas na imagem que possuem alta freqüênciaespacial, ou seja, menor dimensão, são realçadas pelofiltro de forma diferente das estruturas de baixafreqüência, já possuem tamanho de freqüência espacialdentro da faixa de banda de realce. Isso é interessanteporque as estruturas de menor dimensão são as quesofrem maior degradação no processo de formação daimagem em função das limitações do sistema de aquisiçãoque foi utilizado.Um dos resultados mais importantes encontradosnesse trabalho foi a redução significativa nos casos defalso negativo na detecção de microcalcificações (Tabela1). Na prática, um falso negativo pode significar um casode câncer não detectado e, por isso, o grande objetivo dosesquemas CAD são exatamente acabar com os casos defalso negativo, mesmo que isso produza um ligeiroaumento nos casos de falso-positivo. Apesar deste umligeiro aumento nas detecções falso-positivas, umpequeno aumento no desvio padrão do esquema pode299


Voltar ao sumáriofavorecer um aumento na detecção seguido de umaredução dos falso-positivos, o que é bastante significativono ponto de vista do rastreamento do câncer de mama.Ainda em relação à análise da Tabela 1 de acerto eerro, podemos observar que: se o esquema for calibradopara operar com um desvio padrão fixo, o uso dasimagens realçadas aumenta a taxa de acerto (verdadeiropositivo),mas, ao mesmo tempo, aumenta também a taxade erros do esquema (falso-positivo). Contudo, ao seelevar o desvio padrão do esquema, consegue-se umaumento na taxa de acerto do esquema, se comparadocom os valores obtidos com as imagens não-realçadas eDP mais baixo, acompanhada de uma diminuição da taxade falso-positivos.Isso mostra que, ao se utilizar imagens de melhorqualidade, como por exemplo, aquelas realçadas peloalgoritmo desenvolvido nesse trabalho devem-se tambémelevar o desvio padrão do esquema, o que significaaumentar o nível de confiabilidade às imagensprocessadas. Isto faz com que haja uma boa melhora nodesempenho da detecção, com uma melhor taxa de acertoem imagens positivas (verdadeiro-positivo) seguida deuma diminuição da taxa de erros em imagens negativas(falso-positivo).Ainda que não tenha sido utilizado um esquema CADcompleto para a avaliação dos algoritmos propostos, adetecção automática de estruturas de interesse é uma dasetapas mais importantes num esquema CAD, pois é nestaetapa que serão selecionadas quais estruturas serãoclassificadas pelo CAD [1].5. ConclusãoAssim, os resultados preliminares mostram que o préprocessamentomelhora a qualidade das imagensmamográficas, que passam a apresentar característicaspara um melhor desempenho dos esquemas deprocessamento, e conseqüentemente, de um esquemaCAD completo. Desta forma, torna-se uma ferramenta útilpara o auxílio na detecção precoce do câncer de mama.Para melhores resultados, novos testes deverão serrealizados, utilizando um maior número de imagens eintroduzir alguma técnica para diminuição de ruído nasimagens.[1] Dengler J., Behrens S., Desaga J.F., “Segmentation ofmicrocalcifications in mammograms”, IEEE Trans.Med. Imaging, 1993, v. 12, p. 634-642.[2] Giger M.L., “Computer-aided diagnosis of breastlesions in medical images”, Computing in Science &Engineering, 2000, v. 2, p.39-45.[3] Taylor P.M., Champness, J., Given-Wilson, R.M.,Potts, H.W.W., Johnston, K., “An evaluation of theimpact of computer-based prompts on screen readers’interpretation of mammograms”. British Journal ofRadiology, 2004, v.77, p. 21-27.[4] Nishikawa R.M., Giger M.L., Doi K., Metz C.E., YinF.-F., Vyborny C.J., Schmidt R.A., “Effect of caseselection on the performance of computer-aideddetection schemes”, Medical Physics, 1994, v. 21, p.265-269.[5] Vieira M.A.C., Metodologia Baseada nas Funções deTransferência para Pré-processamento de ImagensMamográficas Digitais e sua Aplicação em EsquemaComputacional de Auxílio ao Diagnóstico. Tese deDoutorado, Departamento de Engenharia Elétrica,EESC/USP, São Carlos, 2005.[6] Gonzalez , R. C., Woods R. E., Digital ImageProcessing, 2nd ed., Upper Saddle River, NJ:Prentice-Hall, 2002.[7] Goes C. E., Schiabel H., Nunes F. L. S., “Evaluationof microcalcifications segmentation techniques fordense breast digitized images”, Journal of DigitalImaging, v. 15 (Suppl. 1), 2001, p. 231-233.[8] Nishikawa, R.M; Giger M.L., Doi K., Metz C.E., YinF. -F., Vyborny C.J., Schmidt R.A., “Computer-aideddetection of clustered microcalcifications: animproved method for grouping detected signals,Medical Physics, 1993, v. 20, p.1661-1666.5. AgradecimentoÀ CAPES pelo apoio financeiro e ao Hospital SãoPaulo, por permitir a utilização de um de seusmamógrafos para a obtenção das imagens aqui utilizadas.6. Referências300

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!