texto completo - Iris.sel.eesc.sc.usp.br - USP

More documents

Recommendations

Info

2 Fundamentação TeóricaNesta seção será apresentado como foi construídaa base de dados de imagens aéreas bem como a descriçãodas principais técnicas utilizadas neste artigo.2.1 O Banco de Dados de Imagens AéreasAs imagens contêm áreas de pastagens, lavourase áreas urbanas, obtidas na região de Santa Rita doSapucaí – MG em Setembro de 2007, com o auxílio de umavião de pequeno porte, contendo uma câmera acoplada aum suporte. A base de imagens é composta por 200imagens sequenciais. As imagens foram adquiridas comdimensão de 3504 x 2336 pixels, com 24 bits por pixelcom 72 dpi (pontos por polegada) no formato JPG,utilizando 8 Megapixels de resolução. A Figura 1 ilustraum exemplo de imagem usada no projeto.Figura 1– Exemplo de imagem usada no projeto.As imagens foram obtidas seguindo um padrãode aquisição (para evitar distorções), que inclui osseguintes itens:• A câmera foi posicionada horizontalmente emrelação ao solo;• O avião percorreu sempre a mesma distância,fazendo movimentos horizontais na área demarcada, paraobtenção das imagens (Figura 2);• A obtenção da sequência de imagens foi feita comum tempo determinado e síncrono, entre a imagemanterior e a posterior, para gerar regiões de sobreposição.Para gerar um mosaico com a mínima distorçãopossível, é de extrema importância que seja seguido opadrão apresentado para a obtenção das imagens.2.2. SIFTA Transformada SIFT (LOWE, 2004) é capaz detransformar uma imagem em uma coleção de vetores decaracterísticas locais (descritores de características) e cadaum desses vetores são invariantes à escala, rotação eparcialmente invariante à mudanças de iluminação e pontode vista.Região 1 para obtenção das imagensRegião 2 para obtenção das imagensRegião 3 para obtenção das imagensRegião 4 para obtenção das imagensFigura 2 – Padrão de rota do avião.As características fornecidas pela TransformadaSIFT são bem localizadas em ambos os domínios, o dafrequência e o do espaço, reduzindo assim a probabilidadede não haver correspondência das características poroclusão ou ruído. As características são altamentedistintas, permitindo que uma simples característica sejacorretamente correspondida com alta probabilidade diantede um grande banco de dados de características,possibilitando assim, uma base para o reconhecimento deobjetos e cenas.O custo de extrair essas características éminimizado por meio de uma abordagem de filtragem emcascata, na qual as operações com maior custo operacionalsão executadas apenas em locais que passaram em testesiniciais.Os quatro principais estágios que compõem aTransformada SIFT para gerar o conjunto decaracterísticas de imagens são:• Detecção de extremos no Espaço Escala: Nesteprimeiro estágio é feito a procura por todas as escalas elocais de uma imagem. Para isto é utilizada uma funçãoconhecida como Diferença da Gaussiana, paraidentificação dos potenciais pontos de interesse que sãoinvariantes à escala e orientação. Esta é a parte maiscustosa do algoritmo.• Localização dos pontos chave: Para cada localcandidato, é determinada a sua posição e escala. Os pontoschave são selecionados baseados em medidas de suaestabilidade.• Definição da Orientação: Uma ou maisorientações são atribuídas para cada ponto chavelocalizado, baseado em direções do gradiente. Todas asoperações posteriores são realizadas sobre os dados daimagem que foram considerados ponto chave e que foramtransformados em relação à orientação, escala elocalização, proporcionando invariância a estastransformações.
• Descritor dos Pontos Chave: Os gradientes daimagem são mensurados na escala selecionada, na regiãoao redor de cada ponto chave, sendo criados histogramasde orientações para compor o descritor.Com as características extraídas a partir de todasas imagens, as mesmas devem ser pareadas. Na Figura 3pode ser observado um exemplo da localização decaracterísticas através da Transformada SIFT.ordem de suas distâncias mais próximas a partir do localinvestigado.Uma razão para o algoritmo BBF (LOWE, 2004)funcionar bem é que somente são consideradascorrespondências nas quais o vizinho mais próximo émenor do que 0,8 vezes a distância do segundo vizinhomais próximo e, portanto não é necessário resolver oscasos mais difíceis, nos quais muitos vizinhos têm muitasdistâncias similares.2.4. RANSACFigura 3 – Localização de características com aTransformada SIFT.A Transformada SIFT converte dados da imagemem coordenadas invariantes à escala, relativas àscaracterísticas locais. Um aspecto importante é o grandenúmero de características geradas, que cobremdensamente toda a imagem (LOWE, 2004).2.3. BBFUma vez aplicada a Transformada SIFT sobre asimagens, é possível encontrar a correspondência entreduas imagens, de acordo com os pontos chave detectados.Há a comparação dos descritores das duas imagens,encontrando os melhores candidatos a serem seusequivalentes na outra imagem.O melhor candidato correspondente para cadaponto chave é encontrado, identificando os seus vizinhosmais próximos na base de dados dos pontos chave a partirde imagens de entrada. O vizinho mais próximo é definidocomo o ponto chave, com distância euclidiana mínimaentre os descritores em questão.A maneira mais eficaz de identificar o melhorponto candidato é obtida através da comparação dadistância do vizinho mais próximo ao de um segundovizinho mais próximo.Quando se procura classificar uma imagem emum extenso banco de dados de descritores para váriosobjetos, a busca exaustiva de vizinho mais próximo podeser demorada e para tal existe a técnica BBF (BEIS eLOWE, 1997) para acelerar a busca.O algoritmo BBF usa uma busca ordenadamodificada de um algoritmo k-d tree de modo que asposições no espaço de características são procuradas naApós a correspondência dos pontos chave, osmesmos são usados para calcular uma transformada quemapeia as posições dos pontos de uma imagem para asposições dos pontos correspondentes, na outra imagem, deum par de imagens.Às vezes acontece de pares encontradoscorresponderem a falsas correspondências, sendonecessário identificar estas falsas correspondências e deremovê-las. A solução para este problema envolve oconceito da geometria epipolar (ORAM, 2001) ehomografia (HARTLEY e ZISSERMAN, 2003). Comisso será reduzido o número de falsas correspondências ecalculada uma transformação para juntar duas imagenssequenciais.A correspondência de imagens fornece umconjunto de vetores de deslocamento relativo àscaracterísticas de um par de imagens obtidas, ou seja, cadavetor representa as coordenadas da mesma característicaem ambas as imagens. Com isso, é possível determinar omovimento entre tais imagens através da matrizhomográfica.2.4.1. Estimando a Matriz FundamentalRANSAC é um procedimento de estimaçãorobusto que usa um conjunto mínimo de correspondênciasamostradas, para estimar os parâmetros de transformaçãoda imagem e achar a solução que tem o melhor consensocom os dados. Os métodos clássicos procuram utilizar omaior número de pontos para obter uma solução inicial e,então, eliminar os pontos inválidos. O RANSAC, aocontrário desses métodos, utiliza apenas o número mínimoe suficiente de pontos necessários para uma primeiraestimativa, aumentando o conjunto com novos pontosconsistentes sempre que possível (FISCHLER e BOLLES,1981).Uma vantagem do RANSAC é a sua habilidadede realizar a estimativa de parâmetros de um modelo deforma robusta, ou seja, ele pode estimar parâmetros comum alto grau de acerto mesmo quando um númerosignificativo de outliers (pontos falsos) esteja presente nosdados analisados. Uma desvantagem do algoritmo é queele tem de possuir uma quantidade pré-estabelecida de
Page 1: Construção de Mosaicos de Imagens
Page 5 and 6: A Figura 6 apresenta um diagrama co
Page 7: Figura 9 - Comparação das metodol

texto completo - Iris.sel.eesc.sc.usp.br - USP

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?