2 Fundamentação TeóricaNesta seção será apresentado como foi construídaa base de dados de imagens aéreas bem como a de<strong>sc</strong>riçãodas principais técnicas utilizadas neste artigo.2.1 O Banco de Dados de Imagens AéreasAs imagens contêm áreas de pastagens, lavourase áreas urbanas, obtidas na região de Santa Rita doSapucaí – MG em Setem<strong>br</strong>o de 2007, com o auxílio de umavião de pequeno porte, contendo uma câmera acoplada aum suporte. A base de imagens é composta por 200imagens sequenciais. As imagens foram adquiridas comdimensão de 3504 x 2336 pixels, com 24 bits por pixelcom 72 dpi (pontos por polegada) no formato JPG,utilizando 8 Megapixels de resolução. A Figura 1 ilustraum exemplo de imagem usada no projeto.Figura 1– Exemplo de imagem usada no projeto.As imagens foram obtidas seguindo um padrãode aquisição (para evitar distorções), que inclui osseguintes itens:• A câmera foi posicionada horizontalmente emrelação ao solo;• O avião percorreu sempre a mesma distância,fazendo movimentos horizontais na área demarcada, paraobtenção das imagens (Figura 2);• A obtenção da sequência de imagens foi feita comum tempo determinado e síncrono, entre a imagemanterior e a posterior, para gerar regiões de so<strong>br</strong>eposição.Para gerar um mosaico com a mínima distorçãopossível, é de extrema importância que seja seguido opadrão apresentado para a obtenção das imagens.2.2. SIFTA Transformada SIFT (LOWE, 2004) é capaz detransformar uma imagem em uma coleção de vetores decaracterísticas locais (de<strong>sc</strong>ritores de características) e cadaum desses vetores são invariantes à e<strong>sc</strong>ala, rotação eparcialmente invariante à mudanças de iluminação e pontode vista.Região 1 para obtenção das imagensRegião 2 para obtenção das imagensRegião 3 para obtenção das imagensRegião 4 para obtenção das imagensFigura 2 – Padrão de rota do avião.As características fornecidas pela TransformadaSIFT são bem localizadas em ambos os domínios, o dafrequência e o do espaço, reduzindo assim a probabilidadede não haver correspondência das características poroclusão ou ruído. As características são altamentedistintas, permitindo que uma simples característica sejacorretamente correspondida com alta probabilidade diantede um grande banco de dados de características,possibilitando assim, uma base para o reconhecimento deobjetos e cenas.O custo de extrair essas características éminimizado por meio de uma abordagem de filtragem emca<strong>sc</strong>ata, na qual as operações com maior custo operacionalsão executadas apenas em locais que passaram em testesiniciais.Os quatro principais estágios que compõem aTransformada SIFT para gerar o conjunto decaracterísticas de imagens são:• Detecção de extremos no Espaço E<strong>sc</strong>ala: Nesteprimeiro estágio é feito a procura por todas as e<strong>sc</strong>alas elocais de uma imagem. Para isto é utilizada uma funçãoconhecida como Diferença da Gaussiana, paraidentificação dos potenciais pontos de interesse que sãoinvariantes à e<strong>sc</strong>ala e orientação. Esta é a parte mai<strong>sc</strong>ustosa do algoritmo.• Localização dos pontos chave: Para cada localcandidato, é determinada a sua posição e e<strong>sc</strong>ala. Os ponto<strong>sc</strong>have são <strong>sel</strong>ecionados baseados em medidas de suaestabilidade.• Definição da Orientação: Uma ou maisorientações são atribuídas para cada ponto chavelocalizado, baseado em direções do gradiente. Todas asoperações posteriores são realizadas so<strong>br</strong>e os dados daimagem que foram considerados ponto chave e que foramtransformados em relação à orientação, e<strong>sc</strong>ala elocalização, proporcionando invariância a estastransformações.
• De<strong>sc</strong>ritor dos Pontos Chave: Os gradientes daimagem são mensurados na e<strong>sc</strong>ala <strong>sel</strong>ecionada, na regiãoao redor de cada ponto chave, sendo criados histogramasde orientações para compor o de<strong>sc</strong>ritor.Com as características extraídas a partir de todasas imagens, as mesmas devem ser pareadas. Na Figura 3pode ser observado um exemplo da localização decaracterísticas através da Transformada SIFT.ordem de suas distâncias mais próximas a partir do localinvestigado.Uma razão para o algoritmo BBF (LOWE, 2004)funcionar bem é que somente são considerada<strong>sc</strong>orrespondências nas quais o vizinho mais próximo émenor do que 0,8 vezes a distância do segundo vizinhomais próximo e, portanto não é necessário resolver o<strong>sc</strong>asos mais difíceis, nos quais muitos vizinhos têm muitasdistâncias similares.2.4. RANSACFigura 3 – Localização de características com aTransformada SIFT.A Transformada SIFT converte dados da imagemem coordenadas invariantes à e<strong>sc</strong>ala, relativas à<strong>sc</strong>aracterísticas locais. Um aspecto importante é o grandenúmero de características geradas, que co<strong>br</strong>emdensamente toda a imagem (LOWE, 2004).2.3. BBFUma vez aplicada a Transformada SIFT so<strong>br</strong>e asimagens, é possível encontrar a correspondência entreduas imagens, de acordo com os pontos chave detectados.Há a comparação dos de<strong>sc</strong>ritores das duas imagens,encontrando os melhores candidatos a serem seusequivalentes na outra imagem.O melhor candidato correspondente para cadaponto chave é encontrado, identificando os seus vizinhosmais próximos na base de dados dos pontos chave a partirde imagens de entrada. O vizinho mais próximo é definidocomo o ponto chave, com distância euclidiana mínimaentre os de<strong>sc</strong>ritores em questão.A maneira mais eficaz de identificar o melhorponto candidato é obtida através da comparação dadistância do vizinho mais próximo ao de um segundovizinho mais próximo.Quando se procura classificar uma imagem emum extenso banco de dados de de<strong>sc</strong>ritores para váriosobjetos, a bu<strong>sc</strong>a exaustiva de vizinho mais próximo podeser demorada e para tal existe a técnica BBF (BEIS eLOWE, 1997) para acelerar a bu<strong>sc</strong>a.O algoritmo BBF usa uma bu<strong>sc</strong>a ordenadamodificada de um algoritmo k-d tree de modo que asposições no espaço de características são procuradas naApós a correspondência dos pontos chave, osmesmos são usados para calcular uma transformada quemapeia as posições dos pontos de uma imagem para asposições dos pontos correspondentes, na outra imagem, deum par de imagens.Às vezes acontece de pares encontrado<strong>sc</strong>orresponderem a falsas correspondências, sendonecessário identificar estas falsas correspondências e deremovê-las. A solução para este problema envolve oconceito da geometria epipolar (ORAM, 2001) ehomografia (HARTLEY e ZISSERMAN, 2003). Comisso será reduzido o número de falsas correspondências ecalculada uma transformação para juntar duas imagenssequenciais.A correspondência de imagens fornece umconjunto de vetores de deslocamento relativo à<strong>sc</strong>aracterísticas de um par de imagens obtidas, ou seja, cadavetor representa as coordenadas da mesma característicaem ambas as imagens. Com isso, é possível determinar omovimento entre tais imagens através da matrizhomográfica.2.4.1. Estimando a Matriz FundamentalRANSAC é um procedimento de estimaçãorobusto que usa um conjunto mínimo de correspondênciasamostradas, para estimar os parâmetros de transformaçãoda imagem e achar a solução que tem o melhor consensocom os dados. Os métodos clássicos procuram utilizar omaior número de pontos para obter uma solução inicial e,então, eliminar os pontos inválidos. O RANSAC, aocontrário desses métodos, utiliza apenas o número mínimoe suficiente de pontos necessários para uma primeiraestimativa, aumentando o conjunto com novos ponto<strong>sc</strong>onsistentes sempre que possível (FISCHLER e BOLLES,1981).Uma vantagem do RANSAC é a sua habilidadede realizar a estimativa de parâmetros de um modelo deforma robusta, ou seja, ele pode estimar parâmetros comum alto grau de acerto mesmo quando um númerosignificativo de outliers (pontos falsos) esteja presente nosdados analisados. Uma desvantagem do algoritmo é queele tem de possuir uma quantidade pré-estabelecida de