Um Framework de Controle de Qualidade em MineraÃƒÂ§ÃƒÂ£o de Dados

Um Framework de Controle deQualidade em Mineração deDadosMestrando: Josué ToebeOrientador: Marcus Costa SampaioAgosto, 2002

Contexto• Bancos de Dados (BD) podem ser caracterizados comoverdadeiras minas de conhecimento.– Padrões nos dados– Apresentados sob a forma de• Regras se ... então ...• Árvores de decisão• Outras formas– Confiabilidade de padrões• Volume de dados para minerar• Freqüência dos padrões• Mineração de Dados (MD): área de pesquisa que sepreocupa em como melhor explorar essas minas.

Contexto (Cont.)• Processo de MD– uma série de tarefas que deve ser efetuada por um minerador paraa indução de conhecimento.• Diversas técnicas têm sido propostas para cada uma dastarefas.– Não existe uma técnica que seja a melhor em todos os casos.

Contexto (Cont.)• Durante o processo, diversas decisões devem ser tomadaspelo minerador:– Qual técnica utilizar em cada tarefa?– Os resultados obtidos em cada tarefa são bons? Ou alguma tarefaprecisa ser refeita?– Como comparar o resultado obtido por duas técnicas diferentes?– O resultado final da MD é bom, mas será que utilizando outratécnica não se poderia obter resultados ainda melhores?

Contexto (Cont.)• Grande complexidade na realização das tarefas e natomada de decisão.• Um bom minerador– grande conhecimento em MD– grande conhecimento sobre o domínio da aplicação.• Não existe um processo automatizado que ‘esconda’ dominerador a complexidade do processo.

Etapas de um processo de Mineração de Dados• Seleção de uma amostra– Diminuição do custo deprocessamento com a utilização deamostras representativas• Adaptive Incremental Framework• Convergência

Etapas de um processo de Mineração de Dados• Preparação da amostra– Tratamento de problemas comunsem amostras de BD• dados inexistentes• dados desconhecidos• dados contínuos

Etapas de um processo de Mineração de Dados• Fragmentação da amostra– Divisão do conjunto amostra emsubconjuntos: treinamento e testes• K-fold Cross Validation• Bootstrap• HoldOut

Etapas de um processo de Mineração de Dados• Indução do Conhecimento– O conhecimento é inferido doconjunto de treinamento com autilização de um algoritmo deindução de conhecimento:• Prism• ID3• OneR• Naive Bayes

Objetivos da Dissertação• Propor um processo automatizado de MD– Contemplar todas as etapas de um processo de MD.– Agregar diferentes técnicas de seleção de amostras,fragmentação de amostras e indução de conhecimento;– Determinar o melhor conjunto de técnicas para o BD;– Inferir o melhor conhecimento possível com astécnicas disponíveis;– Permitir a fácil adição de novas técnicas ao processo;• Framework de software– ‘Esconder’ do minerador a complexidade do processo.

Um Framework para MD.• A implementação do processo foi realizadana forma de um Framework Orientado aObjetos.– Permite um amplo reuso de projeto e código;– Permite a rápida adição de novas técnicas paraqualquer etapa do processo de MD.

Núcleo do Framework

Técnicas de Fragmentação

Técnicas de Amostragem

Técnicas de Preparação

Componentes de Dados

Implementação

Avaliação Experimental• Realizada em duas etapas:– Dados de perfis de poços de petróleo do Campo Escolade Namorado disponibilizados pela ANP.– Dados de diversas áreas disponíveis no repositório UCI(http://kdd.ics.uci.edu)– Letter: caracteres manuscritos;– Splice: seqüências de DNA;– Soybean: cultivo de soja;– Titanic: naufrágio do Titanic;– Cmc: métodos anticoncepcionais;– Cars: veículos;– Kr-vs-kp: partidas de xadrez;– Connect-4: partidas de connect-4;– Mushroom: variedades de cogumelos.

Perfis de poçosAtributo de classificaçãoTécnicasDEPT.M GR NPHI ILD DT RHOBId3 – AI– CV 2 o 4 o 7 o 2 o 3 o 4 oId3 – AI – BS 1 o 5 o 6 o 1 o 1 o 5 oId3 – AI – HO 3 o 2 o 4 o 3 o 6 o 6 oId3 –Conv–CV 18 o 1 o 15 o 20 o 13 o 3 oId3 –Conv–BS 11 o 3 o 8 o 10 o 15 o 1 oId3 –Conv–HO 17 o 9 o 17 o 22 o 17 o 2 oNaive – AI – CV 12 o 16 o 2 o 4 o 4 o 17 oNaive – AI – BS 13 o 15 o 5 o 5 o 7 o 19 oNaive – AI – HO 15 o 17 o 3 o 6 o 9 o 20 oNaive – Conv – CV 4 o 21 o 1 o 16 o 18 o 15 oNaive – Conv – BS 5 o 13 o 10 o 14 o 5 o 11 oNaive – Conv – HO 16 o 11 o 13 o 19 o 8 o 21 oOneR–AI –CV 8 o 6 o 16 o 8 o 14 o 14 oOneR–AI –BS 9 o 8 o 11 o 7 o 11 o 12 oOneR–AI –HO 10 o 10 o 14 o 9 o 12 o 13 oOneR–Conv–CV 6 o 7 o 18 o 24 o 10 o 16 oOneR–Conv–BS 14 o 12 o 12 o 17 o 2 o 10 oOneR–Conv–HO 7 o 18 o 9 o 23 o 16 o 18 oPrism – AI – CV 24 o 22 o 24 o 13 o 22 o 23 oPrism – AI – BS 22 o 23 o 22 o 15 o 24 o 24 oPrism – AI – HO 23 o 24 o 23 o 12 o 23 o 22 oPrism–Conv–CV 20 o 20 o 21 o 18 o 21 o 7 oPrism–Conv–BS 19 o 14 o 19 o 11 o 19 o 8 oPrism–Conv–HO 21 o 19 o 20 o 21 o 20 o 9 o

Síntese das acurácias – Perfis de PoçosO melhor classificadorµ ν Acc e(90%)para:GR 88,3% 3,21% (87,19% ⎯89,32%)NPHI 86,75% 3,01% (85,58% ⎯87,83%)DT 92,48% 0,27% (91,56% ⎯93,30%)ROHB 92,94% 1,63% (92,04% ⎯93,84%)DEPT.M 58,26% 0,46% (56,72% ⎯59,87%)ILD 88,49% 0,52% (86,94% ⎯89,90%)• O processo de MD automatizado mostrou-se adequadopara selecionar o melhor conjunto de técnicas e inferir omelhor classificador com as técnicas disponíveis.

Bancos de Dados da UCITécnicasBDLetter Splice Cars SoybeanKr-vskpMushroomTitanicId3 – AIF– CV 7 o 4 o 8 o 17 o 7 o 8 o 5 o 19 o 11 oId3 – AIF – BS 2 o 2 o 18 o 15 o 8 o 12 o 6 o 4 o 12 oId3 – AIF – HO 8 o 5 o 21 o 18 o 14 o 21 o 7 o 23 o 20 oId3 –Conv–CV 14 o 18 o 4 o 3 o 1 o 4 o 4 o 20 o 19 oId3 –Conv–BS 13 o 16 o 5 o 5 o 2 o 5 o 8 o 5 o 6 oId3 –Conv–HO 17 o 22 o 6 o 8 o 3 o 7 o 11 o 24 o 15 oNaive –AIF–CV 3 o 1 o 11 o 12 o 16 o 20 o 3 o 10 o 1 oNaive –AIF–BS 5 o 6 o 12 o 13 o 15 o 23 o 2 o 6 o 8 oNaive –AIF–HO 6 o 3 o 17 o 16 o 17 o 23 o 1 o 9 o 10 oNaive – Conv – CV 10 o 10 o 16 o 1 o 9 o 16 o 13 o 7 o 16 oNaive –Conv–BS 9 o 11 o 14 o 2 o 11 o 19 o 15 o 3 o 9 oNaive –Conv–HO 11 o 12 o 15 o 4 o 12 o 17 o 17 o 8 o 17 oOneR–AIF –CV 19 o 13 o 23 o 21 o 22 o 9 o 14 o 11 o 2 oOneR–AIF –BS 21 o 14 o 22 o 23 o 21 o 14 o 9 o 12 o 4 oOneR–AIF –HO 20 o 15 o 24 o 24 o 23 o 15 o 10 o 15 o 3 oOneR–Conv–CV 22 o 21 o 1 o 20 o 19 o 11 o 16 o 14 o 5 oOneR–Conv–BS 23 o 17 o 2 o 19 o 24 o 10 o 12 o 13 o 7 oOneR–Conv–HO 24 o 19 o 3 o 22 o 20 o 13 o 18 o 16 o 14 oPrism – AIF – CV 4 o 7 o 10 o 11 o 10 o 1 o 19 o 17 o 23 oPrism –AIF–BS 1 o 8 o 19 o 10 o 13 o 24 o 21 o 1 o 18 oPrism –AIF–HO 15 o 9 o 20 o 14 o 18 o 18 o 22 o 22 o 21 oPrism–Conv–CV 16 o 24 o 7 o 7 o 4 o 2 o 20 o 18 o 24 oPrism –Conv–BS 12 o 20 o 13 o 6 o 5 o 6 o 23 o 2 o 13 oPrism –Conv–HO 18 o 23 o 9 o 9 o 6 o 3 o 24 o 21 o 22 oCmcConnect-4

Síntese das Acurácias - Bancos de Dadosda UCIO melhor classificador para: µ ν acc e(90%)Letter 77,20% 0,43% (75,77% ⎯ 78,18%)Splice 92,55% 1,27% (89,79% ⎯ 93,75%)Cars 99,39% 0,32% (94,40% ⎯ 99,82%)Soybean 92,03% 1,50% (86,73% ⎯ 95,28%)Kr-vs-kp 99,58% 0,08% (97,99% ⎯ 99,50%)Mushroom 100,00% 0,00% (99,79% ⎯ 100,00%)Titanic 98,18% 5,45% (97,26% ⎯ 98,54%)Cmc 55,14% 0,84% (52,14% ⎯ 57,82%)Connect-4 96,95% 0,98% (95,12% ⎯ 96,72%)• Para os bancos de dados da UCI o processo de MDconseguiu selecionar adequadamente os melhoresconjuntos de técnicas e inferir o melhor classificador comas técnicas disponíveis.

Considerações finais• Nossos experimentos confirmam a não existência detécnicas de MD universais;• O processo automatizado diminui em muito o trabalho dominerador, encapsulando grande parte da complexidade desuas tarefas;• Em todos os experimentos realizados, o processo de MDautomatizado foi hábil na seleção do melhor conjunto detécnicas e na inferência do melhor classificador;• A implementação na forma de um framework permite afácil adição de novas técnicas;

Próximas etapas• Refinamento da implementação;• Realização de mais experimentos;• Elaboração da dissertação;• Defesa da dissertação.

Um Framework de Controle de Qualidade em MineraÃƒÂ§ÃƒÂ£o de Dados

Create successful ePaper yourself

Delete template?

Save as template?