Um Framework de Controle de Qualidade em Mineração de Dados
Um Framework de Controle de Qualidade em Mineração de Dados
Um Framework de Controle de Qualidade em Mineração de Dados
- No tags were found...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Um</strong> <strong>Framework</strong> <strong>de</strong> <strong>Controle</strong> <strong>de</strong>Qualida<strong>de</strong> <strong>em</strong> Mineração <strong>de</strong><strong>Dados</strong>Mestrando: Josué ToebeOrientador: Marcus Costa SampaioAgosto, 2002
Contexto• Bancos <strong>de</strong> <strong>Dados</strong> (BD) po<strong>de</strong>m ser caracterizados comoverda<strong>de</strong>iras minas <strong>de</strong> conhecimento.– Padrões nos dados– Apresentados sob a forma <strong>de</strong>• Regras se ... então ...• Árvores <strong>de</strong> <strong>de</strong>cisão• Outras formas– Confiabilida<strong>de</strong> <strong>de</strong> padrões• Volume <strong>de</strong> dados para minerar• Freqüência dos padrões• Mineração <strong>de</strong> <strong>Dados</strong> (MD): área <strong>de</strong> pesquisa que sepreocupa <strong>em</strong> como melhor explorar essas minas.
Contexto (Cont.)• Processo <strong>de</strong> MD– uma série <strong>de</strong> tarefas que <strong>de</strong>ve ser efetuada por um minerador paraa indução <strong>de</strong> conhecimento.• Diversas técnicas têm sido propostas para cada uma dastarefas.– Não existe uma técnica que seja a melhor <strong>em</strong> todos os casos.
Contexto (Cont.)• Durante o processo, diversas <strong>de</strong>cisões <strong>de</strong>v<strong>em</strong> ser tomadaspelo minerador:– Qual técnica utilizar <strong>em</strong> cada tarefa?– Os resultados obtidos <strong>em</strong> cada tarefa são bons? Ou alguma tarefaprecisa ser refeita?– Como comparar o resultado obtido por duas técnicas diferentes?– O resultado final da MD é bom, mas será que utilizando outratécnica não se po<strong>de</strong>ria obter resultados ainda melhores?
Contexto (Cont.)• Gran<strong>de</strong> complexida<strong>de</strong> na realização das tarefas e natomada <strong>de</strong> <strong>de</strong>cisão.• <strong>Um</strong> bom minerador– gran<strong>de</strong> conhecimento <strong>em</strong> MD– gran<strong>de</strong> conhecimento sobre o domínio da aplicação.• Não existe um processo automatizado que ‘esconda’ dominerador a complexida<strong>de</strong> do processo.
Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Seleção <strong>de</strong> uma amostra– Diminuição do custo <strong>de</strong>processamento com a utilização <strong>de</strong>amostras representativas• Adaptive Incr<strong>em</strong>ental <strong>Framework</strong>• Convergência
Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Preparação da amostra– Tratamento <strong>de</strong> probl<strong>em</strong>as comuns<strong>em</strong> amostras <strong>de</strong> BD• dados inexistentes• dados <strong>de</strong>sconhecidos• dados contínuos
Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Fragmentação da amostra– Divisão do conjunto amostra <strong>em</strong>subconjuntos: treinamento e testes• K-fold Cross Validation• Bootstrap• HoldOut
Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Indução do Conhecimento– O conhecimento é inferido doconjunto <strong>de</strong> treinamento com autilização <strong>de</strong> um algoritmo <strong>de</strong>indução <strong>de</strong> conhecimento:• Prism• ID3• OneR• Naive Bayes
Objetivos da Dissertação• Propor um processo automatizado <strong>de</strong> MD– Cont<strong>em</strong>plar todas as etapas <strong>de</strong> um processo <strong>de</strong> MD.– Agregar diferentes técnicas <strong>de</strong> seleção <strong>de</strong> amostras,fragmentação <strong>de</strong> amostras e indução <strong>de</strong> conhecimento;– Determinar o melhor conjunto <strong>de</strong> técnicas para o BD;– Inferir o melhor conhecimento possível com astécnicas disponíveis;– Permitir a fácil adição <strong>de</strong> novas técnicas ao processo;• <strong>Framework</strong> <strong>de</strong> software– ‘Escon<strong>de</strong>r’ do minerador a complexida<strong>de</strong> do processo.
<strong>Um</strong> <strong>Framework</strong> para MD.• A impl<strong>em</strong>entação do processo foi realizadana forma <strong>de</strong> um <strong>Framework</strong> Orientado aObjetos.– Permite um amplo reuso <strong>de</strong> projeto e código;– Permite a rápida adição <strong>de</strong> novas técnicas paraqualquer etapa do processo <strong>de</strong> MD.
Núcleo do <strong>Framework</strong>
Técnicas <strong>de</strong> Fragmentação
Técnicas <strong>de</strong> Amostrag<strong>em</strong>
Técnicas <strong>de</strong> Preparação
Componentes <strong>de</strong> <strong>Dados</strong>
Impl<strong>em</strong>entação
Avaliação Experimental• Realizada <strong>em</strong> duas etapas:– <strong>Dados</strong> <strong>de</strong> perfis <strong>de</strong> poços <strong>de</strong> petróleo do Campo Escola<strong>de</strong> Namorado disponibilizados pela ANP.– <strong>Dados</strong> <strong>de</strong> diversas áreas disponíveis no repositório UCI(http://kdd.ics.uci.edu)– Letter: caracteres manuscritos;– Splice: seqüências <strong>de</strong> DNA;– Soybean: cultivo <strong>de</strong> soja;– Titanic: naufrágio do Titanic;– Cmc: métodos anticoncepcionais;– Cars: veículos;– Kr-vs-kp: partidas <strong>de</strong> xadrez;– Connect-4: partidas <strong>de</strong> connect-4;– Mushroom: varieda<strong>de</strong>s <strong>de</strong> cogumelos.
Perfis <strong>de</strong> poçosAtributo <strong>de</strong> classificaçãoTécnicasDEPT.M GR NPHI ILD DT RHOBId3 – AI– CV 2 o 4 o 7 o 2 o 3 o 4 oId3 – AI – BS 1 o 5 o 6 o 1 o 1 o 5 oId3 – AI – HO 3 o 2 o 4 o 3 o 6 o 6 oId3 –Conv–CV 18 o 1 o 15 o 20 o 13 o 3 oId3 –Conv–BS 11 o 3 o 8 o 10 o 15 o 1 oId3 –Conv–HO 17 o 9 o 17 o 22 o 17 o 2 oNaive – AI – CV 12 o 16 o 2 o 4 o 4 o 17 oNaive – AI – BS 13 o 15 o 5 o 5 o 7 o 19 oNaive – AI – HO 15 o 17 o 3 o 6 o 9 o 20 oNaive – Conv – CV 4 o 21 o 1 o 16 o 18 o 15 oNaive – Conv – BS 5 o 13 o 10 o 14 o 5 o 11 oNaive – Conv – HO 16 o 11 o 13 o 19 o 8 o 21 oOneR–AI –CV 8 o 6 o 16 o 8 o 14 o 14 oOneR–AI –BS 9 o 8 o 11 o 7 o 11 o 12 oOneR–AI –HO 10 o 10 o 14 o 9 o 12 o 13 oOneR–Conv–CV 6 o 7 o 18 o 24 o 10 o 16 oOneR–Conv–BS 14 o 12 o 12 o 17 o 2 o 10 oOneR–Conv–HO 7 o 18 o 9 o 23 o 16 o 18 oPrism – AI – CV 24 o 22 o 24 o 13 o 22 o 23 oPrism – AI – BS 22 o 23 o 22 o 15 o 24 o 24 oPrism – AI – HO 23 o 24 o 23 o 12 o 23 o 22 oPrism–Conv–CV 20 o 20 o 21 o 18 o 21 o 7 oPrism–Conv–BS 19 o 14 o 19 o 11 o 19 o 8 oPrism–Conv–HO 21 o 19 o 20 o 21 o 20 o 9 o
Síntese das acurácias – Perfis <strong>de</strong> PoçosO melhor classificadorµ ν Acc e(90%)para:GR 88,3% 3,21% (87,19% ⎯89,32%)NPHI 86,75% 3,01% (85,58% ⎯87,83%)DT 92,48% 0,27% (91,56% ⎯93,30%)ROHB 92,94% 1,63% (92,04% ⎯93,84%)DEPT.M 58,26% 0,46% (56,72% ⎯59,87%)ILD 88,49% 0,52% (86,94% ⎯89,90%)• O processo <strong>de</strong> MD automatizado mostrou-se a<strong>de</strong>quadopara selecionar o melhor conjunto <strong>de</strong> técnicas e inferir omelhor classificador com as técnicas disponíveis.
Bancos <strong>de</strong> <strong>Dados</strong> da UCITécnicasBDLetter Splice Cars SoybeanKr-vskpMushroomTitanicId3 – AIF– CV 7 o 4 o 8 o 17 o 7 o 8 o 5 o 19 o 11 oId3 – AIF – BS 2 o 2 o 18 o 15 o 8 o 12 o 6 o 4 o 12 oId3 – AIF – HO 8 o 5 o 21 o 18 o 14 o 21 o 7 o 23 o 20 oId3 –Conv–CV 14 o 18 o 4 o 3 o 1 o 4 o 4 o 20 o 19 oId3 –Conv–BS 13 o 16 o 5 o 5 o 2 o 5 o 8 o 5 o 6 oId3 –Conv–HO 17 o 22 o 6 o 8 o 3 o 7 o 11 o 24 o 15 oNaive –AIF–CV 3 o 1 o 11 o 12 o 16 o 20 o 3 o 10 o 1 oNaive –AIF–BS 5 o 6 o 12 o 13 o 15 o 23 o 2 o 6 o 8 oNaive –AIF–HO 6 o 3 o 17 o 16 o 17 o 23 o 1 o 9 o 10 oNaive – Conv – CV 10 o 10 o 16 o 1 o 9 o 16 o 13 o 7 o 16 oNaive –Conv–BS 9 o 11 o 14 o 2 o 11 o 19 o 15 o 3 o 9 oNaive –Conv–HO 11 o 12 o 15 o 4 o 12 o 17 o 17 o 8 o 17 oOneR–AIF –CV 19 o 13 o 23 o 21 o 22 o 9 o 14 o 11 o 2 oOneR–AIF –BS 21 o 14 o 22 o 23 o 21 o 14 o 9 o 12 o 4 oOneR–AIF –HO 20 o 15 o 24 o 24 o 23 o 15 o 10 o 15 o 3 oOneR–Conv–CV 22 o 21 o 1 o 20 o 19 o 11 o 16 o 14 o 5 oOneR–Conv–BS 23 o 17 o 2 o 19 o 24 o 10 o 12 o 13 o 7 oOneR–Conv–HO 24 o 19 o 3 o 22 o 20 o 13 o 18 o 16 o 14 oPrism – AIF – CV 4 o 7 o 10 o 11 o 10 o 1 o 19 o 17 o 23 oPrism –AIF–BS 1 o 8 o 19 o 10 o 13 o 24 o 21 o 1 o 18 oPrism –AIF–HO 15 o 9 o 20 o 14 o 18 o 18 o 22 o 22 o 21 oPrism–Conv–CV 16 o 24 o 7 o 7 o 4 o 2 o 20 o 18 o 24 oPrism –Conv–BS 12 o 20 o 13 o 6 o 5 o 6 o 23 o 2 o 13 oPrism –Conv–HO 18 o 23 o 9 o 9 o 6 o 3 o 24 o 21 o 22 oCmcConnect-4
Síntese das Acurácias - Bancos <strong>de</strong> <strong>Dados</strong>da UCIO melhor classificador para: µ ν acc e(90%)Letter 77,20% 0,43% (75,77% ⎯ 78,18%)Splice 92,55% 1,27% (89,79% ⎯ 93,75%)Cars 99,39% 0,32% (94,40% ⎯ 99,82%)Soybean 92,03% 1,50% (86,73% ⎯ 95,28%)Kr-vs-kp 99,58% 0,08% (97,99% ⎯ 99,50%)Mushroom 100,00% 0,00% (99,79% ⎯ 100,00%)Titanic 98,18% 5,45% (97,26% ⎯ 98,54%)Cmc 55,14% 0,84% (52,14% ⎯ 57,82%)Connect-4 96,95% 0,98% (95,12% ⎯ 96,72%)• Para os bancos <strong>de</strong> dados da UCI o processo <strong>de</strong> MDconseguiu selecionar a<strong>de</strong>quadamente os melhoresconjuntos <strong>de</strong> técnicas e inferir o melhor classificador comas técnicas disponíveis.
Consi<strong>de</strong>rações finais• Nossos experimentos confirmam a não existência <strong>de</strong>técnicas <strong>de</strong> MD universais;• O processo automatizado diminui <strong>em</strong> muito o trabalho dominerador, encapsulando gran<strong>de</strong> parte da complexida<strong>de</strong> <strong>de</strong>suas tarefas;• Em todos os experimentos realizados, o processo <strong>de</strong> MDautomatizado foi hábil na seleção do melhor conjunto <strong>de</strong>técnicas e na inferência do melhor classificador;• A impl<strong>em</strong>entação na forma <strong>de</strong> um framework permite afácil adição <strong>de</strong> novas técnicas;
Próximas etapas• Refinamento da impl<strong>em</strong>entação;• Realização <strong>de</strong> mais experimentos;• Elaboração da dissertação;• Defesa da dissertação.