13.07.2015 Views

Um Framework de Controle de Qualidade em Mineração de Dados

Um Framework de Controle de Qualidade em Mineração de Dados

Um Framework de Controle de Qualidade em Mineração de Dados

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Um</strong> <strong>Framework</strong> <strong>de</strong> <strong>Controle</strong> <strong>de</strong>Qualida<strong>de</strong> <strong>em</strong> Mineração <strong>de</strong><strong>Dados</strong>Mestrando: Josué ToebeOrientador: Marcus Costa SampaioAgosto, 2002


Contexto• Bancos <strong>de</strong> <strong>Dados</strong> (BD) po<strong>de</strong>m ser caracterizados comoverda<strong>de</strong>iras minas <strong>de</strong> conhecimento.– Padrões nos dados– Apresentados sob a forma <strong>de</strong>• Regras se ... então ...• Árvores <strong>de</strong> <strong>de</strong>cisão• Outras formas– Confiabilida<strong>de</strong> <strong>de</strong> padrões• Volume <strong>de</strong> dados para minerar• Freqüência dos padrões• Mineração <strong>de</strong> <strong>Dados</strong> (MD): área <strong>de</strong> pesquisa que sepreocupa <strong>em</strong> como melhor explorar essas minas.


Contexto (Cont.)• Processo <strong>de</strong> MD– uma série <strong>de</strong> tarefas que <strong>de</strong>ve ser efetuada por um minerador paraa indução <strong>de</strong> conhecimento.• Diversas técnicas têm sido propostas para cada uma dastarefas.– Não existe uma técnica que seja a melhor <strong>em</strong> todos os casos.


Contexto (Cont.)• Durante o processo, diversas <strong>de</strong>cisões <strong>de</strong>v<strong>em</strong> ser tomadaspelo minerador:– Qual técnica utilizar <strong>em</strong> cada tarefa?– Os resultados obtidos <strong>em</strong> cada tarefa são bons? Ou alguma tarefaprecisa ser refeita?– Como comparar o resultado obtido por duas técnicas diferentes?– O resultado final da MD é bom, mas será que utilizando outratécnica não se po<strong>de</strong>ria obter resultados ainda melhores?


Contexto (Cont.)• Gran<strong>de</strong> complexida<strong>de</strong> na realização das tarefas e natomada <strong>de</strong> <strong>de</strong>cisão.• <strong>Um</strong> bom minerador– gran<strong>de</strong> conhecimento <strong>em</strong> MD– gran<strong>de</strong> conhecimento sobre o domínio da aplicação.• Não existe um processo automatizado que ‘esconda’ dominerador a complexida<strong>de</strong> do processo.


Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Seleção <strong>de</strong> uma amostra– Diminuição do custo <strong>de</strong>processamento com a utilização <strong>de</strong>amostras representativas• Adaptive Incr<strong>em</strong>ental <strong>Framework</strong>• Convergência


Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Preparação da amostra– Tratamento <strong>de</strong> probl<strong>em</strong>as comuns<strong>em</strong> amostras <strong>de</strong> BD• dados inexistentes• dados <strong>de</strong>sconhecidos• dados contínuos


Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Fragmentação da amostra– Divisão do conjunto amostra <strong>em</strong>subconjuntos: treinamento e testes• K-fold Cross Validation• Bootstrap• HoldOut


Etapas <strong>de</strong> um processo <strong>de</strong> Mineração <strong>de</strong> <strong>Dados</strong>• Indução do Conhecimento– O conhecimento é inferido doconjunto <strong>de</strong> treinamento com autilização <strong>de</strong> um algoritmo <strong>de</strong>indução <strong>de</strong> conhecimento:• Prism• ID3• OneR• Naive Bayes


Objetivos da Dissertação• Propor um processo automatizado <strong>de</strong> MD– Cont<strong>em</strong>plar todas as etapas <strong>de</strong> um processo <strong>de</strong> MD.– Agregar diferentes técnicas <strong>de</strong> seleção <strong>de</strong> amostras,fragmentação <strong>de</strong> amostras e indução <strong>de</strong> conhecimento;– Determinar o melhor conjunto <strong>de</strong> técnicas para o BD;– Inferir o melhor conhecimento possível com astécnicas disponíveis;– Permitir a fácil adição <strong>de</strong> novas técnicas ao processo;• <strong>Framework</strong> <strong>de</strong> software– ‘Escon<strong>de</strong>r’ do minerador a complexida<strong>de</strong> do processo.


<strong>Um</strong> <strong>Framework</strong> para MD.• A impl<strong>em</strong>entação do processo foi realizadana forma <strong>de</strong> um <strong>Framework</strong> Orientado aObjetos.– Permite um amplo reuso <strong>de</strong> projeto e código;– Permite a rápida adição <strong>de</strong> novas técnicas paraqualquer etapa do processo <strong>de</strong> MD.


Núcleo do <strong>Framework</strong>


Técnicas <strong>de</strong> Fragmentação


Técnicas <strong>de</strong> Amostrag<strong>em</strong>


Técnicas <strong>de</strong> Preparação


Componentes <strong>de</strong> <strong>Dados</strong>


Impl<strong>em</strong>entação


Avaliação Experimental• Realizada <strong>em</strong> duas etapas:– <strong>Dados</strong> <strong>de</strong> perfis <strong>de</strong> poços <strong>de</strong> petróleo do Campo Escola<strong>de</strong> Namorado disponibilizados pela ANP.– <strong>Dados</strong> <strong>de</strong> diversas áreas disponíveis no repositório UCI(http://kdd.ics.uci.edu)– Letter: caracteres manuscritos;– Splice: seqüências <strong>de</strong> DNA;– Soybean: cultivo <strong>de</strong> soja;– Titanic: naufrágio do Titanic;– Cmc: métodos anticoncepcionais;– Cars: veículos;– Kr-vs-kp: partidas <strong>de</strong> xadrez;– Connect-4: partidas <strong>de</strong> connect-4;– Mushroom: varieda<strong>de</strong>s <strong>de</strong> cogumelos.


Perfis <strong>de</strong> poçosAtributo <strong>de</strong> classificaçãoTécnicasDEPT.M GR NPHI ILD DT RHOBId3 – AI– CV 2 o 4 o 7 o 2 o 3 o 4 oId3 – AI – BS 1 o 5 o 6 o 1 o 1 o 5 oId3 – AI – HO 3 o 2 o 4 o 3 o 6 o 6 oId3 –Conv–CV 18 o 1 o 15 o 20 o 13 o 3 oId3 –Conv–BS 11 o 3 o 8 o 10 o 15 o 1 oId3 –Conv–HO 17 o 9 o 17 o 22 o 17 o 2 oNaive – AI – CV 12 o 16 o 2 o 4 o 4 o 17 oNaive – AI – BS 13 o 15 o 5 o 5 o 7 o 19 oNaive – AI – HO 15 o 17 o 3 o 6 o 9 o 20 oNaive – Conv – CV 4 o 21 o 1 o 16 o 18 o 15 oNaive – Conv – BS 5 o 13 o 10 o 14 o 5 o 11 oNaive – Conv – HO 16 o 11 o 13 o 19 o 8 o 21 oOneR–AI –CV 8 o 6 o 16 o 8 o 14 o 14 oOneR–AI –BS 9 o 8 o 11 o 7 o 11 o 12 oOneR–AI –HO 10 o 10 o 14 o 9 o 12 o 13 oOneR–Conv–CV 6 o 7 o 18 o 24 o 10 o 16 oOneR–Conv–BS 14 o 12 o 12 o 17 o 2 o 10 oOneR–Conv–HO 7 o 18 o 9 o 23 o 16 o 18 oPrism – AI – CV 24 o 22 o 24 o 13 o 22 o 23 oPrism – AI – BS 22 o 23 o 22 o 15 o 24 o 24 oPrism – AI – HO 23 o 24 o 23 o 12 o 23 o 22 oPrism–Conv–CV 20 o 20 o 21 o 18 o 21 o 7 oPrism–Conv–BS 19 o 14 o 19 o 11 o 19 o 8 oPrism–Conv–HO 21 o 19 o 20 o 21 o 20 o 9 o


Síntese das acurácias – Perfis <strong>de</strong> PoçosO melhor classificadorµ ν Acc e(90%)para:GR 88,3% 3,21% (87,19% ⎯89,32%)NPHI 86,75% 3,01% (85,58% ⎯87,83%)DT 92,48% 0,27% (91,56% ⎯93,30%)ROHB 92,94% 1,63% (92,04% ⎯93,84%)DEPT.M 58,26% 0,46% (56,72% ⎯59,87%)ILD 88,49% 0,52% (86,94% ⎯89,90%)• O processo <strong>de</strong> MD automatizado mostrou-se a<strong>de</strong>quadopara selecionar o melhor conjunto <strong>de</strong> técnicas e inferir omelhor classificador com as técnicas disponíveis.


Bancos <strong>de</strong> <strong>Dados</strong> da UCITécnicasBDLetter Splice Cars SoybeanKr-vskpMushroomTitanicId3 – AIF– CV 7 o 4 o 8 o 17 o 7 o 8 o 5 o 19 o 11 oId3 – AIF – BS 2 o 2 o 18 o 15 o 8 o 12 o 6 o 4 o 12 oId3 – AIF – HO 8 o 5 o 21 o 18 o 14 o 21 o 7 o 23 o 20 oId3 –Conv–CV 14 o 18 o 4 o 3 o 1 o 4 o 4 o 20 o 19 oId3 –Conv–BS 13 o 16 o 5 o 5 o 2 o 5 o 8 o 5 o 6 oId3 –Conv–HO 17 o 22 o 6 o 8 o 3 o 7 o 11 o 24 o 15 oNaive –AIF–CV 3 o 1 o 11 o 12 o 16 o 20 o 3 o 10 o 1 oNaive –AIF–BS 5 o 6 o 12 o 13 o 15 o 23 o 2 o 6 o 8 oNaive –AIF–HO 6 o 3 o 17 o 16 o 17 o 23 o 1 o 9 o 10 oNaive – Conv – CV 10 o 10 o 16 o 1 o 9 o 16 o 13 o 7 o 16 oNaive –Conv–BS 9 o 11 o 14 o 2 o 11 o 19 o 15 o 3 o 9 oNaive –Conv–HO 11 o 12 o 15 o 4 o 12 o 17 o 17 o 8 o 17 oOneR–AIF –CV 19 o 13 o 23 o 21 o 22 o 9 o 14 o 11 o 2 oOneR–AIF –BS 21 o 14 o 22 o 23 o 21 o 14 o 9 o 12 o 4 oOneR–AIF –HO 20 o 15 o 24 o 24 o 23 o 15 o 10 o 15 o 3 oOneR–Conv–CV 22 o 21 o 1 o 20 o 19 o 11 o 16 o 14 o 5 oOneR–Conv–BS 23 o 17 o 2 o 19 o 24 o 10 o 12 o 13 o 7 oOneR–Conv–HO 24 o 19 o 3 o 22 o 20 o 13 o 18 o 16 o 14 oPrism – AIF – CV 4 o 7 o 10 o 11 o 10 o 1 o 19 o 17 o 23 oPrism –AIF–BS 1 o 8 o 19 o 10 o 13 o 24 o 21 o 1 o 18 oPrism –AIF–HO 15 o 9 o 20 o 14 o 18 o 18 o 22 o 22 o 21 oPrism–Conv–CV 16 o 24 o 7 o 7 o 4 o 2 o 20 o 18 o 24 oPrism –Conv–BS 12 o 20 o 13 o 6 o 5 o 6 o 23 o 2 o 13 oPrism –Conv–HO 18 o 23 o 9 o 9 o 6 o 3 o 24 o 21 o 22 oCmcConnect-4


Síntese das Acurácias - Bancos <strong>de</strong> <strong>Dados</strong>da UCIO melhor classificador para: µ ν acc e(90%)Letter 77,20% 0,43% (75,77% ⎯ 78,18%)Splice 92,55% 1,27% (89,79% ⎯ 93,75%)Cars 99,39% 0,32% (94,40% ⎯ 99,82%)Soybean 92,03% 1,50% (86,73% ⎯ 95,28%)Kr-vs-kp 99,58% 0,08% (97,99% ⎯ 99,50%)Mushroom 100,00% 0,00% (99,79% ⎯ 100,00%)Titanic 98,18% 5,45% (97,26% ⎯ 98,54%)Cmc 55,14% 0,84% (52,14% ⎯ 57,82%)Connect-4 96,95% 0,98% (95,12% ⎯ 96,72%)• Para os bancos <strong>de</strong> dados da UCI o processo <strong>de</strong> MDconseguiu selecionar a<strong>de</strong>quadamente os melhoresconjuntos <strong>de</strong> técnicas e inferir o melhor classificador comas técnicas disponíveis.


Consi<strong>de</strong>rações finais• Nossos experimentos confirmam a não existência <strong>de</strong>técnicas <strong>de</strong> MD universais;• O processo automatizado diminui <strong>em</strong> muito o trabalho dominerador, encapsulando gran<strong>de</strong> parte da complexida<strong>de</strong> <strong>de</strong>suas tarefas;• Em todos os experimentos realizados, o processo <strong>de</strong> MDautomatizado foi hábil na seleção do melhor conjunto <strong>de</strong>técnicas e na inferência do melhor classificador;• A impl<strong>em</strong>entação na forma <strong>de</strong> um framework permite afácil adição <strong>de</strong> novas técnicas;


Próximas etapas• Refinamento da impl<strong>em</strong>entação;• Realização <strong>de</strong> mais experimentos;• Elaboração da dissertação;• Defesa da dissertação.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!