11.07.2015 Views

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Como se po<strong>de</strong> visualizar, a estrutura <strong>de</strong> uma árvore <strong>de</strong> <strong>de</strong>cisão é forma<strong>da</strong> por:– folhas (nós puros), que correspon<strong>de</strong>m às uni<strong>da</strong><strong>de</strong>s a serem preditas.– nós internos, que correspon<strong>de</strong>m aos atributos (especifica algum teste efetuado numúnico atributo, com duas ou mais sub-árvores que representam saí<strong>da</strong>s possíveis);– ramos, que correspon<strong>de</strong>m aos valores dos atributos.Os algoritmos <strong>de</strong> indução <strong>de</strong> árvores <strong>de</strong> <strong>de</strong>cisão constroem os padrões a partirdos <strong><strong>da</strong>dos</strong> <strong>de</strong> treino, <strong>de</strong> uma forma recursiva efetuando a subdivisão do conjunto <strong>de</strong><strong><strong>da</strong>dos</strong> até que este seja apenas composto por nós “puros”, ou seja, até que ca<strong>da</strong> nórepresente apenas uma única classe ou satisfaça um <strong>de</strong>terminado critério (QUINTELA,2005).O critério utilizado <strong>para</strong> realizar as partições é o <strong>da</strong> utili<strong>da</strong><strong>de</strong> do atributo <strong>para</strong> aclassificação. Aplica-se, por este critério, um <strong>de</strong>terminado ganho <strong>de</strong> informação a ca<strong>da</strong>atributo. O atributo escolhido como atributo teste <strong>para</strong> o corrente nó é aquele que possuio maior ganho <strong>de</strong> informação. A partir <strong>de</strong>sta aplicação, inicia-se um novo processo <strong>de</strong>partição. Nos casos em que a árvore é usa<strong>da</strong> <strong>para</strong> classificação, os critérios <strong>de</strong> partiçãomais conhecidos são baseados na entropia (ONODA, 2001).Entropia é o cálculo do ganho <strong>de</strong> informação baseado em uma medi<strong>da</strong> utiliza<strong>da</strong>na teoria <strong>da</strong> informação (equações 1, 2, 3 e 4), na qual H é a entropia e U(y/x) o grau <strong>de</strong>incerteza <strong>da</strong> informação (equações 5 e 6), sendo y a variável a ser predita e x a original.A entropia caracteriza a pureza/impureza dos <strong><strong>da</strong>dos</strong>: em um conjunto <strong>de</strong> <strong><strong>da</strong>dos</strong>, é umamedi<strong>da</strong> <strong>da</strong> falta <strong>de</strong> homogenei<strong>da</strong><strong>de</strong> dos <strong><strong>da</strong>dos</strong> <strong>de</strong> entra<strong>da</strong> em relação a sua classificação.Por exemplo, a entropia é máxima quando x prediz totalmente y (igual a 1), ou seja,quando o conjunto <strong>de</strong> <strong><strong>da</strong>dos</strong> é heterogêneo (MITCHELL (1997); COIMBRA (2008)). Jáquando a entropia é 0, x e y não apresentam associação alguma.A entropia, H, <strong>de</strong> x e y é respectivamente:H ( x)= ∑ − p i. ln pie H ( y)= ∑ − p j. ln pj[1]on<strong>de</strong> i = 1,2.. n, nas classes <strong>de</strong> variáveis x; j = 1,2.. m, nas classes <strong>da</strong> variável y; p é aprobabili<strong>da</strong><strong>de</strong> <strong>de</strong> ocorrência <strong>de</strong> uma classe; ln é o logaritmo natural.A entropia conjunta é:−∑H ( x,y)[2]= p i. ln pj ija entropia <strong>de</strong> x <strong>da</strong>do y é:20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!