29.01.2014 Views

Técnicas de Classificação

Técnicas de Classificação

Técnicas de Classificação

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Como encontrar a melhor divisão?<br />

Sim<br />

Nodo N1<br />

C0<br />

C1<br />

N10<br />

N11<br />

Antes da divisão: C0 N00<br />

C1 N01<br />

A?<br />

Não<br />

Nodo N2<br />

C0<br />

C1<br />

N20<br />

N21<br />

Sim<br />

Nodo N3<br />

C0<br />

C1<br />

M0<br />

N30<br />

N31<br />

B?<br />

Não<br />

Nodo N4<br />

M1 M2 M3 M4<br />

C0<br />

C1<br />

N40<br />

N41<br />

Medida da impureza: GINI<br />

Índice Gini para um nó t :<br />

GII ( t)<br />

= 1<br />

−∑<br />

(Nota: p( j | t) é a freqüência relativa da classe j no nó t).<br />

j<br />

[ p(<br />

j | t)]<br />

– Máximo (1 - 1/n c ) quando os registros estão<br />

igualmente distribuídos entre todas as classes (pior)<br />

– Mínimo (0.0) quando todos os registros pertencem a<br />

uma classe (melhor)<br />

2<br />

M12<br />

Ganho = M0 – M12 vs M0 – M34<br />

M34<br />

C1 0<br />

C2 6<br />

Gini=0.000<br />

C1 1<br />

C2 5<br />

Gini=0.278<br />

C1 2<br />

C2 4<br />

Gini=0.444<br />

C1 3<br />

C2 3<br />

Gini=0.500<br />

Exemplos do cálculo do índice GINI<br />

Divisão baseda no índice GINI<br />

C1 0<br />

C2 6<br />

GII(<br />

t)<br />

= 1<br />

−∑<br />

j<br />

[ p(<br />

j | t)]<br />

P(C1) = 0/6 = 0 P(C2) = 6/6 = 1<br />

Gini = 1 – P(C1) 2 – P(C2) 2 = 1 – 0 – 1 = 0<br />

2<br />

<br />

<br />

Usado nos métodos CART, SLIQ, SPRINT.<br />

Quando um nó p é dividido em k partições (filhos), a<br />

qualida<strong>de</strong> da divisão é calculada como,<br />

GII<br />

split<br />

=<br />

k<br />

∑<br />

i<br />

=<br />

1<br />

ni<br />

GII ( i)<br />

n<br />

C1 1<br />

C2 5<br />

C1 2<br />

C2 4<br />

P(C1) = 1/6 P(C2) = 5/6<br />

Gini = 1 – (1/6) 2 – (5/6) 2 = 0.278<br />

P(C1) = 2/6 P(C2) = 4/6<br />

Gini = 1 – (2/6) 2 – (4/6) 2 = 0.444<br />

on<strong>de</strong>, n i = número <strong>de</strong> registros no filho i,<br />

n = número <strong>de</strong> registros no nó p.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!