Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Como encontrar a melhor divisão?<br />
Sim<br />
Nodo N1<br />
C0<br />
C1<br />
N10<br />
N11<br />
Antes da divisão: C0 N00<br />
C1 N01<br />
A?<br />
Não<br />
Nodo N2<br />
C0<br />
C1<br />
N20<br />
N21<br />
Sim<br />
Nodo N3<br />
C0<br />
C1<br />
M0<br />
N30<br />
N31<br />
B?<br />
Não<br />
Nodo N4<br />
M1 M2 M3 M4<br />
C0<br />
C1<br />
N40<br />
N41<br />
Medida da impureza: GINI<br />
Índice Gini para um nó t :<br />
GII ( t)<br />
= 1<br />
−∑<br />
(Nota: p( j | t) é a freqüência relativa da classe j no nó t).<br />
j<br />
[ p(<br />
j | t)]<br />
– Máximo (1 - 1/n c ) quando os registros estão<br />
igualmente distribuídos entre todas as classes (pior)<br />
– Mínimo (0.0) quando todos os registros pertencem a<br />
uma classe (melhor)<br />
2<br />
M12<br />
Ganho = M0 – M12 vs M0 – M34<br />
M34<br />
C1 0<br />
C2 6<br />
Gini=0.000<br />
C1 1<br />
C2 5<br />
Gini=0.278<br />
C1 2<br />
C2 4<br />
Gini=0.444<br />
C1 3<br />
C2 3<br />
Gini=0.500<br />
Exemplos do cálculo do índice GINI<br />
Divisão baseda no índice GINI<br />
C1 0<br />
C2 6<br />
GII(<br />
t)<br />
= 1<br />
−∑<br />
j<br />
[ p(<br />
j | t)]<br />
P(C1) = 0/6 = 0 P(C2) = 6/6 = 1<br />
Gini = 1 – P(C1) 2 – P(C2) 2 = 1 – 0 – 1 = 0<br />
2<br />
<br />
<br />
Usado nos métodos CART, SLIQ, SPRINT.<br />
Quando um nó p é dividido em k partições (filhos), a<br />
qualida<strong>de</strong> da divisão é calculada como,<br />
GII<br />
split<br />
=<br />
k<br />
∑<br />
i<br />
=<br />
1<br />
ni<br />
GII ( i)<br />
n<br />
C1 1<br />
C2 5<br />
C1 2<br />
C2 4<br />
P(C1) = 1/6 P(C2) = 5/6<br />
Gini = 1 – (1/6) 2 – (5/6) 2 = 0.278<br />
P(C1) = 2/6 P(C2) = 4/6<br />
Gini = 1 – (2/6) 2 – (4/6) 2 = 0.444<br />
on<strong>de</strong>, n i = número <strong>de</strong> registros no filho i,<br />
n = número <strong>de</strong> registros no nó p.