13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

20 CAPÍTULO 2. CLASIFICACIÓNdel árbol generan árboles cuya capacidad de generalización es similar [Breiman et al., 1984;Mingers, 1989b]. Las mayores diferencias de los distintos criterios se obtienen en el tamañode los árboles obtenidos. En concreto gain ratio criterion es uno de los criterios que generaárboles más compactos [Mingers, 1989b].Veamos según el criterio de Gini por qué en el ejemplo de la figura 2.2 se ha elegidocomo primera división del árbol x 1 > 5 y no x 2 > 2. Para ello hay que calcular la impurezadel nodo raíz antes de la división y las impurezas de los nodos hijos después de hacer estasdos divisiones. Para simplificar el proceso utilizaremos sólo los datos presentados en latabla de la figura 2.2. Partiendo de la estimación dada por la ec. (2.8) para p(j|t) se obtieneque la impureza en el nodo raíz t según la ec. (2.11) esi(t) = 4/6 × 2/6 = 2/9 .Las impurezas de los nodos hijos después de la división x 1 > 5 soni(t L ) =1/3 × 2/3 =2/9si (x 1 > 5) (nodo izquierdo)i(t R ) =3/3 × 0/3 = 0 si (x 1 ≤ 5) (nodo derecho)y la variación de impureza para la división x 1 > 5 es∆i(t) = 2/9 − ((2/9) × 1/2 + 0 × 1/2) = 1/9donde la proporción de ejemplos que se asigna a cada nodo es p R = p L = 1/2. Para ladivisión x 2 > 2 se tiene: i(t L ) = 2/4 × 2/4 = 1/4, i(t R ) = 2/2 × 0/2 = 0, p L = 4/6 yp R = 2/6. Por lo que para x 2 > 2 la variación de impureza queda:∆i(t) = 2/9 − ((1/4) × 4/6 + 0 × 2/6) = 1/18 .Dado que 1/18 < 1/9 tenemos que x 1 > 5 reduce más la impureza que x 2 > 2 y por tantose elige como primera división del árbol según el criterio de Gini.La subdivisión del espacio continúa de acuerdo con el procedimiento especificado hastaque, o bien se satisface un criterio de parada (prepoda), o bien se alcanzan todos los nodosterminales con ejemplos de una única clase (nodos puros), o no existe una división tal quelos dos nodos hijos tengan algún dato. En general no se utilizan los criterios de prepoda(como por ejemplo ∆i(t) ≤ β), ya que detiene el proceso de división prematuramente enalgunos nodos y demasiado tarde en otros, siendo difícil hacer que el crecimiento se pareuniformemente en todas las ramas del árbol de forma óptima [Breiman et al., 1984]. Laopción más utilizada es hacer crecer el árbol hasta que todos los nodos sean puros. Estolleva a la generación de un árbol que se ajusta demasiado a los datos de entrenamiento peroque, a menudo, cuando se le presentan nuevos datos para clasificar, no tiene la suficiente

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!