13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

18 CAPÍTULO 2. CLASIFICACIÓNEl segundo defecto es menos cuantificable. Parece que este criterio no genera divisionesbeneficiosas para el proceso global de construcción del árbol [Breiman et al., 1984]. Enel algoritmo CART [Breiman et al., 1984] se elige una función local de coste i(t) queselecciona para cada nodo t la pregunta que maximiza la variación de la impureza del nodopara todas las divisiones posibles del conjunto de datos pertenecientes a U(t). La variaciónde la impureza, ∆i(t), se define como∆i(t) = i(t) − (i(t L )p L + i(t R )p R ) ,donde p R y p L son la proporción de ejemplos de contenidos en U(t) que, después de ladivisión, caen en los nodos hijos t R y t L respectivamente, esto esp L = p(t L)p(t) , p R = p(t R) N(t), p(t) =p(t) N .La función de impureza i(t) se define en función de las probabilidades p(j|t) de cadaclase dentro de la región definida por el nodo ti(t) = i(p(1|t), . . . , p(C|t)) . (2.9)En [Breiman et al., 1984] se establecen una serie de propiedades que debe cumplir lafunción de impureza definida en la ec. (2.9). Estas son:1. Debe ser máxima sólo en el punto (1/C, 1/C, . . . , 1/C). Es decir, la impureza de unnodo es máxima si la distribución de ejemplos de cada clase es uniforme.2. Debe alcanzar mínimos únicamente en los puntos: (1, 0, . . . , 0), (0, 1, . . . , 0), . . . y(0, 0, . . . , 1). Esto indica que la impureza de un nodo es mínima si sólo existen datosde una clase (nodo puro).3. Suponiendo que todas las clases son equivalentes, debe ser una función simétrica enp(1|t), p(2|t), . . . y p(C|t).Una función de impureza i(t) que cumpla estos criterios tiene la propiedad que ∆i(t) ≥0 para todo t y toda posible división del espacio [Breiman et al., 1984]. Esto es, la impurezanunca se incrementa cuando se hace crecer el árbol independientemente de cómo seelijan las divisiones. En cualquier caso se buscarán divisiones del espacio de atributos queconduzcan a la mayor homogeneidad de clases posible dentro de los nodos hijos. Se buscapor tanto maximizar ∆i(t) con respecto a las divisiones posibles del espacio, S. Esto esmáx∆i(s, t) = máx [i(t) − (i(t L)p L + i(t R )p R )] . (2.10)s∈S s∈S

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!