clasificaci´on mediante conjuntos - Escuela Politécnica Superior
clasificaci´on mediante conjuntos - Escuela Politécnica Superior clasificaci´on mediante conjuntos - Escuela Politécnica Superior
22 CAPÍTULO 2. CLASIFICACIÓNtendrá mayor capacidad de generalización aquél con menor complejidad, y para árbolescon complejidad similar, tendrá mayor capacidad de generalización aquél con un errormenor en L. Por tanto, el objetivo es llegar a un compromiso entre error y complejidad.En el algoritmo CART, la complejidad de un árbol T se estima utilizando el número denodos terminales del árbol | ˆT |. Posteriormente se elige el árbol podado T ∗ que minimicela siguiente función de coste-complejidad:mín R α (T ∗ ), R α (T ) = α| ˆT | + ∑ u∈ ˆTR(u, L) , (2.15)donde el parámetro α determina los pesos relativos en la función de coste del error y dela complejidad. El árbol podado T ∗ que minimiza la ecuación (2.15) para un valor de α lodenotaremos como T (α). Variando α de 0 a infinito se puede obtener una familia de árbolespodados. Esta familia es de tamaño finito dado que el árbol tiene un número finito de nodos.Para α = 0 no se obtiene poda alguna, ya que α = 0 significa que la complejidad no espenalizada y el árbol completo T es el de menor error en L. Por otro lado, existe un α K talque para α ≥ α K el árbol se podaría hasta el nodo raíz. Entre estos valores hay intervalospara el valor de α que nos definen una familia de posibles árboles podados a partir de T :T = T 0 ≥ T 1 ≥ · · · ≥ T K = raiz(T )Donde:(2.16)-T 0 se obtiene para α < a 1-T k se obtiene para α k ≤ α < a k+1 con k = 1, 2, . . . , K − 1-T K se obtiene para α ≥ a KEl siguiente paso es estimar el intervalo de α que nos da el árbol podado óptimo segúnla ecuación (2.15). En CART α se estima construyendo árboles auxiliares por validacióncruzada. Para ello se dividen los datos L en un número V de grupos disjuntos (normalmenteV = 10) tal queL = L 1 ∪ L 2 ∪ · · · ∪ L V y⊘ = L i ∩ L j para i = 1, 2, . . . , V con i ≠ j .(2.17)Posteriormente, y utilizando los siguientes conjuntos de datos L (v) = L − L v parav = 1, 2, ..., V , se construyen V árboles que denominaremos T (v) para v = 1, 2, ..., V .De esta forma cada árbol es generado con un 100(V − 1)/V por ciento de los datos. Portanto, cada árbol T (v) dispone de un 100/V por ciento de datos (esto es, el conjunto L v )que no se ha utilizado para crecer el árbol y que se puede usar para estimar parámetrosóptimos del árbol T (v) . Por ejemplo, podemos calcular el parámetro óptimo α para podar
2.2. ÁRBOLES DE DECISIÓN: CART Y C4.5 23el árbol T (v) . Para ello es suficiente calcular la familia de árboles podados que minimizanla ec. (2.15) para cada intervalo posible de α para L (v) tal como viene definido en la ec.(2.16). Posteriormente se elige, de la familia de árboles generados, el árbol que tenga menorerror para el conjunto de datos L v estimado con la ec. (2.12). El árbol con error mínimodefinirá el intervalo de poda α para el árbol T (v) .Sin embargo, es necesario estimar el valor de α óptimo para podar el árbol T construidocon todos los datos. Se podría utilizar la media de los α obtenidos para cada uno de los Várboles T (v) para podar el árbol T . El problema que presenta esta solución es que los distintosvalores de α para los árboles T (v) y para el árbol T no tienen por qué ser equivalentes,por lo que la media de los α óptimos de los árboles T (v) puede dar un valor inválido paraT . Se deberá buscar, por tanto, un valor de α de entre los intervalos de α que determinan lapoda del árbol T . La solución que adopta CART es la siguiente: para cada uno de los árbolesT (v) y para un valor de α dentro de cada uno de los intervalos de α de T se obtiene elárbol podado T (v) (α) utilizando los datos L (v) siguiendo el criterio de poda de la ecuación(2.15). A continuación se estima el error de cada uno de estos árboles T (v) (α) con respectoal conjunto de datos independientes L v con la ec. (2.12). Finalmente se elige el valor de αque minimiza el error medio de los árboles podados T (v) (α), esto esmínkR cv (T ∗ 1) = mínk VV∑R v (T (v) ( √ α k α k+1 )) , k = 1, 2, . . . , K − 1 (2.18)v=1donde R v es el error cometido con respecto al conjunto de datos L v utilizando la ecuación(2.12) y donde los valores de α dentro de cada intervalo de poda del árbol T utilizadosvienen dados por √ α k α k+1 . El valor de α que minimiza la ec. (2.18) junto con la ec. (2.15)nos determinan el árbol T (α) podado a partir de T .El algoritmo C4.5 usa criterio de poda basado en una estimación pesimista del errorde cada nodo (poda basada en error). Para ello substituye el número de errores cometidosen cada nodo por el límite superior de confianza de una distribución binomial (donde losejemplos del nodo N(t) son los ensayos y los errores del nodo M(t, L) son los “éxitos”de la distribución binomial) multiplicado por el número de ejemplos del nodo N(t). En laexhaustiva comparativa de distintos métodos de poda realizada por Esposito et al. observaronque la poda basada en error de C4.5 tiende a podar menos de lo necesario mientras quela poda de coste-complejidad de CART tiende a generar árboles más pequeños de la podaóptima [Esposito et al., 1997]. La poda pesimista que implementa C4.5 tiene la ventaja deque es computacionalmente muy rápida aunque en determinados problemas genera árbolesque no generalizan bien [Mingers, 1989a]. Por otro lado la poda por validación cruzadade coste-complejidad es más lenta pero presenta la ventaja de proporcionar una familia deárboles que puede ser analizada y comparada por un experto humano [Mingers, 1989a].
- Page 1: Universidad Autónoma de MadridEscu
- Page 5 and 6: AgradecimientosAgradezco muy sincer
- Page 7 and 8: Índice generalAgradecimientosV1. I
- Page 9: A.1.12. Sonar . . . . . . . . . . .
- Page 12 and 13: 4.5. Número medio de clasificadore
- Page 14 and 15: 3.5. Pseudocódigo de comités IGP
- Page 17 and 18: Capítulo 1IntroducciónUn clasific
- Page 19 and 20: 3aparecen en el problema concreto d
- Page 21 and 22: 5donde se realizan, etc [Dorronsoro
- Page 23 and 24: 7algoritmo genera un árbol de deci
- Page 25 and 26: de construcción de conjuntos de cl
- Page 27 and 28: Capítulo 2Clasificación2.1. Clasi
- Page 29 and 30: 2.1. CLASIFICACIÓN SUPERVISADA Y T
- Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 33 and 34: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 35 and 36: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 37: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25
- Page 43 and 44: 2.3. CONJUNTOS DE CLASIFICADORES 27
- Page 45 and 46: 2.3. CONJUNTOS DE CLASIFICADORES 29
- Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 49 and 50: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 51 and 52: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 53 and 54: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 55 and 56: 2.5. BAGGING Y BOSQUES ALEATORIOS 3
- Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos
- Page 59 and 60: 2.6. BOOSTING 43la decisión del co
- Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb
- Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO
- Page 65: Parte INuevos conjuntos de clasific
- Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 70 and 71: 54 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 72 and 73: 56 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 74 and 75: 58 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 76 and 77: 60 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 78 and 79: 62 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 80 and 81: 64 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 82 and 83: 66 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 84 and 85: 68 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 86 and 87: 70 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
2.2. ÁRBOLES DE DECISIÓN: CART Y C4.5 23el árbol T (v) . Para ello es suficiente calcular la familia de árboles podados que minimizanla ec. (2.15) para cada intervalo posible de α para L (v) tal como viene definido en la ec.(2.16). Posteriormente se elige, de la familia de árboles generados, el árbol que tenga menorerror para el conjunto de datos L v estimado con la ec. (2.12). El árbol con error mínimodefinirá el intervalo de poda α para el árbol T (v) .Sin embargo, es necesario estimar el valor de α óptimo para podar el árbol T construidocon todos los datos. Se podría utilizar la media de los α obtenidos para cada uno de los Várboles T (v) para podar el árbol T . El problema que presenta esta solución es que los distintosvalores de α para los árboles T (v) y para el árbol T no tienen por qué ser equivalentes,por lo que la media de los α óptimos de los árboles T (v) puede dar un valor inválido paraT . Se deberá buscar, por tanto, un valor de α de entre los intervalos de α que determinan lapoda del árbol T . La solución que adopta CART es la siguiente: para cada uno de los árbolesT (v) y para un valor de α dentro de cada uno de los intervalos de α de T se obtiene elárbol podado T (v) (α) utilizando los datos L (v) siguiendo el criterio de poda de la ecuación(2.15). A continuación se estima el error de cada uno de estos árboles T (v) (α) con respectoal conjunto de datos independientes L v con la ec. (2.12). Finalmente se elige el valor de αque minimiza el error medio de los árboles podados T (v) (α), esto esmínkR cv (T ∗ 1) = mínk VV∑R v (T (v) ( √ α k α k+1 )) , k = 1, 2, . . . , K − 1 (2.18)v=1donde R v es el error cometido con respecto al conjunto de datos L v utilizando la ecuación(2.12) y donde los valores de α dentro de cada intervalo de poda del árbol T utilizadosvienen dados por √ α k α k+1 . El valor de α que minimiza la ec. (2.18) junto con la ec. (2.15)nos determinan el árbol T (α) podado a partir de T .El algoritmo C4.5 usa criterio de poda basado en una estimación pesimista del errorde cada nodo (poda basada en error). Para ello substituye el número de errores cometidosen cada nodo por el límite superior de confianza de una distribución binomial (donde losejemplos del nodo N(t) son los ensayos y los errores del nodo M(t, L) son los “éxitos”de la distribución binomial) multiplicado por el número de ejemplos del nodo N(t). En laexhaustiva comparativa de distintos métodos de poda realizada por Esposito et al. observaronque la poda basada en error de C4.5 tiende a podar menos de lo necesario mientras quela poda de coste-complejidad de CART tiende a generar árboles más pequeños de la podaóptima [Esposito et al., 1997]. La poda pesimista que implementa C4.5 tiene la ventaja deque es computacionalmente muy rápida aunque en determinados problemas genera árbolesque no generalizan bien [Mingers, 1989a]. Por otro lado la poda por validación cruzadade coste-complejidad es más lenta pero presenta la ventaja de proporcionar una familia deárboles que puede ser analizada y comparada por un experto humano [Mingers, 1989a].