clasificaci´on mediante conjuntos - Escuela Politécnica Superior
clasificaci´on mediante conjuntos - Escuela Politécnica Superior clasificaci´on mediante conjuntos - Escuela Politécnica Superior
34 CAPÍTULO 2. CLASIFICACIÓNcon seguridad la clase de cada nuevo ejemplo. Para reducir el error al mínimo en las zonasde solapamiento hay que clasificar cada punto de acuerdo a la distribución más probable:esto define el error mínimo de Bayes (ec. (2.5)). Sin embargo, para conjuntos de datosreales, en los que desconocemos las distribuciones de los datos y donde disponemos de unnúmero limitado de ejemplos, el cálculo de este límite inferior puede no ser posible. Nosucede así en conjuntos de datos generados artificialmente para los que disponemos de lasreglas que generan los datos y por tanto el error de Bayes se puede calcular o estimar conprecisión. La dificultad que existe en determinar el error de Bayes hace que muchas de lasdefiniciones de sesgo y varianza engloben de alguna manera el error de Bayes dejando ladefinición del error como sigueError = sesgo + varianza . (2.21)Los otros dos miembros de la ecuación (2.20), sesgo y varianza, son la parte del errorcausada por el algoritmo de clasificación. El sesgo indica la parte del error debida a latendencia central del algoritmo errónea, mientras que la varianza determina la parte delerror debida a desviaciones en relación a la tendencia central del algoritmo. Se define latendencia central de un algoritmo de clasificación para un vector x como la clase con mayorprobabilidad de selección por los clasificadores construidos a partir de la distribución deposibles conjuntos de entrenamiento.La medida de estas dos cantidades es útil para analizar la naturaleza del error de unalgoritmo. Por una parte las diferencias en las predicciones que hace un algoritmo cuando esentrenado con distintos conjuntos de entrenamiento, dado que sólo hay una clase correcta,limita el error mínimo que podemos alcanzar (varianza). Por otra parte el diseñar algoritmosque presenten pocas variaciones para distintos conjuntos de entrenamiento no es garantíade una disminución del error, ya que puede ser que el algoritmo sea también estable en elerror. Es decir, que tenga una tendencia central errónea (sesgo).Para muchos algoritmos de conjuntos de clasificadores se han efectuado medidas delsesgo y la varianza, y se han comparado con el sesgo y varianza del algoritmo base [Bauer yKohavi, 1999; Breiman, 1996b; Webb, 2000; Breiman, 2000]. De esta forma se puede explicarel origen de la disminución del error con respecto al algoritmo base. Generalmente, losalgoritmos de conjuntos de clasificadores tienden a disminuir el error de varianza, ya queel proceso de votación hace que éstos sean más estables en sus decisiones que los clasificadoresindividuales. Además, los conjuntos de clasificadores que usan procesos adaptativospara generarse (ej. boosting) también pueden reducir el sesgo, ya que el proceso adaptativohace que no cometan siempre los mismos errores (realmente también podrían aumentar elsesgo cuando los conjuntos de entrenamiento tienen datos etiquetados incorrectamente).El hecho de que sesgo y varianza no estén bien definidos para problemas de clasificaciónha llevado a la aparición de múltiples definiciones como se puede ver en [Webb,2000]. De entre ellas aquí mostramos la definición de Breiman [Breiman, 1996b] por ser
2.4. ANÁLISIS DE SU FUNCIONAMIENTO 35sencilla e intuitiva. Definamos la notación brevemente. Sea Γ un algoritmo de clasificación.Sea L la distribución de posibles conjuntos de entrenamiento: Γ(L) es la distribuciónde clasificadores generados tras aplicar el algoritmo Γ a la distribución L. Además dadala distribución del problema (X, Y ), Γ(L)(X) devuelve la distribución de clases obtenidapor el algoritmo Γ con la distribución de conjuntos de entrenamiento L. A continuaciónse muestran las definiciones probabilísticas de Breiman utilizando el error de Bayes y sinutilizarlo (definiciones (2.20) y (2.21) respectivamente)sesgo B = P (Y,X),L ((Γ(L)(X) ≠ Y ) ∧ (Γ(L)(X) ≠ C BayesY,X) ∧ (Γ(L)(X) = Co Γ,L(X)))var B = P (Y,X),L ((Γ(L)(X) ≠ Y ) ∧ (Γ(L)(X) ≠ C BayesY,X) ∧ (Γ(L)(X) ≠ Co Γ,L(X)))sesgo = P (Y,X),L ((Γ(L)(X) ≠ Y ) ∧ (Γ(L)(X) = CΓ,L(X)))ovar = P (Y,X),L ((Γ(L)(X) ≠ Y ) ∧ (Γ(L)(X) ≠ C o Γ,L(X))) ,donde C BayesX,Yes el clasificador de Bayes para la distribución del problema (X, Y ) y CΓ,Loes la tendencia central del algoritmo Γ para la distribución de conjuntos de datos de entrenamientoL. La primera de estas definiciones indica que el sesgo para un algoritmo Γ,una distribución del problema (X, Y ) y una distribución de conjuntos de entrenamientoextraída de (X, Y ), L, es igual a la probabilidad P (Y,X),L de que el algoritmo se equivoque(Γ(L)(X) ≠ Y ) y que su predicción coincida con la de la tendencia central del algoritmo(Γ(L)(X) = CΓ,L o (X)), siempre que este error no lo cometa también el clasificador deBayes (Γ(L)(X) ≠ C BayesX,Y(X)).2.4.2. MárgenesOtro procedimiento para explicar la mejora que se obtiene con los conjuntos de clasificadoresse describe en [Schapire et al., 1998]. Según este análisis, la mejora de los conjuntosde clasificación está relacionada con la distribución de los márgenes de clasificación delos ejemplos de entrenamiento. El margen de clasificación de un ejemplo de entrenamientopara un conjunto de clasificadores es la diferencia de votos que ha recibido la clase correctadel ejemplo y el número de votos recibidos por la clase incorrecta más votada. De acuerdocon esta definición, si el margen de un ejemplo es positivo, el ejemplo estará bien clasificado.Si el margen es negativo, esto significa que una clase incorrecta tiene más votos quela clase correcta y, por tanto, que el conjunto de clasificadores lo clasificará mal.Con el fin de estudiar el margen de forma general para conjuntos con cualquier númerode clasificadores Schapire et al. proponen una definición en la que se dividen los votos delos clasificadores por el número de clasificadores del conjunto haciendo que la suma detodos los votos sea 1. Con esta definición el margen de clasificación normalizado (a partirde este momento simplemente “margen”) de cada ejemplo queda definido en el intervalo
- Page 1: Universidad Autónoma de MadridEscu
- Page 5 and 6: AgradecimientosAgradezco muy sincer
- Page 7 and 8: Índice generalAgradecimientosV1. I
- Page 9: A.1.12. Sonar . . . . . . . . . . .
- Page 12 and 13: 4.5. Número medio de clasificadore
- Page 14 and 15: 3.5. Pseudocódigo de comités IGP
- Page 17 and 18: Capítulo 1IntroducciónUn clasific
- Page 19 and 20: 3aparecen en el problema concreto d
- Page 21 and 22: 5donde se realizan, etc [Dorronsoro
- Page 23 and 24: 7algoritmo genera un árbol de deci
- Page 25 and 26: de construcción de conjuntos de cl
- Page 27 and 28: Capítulo 2Clasificación2.1. Clasi
- Page 29 and 30: 2.1. CLASIFICACIÓN SUPERVISADA Y T
- Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 33 and 34: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 35 and 36: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 37 and 38: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 39 and 40: 2.2. ÁRBOLES DE DECISIÓN: CART Y
- Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25
- Page 43 and 44: 2.3. CONJUNTOS DE CLASIFICADORES 27
- Page 45 and 46: 2.3. CONJUNTOS DE CLASIFICADORES 29
- Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 49: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 53 and 54: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
- Page 55 and 56: 2.5. BAGGING Y BOSQUES ALEATORIOS 3
- Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos
- Page 59 and 60: 2.6. BOOSTING 43la decisión del co
- Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb
- Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO
- Page 65: Parte INuevos conjuntos de clasific
- Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 70 and 71: 54 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 72 and 73: 56 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 74 and 75: 58 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 76 and 77: 60 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 78 and 79: 62 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 80 and 81: 64 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 82 and 83: 66 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 84 and 85: 68 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 86 and 87: 70 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
- Page 88 and 89: 72 CAPÍTULO 4. ALTERACIÓN DE ETIQ
- Page 90 and 91: 74 CAPÍTULO 4. ALTERACIÓN DE ETIQ
- Page 92 and 93: 76 CAPÍTULO 4. ALTERACIÓN DE ETIQ
- Page 94 and 95: 78 CAPÍTULO 4. ALTERACIÓN DE ETIQ
- Page 96 and 97: 80 CAPÍTULO 4. ALTERACIÓN DE ETIQ
- Page 98 and 99: 82 CAPÍTULO 4. ALTERACIÓN DE ETIQ
34 CAPÍTULO 2. CLASIFICACIÓNcon seguridad la clase de cada nuevo ejemplo. Para reducir el error al mínimo en las zonasde solapamiento hay que clasificar cada punto de acuerdo a la distribución más probable:esto define el error mínimo de Bayes (ec. (2.5)). Sin embargo, para <strong>conjuntos</strong> de datosreales, en los que desconocemos las distribuciones de los datos y donde disponemos de unnúmero limitado de ejemplos, el cálculo de este límite inferior puede no ser posible. Nosucede así en <strong>conjuntos</strong> de datos generados artificialmente para los que disponemos de lasreglas que generan los datos y por tanto el error de Bayes se puede calcular o estimar conprecisión. La dificultad que existe en determinar el error de Bayes hace que muchas de lasdefiniciones de sesgo y varianza engloben de alguna manera el error de Bayes dejando ladefinición del error como sigueError = sesgo + varianza . (2.21)Los otros dos miembros de la ecuación (2.20), sesgo y varianza, son la parte del errorcausada por el algoritmo de clasificación. El sesgo indica la parte del error debida a latendencia central del algoritmo errónea, mientras que la varianza determina la parte delerror debida a desviaciones en relación a la tendencia central del algoritmo. Se define latendencia central de un algoritmo de clasificación para un vector x como la clase con mayorprobabilidad de selección por los clasificadores construidos a partir de la distribución deposibles <strong>conjuntos</strong> de entrenamiento.La medida de estas dos cantidades es útil para analizar la naturaleza del error de unalgoritmo. Por una parte las diferencias en las predicciones que hace un algoritmo cuando esentrenado con distintos <strong>conjuntos</strong> de entrenamiento, dado que sólo hay una clase correcta,limita el error mínimo que podemos alcanzar (varianza). Por otra parte el diseñar algoritmosque presenten pocas variaciones para distintos <strong>conjuntos</strong> de entrenamiento no es garantíade una disminución del error, ya que puede ser que el algoritmo sea también estable en elerror. Es decir, que tenga una tendencia central errónea (sesgo).Para muchos algoritmos de <strong>conjuntos</strong> de clasificadores se han efectuado medidas delsesgo y la varianza, y se han comparado con el sesgo y varianza del algoritmo base [Bauer yKohavi, 1999; Breiman, 1996b; Webb, 2000; Breiman, 2000]. De esta forma se puede explicarel origen de la disminución del error con respecto al algoritmo base. Generalmente, losalgoritmos de <strong>conjuntos</strong> de clasificadores tienden a disminuir el error de varianza, ya queel proceso de votación hace que éstos sean más estables en sus decisiones que los clasificadoresindividuales. Además, los <strong>conjuntos</strong> de clasificadores que usan procesos adaptativospara generarse (ej. boosting) también pueden reducir el sesgo, ya que el proceso adaptativohace que no cometan siempre los mismos errores (realmente también podrían aumentar elsesgo cuando los <strong>conjuntos</strong> de entrenamiento tienen datos etiquetados incorrectamente).El hecho de que sesgo y varianza no estén bien definidos para problemas de clasificaciónha llevado a la aparición de múltiples definiciones como se puede ver en [Webb,2000]. De entre ellas aquí mostramos la definición de Breiman [Breiman, 1996b] por ser