clasificaci´on mediante conjuntos - Escuela Politécnica Superior

More documents

Recommendations

Info

138 CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTUROlos ejemplos para los problemas analizados. Este algoritmo es robusto en conjuntos de datosdifíciles como Pima Indian Diabetes al igual que bagging y a diferencia de boosting.Asimismo, el conjunto IGP obtiene menores errores de generalización que bagging en losconjuntos analizados. Boosting IGP, por su parte, se puede considerar como un algoritmode tipo boosting en el que los clasificadores son generados de forma que se especialicen enla clasificación de datos de entrenamiento que han sido mal clasificados por los clasificadorespreviamente generados. Sin embargo este algoritmo no es capaz de alcanzar la capacidadde generalización del boosting original. El tercer algoritmo basado en árboles IGP,comités IGP, es un algoritmo híbrido entre conjunto IGP y boosting IGP. Esta combinaciónde características le confiere buenas propiedades en cuanto a capacidad de generalización(comparables con boosting) y buena estabilidad frente al ruido como bagging.Asimismo, se ha propuesto un método de construcción de conjuntos de clasificadoresbasado en la modificación aleatoria de las etiquetas de clase. A este algoritmo de creaciónde conjuntos lo hemos denominado class-switching [Martínez-Muñoz y Suárez, 2005b].Para construir cada clasificador individual, class-switching genera un nuevo conjunto dedatos modificando aleatoriamente las etiquetas de clase de un porcentaje fijo y elegido alazar de ejemplos del conjunto de entrenamiento. Siempre que los clasificadores individualesobtengan error cero en los conjuntos modificados, este procedimiento genera clasificadorescuyos errores en el conjunto de entrenamiento original son independientes entre sí.De hecho, para problemas de dos clases, class-switching se puede analizar como un procesode Bernoulli: la probabilidad de que un clasificador individual extraído al azar delconjunto clasifique bien un ejemplo cualquiera de entrenamiento es siempre igual a unomenos el porcentaje de ejemplos modificados. Como consecuencia, la evolución de las curvasde error en entrenamiento con el número de clasificadores sólo depende del porcentajede ejemplos modificados. Es decir, estas curvas son independientes del problema de clasificación.Class-switching alcanza su rendimiento óptimo para porcentajes de modificaciónde las etiquetas de clase elevados (en torno al 30 % de los ejemplos en problemas binariosy mayores para problemas con múltiples clases) y usando un gran número de clasificadores(en torno a 1000 clasificadores). Bajo estas condiciones class-switching obtiene en mediaresultados muy superiores a bagging y mejores que boosting en los problemas estudiados.En la segunda parte de este trabajo de tesis se han propuesto una serie de métodosbasados en la reordenación de los clasificadores de un conjunto generado con bagging[Martínez-Muñoz y Suárez, 2004a; 2006]. Estas reordenaciones permiten reducir el númerode clasificadores del conjunto que se utilizan consiguiendo tanto una disminución derequerimientos de almacenaje, como un aumento de la velocidad de clasificación, lo cuales un factor clave en aplicaciones en línea. Los conjuntos de clasificadores que se generanmediante la aplicación de las heurísticas de ordenación y poda propuestas mejoran la capacidadde generalización de bagging en los problemas analizados. Para que los métodos deordenación sean efectivos han de tener en cuenta la complementariedad de los elementosdentro del conjunto. Una vez ordenado el conjunto de clasificadores se seleccionan los τ
139primeros elementos de acuerdo con una regla de poda. Se han desarrollado cinco métodosde ordenación basados en la complementariedad entre los clasificadores individuales: reducciónde error, medida de complementariedad, minimización de distancias de margen,ordenación por ángulos y ordenación basada en boosting. En la mayoría de ellos (todos exceptoel método de ordenación por ángulos) se aplica el siguiente procedimiento: a partir deun subconjunto de clasificadores de tamaño u − 1 se selecciona un clasificador de entre losrestantes de forma que se minimice/maximice una cantidad para el subconjunto de tamañou. Para la ordenación por reducción de error esta cantidad es el error de clasificación. Lamedida de complementariedad se basa en contar el número de ejemplos mal clasificadospor el subconjunto de tamaño u − 1 y bien por el clasificador a seleccionar. El métodode minimización de distancias de margen utiliza una medida de distancia en el espaciode clasificación. En este espacio, de dimensión igual al número de ejemplos empleadosen el proceso de ordenación, se codifica el funcionamiento de cada clasificador individualpor medio de un vector cuyas componentes indican la clasificación correcta/incorrecta delclasificador para cada dato. Por último, la ordenación basada en boosting se basa en calcularel error de clasificación ponderado con pesos que se modifican de una forma similar aboosting. El método de ordenación por ángulos, por su parte, ordena los clasificadores porel ángulo que forman con respecto a un eje de clasificación perpendicular al eje de clasificacióndel conjunto completo en el mismo espacio de clasificación de ejemplos del métodode distancias de margen.Todas las heurísticas propuestas generan un nuevo orden de agregación de los clasificadoresdel conjunto. Con esta nueva ordenación, la curva de dependencia del error de clasificacióncon el número de clasificadores presenta las siguientes características: (i) disminucióninicial del error de generalización a medida que aumenta el número de clasificadores.Esta disminución es más pronunciada que la de las curvas correspondientes a bagging conel orden de agregación aleatorio original; (ii) se alcanza un mínimo para un número intermediode clasificadores correspondiente a un subconjunto cuyo error está por debajo delerror del conjunto completo; (iii) finalmente aumenta hasta el error final de bagging para eltotal de los clasificadores (como es de esperar). Estas características se observan tanto enlas curvas de entrenamiento como en las de test. Generalmente, para casi todas las reglasy conjuntos estudiados, el conjunto ordenado obtiene resultados por debajo del error finaldel bagging a partir de un número pequeño de clasificadores. En general, en los problemasanalizados, se alcanza un error por debajo del error de bagging en subconjuntos contamaño mayor que el 10 % del tamaño del conjunto original para conjuntos suficientementegrandes (≥ 100 clasificadores). Por tanto, para obtener mejoras de clasificación bastacon podar el conjunto en este amplio rango (10–100 % de los clasificadores iniciales). Laspruebas realizadas sobre 18 conjuntos de datos tanto sintéticos como de diversos camposde aplicación han mostrado que una selección del 20 % (poda del 80 %) de clasificadoresproduce mejoras significativas con respecto al conjunto completo, siendo minimización dedistancias de margen el método que en media mejores resultados ha producido.
Page 1:
Universidad Autónoma de MadridEscu
Page 5 and 6:
AgradecimientosAgradezco muy sincer
Page 7 and 8:
Índice generalAgradecimientosV1. I
Page 9:
A.1.12. Sonar . . . . . . . . . . .
Page 12 and 13:
4.5. Número medio de clasificadore
Page 14 and 15:
3.5. Pseudocódigo de comités IGP
Page 17 and 18:
Capítulo 1IntroducciónUn clasific
Page 19 and 20:
3aparecen en el problema concreto d
Page 21 and 22:
5donde se realizan, etc [Dorronsoro
Page 23 and 24:
7algoritmo genera un árbol de deci
Page 25 and 26:
de construcción de conjuntos de cl
Page 27 and 28:
Capítulo 2Clasificación2.1. Clasi
Page 29 and 30:
2.1. CLASIFICACIÓN SUPERVISADA Y T
Page 31 and 32:
2.2. ÁRBOLES DE DECISIÓN: CART Y
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
2.3. CONJUNTOS DE CLASIFICADORES 25
Page 43 and 44:
Page 45 and 46:
Page 47 and 48:
2.4. ANÁLISIS DE SU FUNCIONAMIENTO
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
2.5. BAGGING Y BOSQUES ALEATORIOS 3
Page 57 and 58:
2.6. BOOSTING 41ni de los ejemplos
Page 59 and 60:
2.6. BOOSTING 43la decisión del co
Page 61 and 62:
2.6. BOOSTING 45el agotamiento tamb
Page 63 and 64:
2.7. OTROS CONJUNTOS DE CLASIFICADO
Page 65:
Parte INuevos conjuntos de clasific
Page 68 and 69:
52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 70 and 71:
Page 72 and 73:
Page 74 and 75:
Page 76 and 77:
Page 78 and 79:
Page 80 and 81:
Page 82 and 83:
Page 84 and 85:
Page 86 and 87:
Page 88 and 89:
72 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Cuadro 4.3: Resumen de registros vi
Page 102 and 103:
Page 104 and 105: 88 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 111 and 112: Capítulo 5Orden de agregación y p
Page 113 and 114: 5.2. ORDENACIÓN DE CLASIFICADORES
Page 115 and 116: 5.2. ORDENACIÓN DE CLASIFICADORES
Page 117 and 118: 5.3. OTROS TRABAJOS RELACIONADOS 10
Page 119 and 120: 5.4. ALGORITMOS DE ORDENACIÓN 103c
Page 121 and 122: 5.4. ALGORITMOS DE ORDENACIÓN 105M
Page 123 and 124: 5.4. ALGORITMOS DE ORDENACIÓN 107F
Page 125 and 126: 5.4. ALGORITMOS DE ORDENACIÓN 1093
Page 127 and 128: 5.4. ALGORITMOS DE ORDENACIÓN 111n
Page 129 and 130: 5.4. ALGORITMOS DE ORDENACIÓN 113o
Page 131 and 132: 5.4. ALGORITMOS DE ORDENACIÓN 115s
Page 133 and 134: 5.4. ALGORITMOS DE ORDENACIÓN 1171
Page 135 and 136: 5.5. RESULTADOS EXPERIMENTALES 119L
Page 137 and 138: 5.5. RESULTADOS EXPERIMENTALES 1210
Page 139 and 140: 5.5. RESULTADOS EXPERIMENTALES 123p
Page 147 and 148: Cuadro 5.7: Media del error de entr
Page 149 and 150: Cuadro 5.9: Prueba-t para comparar
Page 151 and 152: 5.6. CONCLUSIONES 135Cuadro 5.10: T
Page 153: Capítulo 6Conclusiones y trabajo f
Page 157 and 158: Apéndice ADescripción de los conj
Page 159 and 160: 143A.1.4.Pima Indian DiabetesPima I
Page 161 and 162: 145A.1.8.IonosphereIonosphereReposi
Page 163 and 164: 147A.1.12.SonarSonarRepositorio UCI
Page 165 and 166: 149A.1.16.VehicleVehicle silhouette
Page 167 and 168: 151A.1.19.WineWineRepositorio UCI(F
Page 169 and 170: Bibliografía[Aha et al., 1991] Dav
Page 171 and 172: BIBLIOGRAFÍA 155[Dietterich y Kong
Page 173 and 174: BIBLIOGRAFÍA 157[Haskell et al., 2
Page 175 and 176: BIBLIOGRAFÍA 159[Martínez-Muñoz
Page 177 and 178: BIBLIOGRAFÍA 161[Schapire et al.,
show all

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?