clasificaci´on mediante conjuntos - Escuela Politécnica Superior

More documents

Recommendations

Info

6 CAPÍTULO 1. INTRODUCCIÓNde lo debido, temperatura, etc [Murray et al., 2005]; categorización de texto [Schapirey Singer, 2000]; detección automática de interpretes: sistema entrenado sobrepiezas de Chopin interpretadas por 22 pianistas expertos. El clasificador obtenido escapaz de identificar al interprete independientemente de la pieza que se le presentecon una precisión mucho mayor que la que pueda dar un humano [Stamatatos y Widmer,2005]; detección de fraude de clonación de tarjetas de móvil [Fawcett y Provost,1997].El objetivo de las investigaciones cuyos resultados se describen en este informe detesis es el desarrollo y mejora de herramientas de clasificación supervisada de caráctergeneral y aplicables a los problemas aquí expuestos. En concreto, el trabajo desarrolladoexplora diferentes aspectos de los conjuntos de clasificadores (ensembles of classifiers).Estas técnicas constituyen una de las cuatro direcciones fundamentales del aprendizajeautomático identificadas por Dietterich [Dietterich, 1998b]. En dicho artículo Dietterichpropone como problemas abiertos la mejora del error de clasificación mediante conjuntosde clasificadores, los métodos de escalado de algoritmos de aprendizaje supervisado,el aprendizaje por refuerzo y el aprendizaje de modelos estocásticos complejos. Eldesarrollo de conjuntos de clasificadores es un campo de investigación de gran actividadque ha dado lugar a multitud de publicaciones: [Freund y Schapire, 1995; Breiman,1996a; Quinlan, 1996a; Breiman, 1998; Schapire et al., 1998; Skurichina y Duin, 1998;Breiman, 1999; Bauer y Kohavi, 1999; Sharkey, 1999; Breiman, 2000; Dietterich, 2000b;Webb, 2000; Breiman, 2001; Rätsch et al., 2001; Fürnkranz, 2002; Rätsch et al., 2002;Bryll et al., 2003; Hothorn y Lausen, 2003; Kim et al., 2003; Chawla et al., 2004;Martínez-Muñoz y Suárez, 2004b; Valentini y Dietterich, 2004; Hall y Samworth, 2005;Martínez-Muñoz y Suárez, 2005b]. Esta gran actividad se debe sobre todo a las significativasmejoras en la precisión de clasificación que se pueden obtener con esta técnica desencilla implementación. Un conjunto de clasificadores clasifica nuevos ejemplos por decisiónconjunta de sus componentes. Las decisiones de los clasificadores individuales secombinan, mediante voto, para obtener una clasificación final. Normalmente, de esta combinaciónresulta un conjunto de clasificadores que tiene más precisión que cada uno de losclasificadores de los que está compuesto. Obviamente, si se combinan clasificadores similaresentre sí, la precisión del conjunto será aproximadamente igual a la de sus componentes.Por tanto, para mejorar el resultado de la clasificación por parte del conjunto, lo importantees generar clasificadores diversos cuyos errores no estén correlacionados, de forma que, alcombinarlos, los errores de éstos tiendan a compensarse.En esta tesis se proponen nuevos métodos de generación de conjuntos de clasificadoresy heurísticas para la mejora por ordenación y poda de conjuntos generados con bagging.En concreto, las contribuciones realizadas en el trabajo son:1. Se han propuesto tres nuevos métodos basados en el algoritmo de construcción deárboles Algoritmo de crecimiento y poda iterativos (IGP) [Gelfand et al., 1991]. Este
7algoritmo genera un árbol de decisión mediante la división de los datos de entrenamientoen dos subconjuntos. Una vez dividido el conjunto, se usa uno de los subconjuntospara hacer crecer el árbol y el otro para podarlo. El proceso se repite hastaalcanzar la convergencia, intercambiando los papeles de los conjuntos de datos encada una de las iteraciones. Los métodos propuestos basados en IGP aprovechan elhecho de que distintas divisiones de los datos generan árboles diferentes. Esto permiteque clasificadores generados con distintas particiones iniciales del conjunto deentrenamiento se puedan combinar para formar un conjunto de clasificadores, sinque sea necesario realizar remuestreos o introducir perturbaciones en el algoritmode construcción del árbol, que generalmente reducen la capacidad de generalizaciónde los árboles individuales generados. Los experimentos realizados ilustran que losmétodos propuestos basados en el algoritmo IGP dan resultados equivalentes o mejoresque otros métodos existentes (bagging y boosting) en los conjuntos de datosexplorados. Presentan además un importante ahorro computacional respecto a conjuntoscreados con árboles CART.2. La diversidad entre los clasificadores incluidos en un conjunto de clasificadores esuno de los aspectos clave en el diseño de conjuntos de clasificadores [Dietterich,2000a]. Se han realizado numerosos análisis sobre la dependencia entre la diversidadde los clasificadores individuales que forman parte del conjunto y la capacidad degeneralización del conjunto [Dietterich, 2000b; Kuncheva y Whitaker, 2003]. A partirde estos trabajos y de un artículo de Breiman en el que se propone la modificaciónde las etiquetas de clase para generar conjuntos de clasificadores [Breiman, 2000], seha propuesto un nuevo método de construcción de conjuntos de clasificadores. Estealgoritmo, denominado class-switching, genera clasificadores con errores de entrenamientono correlacionados mediante el uso de datos de entrenamiento en los quese han realizado modificaciones aleatorias de las etiquetas de clase. Asimismo, semuestra que para problemas de dos clases la evolución del error en el conjunto deentrenamiento con el número de clasificadores del conjunto class-switching se puededescribir como un proceso de Bernoulli. El modelo de este proceso es independientedel problema de clasificación. Por otro lado el método class-switching muestra erroresde generalización menores que bagging y equivalentes o menores que boostingen los conjuntos de datos analizados. Para alcanzar el nivel asintótico de error delconjunto es necesario generar conjuntos con un número elevado de clasificadores (entorno a 1000 clasificadores en los conjuntos estudiados).3. Los conjuntos de clasificadores normalmente muestran un error de generalizaciónque inicialmente disminuye a medida que se incrementa el número de clasificadoresincluidos en el conjunto. Asintóticamente el error se estabiliza en un valor constante.Basándonos en las correlaciones entre los clasificadores del conjunto planteamos lahipótesis de que se puede modificar el orden de agregación original del conjunto de
Page 1: Universidad Autónoma de MadridEscu
Page 5 and 6: AgradecimientosAgradezco muy sincer
Page 7 and 8: Índice generalAgradecimientosV1. I
Page 9: A.1.12. Sonar . . . . . . . . . . .
Page 12 and 13: 4.5. Número medio de clasificadore
Page 14 and 15: 3.5. Pseudocódigo de comités IGP
Page 17 and 18: Capítulo 1IntroducciónUn clasific
Page 19 and 20: 3aparecen en el problema concreto d
Page 21: 5donde se realizan, etc [Dorronsoro
Page 25 and 26: de construcción de conjuntos de cl
Page 27 and 28: Capítulo 2Clasificación2.1. Clasi
Page 29 and 30: 2.1. CLASIFICACIÓN SUPERVISADA Y T
Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y
Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25
Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
Page 55 and 56: 2.5. BAGGING Y BOSQUES ALEATORIOS 3
Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos
Page 59 and 60: 2.6. BOOSTING 43la decisión del co
Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb
Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO
Page 65: Parte INuevos conjuntos de clasific
Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 70 and 71: 54 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 72 and 73:
56 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 74 and 75:
Page 76 and 77:
Page 78 and 79:
Page 80 and 81:
Page 82 and 83:
Page 84 and 85:
Page 86 and 87:
Page 88 and 89:
72 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Cuadro 4.3: Resumen de registros vi
Page 102 and 103:
Page 104 and 105:
Page 106 and 107:
Page 108 and 109:
Page 111 and 112:
Capítulo 5Orden de agregación y p
Page 113 and 114:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 115 and 116:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 117 and 118:
5.3. OTROS TRABAJOS RELACIONADOS 10
Page 119 and 120:
5.4. ALGORITMOS DE ORDENACIÓN 103c
Page 121 and 122:
5.4. ALGORITMOS DE ORDENACIÓN 105M
Page 123 and 124:
5.4. ALGORITMOS DE ORDENACIÓN 107F
Page 125 and 126:
5.4. ALGORITMOS DE ORDENACIÓN 1093
Page 127 and 128:
5.4. ALGORITMOS DE ORDENACIÓN 111n
Page 129 and 130:
5.4. ALGORITMOS DE ORDENACIÓN 113o
Page 131 and 132:
5.4. ALGORITMOS DE ORDENACIÓN 115s
Page 133 and 134:
5.4. ALGORITMOS DE ORDENACIÓN 1171
Page 135 and 136:
5.5. RESULTADOS EXPERIMENTALES 119L
Page 137 and 138:
5.5. RESULTADOS EXPERIMENTALES 1210
Page 139 and 140:
5.5. RESULTADOS EXPERIMENTALES 123p
Page 141 and 142:
Page 143 and 144:
Page 145 and 146:
Page 147 and 148:
Cuadro 5.7: Media del error de entr
Page 149 and 150:
Cuadro 5.9: Prueba-t para comparar
Page 151 and 152:
5.6. CONCLUSIONES 135Cuadro 5.10: T
Page 153 and 154:
Capítulo 6Conclusiones y trabajo f
Page 155 and 156:
139primeros elementos de acuerdo co
Page 157 and 158:
Apéndice ADescripción de los conj
Page 159 and 160:
143A.1.4.Pima Indian DiabetesPima I
Page 161 and 162:
145A.1.8.IonosphereIonosphereReposi
Page 163 and 164:
147A.1.12.SonarSonarRepositorio UCI
Page 165 and 166:
149A.1.16.VehicleVehicle silhouette
Page 167 and 168:
151A.1.19.WineWineRepositorio UCI(F
Page 169 and 170:
Bibliografía[Aha et al., 1991] Dav
Page 171 and 172:
BIBLIOGRAFÍA 155[Dietterich y Kong
Page 173 and 174:
BIBLIOGRAFÍA 157[Haskell et al., 2
Page 175 and 176:
BIBLIOGRAFÍA 159[Martínez-Muñoz
Page 177 and 178:
BIBLIOGRAFÍA 161[Schapire et al.,
show all

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?