clasificaci´on mediante conjuntos - Escuela Politécnica Superior

13.07.2015 Views
8 CAPÍTULO 1. INTRODUCCIÓNforma que el error de generalización alcance un mínimo para un número de clasificadoresmenor que el del conjunto original completo. En este mínimo el error estaríapor debajo del error asintótico del conjunto completo. Seleccionando este número declasificadores se podría construir un subconjunto de clasificadores de menor tamañoy con mejor capacidad de generalización que el conjunto original. Este procedimientode poda del conjunto mitigaría parcialmente algunos inconvenientes en el uso delos conjuntos de clasificadores, como son su abultado tamaño y menor velocidadde clasificación respecto a los clasificadores individuales de los que están compuestos.Estos aspectos han sido identificados por Dietterich como un problema abiertodentro de la investigación en conjuntos de clasificadores [Dietterich, 1998b]. Losexperimentos realizados muestran que la ordenación de los clasificadores dentro debagging es una herramienta útil para la identificación de subconjuntos de clasificadoresmás eficientes que el conjunto completo tanto en error de generalización comoen velocidad de clasificación.Los algoritmos diseñados han sido probados usando bases de datos sintéticas y basesde datos provenientes de distintos campos de aplicación contenidas en la colección de problemasde UCI [Blake y Merz, 1998].Todo el desarrollo, tanto de los algoritmos de clasificación y de ordenación propuestoscomo de algunos de los algoritmos de referencia (bagging y boosting), ha sido realizadoutilizando el lenguaje orientado a objetos C++ [Stroustrup, 1997].La presente memoria describe el desarrollo de esta investigación en los siguientescapítulos:En el capítulo 2 se presenta una introducción a la clasificación. Se describen los algoritmosde construcción de árboles de decisión CART (Classification And RegressionTrees) [Breiman et al., 1984] y C4.5 [Quinlan, 1993]. Además se describen brevementelos distintos grupos de técnicas existentes para la creación de conjuntos de clasificadoresy se introducen los algoritmos de construcción de conjuntos de clasificadores que han sidodesarrollados. Posteriormente, en este capítulo, se describen varios enfoques teóricos quepermiten entender las razones por las que este tipo de algoritmos reduce el error de clasificacióncon respecto a los clasificadores elementales de los que están compuestos. Por unaparte, se muestra el análisis de dichos algoritmos utilizando la descomposición del erroren términos de sesgo (bias) y de varianza (variance). Por otra parte, se muestra cómo elaumento de los márgenes de clasificación que obtienen estos algoritmos puede explicar sufuncionamiento. Finalmente, se describen y analizan en detalle algunos de los algoritmosde creación de conjuntos de clasificación más difundidos y que mejores resultados obtienen,como son bagging [Breiman, 1996a], boosting [Freund y Schapire, 1995], wagging[Bauer y Kohavi, 1999], randomization [Dietterich y Kong, 1995] o los bosques aleatorios(random forests) Forest-RI y Forest-RC [Breiman, 2001].A continuación, esta tesis se estructura en dos partes que describen las distintas contribucionesrealizadas. En una primera parte (capítulos 3 y 4) se detallan los nuevos métodos

de construcción de conjuntos de clasificadores desarrollados.En el capítulo 3 se presentan los nuevos algoritmos de creación de conjuntos de clasificadoresbasados en el algoritmo IGP. Primero se describe el algoritmo de construcción deárboles IGP (Iterative Growing and Pruning Algorithm) [Gelfand et al., 1991] que es utilizadopara construir los clasificadores base en los conjuntos de clasificadores propuestos. Acontinuación se describen en detalle los tres algoritmos de construcción de clasificadorespropuestos: conjunto de árboles IGP, boosting con arboles IGP y comités de árboles IGP.Posteriormente se muestran y describen los resultados de experimentos realizados utilizandobagging, boosting y los algoritmos propuestos.El capítulo 4, también dentro de la primera parte, describe el método de generaciónde conjuntos class-switching por modificación aleatoria de etiquetas de clase. Para problemasde dos clases se analiza su funcionamiento modelizando la evolución del error deentrenamiento con el número de clasificadores del conjunto como un proceso de Bernoulli.Posteriormente se ilustra el funcionamiento del método class-switching mediante unsencillo ejemplo clasificación. Finalmente se compara experimentalmente el método classswitchingcon bagging y boosting en 15 problemas de clasificación.La segunda parte de este trabajo de tesis (capítulo 5) presenta una serie de heurísticas deordenación de conjuntos de clasificadores que permiten la poda de los mismos. Las heurísticasque se proponen son: reducción de error, medida de complementariedad, minimizaciónde distancias de margen, ordenación por ángulos y ordenación basada en boosting. Posteriormentese muestran los resultados de probar estas heurísticas bajo distintas condicionespara analizar en detalle su comportamiento.En el capítulo 6 se resumen los resultados obtenidos y se presentan las conclusionesglobales del trabajo. Además se esbozan algunas futuras líneas de investigación.En el apéndice A se muestran en detalle las características de las bases de datos utilizadasen las distintas pruebas experimentales llevadas a cabo a lo largo de este trabajo deinvestigación.9

Page 1: Universidad Autónoma de MadridEscu

Page 5 and 6: AgradecimientosAgradezco muy sincer

Page 7 and 8: Índice generalAgradecimientosV1. I

Page 9: A.1.12. Sonar . . . . . . . . . . .

Page 12 and 13: 4.5. Número medio de clasificadore

Page 14 and 15: 3.5. Pseudocódigo de comités IGP

Page 17 and 18: Capítulo 1IntroducciónUn clasific

Page 19 and 20: 3aparecen en el problema concreto d

Page 21 and 22: 5donde se realizan, etc [Dorronsoro

Page 23: 7algoritmo genera un árbol de deci

Page 27 and 28: Capítulo 2Clasificación2.1. Clasi

Page 29 and 30: 2.1. CLASIFICACIÓN SUPERVISADA Y T

Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y





Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25



Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO




Page 55 and 56: 2.5. BAGGING Y BOSQUES ALEATORIOS 3

Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos

Page 59 and 60: 2.6. BOOSTING 43la decisión del co

Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb

Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO

Page 65: Parte INuevos conjuntos de clasific

Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL










Page 88 and 89: 72 CAPÍTULO 4. ALTERACIÓN DE ETIQ






Page 100 and 101: Cuadro 4.3: Resumen de registros vi





Page 111 and 112: Capítulo 5Orden de agregación y p

Page 113 and 114: 5.2. ORDENACIÓN DE CLASIFICADORES

Page 115 and 116: 5.2. ORDENACIÓN DE CLASIFICADORES

Page 117 and 118: 5.3. OTROS TRABAJOS RELACIONADOS 10

Page 119 and 120: 5.4. ALGORITMOS DE ORDENACIÓN 103c

Page 121 and 122: 5.4. ALGORITMOS DE ORDENACIÓN 105M

Page 123 and 124: 5.4. ALGORITMOS DE ORDENACIÓN 107F

Page 125 and 126: 5.4. ALGORITMOS DE ORDENACIÓN 1093

Page 127 and 128: 5.4. ALGORITMOS DE ORDENACIÓN 111n

Page 129 and 130: 5.4. ALGORITMOS DE ORDENACIÓN 113o

Page 131 and 132: 5.4. ALGORITMOS DE ORDENACIÓN 115s

Page 133 and 134: 5.4. ALGORITMOS DE ORDENACIÓN 1171

Page 135 and 136: 5.5. RESULTADOS EXPERIMENTALES 119L

Page 137 and 138: 5.5. RESULTADOS EXPERIMENTALES 1210

Page 139 and 140: 5.5. RESULTADOS EXPERIMENTALES 123p




Page 147 and 148: Cuadro 5.7: Media del error de entr

Page 149 and 150: Cuadro 5.9: Prueba-t para comparar

Page 151 and 152: 5.6. CONCLUSIONES 135Cuadro 5.10: T

Page 153 and 154: Capítulo 6Conclusiones y trabajo f

Page 155 and 156: 139primeros elementos de acuerdo co

Page 157 and 158: Apéndice ADescripción de los conj

Page 159 and 160: 143A.1.4.Pima Indian DiabetesPima I

Page 161 and 162: 145A.1.8.IonosphereIonosphereReposi

Page 163 and 164: 147A.1.12.SonarSonarRepositorio UCI

Page 165 and 166: 149A.1.16.VehicleVehicle silhouette

Page 167 and 168: 151A.1.19.WineWineRepositorio UCI(F

Page 169 and 170: Bibliografía[Aha et al., 1991] Dav

Page 171 and 172: BIBLIOGRAFÍA 155[Dietterich y Kong

Page 173 and 174: BIBLIOGRAFÍA 157[Haskell et al., 2

Page 175 and 176: BIBLIOGRAFÍA 159[Martínez-Muñoz

Page 177 and 178: BIBLIOGRAFÍA 161[Schapire et al.,

clasificadores

conjunto

conjuntos

datos

algoritmo

bagging

ejemplos

entrenamiento

boosting

clasificador

mediante

escuela

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior ... View more clasificaci´on mediante conjuntos - Escuela Politécnica Superior

Delete template?

Save as template ?

clasificaci´on mediante conjuntos - Escuela Politécnica Superior clasificaci´on mediante conjuntos - Escuela Politécnica Superior