clasificaci´on mediante conjuntos - Escuela Politécnica Superior

More documents

Recommendations

Info

38 CAPÍTULO 2. CLASIFICACIÓN2.5. Bagging y bosques aleatoriosUna de las técnicas más eficaces para la construcción de conjuntos de clasificadores,desarrollada por Breiman [Breiman, 1996a], es bagging (Bootstrap sampling and aggregation).Esta técnica se incluye dentro del grupo que muestrean los datos de entrenamientopara obtener cada uno de los clasificadores base (sec. 2.3). En la figura 2.6 se muestra elpseudocódigo de bagging. Cada clasificador base se genera a partir de un conjunto de datosobtenido por muestreo aleatorio con reemplazo del conjunto de datos de entrenamientoy con el mismo número de ejemplos que éste. Este algoritmo está basado en la técnicaestadística bootstrap, que sirve para la estimación de cantidades estadísticas a partir demuestras obtenidas con repetición de la muestra original aleatoriamente [Efron y Tibshirani,1994]. En bagging cada clasificador se construye con un subconjunto de los datosoriginales en el que con alta probabilidad hay ejemplos repetidos. Para estimar cuántosde estos ejemplos distintos tienen, en media, cada una de las muestras generadas vamosa calcular la probabilidad de que un ejemplo aparezca en la muestra. Esta probabilidad esigual a 1 menos la probabilidad de que no aparezca( ) N N − 1P = 1 −,Ndonde N es el número de ejemplos del conjunto de entrenamiento y (N − 1)/N es laprobabilidad de que un elemento no sea elegido en una tirada y está elevado a N, que esel número de extracciones que se realizan. Esta probabilidad tiende a 1 − 1/e cuando Ntiende a infinitolimN→∞( N − 1N) N (= lim 1 − 1 ) N= e −1 = 0.3679 .N→∞ NPor tanto si cada uno de los ejemplos tiene una probabilidad 1 − 1/e de aparecer en unamuestra entonces se tiene que, en media, cada muestra contiene un 63.2 % de los datos originalesy el resto son ejemplos repetidos. Por tanto, en bagging, cada clasificador individualse genera con un número de ejemplos menor que el número inicial de ejemplos de entrenamiento.Esto hace que los clasificadores individuales utilizados en bagging normalmentetengan un error de generalización peor que el del clasificador construido con todos los datos.Sin embargo, al combinar la decisión de estos clasificadores se compensan en partesus errores lo que habitualmente se traduce en mejoras en la capacidad de generalizaciónrespecto a la de un sólo clasificador construido con todos los datos.La combinación de bagging con árboles de decisión como clasificadores base entradentro de la definición de bosques aleatorios (random forests), donde el vector Θ contieneN números enteros aleatorios generados entre 1 y N para hacer el muestreo bootstrap.
2.5. BAGGING Y BOSQUES ALEATORIOS 39Entradas:Conjunto de entrenamiento L de tamaño NNúmero de clasificadores TSalida:∑H(x) = argmax Tt=1 I(h t(x) = y)y1. for t = 1 to T {2. L bs = MuestreoBootstrap(L)3. h t = ConstruyeClasificador(L bs )4. }Figura 2.6: Pseudocódigo de bagging2.5.1. Consideraciones sobre baggingLos conjuntos de clasificadores construidos mediante bagging presentan un error degeneralización menor que el de los algoritmos base en la mayoría de los conjuntos dedatos en los que se ha probado en la literatura [Breiman, 1996a; Quinlan, 1996a; Bauer yKohavi, 1999; Dietterich, 2000b; Webb, 2000]. Además es un algoritmo robusto frente aruido o fallos en las etiquetas de clase de los ejemplos [Quinlan, 1996a; Dietterich, 2000b].La reducción del error con respecto al algoritmo base utilizado se debe a la reducciónen varianza [Bauer y Kohavi, 1999; Webb, 2000]. Según la interpretación habitual, la eficaciade bagging en reducir el error es mayor cuando los clasificadores individuales tienenerrores de sesgo pequeños y a la vez presentan errores de varianza grandes [Breiman, 1998;Bauer y Kohavi, 1999]. Bagging no reduce la parte de error debida al sesgo del algoritmobase. El error de sesgo es debido a que la tendencia central del algoritmo es errónea. Parecelógico que bagging no reduzca el sesgo ya que el conjunto mantiene la tendencia centraldel algoritmo base: los cambios de muestreo en bagging no son lo suficientemente grandescomo para que el algoritmo base cambie su sesgo. De igual manera, dado que baggingestabiliza mediante voto la tendencia central del algoritmo base, se obtiene mejora en lareducción de varianza, ya que la combinación de clasificadores hace que la clasificaciónsea más estable. Estas últimas observaciones son correctas siempre que el mecanismo debootstrap utilizado para obtener distintas muestras funcione lo suficientemente bien comopara que las muestras generadas se aproximen suficientemente a muestras independientes.Según Schapire et al. [Schapire et al., 1998] el procedimiento de bootstrap de baggingpuede fallar en obtener muestreos aproximadamente independientes cuando se tienen distribucionesde datos muy simples. Los conjuntos de datos más utilizados (colección deproblemas UCI [Blake y Merz, 1998]) en los que se ha probado bagging no deben presentareste problema dado que los resultados obtenidos son, en general, buenos, y casi nunca
Page 1:
Universidad Autónoma de MadridEscu
Page 5 and 6: AgradecimientosAgradezco muy sincer
Page 7 and 8: Índice generalAgradecimientosV1. I
Page 9: A.1.12. Sonar . . . . . . . . . . .
Page 12 and 13: 4.5. Número medio de clasificadore
Page 14 and 15: 3.5. Pseudocódigo de comités IGP
Page 17 and 18: Capítulo 1IntroducciónUn clasific
Page 19 and 20: 3aparecen en el problema concreto d
Page 21 and 22: 5donde se realizan, etc [Dorronsoro
Page 23 and 24: 7algoritmo genera un árbol de deci
Page 25 and 26: de construcción de conjuntos de cl
Page 27 and 28: Capítulo 2Clasificación2.1. Clasi
Page 29 and 30: 2.1. CLASIFICACIÓN SUPERVISADA Y T
Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y
Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25
Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
Page 53: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos
Page 59 and 60: 2.6. BOOSTING 43la decisión del co
Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb
Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO
Page 65: Parte INuevos conjuntos de clasific
Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 88 and 89: 72 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 100 and 101: Cuadro 4.3: Resumen de registros vi
Page 104 and 105:
88 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 106 and 107:
Page 108 and 109:
Page 111 and 112:
Capítulo 5Orden de agregación y p
Page 113 and 114:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 115 and 116:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 117 and 118:
5.3. OTROS TRABAJOS RELACIONADOS 10
Page 119 and 120:
5.4. ALGORITMOS DE ORDENACIÓN 103c
Page 121 and 122:
5.4. ALGORITMOS DE ORDENACIÓN 105M
Page 123 and 124:
5.4. ALGORITMOS DE ORDENACIÓN 107F
Page 125 and 126:
5.4. ALGORITMOS DE ORDENACIÓN 1093
Page 127 and 128:
5.4. ALGORITMOS DE ORDENACIÓN 111n
Page 129 and 130:
5.4. ALGORITMOS DE ORDENACIÓN 113o
Page 131 and 132:
5.4. ALGORITMOS DE ORDENACIÓN 115s
Page 133 and 134:
5.4. ALGORITMOS DE ORDENACIÓN 1171
Page 135 and 136:
5.5. RESULTADOS EXPERIMENTALES 119L
Page 137 and 138:
5.5. RESULTADOS EXPERIMENTALES 1210
Page 139 and 140:
5.5. RESULTADOS EXPERIMENTALES 123p
Page 141 and 142:
Page 143 and 144:
Page 145 and 146:
Page 147 and 148:
Cuadro 5.7: Media del error de entr
Page 149 and 150:
Cuadro 5.9: Prueba-t para comparar
Page 151 and 152:
5.6. CONCLUSIONES 135Cuadro 5.10: T
Page 153 and 154:
Capítulo 6Conclusiones y trabajo f
Page 155 and 156:
139primeros elementos de acuerdo co
Page 157 and 158:
Apéndice ADescripción de los conj
Page 159 and 160:
143A.1.4.Pima Indian DiabetesPima I
Page 161 and 162:
145A.1.8.IonosphereIonosphereReposi
Page 163 and 164:
147A.1.12.SonarSonarRepositorio UCI
Page 165 and 166:
149A.1.16.VehicleVehicle silhouette
Page 167 and 168:
151A.1.19.WineWineRepositorio UCI(F
Page 169 and 170:
Bibliografía[Aha et al., 1991] Dav
Page 171 and 172:
BIBLIOGRAFÍA 155[Dietterich y Kong
Page 173 and 174:
BIBLIOGRAFÍA 157[Haskell et al., 2
Page 175 and 176:
BIBLIOGRAFÍA 159[Martínez-Muñoz
Page 177 and 178:
BIBLIOGRAFÍA 161[Schapire et al.,
show all

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?