13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

40 CAPÍTULO 2. CLASIFICACIÓNaumentan el error del clasificador base.En otro estudio [Grandvalet, 2004] (aplicado a regresión solamente) se muestra cómobagging realiza una nivelación (equalization) de la influencia de los ejemplos reduciendo laimportancia de los puntos de palanca (leverage points), aquéllos que tienen gran influenciaen los regresores. Esto explica por qué bagging es más robusto frente a puntos anómalos(outliers) en contraste con otros algoritmos. Sin embargo en este estudio muestran cómobagging puede ser perjudicial cuando los puntos de palanca no son anómalos sino beneficiosospara la estimación.Como ya hemos mencionado, bagging descarta en media un 36.8 % de los datos de entrenamientopara construir cada clasificador base. A este conjunto se le denomina conjuntoout-of-bag. Los <strong>conjuntos</strong> out-of-bag pueden ser utilizados para hacer buenas estimacionesdel error de generalización del conjunto [Breiman, 1996c]. La estimación out-of-bag delerror de generalización consiste en utilizar para cada ejemplo sólo las predicciones de losclasificadores que no han visto ese ejemplo. De esta forma el error sobre cada ejemplo secalcula agregando sólo las predicciones de estos clasificadores. Para calcular la estimacióndel error de generalización del conjunto se promedian estos errores sobre todos los datosde entrenamiento. Este método tiene la ventaja de ser muy eficiente computacionalmentecon respecto a otros métodos utilizados para calcular el error de generalización, como validacióncruzada, que deben generar clasificadores adicionales. Otro método eficiente paracalcular el error de generalización aplicado a <strong>conjuntos</strong> bagging para regresión de describeen [Wolpert y Macready, 1999].Double-bagging es una variante de bagging que aprovecha el conjunto out-of-bag decada muestreo bootstrap para construir un discriminante lineal [Hothorn y Lausen, 2003].Posteriormente, construye a partir de la muestra bootstrap el clasificador base usando losatributos originales del problema junto con las variables obtenidas por el discriminante linealque ha usado el conjunto out-of-bag. El conjunto de clasificadores resultante obtieneresultados equivalentes a un discriminante lineal cuando las clases son separables linealmentey equivalentes a bagging en caso contrario.Es interesante hacer notar que en bagging el número total de veces que ha aparecidocada ejemplo en entrenamiento sumado sobre todos los muestreos bootstrap no es constante,aunque tiende a equilibrarse al aumentar el número de clasificadores. Sin embargo,en una ejecución típica de bagging con 100 clasificadores no es difícil que haya ejemplosque aparezcan el doble de veces que otros [Christensen et al., 2003]. En esta referenciase presenta una variante de bagging que consiste en forzar a que el número de veces queaparece cada ejemplo en el proceso total de construcción del conjunto sea constante.En cuanto al estudio del margen, en [Schapire et al., 1998] se muestra que baggingaumenta el margen cuando se incrementa el número de clasificadores. Sin embargo, esteaumento ocurre lentamente, o al menos más lentamente que en boosting. Esto parece lógicoya que bagging es un algoritmo “neutro” con los ejemplos, es decir, construye clasificadoressin tener en cuenta ninguna información ni de los clasificadores previamente construidos

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!