13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

38 CAPÍTULO 2. CLASIFICACIÓN2.5. Bagging y bosques aleatoriosUna de las técnicas más eficaces para la construcción de <strong>conjuntos</strong> de clasificadores,desarrollada por Breiman [Breiman, 1996a], es bagging (Bootstrap sampling and aggregation).Esta técnica se incluye dentro del grupo que muestrean los datos de entrenamientopara obtener cada uno de los clasificadores base (sec. 2.3). En la figura 2.6 se muestra elpseudocódigo de bagging. Cada clasificador base se genera a partir de un conjunto de datosobtenido por muestreo aleatorio con reemplazo del conjunto de datos de entrenamientoy con el mismo número de ejemplos que éste. Este algoritmo está basado en la técnicaestadística bootstrap, que sirve para la estimación de cantidades estadísticas a partir demuestras obtenidas con repetición de la muestra original aleatoriamente [Efron y Tibshirani,1994]. En bagging cada clasificador se construye con un subconjunto de los datosoriginales en el que con alta probabilidad hay ejemplos repetidos. Para estimar cuántosde estos ejemplos distintos tienen, en media, cada una de las muestras generadas vamosa calcular la probabilidad de que un ejemplo aparezca en la muestra. Esta probabilidad esigual a 1 menos la probabilidad de que no aparezca( ) N N − 1P = 1 −,Ndonde N es el número de ejemplos del conjunto de entrenamiento y (N − 1)/N es laprobabilidad de que un elemento no sea elegido en una tirada y está elevado a N, que esel número de extracciones que se realizan. Esta probabilidad tiende a 1 − 1/e cuando Ntiende a infinitolimN→∞( N − 1N) N (= lim 1 − 1 ) N= e −1 = 0.3679 .N→∞ NPor tanto si cada uno de los ejemplos tiene una probabilidad 1 − 1/e de aparecer en unamuestra entonces se tiene que, en media, cada muestra contiene un 63.2 % de los datos originalesy el resto son ejemplos repetidos. Por tanto, en bagging, cada clasificador individualse genera con un número de ejemplos menor que el número inicial de ejemplos de entrenamiento.Esto hace que los clasificadores individuales utilizados en bagging normalmentetengan un error de generalización peor que el del clasificador construido con todos los datos.Sin embargo, al combinar la decisión de estos clasificadores se compensan en partesus errores lo que habitualmente se traduce en mejoras en la capacidad de generalizaciónrespecto a la de un sólo clasificador construido con todos los datos.La combinación de bagging con árboles de decisión como clasificadores base entradentro de la definición de bosques aleatorios (random forests), donde el vector Θ contieneN números enteros aleatorios generados entre 1 y N para hacer el muestreo bootstrap.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!