13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2.4. ANÁLISIS DE SU FUNCIONAMIENTO 330.5bagging0.5boosting0.40.40.30.3errorerror0.20.20.10.10-0.2 0 0.2 0.4 0.6 0.8 1kappa0-0.2 0 0.2 0.4 0.6 0.8 1kappaFigura 2.4: Diagramas de kappa-error para bagging (izquierda) y boosting (derecha) entrenadosen el conjunto Twonormintentado formalizar teóricamente al menos desde otros dos puntos de vista. Por una partese ha estudiado desde el punto de vista de dividir el error entre el sesgo (bias) y lavarianza del algoritmo (variance). El origen de esta descomposición es el análisis de ajustefuncional <strong>mediante</strong> regresión donde la división entre sesgo y varianza son cantidadespositivas bien definidas. La media de varias regresiones nunca incrementa el error esperadoy reduce el término de varianza sin modificar el error de sesgo. Para clasificaciónla división entre estos dos términos no está tan bien definida. De hecho se han propuestovarias definiciones [Kong y Dietterich, 1995; Kohavi y Wolpert, 1996; Breiman, 1996b;Friedman, 1997] pero ninguna parece tener todas las propiedades deseables. Por otra parte,la mejora que consiguen los <strong>conjuntos</strong> de clasificación se ha analizado estudiando la distribuciónde los márgenes de los datos de entrenamiento, donde el margen de un ejemplode entrenamiento es la diferencia entre los votos recibidos por la clase correcta y los votosrecibidos por la clase incorrecta más votada [Schapire et al., 1998].2.4.1. Sesgo y varianzaSegún el punto de vista del sesgo y la varianza, el error que comete un algoritmo declasificación se puede dividir en: error de Bayes, error debido al sesgo del algoritmo declasificación y error debido a la varianza del algoritmo, esto esError = Error de Bayes + sesgo + varianza . (2.20)Analicemos esta descomposición del error en detalle. Por una parte, el error de Bayes(ec. (2.6)) es un error inherente al problema de clasificación y por tanto irreducible. Vienedado por el solapamiento de las distribuciones de las clases en el espacio de atributos. En laszonas de solapamiento, donde dos o más clases pueden existir, es imposible el determinar

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!