clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior clasificaci´on mediante conjuntos - Escuela Politécnica Superior

13.07.2015 Views

8 CAPÍTULO 1. INTRODUCCIÓNforma que el error de generalización alcance un mínimo para un número de clasificadoresmenor que el del conjunto original completo. En este mínimo el error estaríapor debajo del error asintótico del conjunto completo. Seleccionando este número declasificadores se podría construir un subconjunto de clasificadores de menor tamañoy con mejor capacidad de generalización que el conjunto original. Este procedimientode poda del conjunto mitigaría parcialmente algunos inconvenientes en el uso delos conjuntos de clasificadores, como son su abultado tamaño y menor velocidadde clasificación respecto a los clasificadores individuales de los que están compuestos.Estos aspectos han sido identificados por Dietterich como un problema abiertodentro de la investigación en conjuntos de clasificadores [Dietterich, 1998b]. Losexperimentos realizados muestran que la ordenación de los clasificadores dentro debagging es una herramienta útil para la identificación de subconjuntos de clasificadoresmás eficientes que el conjunto completo tanto en error de generalización comoen velocidad de clasificación.Los algoritmos diseñados han sido probados usando bases de datos sintéticas y basesde datos provenientes de distintos campos de aplicación contenidas en la colección de problemasde UCI [Blake y Merz, 1998].Todo el desarrollo, tanto de los algoritmos de clasificación y de ordenación propuestoscomo de algunos de los algoritmos de referencia (bagging y boosting), ha sido realizadoutilizando el lenguaje orientado a objetos C++ [Stroustrup, 1997].La presente memoria describe el desarrollo de esta investigación en los siguientescapítulos:En el capítulo 2 se presenta una introducción a la clasificación. Se describen los algoritmosde construcción de árboles de decisión CART (Classification And RegressionTrees) [Breiman et al., 1984] y C4.5 [Quinlan, 1993]. Además se describen brevementelos distintos grupos de técnicas existentes para la creación de conjuntos de clasificadoresy se introducen los algoritmos de construcción de conjuntos de clasificadores que han sidodesarrollados. Posteriormente, en este capítulo, se describen varios enfoques teóricos quepermiten entender las razones por las que este tipo de algoritmos reduce el error de clasificacióncon respecto a los clasificadores elementales de los que están compuestos. Por unaparte, se muestra el análisis de dichos algoritmos utilizando la descomposición del erroren términos de sesgo (bias) y de varianza (variance). Por otra parte, se muestra cómo elaumento de los márgenes de clasificación que obtienen estos algoritmos puede explicar sufuncionamiento. Finalmente, se describen y analizan en detalle algunos de los algoritmosde creación de conjuntos de clasificación más difundidos y que mejores resultados obtienen,como son bagging [Breiman, 1996a], boosting [Freund y Schapire, 1995], wagging[Bauer y Kohavi, 1999], randomization [Dietterich y Kong, 1995] o los bosques aleatorios(random forests) Forest-RI y Forest-RC [Breiman, 2001].A continuación, esta tesis se estructura en dos partes que describen las distintas contribucionesrealizadas. En una primera parte (capítulos 3 y 4) se detallan los nuevos métodos

de construcción de conjuntos de clasificadores desarrollados.En el capítulo 3 se presentan los nuevos algoritmos de creación de conjuntos de clasificadoresbasados en el algoritmo IGP. Primero se describe el algoritmo de construcción deárboles IGP (Iterative Growing and Pruning Algorithm) [Gelfand et al., 1991] que es utilizadopara construir los clasificadores base en los conjuntos de clasificadores propuestos. Acontinuación se describen en detalle los tres algoritmos de construcción de clasificadorespropuestos: conjunto de árboles IGP, boosting con arboles IGP y comités de árboles IGP.Posteriormente se muestran y describen los resultados de experimentos realizados utilizandobagging, boosting y los algoritmos propuestos.El capítulo 4, también dentro de la primera parte, describe el método de generaciónde conjuntos class-switching por modificación aleatoria de etiquetas de clase. Para problemasde dos clases se analiza su funcionamiento modelizando la evolución del error deentrenamiento con el número de clasificadores del conjunto como un proceso de Bernoulli.Posteriormente se ilustra el funcionamiento del método class-switching mediante unsencillo ejemplo clasificación. Finalmente se compara experimentalmente el método classswitchingcon bagging y boosting en 15 problemas de clasificación.La segunda parte de este trabajo de tesis (capítulo 5) presenta una serie de heurísticas deordenación de conjuntos de clasificadores que permiten la poda de los mismos. Las heurísticasque se proponen son: reducción de error, medida de complementariedad, minimizaciónde distancias de margen, ordenación por ángulos y ordenación basada en boosting. Posteriormentese muestran los resultados de probar estas heurísticas bajo distintas condicionespara analizar en detalle su comportamiento.En el capítulo 6 se resumen los resultados obtenidos y se presentan las conclusionesglobales del trabajo. Además se esbozan algunas futuras líneas de investigación.En el apéndice A se muestran en detalle las características de las bases de datos utilizadasen las distintas pruebas experimentales llevadas a cabo a lo largo de este trabajo deinvestigación.9

8 CAPÍTULO 1. INTRODUCCIÓNforma que el error de generalización alcance un mínimo para un número de clasificadoresmenor que el del conjunto original completo. En este mínimo el error estaríapor debajo del error asintótico del conjunto completo. Seleccionando este número declasificadores se podría construir un subconjunto de clasificadores de menor tamañoy con mejor capacidad de generalización que el conjunto original. Este procedimientode poda del conjunto mitigaría parcialmente algunos inconvenientes en el uso delos <strong>conjuntos</strong> de clasificadores, como son su abultado tamaño y menor velocidadde clasificación respecto a los clasificadores individuales de los que están compuestos.Estos aspectos han sido identificados por Dietterich como un problema abiertodentro de la investigación en <strong>conjuntos</strong> de clasificadores [Dietterich, 1998b]. Losexperimentos realizados muestran que la ordenación de los clasificadores dentro debagging es una herramienta útil para la identificación de sub<strong>conjuntos</strong> de clasificadoresmás eficientes que el conjunto completo tanto en error de generalización comoen velocidad de clasificación.Los algoritmos diseñados han sido probados usando bases de datos sintéticas y basesde datos provenientes de distintos campos de aplicación contenidas en la colección de problemasde UCI [Blake y Merz, 1998].Todo el desarrollo, tanto de los algoritmos de clasificación y de ordenación propuestoscomo de algunos de los algoritmos de referencia (bagging y boosting), ha sido realizadoutilizando el lenguaje orientado a objetos C++ [Stroustrup, 1997].La presente memoria describe el desarrollo de esta investigación en los siguientescapítulos:En el capítulo 2 se presenta una introducción a la clasificación. Se describen los algoritmosde construcción de árboles de decisión CART (Classification And RegressionTrees) [Breiman et al., 1984] y C4.5 [Quinlan, 1993]. Además se describen brevementelos distintos grupos de técnicas existentes para la creación de <strong>conjuntos</strong> de clasificadoresy se introducen los algoritmos de construcción de <strong>conjuntos</strong> de clasificadores que han sidodesarrollados. Posteriormente, en este capítulo, se describen varios enfoques teóricos quepermiten entender las razones por las que este tipo de algoritmos reduce el error de clasificacióncon respecto a los clasificadores elementales de los que están compuestos. Por unaparte, se muestra el análisis de dichos algoritmos utilizando la descomposición del erroren términos de sesgo (bias) y de varianza (variance). Por otra parte, se muestra cómo elaumento de los márgenes de clasificación que obtienen estos algoritmos puede explicar sufuncionamiento. Finalmente, se describen y analizan en detalle algunos de los algoritmosde creación de <strong>conjuntos</strong> de clasificación más difundidos y que mejores resultados obtienen,como son bagging [Breiman, 1996a], boosting [Freund y Schapire, 1995], wagging[Bauer y Kohavi, 1999], randomization [Dietterich y Kong, 1995] o los bosques aleatorios(random forests) Forest-RI y Forest-RC [Breiman, 2001].A continuación, esta tesis se estructura en dos partes que describen las distintas contribucionesrealizadas. En una primera parte (capítulos 3 y 4) se detallan los nuevos métodos

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!