13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

139primeros elementos de acuerdo con una regla de poda. Se han desarrollado cinco métodosde ordenación basados en la complementariedad entre los clasificadores individuales: reducciónde error, medida de complementariedad, minimización de distancias de margen,ordenación por ángulos y ordenación basada en boosting. En la mayoría de ellos (todos exceptoel método de ordenación por ángulos) se aplica el siguiente procedimiento: a partir deun subconjunto de clasificadores de tamaño u − 1 se selecciona un clasificador de entre losrestantes de forma que se minimice/maximice una cantidad para el subconjunto de tamañou. Para la ordenación por reducción de error esta cantidad es el error de clasificación. Lamedida de complementariedad se basa en contar el número de ejemplos mal clasificadospor el subconjunto de tamaño u − 1 y bien por el clasificador a seleccionar. El métodode minimización de distancias de margen utiliza una medida de distancia en el espaciode clasificación. En este espacio, de dimensión igual al número de ejemplos empleadosen el proceso de ordenación, se codifica el funcionamiento de cada clasificador individualpor medio de un vector cuyas componentes indican la clasificación correcta/incorrecta delclasificador para cada dato. Por último, la ordenación basada en boosting se basa en calcularel error de clasificación ponderado con pesos que se modifican de una forma similar aboosting. El método de ordenación por ángulos, por su parte, ordena los clasificadores porel ángulo que forman con respecto a un eje de clasificación perpendicular al eje de clasificacióndel conjunto completo en el mismo espacio de clasificación de ejemplos del métodode distancias de margen.Todas las heurísticas propuestas generan un nuevo orden de agregación de los clasificadoresdel conjunto. Con esta nueva ordenación, la curva de dependencia del error de clasificacióncon el número de clasificadores presenta las siguientes características: (i) disminucióninicial del error de generalización a medida que aumenta el número de clasificadores.Esta disminución es más pronunciada que la de las curvas correspondientes a bagging conel orden de agregación aleatorio original; (ii) se alcanza un mínimo para un número intermediode clasificadores correspondiente a un subconjunto cuyo error está por debajo delerror del conjunto completo; (iii) finalmente aumenta hasta el error final de bagging para eltotal de los clasificadores (como es de esperar). Estas características se observan tanto enlas curvas de entrenamiento como en las de test. Generalmente, para casi todas las reglasy <strong>conjuntos</strong> estudiados, el conjunto ordenado obtiene resultados por debajo del error finaldel bagging a partir de un número pequeño de clasificadores. En general, en los problemasanalizados, se alcanza un error por debajo del error de bagging en sub<strong>conjuntos</strong> contamaño mayor que el 10 % del tamaño del conjunto original para <strong>conjuntos</strong> suficientementegrandes (≥ 100 clasificadores). Por tanto, para obtener mejoras de clasificación bastacon podar el conjunto en este amplio rango (10–100 % de los clasificadores iniciales). Laspruebas realizadas sobre 18 <strong>conjuntos</strong> de datos tanto sintéticos como de diversos camposde aplicación han mostrado que una selección del 20 % (poda del 80 %) de clasificadoresproduce mejoras significativas con respecto al conjunto completo, siendo minimización dedistancias de margen el método que en media mejores resultados ha producido.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!