13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

134 CAPÍTULO 5. ORDEN DE AGREGACIÓN Y PODA EN BAGGINGAdemás, se puede observar que ordenación basada en boosting es el método que obtienemayor número de resultados significativos favorables con respecto a bagging. Sólo en elconjunto Pima Indian Diabetes la ordenación basada en boosting con un porcentaje de podadel 10 % no obtiene una mejora significativa con respecto a bagging. Asimismo, la reglaordenación basada en ángulos con un 40 % de los clasificadores también obtiene resultadossignificativamente mejores que bagging en todos los <strong>conjuntos</strong> de datos analizados.Se han aplicado otros criterios de parada sin demasiado éxito. Para la ordenación basadaen boosting se ha utilizado el criterio de parada de boosting para utilizar el número declasificadores seleccionados cuando se obtiene el primero con error mayor que 0.5 (paso6 del algoritmo de la figura 5.5). Se obtienen errores medio punto peores en media conrespecto a la selección fija del 20 % de los clasificadores con un porcentaje de árboles seleccionadosmuy variable de un conjunto a otro, resultando en el uso de 5 árboles de mediapara Australian y Horse-colic mientras que son necesarios en torno a 130 árboles para parardetener el proceso en otros <strong>conjuntos</strong>: Labor, Vowel y Wine. Por otro lado, el uso de pesosen los clasificadores para hacer la clasificación tampoco aporta ninguna mejora. Un criteriode parada aplicable a la ordenación por ángulos consiste en calcular la media de los ángulosde los vectores característicos de aquellos vectores cuyos ángulos con respecto a c refsean menores que π/2. A continuación se seleccionan sólo los clasificadores cuyo ángulodel vector característico sea menor que esta media. Esta regla da estimaciones razonablesdel número de clasificadores (15–30 % del total dependiendo del conjunto) necesarios paraobtener buenos resultados de error en test. Con este criterio de poda se obtienen resultadosmuy similares a los obtenidos con una tasa de poda fija e igual al 20 % de los clasificadoresoriginales.Tiempos de ejecuciónComo hemos visto previamente todas las heurísticas presentadas tienen un orden deejecución cuadrático con el número de clasificadores, excepto la ordenación por ángulosque tiene un orden medio de ejecución de O(T log(T )). En el cuadro 5.10 se muestran lostiempos medios de ejecución para ordenar bagging usando ordenación por ángulos (OA)y minimización de distancias de margen (MDM) partiendo de 50, 100, 200, 400, 800 y1600 árboles para el conjunto Waveform con 300 ejemplos de entrenamiento. Los órdenesde ejecución para la ordenación tienen, aparte de una dependencia con el número de clasificadores,una dependencia lineal con el número de ejemplos usados para la ordenación delconjunto. Esta última dependencia no es el objeto de las mediciones hechas en este experimento.Los resultados mostrados son la media sobre 100 ordenaciones realizadas usandoun procesador Pentium R○ 4 a 3.2 GHz. Estos resultados muestran claramente el comportamientoaproximadamente lineal de ordenación por ángulos, en contraste a la complejidadcuadrática de las otras ordenaciones, concretamente minimización de distancias de margen.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!