13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

82 CAPÍTULO 4. ALTERACIÓN DE ETIQUETAS DE CLASEdel número total de ejemplos excepto para los <strong>conjuntos</strong> sintéticos y para el conjunto ImageSegmentation. En este último se han usado las particiones definidas en su documentación.Para más detalles sobre los distintos <strong>conjuntos</strong> ver apéndice A.Para cada conjunto se han llevado a cabo 100 ejecuciones. Cada ejecución incluye lossiguientes pasos:1. Generación de una partición estratificada de los datos de entrada en entrenamientoy test para los <strong>conjuntos</strong> reales y un muestreo aleatorio para los <strong>conjuntos</strong> sintéticos(ver cuadro 4.1 para ver los tamaños utilizados).2. Construcción de un árbol C4.5, y <strong>conjuntos</strong> de 1000 árboles usando: classswitchingy flipping (con los siguientes valores de ˆp: 1/5, 2/5, 3/5 y 4/5), boostingy bagging.3. Cálculo del error de los clasificadores en el conjunto de test para obtener una estimacióndel error de generalización.En total estos experimentos han involucrado 100 ejecuciones por cada una de las 15 basesde datos. En cada base de datos se han aplicado 10 configuraciones de <strong>conjuntos</strong> de clasificadoresdiferentes. Cada conjunto generado está compuesto por 1000 árboles. Esto haceque se hayan generado un total de 15 millones de árboles de decisión para este experimento.El cuadro 4.2 presenta los resultados para el promedio del error de test obtenido porC4.5 y los distintos <strong>conjuntos</strong> de clasificadores usando 1000 árboles. El menor error alcanzadopara cada problema se ha marcado en negrita y el segundo mejor se ha subrayado.La desviación estándar se muestra solamente para C4.5. Excepto en algunos casos (marcadosen cursiva en el cuadro), las desviaciones estándar de los <strong>conjuntos</strong> son menoresque las mostradas para el árbol C4.5. En resumen podemos decir que: el conjunto classswitchingobtiene 10 mejores resultados en 9 <strong>conjuntos</strong> (2 con ˆp = 4/5, 6 con ˆp = 3/5y dos con ˆp = 2/5); flipping obtiene el mejor resultado en 4 problemas (2 × ˆp = 3/5 y2× ˆp = 2/5); boosting devuelve el mejor resultado en los <strong>conjuntos</strong> sintéticos Threenorm yTwonorm y en el Tic-tac-toe y bagging es el mejor en dos <strong>conjuntos</strong> considerados difícilescomo son: Pima Indian Diabetes y Heart.En el cuadro 4.3 se muestra un cuadro resumen del funcionamiento global de los algoritmosanalizados. Esto se muestra como registros victorias/empates/derrotas, donde el(primer / segundo / tercer) número mostrado en cada celda corresponde al número de <strong>conjuntos</strong>en los que el algoritmo mostrado en la columna de la izquierda (gana / empata /pierde) con respecto al algoritmo mostrado en la primera fila. Para cada columna, se ha resaltadoel registro con mayor número de (victorias − derrotas), siempre que sea positivo.En este cuadro podemos ver que el único algoritmo que es mejor que todos los demás esclass-switching junto con ˆp = 3/5. Además, class-switching con ˆp = 3/5 y ˆp = 2/5 sonlas dos únicas configuraciones que mejoran los resultados de boosting.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!