13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.5. RESULTADOS EXPERIMENTALES 123problema Waveform. Asimismo se puede observar cómo el número de clasificadores necesariospara alcanzar el error mínimo en test aumenta a medida que se aumenta el tamañoinicial del conjunto. Este aumento es más lento que el aumento del tamaño del conjuntoinicial como podemos observar de la tendencia a la baja del porcentaje de clasificadoresnecesarios. No parece que se puedan obtener reducciones del error que justifiquen la ordenacióna partir de <strong>conjuntos</strong> iniciales con más clasificadores. Además, aumentar el númeroinicial de clasificadores hace que aumente también el tamaño de los sub<strong>conjuntos</strong> que esnecesario para alcanzar el mínimo del error.5.5.2. Experimentos en bases de datosSe han realizado experimentos en 18 bases de datos para mostrar la eficacia de los clasificadoresobtenidos con las heurísticas de ordenación y poda propuestas. Dos de las bases dedatos son <strong>conjuntos</strong> sintéticos (Waveform y Twonorm propuestos en [Breiman et al., 1984;Breiman, 1996b]. Los problemas restantes están incluídos en la colección de problemas deUCI [Blake y Merz, 1998]: Audio, Australian Credit, Breast Cancer Wisconsin, Pima IndianDiabetes, German Credit, Heart, Horse Colic, Ionosphere, Labor Negotiations, New-Thyroid, Image Segmentation, Sonar, Tic-tac-toe, Vehicle, Vowel y Wine. En el cuadro 5.6se muestra el número de ejemplos usados para entrenar y para test, así como el número deatributos y el número de clases para cada conjunto de datos. Más detalles sobre las distintasbases de datos se pueden encontrar en el apéndice A.Para cada problema se llevaron a cabo 100 experimentos. Cada experimento conllevalos siguientes pasos:1. Generación de una partición aleatoria estratificada de los datos entre entrenamientoy test (ver cuadro 5.6 para los tamaños). Para los <strong>conjuntos</strong> sintéticos este paso serealizó por muestreo aleatorio a partir de las distribuciones reales que son conocidas.Las particiones utilizadas son las mismas (en los problemas comunes) que las usadasen el capítulo 4.2. Creación de un conjunto bagging de 200 árboles CART podados usando la podade coste-complejidad con validación cruzada de 10 particiones (ver [Breiman et al.,1984] para más detalles o sección 2.2).3. Ordenación de los árboles de decisión usando los 5 procedimientos descritos en lasección anterior (reducción de error, medida de complementariedad, minimizaciónde distancias de margen, ordenación por ángulos y ordenación basada en boosting),usando como conjunto de selección los mismos datos de entrenamiento usados paragenerar el conjunto. Para el procedimiento de Minimización por distancia de margense ha elegido un valor de p = 0.075 basándonos en experimentos preliminares. Seobtienen resultados similares con p = 0.05 y p = 0.25. Aunque con p = 0.25 esnecesario seleccionar un número mayor de clasificadores.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!