13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

58 CAPÍTULO 3. CONJUNTOS DE ÁRBOLES IGPdel algoritmo son T 1 comités que votan para obtener la clasificación final y está compuestaen total por T = T 1 × T 2 árboles IGP.La decisión final del conjunto se toma en dos etapas. Primero, cada comité toma unadecisión consultando a sus miembros y, posteriormente, las decisiones de los comités secombinan de nuevo <strong>mediante</strong> voto para dar lugar a la decisión final.Este método se puede ver como un algoritmo intermedio entre los algoritmos descritospreviamente. De hecho, si se ejecuta con un comité (T 1 = 1), se recupera el boosting IGP.Y si se ejecuta con varios comités de un solo miembro (T 2 = 1), entonces recuperamos elconjunto IGP.3.3. Resultados experimentalesLos algoritmos propuestos han sido evaluados en una serie de <strong>conjuntos</strong> de datos deproblemas de aplicación obtenidos de la colección de problemas de UCI [Blake y Merz,1998]. Estos son: Breast Cancer Wisconsin, Pima Indian Diabetes, German Credit, Sonary Waveform. Para evitar efectos espurios debidos a la ausencia de valores para algunos atributos,se han elegido <strong>conjuntos</strong> de datos con todos los registros completos. Asimismo, paraanalizar la eficacia del conjunto IGP en función del tamaño del conjunto de datos de entrenamientohemos realizado un estudio más detallado con el conjunto sintético Waveform,propuesto en [Breiman et al., 1984].El cuadro 3.1 muestra las características de los <strong>conjuntos</strong> seleccionados. Las columnas2 y 3 dan el número de ejemplos de entrenamiento y test respectivamente. La columna4 muestra el número de atributos del problema y la columna 5 el número de clases. Másdetalles sobre las bases de datos seleccionadas se pueden encontrar en el apéndice A.Cuadro 3.1: Características de los <strong>conjuntos</strong> de datosProblema Entrenamiento Test Atributos ClasesBreast Cancer Wisconsin 500 199 9 2Pima Indian Diabetes 500 268 8 2German Credit 600 400 24 2Sonar 120 88 60 2Waveform 300 5000 21 3Los algoritmos propuestos (conjunto IGP, boosting IGP y comités IGP) han sido comparadoscon bagging y boosting basados en CART. El tamaño de todos los <strong>conjuntos</strong> seha fijado en T = 99 clasificadores (T 1 × T 2 = 11 × 9 para comités IGP). Como hemosmencionado se han realizado dos tipos de experimentos. Primero, se ha medido la eficacia

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!