Algoritmos TDIDT aplicados a la Mineria de Datos ... - Laboratorios

ALGORITMOS TDIDT APLICADOS A LAMINERIA DE DATOS INTELIGENTETESIS DE GRADO EN INGENIERIA INFORMATICAFACULTAD DE INGENIERIAUNIVERSIDAD DE BUENOS AIRESLABORATORIO DE SISTEMAS INTELIGENTESTESISTA:DIRECTOR:Srta. Magdalena SERVENTEProf. Dr. Ramón GARCIA MARTINEZFEBRERO 2002

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRESUMENLa Minería de Datos (Data Mining) es la búsqueda de patrones interesantes y de regularidadesimportantes en grandes bases de datos. El Aprendizaje Automático es el campo de la IngenieríaInformática en el que se estudian y desarrollan algoritmos que implementan los distintos modelos deaprendizaje y su aplicación a la resolución de problemas prácticos. La minería de datos inteligente utilizamétodos de aprendizaje automático para descubrir y enumerar patrones presentes en los datos.Uno de los métodos más conocidos para describir los atributos de una entidad de una base de datos esutilizar un árbol de decisión o de clasificación, que puede transformarse sin inconveniente a un conjuntode reglas de decisión.En este contexto, el propósito de este proyecto es estudiar de que manera la familia TDIDT, que aborda elproblema de inducir árboles de decisión, puede utilizarse para descubrir automáticamente reglas denegocio a partir de la información disponible en una base de datos. Se trabajó en particular con losmétodos ID3 y C4.5, miembros de dicha familia. El trabajo contempla el diseño, especificación eimplementación de un ambiente de minería de datos que integra ambos algoritmos. Además, se desarrollóun método de evaluación de los resultados para determinar la calidad de las reglas obtenidas.Palabras clave: minería de datos, aprendizaje automático, árboles de decisión, reglas de decisión,TDIDT, ID3, C4.5ABSTRACTData mining is the search of interesting patterns and relevant regularities in large data bases. MachineLearning is the Informatic Engineering’s field devoted to the analysis and development of algorithmsimplementing the different learning models and their application to the solution of practical problems.Intelligent data mining uses machine learning methods to find and list the patterns present in the data.One of the best known methods to describe the attributes of an entity of a data base is the use of adecision or classification tree, which can easily be turned into a set of decision rules.Within this context, the purpose of the present project is to analyze the way in which the TDIDT family,which studies the problem of inducing decision trees, can be used to discover automatically business rulesfrom the information available in a data base.ResumenMagdalena Servente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteThe work was focused in the ID3 and C4.5 methods, which belong to the family above mentioned. Thework includes the design, specification and implementation of a data mining system that combines bothalgorithms. Furthermore, to determine the quality of the rules obtained, an evaluation method of thecorresponding results was developed.Keywords: data mining, machine learning, decision trees, decision rules, TDIDT, ID3, C4.5ResumenMagdalena Servente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteIndice Magdalena Servente i

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.3.1.5. Resolución de un ejemplo utilizando el ID3 584.3.2. Limitaciones al ID3 624.3.2.1. Valores continuos 624.3.2.3. Ventanas 634.4. C4.5 644.4.1. Algoritmo C4.5 644.4.2. Características particulares del C4.5 654.4.2.1. Pruebas utilizadas 654.4.2.2. Pruebas sobre atributos continuos 654.4.2.2. Atributos desconocidos 664.4.3. Poda de los Árboles de Decisión 684.4.3.1. ¿Cuándo debemos simplificar? 694.4.3.2. Poda en Base a Errores 704.4.4. Estimación de la Proporción de Errores para los Árboles de Decisión 724.4.5. Construcción de un árbol de decisión utilizando el C4.5 724.4.6. Generalización de reglas 764.4.6.1. Conjuntos de Reglas 774.4.6.2. Orden de las clases y elección de la clase por defecto 804.4.6.3. Generalización de un árbol de decisión a reglas de decisión utilizando el C4.5 804.5. Sistema integrador 834.5.1. Descripción general 834.5.2. Diseño del sistema integrador 854.5.2.1. Diseño para el ID3 854.5.2.2. Diseño para el C4.5 90CAPÍTULO 5: RESULTADOS OBTENIDOS 975.1. Interpretación de los resultados 975.1.1. Interpretación de resultados en el ID3 975.1.1.1. Árboles de decisión 975.1.1.2. Reglas de decisión 985.1.2. Interpretación de resultados en el C4.5 985.1.2.1. Árboles de decisión 985.1.2.2. Reglas de decisión 1005.2. Descripción de los dominios 1005.2.1. Créditos 1015.2.2. Cardiología 1025.2.3. Votaciones 102iv Magdalena Servente Indice

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.2.4. Estudio sobre hongos 1035.2.5. Elita: Base de Asteroides 1045.2.6. Hipotiroidismo 1055.2.7. Identificación de vidrios 1065.3. Resultados Obtenidos con el ID3 1075.3.1. Créditos 1085.3.1.1. ID3 utilizando la ganancia como criterio de decisión 1085.3.1.2. ID3 utilizando la proporción ganancia como criterio de decisión 1105.3.1.3. Conclusiones 1125.3.2. Cardiología 1135.3.2.1. ID3 utilizando la ganancia como criterio de decisión 1135.3.2.2. ID3 utilizando la proporción ganancia como criterio de decisión 1155.3.2.3. Conclusiones 1175.3.3. Votaciones 1185.3.4.1. ID3 utilizando la ganancia como criterio de decisión 1185.3.4.2. ID3 utilizando la proporción ganancia como criterio de decisión 1235.3.4.3. Conclusiones 1285.3.4. Estudio sobre hongos 1295.3.4.1. ID3 utilizando la ganancia como criterio de decisión 1295.3.4.2 ID3. utilizando la proporción ganancia como criterio de decisión 1325.3.4.3. Conclusiones 1345.4. Resultados Obtenidos con el C4.5 1355.4.1. Créditos 1355.4.1.1. Utilizando la ganancia como criterio de decisión 1355.4.1.2. Utilizando la proporción de ganancia como criterio de decisión 1375.4.1.3. Conclusiones 1395.4.2. Cardiología 1405.4.2.1. Utilizando la ganancia como criterio de decisión 1405.4.2.2. Utilizando la proporción ganancia como criterio de decisión 1425.4.2.3. Conclusiones 1445.4.3. Votaciones 1455.4.3.1. Utilizando la ganancia como criterio de decisión 1455.4.3.2. Utilizando la proporción ganancia como criterio de decisión 1475.4.3.3. Conclusiones 1495.4.4. Estudio sobre hongos 1505.4.4.1. Utilizando la ganancia como criterio de decisión 1505.4.4.2. Utilizando la proporción ganancia como criterio de decisión 1535.4.4.3. Conclusiones 1575.4.5. Elita 158Indice Magdalena Servente v

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.4.5.1. Utilizando la ganancia como criterio de decisión 1585.4.3.2. Utilizando la proporción ganancia como criterio de decisión 1605.4.5.3. Conclusiones 1625.4.6. Hipotiroidismo 1635.4.6.1. Utilizando la ganancia como criterio de decisión 1635.4.6.2. Utilizando la proporción ganancia como criterio de decisión 1665.4.6.3. Conclusiones 1695.4.7. Identificación de vidrios 1695.4.7.1. Utilizando la ganancia como criterio de decisión 1695.4.7.2. Utilizando la proporción ganancia como criterio de decisión 1735.4.7.3. Conclusiones 1775.5. Comparación de los resultados obtenidos con el ID3 y con el C4.5 1775.5.1. Créditos 1775.5.2. Cardiología 1805.5.3. Votaciones 1815.5.4. Estudio sobre hongos 1855.6. Análisis general de los resultados obtenidos 1875.6.1. Porcentaje de error 1875.6.2. Cantidad de datos de entrenamiento 188CAPÍTULO 6: CONCLUSIONES 1916.1. Conclusiones Generales 1916.1.1. Conceptos destacables 1916.1.2. Espacio de hipótesis 1926.2. Análisis de los Resultados Obtenidos 1936.3. Análisis de la solución propuesta 1936.4. Una mirada al futuro 1956.4.1. Atributos multivaluados en el ID3 y el C4.5 1956.4.2. El futuro de la Minería de Datos Inteligente 196ANEXO A: MANUAL DEL USUARIO 197A.1. Características Generales 197A.2. Funcionalidad 198A.2.1. Pantalla principal 198vi Magdalena Servente Indice

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteA.2.2. Descripción del menú 198A.2.2.1. Menú Resolución 199A.2.2.2. Menú Evaluación 199A.2.2.3. Menú Opciones 200A.2.2.4. Menú Ayuda 201ANEXO B: CONJUNTOS DE DATOS 203ANEXO C: DOCUMENTACIÓN DEL SISTEMA 205C.1. Interacción de los Módulos 205C.2. Descripción de los archivos fuente 206C.2.1. TDIDT.cpp 206C.2.2. Módulos de pantallas principales 207C.2.2.1. UPrincipal 207C.2.2.2. UInfoGral 207C.2.3. Módulos de opciones generales 207C.2.3.1. UBD 207C.2.3.2. UCambioTabla 207C.2.3.3. frmOpcionesSist 207C.2.3.4. UElegirRendimiento 208C.2.3.5. URendimiento 208C.2.3.6. UArbol 208C.2.4. Módulos de minería de datos 208C.2.4.1. UDMID3 208C.2.4.2. UDMC45 209C.2.5. Módulos de clases de datos 209C.2.5.1. UTipos 209C.2.5.2. Types.h 209C.2.5.3. Defns.h 209C.2.5.4. Rulex.h 209C.3. Estructuras de datos 209C.3.1. Estructuras de datos generales 209C.3.2. Estructuras de datos del ID3 210C.3.4. Estructuras de datos del C4.5 211ANEXO D: CÓDIGO FUENTE 213D.1. TDIDT.cpp 213Indice Magdalena Servente vii

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.2. Módulos de Pantallas Principales 214D.2.1. UPrincipal 214D.2.1.1. UPrincipal.h 214D.2.1.1. UPrincipal.cpp 215D.2.2. UInfoGral 217D.2.2.1. UInfoGral.h 217D.2.2.2. UInfoGral.cpp 218D.3. Módulos de opciones generales 219D.3.1. UBD 219D.3.1.1. UBD.h 219D.3.1.2. UBD.cpp 219D.3.2. UCambioTabla 220D.3.2.1. UCambioTabla.h 220D.3.2.2. UCambioTabla.cpp 220D.3.3. frmOpcionesSist 223D.3.3.1. frmOpcionesSist.h 223D.3.3.2. frmOpcionesSist.cpp 224D.3.4. UElegirRendimiento 225D.3.4.1. UElegirRendimiento.h 225D.3.4.2. UElegirRendmiento.cpp 226D.3.5. URendimiento 228D.3.5.1. URendimiento.h 228D.3.5.2. URendmiento.cpp 228D.3.6. Uarbol 229D.3.6.1. UArbol.h 229D.3.6.2. UArbol.cpp 229D.4. Módulos de minería de datos 231D.4.1. UDMID3 231D.4.1.1. UDMID3.h 231D.4.1.2. UDMID3.cpp 233D.4.2. UDMC45 251D.4.2.1. UDMC45.h 251D.4.2.2. UDMC45.cpp 256D.5. Módulos de clases de datos 332D.5.1. UTipos 332D.5.1.1. UTipos.h 332D.5.1.2. UTipos.cpp 333D.5.2. Types.h 337viii Magdalena Servente Indice

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.5.3. Defns.h 339D.5.4. Rulex.h 339REFERENCIAS 341Indice Magdalena Servente ix

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 1INTRODUCCIÓNLa Minería de Datos (Data Mining) es la búsqueda de patrones interesantes y de regularidadesimportantes en grandes bases de datos [Fayad et al., 1996- Grossman et al., 1999]. Al hablar de mineríade datos inteligente [Evangelos, 1996, Michalski et al., 1998] nos referimos específicamente a laaplicación de métodos de aprendizaje automático u otros métodos similares, para descubrir y enumerarpatrones presentes en los datos.El Aprendizaje Automático es el campo de la Ingeniería Informática en el que se estudian y desarrollanalgoritmos que implementan los distintos modelos de aprendizaje y su aplicación a la resolución deproblemas prácticos [Michalski, 1983- Dejong & Money 1986; Bergadano et al., 1992]. Entre losproblemas abordados en este campo, está el de inducir conocimientos a partir de datos o ejemplos[Michalski, 1983,1991; Michie, 1988; García Martínez, 1994]. Esto resulta una alternativa de solución aproblemas que no pueden ser resueltos mediante algoritmos tradicionales, entre los cuales podemosmencionar especificación de condiciones asociadas a diagnósticos técnicos o clínicos, identificación decaracterísticas que permitan reconocimiento visual de objetos, descubrimiento de patrones o regularidadesen estructuras de información (en particular en bases de datos de gran tamaño), entre otros.Los métodos tradicionales de Análisis de Datos incluyen el trabajo con variables estadísticas, varianza,desviación estándar, covarianza y correlación entre los atributos; análisis de componentes (determinaciónde combinaciones lineales ortogonales que maximizan una varianza determinada), análisis de factores(determinación de grupos correlacionados de atributos), análisis de clusters (determinación de grupos deconceptos que están cercanos según una función de distancia dada), análisis de regresión (búsqueda de loscoeficientes de una ecuación de los puntos dados como datos), análisis multivariable de la varianza, yanálisis de los discriminantes [Michalski et al., 1982]. Todos estos métodos están orientadosnuméricamente. Son esencialmente cuantitativos.En contraposición, los métodos basados en Aprendizaje Automático, están orientados principalmentehacia el desarrollo de descripciones simbólicas de los datos, que puedan caracterizar uno o más grupos deconceptos [García Martínez et al., 1987, Mitchel, 1996], diferenciar entre distintas clases, crear nuevasclases, crear una nueva clasificación conceptual, seleccionar los atributos más representativos, y sercapaces de predecir secuencias lógicas [Michalski et al., 1983; 1986; Michalski, Tecuci, 1994]. Sonesencialmente cualitativos.Introducción Magdalena Servente 1

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEn las bases de datos las entidades se caracterizan generalmente por el valor de los atributos y no por lasrelaciones entre ellas, con lo cual se utilizan métodos atribucionales. Uno de los métodos más conocidospara describir los atributos de una entidad es utilizar un árbol de decisión o de clasificación [Michalski etal., 1998Grossman et al., 1999], cuyos nodos corresponden a los atributos, las ramas que salen de ellosson los valores de los atributos, y las hojas son corresponden a clases individuales. La gran ventaja de losárboles de clasificación es que se pueden transformar sin inconveniente a un conjunto de reglas dedecisión.En este contexto, el propósito de este proyecto es estudiar de que manera la familia TDIDT [Quinlan,1986; 1990], que aborda el problema de inducir árboles de decisión, puede utilizarse para descubrirautomáticamente reglas de negocio a partir de la información disponible en una base de datos.En el capítulo 2 se presenta el estado actual del Aprendizaje Automático (Sección 2.1), en múltiplesaspectos, que incluyen la clasificación general de este tipo de sistemas (Sección 2.1.1) el esquema generalde un sistema de Aprendizaje Automático (Sección 2.1.2) y los distintos tipos de aprendizaje en general(Sección 2.1.3). Luego, se presenta el estado actual de la Minería de Datos (Sección 2.2), incluyendodescripciones de: el descubrimiento de conocimientos (Sección 2.2.1), los problemas inherentes alaprendizaje de conceptos (Sección 2.2.2), las tareas realizadas por un sistema de Minería de Datos(Sección 2.2.3), los principales métodos de la Minería de Datos (Sección 2.2.4) y sus componentes(Sección 2.2.5). A partir de la presentación de estos dos grandes temas, se presentan varias aplicacionesen las que se realiza Minería de Datos con sistemas de Aprendizaje Automático (Sección 2.3.1), entre loscuales se encuentra la familia TDIDT (Top-Down-Induction-Trees) (Sección 2.4) en la cual centraremosnuestra atención. Se explica la construcción de los árboles TDIDT (Sección 2.4.1), el tratamiento de losatributos desconocidos (Sección 2.4.2), y la transformación de los árboles a reglas de decisión (Sección2.4.3). Finalmente, se presentan varios métodos utilizados actualmente para evaluar los distintos métodosde Aprendizaje Automático (Sección 2.5)En el capítulo 3 se presenta el contexto de nuestro problema de interés (Sección 3.1) y las cuestiones quelos algoritmos ID3 y C4.5 pertenecientes a la familia TDIDT deben resolver (Sección 3.2).En el capítulo 4 se presentan todos los aspectos de la solución propuesta. Para ello se describen lascaracterísticas generales de la misma (Sección 4.1): el marco teórico (Sección 4.1.1), las condiciones quedeben cumplir los datos sobre los que se realiza la Minería de Datos (Sección 4.1.2) y los tipos deresultados obtenidos (Sección 4.1.3). En la Sección 4.2 se presenta una descripción general de losalgoritmos ID3 y C4.5 que se utilizan para estudiar el problema. Se explica cómo realizar la división delos datos de entrada (Sección 4.2.1) y la elección del criterio de división (Sección 4.2.1.1). Luego, sepresenta una descripción detallada del algoritmo ID3 (Sección 4.3.1) y de sus limitaciones (Sección4.3.2). A modo de ejemplo, se muestra la utilización del ID3 para generar un árbol y reglas de decisión(Sección 4.3.1.5). También se detalla el algoritmo C4.5 (Sección 4.4) y sus características particulares(Sección 4.4.2), las cuales lo diferencian del ID3, resaltando la poda de los árboles de decisión (Sección2 Magdalena Servente Introducción

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.4.3) y la estimación de errores en dichos árboles (Sección 4.4.4). En la sección 4.4.5 se ejemplifican losmétodos anteriores. La generalización de las reglas de decisión realizada por el C4.5 se explica en lasección 4.4.6. A continuación, se detalla el diseño del sistema integrador utilizado para estudiar el éxitode la solución propuesta (Sección 4.5). Para este sistema se presenta una descripción general (Sección4.5.1) y el diseño de las secciones del sistema para el ID3 (Sección 4.5.2.1) y para el C4.5 (Sección4.5.2.2)En el capítulo 5 se presentan los resultados obtenidos. Primero, se explica la manera en que deberealizarse la interpretación de los mismos (Sección 5.1), se presentan los formatos de los árboles y lasreglas de decisión tanto para el ID3 (Sección 5.1.1) como para el C4.5 (Sección 5.1.2). Luego, sedescriben los dominios de datos sobre los que se trabajó (Sección 5.2), y se analizan los resultadosobtenidos con el ID3 (Sección 5.3) y con el C4.5 (Sección 5.4). En cada caso se presenta, el árbol y lasreglas de decisión obtenidos, y la evaluación de resultados sobre el conjunto de datos de prueba. En lasección 5.5 se comparan los resultados obtenidos con el ID3 y con el C4.5 en los distintos dominios. Y enla sección 5.6 se realiza un análisis general de los resultados.En el capítulo 6 se presentan las conclusiones del trabajo realizado. Primero se destacan los conceptosmás importantes a tener en cuenta a la hora de aplicar algún método como el ID3 y el C4.5 (Sección6.1.1). Luego, se analiza la búsqueda que realizan estos dos métodos en el espacio de hipótesis (Sección6.1.2). Se extraen conclusiones a partir de los resultados obtenidos (Sección 6.2) y se analiza la soluciónpropuesta (Sección 6.3). Finalmente, se plantean mejoras y temas a tener en cuenta para continuar con eldesarrollo de este tipo de algoritmos de aprendizaje aplicados a la Minería de Datos (Sección 6.4).El Anexo A describe el sistema en forma de un resumido manual del usuario. Se describen lascaracterísticas generales del sistema (Sección A.1) y las funciones de cada uno de los menúes (SecciónA.2), detallando las acciones que pueden realizarse con cada una de las opciones disponibles.En el Anexo B se detallan los conjuntos de datos utilizados para realizar las pruebas descriptas en elCapítulo 5. Para cada uno de los dominios, se muestran los conjuntos de datos de entrenamiento y prueba.Los datos presentados corresponden a los siguientes dominios: Créditos (Sección B.1), Cardiología(Sección B.2), Votaciones (Sección B.3), Estudio sobre hongos (Sección B.4), Elita: Base de Asteroides(Sección B.5), Hipotiroidismo (Sección B.6), Identificación de vidrios (Sección B.7).El Anexo C es un complemento a la explicación de la funcionalidad del sistema de la Sección 4.5. En lasección C.1 se detalla la interacción entre los módulos del sistema. Las principales funciones de cada unode estos módulos se presentan en la sección C.2. En la sección C.3 se detallan las principales estructurasde datos utilizadas por el sistemaIntroducción Magdalena Servente 3

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFinalmente, en el anexo D se presenta el código fuente del sistema desarrollado. En la sección D.1 sepresenta el código fuente del archivo TDIDT.cpp que es el archivo inicial del proyecto y es quieninicializa al resto de los formularios requeridos. En la sección D.2 se presenta el código fuente de laspantallas principales. A continuación, se detallan los códigos fuentes de los módulos de opcionesgenerales (Sección D:3), de los módulos de minería de datos (Sección D.4) y de los módulos de clases oestructuras de datos (Sección D.5)En las Referencias se detallan la bibliografía y las referencias utilizadas para realizar el trabajo.4 Magdalena Servente Introducción

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 2:ESTADO DEL ARTEEste capítulo presenta el estado actual del Aprendizaje Automático (Sección 2.1), en múltiplesaspectos, que incluyen la clasificación general de este tipo de sistemas (Sección 2.1.1) elesquema general de un sistema de Aprendizaje Automático (Sección 2.1.2) y los distintos tiposde aprendizaje en general (Sección 2.1.3). Luego, se presenta el estado actual de la Minería deDatos (Sección 2.2), incluyendo descripciones de: el descubrimiento de conocimientos (Sección2.2.1), los problemas inherentes al aprendizaje de conceptos (Sección 2.2.2), las tareas realizadaspor un sistema de Minería de Datos (Sección 2.2.3), los principales métodos de la Minería deDatos (Sección 2.2.4) y sus componentes (Sección 2.2.5). A partir de la presentación de estosdos grandes temas, se presentan varias aplicaciones en las que se realiza Minería de Datos consistemas de Aprendizaje Automático (Sección 2.3.1), entre los cuales se encuentra la familiaTDIDT (Top-Down-Induction-Trees) (Sección 2.4) en la cual centraremos nuestra atención. Seexplica la construcción de los árboles TDIDT (Sección 2.4.1), el tratamiento de los atributosdesconocidos (Sección 2.4.2), y la transformación de los árboles a reglas de decisión (Sección2.4.3). Finalmente, se presentan varios métodos utilizados actualmente para evaluar los distintosmétodos de Aprendizaje Automático (Sección 2.5)El Aprendizaje Automático (Machine Learning) es el campo dedicado al desarrollo de métodoscomputacionales para los procesos de aprendizaje, y a la aplicación de los sistemas informáticos deaprendizaje a problemas prácticos [Michalski et al, 1998]. La Minería de Datos (Data Mining) es labúsqueda de patrones e importantes regularidades en bases de datos de gran volumen [Michalski et al,1998].Estos dos campos han ido creciendo a lo largo de los años, y han cobrado una importancia considerable.Hoy en día, como se almacenan grandes volúmenes de información en todas las actividades humanas, laMinería de Datos está cobrando gran importancia, se busca obtener información valiosa a partir de losdatos guardados. La Minería de Datos utiliza métodos y estrategias de otras áreas o ciencias, entre lascuales podemos nombrar al Aprendizaje Automático. Cuando este tipo de técnicas se utilizan para realizarla minería, decimos que estamos ante una Minería de Datos Inteligente.El campo de aplicación del Aprendizaje Automático, no obstante, no se limita únicamente a la Minería deDatos, existen múltiples aplicaciones de Aprendizaje Automático en funcionamiento. Si analizamos suaplicación a la Minería de Datos en particular, encontramos que hay varios métodos que se utilizan conéxito hoy en día, entre los cuales se encuentran los métodos de inducción. Nuestro análisis se centrará enEstado del Arte Magdalena Servente 5

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteuna familia de métodos de inducción conocida como la familia TDIDT (Top Down Induction Trees), y enparticular en los algoritmos ID3 y C4.5 desarrollados por Quinlan, pertenecientes a la misma.2.1. APRENDIZAJE AUTOMÁTICOEl Aprendizaje Automático se enfrenta con el desafío de la construcción de programas computacionalesque automáticamente mejoren con la experiencia [Mitchell, 1997]. Estos programas computacionales sonsistemas de aprendizaje capaces de adquirir conocimientos de alto nivel y/o estrategias para la resoluciónde problemas mediante ejemplos, en forma análoga a la mente humana [Michalski et al, 1998]. A partirde los ejemplos provistos por un tutor o instructor y de los conocimientos de base o conocimientosprevios, el sistema de aprendizaje crea descripciones generales de conceptos.¿Cómo sabemos si un sistema ha adquirido algún conocimiento? Siguiendo el análisis de Witten [Witteny Frank, 2000], podemos plantearnos las siguientes preguntas: ¿qué es el aprendizaje?, y ¿qué es elAprendizaje Automático? Si buscamos la definición de Aprendizaje en la Enciclopedia, encontraremoslas siguientes definiciones o alguna similar: “Adquirir el conocimiento de alguna cosa por medio delestudio, de la experiencia o al ser instruido; Concebir alguna cosa por meras apariencias o con pocofundamento; Tomar algo en la memoria; Ser informado de; recibir instrucción” [Espasa-Calpe, 1974].Todas estas definiciones se aplican con facilidad a los seres humanos, veamos si pueden aplicarsetambién a los sistemas informáticos. En términos de Aprendizaje Automático lo primero que debemos sercapaces de hacer es determinar si un sistema informático ha aprendido o no. En el caso de las dosprimeras definiciones esto es imposible: no existe ninguna manera de preguntarle si ha adquiridoconocimiento, ya que si le hacemos preguntas acerca de las cosas que debería haber aprendido, noestaríamos midiendo sus nuevos conocimientos, sino su capacidad de responder preguntas. En cuanto alas últimas dos definiciones, el hecho de guardar en memoria y recibir instrucciones son triviales para unacomputadora, son actividades “vitales” para ella que realiza todo el tiempo. De esto se deduce que unacomputadora sería capaz de aprender a la luz de las últimas dos definiciones.Esta afirmación no tiene nada de novedoso para nosotros. Si un sistema de información es capaz deaprender, entonces debe ser capaz de aplicar los conocimientos memorizados o instruidos en una nuevasituación. Esto es justamente lo que evaluamos para saber si un ser humano ha aprendido o no, evaluamossu respuesta ante una nueva situación. Siguiendo esta línea de pensamiento, podemos afirmar entoncesque las cosas (y los seres humanos también) aprenden cuando cambian su comportamiento de manera talque les permite desarrollarse mejor en el futuro. A la luz de esta definición que asocia el aprendizaje a laperformance más que al conocimiento, el aprendizaje es más fácil de medir: podemos analizar si unsistema ha aprendido al ponerlo en una situación en la que estuvo anteriormente y observando si sedesempeña mejor.6 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEsta definición sigue siendo engañosa. Una gran variedad de objetos modifican su comportamiento demanera tal que los hacen desempeñarse mejor y, sin embargo, no se puede decir que hayan aprendido.Tomemos por ejemplo, nuestras mejores pantuflas, ¿podemos decir que han aprendido la forma denuestro pie? Sin embargo, han cambiado su forma, su comportamiento para adaptarse mejor a nuestro piey ciertamente son más cómodas que cuando eran nuevas. Llamamos entrenamiento al tipo de aprendizajeque se realiza sin pensar. Entrenamos a los animales y a las plantas, pero hablar del entrenamiento de unapantufla sería ridículo. El aprendizaje, a diferencia del entrenamiento, requiere pensar, implica tener elpropósito, directo o indirecto, de aprender; alguien o algo que aprende debe tener la intención de hacerlo.El aprendizaje sin pensar es meramente un entrenamiento. Los sistemas de Aprendizaje Automáticotienen la intención de construir un modelo a partir de los datos de entrada y cambian su comportamientode manera tal que son capaces de clasificar nuevos datos y desarrollarse mejor en antiguas situaciones. Enfin, podemos afirmar que los sistemas son capaces de aprender. Aún no sabemos, sin embargo, cómohacer para que los sistemas aprendan en el mismo grado que los humanos. No obstante, se han creadoalgoritmos efectivos en ciertas tareas de aprendizaje, y el entendimiento teórico del aprendizaje estácomenzando a emerger [Mitchell, 1997].Para complementar el enfoque anterior, debemos preguntarnos cómo aprenden los seres humanos yanalizar si los si los sistemas son capaces de aprender de la misma manera. Los humanos aprendemosmediante tres mecanismos distinguibles: inducción, deducción y abducción. Podemos afirmar que lossistemas aprenden cuando son capaces de generar nuevos conocimientos, por cualquiera de los tresmétodos anteriores [Monter, 2001]. En un sistema de Aprendizaje Automático, dicha generación deconocimientos se realiza cuando los datos se transforman a un nivel superior que nos es más útil. Porejemplo, cuando los datos presentes en una base de datos se transforman en un modelo de datos que losclasifica según sus características o atributos.Los algoritmos de la familia TDIDT que analizaremos, justamente construyen un modelo de nivelsuperior. ¿Podemos afirmar entonces que son sistemas de Aprendizaje Automático?El tema fundamental para construir un sistema de aprendizaje automático es, según Mitchell [Mitchell,1997], plantear el problema de aprendizaje de manera correcta. Para ello, debe contar con las tres partesesenciales de la siguiente definición:“Se puede afirmar que un programa computacional es capaz de aprender a partir de la experiencia E conrespecto a un grupo de tareas T y según la medida de performance P, si su performance en las tareas T,medida según P, mejora con la experiencia E.”Veremos que esto se cumple para los algoritmos de la familia TDIDT.Estado del Arte Magdalena Servente 7

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecomparten todas las aves y que las diferencias del resto de los seres vivos). A la luz de esta definiciónvemos que si los límites entre conceptos no están claramente definidos, puede no ser fácil clasificar unejemplo en particular. Por ejemplo, cuál es el límite entre un edificio alto y un edificio bajo, entre unamujer atractiva y una no atractiva.Existen dos técnicas de inferencia generales que se utilizan para extraer descripciones a partir de losconceptos: la deducción y la inducción. La deducción es la técnica que infiere información como unaconsecuencia lógica de los ejemplos y conocimientos de base [Holsheimer, Siebes, 1994]. La inducciónes la técnica que infiere información generalizada de los ejemplos y conocimientos de base.En la inducción, podemos trabajar con jerarquías de generalización, representadas por árboles o grafos[Michalski et al, 1998]. En una jerarquía de generalización, un concepto puede describirse por los objetosdel nivel base o por cualquier objeto en un nivel superior. Analizando la Figura 2.2, podemos describir ala Universidad de Buenos Aires con los objetos de nivel base, en cuyo caso decimos que es unainstitución educativa, universitaria y pública; o podemos describirla con los objetos de nivel superiordiciendo que la Universidad de Buenos Aires es una institución educativa.InstitucionesEducativasPrimarias Secundarias Terciarias UniversitariasPúblicasPrivadasUBAUTNFigura 2.2 Jerarquía de generalizaciónEn este tipo de jerarquías, podemos identificar tres nociones que relacionan los conceptos: efecto de nivelbásico (basic-level effect), tipicalidad (typicality) y dependencia contextual (contextual dependency)[Michalski et al, 1998]. El efecto de nivel básico hace referencia al hecho de que los conceptos de nivelbase pueden ser descriptos por características fácilmente identificables por los humanos, lo cual hace quesu aprendizaje sea simple para nosotros. Mientras que los conceptos de nivel superior se definen comogrupos de conceptos de nivel básico que comparten alguna característica en común. La segunda noción,la tipicalidad, analiza cuán típico es un concepto. Puede medirse de acuerdo a la cantidad decaracterísticas comunes que comparte con otros conceptos, y a la cantidad de características heredadas delos superconceptos (conceptos de nivel superior). En el aprendizaje, la tipicalidad es muy importante, porejemplo, tratar de enseñar el concepto de pájaro con los ejemplos de un pingüino, un ganso y un avestruz,Estado del Arte Magdalena Servente 9

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteComo lenguaje descriptivo, la lógica de atributos es mucho más práctica que la lógica de orden cero. Poreso, es utilizada en muchos programas de Aprendizaje Automático, como los de la familia TDIDT(Árboles inductivos de arriba hacia abajo - Top-Down Induction Trees).La lógica de predicados de primer orden utiliza las cláusulas de Horn para representar conceptos. Estascláusulas simplifican las descripciones complicadas mediante el uso de predicados y variables. Sonbastante potentes, incluso permiten la expresión de conceptos recursivos. El lenguaje Prolog se basa en lalógica de predicados de primer orden. Este tipo de lógica se utiliza en algunos programas de AprendizajeAutomático, como el algoritmo FOIL. Un ejemplo de una cláusula de Horn sería:Abuelo(X,Z) :- Padre(X,Y), Padre(Y,Z)Por último, la lógica de predicados de segundo orden considera a los nombres de los predicados comovariables. La expresión anterior quedaría de la forma:p(X,Z) :- q(X,Y), q(Y,Z)donde p es Abuelo y q es Padre.Este tipo de lógica es la de mayor poder descriptivo. Sin embargo, dada su complejidad rara vez se utilizaen los sistemas de Aprendizaje Automático.2.1.3. Aprendizaje2.1.3.1. Aprendizaje supervisado y no supervisadoExisten dos tipos de aprendizaje: el supervisado y el no supervisado [Michalski et al, 1998], [Holsheimer,Siebes, 1994]. En el aprendizaje supervisado o aprendizaje a partir de ejemplos, el instructor o expertodefine clases y provee ejemplos de cada una. El sistema debe obtener una descripción para cada clase.Cuando el instructor define una única clase, provee ejemplos positivos (pertenecen a la clase) y negativos(no pertenecen a la clase). En este caso, los ejemplos importantes son los cercanos al límite, porqueproveen información útil sobre los límites de la clase. Cuando el instructor define varias clases, el sistemapuede optar por realizar descripciones discriminantes o no. Un conjunto de descripciones es discriminantesi el total de las descripciones cubren todas las clases, pero una descripción cubre una sola clase enparticular.Estado del Arte Magdalena Servente 11

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEn el aprendizaje no supervisado o aprendizaje a partir de observaciones y descubrimientos, el sistemadebe agrupar los conceptos 1 sin ayuda alguna de un instructor. El sistema recibe los ejemplos, pero no sepredefine ninguna clase. Por lo tanto, debe observar los ejemplos y buscar características en común quepermitan formar grupos. Como resultado, este tipo de aprendizaje genera un conjunto de descripciones declases, que juntas cubren todas las clases y en particular describen a una única clase.2.1.3.2. Tipos de aprendizaje automáticoExisten varios tipos de aprendizaje que pueden clasificarse como supervisados o no supervisados. Acontinuación, se presentan los distintos tipos de aprendizaje automático[García Martínez, 1997].• Aprendizaje por memorización• Aprendizaje por instrucción• Aprendizaje por deducción• Aprendizaje por analogía• Aprendizaje por inducción• Aprendizaje por ejemplos• Aprendizaje por observación - descubrimiento• Observación pasiva• Experimentación activaEn el aprendizaje por memorización los sistemas reciben conocimientos del medio ambiente y losguardan sin ningún tipo de procesamiento. Su complejidad se encuentra en el almacenamiento de losconocimientos y no en su adquisición. Lo importante en estos casos es que la información esté disponible1 También conocido como formación de clusters.12 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecuando se requiera; no hay ningún tipo de inferencia ni procesamiento, por lo tanto, los conocimientosdeben ser adquiridos y almacenados en un nivel que los haga directamente utilizables.En el caso del aprendizaje por instrucción, los conocimientos son provistos por un instructor o experto enla materia (aprendizaje supervisado). La información provista es abstracta o de índole general, por lotanto, el sistema tendrá que inferir los detalles. Es decir, el sistema deberá transformar la informaciónprovista en términos abstractos de alto nivel, a reglas que puedan ser utilizadas directamente en la tareadel sistema.El aprendizaje por deducción o aprendizaje guiado por la especificación destaca o especifica lasrelaciones existentes entre conceptos. El sistema transforma las especificaciones recibidas como entradaen un algoritmo que actualiza relaciones.En el aprendizaje por analogía, el sistema, que recibe información relevante a problemas análogos a losque está tratando de resolver, debe descubrir las analogías e inferir reglas aplicables al problema. Se tratade generar nuevos conocimientos utilizando información preexistente.En el aprendizaje por inducción, el sistema genera nuevos conocimientos que no están presentes en formaimplícita dentro del conocimiento disponible. El aprendizaje por inducción abarca el aprendizaje porejemplos y el aprendizaje por observación y descubrimiento.En el aprendizaje por ejemplos, el sistema recibe varios ejemplos como entrada y debe generalizarlos enun proceso inductivo para presentarlos como salida. Generalmente, en este tipo de aprendizaje existen dostipos de ejemplos, los positivos y los negativos. Los ejemplos positivos fuerzan la generalización,mientras que los ejemplos negativos previenen que esta sea excesiva. Se trata de que el conocimientoadquirido cubra todos los ejemplos positivos y ningún ejemplo negativo. A este tipo de aprendizajepertenece la familia TDIDT. Debe tenerse en cuenta, que los ejemplos a partir de los cuales aprende elsistema, deben ser representativos de los conceptos que se está tratando de enseñar. Además, ladistribución de las clases en el conjunto de ejemplos de entrenamiento, a partir de los que el sistemaaprende, debe ser similar a la distribución existente en los datos sobre los cuales se aplicará el modeloresultante.En el aprendizaje por observación y descubrimiento, el sistema forma teorías o criterios de clasificaciónen jerarquías taxonómicas, a partir de la inducción realizando tareas de descubrimiento. Pertenece al tipode aprendizaje no supervisado y, como tal, permite que el sistema clasifique la información de entradapara formar conceptos. Existen dos formas en las que el sistema interactúa con el entorno: la observaciónpasiva, en la cual el sistema clasifica las observaciones de múltiples puntos del medio; y la observaciónactiva, en la cual el sistema observa el entorno, realiza cambios en el mismo, y luego analiza losresultados.Estado del Arte Magdalena Servente 13

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.1.3.3 Métodos clásicos de aprendizajeExisten dos métodos clásicos de aprendizaje inductivo a partir de ejemplos que debemos conocer: elaprendizaje AQ y el aprendizaje según el método de divide y reinarás [Michalski et al, 1998].2.1.3.3.1 Aprendizaje AQEl aprendizaje AQ se basa en la idea de cubrir progresivamente los datos de entrenamiento a medida quese generan reglas de decisión. Su esencia está en la búsqueda de un conjunto de reglas (conjunciones depares atributo-valor o predicados arbitrarios) que cubran todos los ejemplos positivos y ningún ejemplonegativo. En lugar de dividir los ejemplos en subconjuntos, el aprendizaje AQ generaliza, paso a paso, lasdescripciones de los ejemplos positivos seleccionados [Michalski et al, 1998].2.1.3.3.2 Aprendizaje divide y reinarásEl aprendizaje “divide y reinarás” particiona el conjunto de ejemplos en subconjuntos sobre los cuales sepuede trabajar con mayor facilidad. En la lógica proposicional, por ejemplo, se parte el conjunto deacuerdo a los valores de un atributo en particular, entonces, todos los miembros de un subconjuntotendrán un mismo valor para dicho atributo. Dentro de este tipo de aprendizaje, encontramos la familiaTDIDT (Top-Down Induction Trees), la cual se explica con mayor detalle en la Sección 2.42.2. MINERÍA DE DATOSLa enorme cantidad de bases de datos en todas las áreas de aplicación humana, demanda nuevas ypoderosas técnicas de transformación de los datos en conocimientos útiles. Entre dichas técnicas podemosnombrar a las pertenecientes al aprendizaje automático, el análisis estadístico de datos, la visualización dedatos, y las redes neuronales. La Minería de Datos se refiere a la aplicación de técnicas de aprendizajeautomático, entre otros métodos, para encontrar importantes patrones en los datos. El descubrimiento deconocimientos pone su énfasis en el ciclo de análisis de datos en sí, analiza su ciclo de vida.La Minería de Datos busca generar información similar a la que podría producir un experto humano, queademás satisfaga el Principio de Comprensibilidad. La Minería de Datos es el proceso de descubrirconocimientos interesantes, como patrones, asociaciones, cambios, anomalías y estructuras significativas14 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentea partir de grandes cantidades de datos almacenadas en bases de datos, data warehouses, o cualquier otromedio de almacenamiento de información.La Minería de Datos es un campo en pleno desarrollo en el que se aplican métodos de varias disciplinascomo los presentes en sistemas de bases de datos, data warehousing, estadística, el AprendizajeAutomático, visualización de datos, obtención de información y computación de alta performance.Además también se utilizan métodos de las áreas de redes neuronales, reconocimiento de patrones,análisis espacial de datos, bases de datos de imágenes, procesamiento de señales y programación lógicainductiva (ILP). Numerosos especialistas señalan que la Minería de Datos necesita de la integración deenfoques de múltiples disciplinas [Mitchell, 1997].Una gran cantidad de métodos de análisis de datos han sido desarrollados en estadística. El AprendizajeAutomático ha contribuido en el área de clasificación e inducción. Las redes neuronales, por su lado, sonefectivas en la clasificación, predicción y clustering de datos. Sin embargo, con la gran cantidad de datosalmacenados en las bases de datos sobre los cuales se debe hacer la minería de datos, todos estos métodosdeben re-analizarse o escalarse para ser efectivos.Además para procesar grandes volúmenes de datos de los cuales deben extraerse patronesautomáticamente, es necesario contar con una gran capacidad computacional de procesamiento. Esnecesario, entonces, desarrollar métodos de minería de datos distribuidos, paralelos e incrementales.2.2.1. Descubrimiento de conocimientosLa Minería de Datos no debe confundirse con el descubrimiento de conocimientos (knowledge discovery),aunque muchos investigadores consideran que la Minería de Datos no es más que un paso esencial en eldescubrimiento de conocimientos. En general, un proceso de descubrimiento de conocimientos consistede una repetición iterativa de los siguientes pasos [S/A, 1999]:• Limpieza de datos (Data cleaning) procesamiento de los datos ruidosos, erróneos, faltantes oirrelevantes• Integración de datos (Data integration) integración de múltiples fuentes heterogéneas de datos enuna única fuente.• Selección de datos (Data selection) extracción de los datos relevantes al área de análisis delalmacenamiento de datos.Estado del Arte Magdalena Servente 15

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Transformación de datos (Data transformation) transformación o consolidación de los datos enformas apropiadas para la minería mediante procedimientos de agregación.• Minería de Datos: proceso esencial donde se aplican diversos métodos para extraer patrones de losdatos.• Evaluación de patrones (Pattern evaluation) identificación de patrones interesantes basándose enalgún parámetro de comparación impuesto por el usuario.• Presentación de los conocimientos (Knowledge presentation) técnicas de visualización yrepresentación de los conocimientos obtenidos.Con los sistemas de bases de datos relacionales existentes hoy en día, los cuatro procesos iniciales:limpieza, integración, selección y transformación de datos pueden realizarse mediante la construcción dedata warehouses. Los procesos de minería de datos, evaluación de patrones y presentación deconocimientos generalmente se agrupan en el proceso que se conoce como Minería de Datos. De ahí laconfusión que puede llegar a existir con el nombre.2.2.2. Problemas inherentes al proceso de aprendizajeUna de las mayores clases de exploración de datos está basada en métodos para el aprendizaje inductivosimbólico a partir de ejemplos. Dado un conjunto de ejemplos de clases de decisión diferentes yconocimientos de base, el aprendizaje inductivo genera descripciones para cada clase. En este sentidodebe enfrentarse a varios problemas como [Michalski et al, 1998]:• Aprendizaje a partir de datos incorrectos• Aprendizaje a partir de datos incompletos• Aprendizaje a partir de datos distribuidos• Aprendizaje a partir de conceptos que evolucionan a través del tiempo• Aprendizaje a partir de datos que se obtienen a través del tiempo• Aprendizaje a partir de datos subjetivos16 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Aprendizaje a partir de conceptos flexibles• Aprendizaje de conceptos en distintos niveles de generalización• Integración de descubrimientos cualitativos y cuantitativos.• Predicción cualitativaCabe destacar que muchos de estos problemas son los mismos con los que se enfrenta un sistema deAprendizaje Automático que aprende a partir de ejemplos, que pueden tener imperfecciones o puedenestar incompletos, o incluso, no ser representativos del problema que se está analizando.2.2.3. Tareas realizadas por un sistema de Minería de DatosUn sistema de Minería de Datos actual realiza una o más de las siguientes tareas:• Descripción de clases: provee una clasificación concisa y resumida de un conjunto de datos y losdistingue unos de otros. La clasificación de los datos se conoce como caracterización, y la distinciónentre ellos como comparación o discriminación.• Asociación: es el descubrimiento de relaciones de asociación o correlación en un conjunto de datos.Las asociaciones se expresan como condiciones atributo-valor y deben estar presentes varias vecesen los datos.• Clasificación: analiza un conjunto de datos de entrenamiento cuya clasificación de clase se conoce yconstruye un modelo de objetos para cada clase. Dicho modelo puede representarse con árboles dedecisión o con reglas de clasificación, que muestran las características de los datos. El modelo puedeser utilizado para la mayor comprensión de los datos existentes y para la clasificación de los datosfuturos.• Predicción: esta función de la minería predice los valores posibles de datos faltantes o la distribuciónde valores de ciertos atributos en un conjunto de objetos.• Clustering: identifica clusters en los datos, donde un cluster es una colección de datos “similares”.La similitud puede medirse mediante funciones de distancia, especificadas por los usuarios o porexpertos. La Minería de Datos trata de encontrar clusters de buena calidad que sean escalables agrandes bases de datos y a data warehouses multidimensionales.Estado del Arte Magdalena Servente 17

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Análisis de series a través del tiempo: analiza un gran conjunto de datos obtenidos con el correr deltiempo para encontrar en él regularidades y características interesantes, incluyendo la búsqueda depatrones secuenciales, periódicos, modas y desviaciones.2.2.4. Métodos de Minería de DatosLa Minería de Datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo existente a unconjunto de datos. Las herramientas existentes actualmente incluyen mecanismos para la preparación delos datos, su visualización y la interpretación de los resultados. Muchas de las herramientas funcionanbien en espacios de pocas dimensiones con datos numéricos, pero sus limitaciones comienzan a apareceren espacios de mayores dimensiones o con datos no numéricos. A continuación se presentan algunosmétodos de minería de datos que resuelven distintos problemas inherentes a la misma [Thrun et al, 1998].• Aprendizaje activo/Diseño Experimental (Active Learning/Experimental design): el aprendizajeactivo, por el lado de la Inteligencia Artificial, y el diseño experimental, por el lado de la Estadística,tratan de resolver el problema de la elección del método a aplicar durante el aprendizaje. Suponenque durante el proceso de aprendizaje, existe la oportunidad de influir sobre los datos, recordemos ladiferencia entre la exploración pasiva y la experimentación activa. El aprendizaje activo afronta elproblema de cómo explorar.• Aprendizaje acumulativo (Cumulative learning): Muchas bases de datos crecen continuamente.Tomemos por ejemplo, una base de datos sobre transacciones financieras en un banco. Aprender apartir de bases de datos de este tipo es difícil ya que los datos deben ser analizados acumulativamentea medida que se incorporan a la base. Nos encontramos entonces ante el desafío de diseñaralgoritmos que puedan incorporar nuevos datos y adaptarse a los cambios generados por laincorporación de los mismos.• Aprendizaje multitarea (Multitask learning): Muchos dominios se caracterizan por pertenecer afamilias de problemas de aprendizaje relacionados o similares. Tomemos, por ejemplo, el dominiomédico. Mientras que cada enfermedad posee su aprendizaje individual con bases de datos dedicadas,muchas enfermedades tienen causas y/o síntomas en común, sería provechoso entonces favorecer elintercambio de información entre los distintos resultados de los algoritmos.• Aprendizaje a partir de datos tabulados y no tabulados (Learning from labeled and unlabeleddata): en muchas aplicaciones el problema no está en la obtención de los datos, sino en la tabulaciónde los mismos.18 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Aprendizaje relacional (Relational Learning): en muchos problemas de aprendizaje las entidadesno se describen a partir de un conjunto estático de atributos, sino a partir de las relaciones entreentidades. En las bases de datos inteligentes encontrar patrones o relaciones entre entidades es unproblema primordial.• Aprendiendo a partir de bases de datos de gran tamaño (Learning from extremely largedatabases): muchas bases de datos son demasiado grandes como para ser leídas y procesadas por unacomputadora más de una vez. Lo cual imposibilita el uso de algoritmos que requieran múltiplespasadas sobre los datos. Debe afrontarse entonces, el desafío de encontrar algoritmos inteligentes quesean escalables eficientemente a grandes bases de datos.• Aprendiendo a partir de bases de datos extremadamente pequeñas (Learning from extremelysmall databases): en el otro extremo, existen también bases de datos que son demasiado pequeñaspara los algoritmos existentes. Por ejemplo, en robótica la cantidad de ejemplos es limitada, sinembargo, muchos de los métodos de aprendizaje actuales requieren un gran número de ejemplos.Debe encontrarse entonces un método que trabaje eficientemente con un número limitado de datos, obien, que se base en el conocimiento previo.• Aprendiendo con conocimientos previos (Learning with prior knowledge): En muchos casos, seposeen conocimientos efectivos acerca del fenómeno en estudio. Deben existir métodos capaces deincorporar conocimientos previos tanto abstractos, como diversos o inciertos.• Aprendiendo a partir de datos de distintos tipos (Learning from mixed media data): Muchosjuegos de datos contienen varios tipos de datos. Un buen ejemplo, se presenta en las bases de datosmédicas que contienen estadísticas acerca de los pacientes, gráficos, rayos X, etc. La gran mayoría delos algoritmos actuales sólo pueden trabajar con un único tipo de datos, con lo cual deben encontrarsemétodos capaces de manejar los distintos tipos o formatos de datos presentes en una base de datos.• Aprendiendo relaciones casuales (Learning casual relationships): La mayoría de los algoritmos deaprendizaje detectan la correlación entre los datos, pero son incapaces de determinar o modelar lascasualidades, y, por lo tanto, fallan al tratar de predecir algunos efectos externos. Deben diseñarse,entonces, algoritmos que incorporen las casualidades.• Visualización y Minería de Datos interactiva (Visualization and Interactive Data Mining): Enmuchos casos, la minería de datos es un proceso interactivo, en el cual el análisis de datos automáticose mezcla con las decisiones de control de un experto de campo. Deben diseñarse herramientas quecontemplen el intercambio entre estas dos áreas.Estado del Arte Magdalena Servente 19

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.2.5. Componentes de la Minería de DatosLa Minería de Datos cuenta con tres grandes componentes [Joshi, 1997]: Clustering o clasificación,Reglas de asociación y Análisis de Secuencias.En el Clustering o Clasificación se analizan los datos y se generan conjuntos de reglas que agrupen yclasifiquen los datos futuros. Debe tenerse en cuenta que en la Minería de Datos se busca obtener reglasque particionen los datos en clases predefinidas, esto se torna complicado cuando hay una gran cantidadde atributos y millones de registros.Una regla de asociación es una regla que implica o presenta ciertas relaciones entre un grupo de objetosen una base de datos. En el proceso de la Minería de Datos se obtienen varias reglas de este tipo condistintos niveles de abstracción. Nuevamente, no debemos olvidar que esto puede implicar el análisisiterativo de bases de datos transaccionales o relacionales, con millones de registros, lo cual presenta unelevado costo operativo. Por lo tanto, la obtención de reglas a partir de bases de datos relacionales otransaccionales es un importante tema de estudio.Por último, el análisis de secuencias trata de encontrar patrones que ocurren con una secuenciadeterminada. Trabaja sobre datos que aparecen en distintas transacciones – a diferencia de los datos queaparecen relacionados mediante reglas dentro de una misma transacción -.A continuación se presentan ejemplos de algoritmos de Minería de Datos existentes, de cada uno de lostipos presentados.2.2.5.1. Algoritmos de Clasificación (Classification Algorithms)En la Clasificación de Datos se desarrolla una descripción o modelo para cada una de las clases presentesen la base de datos. Existen muchos métodos de clasificación como aquellos basados en los árboles dedecisión TDIDT como el ID3 y el C4.5, los métodos estadísticos, las redes neuronales, y los conjuntosdifusos, entre otros.A continuación se describen brevemente aquellos métodos de Aprendizaje Automático que han sidoaplicados a la Minería de Datos con cierto éxito:• Algoritmos estadísticos: Muchos algoritmos estadísticos han sido utilizados por los analistas paradetectar patrones inusuales en los datos y explicar dichos patrones mediante la utilización de modelosestadísticos, como, por ejemplo, los modelos lineales. Estos métodos se han ganado su lugar yseguirán siendo utilizados en los años venideros.20 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Redes Neuronales: las redes neuronales imitan la capacidad de la mente humana para encontrarpatrones. Han sido aplicadas con éxito en aplicaciones que trabajan sobre la clasificación de losdatos.• Algoritmos genéticos: técnicas de optimización que utilizan procesos como el entrecruzamientogenético, la mutación y la selección natural en un diseño basado en los conceptos de la evoluciónnatural.• Método del vecino más cercano: es una técnica que clasifica cada registro de un conjunto de datosen base a la combinación de las clases de los k registros más similares. Generalmente se utiliza enbases de datos históricas.• Reglas de inducción: la extracción de reglas si-entonces a partir de datos de importancia estadística.• Visualización de los datos: la interpretación visual de las relaciones entre datos multidimensionales• Clasificadores basados en instancias o ejemplos: Una manera de clasificar un caso es a partir de uncaso similar cuya clase es conocida, y predecir que el caso pertenecerá a esa misma clase. Estafilosofía es la base para los sistemas basados en instancias, que clasifican nuevos casos refiriéndose acasos similares recordados. Un clasificador basado en instancias necesita teorías simbólicas. Losproblemas centrales de este tipo de sistemas se pueden resumir en tres preguntas: ¿cuáles casos deentrenamiento deben ser recordados?, ¿cómo puede medirse la similitud entre los casos?, y ¿cómodebe relacionarse el nuevo caso a los casos recordados?Los métodos de aprendizaje basados en reglas de clasificación buscan obtener reglas o árboles de decisiónque particionen un grupo de datos en clases predefinidas. Para cualquier dominio real, el espacio de datoses demasiado grande como para realizar una búsqueda exhaustiva en el mismo.En cuanto a los métodos inductivos, la elección del atributo para cada uno de los nodos se basa en laganancia de entropía generada por cada uno de los atributos. Una vez que se ha recopilado la informaciónacerca de la distribución de todas las clases, la ganancia en la entropía se calcula utilizando la teoría de lainformación o bien el índice de Gini [Joshi, 1997].2.2.5.2. Algoritmos de reglas de asociaciónUna regla de asociación es una regla que implica ciertas relaciones de asociación entre distintos objetosde una base de datos, como puede ser: “ocurren juntos” o “uno implica lo otro”. Dado un conjunto deEstado del Arte Magdalena Servente 21

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentetransacciones, donde cada transacción es un conjunto de ítems, una regla de asociación es una expresiónde la forma XY, donde X e Y son conjuntos de ítems. Un ejemplo de regla de asociación sería: “30% delas transacciones que contienen niños, también contienen pañales; 2% de las transacciones contienenambas cosas”. En este caso el 30% es el nivel de confianza de la regla y 2% es la cantidad de casos querespaldan la regla. La cuestión está en encontrar todas las reglas de asociación que satisfagan losrequerimientos de confianza mínima y máxima impuestos por el usuario.2.2.5.3. Análisis de SecuenciasEn este caso se trabaja sobre datos que tienen una cierta secuencia entre sí. Cada dato es una listaordenada de transacciones (o ítems). Generalmente, existe un tiempo de transacción asociado con cadadato. El problema consiste en encontrar patrones secuenciales de acuerdo a un límite mínimo impuestopor el usuario, dicho límite se mide en función al porcentaje de datos que contienen el patrón. Porejemplo, un patrón secuencial puede estar dado por los usuarios de un video club que alquilan “ArmaMortal”, luego “Arma Mortal 2”, “Arma Mortal 3” y finalmente “Arma Mortal 4”, lo cual no implica quetodos lo hagan en ese orden.2.3. APRENDIZAJE AUTOMÁTICO Y MINERÍA DE DATOSLa automatización del proceso de aprendizaje se conoce como Aprendizaje Automático. La Minería deDatos es un caso especial de Aprendizaje Automático donde el escenario observado es una base de datos.Los gráficos que se encuentran a continuación explican este concepto [Holsheimer, Siebes, 1994].EejemplosCcodificación de losejemplosMLFigura 2.6. Diagrama de Aprendizaje AutomáticoEn la figura 2.6, el entorno E representa el mundo real, el entorno sobre el cual se realiza el aprendizaje. Erepresenta un número finito de observaciones u objetos que son codificados en algún formato legible paraAprendizaje Automático. El conjunto de ejemplos codificados constituye el conjunto de entrenamientopara el sistema de aprendizaje automático.Por su lado, en la figura 2.7, la codificación C es reemplazada por una base de datos, que modela elentorno. Cada estado en la base de datos refleja algún estado de E, y cada transición de estados en la base22 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentede datos representa una transición de estados en E. El algoritmo utilizado para realizar la minería de datosconstruye entonces un modelo a partir de los datos en la base de datos.EejemplosBDcodificación de losejemplosDMFigura 2.7. Diagrama de Minería de DatosAunque a simple vista, la Minería de Datos parece muy similar a Aprendizaje Automático, hayimportantes diferencias que deben tenerse en cuenta. La base de datos generalmente se construye confines distintos a la Minería de Datos, con lo cual la base se diseña según los requerimientos del sistema yno según los requerimientos del algoritmo de aprendizaje.2.3.1. AplicacionesA continuación se describen algunos algoritmos de Aprendizaje Automático que han sido utilizados conéxito en la Minería de Datos. Algunos de ellos son generales y pueden ser utilizados en varios dominiosde conocimiento, mientras que otros fueron diseñados para dominios particulares.2.3.1.1. ID3Este sistema ha sido el que más impacto ha tenido en la Minería de Datos. Desarrollado en los añosochenta por Quinlan, ID3 significa Induction Decision Trees, y es un sistema de aprendizaje supervisadoque construye árboles de decisión a partir de un conjunto de ejemplos. Estos ejemplos son tuplascompuestas por varios atributos y una única clase. El dominio de cada atributo de estas tuplas estálimitado a un conjunto de valores. Las primeras versiones del ID3 generaban descripciones para dosclases: positiva y negativa. En las versiones posteriores, se eliminó esta restricción, pero se mantuvo larestricción de clases disjuntas. ID3 genera descripciones que clasifican cada uno de los ejemplos delconjunto de entrenamiento.Este sistema tiene una buena performance en un amplio rango de aplicaciones, entre las cuales podemosnombrar, aplicaciones de dominios médicos, artificiales y el análisis de juegos de ajedrez. El nivel deprecisión en la clasificación es alto. Sin embargo, el sistema no hace uso del conocimiento del dominio.Además, muchas veces los árboles son demasiado frondosos, lo cual conlleva a una difícil interpretación.En estos casos pueden ser transformados en reglas de decisión para hacerlos más comprensibles.Estado del Arte Magdalena Servente 23

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.3.1.2. C4.5El C4.5 es una extensión del ID3 que permite trabajar con valores continuos para los atributos, separandolos posibles resultados en dos ramas: una para aquellos A i N. Este algoritmo fuepropuesto por Quinlan en 1993. El algoritmo C4.5 genera un árbol de decisión a partir de los datosmediante particiones realizadas recursivamente. El árbol se construye mediante la estrategia deprofundidad-primero (depth-first). El algoritmo considera todas las pruebas posibles que pueden dividir elconjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información. Para cadaatributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles quepuede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de losvalores que toma el atributo en los datos.2.3.1.3. AQ15El AQ15 fue desarrollado por Michalski. Es un sistema de aprendizaje inductivo que genera reglas dedecisión, donde el antecedente es una fórmula lógica. Una característica particular de este sistema es lainducción constructiva (constructive induction), es decir, el uso de conocimientos del dominio paragenerar nuevos atributos que no están presentes en los datos de entrada.Al igual que el ID3, el AQ15 está diseñado para la generación de reglas fuertes, es decir, que para cadaclase, se construye una regla que cubre todos los ejemplos positivos y ningún ejemplo negativo. Elsistema soluciona el problema de los ejemplos incompletos o inconsistentes mediante un pre o postprocesamiento. En el post procesamiento, además, se reduce de forma drástica la cantidad de reglasgeneradas mediante el truncamiento de reglas, el cual no afecta la precisión de las reglas obtenidas.AQ15 ha sido testeado en dominios médicos, como el diagnóstico en la limfografía, diagnóstico de cáncerde mama y la ubicación del tumor primario. En estos casos, se obtuvieron reglas con el mismo nivel deprecisión que el de los expertos humanos. En todos los casos, los datos de entrenamiento son conjuntoschicos, de unos cientos de ejemplos.2.3.1.4. CN2El sistema CN2, desarrollado por Clark y Niblett, es una adaptación del AQ15. La gran desventaja delAQ15 es que elimina los ruidos mediante pre y post procesamiento y no durante la ejecución delalgoritmo. El objetivo del CN2 es, entonces, incorporar el manejo de datos ruidosos al algoritmo en sí.Combina entonces las técnicas de poda utilizadas en el ID3, con las técnicas de reglas condicionalesutilizadas en el AQ15.24 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEl CN2 genera reglas simples y comprensibles en dominios donde los datos pueden tener ruido.Construye reglas probabilísticas, es decir, el antecedente en cada regla cubre ejemplos positivos de unaclase, pero también puede cubrir ejemplos de otra clase en menor número. De esta forma no restringe elespacio de búsqueda únicamente a aquellas reglas inferibles a partir de los ejemplos.La performance el ID3, AQ15 y CN2 ha sido comparada en dominios médicos y artificiales. Lasestructuras de conocimiento generadas en cada caso son de similar calidad y complejidad.2.3.1.5. DBLearnEl sistema DBLearn fue diseñado por Cai, Han y Cercone y utiliza conocimientos del dominio paragenerar descripciones para subconjuntos predefinidos de una base de datos relacional. Las característicasespeciales de este sistema son su estrategia de búsqueda de abajo hacia arriba (bottom up); el uso deconocimientos del dominio como jerarquías de valores de atributos y el uso del álgebra relacional. Elconjunto de entrenamiento es una tabla de datos relacional con n-tuplas.El sistema DBLearn es relativamente simple, ya que utiliza solo dos operaciones de generalización paraconstruir los descriptores. La generalización está orientada a los atributos, lo cual limita el conjunto dedescriptores que pueden ser construidos. La performance del sistema es buena, y la complejidad en eltiempo está en el orden de los O(N logN), siendo N la cantidad inicial de tuplas.2.3.1.6. Meta-DendralEl sistema Meta-Dendral es un sistema especial para la generación de reglas de conocimiento en laestereoscopia. Esta ciencia estudia la estructura tridimensional de la molécula. El Meta-Dendral esinteresante porque utiliza un sistema de representación de conocimientos totalmente diferente a losanteriores. Al buscar generar reglas que puedan predecir dónde se romperá la estructura de una molécula,toma las estructuras moleculares como entrada.El sistema ha sido exitoso para encontrar reglas de fragmentación desconocidas hasta el momento. Sinembargo, la estrategia de búsqueda es ineficiente, ya que genera muchas reglas de decisión que luego soneliminadas en la etapa de optimización. Es muy difícil encontrar heurísticas que guíen la búsqueda y noexisten técnicas explícitas que ayuden a eliminar ruidos o a destacar casos especiales.Estado del Arte Magdalena Servente 25

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.3.1.7. RADIX/RXEl sistema RX se utiliza para el descubrimiento de relaciones en bases de datos clínicas. La diferenciaimportante con otros sistemas es que incorpora la noción de tiempo: un dato es un conjunto de ejemplosque guardan información de un paciente en diferentes momentos, y los conocimientos generados son denaturaleza causal. El sistema divide su proceso de descubrimiento en dos etapas: primero genera hipótesisy, luego, utiliza técnicas avanzadas de estadística para validarlas.El sistema RX fue utilizado en una base de reumatología y sirvió para probar hipótesis acerca de lacantidad de droga prodnisone que aumenta el colesterol en la sangre. Sin embargo, la principal desventajade este sistema es que no utiliza información del dominio para guiar la búsqueda. Una versión mejoradadel RX, el RADIX, sí lo hace.2.3.1.8. BACONEl sistema BACON utiliza algoritmos de análisis de datos para descubrir relaciones matemáticas entredatos numéricos. Ha redescubierto leyes como la ley de Ohm para circuitos eléctricos y la ley dedesplazamiento de Arquímides. Los datos de entrenamiento son numéricos y, normalmente, songeneradas en algún experimento previo. Cada tupla esta constituida por los valores de las medicionesdurante el experimento.El sistema BACON tiene varias desventajas: no considera el ruido en los datos, ni la inconsistencia o losdatos incompletos. Además, considera que todas las variables son relevantes, y explora todas lassoluciones posibles utilizando un grafo, lo cual empeora considerablemente su performance.2.3.1.9. SLIQEl algoritmo SLIQ (Supervised Learning In Quest) fue desarrollado por el equipo Quest de IBM. Estealgoritmo utiliza los árboles de decisión para clasificar grandes cantidades de datos. El uso de técnicas depre-ordenamiento en la etapa de crecimiento del árbol, evita los costos de ordenamiento en cada uno delos nodos. SLIQ mantiene una lista ordenada independiente de cada uno de los valores de los atributoscontinuos y una lista separada de cada una de las clases. Un registro en la lista ordenada de atributosconsiste en el valor del atributo y un índice a la clase correspondiente en la lista de clases. SLIQconstruye el árbol de forma ancho-primero (breadth-first). Para cada uno de los atributos busca en la listacorrespondiente y calcula los valores de entropía para cada uno de los nodos de la fronterasimultáneamente. A partir de la información obtenida se particionan los nodos de la frontera, y seexpanden para obtener una nueva frontera.26 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteAunque SLIQ trabaja con datos que pueden estar en disco mientras se ejecuta el algoritmo, necesita quecierta información resida en memoria permanentemente durante la totalidad de la ejecución del mismo.Dicha información crece proporcionalmente a la cantidad de registros de entrada, lo cual limita en granmedida la cantidad de registros de entrenamiento. Para solucionar este problema el equipo de desarrollodel Quest, ha desarrollado otro algoritmo de clasificación basado en árboles de decisión: el SPRINT(Scalable PaRallelizable INduction of decision Trees). El SPRINT elimina todas las restricciones dememoria presentes en el SLIQ.2.4 LA FAMILIA TDIDTLa familia de los Top Down Induction Trees (TDIDT) pertenece a los métodos inductivos del AprendizajeAutomático que aprenden a partir de ejemplos preclasificados. En Minería de Datos, se utiliza paramodelar las clasificaciones en los datos mediante árboles de decisión.2.4.1. Construcción de los árboles de decisiónLos árboles TDIDT, a los cuales pertenecen los generados por el ID3 y pos el C4.5, se construyen a partirdel método de Hunt. El esqueleto de este método para construir un árbol de decisión a partir de unconjunto T de datos de entrenamiento es muy simple. Sean las clases {C 1 , C 2 ,. . ., C k }. Existen tresposibilidades:1. T contiene uno o más casos, todos pertenecientes a un única clase C j :El árbol de decisión para T es una hoja identificando la clase C j .2. T no contiene ningún caso:El árbol de decisión es una hoja, pero la clase asociada debe ser determinada por informaciónque no pertenece a T. Por ejemplo, una hoja puede escogerse de acuerdo a conocimientos de basedel dominio, como ser la clase mayoritaria.3. T contiene casos pertenecientes a varias clases:En este caso, la idea es refinar T en subconjuntos de casos que tiendan, o parezcan tender haciauna colección de casos pertenecientes a una única clase. Se elige una prueba basada en un únicoEstado del Arte Magdalena Servente 27

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteatributo, que tiene uno o más resultados, mutuamente excluyentes {O 1 , O 2 ,. . ., O n }. T separticiona en los subconjuntos T 1 , T 2 ,. . ., T n donde T i contiene todos los casos de T que tienen elresultado O i para la prueba elegida. El árbol de decisión para T consiste en un nodo de decisiónidentificando la prueba, con una rama para cada resultado posible. El mecanismo de construccióndel árbol se aplica recursivamente a cada subconjunto de datos de entrenamientos, para que la i-ésima rama lleve al árbol de decisión construido por el subconjunto T i de datos de entrenamiento.2.4.1.1. Cálculo de la Ganancia de InformaciónEn los casos, en los que el conjunto T contiene ejemplos pertenecientes a distintas clases, se realiza unaprueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo. Para encontrar el“mejor” atributo, se utiliza la teoría de la información, que sostiene que la información se maximizacuando la entropía se minimiza. La entropía determina la azarosidad o desestructuración de un conjunto.Supongamos que tenemos ejemplos positivos y negativos. En este contexto la entropía del subconjunto S i ,H(S i ), puede calcularse como:H ( S ) p log p p log p (2.1)i+ + − −= −i i−i i+Donde pies la probabilidad de que un ejemplo tomado al azar de S i sea positivo. Esta probabilidadpuede calcularse como+i+ni=n + np (2.2)+i−iSiendo n la cantidad de ejemplos positivos de S i , y+ i−nila cantidad de ejemplos negativos.−+La probabilidad pise calcula en forma análoga a pi, reemplazando la cantidad de ejemplos positivospor la cantidad de ejemplos negativos, y viceversa.Generalizando la expresión (2.1) para cualquier tipo de ejemplos, obtenemos la fórmula general de laentropía:in∑H ( S ) = − p log p (2.3)i=1ii28 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEn todos los cálculos relacionados con la entropía, definimos 0log0 igual a 0.Si el atributo at divide el conjunto S en los subconjuntos S i , i = 1,2, . .. . . , n, entonces, la entropía totaldel sistema de subconjuntos será:n∑i=1( S ) ⋅ H( )H ( S,at)= P(2.4)iS iDonde H ( S i) es la entropía del subconjunto S iy ( S i)P es la probabilidad de que un ejemplopertenezca a S . Puede calcularse, utilizando los tamaños relativos de los subconjuntos, como:iP( S )SSii= (2.5)La ganancia en información puede calcularse como la disminución en entropía. Es decir:( S, at) H ( S) − H ( S at)I ,= (2.6)Donde H ( S)es el valor de la entropía a priori, antes de realizar la subdivisión, y ( S at)de la entropía del sistema de subconjuntos generados por la partición según at.H , es el valorEl uso de la entropía para evaluar el mejor atributo no es el único método existente o utilizado enAprendizaje Automático. Sin embargo, es el utilizado por Quinlan al desarrollar el ID3 y su sucesor elC4.5.2.4.1.2. Datos NuméricosLos árboles de decisión pueden generarse tanto a partir de atributos discretos como de atributosnuméricos. Cuando se trabaja con atributos discretos, la partición del conjunto según el valor de unatributo es simple. Por ejemplo, agrupamos todos los animales que tengan pico, siendo tiene_pico unatributo y sus posibles valores si y no. En el caso de los atributos numéricos esta división no es tansimple. Por ejemplo, si queremos partir los días de un mes en función a la cantidad de lluvia caída, es casiimposible que encontremos dos días con exactamente la misma cantidad de precipitaciones.Estado del Arte Magdalena Servente 29

Algoritmos TDIDT aplicados a la Minería de Datos InteligentePara solucionar este problema, puede recurrirse a la binarización. Este método consiste en formar dosrangos de valores de acuerdo al valor de un atributo, que pueden tomarse como simbólicos. Por ejemplo,si en un día hubo 100ml de lluvia, pueden crearse los intervalos [0,100) y [100, +∝) y el cálculo de laentropía se realiza como si los dos intervalos fueran los dos valores simbólicos que puede tomar elatributo.2.4.1.3. Poda de los árboles generadosExisten varias razones para la poda de los árboles generados por los métodos de TDIDT [Michalski et al,1998]. Entre ellas podemos nombrar la sobregeneralización, la evaluación de atributos poco importantes osignificativos, y el gran tamaño del árbol obtenido. En el primer caso, un árbol puede haber sidoconstruido a partir de ejemplos con ruido, con lo cual algunas ramas del árbol pueden ser engañosas. Encuanto a la evaluación de atributos no relevantes, éstos deben podarse ya que sólo agregan niveles en elárbol y no contribuyen a la ganancia de información. Por último, si el árbol obtenido es demasiadoprofundo o demasiado frondoso, se dificulta la interpretación por parte del usuario, con lo cual hubierasido lo mismo utilizar un método de caja negra.Existen dos enfoques para podar los árboles: la pre-poda (preprunning) y la post-poda (postprunning). Enel primer caso se detiene el crecimiento del árbol cuando la ganancia de información producida al dividirun conjunto no supera un umbral determinado. En la post-poda se podan algunas ramas una vez que se haterminado de construir el árbol.El primer enfoque, tiene la atracción de que no se pierde tiempo en construir una estructura que luego serásimplificada en el árbol final. El método típico en estos casos es buscar la mejor manera de partir elsubconjunto y evaluar la partición desde el punto de vista estadístico mediante la teoría de la ganancia deinformación, reducción de errores, etc. Si esta evaluación es menor que un límite predeterminado, ladivisión se descarta y el árbol para el subconjunto es simplemente la hoja más apropiada. Sin embargo,este tipo de método tiene la contra de que no es fácil detener un particionamiento en el momentoadecuado, un límite muy alto puede terminar con la partición antes de que los beneficios de particionessubsiguientes parezcan evidentes, mientras que un límite demasiado bajo resulta en una simplificacióndemasiado leve.El segundo enfoque es, entonces, el utilizado por el ID3 y el C4.5. Una vez construido el árbol se procedea su simplificación según los criterios propios de cada uno de los algoritmos.30 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.4.1.4. El Principio de Longitud de Descripción MínimaEl fin último de los sistemas de aprendizaje es aprender una “teoría” del dominio de los ejemplos, unateoría que es predictiva en el sentido de que es capaz de predecir la clase de nuevos instancias. Al hablarde teorías podemos estar refiriéndonos a árboles o reglas de decisión entre otros.Existe un principio de la ciencia conocido como Afeitadora de Occam (Occam’s Razor) [Mitchell,2000a], que determina que cuando todas las condiciones son iguales, se prefieren las teorías simples. Esdecir, la mejor teoría científica es aquella que explica todos los hechos y tiene el menor tamaño. ComoEinstein sostuvo: “Todo debe hacerse lo más simple posible, pero no más simple que eso”. ¿Cómoaplicamos la Afeitadora de Occam al Aprendizaje Automático? En el caso de estos sistemas, todas lasteorías generadas contienen errores, podemos decir que estos errores son como las excepciones a lamisma. Entonces, para asegurarnos que todas las condiciones sean iguales, debemos incluir lasexcepciones en la teoría.El Principio de Longitud de Descripción Mínima (MDL) [Joachims et al, 1995], [Mitchell, 2000b],[Quinlan, 1993d;1995], [Quinlan y Cameron-Jones, 1995] sostiene que la mejor teoría para un conjuntode datos es aquella que minimiza el tamaño de la teoría y la cantidad de información necesaria paraespecificar las excepciones. Desde el punto de vista del Aprendizaje Automático esto significa que dadoun conjunto de instancias, un sistema de aprendizaje infiere una teoría a partir de ellas. Supongamos unaanalogía con el campo de las comunicaciones: la teoría con las excepciones debe ser transmitida por uncanal perfecto. El MDL sostiene que la mejor generalización es aquella que requiere la menor cantidad debits para transmitir la generalización junto con los ejemplos a partir de la cual fue generada. Esto evita lasteorías que satisfacen los datos al extremo sobreajuste, ya que los ejemplos se transmiten también, y lasteorías demasiado extensas serán penalizadas. Por otro lado, también se puede transmitir la teoría nulaque no ayuda en lo más mínimo al transmitir los ejemplos. Entonces, pueden transmitirse tanto las teoríassimples como aquellas muy complejas y el MDL provee una forma de medir la performance de losalgoritmos basándose en los datos de entrenamiento únicamente. Esta parece ser la solución ideal alproblema de medir la performance.Veamos cómo aplicamos el principio MDL. Supongamos que un sistema de aprendizaje genera una teoríaT, basada en un conjunto de entrenamiento E, y requiere una cierta cantidad de bits L[T] para codificar lateoría. Dada la teoría, el conjunto de entrenamiento puede codificarse en una cantidad L[E/T] de bits.L[E/T] está dada por la función de ganancia de información sumando todos los miembros del conjunto deentrenamiento. La longitud de descripción total de la teoría es L[E]+L[E/T]. El principio MDLrecomienda la teoría T que minimiza esta suma.Recordemos que los algoritmos de la familia TDIDT realizan una búsqueda en el espacio de hipótesisposibles, constituido por todos los árboles de decisión posibles. Su sesgo inductivo, siguiendo el principioEstado del Arte Magdalena Servente 31

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentede la Afeitadora de Occam, es una preferencia sobre los árboles pequeños frente a los árboles másprofundos y frondosos.2.4.2. Atributos DesconocidosCuando explicamos el método de Hunt, consideramos que todos los resultados de todas las pruebas paratodos los casos eran conocidos. Dividimos el conjunto T de datos de entrenamiento en los subconjuntos{T i } según los resultados de una prueba en particular, y, una vez construido el árbol, clasificamos un casotomando la rama correspondiente al resultado de la prueba de cada nodo de decisión. Como cada pruebase basa en un único atributo, el resultado de una prueba no puede determinarse si no se conoce el valor delatributo.¿Qué pasa cuando los datos están incompletos como ocurre generalmente con cualquier conjunto de datosde la vida real? Podemos tomar dos caminos posibles ante los datos incompletos: descartar unaproporción importante de los datos por incompletos y declarar algunos casos como inclasificables, oadaptar los algoritmos para poder trabajar con valores de atributos faltantes. En la mayoría de los casos, laprimera opción es inaceptable. Para poder aplicar la segunda opción, hay tres cuestiones importantes quedeben ser tenidas en cuenta:1. Selección de una prueba en la cual la partición del conjunto de entrenamiento se realiza en base a uncriterio heurístico como ser la ganancia o la proporción de ganancia. Si dos pruebas distintas utilizanatributos con distinta cantidad de valores desconocidos, ¿cómo debe tenerse esto en cuenta al medirsu importancia relativa?2. Una vez que una prueba ha sido seleccionada, los casos de entrenamiento con valores desconocidospara los atributos relevantes no pueden ser asociados con una respuesta particular de la prueba, y, porlo tanto, no pueden asignarse a un subconjunto {T i }. ¿Cómo deben tratarse estos casos durante lapartición?3. Cuando el árbol de decisión se utiliza para clasificar un caso nuevo, ¿cómo debe proceder el sistemaal encontrarse con un valor de atributo desconocido para el nodo de decisión que está tratando deevaluar?Varios autores han tratado de resolver estos problemas, generalmente rellenando los valores desconocidoscon los valores más frecuentes. En un estudio realizado por Quinlan, [Quinlan, 1989], se comparan lassoluciones más comunes a este problema. El autor llega a la conclusión general de que existen varios32 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteenfoques que son notablemente inferiores, pero no existe ningún enfoque que sea claramente superior. Acontinuación se presenta un resumen del estudio.2.4.2.1. Estudio sobre datos con atributos desconocidos en la Inducción2.4.2.1.1. Métodos analizadosTodos los enfoques descriptos a continuación fueron implementados como variantes de un programa queconstruye un árbol de decisión utilizando la proporción de ganancia [Quinlan, 1989]. Los árbolesproducidos no fueron podados. Varios enfoques para solucionar los tres problemas planteados fueronexplorados. Cada uno de ellos tiene una letra identificatoria, tal que una combinación de letras implicauna combinación de métodos.Al evaluar una prueba basada en el atributo AI -R -S -C -Ignorar los casos del conjunto de entrenamiento con valores desconocidosReducir la ganancia de información aparente al testear A en la proporción de casos convalores desconocidos para A: si A tiene una proporción de valores desconocidos del x%, laprueba sobre A no dará información x% del tiempo.“Completar” los valores desconocidos de A antes de calcular la ganancia de A [Shapiro,1983], basándose en los valores de otros atributosCompletar los valores de A con el valor más frecuente para el atributo antes de calcular laganancia.Al partir el conjunto de entrenamiento utilizando una prueba sobre el atributo A y un caso deentrenamiento tiene un valor desconocido de A.I -S -Ignorar el casoDeterminar el valor de A utilizando el método de Shapiro y asignarlo al subconjuntocorrespondiente.C - Tratar el caso como si tuviera el valor más común de A.P -F -A -Asignar el caso a uno de los subconjuntos con probabilidad proporcional al número de casoscon valores conocidos en cada subconjunto.Asignar una fracción del caso a cada subconjunto utilizando las proporciones explicadas enel inciso anterior.Incluir el caso en todos los subconjuntosU - Desarrollar una rama separada para los casos de valores desconocidos de A.Estado del Arte Magdalena Servente 33

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteAl clasificar un caso nuevo con un valor desconocido del atributo A que debe ser evaluado.U -S -Si existe una rama especial para los valores desconocidos de A, tomarlaDeterminar el resultado más probable de A y actuar de acuerdo con ello.C - Tratar el caso como si fuese el del valor más común de A.F -H -Explorar todas las ramas, combinando los resultados para reflejar las probabilidades de losdistintos resultados.Parar en este punto y asignar el caso a la clase más frecuente.2.4.2.1.2. Casos analizados• Valores desconocidos al particionar: los resultados de las pruebas revelan una clara superioridad delRFF (asignar casos fraccionales a los subconjuntos) y una clara desventaja del RIF (ignorar los casosde entrenamiento con valores desconocidos).• Valores desconocidos al clasificar: la estrategia de parar ante los valores desconocidos dio muymalos resultados, mientras que todos las otras estrategias dieron resultados similares• Valores desconocidos al seleccionar las pruebas: ignorar los valores desconocidos dio resultadospeores que reducir la ganancia o completar los valores, pero no existió un método claramentesuperior entre estos dos últimos.2.4.2.1.3. Resultados obtenidosEl estudio se concentró en dominios con altos niveles de valores desconocidos y conjuntos deentrenamiento chicos. Este estudio proporcionó evidencia para las siguientes hipótesis:• En la evaluación de pruebas, los enfoques que ignoran los casos con valores desconocidos (y por lotanto no tienen en cuenta la proporción de desconocimiento) presentan malos resultados cuando estaproporción varía de atributo en atributo.• Cuando el conjunto de entrenamiento se divide ignorando los casos con valores desconocidos para elatributo probado, se obtienen resultados pobres (esta es la forma en que el ID3 realiza lasparticiones). El enfoque de dividir los casos entre los subconjuntos resultó muy bueno.34 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDurante la clasificación, tratar de determinar el resultado más probable de una prueba, funciona bien enalgunos dominios (aquellos en los cuales la sustitución puede realizarse con confianza), pero muy mal enotros. La combinación de todos los resultados posibles es más resilente, dando una mayor certeza en laclasificación general.2.4.3. Transformación a Reglas de DecisiónLos árboles de decisión demasiado grandes son difíciles de entender porque cada nodo debe serinterpretado dentro del contexto fijado por las ramas anteriores. Cada prueba tiene sentido, solamente, sise analiza junto con los resultados de las pruebas previas. Cada prueba en el árbol tiene un contexto únicoque es crucial a la hora de entenderla y puede ser muy difícil comprender un árbol en el cual el contextocambia demasiado seguido al recorrerlo. Además, la estructura de árbol puede hacer que un concepto enparticular quede fragmentado, lo cual hace que el árbol sea aún más difícil de entender. Existen dosmaneras de solucionar estos problemas: definir nuevos atributos que estén relacionados con las tareas ocambiar de método de representación, por ejemplo, a reglas de decisión.En cualquier árbol de decisión, las condiciones que deben satisfacerse cuando un caso se clasifica por unahoja pueden encontrarse analizando los resultados de las pruebas en el camino recorrido desde la raíz. Esmás, si el camino fuese transformado directamente en una regla de producción, dicha regla podría serexpresada como una conjunción de todas las condiciones que deben ser satisfechas para llegar a la hoja.Consecuentemente, todos los antecedentes de las reglas generadas de esta manera serían mutuamenteexcluyentes y exhaustivos.Al hablar de reglas de decisión o de producción nos referimos a una estructura de la forma:Si atributo 1 =valor X y atributo 2 =valor Y .... y atributo n =valor ZEntonces clase KDiremos que una regla cubre un caso si el caso satisface todas las condiciones en el antecedente de lamisma.Estado del Arte Magdalena Servente 35

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.5.EVALUACIÓN DE LOS MÉTODOS DE APRENDIZAJELa evaluación es la clave del progreso en la Minería de Datos. Existen varias maneras de inferirestructuras a partir de los datos; para determinar cuál es el mejor método para cada conjunto de datos,debe existir una manera de evaluar los métodos de aprendizaje y compararlos entre sí.Si se cuenta con una gran cantidad de datos, la evaluación no es problema: se genera un modelo a partirde un conjunto grande de entrenamiento y, luego, se lo prueba con otro gran conjunto de datos. Sinembargo, aunque la Minería de Datos implica por su definición trabajar con grandes cantidades de datos,los conjuntos de datos de buena calidad son pocos. Los datos de entrenamiento deben ser cuidadosamentegenerados y analizados por expertos humanos, un recurso que escasea.Existen varios indicadores de la performance de un algoritmo de aprendizaje. Algunos de ellos sedescriben a continuación [Michalski et al, 1998]:• Precisión: cantidad de ejemplos positivos y negativos evaluados correctamente. Algunas veces, esimportante distinguir entre dos tipos de errores: los ejemplos positivos clasificados como negativos(errores de omisión) y viceversa (errores de comisión). Estos dos tipos de errores nos ayudan adeterminar si los conceptos aprendidos son demasiado generales o demasiado específicos. Para queun sistema sea preciso, es necesario que genere descripciones que sean consistentes (no cubranningún ejemplo negativo) y que sean completas (cubran todos los ejemplos positivos).• Eficiencia: un sistema debe ser capaz de generar descripciones correctas con un número mínimo deejemplos. Un instructor no siempre puede dotar al sistema de una cantidad infinita de ejemplos, y lavelocidad en el aprendizaje es un indicador de inteligencia. Dentro de la eficiencia, debemos evaluartambién los requerimientos computacionales. Estos se miden en función a la cantidad de tiempo yrecursos que un sistema necesita para llegar a una buena descripción.• Comprensibilidad: es importante que los conceptos generados sean comprensibles al usuario, yaque el fin último de estos sistemas es que el usuario aprenda algo de ellos.• Robustez: contra el ruido y contra los ejemplos incompletos. Cada sistema maneja estos dosproblemas de forma diferente, con lo cual debe evaluarse en cada sistema en particular.• Requerimientos especiales: en algunos dominios, se requiere que un sistema aprenda a medida quellegan los ejemplos. Esto se conoce como aprendizaje incremental y es, especialmente, importante enaquellas áreas en que los conceptos evolucionan, cambian su significado a través del tiempo.36 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2.5.1 Evaluación en la familia TDIDTPara los problemas de clasificación, como los de la familia TDIDT, es natural medir la performance delclasificador con una proporción de error. El clasificador predice la clase de cada instancia: si lapredicción es correcta, estamos ante un éxito; si no lo es, estamos ante un error. La proporción de error,entonces, es simplemente la cantidad de errores sobre la cantidad total de instancias clasificadas.Por supuesto, lo que nos interesa es estimar la proporción de errores sobre los nuevos datos y no sobre losdatos de entrenamiento, los cuales ya están clasificados. ¿Podemos decir que la proporción de errorestimada a partir de los datos de entrenamiento es correcta para los datos futuros? No, si los datos sobrelos que se estimó el error fueron utilizados al generar el clasificador. La proporción de error sobre losdatos de entrenamiento no es un buen indicador de los errores futuros; como el clasificador se generó apartir de estos datos, la proporción de error es subjetiva y totalmente optimista. La proporción de errorgenerada a partir de los datos de entrenamiento se conoce como error de sustitución, ya que se calcula alsustituir las instancias en un clasificador que fue construido a partir de ellas. A pesar de que no es un buenestimador para la predicción de futuros errores, es muy útil conocerlo.Para predecir la performance del clasificador en los datos futuros, necesitamos evaluar la proporción deerror sobre datos no utilizados durante la construcción del mismo. El conjunto independiente de datosutilizado con este propósito es el conjunto de prueba. Es esencial que el conjunto de prueba no haya sidoutilizado para nada en la generación del clasificador. Entonces, aquellos esquemas en que la construcciónse realiza en dos etapas o requieren probar el clasificador, trabajan con dos conjuntos de datos: el deentrenamiento y el de prueba.Podemos decir que a mayor cantidad de datos, mejor clasificador y mejor estimador de error. El problemaestá cuando hay una pequeña cantidad de datos de entrenamiento. En muchas situaciones, los datos deentrenamiento y prueba deben clasificarse manualmente. Debemos encontrar la forma de encontrar unbuen estimador de error, aún cuando los datos de prueba escasean. A continuación, se explican variosmétodos para evaluar los algoritmos de clasificación.2.5.2. Métodos de evaluación2.5.2.1. Evaluación Cruzada (Cross-Validation)Cuando existe una cantidad limitada de datos de entrenamiento y prueba, puede aplicarse el método deretención (holdout) para estimar la proporción de error [Witten y Frank, 2000]. Este método reserva unacierta cantidad de datos al azar para prueba y utiliza el resto para el entrenamiento. En general, se reservaun tercio para prueba y se utilizan dos tercios como datos de entrenamiento.Estado del Arte Magdalena Servente 37

Algoritmos TDIDT aplicados a la Minería de Datos InteligentePor supuesto, siempre cabe la posibilidad de que los datos utilizados para entrenamiento y prueba no seanrepresentativos de los datos sobre los que se utilizará el modelo posteriormente. En general, no se puedeafirmar si un conjunto es representativo o no, pero existe una prueba muy simple que vale la penarealizar: cada una de las clases del conjunto total de datos debería estar representada en la mismaproporción en los datos de entrenamiento y prueba, y esta proporción debería ser similar a la que sepresentará cuando se aplique el modelo generado al caso real. Supongamos que todos los ejemplos de unaclase determinada no entran en el conjunto de entrenamiento, el clasificador generado será incorrecto. Altrabajar con la hipótesis del Universo Cerrado, no podemos pretender que clasifique correctamente losmiembros de una clase que no sabía que existía. Si en el conjunto de prueba hay datos de esa clase, laproporción de error obtenida será muy grande. Entonces, al dividir al azar los datos preclasificados entrelos conjuntos de entrenamiento y prueba, debemos garantizar que cada clase esté correctamenterepresentada tanto en los datos de prueba como en los de entrenamiento. Este procedimiento se conocecomo estratificación (stratification), y podemos hablar de una retención estratificada.Una manera de evitar la tendencia introducida por los datos retenidos, es repetir el proceso completo(entrenamiento y prueba) varias veces con distintas divisiones de los datos. En cada iteración, una mismaproporción de los datos se retiene al azar para las pruebas y el resto se utiliza para el entrenamiento. Lasproporciones de error obtenidas en las múltiples iteraciones se promedian para obtener una proporción deerror general. Este método se conoce como retención repetida (repeated holdout).En un procedimiento de retención general podríamos elegir cambiar los roles de los datos deentrenamiento y de prueba entre sí. No obstante, esto es factible únicamente si trabajamos con unaproporción 50:50, lo cual no es ideal ya que conviene utilizar más del 50% de los datos para elentrenamiento. Para solucionar este problema utilizamos una variación del método estadístico devalidación cruzada (cross-validation).En la validación cruzada, se determina con anterioridad una cierta cantidad de pliegos o particiones de losdatos. Supongamos que utilizamos tres, es decir, los datos se dividen al azar en tres particiones deaproximadamente la misma cantidad, y cada una a su turno se utiliza para prueba mientras que las otrasdos se utilizan para entrenamiento. Por lo tanto, utilizamos un tercio para prueba y dos tercios paraentrenamiento, y repetimos el procedimiento tres veces. Las tres proporciones de error obtenidas sepromedian para llegar a una proporción de error general. Este procedimiento conocido como validacióncruzada de tres pliegues (threefold cross-validation), puede trabajar con datos estratificados, en cuyo casosería validación cruzada de tres pliegues estratificada.Podemos generalizar el método para llegar a una validación cruzada de n pliegues, estratificada o no. Elcaso más utilizado para predecir la proporción de error de una técnica de aprendizaje es utilizar unavalidación cruzada de diez pliegues. Además, las pruebas han demostrado que el uso de la estratificaciónmejora los resultados levemente [Witten y Frank, 2000]. Utilizar una validación cruzada de diez plieguespuede no ser suficiente para obtener un buen estimador de la proporción de error. Distintas validaciones38 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecruzadas de diez pliegues dan distintos resultados dado que la división en pliegues se realiza al azar. Laestratificación reduce la variación entre los resultados pero no la elimina. Si se quiere obtener unaestimación de la proporción de error muy precisa, generalmente, se repite la validación cruzada de diezpliegues diez veces y se promedian los resultados. Esto implica invocar al algoritmo de aprendizaje cienveces con conjuntos de datos del tamaño del 90% del conjunto original. Obtener una buena medida de laperformance es un método que consume grandes recursos computacionales.2.5.2.2 Dejar-uno-afuera (Leave-one-out)La validación cruzada de diez pliegues es una manera normalmente utilizada para estimar la proporciónde error, pero no es la única. Existen otras técnicas bastante populares como la de dejar-uno-afuera. Estatécnica es simplemente una validación cruzada de n pliegues donde n es el número de instancias delconjunto de datos. Por turnos, cada una de las instancias se deja afuera y se entrena el clasificador con elresto de las instancias. Se lo evalúa según el resultado de la clasificación de la instancia que habíaquedado afuera. Los resultados de las n evaluaciones luego se promedian para determinar la proporciónde error.Este procedimiento es atractivo por dos razones [Witten y Frank, 2000]. Primero, se utiliza la mayorcantidad de ejemplos posibles para el entrenamiento, lo cual se presume incrementa la posibilidad de queel clasificador sea correcto. Segundo, el procedimiento es determinístico: no se parten los datos al azar.Además, no tiene sentido repetir el procedimiento diez ni cien veces, ya que siempre se obtendrá elmismo resultado. Debe tenerse en cuenta que dado el alto costo computacional de aplicar este método, noes factible utilizarlo para grandes conjunto de datos. Sin embargo, este método es el mejor para pequeñosconjuntos de datos porque, en cierta medida, evalúa todas las posibilidades.2.5.2.3. BootstrapEste método está basado en el procedimiento estadístico de obtener muestras con sustitución. En losmétodos anteriores, cuando se tomaba una muestra de los datos de entrenamiento o de prueba, se lo hacíasin reemplazo. Es decir, la misma instancia, una vez seleccionada, no podía seleccionarse nuevamente. Lamayoría de las técnicas de aprendizaje pueden, no obstante, utilizar la misma instancia dos veces, y elhecho de repetirse genera una diferencia.La idea del bootstrap es tomar muestras del conjunto de datos con remplazo para formar un conjunto deentrenamiento. Para ello, un conjunto de n instancias se muestrea n veces, con reemplazo, y se obtieneotro conjunto de datos de n instancias. Como algunas instancias del segundo conjunto estarán repetidas,Estado del Arte Magdalena Servente 39

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentedeben existir algunas instancias del conjunto original que no fueron seleccionadas. Utilizaremos estasinstancias para el conjunto de prueba.La probabilidad de que una instancia particular sea elegida para el conjunto de entrenamiento es de 1/n, y,por lo tanto, hay un 1-1/n de probabilidad de que no sea elegida. Si multiplicamos esto según las noportunidades de ser elegida, obtenemos la siguiente probabilidad de que no sea escogida:⎛ 1 ⎞⎜1-⎟⎝ n ⎠n= e-1= 0.368Entonces, un conjunto de datos lo suficientemente grande contendrá un 36.8% de instancias de prueba yun 63.2% de entrenamiento. Esta es la razón por la cual este método se conoce como el 0.632 bootstrap.El error estimado sobre el conjunto de prueba será pesimista porque el clasificador tiene en cuenta sólo el63% de los datos del conjunto original, lo cual es poco frente al 90% de la validación cruzada de diezpliegues. Para compensar el error del conjunto de entrenamiento se combina con el error en el conjunto deprueba de la siguiente manera:e = 0.632×e + 0.368×pruebae entrenamientoLuego, todo el proceso de bootstrap se repite varias veces, y todos los estimadores de error se promedian.2.5.3. Estimación del costoHasta ahora no hemos considerado el costo de tomar malas decisiones y malas clasificaciones. Laoptimización de las proporciones de clasificación sin considerar el costo de los errores, generalmentelleva a resultados extraños. Existe un ejemplo famoso de un sistema de inducción utilizado para predecirlos períodos fértiles de las vacas en un tambo. Las vacas se controlaron con un identificador electrónicoen la oreja, y otros atributos como el volumen de leche y su composición química. En las primeraspruebas del sistema de aprendizaje automático, los resultados afirmaban que las vacas nunca estaban en elperíodo fértil. El período menstrual de las vacas es similar al de los humanos, con lo cual la reglagenerada era correcta el 97% de las veces, un grado de precisión impresionante para el dominio de laagricultura. Sin embargo, lo que se buscaba eran reglas que predijeran cuando una vaca estaba fértil y nocuando no lo estaba, con lo cual, los costos de los dos casos de error son distintos. La evaluación porexactitud en la clasificación asume costos iguales por naturaleza.40 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSi los costos son conocidos, pueden incluirse en el análisis de los métodos. Restringiremos nuestroanálisis a los casos que tienen clases sí y no únicamente. Los cuatro resultados posibles de una predicciónpueden listarse en una matriz de confusión como la que se muestra a continuación.Clase predichaClase verdaderaSíNoSí Verdadero positivo Falso NegativoNo Falso Positivo Verdadero NegativoLos verdaderos positivos y verdaderos negativos son los casos sin error. Los falsos positivoscorresponden a aquellas instancias negativas que fueron clasificadas como positivas, mientras que losfalsos negativos son aquellas instancias clasificadas como negativas cuando en realidad son positivas.Estos dos casos de errores generalmente tienen distintos costos, como los casos clasificadoscorrectamente tienen distintos beneficios. El hecho de pensar en el costo genera mejores decisiones.No obstante, la mayoría de los algoritmos de aprendizaje automático no tienen en cuenta el costo alaprender. Existen, sin embargo, dos maneras de transformarlo fácilmente. La primera idea paratransformar un clasificador para que tome en cuenta el costo, es variar la cantidad de ejemplos positivos ynegativos en los datos de entrenamiento de acuerdo a la importancia de cada uno de los errores. Otra ideaes ponderar las instancias. Por ejemplo, al generar un árbol de decisión, una instancia puede dividirse enpartes con un esquema de ponderación que indique la proporción con que debe tomarse cada rama.Estado del Arte Magdalena Servente 41

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente42 Magdalena Servente Estado del Arte

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 3DESCRIPCIÓN DEL PROBLEMAEn este capítulo se presenta el contexto de nuestro problema de interés (Sección 3.1) y lascuestiones que los algoritmos ID3 y C4.5 pertenecientes a la familia TDIDT deben resolver(Sección 3.2).3.1. CONTEXTO DEL PROBLEMAAl haberse tornado económico el almacenamiento de datos en medios físicos y al tornarse relativamentefácil y/o accesible la recolección de dichos datos, las bases de datos crecen en forma desmesurada. Hoyen día se recolectan datos simplemente por estar al alcance de la mano, sin tener en cuenta su importancialógica o práctica, o sin siquiera saber si son importantes en algún sentido. El almacenamiento masivo deinformación hace que la Minería de Datos tenga una importancia cada vez mayor. El análisis de los datosque se recolectan actualmente para toda actividad humana y para cualquier evento o hecho del universo,excede las capacidades de una persona.Existen muchos tipos de análisis y muchos tipos de resultados obtenibles. Por ejemplo, podemos realizarun análisis estadístico sobre la distribución de una población de ardillas en un bosque a lo largo de losaños; u obtener la varianza y desviación estándar de los depósitos japoneses en el mercado americano dela última década; o realizar un análisis de componentes para un determinado experimento físico, entreotros.Los métodos nombrados hasta ahora son esencialmente cuantitativos. Sin embargo, ¿qué pasa cuando másallá de los modelos matemáticos encerrados en los datos, nos interesan los modelos lógicos? ¿Cuándomás allá de las direcciones para hacer un mailing de la base de personas, nos interesa hacer un mailingsólo a los potenciales clientes? ¿Cómo distinguimos a los potenciales clientes del resto de la gente? ¿Quécaracterísticas tienen en común? ¿Qué datos los distinguen? Cuando el análisis de los datos que estamosbuscando excede los alcances de un modelo cuantitativo y está orientado hacia una descripción cualitativade los datos, debemos utilizar los algoritmos inteligentes.Estos algoritmos del Aprendizaje Automático están orientados hacia el desarrollo de descripcionessimbólicas de los datos que puedan caracterizar a uno o más conceptos, diferenciar entre clases deDescripción del Problema Magdalena Servente 43

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteconceptos y describir porqué razón un objeto pertenece a una clase y no a otra. Con este tipo dealgoritmos nuestro problema del análisis de los potenciales clientes estaría resuelto.Existen muchos tipos de algoritmos de Aprendizaje Automático; no obstante, los más útiles para nosotrosson aquellos que no quedan encerrados en el “cerebro” de la computadora, sino que pueden adaptarse anuestra forma de pensar. Si el resultado de realizar Minería de Datos inteligente sobre una base es una redneuronal, ésta puede ser muy útil para clasificar nuevos ejemplos, en la medida en que sean clasificadospor medio de un programa entrenado para ello. Una persona jamás será capaz de aplicar rápida yefectivamente una red neuronal u otro modelo similar para clasificar distintos datos. En cambio si lapersona se encuentra ante un árbol de decisión o un conjunto de reglas de decisión que debe aplicar enorden como resultado de la Minería, la clasificación del nuevo caso es tan fácil como la lectura del árboldesde la raíz hasta las hojas.Este tipo de modelo de datos que representa los conceptos inherentes y ocultos en los datos, de forma talque son fáciles de interpretar, utilizar e incorporar para la persona humana son los que más enriquecennuestro conocimiento y, como tales, aquellos sobre los cuales focalizaremos nuestra atención.En las bases de datos, las entidades se caracterizan, generalmente, por un conjunto de atributos que lasdescriben. Los atributos pueden ser tanto discretos como continuos, pero lo importante es que todas lasentidades están descriptas por el mismo grupo de atributos. En los problemas de clasificación, un atributoparticular, conocido como clase, describe al tipo de concepto.3.2. APLICACIÓN DE LOS ALGORITMOS DE LA FAMILIATDIDT A LA MINERÍA DE DATOSEn este contexto se plantea la siguiente cuestión:¿En qué medida los algoritmos de la familia TDIDT pueden usarse para generar modelos válidos en losproblemas de clasificación?Analizar la aplicación de todos los Algoritmos Inteligentes a la Minería de Datos excedería los alcancesde este trabajo; por ende, vamos a centrar nuestro análisis en aquellos algoritmos que generan árboles yreglas de decisión que son modelos que un ser humano puede interpretar y aplicar fácilmente. Un buenmodelo de datos para clasificar fenómenos meteorológicos descriptos en función de varias medidasambientales tomadas en los días previos, pueden ayudar a un meteorólogo a determinar si habrá sol,lloverá, o habrá un tornado.44 Magdalena Servente Descripción del Problema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDe esta manera la cuestión previa se reformula en las siguientes:Cuestión 1:¿Qué tipos de sistemas generan como resultado árboles de decisión?Cuestión 2:¿Qué condiciones deben cumplir los datos para que su análisis con el ID3 o el C4.5 sea útily válido?Cuestión 3:¿Qué tan fácil es para un humano trabajar con estos algoritmos?Cuestión 4:¿Cuáles son los resultados del sistema?Cuestión 5:¿Cómo podemos medir la calidad de los resultados obtenidos?Descripción del Problema Magdalena Servente 45

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente46 Magdalena Servente Descripción del Problema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 4SOLUCIÓN PROPUESTAEn este capítulo se presentan todos los aspectos de la solución propuesta. Para ello se describenlas características generales de la misma (Sección 4.1): el marco teórico (Sección 4.1.1), lascondiciones que deben cumplir los datos sobre los que se realiza la Minería de Datos (Sección4.1.2) y los tipos de resultados obtenidos (Sección 4.1.3). En la Sección 4.2 se presenta unadescripción general de los algoritmos ID3 y C4.5 que se utilizan para estudiar el problema. Seexplica cómo realizar la división de los datos de entrada (Sección 4.2.1) y la elección del criteriode división (Sección 4.2.1.1). Luego, se presenta una descripción detallada del algoritmo ID3(Sección 4.3.1) y de sus limitaciones (Sección 4.3.2). A modo de ejemplo, se muestra lautilización del ID3 para generar un árbol y reglas de decisión (Sección 4.3.1.5). También sedetalla el algoritmo C4.5 (Sección 4.4) y sus características particulares (Sección 4.4.2), lascuales lo diferencian del ID3, resaltando la poda de los árboles de decisión (Sección 4.4.3) y laestimación de errores en dichos árboles (Sección 4.4.4). En la sección 4.4.5 se ejemplifican losmétodos anteriores. La generalización de las reglas de decisión realizada por el C4.5 se explicaen la sección 4.4.6. A continuación, se detalla el diseño del sistema integrador utilizado paraestudiar el éxito de la solución propuesta (Sección 4.5). Para este sistema se presenta unadescripción general (Sección 4.5.1) y el diseño de las secciones del sistema para el ID3 (Sección4.5.2.1) y para el C4.5 (Sección 4.5.2.2)La mayoría de las aplicaciones de la Inteligencia Artificial a tareas de importancia práctica construyen unmodelo de conocimiento utilizable por un experto humano. En algunos casos, la tarea que el expertorealiza es una clasificación, es decir, asigna objetos a categorías o clases determinadas según suspropiedades [Quinlan 1993d]. En un modelo de clasificación, la conexión entre clases y propiedadespuede definirse utilizando desde un simple diagrama de flujo hasta un manual de procedimientoscomplejo y desestructurado. Si restringimos nuestra discusión a modelos ejecutables, es decir, a aquellosque pueden ser representados como programas de computación, existen dos maneras muy diferentes enlas que se puede construir un modelo. Por un lado, el modelo puede obtenerse a partir de entrevistasrelevantes con uno o más expertos. Por otro lado, si se cuenta con clasificaciones almacenadas conanterioridad, éstas pueden ser examinadas para construir un modelo inductivo a partir de ellas, medianteuna generalización de ejemplos específicos. Los sistemas ID3 y C4.5 pertenecen a este segundo grupo[Blockeel y De Raedt, 1997].Solución Propuesta Magdalena Servente 47

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.1. CARACTERÍSTICAS GENERALES4.1.1. Marco teóricoSi intentamos plantear el problema de aprendizaje de un modelo de datos a partir de ejemplos desde unmarco teórico, nos encontramos ante el siguiente esquema [Blockeel y De Raedt, 1997]:Dados:• un conjunto C de clases,• un conjunto E de ejemplos preclasificadosEncontrar:Una hipótesis H (conjunto de cláusulas) tal que:∀ e ∈ E: H ∩ e = c ∧ H ∩ e ≠ c’ (4.1)Donde c es la clase del ejemplo e y c’ ∈ C-{c}Presentar los resultados obtenidos como:• un árbol de decisión,• un conjunto de reglas de decisión.El sistema generará un árbol de decisión fruto de la naturaleza en sí de los algoritmos de la familiaTDIDT. El árbol de inducción resultante será construido desde raíz hacia las hojas (top-down). El modelogenerado es muy útil para el usuario ya que permite una fácil visualización de los resultados. Además,transformaremos el árbol a reglas de decisión que pueden ser utilizadas por otros programas declasificación o ser transformadas en sentencias SQL para clasificar nuevos datos rápidamente.48 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.1.2. Datos de EntradaAntes de analizar la familia TDIDT debemos tener en cuenta que no todas las tareas de clasificación sonapropiadas para este enfoque inductivo, a continuación se listan los requerimientos que deben cumplirse[Mitchell, 1997], [Quinlan, 1986; 1993b]:• Descripciones de atributo-valor (Attriute-value description): los datos a ser analizados debenpoder expresarse como un archivo plano, es decir, toda la información de un objeto o caso debepoder expresarse en términos de una colección fija de propiedades o atributos 2 . Cada atributo puedeser discreto o numérico, pero los atributos utilizados para describir un caso no pueden variar de uncaso a otro. Esto restringe los dominios de aplicación en los cuales los objetos tienen inherentementeatributos variables. El hecho de que los atributos no puedan variar de un caso a otro, no restringeaquellos casos en los cuales los valores de algunos atributos son desconocidos.• Clases predefinidas: las categorías a las cuales se asignan los casos deben estar establecidas deantemano. Esto significa que los algoritmos se aplican sobre un conjunto de datos de entrenamientopreviamente clasificados, del tipo {valor_atributo 1 , valor_atributo 2 , ...., valor_atributo n , clase k }. Enla terminología del Aprendizaje Automático, esto se conoce como aprendizaje supervisado, encontraposición al aprendizaje no supervisado en el cual la agrupación de casos se encuentra mediantey durante el análisis.• Clases discretas y disjuntas: las clases a las cuales se asignan los casos deben ser totalmentedisjuntas: un caso pertenece o no pertenece a una clase, pero no puede pertenecer a dos clases a lavez. Además, deben existir muchos más casos que clases para que el modelo generado sea válido enel dominio analizado. Por otro lado, dado la naturaleza de los árboles de decisión, las clases deben serdiscretas o discretizarse en caso de ser continuas.• Datos suficientes: los patrones generados por la generalización inductiva no serán válidos si no selos pueden distinguir de las casualidades. Como esta diferenciación se basa generalmente en pruebasestadísticas, deben existir casos suficientes para que dichas pruebas sean efectivas. La cantidad dedatos requeridos está afectada por factores como la cantidad de propiedades y clases, y lacomplejidad del modelo de clasificación; a medida que estos se incrementan, se necesitan más datospara construir un modelo confiable.2 El hecho de que los datos deben poder expresarse como un archivo plano, no restringe la aplicación del ID3 o del C4.5 a una únicatabla de una base de datos, sino que para aplicarse a múltiples tablas, éstas deben ser desnormalizadas hasta obtener una tabla conlos atributos que se desea analizar.Solución Propuesta Magdalena Servente 49

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Los datos de entrenamiento pueden contener errores: según Mitchell, los métodos de aprendizajeutilizando árboles de decisión son robustos frente a los errores, tanto en los valores de las clasescomo en los valores de los atributos de los datos de entrenamiento [Mitchell 1997].• Los datos de entrenamiento pueden contener valores de atributos faltantes: los métodos de lafamilia TDIDT pueden utilizarse aún cuando no se conocen todos los valores de todos los atributosde los datos de entrenamiento. El tratamiento de valores faltantes varía de un algoritmo a otro y seráexplicado para el ID3 en la sección 4.3.1.3 y para el C4.5 en la sección 4.4.2.2.• Modelos lógicos generados: los programas sólo construyen clasificadores que pueden serexpresados como árboles de decisión o como un conjunto de reglas de producción. Estos modelosrestringen las descripciones de clases a una expresión lógica cuyas primitivas son afirmacionesacerca de los valores de atributos particulares. La expresión lógica representada por un árbol dedecisión es una disyunción de conjunciones. Todos aquellos casos que requieran un modelo de otraíndole no podrán ser analizados por los algoritmos ID3 o C4.5.4.1.3. Resultados Generados4.1.3.1. Características de los árboles de decisiónLos árboles de decisión representan una estructura de datos que organiza eficazmente los descriptores. Seconstruye un árbol de forma tal que en cada nodo se realiza una prueba sobre el valor de los descriptoresy de acuerdo con la respuesta se va descendiendo en las ramas, hasta llegar al final del camino donde seencuentra el valor del clasificador. Se puede analizar un árbol de decisión como una caja negra en funciónde cuyos parámetros (descriptores) se obtiene un cierto valor del clasificador.EntradaEntrada: p1, p2Nodosdescriptoresd1(p1)F(d1(p1),d2(p2))=cd2(p2)cccHojas o Nodos declasificadoresSalida: cSalidaFigura 4.1: Estructura de un árbol de decisión50 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteUn árbol de decisión puede analizarse como una disyunción de conjunciones. Cada camino desde la raízhasta las hojas representa una conjunción, y todos los caminos son alternativos, es decir, sondisyunciones.4.1.3.2. Características de las reglas de decisiónLas reglas de decisión o de producción son una alternativa a los árboles de decisión, y todo árbol dedecisión puede llevarse a reglas de este tipo [Witten y Frank, 2000], [Korab, 1997], [Blurock, 1996].Antecedente => ConsecuenteDonde el antecedente es una conjunción entre distintas pruebas de valor sobre los valores de los atributos;y el consecuente es una clase para todos los casos que satisfagan el antecedente. Por ejemplo,Si atributo 1 =”valor a” y atributo 2 = “valor y”, entonces Clase KLas reglas de decisión se presentan en orden, y deben interpretarse de esa manera. El orden determinacuáles reglas deben ejecutarse primero. Al clasificar un nuevo caso se avanza en la lista hasta llegar a unantecedente que sea satisfecho por el caso, entonces la clase del caso es la correspondiente al consecuentede dicha regla. El C4.5 en particular, agregar una última regla a la lista, ésta no tiene antecedente, es laregla con la clase por defecto, es decir, si el caso no satisfizo ninguna de las reglas anteriores, entonces esde la clase indicada por la última regla que no tiene antecedente.En el caso de las reglas de decisión, agregar una nueva regla implica simplemente añadirla a la lista dereglas sin necesidad de hacer cambios de estructura, mientras que agregar una nueva regla en un árbolimplicaría rehacer la estructura del mismo.4.1.3.3. Presentación de los resultadosTanto el ID3 como el C4.5 generan un clasificador de la forma de un árbol de decisión, cuya estructura es[Quinlan 1993d]:• Una hoja, indicando una clase, oSolución Propuesta Magdalena Servente 51

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Un nodo de decisión que especifica alguna prueba a ser realizada sobre un único atributo, con unarama y subárbol para cada valor posible de la prueba.El árbol de decisión generado por el C4.5 cuenta con varias características particulares: cada hoja tieneasociados dos números, que indican el número de casos de entrenamientos cubiertos por cada hoja y lacantidad de ellos clasificados erróneamente por la hoja. Es en cierta manera, un estimador del éxito delárbol sobre los casos de entrenamiento. El ID3, en cambio, no clasifica erróneamente a los datos deentrenamiento, con lo cual no son necesarios este tipo de indicadores. Es por ello, que este algoritmo, adiferencia del C4.5, corre el riesgo de caer en sobreajuste.El propósito de construir modelos de clasificación no se limita al desarrollo de predictores precisos,también es esencial que el modelo construido sea comprensible para los seres humanos. Michie critica alID3 al sostener que los resultados recientes demuestran que los programas construidos sobre la base desistemas tales como el ID3 pueden ser considerados, de alguna manera, “super-programas” y al mismotiempo ser incomprensibles para las personas. [Michie 1986, p.233] Se han estudiado varias maneras desimplificar los árboles de decisión. Por ejemplo, en el sistema integrado propuesto, los árboles generadospor el C4.5 como por el ID3 se transforman en un conjunto de reglas de producción o decisión, unformato que parece más comprensible que los árboles, cuando estos últimos son demasiado extensos ofrondosos.4.2. DESCRIPCIÓN GENERAL DE LOS ALGORITMOSEl algoritmo principal de los sistemas de la familia TDIDT, a la cual pertenecen el ID3 y su descendienteel C4.5, es el proceso de generación de un árbol de decisión inicial a partir de un conjunto de datos deentrenamiento. La idea original está basada en un trabajo de Hoveland y Hunt de los años 50, culminadoen el libro Experiments in Induction [Hunt et al, 1966] que describe varios experimentos con variasimplementaciones de sistemas de aprendizaje de conceptos (concept learning systems - CLS).4.2.1. División de los datosRecordemos que el método “divide y reinarás” realiza en cada paso una partición de los datos del nodosegún una prueba realizada sobre el “mejor” atributo. Cualquier prueba que divida a T en una manera notrivial, tal que al menos dos subconjuntos distintos {T i } no estén vacíos, eventualmente resultará en unapartición de subconjuntos de una única clase, aún cuando la mayoría de los subconjuntos contengan unsolo ejemplo. Sin embargo, el proceso de construcción del árbol no apunta meramente a encontrarcualquier partición de este tipo, sino a encontrar un árbol que revele una estructura del dominio y, por lo52 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentetanto, tenga poder predictivo. Para ello, necesitamos un número importante de casos en cada hoja o, dichode otra manera, la partición debe tener la menor cantidad de clases posibles. En el caso ideal, nos gustaríaelegir en cada paso la prueba que genere el árbol más pequeño.Entonces, estamos buscando un árbol de decisión compacto que sea consistente con los datos deentrenamiento. Podríamos explorar todos los árboles posibles y elegir el más simple.Desafortunadamente, un número exponencial de árboles debería ser analizado. El problema de encontrarel árbol de decisión más pequeño consistente con un conjunto de entrenamiento es de complejidad NPcompleta.La mayoría de los métodos de construcción de árboles de decisión, incluyendo el C4.5 y el ID3, nopermiten volver a estados anteriores, es decir, son algoritmos golosos sin vuelta atrás. Una vez que se haescogido una prueba para particionar el conjunto actual, típicamente basándose en la maximización dealguna medida local de progreso, la partición se concreta y las consecuencias de una elección alternativano se exploran. Por este motivo, la elección debe ser bien realizada.4.2.1.1. Elección del criterio de divisiónPara realizar la división de los datos en cada paso, Quinlan propone la utilización de los métodos de laTeoría de la Información. En un principio, el ID3 utilizaba la ganancia como criterio de división. Sinembargo, a partir de numerosas pruebas se descubrió que este criterio no era efectivo en todos los casos yse obtenían mejores resultados si se normalizaba el criterio en cada paso. Por lo tanto, comenzó autilizarse la ganancia de información, con mayor éxito. El C4.5 también utiliza este último criterio pararealizar la división de los casos. Quinlan afirma que en su opinión el criterio de proporción de gananciaes robusto y generalmente da resultados más consistentes que el criterio de ganancia [Quinlan 1988b].La solución propuesta permite la utilización de ambos criterios. Se estudiarán y compararán los resultadosobtenidos con el ID3 y con el C4.5 utilizando la ganancia y la proporción de ganancia.4.2.1.1.1. Criterio de GananciaRecordemos la definición de ganancia presentada en la ecuación 2.6. Supongamos que tenemos unaprueba posible con n resultados que particionan al conjunto T de entrenamiento en los subconjuntos T 1 ,T 2 ,. . ., T n . Si la prueba se realiza sin explorar las divisiones subsiguientes de los subconjuntos T i , la únicainformación disponible para evaluar la partición es la distribución de clases en T y sus subconjuntos.Solución Propuesta Magdalena Servente 53

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteConsideremos una medida similar luego de que T ha sido particionado de acuerdo a los n resultados de laprueba X. La información esperada (entropía) puede determinarse como la suma ponderada de lossubconjuntos, de la siguiente maneraHni( T,X ) = ∑ × H( Ti)i=1TT(4.2)La cantidad( T, X ) = H( T ) − H ( T X )I ,(4.3)mide la información ganada al partir T de acuerdo a la prueba X. El criterio de ganancia, entonces,selecciona la prueba que maximice la ganancia de información. Es decir, antes de particionar los datos encada nodo, se calcula la ganancia que resultaría de particionar el conjunto de datos según cada uno de losatributos posibles. Se realiza la partición que resulta en la mayor ganancia.4.2.1.1.2. Criterio de Proporción de GananciaEl criterio de ganancia tiene un defecto muy serio: presenta una tendencia muy fuerte a favorecer laspruebas con muchos resultados. Analicemos una prueba sobre un atributo que sea la clave primaria de unconjunto de datos, en la cual, obtendremos un único subconjunto para cada caso, y para cada subconjuntotendremos I (T,X) = 0, entonces la ganancia de información será máxima. Desde el punto de vista de lapredicción, este tipo de división no es útil.Esta tendencia inherente al criterio de ganancia puede corregirse mediante una suerte de normalización,en la cual se ajusta la ganancia aparente, atribuible a pruebas con muchos resultados. Consideremos elcontenido de información de un mensaje correspondiente a los resultados de las pruebas. Por analogía a ladefinición de la I(S) tenemos:I _ divisiónn( X ) = −∑i=1TiT⎛ Ti× log 2⎜⎝ T⎞⎟⎠(4.4)Esto representa la información potencial generada al dividir T en n subconjuntos, mientras que laganancia de información mide la información relevante a una clasificación que nace de la misma división.Entonces,I(T,X )proporción _ de _ ganancia(X ) =I _ división(X )(4.5)54 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteexpresa la proporción útil de información generada en la partición. Si la partición es casi trivial, lainformación de la división será pequeña y esta proporción se volverá inestable. Para evitar este fenómeno,el criterio de proporción de ganancia selecciona una prueba que maximice la expresión anterior, sujeto ala restricción de que la información de la división sea grande, al menos tan grande como la gananciapromedio sobre todas las pruebas realizadas.4.3. ID3El algoritmo ID3 fue diseñado en 1993 por J. Ross Quinlan [Quinlan, 93a, Quinlan, 1993b]. El ID3 tomaobjetos de una clase conocida y los describe en términos de una colección fija de propiedades o deatributos, y produce un árbol de decisión sobre estos atributos que clasifica correctamente todos losobjetos [Quinlan, 1993b]. Hay ciertas cualidades que diferencian a este algoritmo de otros sistemasgenerales de inferencia. La primera se basa en la forma en que el esfuerzo requerido para realizar unatarea de inducción crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajarcon masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con ladificultad, como producto de:• la cantidad de objetos presentados como ejemplos,• la cantidad de atributos dados para describir estos objetos, y• la complejidad del concepto a ser desarrollado (medido por la cantidad de nodos en el árbol dedecisión)Esta linealidad se consigue a costo del poder descriptivo: los conceptos desarrollados por el ID3 sólotoman la forma de árboles de decisión basados en los atributos dados, y este “lenguaje” es mucho másrestrictivo que la lógica de primer orden o la lógica multivaluada, en la cual otros sistemas expresan susconceptos [Quinlan, 1993b].El ID3 fue presentado como descendiente del CLS creado por Hunt. El ID3, como contrapartida de suantecesor, es un mecanismo mucho más simple para el descubrimiento de una colección de objetospertenecientes a dos o más clases. Cada objeto debe estar descripto en términos de un conjunto fijo deatributos, cada uno de los cuales cuenta con su conjunto de posibles valores de atributos. Por ejemplo, elatributo humedad puede tener los valores {alta, baja}, y el atributo clima, {soleado, nublado, lluvioso}.Una regla de clasificación en la forma de un árbol de decisión puede construirse para cualquier conjuntoC de atributos de esa forma [Quinlan, 1993b]. Si C está vacío, entonces se lo asocia arbitrariamente acualquiera de las clases. Si no, C contiene los representantes de varias clases; se selecciona un atributo yse particiona C en conjuntos disjuntos C 1 , C 2 ,..., C n , donde C i contiene aquellos miembros de C que tienenSolución Propuesta Magdalena Servente 55

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteel valor i para el atributo seleccionado. Cada una de estos subconjuntos se maneja con la mismaestrategia. El resultado es un árbol en el cual cada hoja contiene un nombre de clase y cada nodo interiorespecifica un atributo para ser testeado con una rama correspondiente al valor del atributo.4.3.1. Descripción del ID3El objetivo del ID3 es crear una descripción eficiente de un conjunto de datos mediante la utilización deun árbol de decisión. Dados datos consistentes, es decir, sin contradicción entre ellos, el árbol resultantedescribirá el conjunto de entrada a la perfección. Además, el árbol puede ser utilizado para predecir losvalores de nuevos datos, asumiendo siempre que el conjunto de datos sobre el cual se trabaja esrepresentativo de la totalidad de los datos.Dados:• Un conjunto de datos• Un conjunto de descriptores de cada dato• Un clasificador/conjunto de clasificadores para cada objeto.Se desea obtener:• Un árbol de decisión simple basándose en la entropía, donde los nodos pueden ser:1. Nodos intermedios: en donde se encuentran los descriptores escogidos según el criterio deentropía, que determinan cuál rama es la que debe tomarse.2. Hojas: estos nodos determinan el valor del clasificador.Este procedimiento de formación de reglas funcionará siempre dado que no existen dos objetospertenecientes a distintas clases pero con idéntico valor para cada uno de sus atributos; si este casollegara a presentarse, los atributos son inadecuados para el proceso de clasificación.Hay dos conceptos importantes a tener en cuenta en el algoritmo ID3[Blurock, 1996]: la entropía y elárbol de decisión. La entropía se utiliza para encontrar el parámetro más significativo en lacaracterización de un clasificador. El árbol de decisión es un medio eficiente e intuitivo para organizar losdescriptores que pueden ser utilizados con funciones predictivas.56 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.3.1.1. Algoritmo ID3A continuación se presenta el algoritmo del método ID3 para la construcción de árboles de decisión enfunción de un conjunto de datos previamente clasificados.Función ID3(R: conjunto de atributos no clasificadores,C: atributo clasificador,S: conjunto de entrenamiento) devuelve un árbol de decisión;ComienzoSi S está vacío,devolver un único nodo con Valor Falla;Si todos los registros de S tienen el mismo valor para el atributo clasificador,Devolver un único nodo con dicho valor;Si R está vacío, entoncesdevolver un único nodo con el valor más frecuente del atributo clasificador enlos registros de S [Nota: habrá errores, es decir, registros que no estarán bienclasificados en este caso];Si R no está vacío, entoncesD ! atributo con mayor Ganancia(D,S) entre los atributos de R;Sean {dj| j=1,2, .., m} los valores del atributo D;Sean {Sj| j=1,2, .., m} los subconjuntos de S correspondientes a los valores dedj respectivamente;Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,.., dm que van respectivamente a los árbolesID3(R-{D}, C, S1), ID3(R-{D}, C, S2), .., ID3(R-{D}, C, Sm);Fin4.3.1.2. Poda de los árboles de decisiónLa poda de los árboles de decisión se realiza con el objetivo de que éstos sean más comprensibles. Locual implica que tengan menos niveles y/o sean menos frondosos. La poda aplicada en el ID3 se realizauna vez que el árbol ha sido generado y es un mecanismo bastante simple: si de un nodo nacen muchasramas, las cuales terminan todas en la misma clase, entonces se reemplaza dicho nodo por una hoja con laclase común. En caso contrario, se analizan todos los nodos hijos.4.3.1.3. Pasaje a reglas de decisiónPara pasar a reglas de decisión, el ID3 recorre el árbol desde la raíz hasta las hojas y genera una regla porcada camino recorrido. El antecedente de cada regla estará compuesto por la conjunción de las pruebas devalor de cada nodo visitado, y la clase será la correspondiente a la hoja. El recorrido del árbol se basa enel recorrido de preorden (de raíz a hojas, de izquierda a derecha). Como estamos trabajando con árbolesn-arios, este recorrido es único.Solución Propuesta Magdalena Servente 57

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.3.1.4. Atributos desconocidosEs necesario que todos los casos presentados al ID3 estén descriptos por los mismos atributos. Esto limitala aplicación del algoritmo, ya que no siempre se cuenta con toda la información necesaria. Imaginemosuna base de datos histórica en la que se fueron agregando atributos a medida que se lo considerónecesario, para los primeros casos de la misma no se conocerán los valores de los nuevos atributos. ElID3 puede trabajar con atributos desconocidos, los considera como si fuesen un nuevo valor, por ello, sellega a la convención de que los valores desconocidos, deben expresarse con un “?” en los datos. El “?”constituye un nuevo valor posible para el atributo en cuestión.4.3.1.5. Resolución de un ejemplo utilizando el ID3En esta sección se presentarán un árbol y un conjunto de reglas de decisión obtenidos utilizando el ID3,para ejemplificar su aplicación. Supongamos que queremos analizar cuáles días son convenientes parajugar al tenis basándonos en la humedad, el viento y el estado del tiempo. Los datos que se utilizarán sepresentan en la siguiente tabla:Estado Humedad Viento JuegoTenisSoleado Alta Leve NoSoleado Alta Fuerte NoNublado Alta Leve SiLluvia Alta Leve SiLluvia Normal Leve SiLluvia Normal Fuerte NoNublado Normal Fuerte SiSoleado Alta Leve NoSoleado Normal Leve SiLluvia Normal Leve SiSoleado Normal Fuerte SiNublado Alta Fuerte SiNublado Normal Leve SiLluvia Alta Fuerte SiEn el caso de este ejemplo, los árboles y las reglas obtenidos utilizando la ganancia y la proporción deganancia son iguales. Se mostrarán ambos ejemplos juntos con fines prácticos.Construcción del árbol de decisiónA partir de todos los datos disponibles, el ID3 analiza todas las divisiones posibles según los distintosatributos y calcula la ganancia y/o la proporción de ganancia. Comecemos analizando el atributo Estado.58 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEl atributo Estado tiene la siguiente distribución de datos:Lluvia Nublado SoleadoNo 1 0 3Si 4 4 2Totales 5 4 5Para calcular la ganancia y, por lo tanto, también la proporción de ganancia, es necesario calcular laentropía del conjunto. Entonces,SiSi NoNo 10 10 4 4H ( S)= − p log p − p log2p = − log2− log214 14 14 142=0.86312bitsCalculamos ahora la entropía que tendrían los conjuntos resultantes de la división de datos según esteatributo.H(S,Estado)=2∑i=1P( S ) ⋅ H( )iS i=514⎛⎜−⎝1log5215−4log524 ⎞⎟ +5 ⎠414⎛⎜−⎝0log4204−4log424 ⎞⎟ +4 ⎠514⎛⎜−⎝3log5235−2log522 ⎞⎟5 ⎠54 5H ( S,Estado)= × 0.7219 + × 0 + 0.97095 = 0. 6046bits14 14 14Ahora calculamos la ganancia resultante de dividir al subconjunto según el atributo Estado, tendremos:( S, Estado) = H( S) − H ( S,Estado) = 0. bitsGanancia 25852Para calcular la proporción de ganancia debemos conocer primero la información de la división que secalcula como:nS ⎛ S ⎞ 5 ⎛ 5 ⎞ 4 ⎛ 4 ⎞ 5 ⎛ 5 ⎞I _ división = ∑222 ⎜ ⎟i 1 S ⎜⎟S ⎟⎜ ⎟ ⎜= ⎝ ⎠ 14 ⎝14⎠ 14 ⎝14⎠ 14 ⎝14⎠ii( S) − × log ⎜ ⎟ = − × log − × log − × log 1.577bits2=Finalmente, calculamos la proporción de ganancia.Ganancia(S)proporción _ de _ ganancia(S)== 0. 491042bitsI _ división(S)De la misma manera en que calculamos la ganancia y la proporción de ganancia para el caso anterior,calculamos para el atributo Humedad los siguientes valores:Solución Propuesta Magdalena Servente 59

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteGanancia=0.0746702 bitsProporción de ganancia =0.14934 bitsPara el caso del atributo Viento obtenemos los siguientes valores:Ganancia=0.00597769 bitsProporción de ganancia =0.0122457 bitsUna vez que hemos calculado las ganancias y proporciones de ganancia para todos los atributosdisponibles, debemos elegir el atributo según el cual dividiremos a este conjunto de datos. Recordemosque tanto en el caso de la ganancia como en el de la proporción de ganancia, el mejor atributo para ladivisión es aquel que la maximiza. En este ejemplo, la división según el atributo Estado es la que mayorganancia y proporción de ganancia ofrece. Esto significa que el nodo raíz del árbol será un nodo queevalúa el atributo Estado.La figura 4.2 esquematiza la construcción de un árbol de decisión utilizando el ID3 para el conjunto dedatos en cuestión. La figura 4.3 presenta el árbol de decisión obtenido.Transformación a reglas de decisiónComo se explicó en la sección 4.3.1.3 para pasar un árbol de decisión a reglas de decisión, el ID3 lorecorre en preorden y cada vez que llega a una hoja, escribe la regla que tiene como consecuente el valorde la misma, y como antecedente, la conjunción de las pruebas de valor especificados en todos los nodosrecorridos desde la raíz para llegar a dicha hoja. Analicemos el pasaje del árbol de la figura 4.3 a reglas dedecisión.El recorrido del árbol comienza por la raíz Estado, continúa por los nodos Viento y Humedad hasta llegara la hoja “SI”. La regla generada para este recorrido será:Regla 0SI Estado = LluviaY Viento = FuerteY Humedad = AltaENTONCES JuegoTenis = SiSi seguimos el recorrido preorden, llegamos a continuación a la hoja “NO”, obteniendo en este caso lasiguiente regla:Regla 1SI Estado = LluviaY Viento = FuerteY Humedad = NormalENTONCES JuegoTenis = No60 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteLluviaEstado Humedad Viento JuegoTenisSoleado Alta Leve NoSoleado Alta Fuerte NoNublado Alta Leve SiLluvia Alta Leve SiLluvia Normal Leve SiLluvia Normal Fuerte NoNublado Normal Fuerte SiSoleado Alta Leve NoSoleado Normal Leve SiLluvia Normal Leve SiSoleado Normal Fuerte SiNublado Alta Fuerte SiNublado Normal Leve SiLluvia Alta Fuerte SiEstadoNubladoEstado Humedad Viento JuegoTenis Estado Humedad Viento JuegoTenisLluvia Alta Leve SiNublado Alta Leve SiLluvia Normal Leve SiNublado Normal Fuerte SiLluvia Normal Fuerte NoNublado Alta Fuerte SiLluvia Normal Leve SiNublado Normal Leve SiLluvia Alta Fuerte SiSIViento HUMEDADGanancia=0.170951Proporción de ganancia =0.358525VIENTOGanancia=0.321928Proporción de ganancia =0.675162AltaSoleadoESTADOganancia=0.258521proporción de ganancia=0.491042HUMEDADGanancia=0.0746702Proporción de ganancia =0.14934VIENTOGanancia=0.00597769Proporción de ganancia=0.0122457Estado Humedad Viento JuegoTenisSoleado Alta Leve NoSoleado Alta Fuerte NoSoleado Alta Leve NoSoleado Normal Leve SiSoleado Normal Fuerte SiHumedadHUMEDADGanancia=0.970951Proporción de ganancai=2.03632VIENTONormalGanancia=0.0199731Proporción de ganancia=0.0418885LeveFuerteEstado Humedad Viento JuegoTenisSoleado Alta Leve NoSoleado Alta Fuerte NoSoleado Alta Leve NoNOEstado Humedad Viento JuegoTenisSoleado Normal Leve SiSoleado Normal Fuerte SiSIEstado Humedad Viento JuegoTenisLluvia Alta Leve SiLluvia Normal Leve SiLluvia Normal Leve SiSIEstado Humedad Viento JuegoTenisLluvia Normal Fuerte NoLluvia Alta Fuerte SiHumedadAltaNormalEstado Humedad Viento JuegoTenisLluvia Alta Fuerte SiSIEstado Humedad Viento JuegoTenisLluvia Normal Fuerte NoNOFigura 4.2: Esquema de la construcción de un árbol de decisión utilizando el ID3Solución Propuesta Magdalena Servente 61

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteLluviaEstadoSoleadoVientoNubladoSIHumedadFuerteLeveAltaNormalHumedadSINOSIAltaNormalSINOFigura 4.3: Arbol de decisión obtenido con el ID3Recorriendo en este sentido el árbol, el resto de las reglas obtenidas se muestran a continuación.Regla 2SI Estado = LluviaY Viento = LeveENTONCES JuegoTenis = SiRegla 3SI Estado = NubladoENTONCES JuegoTenis = SiRegla 4SI Estado = SoleadoY Humedad = AltaENTONCES JuegoTenis = NoRegla 5SI Estado = SoleadoY Humedad = NormalENTONCES JuegoTenis = Si4.3.2. Limitaciones al ID34.3.2.1. Valores continuosEl ID3 puede aplicarse a cualquier conjunto de datos, siempre y cuando los atributos sean discretos. Estesistema no cuenta con la facilidad de trabajar con atributos continuos ya que analiza la entropía sobrecada uno de los valores de un atributo, por lo tanto, tomaría cada valor de un atributo continuoindividualmente en el cálculo de la entropía, lo cual no es útil en muchos de los dominios. Cuando setrabaja con atributos continuos generalmente se piensa en rangos de valores y no en valores particulares.62 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteExisten varias maneras de solucionar este problema del ID3, como la agrupación de valores presentada en[Gallion et al, 1993] o la discretización de los mismos explicada en [Blurock, 1996], [Quinlan, 1993d]. ElC4.5 resolvió el problema de los atributos continuos mediante la discretización, explicada en la Sección2.4.1.2.4.3.2.3. VentanasEl proceso descripto para la construcción de árboles de decisión asume que las operaciones de cálculo,especialmente, las de evaluación de las frecuencias relativas (en las que se deben contar elementos) delconjunto C, pueden ser realizadas eficientemente, lo cual significa, en la práctica, que para que el procesosea rápido, C debe residir en memoria. ¿Qué pasa si C es tan grande que no cabe en memoria? Lasolución aplicada por ID3 es una solución iterativa, que crea sucesivos árboles de decisión de precisióncada vez mayor, hasta llegar al árbol de decisión óptimo. El método puede resumirse como [Quinlan,1993b]:Elegir un conjunto aleatorio de instancias (llamado ventana).Repetir:Formar una regla para explicar la ventana actualEncontrar las excepciones a la regla en el resto de las instanciasCrear una nueva ventana a partir de la ventana actual y las excepciones a laregla generada a partir de ellaHasta que no queden excepciones a la regla.El proceso termina cuando se forma una regla que no tenga excepciones y sea correcta para todo C. Sehan testeado dos métodos para formar la nueva ventana. En el primero, la ventana actual crece por laadición de excepciones hasta un número especificado. El segundo método trata de identificar los objetos“claves” en la ventana actual y reemplaza el resto por excepciones. Ambos métodos fueron probados conun problema de clasificación no trivial de 14 atributos y cerca de 20.000 objetos para los cuales un árbolde decisión correcto contenía 20 nodos [Quinlan, 1993b]. Las conclusiones obtenidas de estas pruebasfueron:• Los métodos convergen rápidamente; generalmente, se precisaron sólo 4 iteraciones para llegar a unárbol de decisión correcto.• Fue posible desarrollar un árbol correcto a partir de la ventana final que contenía sólo una pequeñafracción del total de los objetos• El proceso no fue sensible a parámetros como el tamaño de la ventana inicial.Solución Propuesta Magdalena Servente 63

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• El tiempo requerido para obtener un árbol de decisión correcto para el problema de clasificacióncrece linealmente con la cantidad de ejemplos que están siendo analizados.4.4. C4.5El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma. El C4.5construye un árbol de decisión mediante el algoritmo “divide y reinarás” y evalúa la información en cadacaso utilizando los criterios de entropía y ganancia o proporción de ganancia, según sea el caso. Acontinuación, se explicarán las características particulares de este método que lo diferencian de suantecesor.4.4.1. Algoritmo C4.5El algoritmo del método C4.5 para la construcción de árboles de decisión a grandes rasgos muy similar aldel ID3. Varía en la manera en que realiza las pruebas sobre los atributos, tal como se detalla en lassecciones siguientes.Función C4.5(R: conjunto de atributos no clasificadores,C: atributo clasificador,S: conjunto de entrenamiento) devuelve un árbol de decisión;ComienzoSi S está vacío,devolver un único nodo con Valor Falla;Si todos los registros de S tienen el mismo valor para el atributo clasificador,Devolver un único nodo con dicho valor;Si R está vacío, entoncesdevolver un único nodo con el valor más frecuente del atributo clasificador enlos registros de S [Nota: habrá errores, es decir, registros que no estarán bienclasificados en este caso];Si R no está vacío, entoncesD ! atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R;Sean {dj| j=1,2, .., m} los valores del atributo D;Sean {Sj| j=1,2, .., m} los subconjuntos de S correspondientes a los valores dedj respectivamente;Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,.., dm que van respectivamente a los árbolesC4.5(R-{D}, C, S1), C4.5(R-{D}, C, S2), .., C4.5(R-{D}, C, Sm);Fin64 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.4.2. Características particulares del C4.54.4.2.1. Pruebas utilizadasEn cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Los tres tipos de pruebasposibles propuestas por el C4.5 son [Quinlan, 1993d]:1. La prueba “estándar” para los atributos discretos, con un resultado y una rama para cada valorposible del atributo.2. Una prueba más compleja, basada en un atributo discreto, en donde los valores posibles sonasignados a un número variable de grupos con un resultado posible para cada grupo, en lugar de paracada valor.3. Si un atributo A tiene valores numéricos continuos, se realiza una prueba binaria con resultados A ≤ Zy A > Z, para lo cual debe determinarse el valor límite Z.Todas estas pruebas se evalúan de la misma manera, mirando el resultado de la proporción de ganancia, oalternativamente, el de la ganancia, resultante de la división que producen. Ha sido útil agregar unarestricción adicional: para cualquier división, al menos dos de los subconjuntos T i deben contener unnúmero razonable de casos. Esta restricción, que evita las subdivisiones casi triviales es tenida en cuentasolamente cuando el conjunto T es pequeño.4.4.2.2. Pruebas sobre atributos continuosLas pruebas para valores continuos trabajan con un valor límite arbitrario. El método utilizado para ellopor el C4.5 es muy simple [Quinlan, 1993d] [Quinlan, 1996a]. Primero, los casos de entrenamiento T seordenan según los valores del atributo A continuo que está siendo considerado. Existe un número finito deestos valores.Sean {v 1 , v 2 ,. . ., v m } los valores que toma el atributo A. Cualquier valor límite entre v i y v i+1 tendrá elmismo efecto al dividir los casos entre aquellos cuyo valor para A pertenece al subconjunto {v 1 , v 2 ,. . .,v i } y aquellos cuyo valor pertenece a {v i+1 , v i+2 ,. . ., v m }. Entonces, existen sólo m – 1 divisiones posiblesde según el valor de A y todas son examinadas. Al estar ordenados, las sucesivas pruebas para todos losvalores, pueden realizarse en una única pasada.Típicamente se elige el punto medio del intervalo como valor límite representativo, entonces el iésimovalor límite sería:Solución Propuesta Magdalena Servente 65

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentev i+ v i+12(4.6)C4.5 se diferencia de otros algoritmos en que elige el mayor valor de A en todo el conjunto de casos deentrenamiento que no excede el punto medio presentado, en lugar del punto medio en sí mismo, comovalor límite; de esta manera se asegura que todos los valores límites que aparezcan en el árbol y/o lasreglas ocurran al menos una vez en los datos.El método utilizado para la binarización de atributos tiene una gran desventaja. Mientras que todas lasoperaciones de construcción de un árbol de decisión crecen linealmente con el número de casos deentrenamiento, el ordenamiento de d valores continuos crece proporcionalmente a d x log(d). Entonces, eltiempo requerido para construir un árbol a partir de un gran conjunto de datos de entrenamiento, puedeestar dominado por el ordenamiento de datos con valores continuos.4.4.2.2. Atributos desconocidosC4.5 asume que todos los resultados de pruebas desconocidos se distribuyen probabilísticamente según lafrecuencia relativa de los valores conocidos. Un caso (posiblemente fraccional) con un valor desconocidose divide en fragmentos cuyos pesos son proporcionales a dichas frecuencias relativas, dando porresultado que un caso puede seguir múltiples caminos en el árbol. Esto se aplica tanto cuando los casos deentrenamiento se dividen durante la construcción del árbol, como cuando el árbol se utiliza para clasificarcasos.4.4.2.2.1. Evaluación de las pruebasLa modificación del criterio de ganancia es bastante directa. La ganancia de una prueba mide lainformación sobre la pertenencia a una clase que puede esperarse como resultado de partir un conjunto dedatos de entrenamiento, calculada al restar la información que se espera que sea necesaria para identificarla clase de un objeto después de la partición a la misma cantidad antes de la partición. Es evidente queuna prueba no puede proveer información de pertenencia a una clase si no se conoce el valor de unatributo.Sea T el conjunto de datos de entrenamiento y X una prueba basada en un atributo A, supongamos que elvalor de A se conoce únicamente en una fracción F de casos en T. Sean I(T) e I X (T) calculadas según laecuación 2.4, excepto que sólo se tienen en cuenta los casos para los cuales el valor de A es conocido. Ladefinición de ganancia puede corregirse a:66 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteGananciaF ×( X ) = probabilidad _ A_sea _ conocido×( I( T ) − I ( T ))+ probabilidad _ A_no _ sea _ conocido×0 =( I( T ) − I ( T)XX(4.7)o, en otras palabras, la ganancia aparente de mirar a los casos con valores conocidos, multiplicada por lafracción de dichos casos en el conjunto de entrenamiento.El cálculo de la proporción de ganancia se realiza de la misma manera que en la ecuación 4.5. Ladefinición de información de la división puede modificarse de manera similar, considerando los casos convalores desconocidos como un grupo más, entonces, si una prueba tienen n resultados, su información dela división se calcula como la prueba dividido n+1subconjuntos.I _ divisiónn 1( ) ∑ + X = −i=1Ti× logT + 12⎛ Ti⎞⎜ ⎟⎝ T + 1⎠(4.8)4.4.1.2.2. Partición del conjunto de entrenamientoUna prueba puede seleccionar del conjunto de pruebas posibles, como antes, pero utilizando las versionesmodificadas de ganancia e información de la división. Si la prueba X con resultados O 1 , O 2 , ..., O N esescogida y tiene algunos valores desconocidos para algunos de los datos de entrenamiento, el concepto departicionamiento debe ser generalizado, según un criterio probabilístico.Cuando un caso T con un resultado conocido O i es asignado al subconjunto T i , esto significa que laprobabilidad de que el caso pertenezca a T i es 1 y de que pertenezca a todos los otros subconjuntos es 0.Cuando el resultado es desconocido, sólo se puede realizar una afirmación estadística más débil.Entonces, se asocia con cada caso del subconjunto T i un peso representando la probabilidad de que el casopertenezca a cada subconjunto. Si el resultado para el caso es conocido, entonces el peso es 1; si el casotiene un resultado desconocido, entonces el peso es simplemente la probabilidad del resultado O i en estepunto. Cada subconjunto T i es una colección de casos fraccionales posibles, tal que |T i | debe serreinterpretada como la suma de los pesos fraccionales de los casos pertenecientes al subconjunto.Los casos de entrenamiento en T pueden tener pesos no unitarios, ya que T puede ser el resultado de unapartición previa. Entonces, en general, un caso de T con peso p cuyo resultado no se conoce, es asignado acada subconjunto T i con peso:P x probabilidad_de_resultado_O i (4.9)Solución Propuesta Magdalena Servente 67

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteLa probabilidad_de_resultado_O i se estima como la suma de los pesos de los casos en T con valoresconocidos que tienen resultado O i , sobre la suma de los pesos de los casos en T con resultado conocidospara la prueba.4.4.1.2.3. Clasificación de un nuevo casoSe toma un enfoque similar cuando el árbol de decisión es utilizado para clasificar un caso. Si en un nodode decisión el atributo relevante no se conoce, de manera tal que el resultado de la prueba no puededeterminarse, el sistema explora todos los resultados posibles y combina aritméticamente lasclasificaciones resultantes. Como para cada atributo pueden existir múltiples caminos desde la raíz delárbol hasta las hojas, una “clasificación” es una distribución de clases más que una única clase. Cuando ladistribución de clases total para un caso nuevo ha sido establecida de esta manera, la clase con laprobabilidad más alta, es asignada como “la” clase predicha.La información de la división aún se determina a partir del conjunto de entrenamiento completo y esmayor, ya que existe una categoría extra para los valores desconocidos.Cada hoja en el árbol de decisión resultante tiene asociados dos valores: (N/E). N es la suma de los casosfraccionales que llegan a la hoja; y E es el número de casos cubiertos por la hoja, que no pertenecen a laclase de la misma.4.4.3. Poda de los Árboles de DecisiónEl método recursivo de particionamiento para construir los árboles de decisión descripto anteriormente,subdividirá el conjunto de entrenamiento hasta que la partición contenga casos de una única clase, o hastaque la prueba no ofrezca mejora alguna. Esto da como resultado, generalmente, un árbol muy complejoque sobreajusta los datos al inferir una estructura mayor que la requerida por los casos de entrenamiento[Mitchell, 2000b] [Quinlan, 1995]. Además, el árbol inicial generalmente es extremadamente complejo ytiene una proporción de errores superior a la de un árbol más simple. Mientras que el aumento encomplejidad se comprende a simple vista, la mayor proporción de errores puede ser más difícil devisualizar.Para entender este problema, supongamos que tenemos un conjunto de datos dos clases, donde unaproporción p ≥ 0.5 de los casos pertenecen a la clase mayoritaria. Si un clasificador asigna todos los casoscon valores indeterminados a la clase mayoritaria, la proporción esperada de error es claramente 1 – p. Si,68 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteen cambio, el clasificador asigna un caso a la clase mayoritaria con probabilidad p y a la otra clase conprobabilidad 1 - p, su proporción esperada de error es la suma de:• la probabilidad de que un caso perteneciente a la clase mayoritaria sea asignado a la otra clase, p x (1– p), y• la probabilidad de que un caso perteneciente a la otra clase sea asignado a la clase mayoritaria, (1 –p) x pque da como resultado 2 x p (1 – p). Como p es al menos 0.5, esto es generalmente superior a 1 – p,entonces el segundo clasificador tendrá una mayor proporción de errores. Un árbol de decisión complejotiene una gran similitud con este segundo tipo de clasificador. Los casos no se relacionan a una clase,entonces, el árbol manda cada caso al azar a alguna de las hojas.Un árbol de decisión no se simplifica borrando todo el árbol a favor de una rama, sino que se eliminan laspartes del árbol que no contribuyen a la exactitud de la clasificación para los nuevos casos, produciendoun árbol menos complejo, y por lo tanto, más comprensible.4.4.3.1. ¿Cuándo debemos simplificar?Existen, básicamente, dos maneras de modificar el método de particionamiento recursivo para producirárboles más simples: decidir no dividir más un conjunto de casos de entrenamiento, o removerretrospectivamente alguna parte de la estructura construida por el particionamiento recursivo.El primer enfoque, conocido como pre-poda, tiene la ventaja de que no se pierde tiempo en construir unaestructura que luego será simplificada en el árbol final. Los sistemas que lo aplican, generalmente buscanla mejor manera de partir el subconjunto y evalúan la partición desde el punto de vista estadísticomediante la teoría de la ganancia de información, reducción de errores, etc. Si esta evaluación es menorque un límite predeterminado, la división se descarta y el árbol para el subconjunto es simplemente lahoja más apropiada. Sin embargo, este tipo de método tiene la desventaja de que no es fácil detener unparticionamiento en el momento adecuado, un límite muy alto puede terminar con la partición antes deque los beneficios de particiones subsiguientes parezcan evidentes, mientras que un límite demasiado bajoresulta en una simplificación demasiado leve.El C4.5 utiliza el segundo enfoque, el método de divide y reinarás procesa los datos de entrenamientolibremente, y el árbol sobreajustado producido es podado después. Los procesos computacionales extrasinvertidos en la construcción de partes del árbol que luego serán podadas pueden ser sustanciales, pero elSolución Propuesta Magdalena Servente 69

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecosto no supera los beneficios de explorar una mayor cantidad de particiones posibles. El crecimiento yla poda de los árboles son más lentos, pero más confiables.La poda de los árboles de decisión llevará, sin duda, a clasificar erróneamente una mayor cantidad de loscasos de entrenamiento. Por lo tanto, las hojas de un árbol podado no contendrán necesariamente unaúnica clase sino una distribución de clases, como se explicó con anterioridad. Asociado a cada hoja, habráuna distribución de clases especificando, para cada clase, la probabilidad de que un caso de entrenamientoen la hoja pertenezca a dicha clase.4.4.3.2. Poda en Base a ErroresGeneralmente, la simplificación de los árboles de decisión se realiza descartando uno o más subárboles yreemplazándolos por hojas. Al igual que en la construcción de árboles, las clases asociadas con cada hojase encuentran al examinar los casos de entrenamiento cubiertos por la hoja y eligiendo el caso másfrecuente. Además de este método, el C4.5 permite reemplazar un subárbol por alguna de sus ramas.Supongamos que fuera posible predecir la proporción de errores de un árbol y sus subárboles. Estoinmediatamente llevaría al siguiente método de poda: “Comenzar por las hojas y examinar cada subárbol.Si un reemplazo del subárbol por una hoja o por su rama más frecuentemente utilizada, lleva a unaproporción de errores predicha (predicted error rate) menor, entonces podar el árbol de acuerdo a ello,recordando que las proporciones de errores predichas para todos los subárboles que lo contienen se veránafectadas”. Como la proporción de errores predicha para un árbol disminuye si disminuyen lasproporciones de errores predichas en cada una de sus ramas, este proceso generaría un árbol con unaproporción de errores predicha mínima.¿Cómo podemos predecir la proporción de errores? Está claro que calcular la proporción de errores apartir de los datos de entrenamiento para los cuales el árbol fue construido, no es un estimador útil, ya queen lo que respecta al conjunto de entrenamiento, la poda siempre aumenta la proporción de errores.Existen dos familias de técnicas para predecir la proporción de errores. La primer familia predice laproporción de errores de un árbol y sus subárboles utilizando un nuevo conjunto de casos distinto delconjunto de entrenamiento. Como estos casos no fueron examinados durante la construcción del árbol, losestimadores obtenidos a partir de ellos son insesgados y, de existir suficientes casos, confiables. Ejemplosde esta familia son:• Poda según la complejidad del costo (Cost-complexity pruning) [Breinman et al, 1984] en la cual laproporción de errores predicha para un árbol se modela como la suma ponderada de su complejidad ysus errores en los casos de entrenamiento, con los casos extras utilizados para determinar loscoeficientes de la ponderación.70 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Poda de reducción de errores (Reduced-error pruning)[Quinlan, 1987e], que evalúa la proporción deerrores de un árbol y sus componentes directamente a partir del nuevo conjunto de casos.La desventaja de esta familia de técnicas es simplemente que una parte del conjunto de datospreclasificados a partir de los que se construyó el árbol debe guardarse para determinar los errores,entonces el árbol debe ser construido a partir de un conjunto de datos más pequeño. Una solución a esteproblema es utilizar un enfoque de referencias cruzadas. Este consiste en dividir los casos disponibles enbloques iguales de tamaño C y, para cada bloque, un árbol se construye con todos los otros bloques y semiden los errores con el bloque elegido. Para valores moderados de C, se asume que el árbol construido apartir de todos los bloques menos uno será muy similar al construido a partir de todos los datos. Porsupuesto que deben construirse C árboles y no uno solo.El enfoque tomado por el C4.5 pertenece a la segunda familia de técnicas que utilizan únicamente elconjunto de entrenamiento a partir del cual se construyó el árbol. La estimación de la proporción deerrores pura se ajusta para reflejar su propia tendencia. El método utilizado por el C4.5 se describe acontinuación.Cuando una hoja cubre N casos de entrenamiento, E de ellos en forma errónea, el estimador de laproporción de errores de resubstitución para dicha hoja es N/E. Podemos entender esto de manera naifcomo E “eventos” en N pruebas. Si el conjunto de N casos de entrenamiento se tomase como una muestra(lo cual, por supuesto, no es cierto), nos podríamos preguntar qué nos dice este resultado acerca de laprobabilidad de un evento (error) en la totalidad de la población de casos cubiertos por la hoja. Laprobabilidad de error no puede determinarse de forma exacta, pero cuenta con límites de confianza. Paraun límite de confianza CF, el límite superior de esta probabilidad puede encontrarse a partir de los límitesde confianza para la distribución binomial; el límite superior se expresa como U CF (E,N). Como en ladistribución binomial los límites superior e inferior son simétricos, la probabilidad de que el promedioreal de errores exceda U CF (E,N)es CF/2. El C4.5 simplemente iguala el estimador de error predicho de lahoja con su límite superior, bajo el argumento de que el árbol fue construido para minimizar laproporción de error observada. Aunque los fundamentos de esta heurística son cuestionables y violanalgunos principios estadísticos, las estimaciones producidas presentan frecuentemente resultadosaceptables.Para simplificar el cálculo, las proporciones de error para las hojas y subárboles se computan asumiendoque fueron utilizados para clasificar un conjunto de nuevos casos del mismo tamaño del conjunto deentrenamiento. Entonces, una hoja que cubre N casos de entrenamiento con un estimador de errorpredicho de U CF (E,N) generaría N x U CF (E,N) errores predichos. Análogamente, la cantidad de errorespredichos asociados con un (sub)árbol es la suma de los errores predichos para cada una de sus ramas.Solución Propuesta Magdalena Servente 71

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.4.4. Estimación de la Proporción de Errores para losÁrboles de DecisiónUna vez podados, las hojas de los árboles de decisión generados por el C4.5 tendrán dos númerosasociados: N y E. N es la cantidad de casos de entrenamiento cubiertos por la hoja, y E es la cantidad deerrores predichos si un conjunto de N nuevos casos fuera clasificados por el árbol.La suma de los errores predichos en las hojas, dividido el número de casos de entrenamiento, es unestimador inmediato del error de un árbol podado sobre nuevos casos.4.4.5. Construcción de un árbol de decisión utilizando elC4.5Supongamos que queremos construir un árbol de decisión para los siguientes datos:Estado Humedad Viento JuegoTenis? Alta Leve NoSoleado Alta Fuerte NoNublado Alta Leve SiLluvia Alta Leve SiLluvia Normal Leve SiLluvia Normal Fuerte NoNublado Normal Fuerte SiSoleado Alta Leve NoSoleado Normal Leve SiLluvia Normal Leve SiSoleado Normal Fuerte SiNublado Alta Fuerte SiNublado Normal Leve SiLluvia Alta Fuerte SiEste es el mismo conjunto de datos que fue utilizado en la sección 4.3.1.5 para construir un árbolutilizando el ID3 con la diferencia que es el valor del atributo Estado para el primer caso es desconocido.En este caso, la distribución de datos para el atributo Estado es:Desconocido Soleado Nublado LluviaNo 1 2 0 1Si 0 2 4 4Totales 1 4 4 572 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligentePrimero calculamos la entropía del conjunto. Recordemos que, como se explicó en la sección 4.4.2.2, nodebemos tener en cuenta los atributos desconocidos. Entonces, trabajamos sobre un total de 13 casos, delos cuales 3 son positivos. Tendremos,3 3 10 10H ( S)= − log2 − log2= 0. 7793bits13 13 13 13Calculamos ahora la entropía que tendrían los conjuntos resultantes de la división de datos según esteatributo.4 ⎛ 2 2 2 2 ⎞ 4 ⎛ 0 0 4 4 ⎞ 5 ⎛ 1 1 4 4 ⎞H ( S,Estado)= ⎜−log2 − log2 ⎟ + ⎜−log2− log2 ⎟ + ⎜−log2− log2⎟ = 0. 58536bits13 ⎝ 4 4 4 4 ⎠ 13 ⎝ 4 4 4 4 ⎠ 13 ⎝ 5 5 5 5 ⎠Ahora calculamos la ganancia resultante de dividir al subconjunto según el atributo Estado, tendremos:13Ganancia 18014( S, Estado) = ( 0.7793−0.58536) = 0. bitsAl calcular al información de la división, debemos tener en cuenta una categoría extra para el valordesconocido para el atributo. La información de la división se calcula como:4 ⎛ 4 ⎞ 4 ⎛ 4 ⎞ 5 ⎛ 5 ⎞ 1 ⎛ 1 ⎞I _ división2 ⎜ ⎟2 ⎜ ⎟2 ⎜ ⎟2 ⎜ ⎟ = 83514 ⎝14⎠ 14 ⎝14⎠ 14 ⎝14⎠ 14 ⎝14⎠( S) = − × log − × log − × log − × log 1. bitsFinalmente, calculamos la proporción de ganancia.Ganancia(S)proporción _ de _ ganancia(S)== 0. 098bitsI _ división(S)De la misma manera en que calculamos la ganancia y la proporción de ganancia para el caso anterior,calculamos para el atributo Humedad los siguientes valores:Ganancia=0.0746702 bitsProporción de ganancia =0.0746702 bitsPara el caso del atributo Viento obtenemos los siguientes valores:Ganancia=0.00597769 bitsProporción de ganancia =0.0060687 bitsAl igual que con el ID3, conviene dividir el conjunto según el atributo Estado tanto si trabajamos con laganancia como si trabajamos con la proporción de ganancia. Al dividir los 14 casos para continuar con laconstrucción del árbol, los 13 casos para los que el valor de Estado es conocido, no presentan problemas yse reparten según el valor de Estado. Mientras que el caso en que no se conoce el valor de Estado, seSolución Propuesta Magdalena Servente 73

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentereparte entre los conjuntos que tienen Soleado, Nublado y Lluvia con los pesos 4/13, 4/16 y 5/13respectivamente.Tomemos por ejemplo, la división de los datos para el valor Nublado del atributo Estado. Los datos quese tienen en cuenta en este caso son:Estado Humedad Viento JuegoTenis Peso? Alta Leve No 4/13Nublado Alta Leve Si 1Nublado Normal Fuerte Si 1Nublado Alta Fuerte Si 1Nublado Normal Leve Si 1La distribución de datos para el atributo Humedad es:Desconocido Alta NormalNo 0 0.3 0Si 0 2 2Totales 0 2.3 2Con estos datos obtenemos para la Humedad los siguientes valores:Ganancia=0.068 bitsProporción de ganancia =0.068 bitsPara el caso del atributo Viento obtenemos los siguientes valores:Ganancia=0.068 bitsProporción de ganancia =0.068 bitsEn este caso, vemos que la división del conjunto de datos no ofrece ninguna mejora, por lo tanto,colapsamos el árbol a la hoja Si, que es la que mayor peso tiene. La cantidad de casos cubiertos por lahoja, es decir, el N asociado a la misma, es 4.3. Y la cantidad de casos cubiertos incorrectamente, o el Easociado a la hoja, por la hoja son 0.3.La figura 4.4 muestra un esquema de todos los pasos para la construcción del árbol de decisión en estecaso. A continuación se muestra el árbol obtenido.Estado = Nublado: Si (4.3/0.3)Estado = Lluvia: Si (5.4/1.4)Estado = Soleado:Humedad = Alta: No (2.3)Humedad = Normal: Si (2.0)74 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEstado Humedad Viento JuegoTenis? Alta Leve NoSoleado Alta Fuerte NoNublado Alta Leve SiLluvia Alta Leve SiLluvia Normal Leve SiLluvia Normal Fuerte NoNublado Normal Fuerte SiSoleado Alta Leve NoSoleado Normal Leve SiLluvia Normal Leve SiSoleado Normal Fuerte SiNublado Alta Fuerte SiNublado Normal Leve SiLluvia Alta Fuerte SiESTADOganancia=0.180proporción de ganancia=0.0.098HUMEDADGanancia=0.075Proporción de ganancia =0.075VIENTOGanancia=0.006Proporción de ganancia =0.00609LluviaEstadoSoleadoEstado Humedad Viento Juego PesoTenis? Alta Leve No 5/13Lluvia Alta Leve Si 1Lluvia Normal Leve Si 1Lluvia Normal Fuerte No 1Lluvia Normal Leve Si 1Lluvia Alta Fuerte Si 1SIN=5.4E=1.4HUMEDADGanancia=0.029Proporción de ganancia =0.029VIENTOGanancia=0.130Proporción de ganancia =0.136SIN=4.3E=0.3NubladoEstado Humedad Viento Juego PesoTenis? Alta Leve No 4/13Nublado Alta Leve Si 1Nublado Normal Fuerte Si 1Nublado Alta Fuerte Si 1Nublado Normal Leve Si 1HUMEDADGanancia=0.068Proporción de ganancia =0.068VIENTOGanancia=0.068Proporción de ganancia =0.068Estado Humedad Viento Juego PesoTenis? Alta Leve No 4/13Soleado Alta Fuerte No 1Soleado Alta Leve No 1Soleado Normal Leve Si 1Soleado Normal Fuerte Si 1HUMEDADGanancia=0.996Proporción de ganancia =1VIENTOGanancia=0.003Proporción de ganancia =0.00301AltaHumedadNormalSIN=2.3E=0SIN=2E=0Figura 4.4: Esquema de la construcción de un árbol de decisión utilizando el C4.5Recordemos que el C4.5 analiza los errores predichos en cada uno de los subárboles y ramas del árbolgenerado para analizar si es conveniente simplificarlo. En este caso, el error total predicho para el árbolestará dado por:( 0.3,4.3) + 5.4 × U ( 1.4,5.4) + 2.3×U ( 0,2.3) + 2 ( 0,2)Error _ predicho(Arbol)= 4.3×U25%25%25%× U25%Ahora, calculamos el error total predicho de simplificar el árbol por la hoja “Si”:Error _ predicho(Arbol _ simplificado)= 14 × U%( 4,14) 5. 7625=El error predicho para el árbol simplificado es menor que el error predicho para el árbol generado.Entonces, el C4.5 poda el árbol a la siguiente hoja:Solución Propuesta Magdalena Servente 75

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSi (14.0/5.76)4.4.6. Generalización de reglasSi reescribimos el árbol completamente en forma de un conjunto de reglas, una por cada hoja del árbol,no obtendremos una estructura más simple que el árbol en sí. Sin embargo, los antecedentes de las reglaspueden contener condiciones irrelevantes, con lo cual la regla puede ser generalizada eliminando dichascondiciones.Para decidir cuándo una condición debe eliminarse, utilizaremos el siguiente método. Sea R una regla dela forma:si A entonces clase CY sea una regla más general R -si A - entonces clase C,donde A - se obtiene borrando la condición X de las condiciones de A. La evidencia para la importanciade X debe encontrarse en los casos de entrenamiento utilizados para la construcción del árbol de decisión.Cada caso que satisface el antecedente más corto A - pertenece o no a la clase C, y satisface o no lacondición X. Los números de casos en cada uno de estos cuatro grupos pueden organizarse en una tablade contingencias de 2 x 2:Clase C Otras clasesSatisface la condición X Y 1 E 1No satisface la condición X Y 2 E 2¿Qué significan los valores de la tabla?:• Y 1 +E 1 : casos que satisfacen A - y también X, por lo tanto, también están cubiertos por la regla originalR, E 1 de ellos erróneamente ya que pertenecen a clases distintas a C.• Y 2 +E 2 : casos que satisfacen A - pero no X que serán cubiertos por la regla generalizada R - pero no porla regla original. E 2 de estos casos serán clasificados erróneamente.• Y 1 +Y 2 + E 1 +E 2 : número total de casos cubiertos por R -76 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDe acuerdo a varios experimentos desarrollados por Quinlan [Quinlan, 1987] para medir la importanciade la tabla de contingencia al decidir si una condición X debe ser eliminada o no, se encontró que seobtienen mejores resultados utilizando una estimación pesimista de la precisión de las reglas R y R - sobrenuevos casos. No es muy probable que una hoja que cubre N casos con E errores tenga una proporción deerror tan baja como E/N al clasificar nuevos casos. En lugar de utilizar el estimador E/N al estimar laproporción real de errores de una hoja como el límite superior U CF (E,N) del intervalo de confianza paraalgún nivel de confianza CF. Si reemplazamos estos valores por los de las reglas R y R - obtendremos lossiguientes estimadores pesimistas:• U CF (E 1, Y 1 + E 1 ) para la regla R• U CF (E 1 + E 2, Y 1 + Y 2 + E 1 + E 2 ) para la regla R -SiUCF( E1 + E2,Y1+ Y2+ E1+ E2) ≤ UCF( E1, Y1+ E1)(4.10)Entoncestiene sentido eliminar la condición X.Durante el proceso de generalización será necesario eliminar más de una condición. En lugar de analizartodos los subconjuntos posibles de condiciones que podrían eliminarse, el sistema de C4.5 realiza unaeliminación directa golosa (straightforward greedy elimination): De todas las reglas que puedeneliminarse por el método descripto, se elimina aquella que produce la menor proporción pesimista deerror en la regla generalizada. Como en todos las búsquedas golosas el hecho de buscar el mínimo en cadapaso no nos asegura llegar al mínimo global.4.4.6.1. Conjuntos de ReglasEl proceso de generalización de las reglas se repite para todos los caminos del árbol. Con lo cual, lasreglas derivadas de algunos caminos pueden tener una proporción de error inaceptable o pueden solaparsecon otras derivadas de distintos caminos. Por lo tanto, podemos afirmar que el proceso de generalizaciónproduce menos reglas que el número de hojas del árbol, y además las reglas dejan de ser mutuamenteexcluyentes y exhaustivas. Un caso puede satisfacer los antecedentes de más de una regla o, si sedescartan reglas por tener una alta proporción de errores, de ninguna regla. En este último caso debeexistir una condición por defecto que indique cómo proseguir. Para resolver estos conflictos el C4.5Solución Propuesta Magdalena Servente 77

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteplantea una solución simple: ordenar las reglas y la primera regla que cubre el caso se toma como la reglaoperativa. Es necesario, entonces, establecer prioridades para el ordenamiento de las reglas y decidir laclasificación por defecto a utilizar.Para establecer las prioridades se siguió un método propuesto por Michie que determina que todas lasreglas de una misma clase deben aparecer juntas y estos subconjuntos de clases son los que estánordenados en lugar de las reglas en sí. Este agrupamiento hace que las reglas sean más entendibles y tienela ventaja que el ordenamiento de las reglas en particular no es importante.Supongamos que del conjunto de reglas elegimos un subconjunto S de reglas que cubren la clase C. Laperformance de este subconjunto puede medirse mediante el número de casos de entrenamiento cubiertospor S que no pertenecen a la clase C (falsos positivos) y el número de casos de entrenamiento de la claseC que no son cubiertos por ninguna regla de S (falsos negativos).El valor del subconjunto S se mideutilizando el Principio de Longitud de Descripción Mínima [Rissanen, 1983], explicado en la sección2.4.1.4. Recordemos que este principio puede expresarse de la siguiente manera: Un Emisor y unReceptor cuentan con copias idénticas de un conjunto de casos de entrenamiento, pero los casos delEmisor también especifican la clase de cada caso, mientras que los casos del Receptor no tieneninformación de las clases. El Emisor debe comunicar esta información faltante al Receptor mediante latransmisión de una teoría de clasificación junto con las excepciones a la misma. El Emisor puede elegir lacomplejidad de la teoría que envía (una teoría relativamente simple con muchas excepciones, o una teoríamuy compleja con pocas excepciones). El Principio MDL afirma que la mejor teoría derivable de losdatos de entrenamiento minimizará la cantidad de bits necesarios para codificar el mensaje completoconsistente de la teoría y sus excepciones.La información a transmitir es la identidad en los casos de entrenamiento que pertenecen a la clase C,utilizando un esquema de codificación para la teoría (subconjunto S de reglas) y sus excepciones. Elesquema utilizado por el C4.5 es aproximado ya que en lugar de utilizar un método de codificación enparticular, trata de encontrar un límite inferior al número de bits. Podemos resumirlo de la siguientemanera:1. Para codificar una regla, debemos especificar cada antecedente. El consecuente no necesita sercodificado, porque todas las reglas del subconjunto pertenecen a la misma clase C. Existe unapequeña complicación: las condiciones deben enviarse en algún orden, pero el orden no importaporque las condiciones pertenecen a una conjunción. Si existen x condiciones en el antecedente,existen x! ordenamientos posibles que podrían enviarse, todos equivalentes del punto de vista de laespecificación de la regla. Por lo tanto, la cantidad de bits requerida para enviar cualquierordenamiento en particular debe ser reducida en un “crédito” de log 2 (x!).78 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2. La codificación de un conjunto de reglas requiere la suma de los bits para codificar cada regla, menosun crédito similar para el ordenamiento de las reglas (ya que todos los ordenamientos de reglas parauna misma clase son equivalentes)3. Las excepciones se codifican indicando cuáles de los casos cubiertos por las reglas S son falsospositivos y cuáles falsos negativos. Si las reglas cubren r de los n casos de entrenamiento, con fpfalsos positivos y fn falsos negativos, la cantidad de bits necesarios para codificar la excepción es⎛⎛r ⎞⎞⎛⎛n− r ⎞⎞log 2⎜ ⎟ + ⎜ ⎟⎜ ⎟log 2⎜ ⎟⎝⎝fp⎠⎠⎝⎝fn ⎠⎠(4.11)El primer término indica los bits necesarios para indicar los falsos positivos entre los casos cubiertos porlas reglas y el segundo término indica los falsos negativos entre los casos no cubiertos por las reglas.El valor de un subconjunto S en particular se mide con la suma de las longitudes de codificación para lasreglas y excepciones, a menor suma, mejor teoría.En la práctica, los métodos de codificación tienden a sobrestimar la cantidad de bits requeridos paracodificar una teoría relativa al conjunto de excepciones. Esto se explica por el hecho de que los conjuntosde atributos generalmente son redundantes, por lo que diferentes teorías pueden ser funcionalmenteidénticas. Como la función de una teoría para una clase es identificar un subconjunto de casos deentrenamiento, diferentes reglas que identifiquen al mismo conjunto son intercambiables, aún cuandohayan sido codificadas de manera distinta. Para compensar este efecto, el sistema utiliza la sumaponderada:Bits de excepción + W X bits de teoría (4.12)donde W < 1.El valor apropiado de W dependerá de la probabilidad de que dos teorías representen los mismos casos, locual dependerá del grado de redundancia en los datos. C4.5 utiliza el valor 0.5 por defecto para W, peropuede ajustarse a un valor menor si se encuentra un gran grado de redundancia en los datos. Sin embargo,no se ha encontrado que el resultado del algoritmo dependa en gran medida del valor de W.Entonces, para enviar las reglas debe encontrarse un subconjunto S de reglas para la clase C que minimiceesta codificación total. Esto es similar a la generalización de reglas descripta anteriormente, pero en estecaso la eliminación golosa no parece ser efectiva. En cambio, el sistema analiza todos los subconjuntosposibles de reglas para una clase, si no son demasiados, y utiliza recocido simulado (simulated annealing)en caso contrario. En este último caso, el sistema repetidamente elige una regla al azar y consideraincluirla en el subconjunto S (si aún no pertenece al mismo), o eliminarla de S (si ya pertenece). EstaSolución Propuesta Magdalena Servente 79

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteacción producirá un cambio ∆B en el total de bits necesario para codificar el subconjunto y lasexcepciones y, si el caso es beneficioso, entonces se lo acepta inmediatamente. Si la acción incrementa lalongitud total de la codificación tal que ∆B es positivo, el cambio se acepta con una probabilidad de e -∆B/Kdonde K es una especia de temperatura sintética. Al reducir gradualmente el valor de K al ir explorandolos cambios, el sistema tiende a converger a un conjunto de reglas con una codificación cerca del mínimo(near-minimun encoding).4.4.6.2. Orden de las clases y elección de la clase por defectoUna vez que ya se ha encontrado un subconjunto de reglas para representar cada clase, queda determinarel ordenamiento para las clases y seleccionar un valor por defecto.Al decidir el ordenamiento de las clases es importante tener en cuenta los falsos positivos ya queocasionarán clasificaciones incorrectas. Entonces, a la hora de decidir sobre el ordenamiento, se eligeprimero a la clase que tiene menos falsos positivos. Luego, los falsos positivos de los casos deentrenamiento que aún no han sido seleccionados se recomputan y se vuelve a elegir la clase con menosfalsos positivos, y así sucesivamente.Como la clase por defecto será utilizada cuando un caso no sea cubierto por ninguna de las reglas, éstasreglas deberían tenerse en cuenta para determinar cuál será la clase por defecto. El C4.5 elige como clasepor defecto aquella clase que cubre la mayoría de los casos de entrenamiento no cubiertos por ningunaregla, resolviendo empates a favor de la clase con la mayor frecuencia absoluta.Una vez que se ha determinado el ordenamiento y la clase por defecto, el conjunto de reglas se examinapor última vez. Si existe alguna regla cuya eliminación reduzca el número de errores de clasificación, sela elimina y se recomputan los errores. El conjunto vuelve a chequearse. Este paso fue diseñado paraevaluar el conjunto de reglas en la forma en que será utilizado.4.4.6.3. Generalización de un árbol de decisión a reglas de decisión utilizando elC4.5Para aclarar los métodos presentados en las secciones anteriores se procederá a la resolución de unejemplo. Supongamos que deseamos obtener las reglas de decisión para el conjunto de datos presentadoen la sección 4.4.5. Para generar las reglas de decisión, el C4.5 parte del árbol sin simplificar y construyeuna regla de decisión para cada hoja del mismo. En este caso, las reglas generadas a partir del árbol sinsimplificar serán:80 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 1SI Estado = SoleadoY Humedad = AltaENTONCES JuegoTenis = NoRegla 2SI Estado = SoleadoY Humedad = NormalENTONCES JuegoTenis = SiRegla 3SI Estado = NubladoENTONCES JuegoTenis = SiRegla 4SI Estado = LluviaENTONCES JuegoTenis = SiA continuación, el C4.5 generaliza cada una de estas reglas, eliminando aquellas condiciones que generanun estimador de error pesimístico mayor. Calculamos este estimador para cada una de las reglaspresentadas y para las reglas resultantes de eliminar cada una de sus condiciones.Para la regla 1, tendremos:Errores Cant. de casos cubiertos Estimador pesimístico del error Condición ausente0 2 50% 4 7 75.5% Estado=Soleado2 4 77.1% Humedad=AltaLas reglas resultantes de eliminar cualquiera de las dos condiciones del antecedente, tienen un estimadorpesimístico de error superior al de la regla actual, con lo cual no es conveniente eliminar ninguna de lasdos condiciones. Mantenemos, entonces, la regla tal como fue generada, agregándole la precisión de lamisma.Regla 1SI Estado = SoleadoY Humedad = AltaENTONCES JuegoTenis = No [50%]Repetimos estos cálculos para las reglas restantes. En el caso de la regla 2 tendremos:Errores Cant. De casos cubiertos Estimador pesimístico del error Condición ausente0 2 50% 1 7 33.8% Estado=Soleado2 4 77.1% Humedad=NormalEn este caso, la regla resultante de eliminar la primera condición tiene un estimador pesimístico del errormenor que el de la regla actual, entonces, eliminamos esta condición y repetimos los cálculos,obteniendo:Solución Propuesta Magdalena Servente 81

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteErrores Cant. De casos cubiertos Estimador pesimístico del error Condición ausente1 7 33.8% 4 14 41.3% Humedad=NormalRegla 2SI Estado = SoleadoY Humedad = NormalENTONCES JuegoTenis = Si [66.2%]En el caso de la regla 3 tendremos:Errores Cant. De casos cubiertos Estimador pesimístico del error Condición ausente0 4 29.3% 4 14 41.3% Estado=NubladoRegla 3SI Estado = NubladoENTONCES JuegoTenis = Si [70.7%]Finalmente, para la regla 4 los cálculos son los siguientes:Errores Cant. De casos cubiertos Estimador pesimístico del error Condición ausente1 5 45.4% 4 14 41.3% Estado=LluviaRegla 4SI Estado = LluviaENTONCES JuegoTenis = Si [54.6%]Una vez que todas las reglas han sido generalizadas, el C4.5 agrupa las reglas según la clase de suconsecuente y busca los subconjuntos de reglas que generan una codificación mínima para la clase.Entonces, calcula para cada subconjunto de reglas la cantidad de bits necesarios para codificar las reglas,y utiliza el método del recocido simulado para determinar cuáles reglas son convenientes utilizar pararepresentar cada clase. En este caso, las reglas escogidas son la regla 1 para la clase No y la regla 3 parala clase Si.Finalmente, el C4.5 ordena las reglas y escoge la clase por defecto. Para ello, primero debemos computarlos falsos positivos de cada una de las reglas para escoger la de menor falsos positivos como primera. Eneste caso, los falsos positivos para ambas reglas son nulos. Con lo cual, mantenemos el orden en quefueron generadas.82 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligentePara la elección de la clase por defecto, computamos la cantidad de casos de cada clase no cubiertos porlas reglas escogidas. A continuación se presentan la cantidad de casos de cada clase, especificándose lacantidad de casos de cada clase no cubiertos por ninguna de las reglas escogidas.Casos No cubiertos Clase4 2 No10 6 SiComo la mayoría de los casos no cubiertos, pertenecen a la clase Si, ésta es escogida como clase pordefecto. Las reglas finales para este ejemplo se presentan a continuación.Regla 1SI Estado = SoleadoY Humedad = AltaENTONCES JuegoTenis = No [50.0%]Regla 3SI Estado = NubladoENTONCES JuegoTenis = Si [70.7%]Regla 5Clase por defecto = Si4.5. SISTEMA INTEGRADOR4.5.1. Descripción generalPara estudiar los algoritmos propuestos se desarrolló un sistema que integra el ID3 y el C4.5. El sistemarecibe los datos de entrenamiento como entrada y permite que el usuario elija cuál algoritmo y con quécriterio de decisión (ganancia o proporción de ganancia) desea aplicar. Una vez generados el árbol y lasreglas de decisión, el usuario puede evaluar los resultados sobre los datos de prueba. En el caso del ID3,esta evaluación se realiza a partir de las reglas de decisión cuya performance, como vimos en la sección4.3.1, es idéntica a la de los árboles. La evaluación de los resultados del C4.5, en cambio, se realiza porseparado y se obtienen, por lo tanto, dos evaluaciones distintas, una para el árbol y otra para las reglas.Esto se debe a que, como se explicó en la sección 4.4.4, el modelo de clasificación generado con el C4.5como árbol de decisión es distinto al generado como reglas de decisión.La figura 4.5. presenta un esquema general del funcionamiento del sistema.Solución Propuesta Magdalena Servente 83

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteID3Generación delárbol de decisiónÁrbol dedecisiónPoda del árbolde decisiónÁrbol dedecisiónpodadoTransformación areglas dedecisiónReglas dedecisiónEvaluación de losresultadosEvaluación delmodelogeneradoDATOS DEENTRENAMIENTODATOS DEPRUEBAC4.5Generación delárbol de decisiónÁrbol dedecisiónPoda del árbolde decisiónÁrbol dedecisiónpodadoTransformación areglas dedecisiónReglas dedecisiónEvaluación de losresultadosEvaluación delmodelogeneradoFigura 4.5: Esquema general del sistema integrador propuesto84 Magdalena Servente Solución Propuesta

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.5.2. Diseño del sistema integradorA continuación se presenta el diseño del sistema integrador desarrollado. Se explican, tanto para el ID3como para el C4.5 los procesos realizados y resultados generados.4.5.2.1. Diseño para el ID3La figura 4.6 presenta el DFD general para la sección del ID3. Con una mirada rápida, vemos que el árboly las reglas de decisión se generan a partir de los datos de entrenamiento. A su vez, los procesos que losgeneran graban el árbol, las reglas y las sentencias SQL en sus correspondientes archivos. Además, segenera un log del proceso. Por otro lado, la evaluación de resultados se realiza a partir de las sentenciasSQL y de los datos de prueba.DATOS DEENTRENAMIENTO1Generación delárbol de decisiónÁrbol de decisión sin podarLOG DEL ID32Poda del árbolde decisiónÁrbol de decisión podadoÁrbol de decisión podado3Impresión delárbol de decisiónen pantalla4Transformación areglas dedecisiónDATOSTRANSFORMACIONÁrbol de decisión podado5Guardado delárbol de decisióna discoREGLAS DEDECISIÓNSENTENCIASSQLDATOS DEPRUEBA6Evaluación de losresultadosÁRBOL DEDECISIÓNMatriz de confusiónFigura 4.6: DFD general para la sección del ID3Solución Propuesta Magdalena Servente 85

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCada uno de los procesos mostrados en la figura 4.6 se describe en las secciones siguientes.4.5.2.1.1. Generación del árbol de decisiónEste proceso genera el árbol de decisión según el algoritmo explicado para el ID3 en la sección 4.3.1.1. Elárbol se construye a partir de los datos de entrenamiento en formato Paradox, seleccionados por elusuario.Durante este proceso se genera un archivo de log que guarda todos los cálculos de ganancia y deproporción de ganancia realizadas en cada paso; y el atributo escogido para realizar la división. El archivode log se encuentra en el subdirectorio Log dentro del directorio donde está instalado el programa, y sunombre está compuesto de la siguiente manera: MétodoDD-MM-AA HH_MM_SSNombreTabla.log. Estopermite identificar fácilmente el log correspondiente a una corrida. El formato del archivo de log seespecifica en la sección 4.5.2.1.8.4.5.2.1.2. Poda del árbol de decisiónEste proceso realiza la poda del árbol de decisión según la metodología explicada en la sección 4.3.1.2.4.5.2.1.3. Impresión del árbol de decisión en pantallaUna vez podado, el árbol de decisión se muestra en pantalla, de forma tal que figure la prueba realizadaen cada nodo y el valor de la prueba en cada rama, como aparece en la figura 4.7.4.5.2.1.4. Transformación a reglas de decisiónA partir del árbol de decisión podado, se generan las reglas de decisión de acuerdo con el métodoexplicado en la sección 4.3.1.3. Se guarda en disco un archivo de texto que contiene las reglas obtenidas,y un archivo de Paradox que contiene las sentencias SQL equivalentes. También se genera otra tabla deParadox, “Datos Transformación”, que contiene los datos de necesarios para identificar la transformacióncorrespondiente a cada sentencia SQL.86 Magdalena Servente Solución Propuesta

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFigura 4.7: Formato del árbol de decisión impreso en pantalla4.5.2.1.4. Transformación a reglas de decisiónA partir del árbol de decisión podado, se generan las reglas de decisión de acuerdo con el métodoexplicado en la sección 4.3.1.3. Se guarda en disco un archivo de texto que contiene las reglas obtenidas,y un archivo de Paradox que contiene las sentencias SQL equivalentes. También se genera otra tabla deParadox, “Datos Transformación”, que contiene los datos de necesarios para identificar la transformacióncorrespondiente a cada sentencia SQL.4.5.2.1.5. Guardado del árbol de decisión a discoUna vez presentado el árbol por pantalla, se le ofrece al usuario la posibilidad de guardarlo en el discorígido. Si acepta, debe elegir en qué directorio y con qué nombre desea guardarlo. La extensión delarchivo resultante es “tree”.4.5.2.1.6. Evaluación de los resultadosA partir de una lista de corridas realizadas, el usuario elige cuál corrida del ID3 desea evaluar. Los datosde las corridas previas están almacenados en la tabla de “Datos Transformación”. Una vez realizada laelección, se obtienen de la tabla de “Sentencias SQL” las sentencias SQL generadas durante latransformación del árbol a reglas de decisión (Sección 4.5.2.1.4). Estas sentencias se aplican al conjuntode datos de prueba determinado por el usuario.Solución Propuesta Magdalena Servente 87

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSe genera una matriz de confusión que indica para cada clase la cantidad de casos correctamenteclasificados y los incorrectamente clasificados. Se calcula la probabilidad de que un caso sea clasificadocorrectamente como perteneciente a esa clase. Finalmente, se obtienen los totales generales. La matriz deconfusión obtenida se muestra en pantalla. La Figura 4.8 muestra un ejemplo de dicha matriz deconfusión.Figura 4.8: Matriz de confusión generada durante la evaluación de resultados4.5.2.1.7. Formato de los datos de entrenamiento y de pruebaLos datos de entrenamiento y prueba deben estar en formato de Paradox 3 (.db o .dbf) para poder serprocesados por el sistema. Se eligió este formato porque la mayoría de los programas de manejo de datospueden exportar sus archivos y tablas al formato de Paradox 3; lo cual permite analizar datosalamacenados en casi cualquier formato.4.5.2.1.8. Archivo de Log del ID3Durante la generación del árbol de decisión, se genera un archivo de log que almacena todos los cálculosrealizados. En cada paso, se almacenan:1. el “Nivel” en el que se está, entendiéndose por “Nivel” el numero de ciclo de procesamiento en elque se está2. Para cada descriptor:• El nombre del descriptor• Una matriz con la cantidad de instancias pertenecientes a cada clase para cada valor posible deldescriptor.• El valor de la ganancia88 Magdalena Servente Solución Propuesta

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• El valor de la proporción de ganancia3. La ganancia o la proporción de ganancia máxima (según el criterio de división con el que se estétrabajando).A continuación se presenta una entrada del archivo de log.Nivel=0Descriptor=EstadoLluvia Nublado SoleadoNo 1 0 3Si 4 4 25 4 5 14Gain=0.258521Gain Ratio=0.491042--------------------------------------Descriptor=HumedadAltaNormalNo 3 1Si 4 67 7 14Gain=0.0746702Gain Ratio=0.14934--------------------------------------Descriptor=VientoFuerteLeveNo 2 2Si 4 66 8 14Gain=0.00597769Gain Ratio=0.0122457--------------------------------------0.2585214.5.2.1.9. Archivo de Reglas de decisión del ID3El archivo de reglas de decisión generado durante la transformación a reglas de decisión contiene lasreglas para el árbol analizado. Por cada regla guarda el número de regla y la regla en sí.4.5.2.1.10. Archivo del Árbol de decisión del ID3Cuando el usuario elige guardar el árbol de decisión a disco, este se almacena en un archivo plano,tabulándose n veces cada renglón, siendo n el nivel del nodo de decisión. A continuación se muestra elcontenido de un archivo “.tree” a modo de ejemplo.Estado = LluviaViento = FuerteHumedad = AltaSiHumedad = NormalNoViento = LeveSolución Propuesta Magdalena Servente 89

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSiEstado = NubladoSiEstado = SoleadoHumedad = AltaNoHumedad = NormalSi4.5.2.2. Diseño para el C4.5DATOS DEENTRENAMIENTO1Generación delárbol de decisiónÁrbol de decisión sin podarÁrbol de decisión sin podarÁRBOL DEDECISIÓN YEVALUACIÓNDERESULTADOSÁrbol de decisión podado2Poda del árbolde decisiónÁrbol de decisión podado3Evaluación delárbol de decisión5Transformación areglas dedecisiónÁrbol de decisión podadoy Resultados de la evaluaciónDATOS DEPRUEBAReglas de decisiónREGLAS DEDECISIÓN YEVALUACIÓNDERESULTADOS4Impresión delárbol de decisiónen pantalla6Evaluación de lasreglas dedecisiónFigura 4.9: DFD general para la sección del C4.5La figura 4.9 presenta el DFD general para la sección del C4.5. A simple vista, vemos que el diseño deeste proceso difiere ligeramente del diseño del ID3. Aunque los procesos principales (generación y podadel árbol de decisión, generación de las reglas de decisión, evaluación de los resultados) se mantienen,encontramos que hay dos evaluaciones de resultados, una para el árbol de decisión y otra para las reglas.90 Magdalena Servente Solución Propuesta

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEsto se debe a que, a diferencia del ID3, las reglas de decisión y el árbol generados por el C4.5 no sonmodelos de clasificación equivalentes. Por otro lado, encontramos que tanto el archivo del árbol dedecisión como el de las reglas de decisión se presentan junto a la evaluación de resultados. Recordemosque, como se explicó en la sección 4.4, el C4.5 evalúa cada rama y cada regla en particular. Por lo tanto,la evaluación no puede separarse de los modelos generados.Cada uno de los procesos mostrados en la figura 4.9 se describe en las secciones siguientes.4.5.2.2.1. Generación del árbol de decisiónEste proceso genera el árbol de decisión según el algoritmo explicado para el C4.5 en las secciones 4.4.1y 4.4.2. El árbol se construye a partir de los datos de entrenamiento en formato Paradox, seleccionadospor el usuario.4.5.2.2.2. Poda del árbol de decisiónEste proceso realiza la poda del árbol de decisión según la metodología explicada en la sección 4.4.3.4.5.2.2.3. Evaluación del árbol de decisiónEl árbol de decisión se evalúa según el algoritmo explicado en la sección 4.4.4. Se le agrega una pruebade valor a cada rama y se genera una matriz de confusión a partir de la performance del árbol sobre losdatos de prueba.4.5.2.2.4. Impresión del árbol de decisión en pantallaEl árbol de decisión se muestra en pantalla para el usuario, de manera idéntica al árbol generado para elID3, explicado en la sección 4.5.2.1.3.Solución Propuesta Magdalena Servente 91

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente4.5.2.2.5. Transformación a reglas de decisiónEl árbol de decisión generado, se transforma a reglas de decisión según la metodología explicada en lasección 4.4.6. Las reglas se almacenan en un archivo plano cuyo formato se explica en la sección4.5.2.2.8.4.5.2.2.6. Evaluación de las reglas de decisiónUna vez generadas las reglas de decisión, el sistema las evalúa contra los datos de prueba. Genera unaapreciación de exactitud para cada regla, según lo explicado en la sección 4.4.6, y una matriz deconfusión general. Almacena todos los resultados en un archivo plano.4.5.2.2.7. Formato de los datos de entrenamiento y de pruebaAl igual que en el caso del ID3, los datos de entrenamiento y prueba deben estar en formato de Paradox 3(.db o .dbf) para poder ser procesados por el sistema.4.5.2.2.8. Archivo del árbol de decisión y evaluación de resultados del C4.5Durante la generación del árbol de decisión, su correspondiente poda y su posterior evaluación se generaun archivo de resultados obtenidos en cada paso. En este archivo se almacenan:1. el árbol de decisión sin podar, donde cada rama tiene asociados dos números: N y E, cuyo sentido sedetalla a continuación:• N es la sumatoria de los casos de entrenamiento fraccionales que llegan a cada hoja• E es la cantidad de casos, cubiertos por la hoja, que no pertenecen a la clase de la misma.2. el árbol de decisión podado, también con dos números N y E asociados, donde:• N es la cantidad de casos de entrenamiento cubiertos por la hoja92 Magdalena Servente Solución Propuesta

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• E es la cantidad de errores predichos, según la distribución binomial, para la hoja si una cantidadN de nuevos casos fuese evaluada por el árbol3. la evaluación sobre los datos de prueba con el siguiente formato:Donde:Antes de podar Después de podarTamaño Errores Tamaño Errores EstimaciónTamaño = cantidad de nodos + cantidad de hojasErrores = x (y%)Con:x = cantidad de casos clasificados erróneamenteEstimacióndonde:y= cantidad de casos clasificados erróneamente / cantidad total de casost∑i== 1NEit es la cantidad de hojas del árbolE i es el E asociado a cada hojaN es la cantidad total de casos de entrenamiento4. una matriz de confusión que indica para cada clase, la cantidad de casos clasificados erróneamente yla cantidad de casos de la misma clasificados como pertenencientes a otra clase.A continuación se presenta un archivo de muestra.C4.5 Generador de árboles de decisión Thu Sep 27 11:18:00 2001-------------------------------------Opciones:Datos Los árboles serán evaluados sobre los datos de pruebaSe utilizará el Gain criterionSolución Propuesta Magdalena Servente 93

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente95 casos (7 atributos) leídos de cardiolo.dataÁrbol de decisión:Duración del Angor = MENOS DE 30 MIN: NO (48.0/1.0)Duración del Angor = MAS DE 30 MIN:| Dolor de Pecho de Angor = TIPICO: SI (16.0/1.0)| Dolor de Pecho de Angor = AUSENTE: NO (16.0)| Dolor de Pecho de Angor = ATIPICO:| | Irradiación del Angor = SI: SI (8.0)| | Irradiación del Angor = NO:| | | Respuesta Vasodilatadora = POSITIVO: SI (4.0/1.0)| | | Respuesta Vasodilatadora = NEGATIVO: NO (3.0)El árbol ha sido guardadoEvaluación sobre los datos de prueba (95 ítems):Antes de podarDespués de Podar---------------- ---------------------------Tamaño Errores Tamaño Errores Estimación10 3( 3.2%) 10 3( 3.2%) (11.6%)

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente• Usada indica la cantidad de veces que se utilizo la regla durante la evaluación• Errores indica la cantidad de errores cometidos durante la evaluación, y la proporción deerror calculada como dicha cantidad sobre la cantidad de veces en que se utilizó la regla.• La ventaja tiene el siguiente formato a(b|c), donde• b es la cantidad de casos que serían clasificados erróneamente si dicha regla seomitiese.• c es la cantidad de casos que serían clasificados correctamente si dicha regla seomitiese por las reglas siguientes.• a es la el beneficio neto de omitir la regla, calculado como b-c.3. Matriz de confusión para los datos de entrenamiento, con el mismo formato que la presentada en lasección 4.5.2.2.8 para la evaluación de los resultados del árbol de decisión.4. Evaluación de los datos de prueba con el mismo formato que la evaluación sobre los datos deentrenamiento.5. Matriz de confusión para los datos de prueba con el mismo formato que la matriz presentada para losdatos de entrenamiento.A continuación se muestra un ejemplo del archivo en cuestión.C4.5 Generador de reglas Thu Sep 27 11:21:54 2001------------------------Opciones:Datos Conjuntos de reglas evaluados sobre casosnuevos95 casos (7 atributos) leídos de cardiolo------------------Procesando el árbol 0Reglas finales del árbol 0:Regla 6:Dolor de Pecho de Angor = AUSENTE-> clase NO [95.8%]Regla 1:Duración del Angor = MENOS DE 30 MIN-> clase NO [94.6%]Regla 5:Solución Propuesta Magdalena Servente 95

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDolor de Pecho de Angor = ATIPICOIrradiación del Angor = NORespuesta Vasodilatadora = NEGATIVO-> clase NO [82.0%]Regla 2:Dolor de Pecho de Angor = TIPICODuración del Angor = MAS DE 30 MIN-> clase SI [84.3%]Regla 3:Dolor de Pecho de Angor = ATIPICOIrradiación del Angor = SIDuración del Angor = MAS DE 30 MIN-> clase SI [84.1%]Regla 4:Dolor de Pecho de Angor = ATIPICODuración del Angor = MAS DE 30 MINRespuesta Vasodilatadora = POSITIVO-> clase SI [70.0%]Clase por defecto: NOEvaluación sobre los datos de entrenamiento (95 ítems):Regla Tamaño Error Usada Errores Ventaja----- ------ ----- ----- ------- -------6 1 4.2% 32 0 (0.0%) 0 (0|0) NO1 1 5.4% 32 1 (3.1%) 0 (0|0) NO5 3 18.0% 3 0 (0.0%) 0 (0|0) NO2 2 15.7% 16 1 (6.2%) 14 (15|1) SI3 3 15.9% 8 0 (0.0%) 4 (4|0) SI4 3 30.0% 4 1 (25.0%) 2 (3|1) SIProbadas 95, errores 3 (3.2%)

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 5RESULTADOS OBTENIDOSEn este capítulo se presentan los resultados obtenidos. Primero, se explica la manera en que deberealizarse la interpretación de los mismos (Sección 5.1), se presentan los formatos de los árbolesy las reglas de decisión tanto para el ID3 (Sección 5.1.1) como para el C4.5 (Sección 5.1.2).Luego, se describen los dominios de datos sobre los que se trabajó (Sección 5.2), y se analizanlos resultados obtenidos con el ID3 (Sección 5.3) y con el C4.5 (Sección 5.4). En cada caso sepresenta, el árbol y las reglas de decisión obtenidos, y la evaluación de resultados sobre elconjunto de datos de prueba. En la sección 5.5 se comparan los resultados obtenidos con el ID3 ycon el C4.5 en los distintos dominios. Y en la sección 5.6 se realiza un análisis general de losresultados.5.1. INTERPRETACIÓN DE LOS RESULTADOSSe realizaron múltiples pruebas tanto con el sistema ID3 como con el C4.5. A continuación se presentanlos dominios de datos sobre los cuales se trabajó. Debe recordarse que, al no tener la limitación de datosúnicamente discretos, el C4.5 pudo aplicarse a más dominios que el ID3.Para cada dominio, se presentan dos conjuntos de resultados para cada uno de los sistemas: uno utilizandola ganancia como medida de la ganancia de información en cada iteración del sistema, y otra utilizando laproporción de ganancia con el mismo propósito. Entonces, para cada combinación dominio - sistema –medidor de ganancia, se presentan el árbol y las reglas de decisión obtenidas.5.1.1. Interpretación de resultados en el ID35.1.1.1. Árboles de decisiónEn el caso del ID3, el árbol de decisión no presenta ninguna característica en especial; de cada nodo saleuna rama por valor del atributo que se está siendo testeado, y, así sucesivamente, hasta llegar a las hojasque indican la clase. El árbol de decisión presentado ha sido previamente podado, y es exhaustivo, deramas mutuamente excluyentes.Resultados Magdalena Servente 97

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.1.1.2. Reglas de decisiónLas reglas de decisión en el ID3 se obtienen directamente a partir del árbol. Con lo cual, los antecedentesde las reglas son mutuamente excluyentes y exhaustivos. Por lo tanto, el orden en que se presentan lasreglas no tiene importancia para la clasificación de un nuevo caso. Si se evalúa un nuevo conjunto dedatos con las reglas de decisión, se obtienen exactamente los mismos resultados que si se lo evalúa con elárbol de decisión.Como estimación del éxito del modelo generado se presenta una tabla o matriz obtenida de la evaluaciónde los datos de prueba tanto con el árbol como con las reglas de decisión. La tabla generada, presentadaen la sección 4.5.2.1.6, cuenta con las siguientes columnas:• Clases: Clases existentes en los datos• Correctos: cantidad de casos de los datos de prueba clasificados correctamente para cada clase• Errores: cantidad de casos de los datos de prueba clasificados erróneamente para cada clase• Probabilidad: probabilidad de que un nuevo caso sea clasificado correctamente, se obtiene como:correctoscorrectos + errores(5.1)5.1.2. Interpretación de resultados en el C4.55.1.2.1. Árboles de decisiónEl árbol de decisión en el C4.5 es distinto del árbol generado en el ID3 en la medida en que cada una delas hojas del mismo cubre una distribución de casos. Cada hoja tiene asociados entonces, dos números Ny E, como lo indica la figura 5.1. Cabe destacar que si E es nulo, entonces, no se lo expresa en el árbol.Prueba 1 del atributo X: clase A (N/E)Prueba 2 del atributo X:Prueba 1 del atributo Y:Prueba 1 del atributo Z: clase A (N)Prueba 2 del atributo Z: clase B (N/E)Prueba 2 del atributo Y: clase A (N/E)Figura 5.2 Esquema general de un árbol obtenido con el C4.598 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteComo se explicó previamente, en la sección 4.5.2.2.8, en los árboles sin podar, N es la suma de los casosfraccionarios que llegan a cada hoja y E es la suma de los casos que pertenecen a una clase distinta de lacorrespondiente a la hoja, los falsos positivos. Es decir, que de los N casos cubiertos por la hoja, E casosson incorrectos. En los árboles podados, N es la cantidad de casos de entrenamiento cubiertos por la hoja,y E es la cantidad de errores predichos si una cantidad N de casos nuevos fuese clasificada por el árbol,según la distribución binomial. Con lo cual, puede obtenerse un rápido estimador de errores sobre datosnuevos de la siguiente manera:k∑i=1Donde k es la cantidad de nodos, Ei es el error en la hoja i, y N es la cantidad total de casos deentrenamiento.NEi(5.2)Para cada uno de los árboles se obtienen dos tablas de evaluación de idéntico formato: una a partir de losdatos de entrenamiento y la otra a partir de los datos de prueba. Una tabla indica en cada caso:• Tamaño: tamaño del árbol obtenido (cantidad de nodos + cantidad de hojas)• Errores (porcentaje de error %): los errores indican la cantidad de casos clasificadoserróneamente; mientras que el porcentaje de error es dicha cantidad sobre la cantidad total de casos.• Estimación: es un estimador del éxito del árbol obtenido según la ecuación 5.1.Además, para cada uno de los árboles se presenta la matriz de confusión del tipo:Clasificado como Clasificado como ... Clasificado comoClase 1Clase 2Clase NClase 1 ...Clase 2 ...... ... ... ... ...Clase N ...Donde se indica para cada clase, la cantidad de casos que fueron clasificados correctamente y la cantidadde casos que no fueron clasificados correctamente. Para estos últimos se indica en particular, de qué clasefueron clasificados.Resultados Magdalena Servente 99

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.1.2.2. Reglas de decisiónEn el caso de las reglas de decisión producidas por el C4.5, cada regla tiene asociado un estimador deléxito predicho durante su construcción. Recordemos que dicho estimador se obtiene como el valor de ladistribución binomial para un nivel de confianza especificado, a partir de la tabla de contingencia comofue explicado en la sección 4.4.5.Además, a continuación de las reglas obtenidas, se presenta una tabla de performance de las mismas sobrelos datos de prueba, con los siguientes datos, descriptos en la sección 4.5.2.2.9:• Regla: número de la regla.• Tamaño: cantidad de conjunciones en el antecedente.• Error: estimador del error de la regla (se obtiene restándole a 100 el estimador de éxito presente encada regla)• Usada: cantidad de veces que la regla fue utilizada• Error (porcentaje de error %): el error indica la cantidad de casos que fueron clasificadoserróneamente, y el porcentaje de error es dicha cantidad sobre la cantidad de veces en que la regla fueusada.• Ventaja: indica la performance del conjunto de reglas, si la regla en cuestión fuese omitida. Seexpresa como: a(b|c), donde b es la cantidad de casos que serían clasificados erróneamente, si estaregla no existiese; c es la cantidad de casos que serían clasificados correctamente por las reglassiguientes; y a=b-c es el beneficio neto de eliminar la regla.5.2. DESCRIPCIÓN DE LOS DOMINIOSA continuación se presentan los dominios sobre los cuales se realizaron las pruebas. Para cada dominio sepresenta:a) Una breve descripciónb) Los atributos con sus correspondientes valores posibles100 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentec) Las clases con sus valoresd) La cantidad de instancias y la distribución de clases del dominioLos datos de cada uno de los dominios se presentan en el Apéndice B. En todos los casos, se dividieronlos datos preclasificados en dos subconjuntos: uno de entrenamiento y uno de prueba, según lasproporciones 2:3 y 1:3, respectivamente.5.2.1. Créditosa) DescripciónLos ejemplos planteados en esta base de datos fueron provistos por el Gerente del Centro de Cómputos deLas Malvinas [Montalvetti, 1995] para el análisis de solicitudes de créditos. Los campos de los ejemplosprovistos son los parámetros que se tienen en cuenta al analizar un riesgo crediticio.b) AtributosNombre del campo Valores PosiblesIngreso ENTRE 451 Y 550, ENTRE 451 Y 550, MAS DE 551Composición Familiar SOLTERO, CASADO SIN HIJOS, CASADO Y UN HIJO, CASADO Y DOS HIJOSViviendaALQUILA, PROPIA O IPVUServiciosBASICOS, BASICOS Y TIC, BASICOS TIC Y TELOtros CréditosUN CREDITO, DOS CREDITOS, TRES CREDITOSc) Clases:SI, NO.d) Cantidad de instancias y distribución de las clases::SI NO TotalesEn el conjunto de entrenamiento 69 30 99En el conjunto de prueba 35 16 51Totales 104 46 150Resultados Magdalena Servente 101

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.2.2. Cardiologíaa) DescripciónLos ejemplos planteados en este caso corresponden a la patología de Infarto Agudo de Miocardio,provistos por un cardiólogo [Montalvetti, 1995]. En este caso, todos los ejemplos responden a personas desexo masculino, entre 40 y 50 años, fumadoras, con displidemia e hipertensión arterial presente. Puedenobtenerse dos diagnósticos de los ejemplos planteados: Si (Infarto Agudo de Miocardio) o No (no es unInfarto Agudo de Miocardio). Aunque en medicina es difícil realizar un diagnóstico con una cantidad devariables reducidas, se determinó que las variables planteadas en estos ejemplos alcanzan para realizar undiagnóstico preliminar de gran ayuda al expertob) AtributosNombre del campoDolor de Pecho de AngorIrradiación del AngorDuración del AngorAngor en RelaciónAntigüedad del AngorRespuesta VasodilatadoraValores PosiblesTIPICO, ATIPICO, AUSENTESI, NOMENOS DE 30 MIN, MAS DE 30 MINCON ESFUERZO, EN REPOSORECIENTE, MAS DE 1 MESPOSITIVO, NEGATIVOc) Clases:SI, NOd) Cantidad de instancias y distribución de las clases:SI NO TotalesEn el conjunto de entrenamiento 18 46 64En el conjunto de prueba 9 22 31Totales 27 68 955.2.3. Votacionesa) DescripciónEstos datos fueron recolectados a partir del Almanaque Trimestral del Congreso, 2da sesión de 98ºCongreso, 1984, Volumen XL: Congressional Quarterly Inc, Washington, D.C., 1985. Los datos incluyenlos votos de cada congresista de la U.S. House of Representatives en 16 temas claves (CQA). Seidentificaron nueve tipos diferentes de votos: votado a favor, convenio a favor, y pronunciado a favor(agrupados como “a_favor”), votado en contra, convenio en contra, y pronunciado en contra (agrupados102 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecomo “en_contra”), voto en persona, voto en persona para evitar conflictos de intereses, y abstención devoto o no dio su voto a conocer (agrupados como “desconocido”).b) AtributosNombre del campoNiños_discapacitadosParticipación en el costo del proyecto del aguaAdopción de la resolución sobre el presupuestocongelamiento de los honorarios médicosayuda a El Salvadorgrupos religiosos en las escuelasprohibición de las pruebas anti satélitesayuda a los contras de Nicaraguamisil mxinmigraciónreducción a la corporación Synfuelspresupuesto de educaciónderecho a demandar de la Superfundcrimenexportaciones sin impuestosacta sudafricana de administración de exportacionesValores PosiblesA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoA_favor, en_contra, desconocidoc) Clases:demócrata, republicanod) Cantidad de instancias y distribución de las clases:Demócrata republicano TotalesEn el conjunto de entrenamiento 184 116 300En el conjunto de prueba 83 52 135Totales 267 168 4355.2.4. Estudio sobre hongosa) DescripciónEsta base de datos incluye las descripciones de muestras hipotéticas de 23 especies de hongos de lasfamilias Agaricus y Lepiota. Cada especie es identificada como apta para ser ingerida, absolutamentevenenosa, o de ingestión dudosa y ciertamente no recomendable. Esta última clase fue combinada con lavenenosa. La Guía de donde se obtuvieron los datos explica que no existe una regla simple paradeterminar si un hongo es ingerible o no.Resultados Magdalena Servente 103

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteb) AtributosForma_sombreroacampanada, cónica, convexa, chata, abotonada, hundidaSuperficie_sombreroFibrosa, ranurada, escamosa, suaveColor_sombreromarrón, piel, canela, gris, verde, rosa, violeta, rojo, blanco, amarilloMagulladurasSi, noOlorAlmendra, anís, creosota, pescado, hediondo, mohoso, ninguno,punzante, especiosoTipo_membranaAdherida, descendente, libre, muescadaEspaciado_membranaCercano, poblado, distanteTamaño_membranaAncha, finaColor_membranaNegro, marron, piel, chocolate, gris, verde, naranja, rosa, violeta, rojo,blanco, amarilloForma_troncoAbultada, cónicaRaiz_tronco bulbosa, agarrotada, copa, igual, rizomorfa, arraizada, ?Superfice_tronco_arriba_anillo Fibrosa, escamosa, sedosa, suaveSuperfice_tronco_debajo_anillo Fibrosa, escamosa, sedosa, suaveColor_tronco_arriba_anillo Marron, piel, canela, gris, naranja, rosa, rojo, blanco, amarilloColor_tronco_debajo_anillo Marron, piel, canela, gris, naranja, rosa, rojo, blanco, amarilloTipo_veloParcial, universalColor_veloMarrón, naranja, blanco, amarilloCantidad_anillosNinguno, uno, dosTipo_anilloTejido, evanescente, resplandeciente, grande, ninguno, pendiente,cubierto, zonalColor_esporasNegra, marrón, piel, chocolate, verde, naranja, violeta, blanco,amarilloPoblacionabundante, agrupada, numerosa, dispersa, varios, solitariaHabitatPastos, hojas, praderas, caminos, urbano, basura, bosquesCantidad de Atributos desconocidos: 2480 (denotados por un "?"), todos para el primer atributoc) Clases:Ingerible, Venenoso.d) Cantidad de instancias y distribución de las clases:Ingerible Venenoso TotalesEn el conjunto de entrenamiento 2805 2611 5416En el conjunto de prueba 1403 1305 2708Totales 4208 3916 81245.2.5. Elita: Base de Asteroidesa) DescripciónExisten muchas teorías físicas que clasifican a los distintos asteroides en familias identificadas por unelemento en particular. Esta base de datos, resultado de varias mediciones realizadas sobre múltiples104 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentevalores continuos, ayuda a clasificar los asteroides en familias. Según la teoría de Hirayama, que examinala distribución de los asteroides con respecto a sus elementos orbitales, en particular su movimientoprincipal, la inclinación y la excentricidad, permite identificar a las familias KORONIS, EOS, THEMIS,FLORA, MARIA y PHOCAEA. Esta teoría ha sido comprobada por Arnoldb) AtributosNombre:SemiejeExcentricidadInclinaciónseno_inclinacionargumento_perihelioResonanciadistancia_martedistancia_jupiterClave PrimariaContinuoContinuoContinuoContinuoContinuoContinuoContinuoContinuoc) Clases:Las clases representan las familias de asteroides a las cuales cada asteroide puede pertenecer.THEMIS, KORONIS, MARIA, EOS, PHOCAEA, FLORA.d) Cantidad de instancias y distribución de las clases:EOS FLORA KORONIS MARIA PHOCAEA THEMIS TotalesEn el conjunto de entrenamiento 44 103 25 13 23 45 253En el conjunto de prueba 22 53 12 7 11 22 127Totales 66 156 37 20 34 67 3805.2.6. Hipotiroidismoa) DescripciónEstos datos fueron obtenidos de un estudio realizado sobre múltiples pacientes que presentaban síntomasde hipotiroidismo en el Garvan Institute.b) AtributosEdad:continuoSexo: M, F.Toma tiroxina: f, v.Duda sobre tiroxina: f, v.Toma medicación antitiroídea: f, v.Enfermo: f, v.Resultados Magdalena Servente 105

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEmbarazada: f, v.Cirugía tiroídea: f, v.Tratamiento I131: f, v.Es hipotiroide: f, v.Es hipertiroide: f, v.Litio: f, v.bocio: f, v.tumor: f, v.Hipopituitario: f, v.Psicológico: f, v.Medición TSH: f, v.TSH:continuoMedición T3: f, v.T3: ContinuoMedición TT4: f, v.TT4:Continuo.Medición T4U: f, v.T4U:Continuo.Medición FTI: f, v.FTI:Continuo.Medición TBG: f, v.TBG:Continuo.Fuente de referencia:WEST, STMW, SVHC, SVI, SVHD, otros.c) Clases:hipertiroide, hipotiroide primario, hipotiroide compensado, hipotiroide secundario, negativod) Cantidad de instancias y distribución de las clases:Hipertiroide Hipotiroide Hipotiroide Hipotiroide Negativo Totalesprimario compensado secundarioEn el conjunto de entrenamiento 0 64 129 1 2320 2514En el conjunto de prueba 0 31 65 1 1161 1258Totales 0 95 194 2 3481 37725.2.7. Identificación de vidriosa) DescripciónEsta base de datos sirve para clasificar un vidrio como flotante o no. Dicha información es muyimportante para los investigadores criminológicos, ya que cualquier vidrio dejado en la escena del crimensirve como evidencia, si está correctamente clasificado. Los datos fueron obtenidos del Central ResearchEstablishment, Home Office Forensic Science Service de Aldermaston, Reading, Berkshire.106 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteb) AtributosIdIR (índice de refracción)Na (Sodio medido como el porcentaje del peso del óxidocorrespondiente, esto se aplica para los demás minerales)Mg (Magnesio)Al (Aluminio)Si (Silicio)K (Potasio)Ca (Calcio)Ba (Bario)Fe (Hierro)Clave Primariacontinuocontinuocontinuocontinuocontinuocontinuocontinuocontinuocontinuoc) Clases:vidrios_float_para_construcciones, vidrios_para_construcciones_no_float, vidrios_float_para_vehículos,vidrios_para_vehículos_no_float, contenedores, vajilla, lamparitasd) Cantidad de instancias y distribución de las clases:En el conjuntodeentrenamientoEn el conjuntode pruebaVidrios float para Vidrios para Vidrios float contenedo vajilla lamparitas Totalesconstrucciones construccionesno floatpara vehículos res47 51 11 9 6 19 14323 25 6 4 3 10 71Totales 70 76 17 13 9 29 2145.3. RESULTADOS OBTENIDOS CON EL ID3A continuación se presentan los resultados obtenidos con el ID3 en cada uno de los dominios analizados.Cada uno de los resultados consiste en un árbol de decisión, un conjunto de reglas de decisión y unamatriz de resultados obtenida al aplicar los modelos sobre los datos de prueba. Dicha matriz informa porcada clase, la cantidad de instancias del conjunto de prueba que fueron clasificadas correctamente, lacantidad que fueron clasificadas erróneamente y la probabilidad de que una nueva instancia seaclasificada correctamente.Resultados Magdalena Servente 107

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.3.1. Créditos5.3.1.1. ID3 utilizando la ganancia como criterio de decisiónÁrbol de decisiónOtros_Creditos = DOS CREDITOSComposición_Familiar = CASADO SIN HIJOSSIComposición_Familiar = CASADO Y DOS HIJOSIngreso = ENTRE 451 Y 550Vivienda = ALQUILANOVivienda = PROPIA 0 IPVUServicios = BASICOS Y TICSIServicios = BASICOS, TIC Y TELNOIngreso = MAS DE 551SIComposición_Familiar = CASADO Y UN HIJOSIComposición_Familiar = SOLTEROVivienda = ALQUILAIngreso = ENTRE 451 Y 550SIIngreso = MAS DE 551NOVivienda = PROPIA 0 IPVUSIOtros_Creditos = TRES CREDITOSNOOtros_Creditos = UN CREDITOComposición_Familiar = CASADO SIN HIJOSSIComposición_Familiar = CASADO Y DOS HIJOSIngreso = ENTRE 451 Y 550Vivienda = ALQUILANOVivienda = PROPIA 0 IPVUSIIngreso = MAS DE 551SIComposición_Familiar = CASADO Y UN HIJOSIComposición_Familiar = SOLTEROSIReglas de decisiónRegla 0SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO SIN HIJOSENTONCES Otorga_Creditos = SIRegla 1SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = ALQUILAENTONCES Otorga_Creditos = NORegla 2SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUY Servicios = BASICOS Y TICENTONCES Otorga_Creditos = SI108 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 3SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUY Servicios = BASICOS, TIC Y TELENTONCES Otorga_Creditos = NORegla 4SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = SIRegla 5SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y UN HIJOENTONCES Otorga_Creditos = SIRegla 6SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = ALQUILAY Ingreso = ENTRE 451 Y 550ENTONCES Otorga_Creditos = SIRegla 7SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = ALQUILAY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = NORegla 8SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = PROPIA 0 IPVUENTONCES Otorga_Creditos = SIRegla 9SI Otros_Creditos = TRES CREDITOSENTONCES Otorga_Creditos = NORegla 10SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO SIN HIJOSENTONCES Otorga_Creditos = SIRegla 11SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = ALQUILAENTONCES Otorga_Creditos = NORegla 12SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUENTONCES Otorga_Creditos = SIRegla 13SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = SIRegla 14SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y UN HIJOENTONCES Otorga_Creditos = SIRegla 15SI Otros_Creditos = UN CREDITOY Composición_Familiar = SOLTEROResultados Magdalena Servente 109

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteENTONCES Otorga_Creditos = SIEvaluación de los resultadosClases Correctos Errores ProbabilidadNO 16 0 1SI 17 18 0,485714Totales 33 18 0,6470585.3.1.2. ID3 utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónOtros_Creditos = DOS CREDITOSComposición_Familiar = CASADO SIN HIJOSSIComposición_Familiar = CASADO Y DOS HIJOSIngreso = ENTRE 451 Y 550Vivienda = ALQUILANOVivienda = PROPIA 0 IPVUServicios = BASICOS Y TICSIServicios = BASICOS, TIC Y TELNOIngreso = MAS DE 551SIComposición_Familiar = CASADO Y UN HIJOSIComposición_Familiar = SOLTEROVivienda = ALQUILAIngreso = ENTRE 451 Y 550SIIngreso = MAS DE 551NOVivienda = PROPIA 0 IPVUSIOtros_Creditos = TRES CREDITOSNOOtros_Creditos = UN CREDITOComposición_Familiar = CASADO SIN HIJOSSIComposición_Familiar = CASADO Y DOS HIJOSIngreso = ENTRE 451 Y 550Vivienda = ALQUILANOVivienda = PROPIA 0 IPVUSIIngreso = MAS DE 551SIComposición_Familiar = CASADO Y UN HIJOSIComposición_Familiar = SOLTEROSIReglas de decisión110 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 0SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO SIN HIJOSENTONCES Otorga_Creditos = SIRegla 1SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = ALQUILAENTONCES Otorga_Creditos = NORegla 2SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUY Servicios = BASICOS Y TICENTONCES Otorga_Creditos = SIRegla 3SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUY Servicios = BASICOS, TIC Y TELENTONCES Otorga_Creditos = NORegla 4SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = SIRegla 5SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = CASADO Y UN HIJOENTONCES Otorga_Creditos = SIRegla 6SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = ALQUILAY Ingreso = ENTRE 451 Y 550ENTONCES Otorga_Creditos = SIRegla 7SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = ALQUILAY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = NORegla 8SI Otros_Creditos = DOS CREDITOSY Composición_Familiar = SOLTEROY Vivienda = PROPIA 0 IPVUENTONCES Otorga_Creditos = SIRegla 9SI Otros_Creditos = TRES CREDITOSENTONCES Otorga_Creditos = NORegla 10SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO SIN HIJOSENTONCES Otorga_Creditos = SIRegla 11SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = ALQUILAENTONCES Otorga_Creditos = NORegla 12SI Otros_Creditos = UN CREDITOResultados Magdalena Servente 111

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = ENTRE 451 Y 550Y Vivienda = PROPIA 0 IPVUENTONCES Otorga_Creditos = SIRegla 13SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y DOS HIJOSY Ingreso = MAS DE 551ENTONCES Otorga_Creditos = SIRegla 14SI Otros_Creditos = UN CREDITOY Composición_Familiar = CASADO Y UN HIJOENTONCES Otorga_Creditos = SIRegla 15SI Otros_Creditos = UN CREDITOY Composición_Familiar = SOLTEROENTONCES Otorga_Creditos = SIEvaluación de los resultadosClases Correctos Errores ProbabilidadNO 16 0 1SI 17 18 0,485714Totales 33 18 0,6470585.3.1.3. ConclusionesEn este caso, tanto el árbol como las reglas obtenidas mediante el ID3 son idénticos para la ganancia ypara la proporción de ganancia. Si analizamos la tabla de evaluación de los resultados, vemos que elclasificador 3 obtenido es excelente para clasificar la clase “NO”, pero sólo es exitoso en un 50% de loscasos de la clase “SI”. Es decir, que un nuevo caso de clase “NO” tiene una probabilidad de 1 de serclasificado correctamente. Mientras que un nuevo caso de clase “SI”, tiene solamente una probabilidaddel 0,49 de ser clasificado como “SI”.Creemos que este fenómeno puede deberse a una mala elección de los datos de entrenamiento y prueba.Un clasificador exitoso sobre los datos de entrenamiento, será exitoso sobre los demás conjuntos de datosen la medida en que los datos de entrenamiento sean representativos de los otros conjuntos. Supongamosque tenemos para un dominio hipotético, los siguientes datos de entrenamiento:Atributo A Atributo B Clase1 5 NO1 90 NO3 En el caso del ID3, por clasificador nos referiremos tanto al árbol como a las reglas obtenidas, ya es indistinto utilizar uno u otropara clasificar nuevos casos.112 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente2 90 SIA partir de estos datos, el ID3 generaría las siguientes reglas de decisión:1. SI Atributo A =1 ENTONCES Clase=”NO”2. SI Atributo A =2 ENTONCES Clase=”SI”Si aplicamos el clasificador a la siguiente tupla de prueba: {2,3,”NO”}, el resultado será erróneo. Si todoslos casos de prueba de clase “NO” tuviesen valores distintos de 1 para el atributo A, entonces laperformance de los modelos obtenidos sobre estos datos de prueba sería poco alentadora. El conjunto deentrenamiento en ese caso no sería representativo de los conjuntos en el cual se aplicó el clasificador.Entonces, podemos conjeturar que la performance de los clasificadores generados por el ID3 para eldominio Créditos, puede deberse a que los datos de entrenamiento no eran representativos de los datos deprueba. Podemos extrapolar, este problema de representatividad de los datos de aprendizaje a loshumanos: no podemos enseñarle a un niño el concepto de pájaro mostrándole sólo distintas clases depingüinos, ya que cuando vea cualquier otro pájaro como una golondrina, un gorrión o una paloma,pensará que no son pájaros; para él los pájaros no vuelan, son gordos, grandes y caminan por el hielo.5.3.2. Cardiología5.3.2.1. ID3 utilizando la ganancia como criterio de decisiónÁrbol de decisiónDURACION_DEL_ANGOR = MAS DE 30 MINDOLOR_DE_PECHO_DE_ANGOR = ATIPICOIRRADIACION_DEL_ANGOR = NORESPUESTA_VASODILATADORA = NEGATIVONORESPUESTA_VASODILATADORA = POSITIVOSIIRRADIACION_DEL_ANGOR = SISIDOLOR_DE_PECHO_DE_ANGOR = AUSENTENODOLOR_DE_PECHO_DE_ANGOR = TIPICOANGOR_EN_RELACION = CON ESFUERZORESPUESTA_VASODILATADORA = NEGATIVOSIRESPUESTA_VASODILATADORA = POSITIVOIRRADIACION_DEL_ANGOR = NONOIRRADIACION_DEL_ANGOR = SISIANGOR_EN_RELACION = EN REPOSOSIDURACION_DEL_ANGOR = MENOS DE 30 MINDOLOR_DE_PECHO_DE_ANGOR = ATIPICOResultados Magdalena Servente 113

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteNODOLOR_DE_PECHO_DE_ANGOR = AUSENTENODOLOR_DE_PECHO_DE_ANGOR = TIPICOIRRADIACION_DEL_ANGOR = NOANTIGÜEDAD_DEL_ANGOR = MAS DE 1 MESNOANTIGÜEDAD_DEL_ANGOR = RECIENTEANGOR_EN_RELACION = CON ESFUERZOSIANGOR_EN_RELACION = EN REPOSONOIRRADIACION_DEL_ANGOR = SINOReglas de decisiónRegla 0SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = NOY RESPUESTA_VASODILATADORA = NEGATIVOENTONCES DIAGNOSTICO = NORegla 1SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = NOY RESPUESTA_VASODILATADORA = POSITIVOENTONCES DIAGNOSTICO = SIRegla 2SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = SIENTONCES DIAGNOSTICO = SIRegla 3SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = AUSENTEENTONCES DIAGNOSTICO = NORegla 4SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = NEGATIVOENTONCES DIAGNOSTICO = SIRegla 5SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = POSITIVOY IRRADIACION_DEL_ANGOR = NOENTONCES DIAGNOSTICO = NORegla 6SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = POSITIVOY IRRADIACION_DEL_ANGOR = SIENTONCES DIAGNOSTICO = SIRegla 7SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = EN REPOSOENTONCES DIAGNOSTICO = SI114 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 8SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOENTONCES DIAGNOSTICO = NORegla 9SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = AUSENTEENTONCES DIAGNOSTICO = NORegla 10SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = MAS DE 1 MESENTONCES DIAGNOSTICO = NORegla 11SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = RECIENTEY ANGOR_EN_RELACION = CON ESFUERZOENTONCES DIAGNOSTICO = SIRegla 12SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = RECIENTEY ANGOR_EN_RELACION = EN REPOSOENTONCES DIAGNOSTICO = NORegla 13SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = SIENTONCES DIAGNOSTICO = NOEvaluación de los resultadosClases Correctos Errores ProbabilidadNO 20 2 0,909090SI 9 0 1Totales 29 2 0,9354835.3.2.2. ID3 utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónDURACION_DEL_ANGOR = MAS DE 30 MINDOLOR_DE_PECHO_DE_ANGOR = ATIPICOIRRADIACION_DEL_ANGOR = NORESPUESTA_VASODILATADORA = NEGATIVONORESPUESTA_VASODILATADORA = POSITIVOSIIRRADIACION_DEL_ANGOR = SISIDOLOR_DE_PECHO_DE_ANGOR = AUSENTENODOLOR_DE_PECHO_DE_ANGOR = TIPICOANGOR_EN_RELACION = CON ESFUERZORESPUESTA_VASODILATADORA = NEGATIVOSIResultados Magdalena Servente 115

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRESPUESTA_VASODILATADORA = POSITIVOIRRADIACION_DEL_ANGOR = NONOIRRADIACION_DEL_ANGOR = SISIANGOR_EN_RELACION = EN REPOSOSIDURACION_DEL_ANGOR = MENOS DE 30 MINDOLOR_DE_PECHO_DE_ANGOR = ATIPICONODOLOR_DE_PECHO_DE_ANGOR = AUSENTENODOLOR_DE_PECHO_DE_ANGOR = TIPICOIRRADIACION_DEL_ANGOR = NOANTIGÜEDAD_DEL_ANGOR = MAS DE 1 MESNOANTIGÜEDAD_DEL_ANGOR = RECIENTEANGOR_EN_RELACION = CON ESFUERZOSIANGOR_EN_RELACION = EN REPOSONOIRRADIACION_DEL_ANGOR = SINOReglas de decisiónRegla 0SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = NOY RESPUESTA_VASODILATADORA = NEGATIVOENTONCES DIAGNOSTICO = NORegla 1SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = NOY RESPUESTA_VASODILATADORA = POSITIVOENTONCES DIAGNOSTICO = SIRegla 2SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOY IRRADIACION_DEL_ANGOR = SIENTONCES DIAGNOSTICO = SIRegla 3SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = AUSENTEENTONCES DIAGNOSTICO = NORegla 4SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = NEGATIVOENTONCES DIAGNOSTICO = SIRegla 5SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = POSITIVOY IRRADIACION_DEL_ANGOR = NOENTONCES DIAGNOSTICO = NORegla 6SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = CON ESFUERZOY RESPUESTA_VASODILATADORA = POSITIVOY IRRADIACION_DEL_ANGOR = SI116 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteENTONCES DIAGNOSTICO = SIRegla 7SI DURACION_DEL_ANGOR = MAS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY ANGOR_EN_RELACION = EN REPOSOENTONCES DIAGNOSTICO = SIRegla 8SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = ATIPICOENTONCES DIAGNOSTICO = NORegla 9SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = AUSENTEENTONCES DIAGNOSTICO = NORegla 10SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = MAS DE 1 MESENTONCES DIAGNOSTICO = NORegla 11SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = RECIENTEY ANGOR_EN_RELACION = CON ESFUERZOENTONCES DIAGNOSTICO = SIRegla 12SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = NOY ANTIGÜEDAD_DEL_ANGOR = RECIENTEY ANGOR_EN_RELACION = EN REPOSOENTONCES DIAGNOSTICO = NORegla 13SI DURACION_DEL_ANGOR = MENOS DE 30 MINY DOLOR_DE_PECHO_DE_ANGOR = TIPICOY IRRADIACION_DEL_ANGOR = SIENTONCES DIAGNOSTICO = NOEvaluación de los resultadosClases Correctos Errores ProbabilidadNO 20 2 0,909090SI 9 0 1Totales 29 2 0,9354835.3.2.3. ConclusionesAl igual que en el caso anterior, vemos que tanto el árbol como las reglas de decisión obtenidas soniguales para el criterio de ganancia como para el de proporción de ganancia. En este caso, no obstante, laperformance del clasificador es notablemente mejor que en el caso anterior. El modelo generado tiene un93% de probabilidad de clasificar correctamente un caso negativo, y un 100% de clasificar correctamenteuno positivo.Resultados Magdalena Servente 117

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCabe destacar que la cantidad de casos de entrenamiento es menor a la del caso anterior y no obstante lacantidad de reglas obtenidas es 13, contra 15 obtenidas en el caso anterior. Entonces, podríamos concluir,grosso modo, que la cantidad de datos de entrada no es proporcional al tamaño del árbol ni la cantidad dereglas obtenidas.5.3.3. Votaciones5.3.4.1. ID3 utilizando la ganancia como criterio de decisiónÁrbol de decisiónCong_honorarios_medicos = a_favorReduccion_corp_Synfuels = a_favorExport_sin_impuestos = a_favordemocrataExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contraPresupuesto_de_educacion = a_favorDer_demanda_Superfund = a_favorParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contraActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidorepublicanoActa_sudaf_admin_export = en_contraNiños discapacitados = a_favorrepublicanoNiños discapacitados = en_contrademocrataDer_demanda_Superfund = en_contrademocrataPresupuesto_de_educacion = desconocidodemocrataPresupuesto_de_educacion = en_contraActa_sudaf_admin_export = a_favorAdop_resolucion_presup = a_favorrepublicanoAdop_resolucion_presup = en_contraAyuda_a_El_Salvador = a_favorrepublicanoAyuda_a_El_Salvador = en_contrademocrataActa_sudaf_admin_export = desconocidodemocrataActa_sudaf_admin_export = en_contrademocrataReduccion_corp_Synfuels = desconocidorepublicanoReduccion_corp_Synfuels = en_contraExport_sin_impuestos = a_favorInmigracion = a_favorrepublicanoInmigracion = en_contraActa_sudaf_admin_export = a_favordemocrataActa_sudaf_admin_export = desconocidoParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contrademocrataActa_sudaf_admin_export = en_contrarepublicanoExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contra118 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteAdop_resolucion_presup = a_favorActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidoNiños discapacitados = a_favorrepublicanoNiños discapacitados = en_contrademocrataAdop_resolucion_presup = en_contrarepublicanoCong_honorarios_medicos = desconocidoMisil_mx = a_favorProhib_pruebas_anti_satel = a_favordemocrataProhib_pruebas_anti_satel = desconocidodemocrataProhib_pruebas_anti_satel = en_contrarepublicanoMisil_mx = desconocidorepublicanoMisil_mx = en_contrademocrataCong_honorarios_medicos = en_contraPresupuesto_de_educacion = a_favordemocrataPresupuesto_de_educacion = desconocidoAdop_resolucion_presup = a_favordemocrataAdop_resolucion_presup = en_contrarepublicanoPresupuesto_de_educacion = en_contrademocrataReglas de decisiónRegla 0SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = a_favorENTONCES Clase = democrataRegla 1SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = desconocidoENTONCES Clase = republicanoRegla 2SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = a_favorENTONCES Clase = republicanoRegla 3SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = a_favorENTONCES Clase = republicanoRegla 4SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorResultados Magdalena Servente 119

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = desconocidoENTONCES Clase = republicanoRegla 5SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = en_contraY Niños discapacitados = a_favorENTONCES Clase = republicanoRegla 6SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = en_contraY Niños discapacitados = en_contraENTONCES Clase = democrataRegla 7SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = en_contraENTONCES Clase = democrataRegla 8SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = desconocidoENTONCES Clase = democrataRegla 9SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = a_favorENTONCES Clase = republicanoRegla 10SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = en_contraY Ayuda_a_El_Salvador = a_favorENTONCES Clase = republicanoRegla 11SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = en_contraY Ayuda_a_El_Salvador = en_contraENTONCES Clase = democrataRegla 12SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = desconocidoENTONCES Clase = democrata120 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 13SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = en_contraENTONCES Clase = democrataRegla 14SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = desconocidoENTONCES Clase = republicanoRegla 15SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = a_favorENTONCES Clase = republicanoRegla 16SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = a_favorENTONCES Clase = democrataRegla 17SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = desconocidoY Particip_proy_agua = a_favorENTONCES Clase = republicanoRegla 18SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = desconocidoY Particip_proy_agua = en_contraENTONCES Clase = democrataRegla 19SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = en_contraENTONCES Clase = republicanoRegla 20SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = desconocidoENTONCES Clase = republicanoRegla 21SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = a_favorENTONCES Clase = republicanoRegla 22SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = desconocidoY Niños discapacitados = a_favorENTONCES Clase = republicanoResultados Magdalena Servente 121

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 23SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = desconocidoY Niños discapacitados = en_contraENTONCES Clase = democrataRegla 24SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = en_contraENTONCES Clase = republicanoRegla 25SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = a_favorENTONCES Clase = democrataRegla 26SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = desconocidoENTONCES Clase = democrataRegla 27SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = en_contraENTONCES Clase = republicanoRegla 28SI Cong_honorarios_medicos = desconocidoY Misil_mx = desconocidoENTONCES Clase = republicanoRegla 29SI Cong_honorarios_medicos = desconocidoY Misil_mx = en_contraENTONCES Clase = democrataRegla 30SI Cong_honorarios_medicos = en_contraY Presupuesto_de_educacion = a_favorENTONCES Clase = democrataRegla 31SI Cong_honorarios_medicos = en_contraY Presupuesto_de_educacion = desconocidoY Adop_resolucion_presup = a_favorENTONCES Clase = democrataRegla 32SI Cong_honorarios_medicos = en_contraY Presupuesto_de_educacion = desconocidoY Adop_resolucion_presup = en_contraENTONCES Clase = republicanoRegla 33SI Cong_honorarios_medicos = en_contraY Presupuesto_de_educacion = en_contraENTONCES Clase = democrataEvaluación de los resultadosClases Correctos Errores Probabilidad122 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDemócrata 81 2 0,9759036Republicano 47 5 0,903846Totales 128 7 0,9481485.3.4.2. ID3 utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónCong_honorarios_medicos = a_favorReduccion_corp_Synfuels = a_favorExport_sin_impuestos = a_favordemocrataExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contraPresupuesto_de_educacion = a_favorDer_demanda_Superfund = a_favorParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contraActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidorepublicanoActa_sudaf_admin_export = en_contraNiños discapacitados = a_favorrepublicanoNiños discapacitados = en_contrademocrataDer_demanda_Superfund = en_contrademocrataPresupuesto_de_educacion = desconocidodemocrataPresupuesto_de_educacion = en_contraActa_sudaf_admin_export = a_favorAdop_resolucion_presup = a_favorrepublicanoAdop_resolucion_presup = en_contraAyuda_a_El_Salvador = a_favorrepublicanoAyuda_a_El_Salvador = en_contrademocrataActa_sudaf_admin_export = desconocidodemocrataActa_sudaf_admin_export = en_contrademocrataReduccion_corp_Synfuels = desconocidorepublicanoReduccion_corp_Synfuels = en_contraExport_sin_impuestos = a_favorInmigracion = a_favorrepublicanoInmigracion = en_contraActa_sudaf_admin_export = a_favordemocrataActa_sudaf_admin_export = desconocidoParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contrademocrataActa_sudaf_admin_export = en_contrarepublicanoExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contraAdop_resolucion_presup = a_favorActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidoNiños discapacitados = a_favorResultados Magdalena Servente 123

Algoritmos TDIDT aplicados a la Minería de Datos InteligenterepublicanoNiños discapacitados = en_contrademocrataAdop_resolucion_presup = en_contrarepublicanoCong_honorarios_medicos = desconocidoMisil_mx = a_favorProhib_pruebas_anti_satel = a_favordemocrataProhib_pruebas_anti_satel = desconocidodemocrataProhib_pruebas_anti_satel = en_contrarepublicanoMisil_mx = desconocidorepublicanoMisil_mx = en_contrademocrataCong_honorarios_medicos = en_contraAdop_resolucion_presup = a_favordemocrataAdop_resolucion_presup = desconocidodemocrataAdop_resolucion_presup = en_contraPresupuesto_de_educacion = a_favordemocrataPresupuesto_de_educacion = desconocidorepublicanoPresupuesto_de_educacion = en_contrademocrataReglas de decisiónRegla 0SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = a_favorENTONCES Clase = democrataRegla 1SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = desconocidoENTONCES Clase = republicanoRegla 2SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = a_favorENTONCES Clase = republicanoRegla 3SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = a_favorENTONCES Clase = republicanoRegla 4SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = desconocidoENTONCES Clase = republicano124 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 5SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = en_contraY Niños discapacitados = a_favorENTONCES Clase = republicanoRegla 6SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = a_favorY Particip_proy_agua = en_contraY Acta_sudaf_admin_export = en_contraY Niños discapacitados = en_contraENTONCES Clase = democrataRegla 7SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = a_favorY Der_demanda_Superfund = en_contraENTONCES Clase = democrataRegla 8SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = desconocidoENTONCES Clase = democrataRegla 9SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = a_favorENTONCES Clase = republicanoRegla 10SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = en_contraY Ayuda_a_El_Salvador = a_favorENTONCES Clase = republicanoRegla 11SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = a_favorY Adop_resolucion_presup = en_contraY Ayuda_a_El_Salvador = en_contraENTONCES Clase = democrataRegla 12SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = desconocidoENTONCES Clase = democrataRegla 13Resultados Magdalena Servente 125

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = a_favorY Export_sin_impuestos = en_contraY Presupuesto_de_educacion = en_contraY Acta_sudaf_admin_export = en_contraENTONCES Clase = democrataRegla 14SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = desconocidoENTONCES Clase = republicanoRegla 15SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = a_favorENTONCES Clase = republicanoRegla 16SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = a_favorENTONCES Clase = democrataRegla 17SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = desconocidoY Particip_proy_agua = a_favorENTONCES Clase = republicanoRegla 18SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = desconocidoY Particip_proy_agua = en_contraENTONCES Clase = democrataRegla 19SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = a_favorY Inmigracion = en_contraY Acta_sudaf_admin_export = en_contraENTONCES Clase = republicanoRegla 20SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = desconocidoENTONCES Clase = republicanoRegla 21SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = a_favorENTONCES Clase = republicanoRegla 22SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = desconocidoY Niños discapacitados = a_favorENTONCES Clase = republicano126 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 23SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = a_favorY Acta_sudaf_admin_export = desconocidoY Niños discapacitados = en_contraENTONCES Clase = democrataRegla 24SI Cong_honorarios_medicos = a_favorY Reduccion_corp_Synfuels = en_contraY Export_sin_impuestos = en_contraY Adop_resolucion_presup = en_contraENTONCES Clase = republicanoRegla 25SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = a_favorENTONCES Clase = democrataRegla 26SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = desconocidoENTONCES Clase = democrataRegla 27SI Cong_honorarios_medicos = desconocidoY Misil_mx = a_favorY Prohib_pruebas_anti_satel = en_contraENTONCES Clase = republicanoRegla 28SI Cong_honorarios_medicos = desconocidoY Misil_mx = desconocidoENTONCES Clase = republicanoRegla 29SI Cong_honorarios_medicos = desconocidoY Misil_mx = en_contraENTONCES Clase = democrataRegla 30SI Cong_honorarios_medicos = en_contraY Adop_resolucion_presup = a_favorENTONCES Clase = democrataRegla 31SI Cong_honorarios_medicos = en_contraY Adop_resolucion_presup = desconocidoENTONCES Clase = democrataRegla 32SI Cong_honorarios_medicos = en_contraY Adop_resolucion_presup = en_contraY Presupuesto_de_educacion = a_favorENTONCES Clase = democrataRegla 33SI Cong_honorarios_medicos = en_contraY Adop_resolucion_presup = en_contraY Presupuesto_de_educacion = desconocidoENTONCES Clase = republicanoRegla 34SI Cong_honorarios_medicos = en_contraY Adop_resolucion_presup = en_contraY Presupuesto_de_educacion = en_contraENTONCES Clase = democrataEvaluación de los resultadosResultados Magdalena Servente 127

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClases Correctos Errores ProbabilidadDemócrata 81 2 0,9759036Republicano 47 5 0,903846Totales 128 7 0,9481485.3.4.3. ConclusionesEn comparación con los dominios anteriores, los modelos obtenidos en este caso son de gran tamaño. Losárboles de decisión tienen un tamaño de 57 y 58 para la ganancia y proporción de gananciarespectivamente, y se obtuvieron 34 reglas con la ganancia y 35 con la proporción de ganancia. Losmodelos generados utilizando la ganancia y la proporción de ganancia son muy similares. Si analizamoslos árboles de decisión, vemos que esta diferencia en tamaño se origina en la ramaCong_honorarios_medicos=a_favor, donde el atributo Presupuesto_de_educacion genera la mayorganancia, y el atributo Adop_resolucion_presup genera la mayor proporción de ganancia.Si miramos los tamaños de los modelos obtenidos a la luz de los dominios analizados anteriormente,podríamos decir que, en este caso, los modelos obtenidos son de mayor tamaño porque el sistema analizóuna mayor cantidad de datos de entrenamiento. Con lo cual, nuestra hipótesis acerca de que la cantidad dedatos de entrenamiento no afecta el tamaño de los modelos generados se vería afectada. Podríamos hilarmás fino, tomando la nueva hipótesis de que la cantidad de datos de entrenamiento influye en el tamañode los modelos generados, en la medida en que analizamos grandes diferencias en la cantidad de datos deentrenamiento. En cambio, cuando estas diferencias son más pequeñas, la cantidad de datos deentrenamiento no influye. Es decir, si construimos un modelo a partir de 400 datos de entrenamiento,obtenemos árboles de decisión del orden de X; y si construimos un modelo a partir de 40 datos deentrenamiento, obtenemos árboles de decisión del orden de Y, siendo Y menor que X. Sin embargo, siconstruimos un árbol de decisión a partir de 450 datos de entrenamiento, probablemente el árbol tenga untamaño del orden de X; y si lo construimos a partir de 35 datos de entrenamiento, uno de orden Y.En cuanto a la proporción de error sobre los datos de prueba, es de 5.19% en todos los casos. Además, laprobabilidad de clasificar un caso de prueba correctamente es alta para ambas clases.128 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.3.4. Estudio sobre hongos5.3.4.1. ID3 utilizando la ganancia como criterio de decisiónÁrbol de decisiónOlor = almendraingeribleOlor = anisingeribleOlor = creosotavenenosoOlor = especiosovenenosoOlor = hediondovenenosoOlor = mohosovenenosoOlor = ningunoColor_sombrero = amarillovenenosoColor_sombrero = blancoMagulladuras = noingeribleMagulladuras = sivenenosoColor_sombrero = canelaingeribleColor_sombrero = grisingeribleColor_sombrero = marronSup_tronco_arriba_anillo = escamosaingeribleSup_tronco_arriba_anillo = fibrosaingeribleSup_tronco_arriba_anillo = sedosavenenosoSup_tronco_arriba_anillo = suaveingeribleColor_sombrero = pielForma_sombrero = abotonadaingeribleForma_sombrero = acampanadavenenosoForma_sombrero = chataingeribleForma_sombrero = convexaingeribleColor_sombrero = rojoingeribleColor_sombrero = rosaColor_esporas = blancaingeribleColor_esporas = verdevenenosoColor_sombrero = verdeingeribleColor_sombrero = violetaingeribleOlor = pescadovenenosoOlor = punzanteVenenosoReglas de decisiónRegla 0SI Olor = almendraENTONCES Tipo_Hongo = ingeribleResultados Magdalena Servente 129

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 1SI Olor = anisENTONCES Tipo_Hongo = ingeribleRegla 2SI Olor = creosotaENTONCES Tipo_Hongo = venenosoRegla 3SI Olor = especiosoENTONCES Tipo_Hongo = venenosoRegla 4SI Olor = hediondoENTONCES Tipo_Hongo = venenosoRegla 5SI Olor = mohosoENTONCES Tipo_Hongo = venenosoRegla 6SI Olor = ningunoY Color_sombrero = amarilloENTONCES Tipo_Hongo = venenosoRegla 7SI Olor = ningunoY Color_sombrero = blancoY Magulladuras = noENTONCES Tipo_Hongo = ingeribleRegla 8SI Olor = ningunoY Color_sombrero = blancoY Magulladuras = siENTONCES Tipo_Hongo = venenosoRegla 9SI Olor = ningunoY Color_sombrero = canelaENTONCES Tipo_Hongo = ingeribleRegla 10SI Olor = ningunoY Color_sombrero = grisENTONCES Tipo_Hongo = ingeribleRegla 11SI Olor = ningunoY Color_sombrero = marronY Sup_tronco_arriba_anillo = escamosaENTONCES Tipo_Hongo = ingeribleRegla 12SI Olor = ningunoY Color_sombrero = marronY Sup_tronco_arriba_anillo = fibrosaENTONCES Tipo_Hongo = ingeribleRegla 13SI Olor = ningunoY Color_sombrero = marronY Sup_tronco_arriba_anillo = sedosaENTONCES Tipo_Hongo = venenosoRegla 14SI Olor = ningunoY Color_sombrero = marronY Sup_tronco_arriba_anillo = suaveENTONCES Tipo_Hongo = ingeribleRegla 15SI Olor = ningunoY Color_sombrero = pielY Forma_sombrero = abotonadaENTONCES Tipo_Hongo = ingerible130 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 16SI Olor = ningunoY Color_sombrero = pielY Forma_sombrero = acampanadaENTONCES Tipo_Hongo = venenosoRegla 17SI Olor = ningunoY Color_sombrero = pielY Forma_sombrero = chataENTONCES Tipo_Hongo = ingeribleRegla 18SI Olor = ningunoY Color_sombrero = pielY Forma_sombrero = convexaENTONCES Tipo_Hongo = ingeribleRegla 19SI Olor = ningunoY Color_sombrero = rojoENTONCES Tipo_Hongo = ingeribleRegla 20SI Olor = ningunoY Color_sombrero = rosaY Color_esporas = blancaENTONCES Tipo_Hongo = ingeribleRegla 21SI Olor = ningunoY Color_sombrero = rosaY Color_esporas = verdeENTONCES Tipo_Hongo = venenosoRegla 22SI Olor = ningunoY Color_sombrero = verdeENTONCES Tipo_Hongo = ingeribleRegla 23SI Olor = ningunoY Color_sombrero = violetaENTONCES Tipo_Hongo = ingeribleRegla 24SI Olor = pescadoENTONCES Tipo_Hongo = venenosoRegla 25SI Olor = punzanteENTONCES Tipo_Hongo = venenosoEvaluación de los resultadosClases Correctos Errores ProbabilidadIngerible 1403 0 1Venenoso 1293 12 0,990804Totales 2696 12 0,995568Resultados Magdalena Servente 131

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.3.4.2 ID3. utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónOlor = almendraingeribleOlor = anisingeribleOlor = creosotavenenosoOlor = especiosovenenosoOlor = hediondovenenosoOlor = mohosovenenosoOlor = ningunoColor_velo = amarillovenenosoColor_velo = blancoTamaño_membrana = anchaColor_esporas = blancaingeribleColor_esporas = marroningeribleColor_esporas = negroingeribleColor_esporas = verdevenenosoTamaño_membrana = finaMagulladuras = noSup_tronco_arriba_anillo = fibrosaingeribleSup_tronco_arriba_anillo = sedosavenenosoSup_tronco_arriba_anillo = suaveingeribleMagulladuras = sivenenosoColor_velo = marroningeribleColor_velo = naranjaingeribleOlor = pescadovenenosoOlor = punzantevenenosoReglas de decisiónRegla 0SI Olor = almendraENTONCES Tipo_Hongo = ingeribleRegla 1SI Olor = anisENTONCES Tipo_Hongo = ingeribleRegla 2SI Olor = creosotaENTONCES Tipo_Hongo = venenosoRegla 3SI Olor = especiosoENTONCES Tipo_Hongo = venenosoRegla 4SI Olor = hediondoENTONCES Tipo_Hongo = venenoso132 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 5SI Olor = mohosoENTONCES Tipo_Hongo = venenosoRegla 6SI Olor = ningunoY Color_velo = amarilloENTONCES Tipo_Hongo = venenosoRegla 7SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = anchaY Color_esporas = blancaENTONCES Tipo_Hongo = ingeribleRegla 8SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = anchaY Color_esporas = marronENTONCES Tipo_Hongo = ingeribleRegla 9SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = anchaY Color_esporas = negroENTONCES Tipo_Hongo = ingeribleRegla 10SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = anchaY Color_esporas = verdeENTONCES Tipo_Hongo = venenosoRegla 11SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = finaY Magulladuras = noY Sup_tronco_arriba_anillo = fibrosaENTONCES Tipo_Hongo = ingeribleRegla 12SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = finaY Magulladuras = noY Sup_tronco_arriba_anillo = sedosaENTONCES Tipo_Hongo = venenosoRegla 13SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = finaY Magulladuras = noY Sup_tronco_arriba_anillo = suaveENTONCES Tipo_Hongo = ingeribleRegla 14SI Olor = ningunoY Color_velo = blancoY Tamaño_membrana = finaY Magulladuras = siENTONCES Tipo_Hongo = venenosoRegla 15SI Olor = ningunoY Color_velo = marronENTONCES Tipo_Hongo = ingeribleRegla 16SI Olor = ningunoY Color_velo = naranjaENTONCES Tipo_Hongo = ingeribleResultados Magdalena Servente 133

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 17SI Olor = pescadoENTONCES Tipo_Hongo = venenosoRegla 18SI Olor = punzanteENTONCES Tipo_Hongo = venenosoEvaluación de los resultadosClases Correctos Errores ProbabilidadIngerible 1403 0 1Venenoso 1305 0 1Totales 2708 0 15.3.4.3. ConclusionesLos resultados obtenidos en este dominio son muy interesantes. Vemos que los árboles de decisión y, araíz de ello las reglas, no son iguales para el caso de la ganancia y de la proporción de ganancia. Sianalizamos los árboles, vemos que en primer término, el atributo olor es el que más información brindatanto utilizando la ganancia como la proporción de ganancia como medidores de información. Pero unavez en el caso de los ejemplos que tienen olor=ninguno, la ganancia considera que el atributocolor_sombrero es el que brinda más información, mientras que la proporción de ganancia considera queel atributo color_velo brinda más información que los demás. Analizando el archivo de log generado porel programa (sección 4.5.2.1.8) para el caso de los ejemplos que tienen olor=ninguno, tenemos:División Según Ganancia Proporción de gananciaColor_sombrero 0,0370 0,079699Color_velo 0,02376 0,2295He aquí la diferencia en la elección de atributos de división para ambos medidores de información. Sianalizamos las características de los datos, vemos que el atributo color_sombrero toma diez valoresdistintos, mientras que el atributo Color_velo toma cuatro valores distintos. Recordemos que la gananciafavorece a los atributos con más valores y esa es la razón por la que se comenzó a utilizar la proporciónde ganancia, que promedia o normaliza, el cálculo de la ganancia de información en un conjunto de datos.Este es un ejemplo claro del porqué de esta tendencia.A pesar de esta diferencia entre los modelos obtenidos en uno y otro caso, vemos que la proporción deerror en ambos casos es baja. Con lo cual, aunque la ganancia favorezca a los atributos con mayorcantidad de valores posibles, no podemos afirmar que esto influya en gran medida en el análisis sobre losdatos de prueba. Para el clasificador obtenido mediante la proporción de ganancia no se realizaron erroresal clasificar los casos de prueba.134 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.4. RESULTADOS OBTENIDOS CON EL C4.5A continuación, se presentan los resultados obtenidos con el sistema C4.5. Se realizaron pruebas sobre losmismos dominios que para el sistema ID3 y para otros dominios que presentan atributos continuos. Aligual que en el caso anterior, se presentan los resultados para el sistema utilizando la ganancia y laproporción de ganancia para medir la ganancia de información en cada paso del algoritmo.5.4.1. Créditos5.4.1.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisiónOtros Creditos = TRES CREDITOS: NO (23.0)Otros Creditos = UN CREDITO:Composición Familiar = SOLTERO: SI (10.0)Composición Familiar = CASADO SIN HIJOS: SI (10.0)Composición Familiar = CASADO Y UN HIJO: SI (10.0)Composición Familiar = CASADO Y DOS HIJOS:Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: SI (5.0)Ingreso = ENTRE 451 Y 550:Vivienda = ALQUILA: NO (2.0)Vivienda = PROPIA 0 IPVU: SI (2.0)Otros Creditos = DOS CREDITOS:Composición Familiar = CASADO SIN HIJOS: SI (9.0)Composición Familiar = CASADO Y UN HIJO: SI (9.0)Composición Familiar = SOLTERO:Vivienda = PROPIA 0 IPVU: SI (6.0)Vivienda = ALQUILA:Ingreso = ENTRE 451 Y 550: SI (2.0)Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: NO (2.0)Composición Familiar = CASADO Y DOS HIJOS:Ingreso = ENTRE 451 Y 550: NO (4.0/1.0)Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: SI (5.0)Árbol de decisión simplificadoOtros Creditos = UN CREDITO: SI (39.0/3.8)Otros Creditos = DOS CREDITOS: SI (37.0/7.2)Otros Creditos = TRES CREDITOS: NO (23.0/1.3)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Resultados Magdalena Servente 135

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteAntes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 1 (1.0%) 4 7 (7.1%) (12.4%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 19 (37.3%) 4 22 (43.1%) (12.4%)Clasificación general en los datos de prueba:Clasificado como SI Clasificado como NOClase SI 17 18Clase NO 4 12Reglas de decisiónRegla 12SI Otros Creditos = TRES CREDITOSENTONCES clase=NO [94.2%]Regla 2SI Ingreso = ENTRE 451 Y 550Y Composición Familiar = CASADO Y DOS HIJOSY Vivienda = ALQUILAENTONCES clase=NO [79.4%]Regla 6SI Ingreso = MAS DE 551Y Composición Familiar = SOLTEROY Vivienda = ALQUILAY Otros Creditos = DOS CREDITOSENTONCES clase=NO [50.0%]Regla 1SI Otros Creditos = UN CREDITOY clase=SI [90.3%]Regla 11SI Otros Creditos = DOS CREDITOSENTONCES clase=SI [80.6%]Regla 13Clase=SI136 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase12 1 5.8% 23 0(0.0%) 21(21|0) NO2 3 20.6% 4 0(0.0%) 4(4|0) NO6 4 50.0% 2 0(0.0%) 2(2|0) NO1 1 9.7% 37 0(0.0%) 0(0|0) SI11 1 19.4% 33 1(3.0%) 0(0|0) SIProbadas 99, errores 1 (1.0%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase12 1 5.8% 30 18(60.0%) -8(10|18) NO2 3 20.6% 2 0(0.0%) 2(2|0) NO6 4 50.0% 2 0(0.0%) 2(2|0) NO1 1 9.7% 8 0(0.0%) 0(0|0) SI11 1 19.4% 9 0(0.0%) 0(0|0) SIProbadas 51, errores 18 (35.3%)Clasificación general de los datos de prueba:Clasificado como SI Clasificado como NOClase SI 17 18Clase NO 0 165.4.1.2. Utilizando la proporción de ganancia como criterio de decisiónÁrbol de decisiónOtros Creditos = TRES CREDITOS: NO (23.0)Otros Creditos = UN CREDITO:Composición Familiar = SOLTERO: SI (10.0)Composición Familiar = CASADO SIN HIJOS: SI (10.0)Composición Familiar = CASADO Y UN HIJO: SI (10.0)Composición Familiar = CASADO Y DOS HIJOS:Vivienda = PROPIA 0 IPVU: SI (5.0)Vivienda = ALQUILA:Ingreso = ENTRE 451 Y 550: NO (2.0)Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: SI (2.0)Otros Creditos = DOS CREDITOS:Composición Familiar = CASADO SIN HIJOS: SI (9.0)Composición Familiar = CASADO Y UN HIJO: SI (9.0)Composición Familiar = SOLTERO:Vivienda = PROPIA 0 IPVU: SI (6.0)Vivienda = ALQUILA:Ingreso = ENTRE 451 Y 550: SI (2.0)Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: NO (2.0)Resultados Magdalena Servente 137

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteComposición Familiar = CASADO Y DOS HIJOS:Ingreso = ENTRE 451 Y 550: NO (4.0/1.0)Ingreso = ENTRE 451 Y 550: SI (0.0)Ingreso = MAS DE 551: SI (5.0)Árbol de decisión simplificadoOtros Creditos = UN CREDITO: SI (39.0/3.8)Otros Creditos = DOS CREDITOS: SI (37.0/7.2)Otros Creditos = TRES CREDITOS: NO (23.0/1.3)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 1 (1.0%) 4 7 (7.1%) (12.4%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 19 (37.3%) 4 22 (43.1%) (12.4%)Clasificación general de los datos de prueba:Clasificado como SI Clasificado como NOClase SI 17 18Clase NO 4 12Reglas de decisiónRegla 12SI Otros Creditos = TRES CREDITOSENTONCES clase=NO [94.2%]Regla 2SI Ingreso = ENTRE 451 Y 550Y Composición Familiar = CASADO Y DOS HIJOSY Vivienda = ALQUILAENTONCES clase=NO [79.4%]Regla 6SI Ingreso = MAS DE 551138 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteY Composición Familiar = SOLTEROY Vivienda = ALQUILAY Otros Creditos = DOS CREDITOSENTONCES clase=NO [50.0%]Regla 1SI Otros Creditos = UN CREDITOENTOCNES clase=SI [90.3%]Regla 11SI Otros Creditos = DOS CREDITOSENTONCES clase=SI [80.6%]Regla 13clase=SIEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase12 1 5.8% 23 0(0.0%) 21(21|0) NO2 3 20.6% 4 0(0.0%) 4(4|0) NO6 4 50.0% 2 0(0.0%) 2(2|0) NO1 1 9.7% 37 0(0.0%) 0(0|0) SI11 1 19.4% 33 1(3.0%) 0(0|0) SIProbadas 99, errores 1 (1.0%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase12 1 5.8% 30 18(60.0%) -8(10|18) NO2 3 20.6% 2 0(0.0%) 2(2|0) NO6 4 50.0% 2 0(0.0%) 2(2|0) NO1 1 9.7% 8 0(0.0%) 0(0|0) SI11 1 19.4% 9 0(0.0%) 0(0|0) SIProbadas 51, errores 18 (35.3%)Clasificación general de los datos de prueba:Clasificado como SI Clasificado como NOClase SI 17 18Clase NO 0 165.4.1.3. ConclusionesLos árboles de decisión sin simplificar obtenidos utilizando la ganancia y la proporción de ganancia sediferencian solamente en la rama de “Otros Créditos=UN CRÉDITO y Composición Familiar=CASADOY DOS HIJOS”. Al llegar a este punto, se encontró que la mayor ganancia se obtenía dividiendo a losResultados Magdalena Servente 139

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentedatos según el atributo Ingreso, mientras que la mayor proporción de ganancia se obtuvo con el atributoVivienda. A pesar de estas diferencias encontradas en los árboles sin simplificar, los árbolessimplificados son idénticos y tienen un único nodo, lo cual los hace muy fáciles de comprender.En cuanto a las reglas obtenidas, son idénticas en ambos casos. Cabe destacar que, como el árbol dedecisión simplificado es tan simple, el modelo de clasificación ofrecido en ese caso se entiende másrápidamente que el conjunto de reglas de decisión.Analicemos la columna ventaja de la tabla de resultados para las reglas de decisión. Recordemos que laventaja se expresa de la forma a(b|c) donde b es la cantidad de casos que serían clasificados erróneamentepor las reglas siguientes, de omitirse esa regla; c es la cantidad de casos que serían clasificadoscorrectamente; y a es el beneficio neto de omitir la regla. En el caso de la regla 12, tenemos un beneficioneto negativo, con lo cual, a pesar de que con los métodos utilizados por el C4.5 se consideró que no eraconveniente eliminarla, de utilizar este modelo para clasificar nuevos casos, debería analizarse laposibilidad de no tener esta regla en cuenta y trabajar con un modelo más simple.En cuanto al valor E asociado, en el árbol original representa la cantidad de casos cubiertos por una hojaque pertenece a una clase diferente de la indicada por la misma. Mientras que en el caso del árbol podado,E es la cantidad de errores predichos, según la distribución binomial, en dicha hoja si un conjunto de Nnuevos casos fuesen evaluados por el árbol. Recordemos que los valores E tienen especial importancia, yaque el estimador del éxito del modelo obtenido se calcula realizando la sumatoria de todos los valores E ydividiéndola por la cantidad de casos de entrenamiento. En este caso, la estimación del éxito del modeloes de un 12.4%.5.4.2. Cardiología5.4.2.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisiónDuración del Angor = MENOS DE 30 MIN: NO (33.0/1.0)Duración del Angor = MAS DE 30 MIN:Dolor de Pecho de Angor = TIPICO: SI (11.0/1.0)Dolor de Pecho de Angor = AUSENTE: NO (11.0)Dolor de Pecho de Angor = ATIPICO:Irradiación del Angor = SI: SI (5.0)Irradiación del Angor = NO:Respuesta Vasodilatadora = POSITIVO: SI (2.0)Respuesta Vasodilatadora = NEGATIVO: NO (2.0)Evaluación de los resultados del árbol de decisión140 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación10 2 (3.1%) 10 2 (3.1%) (14.9%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación10 2 (6.5%) 10 2 (6.5%) (14.9%)Clasificación general en los datos de prueba:Clasificado como SI Clasificado como NOClase SI 8 1Clase NO 1 21Reglas de decisiónRegla 2SI Dolor de Pecho de Angor = TIPICOY Duración del Angor = MAS DE 30 MINENTONCES clase=SI [77.7%]Regla 3SI Dolor de Pecho de Angor = ATIPICOY Irradiación del Angor = SIY Duración del Angor = MAS DE 30 MINENTONCES clase=SI [75.8%]Regla 4SI Dolor de Pecho de Angor = ATIPICOY Duración del Angor = MAS DE 30 MINY Respuesta Vasodilatadora = POSITIVOENTONCES clase=SI [75.8%]Regla 6SI Dolor de Pecho de Angor = AUSENTEENTONCES clase=NO [93.9%]Regla 1SI Duración del Angor = MENOS DE 30 MINENTONCES clase=NO [92.2%]Regla 5SI Dolor de Pecho de Angor = ATIPICOY Irradiación del Angor = NOY Respuesta Vasodilatadora = NEGATIVOENTONCES clase=NO [75.8%]Regla 7Clase=NOResultados Magdalena Servente 141

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase2 2 22.3% 11 1(9.1%) 9(10|1) SI3 3 24.2% 5 0(0.0%) 2(2|0) SI4 3 24.2% 2 0(0.0%) 2(2|0) SI6 1 6.1% 22 0(0.0%) 0(0|0) NO1 1 7.8% 22 1(4.5%) 0(0|0) NO5 3 24.2% 2 0(0.0%) 0(0|0) NOProbadas 64, errores 2 (3.1%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase2 2 22.3% 3 0(0.0%) 3(3|0) SI3 3 24.2% 3 0(0.0%) 2(2|0) SI4 3 24.2% 3 1(33.3%) 1(2|1) SI6 1 6.1% 10 0(0.0%) 0(0|0) NO1 1 7.8% 11 1(9.1%) 0(0|0) NO5 3 24.2% 1 0(0.0%) 0(0|0) NOProbadas 31, errores 2 (6.5%)Clasificación general en los datos de prueba:Clasificado como SI Clasificado como NOClase SI 8 1Clase NO 1 215.4.2.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónDuración del Angor = MENOS DE 30 MIN: NO (33.0/1.0)Duración del Angor = MAS DE 30 MIN:Dolor de Pecho de Angor = TIPICO: SI (11.0/1.0)Dolor de Pecho de Angor = AUSENTE: NO (11.0)Dolor de Pecho de Angor = ATIPICO:Respuesta Vasodilatadora = POSITIVO: SI (5.0)Respuesta Vasodilatadora = NEGATIVO:Irradiación del Angor = SI: SI (2.0)Irradiación del Angor = NO: NO (2.0)Evaluación de los resultados del árbol de decisión142 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación10 2 (3.1%) 10 2 (3.1%) (14.9%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación10 2 (6.5%) 10 2 (6.5%) (14.9%)Clasificación general en los datos de prueba:Clasificado como SI Clasificado como NOClase SI 8 1Clase NO 1 21Reglas de decisiónRegla 2SI Dolor de Pecho de Angor = TIPICOY Duración del Angor = MAS DE 30 MINENTONCES clase=SI [77.7%]Regla 3SI Dolor de Pecho de Angor = ATIPICOY Duración del Angor = MAS DE 30 MINY Respuesta Vasodilatadora = POSITIVOENTONCES clase=SI [75.8%]Regla 4SI Dolor de Pecho de Angor = ATIPICOY Irradiación del Angor = SIY Duración del Angor = MAS DE 30 MINENTONCES clase=SI [75.8%]Regla 6SI Dolor de Pecho de Angor = AUSENTEENTONCES clase=NO [93.9%]Regla 1SI Duración del Angor = MENOS DE 30 MINENTONCES clase=NO [92.2%]Regla 5SI Dolor de Pecho de Angor = ATIPICOY Irradiación del Angor = NOY Respuesta Vasodilatadora = NEGATIVOENTONCES clase=NO [75.8%]Regla 7Clase= NOResultados Magdalena Servente 143

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase2 2 22.3% 11 1(9.1%) 9(10|1) SI3 3 24.2% 5 0(0.0%) 2(2|0) SI4 3 24.2% 2 0(0.0%) 2(2|0) SI6 1 6.1% 22 0(0.0%) 0(0|0) NO1 1 7.8% 22 1(4.5%) 0(0|0) NO5 3 24.2% 2 0(0.0%) 0(0|0) NOProbadas 64, errores 2 (3.1%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase2 2 22.3% 3 0(0.0%) 3(3|0) SI3 3 24.2% 4 1(25.0%) 1(2|1) SI4 3 24.2% 2 0(0.0%) 2(2|0) SI6 1 6.1% 10 0(0.0%) 0(0|0) NO1 1 7.8% 11 1(9.1%) 0(0|0) NO5 3 24.2% 1 0(0.0%) 0(0|0) NOProbadas 31, errores 2 (6.5%)Clasificación general en los datos de prueba:Clasificado como SI Clasificado como NOClase SI 8 1Clase NO 1 215.4.2.3. ConclusionesEn este caso, tanto los árboles de decisión como las reglas que derivan de ellos, difieren entre la gananciay la proporción de ganancia. Esta diferencia surge del hecho de que frente a una misma situación(Duración del Angor=MAS DE 30 MIN Y Dolor de Pecho de Angor=Atipico), la ganancia y laproporción de ganancia son distintas. Se obtuvo mejor proporción de ganancia con el atributo RespuestaVasodilatadora, y mejor ganancia con el atributo Irradiación de Pecho de Angor. No obstante, al igual queen el caso del dominio de Estudio sobre Hongos utilizando el ID3, esta diferencia no influye en lasproporciones de error de los modelos.Podemos encontrar la misma diferencia en las reglas de decisión. Y, al igual que en el caso anterior, noinfluye en gran medida en la performance de los clasificadores sobre los datos de prueba144 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteNotemos que en este caso los árboles de decisión no han sido podados. Dada su simplicidad, esto no fuenecesario.5.4.3. Votaciones5.4.3.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisióncong_honorarios_medicos = en_contra: democrata (168.0/1.0)cong_honorarios_medicos = a_favor:reduccion_corp_Synfuels = en_contra: republicano (97.0/3.0)reduccion_corp_Synfuels = desconocido: republicano (4.0)reduccion_corp_Synfuels = a_favor:export_sin_impuestos = a_favor: democrata (2.0)export_sin_impuestos = desconocido: republicano (1.0)export_sin_impuestos = en_contra:presupuesto_de_educación = a_favor: republicano (13.0/2.0)presupuesto_de_educación = en_contra: democrata (5.0/2.0)presupuesto_de_educación = desconocido: democrata (1.0)cong_honorarios_medicos = desconocido:misil_mx = a_favor: democrata (4.0/1.0)misil_mx = en_contra: democrata (3.0)misil_mx = desconocido: republicano (2.0)Árbol de decisión simplificadocong_honorarios_medicos = a_favor: republicano (123.0/13.9)cong_honorarios_medicos = en_contra: democrata (168.0/2.6)cong_honorarios_medicos = desconocido:misil_mx = a_favor: democrata (4.0/2.2)misil_mx = en_contra: democrata (3.0/1.1)misil_mx = desconocido: republicano (2.0/1.0)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación16 9 (3.0%) 7 13 (4.3%) (6.9%)Evaluación sobre los datos de prueba:Antes de podarDespués de podarResultados Magdalena Servente 145

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteTamaño Errores Tamaño Errores Estimación16 7 (5.2%) 7 4 (3.0%) (6.9%)Clasificación general en los datos de prueba:Clasificado como demócrata Clasificado como republicanoClase demócrata 80 3Clase republicano 1 51Reglas de decisiónRegla 7SI cong_honorarios_medicos = en_contraENTONCES clase=democrata [98.4%]Regla 3SI reduccion_corp_Synfuels = a_favorY presupuesto_de_educación = en_contraENTONCES clase=democrata [94.3%]Regla 9SI cong_honorarios_medicos = desconocidoY misil_mx = en_contraENTONCES clase=democrata [63.0%]Regla 5SI cong_honorarios_medicos = a_favorENTONCES clase=republicano [88.7%]Regla 10SI cong_honorarios_medicos = desconocidoY misil_mx = desconocidoENTONCES clase=republicano [50.0%]Regla 11clase=democrataEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase7 1 1.6% 168 1(0.6%) 0(0|0) Demócrata3 2 5.7% 8 2(25.0%) 2(4|2) Demócrata9 2 37.0% 2 0(0.0%) 0(0|0) Demócrata5 1 11.3% 117 7(6.0%) 103(110|7) Republicano10 2 50.0% 2 0(0.0%) 2(2|0) RepublicanoProbadas 300, errores 11 (3.7%)Evaluación sobre los datos de prueba:146 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla Tamaño Error Usada Errores Ventaja Clase7 1 1.6% 79 1(1.3%) 0(0|0) Demócrata3 2 5.7% 3 1(33.3%) -1(0|1) Demócrata5 1 11.3% 53 3(5.7%) 47(50|3) RepublicanoProbadas 135, errores 5 (3.7%)Clasificación general en los datos de prueba:Clasificado como demócrata Clasificado como republicanoClase demócrata 80 3Clase republicano 2 505.4.3.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisióncong_honorarios_medicos = a_favor:reduccion_corp_Synfuels = en_contra: republicano (97.0/3.0)reduccion_corp_Synfuels = desconocido: republicano (4.0)reduccion_corp_Synfuels = a_favor:export_sin_impuestos = a_favor: democrata (2.0)export_sin_impuestos = desconocido: republicano (1.0)export_sin_impuestos = en_contra:presupuesto_de_educación = a_favor: republicano (13.0/2.0)presupuesto_de_educación = en_contra: democrata (5.0/2.0)presupuesto_de_educación = desconocido: democrata (1.0)cong_honorarios_medicos = en_contra:adop_resolucion_presup = a_favor: democrata (151.0)adop_resolucion_presup = desconocido: democrata (1.0)adop_resolucion_presup = en_contra:presupuesto_de_educación = a_favor: democrata (9.0)presupuesto_de_educación = en_contra: democrata (6.0)presupuesto_de_educación = desconocido: republicano (1.0)cong_honorarios_medicos = desconocido:particip_proy_agua = a_favor: democrata (4.0)particip_proy_agua = en_contra: democrata (0.0)particip_proy_agua = desconocido:misil_mx = a_favor: democrata (3.0/1.0)misil_mx = en_contra: republicano (0.0)misil_mx = desconocido: republicano (2.0)Árbol de decisión simplificadocong_honorarios_medicos = a_favor: republicano (123.0/13.9)cong_honorarios_medicos = en_contra: democrata (168.0/2.6)cong_honorarios_medicos = desconocido:misil_mx = a_favor: democrata (4.0/2.2)misil_mx = en_contra: democrata (3.0/1.1)misil_mx = desconocido: republicano (2.0/1.0)Evaluación de los resultados del árbol de decisiónResultados Magdalena Servente 147

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 8 (2.7%) 7 13 (4.3%) (6.9%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación25 7 (5.2%) 7 4 (3.0%) (6.9%)Clasificación general en los datos de prueba:Clasificado como demócrata Clasificado como republicanoClase demócrata 80 3Clase republicano 1 51Reglas de decisiónRegla 1SI reduccion_corp_Synfuels = a_favorY export_sin_impuestos = a_favorENTONCES clase=democrata [97.5%]Regla 11SI particip_proy_agua = a_favorY cong_honorarios_medicos = desconocidoENTONCES clase=democrata [70.7%]Regla 6SI cong_honorarios_medicos = a_favorY reduccion_corp_Synfuels = en_contraENTONCES clase=republicano [94.8%]Regla 2SI cong_honorarios_medicos = a_favorY presupuesto_de_educación = a_favorY export_sin_impuestos = en_contraENTONCES clase=republicano [94.0%]Regla 10SI adop_resolucion_presup = en_contraY presupuesto_de_educación = desconocidoENTONCES clase=republicano [82.0%]Regla 13SI cong_honorarios_medicos = desconocidoY misil_mx = desconocidoENTONCES clase=republicano [50.0%]Regla 14clase=democrata148 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase1 2 2.5% 54 0(0.0%) 0(0|0) Demócrata11 2 29.3% 3 0(0.0%) 0(0|0) Demócrata6 2 5.2% 97 3(3.1%) 21(23|2) Republicano2 3 6.0% 15 2(13.3%) 11(13|2) Republicano10 2 18.0% 3 0(0.0%) 3(3|0) Republicano13 2 50.0% 2 0(0.0%) 2(2|0) RepublicanoProbadas 300, errores 9 (3.0%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase1 2 2.5% 24 2(8.3%) 0(0|0) Demócrata11 2 29.3% 1 0(0.0%) 0(0|0) Demócrata6 2 5.2% 41 0(0.0%) 6(6|0) Republicano2 3 6.0% 8 3(37.5%) 2(5|3) Republicano10 2 18.0% 2 0(0.0%) 2(2|0) RepublicanoProbadas 135, errores 7 (5.2%)Clasificación general en los datos de prueba:Clasificado como demócrata Clasificado como republicanoClase demócrata 80 3Clase republicano 4 485.4.3.3. ConclusionesLos resultados obtenidos en este dominio con el C4.5 parecen satisfactorios a simple vista, ya que laproporción de error no supera el 6% en ninguno de los casos. En cuanto a los árboles de decisiónsimplificados son iguales para la ganancia y para la proporción de ganancia. No obstante, en los árbolessin simplificar hay una diferencia de tamaño: el árbol obtenido con la ganancia es de tamaño menor que elobtenido con la proporción de ganancia. Esto se debe a que en la ramacong_honorarios_medicos=desconocido en la ganancia se optó por dividir al conjunto según el atributomisil_mx, y en la proporción de ganancia se los dividió según particip_proy_agua y luego en uno de loscasos por misil_mx. Esta diferencia de tamaño no influye en la performance de los árboles. Es decir, nosencontramos ante dos árboles de igual porcentaje de error, pero de distinto tamaño. Con lo cual, de tenerque optar entre ambos, eligiríamos el obtenido con la ganancia.Resultados Magdalena Servente 149

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEn cuanto a las reglas de decisión, las primeras, derivadas utilizando la ganancia, tienen una proporciónde error similar a la de los árboles y son menos que las obtenidas con la proporción de ganancia. Estassegundas, tienen una mayor proporción de error. Nuevamente, en este caso, eligiríamos las obtenidasutilizando la ganancia.5.4.4. Estudio sobre hongos5.4.4.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisiónOlor = almendra: ingerible (168.0)Olor = anis: ingerible (178.0)Olor = creosota: venenoso (37.0)Olor = pescado: venenoso (489.0)Olor = hediondo: venenoso (1348.0)Olor = mohoso: venenoso (36.0)Olor = punzante: venenoso (164.0)Olor = especioso: venenoso (516.0)Olor = ninguno:Color_sombrero = canela: ingerible (28.0)Color_sombrero = gris: ingerible (716.0)Color_sombrero = verde: ingerible (14.0)Color_sombrero = violeta: ingerible (9.0)Color_sombrero = rojo: ingerible (483.0)Color_sombrero = amarillo: venenoso (10.0)Color_sombrero = marron:Sup_tronco_arriba_anillo = fibrosa: ingerible (87.0)Sup_tronco_arriba_anillo = escamosa: ingerible (13.0)Sup_tronco_arriba_anillo = sedosa: venenoso (3.0)Sup_tronco_arriba_anillo = suave: ingerible (744.0)Color_sombrero = piel:Tipo_anillo = tejido: ingerible (0.0)Tipo_anillo = evanescente: ingerible (41.0)Tipo_anillo = resplandescient: ingerible (0.0)Tipo_anillo = grande: ingerible (0.0)Tipo_anillo = ninguno: ingerible (0.0)Tipo_anillo = pendiente: venenoso (2.0)Tipo_anillo = cubierto: ingerible (0.0)Tipo_anillo = zonal: ingerible (0.0)Color_sombrero = rosa:Color_esporas = negro: ingerible (0.0)Color_esporas = marron: ingerible (0.0)Color_esporas = piel: ingerible (0.0)Color_esporas = chocolate: ingerible (0.0)Color_esporas = verde: venenoso (2.0)Color_esporas = naranja: ingerible (0.0)Color_esporas = violeta: ingerible (0.0)Color_esporas = blanca: ingerible (49.0)Color_esporas = amarillo: ingerible (0.0)Color_sombrero = blanco:Habitat = pastos: ingerible (259.0)Habitat = hojas: venenoso (1.0)Habitat = praderas: venenoso (3.0)Habitat = caminos: ingerible (0.0)Habitat = urbano: ingerible (0.0)Habitat = basura: ingerible (0.0)Habitat = bosque: ingerible (16.0)150 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteÁrbol de decisión simplificado:Olor = almendra: ingerible (168.0/1.4)Olor = anis: ingerible (178.0/1.4)Olor = creosota: venenoso (37.0/1.4)Olor = pescado: venenoso (489.0/1.4)Olor = hediondo: venenoso (1348.0/1.4)Olor = mohoso: venenoso (36.0/1.4)Olor = punzante: venenoso (164.0/1.4)Olor = especioso: venenoso (516.0/1.4)Olor = ninguno:Color_sombrero = marron: ingerible (847.0/5.1)Color_sombrero = canela: ingerible (28.0/1.4)Color_sombrero = gris: ingerible (716.0/1.4)Color_sombrero = verde: ingerible (14.0/1.3)Color_sombrero = violeta: ingerible (9.0/1.3)Color_sombrero = rojo: ingerible (483.0/1.4)Color_sombrero = amarillo: venenoso (10.0/1.3)Color_sombrero = piel:Tipo_anillo = tejido: ingerible (0.0)Tipo_anillo = evanescente: ingerible (41.0/1.4)Tipo_anillo = resplandescient: ingerible (0.0)Tipo_anillo = grande: ingerible (0.0)Tipo_anillo = ninguno: ingerible (0.0)Tipo_anillo = pendiente: venenoso (2.0/1.0)Tipo_anillo = cubierto: ingerible (0.0)Tipo_anillo = zonal: ingerible (0.0)Color_sombrero = rosa:Color_esporas = negro: ingerible (0.0)Color_esporas = marron: ingerible (0.0)Color_esporas = piel: ingerible (0.0)Color_esporas = chocolate: ingerible (0.0)Color_esporas = verde: venenoso (2.0/1.0)Color_esporas = naranja: ingerible (0.0)Color_esporas = violeta: ingerible (0.0)Color_esporas = blanca: ingerible (49.0/1.4)Color_esporas = amarillo: ingerible (0.0)Color_sombrero = blanco:Habitat = pastos: ingerible (259.0/1.4)Habitat = hojas: venenoso (1.0/0.8)Habitat = praderas: venenoso (3.0/1.1)Habitat = caminos: ingerible (0.0)Habitat = urbano: ingerible (0.0)Habitat = basura: ingerible (0.0)Habitat = bosque: ingerible (16.0/1.3)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación48 0(0.0%) 44 3 (0.1%) (0.6%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación48 12 (0.4%) 44 25 (0.9%) (0.6%)Resultados Magdalena Servente 151

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación general sobre los datos de prueba:Clasificado como ingerible Clasificado como venenosoClase ingerible 1403 0Clase venenoso 25 1280Reglas de decisiónRegla 5SI Olor = hediondoENTONCES Tipo_hongo = venenoso [99.9%]Regla 23SI Olor = especiosoENTONCES Tipo_hongo = venenoso [99.7%]Regla 4SI Olor = pescadoENTONCES Tipo_hongo = venenoso [99.7%]Regla 9SI Color_sombrero = marronY Sup_tronco_arriba_anillo = sedosaENTONCES Tipo_hongo = venenoso [99.6%]Regla 22SI Olor = punzanteENTONCES Tipo_hongo = venenoso [99.2%]Regla 3SI Olor = creosotaENTONCES Tipo_hongo = venenoso [96.3%]Regla 6SI Olor = mohosoENTONCES Tipo_hongo = venenoso [96.2%]Regla 21SI Color_sombrero = amarilloY Olor = ningunoENTONCES Tipo_hongo = venenoso [87.1%]Regla 14SI Color_esporas = verdeENTONCES Tipo_hongo = venenoso [82.0%]Regla 2SI Olor = anisENTONCES Tipo_hongo = ingerible [99.2%]Regla 1SI Olor = almendraENTONCES Tipo_hongo = ingerible [99.2%]Regla 11SI Olor = ningunoENTONCES Tipo_hongo = ingerible [99.0%]Regla 24Tipo_hongo = ingerible152 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultadosEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase5 1 0.10% 1348 0(0.00%) 1228(1228|0) venenoso23 1 0.30% 516 0(0.00%) 400(400|0) venenoso4 1 0.30% 489 0(0.00%) 372(372|0) venenoso9 2 0.40% 15 0(0.00%) 3(3|0) venenoso22 1 0.80% 164 0(0.00%) 164(164|0) venenoso3 1 3.70% 37 0(0.00%) 37(37|0) venenoso6 1 3.80% 24 0(0.00%) 24(24|0) venenoso21 2 12.90% 10 0(0.00%) 10(10|0) venenoso14 1 18.00% 7 0(0.00%) 7(7|0) venenoso2 1 0.80% 178 0(0.00%) 0(0|0) ingerible1 1 0.80% 168 0(0.00%) 0(0|0) ingerible11 1 1.00% 2460 1(0.00%) 0(0|0) ingeribleProbadas 5416, errores 1 (0.00%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase5 1 0.10% 812 0(0.00%) 788(788|0) venenoso23 1 0.30% 60 0(0.00%) 32(32|0) venenoso4 1 0.30% 87 0(0.00%) 60(60|0) venenoso9 2 0.40% 13 0(0.00%) 13(13|0) venenoso22 1 0.80% 92 0(0.00%) 92(92|0) venenoso3 1 3.70% 155 0(0.00%) 155(155|0) venenoso21 2 12.90% 14 0(0.00%) 14(14|0) venenoso14 1 18.00% 65 0(0.00%) 65(65|0) venenoso2 1 0.80% 222 0(0.00%) 0(0|0) ingerible1 1 0.80% 232 0(0.00%) 0(0|0) ingerible11 1 1.00% 956 7(0.70%) 0(0|0) ingeribleProbadas 2708, errores 7 (0.30%)Clasificación general en los datos de prueba:Clasificado como ingerible Clasificado como venenosoClase ingerible 1403 0Clase venenoso 7 12985.4.4.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónOlor = almendra: ingerible (168.0)Resultados Magdalena Servente 153

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteOlor = anis: ingerible (178.0)Olor = creosota: venenoso (37.0)Olor = pescado: venenoso (489.0)Olor = hediondo: venenoso (1348.0)Olor = mohoso: venenoso (36.0)Olor = punzante: venenoso (164.0)Olor = especioso: venenoso (516.0)Olor = ninguno:Tamaño_membrana = ancha:Color_esporas = negro: ingerible (847.0)Color_esporas = marron: ingerible (921.0)Color_esporas = piel: ingerible (45.0)Color_esporas = chocolate: ingerible (0.0)Color_esporas = verde: venenoso (7.0)Color_esporas = naranja: ingerible (40.0)Color_esporas = violeta: ingerible (0.0)Color_esporas = blanca: ingerible (439.0)Color_esporas = amarillo: ingerible (43.0)Tamaño_membrana = fina:ColorTronco_arriba_anillo = marron: ingerible (0.0)ColorTronco_arriba_anillo = piel: ingerible (0.0)ColorTronco_arriba_anillo = canela: ingerible (0.0)ColorTronco_arriba_anillo = gris: ingerible (0.0)ColorTronco_arriba_anillo = naranja: ingerible (0.0)ColorTronco_arriba_anillo = rosa: ingerible (0.0)ColorTronco_arriba_anillo = rojo: ingerible (0.0)ColorTronco_arriba_anillo = amarillo: venenoso (8.0)ColorTronco_arriba_anillo = blanco:Sup_tronco_arriba_anillo = fibrosa: ingerible (21.0)Sup_tronco_arriba_anillo = escamosa: ingerible (0.0)Sup_tronco_arriba_anillo = sedosa: venenoso (5.0)Sup_tronco_arriba_anillo = suave:Poblacion = abundante: ingerible (0.0)Poblacion = agrupada: venenoso (1.0)Poblacion = numerosa: ingerible (0.0)Poblacion = dispersa: ingerible (0.0)Poblacion = varios: ingerible (63.0)Poblacion = solitaria: ingerible (40.0)Árbol de decisión simplificadoOlor = almendra: ingerible (168.0/1.4)Olor = anis: ingerible (178.0/1.4)Olor = creosota: venenoso (37.0/1.4)Olor = pescado: venenoso (489.0/1.4)Olor = hediondo: venenoso (1348.0/1.4)Olor = mohoso: venenoso (36.0/1.4)Olor = punzante: venenoso (164.0/1.4)Olor = especioso: venenoso (516.0/1.4)Olor = ninguno:Tamaño_membrana = ancha:Color_esporas = negro: ingerible (847.0/1.4)Color_esporas = marron: ingerible (921.0/1.4)Color_esporas = piel: ingerible (45.0/1.4)Color_esporas = chocolate: ingerible (0.0)Color_esporas = verde: venenoso (7.0/1.3)Color_esporas = naranja: ingerible (40.0/1.4)Color_esporas = violeta: ingerible (0.0)Color_esporas = blanca: ingerible (439.0/1.4)Color_esporas = amarillo: ingerible (43.0/1.4)Tamaño_membrana = fina:Sup_tronco_arriba_anillo = fibrosa: ingerible (21.0/1.3)Sup_tronco_arriba_anillo = escamosa: venenoso (8.0/1.3)Sup_tronco_arriba_anillo = sedosa: venenoso (5.0/1.2)Sup_tronco_arriba_anillo = suave: ingerible (104.0/2.6)154 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación40 0(0.0%) 25 1 (0.0%) (0.5%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación40 0 (0.0%) 25 7 (0.3%) (0.5%)Evaluación general sobre los datos de prueba:Clasificado como ingerible Clasificado como venenosoClase ingerible 1403 0Clase venenoso 7 1298Reglas de decisiónRegla 5SI Olor = hediondoENTONCES Tipo_Hongo = venenoso [99.9%]Regla 13SI Tamaño_membrana = finaY Sup_tronco_arriba_anillo = sedosaENTONCES Tipo_Hongo = venenoso [99.8%]Regla 19SI Olor = especiosoENTONCES Tipo_Hongo = venenoso [99.7%]Regla 4SI Olor = pescadoENTONCES Tipo_Hongo = venenoso [99.7%]Regla 18SI Olor = punzanteENTONCES Tipo_Hongo = venenoso [99.2%]Regla 3SI Olor = creosotaENTONCES Tipo_Hongo = venenoso [96.3%]Regla 6SI Olor = mohosoENTONCES Tipo_Hongo = venenoso [96.2%]Regla 17SI ColorTronco_arriba_anillo = amarilloENTONCES Tipo_Hongo = venenoso [84.1%]Resultados Magdalena Servente 155

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 10SI Color_esporas = verdeENTONCES Tipo_Hongo = venenoso [82.0%]Regla 9SI Olor = ningunoY Tamaño_membrana = anchaENTONCES Tipo_Hongo = ingerible [99.6%]Regla 15SI Olor = ningunoY Sup_tronco_arriba_anillo = suaveENTONCES Tipo_Hongo = ingerible [99.5%]Regla 12SI Olor = ningunoY Sup_tronco_arriba_anillo = fibrosaENTONCES Tipo_Hongo = ingerible [99.4%]Regla 2SI Olor = anisENTONCES Tipo_Hongo = ingerible [99.2%]Regla 1SI Olor = almendraENTONCES Tipo_Hongo = ingerible [99.2%]Regla 20Tipo_Hongo = ingeribleEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase5 1 0.10% 1348 0(0.00%) 1088(1088|0) venenoso13 2 0.20% 497 0(0.00%) 5(5|0) venenoso19 1 0.30% 261 0(0.00%) 261(261|0) venenoso4 1 0.30% 252 0(0.00%) 252(252|0) venenoso18 1 0.80% 164 0(0.00%) 164(164|0) venenoso3 1 3.70% 37 0(0.00%) 37(37|0) venenoso6 1 3.80% 36 0(0.00%) 36(36|0) venenoso17 1 15.90% 8 0(0.00%) 8(8|0) venenoso10 1 18.00% 7 0(0.00%) 7(7|0) venenoso9 2 0.40% 2335 0(0.00%) 0(0|0) ingerible15 2 0.50% 104 1(1.00%) 0(0|0) ingerible12 2 0.60% 21 0(0.00%) 0(0|0) ingerible2 1 0.80% 178 0(0.00%) 0(0|0) ingerible1 1 0.80% 168 0(0.00%) 0(0|0) ingeribleProbadas 5416, errores 1 (0.00%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase5 1 0.10% 812 0(0.00%) 784(784|0) venenoso13 2 0.20% 111 0(0.00%) 27(27|0) venenoso156 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente19 1 0.30% 27 0(0.00%) 27(27|0) venenoso4 1 0.30% 36 0(0.00%) 36(36|0) venenoso18 1 0.80% 92 0(0.00%) 92(92|0) venenoso3 1 3.70% 155 0(0.00%) 155(155|0) venenoso10 1 18.00% 65 0(0.00%) 65(65|0) venenoso9 2 0.40% 881 0(0.00%) 0(0|0) ingerible15 2 0.50% 72 7(9.70%) 0(0|0) ingerible12 2 0.60% 3 0(0.00%) 0(0|0) ingerible2 1 0.80% 222 0(0.00%) 0(0|0) ingerible1 1 0.80% 232 0(0.00%) 0(0|0) ingeribleProbadas 2708, errores 7 (0.30%)Clasificación general en los datos de prueba:Clasificado como ingerible Clasificado como venenosoClase ingerible 1403 0Clase venenoso 7 12985.4.4.3. ConclusionesEl árbol de decisión obtenido utilizando la ganancia como criterio de decisión es de mayor tamaño que elobtenido utilizando la proporción de ganancia. Esta diferencia se origina por la preferencia de la gananciapor atributos con más cantidad de valores. Veamos que en la rama Olor=ninguno, el método que utilizó laganancia dividió los datos según el atributo color_sombrero que toma diez valores distintos, mientras queel método que utilizó la proporción de ganancia, dividió los datos según el atributo Tamaño_membranaque tiene dos valores posibles. En este caso, el hecho de que un árbol sea de mayor tamaño no favorece laperformance del mismo: el segundo árbol, más pequeño, tuvo una mejor performance en los casos deprueba, ya que clasificó solo 7 de ellos erróneamente, mientras que el árbol generado con la gananciaclasificó 25 erróneamente. A pesar de esta diferencia, la estimación del error sobre futuros casos es muybuena para los dos árboles: del 0.6% para el generado utilizando la ganancia y del 0.5% para el generadoutilizando la proporción de ganancia.Cabe destacar que en el árbol de decisión generado utilizando la proporción de ganancia, el subárbololor=ninguno y tamaño_membrana=fina se simplificó por una rama hija, que no contiene al atributo porel cual se realizó la primera división. Es decir, en el árbol sin simplificar la división en el nodo encuestión se realizó según el atributo ColorTronco_arriba_anillo; este atributo no aparece en el árbolsimplificado.En cuanto a las reglas de decisión, a pesar de que las primeras fueron obtenidas a partir de un árbol demayor tamaño, son menos que la cantidad de reglas obtenidas a partir del segundo árbol. Sin embargo, laperformance sobre los datos de prueba fue igual en ambos casos.Resultados Magdalena Servente 157

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.4.5. Elita5.4.5.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisióndistancia_jupiter 5.42 : EOS (45.0/1.0)resonancia 0.2 :resonancia 11.51 :distancia_jupiter 0.24 : PHOCAEA (23.0)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación11 2(0.8%) 11 2(0.8%) (4.2%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación11 0 (0%) 11 0(0%) (4.2%)Evaluación general:Clasificadocomo EOSClasificadocomoFLORAClasificadocomoKORONISClasificadocomoMARIAClasificadocomoPHOCAEAClase EOS 22 0 0 0 0 0Clase FLORA 0 12 0 0 0 0Clase KORONIS 0 0 7 0 0 0Clase MARIA 0 0 0 22 0 0Clase PHOCAEA 0 0 0 0 11 0Clase THEMIS 0 0 0 0 0 53ClasificadocomoTHEMIS158 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteReglas de decisiónRegla 1SI resonancia 0.24ENTONCES Familia = PHOCAEA [94.2%]Regla 3SI resonancia > 5.42Y distancia_jupiter

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteProbadas 127, errores 1 (0.80%)Clasificación general sobre los datos de prueba:Clasificadocomo EOSClasificadocomoFLORAClasificadocomoKORONISClasificadocomoMARIAClasificadocomoPHOCAEAClase EOS 22 0 0 0 0 0Clase FLORA 0 12 0 0 0 1Clase KORONIS 0 0 7 0 0 0Clase MARIA 0 0 1 21 0 0Clase PHOCAEA 0 0 0 0 11 0Clase THEMIS 0 0 0 1 0 53Clasificado comoTHEMIS5.4.3.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisióndistancia_jupiter 5.42 : EOS (45.0/1.0)resonancia 0.2 :resonancia 11.51 :distancia_jupiter 0.24 : PHOCAEA (23.0)Evaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación11 2(0.8%) 11 2(0.8%) (4.2%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación11 0 (0%) 11 0(0%) (4.2%)160 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación general:Clasificad Clasificado Clasificado Clasificado Clasificado Clasificado como como FLORA como como como o comoEOSKORONIS MARIA PHOCAEA THEMISClase EOS 22 0 0 0 0 0Clase FLORA 0 12 0 0 0 0Clase KORONIS 0 0 7 0 0 0Clase MARIA 0 0 0 22 0 0Clase PHOCAEA 0 0 0 0 11 0Clase THEMIS 0 0 0 0 0 53Reglas de decisiónRegla 1SI resonancia 0.24ENTONCES Familia = PHOCAEA [94.2%]Regla 3SI resonancia > 5.42Y distancia_jupiter

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente3 2 5.70% 45 1(2.20%) 43(44|1) EOS4 2 2.50% 103 1(1.00%) 0(0|0) FLORAProbadas 253, errores 2 (0.80%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase1 2 3.00% 22 0(0.00%) 22(22|0) THEMIS2 2 5.60% 12 0(0.00%) 12(12|0) KORONIS5 2 10.10% 8 1(12.50%) 6(7|1) MARIA6 2 5.80% 11 0(0.00%) 11(11|0) PHOCAEA3 2 5.70% 21 0(0.00%) 21(21|0) EOS4 2 2.50% 53 0(0.00%) 0(0|0) FLORAProbadas 127, errores 1 (0.80%)Clasificación general sobre los datos de prueba:Clasificadocomo EOSClasificadocomoFLORAClasificadocomoKORONISClasificadocomoMARIAClasificadocomoPHOCAEAClase EOS 22 0 0 0 0 0Clase FLORA 0 12 0 0 0 1Clase KORONIS 0 0 7 0 0 0Clase MARIA 0 0 1 21 0 0Clase PHOCAEA 0 0 0 0 11 0Clase THEMIS 0 0 0 1 0 53Clasificado comoTHEMIS5.4.5.3. ConclusionesEn este caso, tanto los árboles como las reglas obtenidas son iguales si se utiliza la ganancia o laproporción de ganancia como criterio de decisión. Los árboles son pequeños y poco frondosos, lo cualfacilita su comprensión. Además, no clasifican ningún ejemplo erróneamente en los datos de prueba.Las reglas de decisión generadas, también son pocas, lo cual hace que su lectura sea más comprensible. Yclasifican sólo un caso erróneamente sobre los datos de entrenamiento. Por lo tanto, podemos decir quetanto los árboles como las reglas obtenidas en este dominio constituyen un buen clasificador.Analicemos la diferencia entre trabajar con atributos discretos y con atributos continuos. Cuandotrabajamos con atributos discretos y elegimos un atributo para dividir el conjunto en la raíz, este atributono participa en las divisiones posteriores. Es decir, como hay una rama descendiente de ese nodo paracada uno de los valores del atributo, todos los subconjuntos posteriores tienen un único valor para eseatriburo, con lo cual, nunca ofrecerá una mayor ganancia o proporción de ganancia que los demásatributos. Por lo tanto, no existirá otro nodo, descendiente del anterior, que utilice a dicho atributo comoprueba de valor. En cambio, cuando un atributo continuo se utiliza como prueba de valor en un nodo, el162 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteC4.5 divide a los datos de acuerdo al resultado de la mejor binarización, con lo cual, la prueba de valorrealizada en el nodo es una pregunta acerca de si el valor del atributo supera o no un determinado umbral.Puede utilizarse, no obstante, el mismo atributo para dividir los datos en un nodo hijo, variará el valorumbral por el que se realiza la binarización. Lo mismo ocurre con los antecedentes en las reglas dedecisión. Observemos que este fenómeno se presenta tanto en los árboles como en las reglas de decisiónobtenidos en este caso, ya que la prueba de valor distancia_jupiter se repite en nodos padres e hijos, y estápresente en más de un antecedente en las reglas de decisión.5.4.6. Hipotiroidismo5.4.6.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisiónTSH 6 :FTI 64 :Toma tiroxina = v: negativo (35.2)Toma tiroxina = f:Medición TSH = f: negativo (21.2)Medición TSH = v:TT4 > 150 : negativo (6.1/0.1)TT4

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteÁrbol simplificado:TSH 6 :FTI 64 :Toma tiroxina = v: negativo (35.2/1.4)Toma tiroxina = f:Medición TSH = f: negativo (21.2/1.3)Medición TSH = v:TT4 > 150 : negativo (6.1/1.4)TT4

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteReglas de decisiónRegla 12SI Toma tiroxina = fY Cirugía tiroídea = fY TSH > 6Y TT4 64ENTONCES clase = hipotiroide compensado [98.9%]Regla 1SI TSH 64ENTONCES clase = negativo [99.5%]Regla 9SI Medición TSH = fENTONCES clase = negativo [99.5%]Regla 14SI TT4 > 150ENTONCES clase = negativo [99.4%]Regla 8SI Cirugía tiroídea = vENTONCES clase = negativo [92.7%]Regla 4SI Cirugía tiroídea = fY TSH > 6Y FTI 6ENTONCES clase = hipotiroide primario [35.2%]Regla 16Clase = hipotiroide compensadoEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase12 5 1.10% 120 0(0.00%) 0(0|0) hipotiroide compensado1 1 0.10% 2018 1(0.00%) 1620(1620|0) negativo15 2 0.50% 41 0(0.00%) 28(28|0) negativo9 1 0.50% 247 0(0.00%) 232(232|0) negativo14 1 0.60% 6 0(0.00%) 6(6|0) negativo8 1 7.30% 7 1(14.30%) 6(6|0) negativo4 3 4.40% 59 1(1.70%) 58(58|0) hipotiroide primario11 3 64.80% 5 2(40.00%) 1(3|2) hipotiroide primarioProbadas 2514, errores 9 (0.4%)Resultados Magdalena Servente 165

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase12 5 1.10% 59 2(3.40%) 0(0|0) hipotiroide compensado1 1 0.10% 1019 1(0.10%) 816(816|0) negativo15 2 0.50% 22 0(0.00%) 20(20|0) negativo9 1 0.50% 111 0(0.00%) 106(106|0) negativo14 1 0.60% 3 0(0.00%) 3(3|0) negativo8 1 7.30% 5 1(20.00%) 3(3|0) negativo4 3 4.40% 29 1(3.40%) 28(28|0) hipotiroide primario11 3 64.80% 3 1(33.33%) 1(2|1) hipotiroide primarioProbadas 1258, errores 6 (0.5%)Clasificación general sobre los datos de prueba:ClasificadocomohipertiroideClasificado comohipotiroideprimarioClasificado comohipotiroidecompensadoClasificadocomohipotiroidesecundarioClasificadocomonegativoClase0 0 0 0 0hipertiroideClase hipotiroide 0 30 0 0 1primarioClase hipotiroide 0 1 64 0 0compensadoClase hipotiroide 0 0 0 0 1secundarioClase negativo 0 1 2 0 11585.4.6.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónTSH 6 :FTI 64 :Toma tiroxina = v: negativo (35.2)Toma tiroxina = f:Medición TSH = f: negativo (21.2)Medición TSH = v:Cirugía tiroídea = v: negativo (3.7)Cirugía tiroídea = f:TT4 > 150 : negativo (6.1/0.1)TT4

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación de los resultados del árbol de decisiónEvaluación sobre los datos de entrenamiento:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación21 6 (0.2%) 21 6(0.2%) (0.9%)Evaluación sobre los datos de prueba:Antes de podar Después de podarTamaño Errores Tamaño Errores Estimación21 8 (0.6%) 21 8(0.6%) (0.9%)Evaluación general:ClasificadocomohipertiroideClasificado comohipotiroideprimarioClasificado comohipotiroidecompensadoClasificadocomohipotiroidesecundarioClasificadocomonegativoClase0 0 0 0 0hipertiroideClase hipotiroide 0 28 2 0 1primarioClase hipotiroide 0 1 64 0 0compensadoClase hipotiroide 0 0 0 0 1secundarioClase negativo 0 1 2 0 1158Reglas de decisiónRegla 7SI Toma tiroxina = fY Cirugía tiroídea = fY TSH > 6Y TT4 64ENTONCES clase = hipotiroide compensado [98.9%]Regla 4SI Cirugía tiroídea = fY TSH > 6Y FTI 6ENTONCES clase = hipotiroide primario [45.3%]Resultados Magdalena Servente 167

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 1SI TSH 64ENTONCES clase = negativo [99.5%]Regla 2SI Medición TSH = fY ENTONCES clase = negativo [99.5%]Regla 8SI TT4 > 150ENTONCES clase = negativo [99.4%]Regla 5SI Cirugía tiroídea = vENTONCES clase = negativo [92.7%]Regla 11Clase = hipotiroide compensadoEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase7 5 1.10% 120 0(0.00%) 0(0|0) hipotiroide compensado4 3 4.40% 59 1(1.70%) 58(58|0) hipotiroide primario6 3 54.70% 4 1(25.00%) 2(3|1) hipotiroide primario1 1 0.10% 2018 1(0.00%) 1620(1620|0) negativo10 2 0.50% 41 0(0.00%) 28(28|0) negativo2 1 0.50% 247 0(0.00%) 232(232|0) negativo8 1 0.60% 6 0(0.00%) 6(6|0) negativo5 1 7.30% 7 1(14.30%) 6(6|0) negativoProbadas 2514, errores 8 (0.3%)Evaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase7 5 1.10% 59 2(3.40%) 0(0|0) hipotiroide compensado4 3 4.40% 29 1(3.40%) 28(28|0) hipotiroide primario6 3 54.70% 1 1(100.00%) -1(0|1) hipotiroide primario1 1 0.10% 1019 1(0.10%) 816(816|0) negativo10 2 0.50% 22 0(0.00%) 20(20|0) negativo2 1 0.50% 111 0(0.00%) 106(106|0) negativo8 1 0.60% 3 0(0.00%) 3(3|0) negativo5 1 7.30% 5 1(20.00%) 4(4|0) negativoProbadas 1258, errores 8 (0.6%)168 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClasificación general de los datos de prueba:ClasificadocomohipertiroideClasificado comohipotiroideprimarioClasificado comohipotiroidecompensadoClasificadocomohipotiroidesecundarioClasificadocomonegativoClase0 0 0 0 0hipertiroideClase hipotiroide 0 28 2 0 1primarioClase hipotiroide 0 1 64 0 0compensadoClase hipotiroide 0 0 0 0 1secundarioClase negativo 0 1 2 0 11585.4.6.3. ConclusionesEl árbol de decisión obtenido utilizando la ganancia sin simplificar tiene mayor tamaño que el obtenidoutilizando la proporción de ganancia. No obstante, al simplificar el primer árbol se obtiene un árbol máspequeño que ambos. En cuanto a la proporción de error, es igual para el árbol generado utilizando laganancia y el generado utilizando la proporción de ganancia. Por lo tanto, podríamos afirmar que eltamaño no parece estar relacionado con la performance.En cuanto a las reglas de decisión, en ambos casos se obtuvieron nueve reglas. La proporción de errorobservada en las reglas generadas utilizando la ganancia, es la menor de todas las observadas para estedominio.5.4.7. Identificación de vidrios5.4.7.1. Utilizando la ganancia como criterio de decisiónÁrbol de decisiónMg 1 :Ca

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCa > 6 : vidrios_para_construcciones_no_float (13.0/1.0)Ca > 7 :Mg 2 :Si > 72 : vidrios_float_para_construcciones (21.0/6.0)Si 7 : vidrios_float_para_construcciones (91.0/48.8)Ca

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEvaluación general:Clasevidrios_float_para_construccionesClasevidrios_para_construcciones_no_floatClasevidrios_float_para_vehiculosClasevidrios_para_vehículos_no_floatClasificadoscomovidrios_float_para_construccionesClasificadoscomovidrios_para_construcciones_no_floatClasificadoscomovidrios_float_para_vehiculosClasificadoscomovidrios_para_vehículos_no_floatClasificadoscomocontenedoresClasificadoscomovajilla22 1 0 0 0 0 019 6 0 0 0 0 06 0 0 0 0 0 00 0 0 0 0 0 0Clase contenedores 0 3 0 0 1 0 0Clase vajilla 2 1 0 0 0 0 0Clase lamparitas 0 1 0 0 1 0 8ClasificadoscomolamparitasReglas de decisiónRegla 8SI Al > 0Y Si > 72Y Ca > 9ENTONCES clase = contenedores [70.7%]Regla 5SI Al > 2ENTONCES clase = contenedores [63.0%]Regla 2SI Na > 13Y Mg

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 10SI Mg > 1Y Ca > 6Y Ca 7ENTONCES clase = vidrios_float_para_construcciones [48.0%]Regla 15Clase = vidrios_para_construcciones_no_floatEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase8 3 29.30% 4 0(0.00%) 4(4|0) contenedores5 1 37.00% 3 0(0.00%) 3(3|0) contenedores2 5 37.00% 3 0(0.00%) 3(3|0) vajilla3 3 15.90% 8 0(0.00%) 5(5|0) lamparitas4 4 20.60% 9 1(11.10%) 8(8|0) lamparitas1 4 50.00% 2 0(0.00%) 2(2|0) lamparitas10 3 19.10% 13 1(7.70%) 0(0|0) vidrios_para_construcciones_no_float7 3 33.80% 7 1(14.30%) 0(0|0) vidrios_para_construcciones_no_float14 2 52.00% 82 39(47.60%) 16(43|27) vidrios_float_para_construccionesProbadas 143, errores 48 (33.6%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase8 3 29.30% 1 0(0.00%) 1(1|0) contenedores3 3 15.90% 6 0(0.00%) 5(5|0) lamparitas4 4 20.60% 3 0(0.00%) 3(3|0) lamparitas10 3 19.10% 4 1(25.00%) 0(0|0) vidrios_para_construcciones_no_float7 3 33.80% 6 4(66.67%) 0(0|0) vidrios_para_construcciones_no_float14 2 52.00% 42 21(50.00%) 6(21|15) vidrios_float_para_construccionesProbadas 71, errores 30 (42.3%)172 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClasificación general en los datos de prueba:Clasevidrios_float_para_construccionesClasevidrios_para_construcciones_no_floatClasevidrios_float_para_vehiculosClasevidrios_para_vehículos_no_floatClasificadoscomovidrios_float_para_construccionesClasificadoscomovidrios_para_construcciones_no_floatClasificadoscomovidrios_float_para_vehiculosClasificadoscomovidrios_para_vehículos_no_floatClasificadoscomocontenedoresClasificados comovajilla21 2 0 0 0 0 015 10 0 0 0 0 06 0 0 0 0 0 00 0 0 0 0 0 0Clase contenedores 0 3 0 0 1 0 0Clase vajilla 0 3 0 0 0 0 0Clase lamparitas 0 1 0 0 0 0 9Clasificadoscomolamparitas5.4.7.2. Utilizando la proporción ganancia como criterio de decisiónÁrbol de decisiónMg 1 :Ba > 0 : contenedores (2.0/1.0)Ba 13 : vidrios_float_para_construcciones (6.0/3.0)Na 72 : vidrios_float_para_construcciones (21.0/6.0)Si

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteÁrbol simplificadoMg 1 :Ba > 0 : contenedores (2.0/1.8)Ba

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClase0 0 0 0 0 0 0vidrios_para_vehículos_no_floatClase contenedores 0 3 0 0 1 0 0Clase vajilla 2 1 0 0 0 0 0Clase lamparitas 0 1 0 0 1 0 8Reglas de decisiónRegla 8SI Al > 0Y Si > 72Y Ca > 9ENTONCES clase = contenedores [70.7%]Regla 5SI Al > 2ENTONCES clase = contenedores [63.0%]Regla 2SI Na > 13Y Mg

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRegla 16Clase = vidrios_para_construcciones_no_floatEvaluación de los resultados de las reglas de decisiónEvaluación sobre los datos de entrenamiento:Regla Tamaño Error Usada Errores Ventaja Clase8 3 29.30% 4 0(0.00%) 4(4|0) contenedores5 1 37.00% 3 0(0.00%) 3(3|0) contenedores2 5 37.00% 3 0(0.00%) 3(3|0) vajilla3 3 15.90% 8 0(0.00%) 5(5|0) lamparitas4 4 20.60% 9 1(11.10%) 8(8|0) lamparitas1 4 50.00% 2 0(0.00%) 2(2|0) lamparitas11 3 19.10% 13 1(7.70%) 0(0|0) vidrios_para_construcciones_no_float7 3 33.80% 7 1(14.30%) 0(0|0) vidrios_para_construcciones_no_float15 3 38.30% 21 6(28.60%) 9(15|6) vidrios_float_para_construcciones10 2 48.50% 23 9(39.10%) 10(14|4) vidrios_float_para_construccionesProbadas 143, errores 45 (31.5%)Evaluación sobre los datos de prueba:Regla Tamaño Error Usada Errores Ventaja Clase8 3 29.30% 1 0(0.00%) 1(1|0) contenedores3 3 15.90% 6 0(0.00%) 5(5|0) lamparitas4 4 20.60% 3 0(0.00%) 3(3|0) lamparitas11 3 19.10% 4 1(25.00%) 0(0|0) vidrios_para_construcciones_no_float7 3 33.80% 6 4(66.67%) 0(0|0) vidrios_para_construcciones_no_float15 3 38.30% 9 5(55.60%) 1(4|3) vidrios_float_para_construcciones10 2 48.50% 14 6(42.90%) 5(8|3) vidrios_float_para_construccionesProbadas 71, errores 30 (42.3%)176 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClasificación general en los datos de prueba:Clasevidrios_float_para_construccionesClasevidrios_para_construcciones_no_floatClasevidrios_float_para_vehiculosClasevidrios_para_vehículos_no_floatClasificadoscomovidrios_float_para_construccionesClasificadoscomovidrios_para_construcciones_no_floatClasificadoscomovidrios_float_para_vehiculosClasificadoscomovidrios_para_vehículos_no_floatClasificadoscomocontenedoresClasificados comovajilla12 11 0 0 0 0 06 19 0 0 0 0 02 4 0 0 0 0 00 0 0 0 0 0 0Clase contenedores 0 3 0 0 1 0 0Clase vajilla 2 1 0 0 0 0 0Clase lamparitas 1 0 0 0 0 0 9Clasificadoscomolamparitas5.4.7.3. ConclusionesEn este caso los modelos obtenidos utilizando la ganancia y la proporción de ganancia son distintos,aunque el tamaño de los árboles de decisión sea el mismo, y la diferencia en la cantidad de reglasobtenidas sea de una regla. Para ambos árboles de decisión el porcentaje de error sobre los datos deprueba es del 47.9%. Mientras que para los conjuntos de reglas de decisión es del 42.3%. Aunque en estesegundo caso la performance sea mejor, no podemos afirmar que un clasificador con el 42% de error seaconfiable.5.5. COMPARACIÓN DE LOS RESULTADOS OBTENIDOS CON ELID3 Y CON EL C4.55.5.1. CréditosAnalizando la figura 5.1 vemos que para los árboles obtenidos con el C4.5 se obtuvo una proporción deerror del 43%, mientras que para el resto de los casos, se obtuvo una proporción de error del 35%. Noobstante, en los árboles generados con el C4.5 la estimación del error sobre casos futuros es del 12.4%.Resultados Magdalena Servente 177

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente50.00%45.00%43.10%43.10%40.00%35.00%35.25% 35.25% 35.25% 35.25%35.29%35.29%30.00%25.00%20.00%15.00%10.00%5.00%0.00%Figura 5.1: Porcentajes de error obtenidos en el dominio CréditosID3-ÁrbolgananciaID3-ReglasgananciaID3-Árbolproporciónde gananciaID3-Reglasproporciónde gananciaC4.5-ÁrbolgananciaC4.5-ReglasgananciaC4.5-ÁrbolproporciónReglas-C4.5-de ganancia proporciónde gananciaLos árboles generados con el ID3 son similares a los generados con el C4.5 sin simplificar. La únicadiferencia destacable es que la rama expresada en el ID3 como:Otros_Creditos = DOS CREDITOSComposición_Familiar = CASADO Y DOS HIJOSIngreso = ENTRE 451 Y 550Vivienda = ALQUILANOVivienda = PROPIA 0 IPVUServicios = BASICOS Y TICSIServicios = BASICOS, TIC Y TELNOSe simplificó en el C4.5 a:Otros Creditos = DOS CREDITOS:Composición Familiar = CASADO Y DOS HIJOS:Ingreso = ENTRE 451 Y 550: NO (4.0/1.0)Notemos que de los cuatro casos clasificados en el C4.5 por esta rama, sólo uno se clasificaerróneamente, y el árbol es más claro.En este caso, el modelo más simple es el presentado por los árboles de decisión simplificados generadospor el C4.5: representan en un árbol de decisión que tiene únicamente una raíz y tres hojas aquello que losárboles generados por el ID3 representan en un árbol de tamaño 26 y con una mayor proporción de error.El modelo más simple, ayuda a destacar los atributos importantes del problema, y, por lo tanto, a178 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteentenderlo más profundamente. No obstante, es el que mayor proporción de error tuvo en la práctica.Entonces, antes de decidirnos por un modelo, debemos analizar la relación simplicidad - proporción deerror.Analicemos los tamaños de los modelos obtenidos. La figura 5.2 compara los tamaños de los árboles dedecisión obtenidos para el dominio Créditos. La figura 5.3 compara la cantidad de reglas de decisiónobtenidas con cada algoritmo.302520151050ID3-Árbol-gananciaC4.5-ÁrbolgananciaID3-ÁrbolproporcióndegananciaC4.5-ÁrbolproporcióndegananciaFigura 5.2: Tamaño de los árboles obtenidos en el dominio CréditosDel análisis de estos dos gráficos anteriores vemos que los modelos generados para este dominio por elC4.5 fueron más pequeños y, por lo tanto, más comprensibles que los generados por el ID3. Si tuviéramosque elegir un modelo entre estos cuatro para representar al dominio, eligiríamos las reglas generadas porel C4.5, ya que son más simples que las generadas por el ID3 y tienen una proporción de error similar.181614121086420ID3-ReglasgananciaC4.5-ReglasgananciaID3-ReglasproporcióndegananciaC4.5-ReglasproporcióndegananciaFigura 5.3: Cantidad de reglas obtenidas en el dominio CréditosResultados Magdalena Servente 179

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.5.2. CardiologíaLa figura 5.4 muestra los porcentajes de error obtenidos con cada uno de los métodos para el dominioCardiología. Vemos que todos los porcentajes se encuentran entre el 6.45% y el 6.50%. Con lo cual, nohay ningún modelo que sea claramente superior que otro en este aspecto.7.00%6.45% 6.45% 6.45% 6.45% 6.50% 6.50% 6.50% 6.50%6.00%5.00%4.00%3.00%2.00%1.00%0.00%ID3-Árbol-gananciaID3-Reglas-gananciaID3-Árbol-proporción de gananciaID3-Reglas-proporción de gananciaC4.5-Árbol-gananciaC4.5-Reglas-gananciaC4.5-Árbol-proporción de gananciaC4.5-Reglas-proporción de gananciaFigura 5.4: Porcentajes de error obtenidas en el dominio CardiologíaLas figuras 5.5 y 5.6 comparan los tamaños de los modelos obtenidos. Vemos que la cantidad de reglasobtenidas con el ID3 es el doble de la cantidad de reglas obtenidas con el C4.5. En el caso de los árbolesde decisión, el tamaño de los árboles obtenidos con el C4.5 es menor que la mitad del tamaño de losárboles obtenidos con el ID3.302520151050251025ID3-ÁrbolgananciaC4.5-ÁrbolgananciaID3-Árbolproporciónde ganancia10C4.5-Árbolproporciónde gananciaFigura 5.5: Tamaños de los árboles de decisión180 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente30252015105014714ID3-ReglasgananciaC4.5-ReglasgananciaID3-Reglasproporciónde ganancia7C4.5-Reglasproporciónde gananciaFigura 5.6: Cantidad de reglas obtenidas en el dominio CardiologíaAnalizando los árboles de decisión obtenidos para este dominio, podemos deducir que esta diferencia entamaños se debe a que el ID3 ajusta el árbol de decisión para cubrir todos y cada uno de los datos deentrada, mientras que cada hoja de un árbol generado con el C4.5 cubre una distribución de casos y puedecontener errores. Veamos, por ejemplo, los árboles obtenidos utilizando la ganancia con ambosalgoritmos. En el caso de DURACION_DEL_ANGOR = MENOS DE 30 MIN, en el árbol obtenido conel C4.5 nos encontramos con una hoja, que cubre 33 casos, 1 sólo incorrectamente. Mientras que en elárbol obtenido con el ID3, nos encontramos con un subárbol de tamaño 10, este subárbol también cubre33 casos, ninguno incorrectamente. Ambos árboles tienen proporciones de errores similares. Cabeentonces preguntarnos si no es más conveniente tener hoja con un 3.03% de error en lugar de un subárbolque cubra todos los casos, sin ningún error. Recordemos que la performance general de ambos árbolesfrente a los datos de prueba fue muy similar.5.5.3. VotacionesLa figura 5.7 presenta los porcentajes de error obtenidos para el dominio de Votaciones. Vemos que conel ID3 el porcentaje de error ronda el 5.20%, mientras que con el C4.5, el porcentaje de error es más bajoen el caso de ambos árboles de decisión y de las reglas utilizando la ganancia. Esto es destacable ya que sianalizamos las figuras 5.8 y 5.9, que presentan el tamaño de los modelos obtenidos, vemos que losmodelos obtenidos con el C4.5 son mucho menores que los obtenidos con el ID3. Si a esto le agregamosel hecho de que el porcentaje de error en tres de los modelos es menor, podemos concluir que en este casola performance del C4.5 es mejor que la del ID3.Podemos preguntarnos a qué se debe la diferencia en los tamaños de los modelos generados con el ID3 ycon el C4.5. Tomemos, por ejemplo, los árboles de decisión. En el caso de los árboles generadosutilizando la ganancia, los atributos elegidos por el ID3 y por el C4.5 para realizar la partición de losdatos son los mismos. Sin embargo, recordemos que cada hoja del C4.5 cubre una distribución de casos(aún en los árboles sin simplificar), entonces el árbol resultante es más simple.Resultados Magdalena Servente 181

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente6.00%5.00%5.19% 5.19% 5.19% 5.19%5.20%4.00%3.00%3.00%3.70%3.00%2.00%1.00%0.00%ID3-Árbol-gananciaID3-Reglas-gananciaID3-Árbol-proporción de gananciaID3-Reglas-proporción de gananciaC4.5-Árbol-gananciaC4.5-Reglas-gananciaC4.5-Árbol-proporción de gananciaC4.5-Reglas-proporción de gananciaFigura 5.7: Porcentajes de error obtenidas en el dominio Votaciones403435302010670ID3-ReglasgananciaC4.5-ReglasgananciaID3-Reglasproporciónde gananciaC4.5-Reglasproporciónde gananciaFigura 5.8: Tamaño de los árboles de decisión obtenidos en el dominio Votaciones70605040302010057758ID3-ÁrbolgananciaC4.5-ÁrbolgananciaID3-Árbolproporcióndeganancia7C4.5-ÁrbolproporcióndegananciaFigura 5.9: Cantidad de reglas de decisión obtenidas en el dominio VotacionesA continuación, en las figuras 5.10 y 5.11 se presentan ambos árboles de decisión y se pueden apreciar lassimplificaciones realizadas por el C4.5.182 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCong_honorarios_medicos = a_favorReduccion_corp_Synfuels = a_favorExport_sin_impuestos = a_favordemocrataExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contraPresupuesto_de_educacion = a_favorDer_demanda_Superfund = a_favorParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contraActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidorepublicanoActa_sudaf_admin_export = en_contraNiños discapacitados = a_favorrepublicanoNiños discapacitados = en_contrademocrataDer_demanda_Superfund = en_contraDemocrata (1)Presupuesto_de_educacion = desconocidodemocrataPresupuesto_de_educacion = en_contraActa_sudaf_admin_export = a_favorAdop_resolucion_presup = a_favorrepublicanoAdop_resolucion_presup = en_contraAyuda_a_El_Salvador = a_favorrepublicanoAyuda_a_El_Salvador = en_contrademocrataActa_sudaf_admin_export = desconocidodemocrataActa_sudaf_admin_export = en_contraDemocrata (2)Reduccion_corp_Synfuels = desconocidorepublicanoReduccion_corp_Synfuels = en_contraExport_sin_impuestos = a_favorInmigracion = a_favorrepublicanoInmigracion = en_contraActa_sudaf_admin_export = a_favordemocrataActa_sudaf_admin_export = desconocidoParticip_proy_agua = a_favorrepublicanoParticip_proy_agua = en_contrademocrataActa_sudaf_admin_export = en_contrarepublicanoExport_sin_impuestos = desconocidorepublicanoExport_sin_impuestos = en_contraAdop_resolucion_presup = a_favorActa_sudaf_admin_export = a_favorrepublicanoActa_sudaf_admin_export = desconocidoNiños discapacitados = a_favorrepublicanoNiños discapacitados = en_contrademocrataAdop_resolucion_presup = en_contraRepublicano (3)Cong_honorarios_medicos = desconocidoMisil_mx = a_favorProhib_pruebas_anti_satel = a_favordemocrataProhib_pruebas_anti_satel = desconocidodemocrataProhib_pruebas_anti_satel = en_contraRepublicano (4)Misil_mx = desconocidorepublicanoResultados Magdalena Servente 183

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteMisil_mx = en_contrademocrataCong_honorarios_medicos = en_contraPresupuesto_de_educacion = a_favordemocrataPresupuesto_de_educacion = desconocidoAdop_resolucion_presup = a_favordemocrataAdop_resolucion_presup = en_contrarepublicanoPresupuesto_de_educacion = en_contraDemocrata (5)Figura 5.10: Árbol generado por el ID3 para el dominio Votaciones utilizando la gananciacong_honorarios_medicos = en_contra: democrata (168.0/1.0) (5)cong_honorarios_medicos = a_favor:reduccion_corp_Synfuels = en_contra: republicano (97.0/3.0) (3)reduccion_corp_Synfuels = desconocido: republicano (4.0)reduccion_corp_Synfuels = a_favor:export_sin_impuestos = a_favor: democrata (2.0)export_sin_impuestos = desconocido: republicano (1.0)export_sin_impuestos = en_contra:presupuesto_de_educación = a_favor: republicano (13.0/2.0) (1)presupuesto_de_educación = en_contra: democrata (5.0/2.0) (2)presupuesto_de_educación = desconocido: democrata (1.0)cong_honorarios_medicos = desconocido:misil_mx = a_favor: democrata (4.0/1.0) (4)misil_mx = en_contra: democrata (3.0)misil_mx = desconocido: republicano (2.0)Figura 5.11: Árbol generado por el C4.5 para el dominio Votaciones utilizando la gananciaEn el caso (1), podemos observar que el subárbol de tamaño 10 generado por el ID3, se representó en elC4.5 con una hoja que cubre 13 casos, dos incorrectamente. En el caso (2), el C4.5 presenta una hoja quecubre 5 casos, dos de ellos erróneamente, mientras que el ID3 presenta un subárbol de tamaño 8. En elcaso (3), el subárbol presentado por el ID3 es de tamaño 17 y la hoja presentada en el mismo caso por elC4.5 clasifica 3 casos errróneamente de los 97 que cubre. La diferencia en el caso (4) no es tan notable,ya que el C4.5 representa en una hoja con N=4 y E=2, lo que el ID3 presenta en un nodo de decisión contres hojas hijas. Finalmente, en el caso (5), el C4.5 se equivoca una sola vez en los 168 casos que cubre lahoja, mientras que el ID3 los clasifica a todos correctamente con un subárbol de tamaño 6.El ID3 no generaliza los resultados de una hoja, es decir, no permite que una hoja cubra casos de unaclase distinta a la expresada. Por lo tanto, cubre exhaustivamente todos los casos de entrenamiento.Mientras que la generalización realizada por el C4.5 permite obtener árboles más pequeños a un precioque parece ser no tan alto. Pensemos que, muchas veces es preferible tener una hoja con performance del96.9%, como en el caso (3), que un árbol de tamaño 17. Este fenómeno que ocurre en los árbolesgenerados por el ID3 y, como consecuencia lógica, también en las reglas generadas por el mismo sistema,se conoce como sobreajuste. Como su nombre lo indica, se origina en que el ID3 cubre absolutamentetodos los casos de entrenamiento correctamente, ajusta el modelo a todos los casos de entrenamiento.184 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteExisten muchas maneras de solucionar el sobreajuste. Podríamos, por ejemplo, realizar una poda del árbolcuando un subárbol tenga una performance mayor a una cota predefinida, es decir, cuando (E*100)/N seasuperior a una cota mínima de performance. Otra opción sería realizar esta simplificación y adjuntarle alárbol las reglas de decisión con las excepciones.5.5.4. Estudio sobre hongos1.00%0.90%0.80%0.70%0.60%0.50%0.40%0.30%0.20%0.10%0.00%ID3-Árbol-ganancia0.00% 0.00% 0.00% 0.00%ID3-Reglas-gananciaID3-Árbol-proporción de gananciaID3-Reglas-proporción de gananciaC4.5-Árbol-ganancia0.90%C4.5-Reglas-ganancia0.30% 0.30% 0.30%C4.5-Árbol-proporción de gananciaC4.5-Reglas-proporción de gananciaFigura 5.12: Porcentajes de error obtenidas en el dominio Estudio sobre hongosEn el caso de este dominio el porcentaje de error registrado con todos los clasificadores no supera el 1%,como lo muestra la figura 5.12. El mayor porcentaje de error se obtuvo con el árbol de decisión generadopor el C4.5 utilizando la ganancia, y el menor, y más destacable, se obtuvo utilizando el ID3 con laproporción de ganancia. En este caso, todos los datos de entrenamiento fueron clasificados correctamente.En caso de tener que optar entre alguno de los clasificadores generados, optaríamos por los generados conel ID3 utilizando la proporción de ganancia, ya que además de no presentar errores, el tamaño del árbol esaceptable, como lo muestra la figura 5.13. Mientras que la cantidad de reglas generadas en el mismo casoes superior a las generadas con el C4.5 utilizando la ganancia (figura 5.14), que tienen un porcentaje deerror bajo.Como se destacó en las conclusiones particulares de este dominio para el ID3 (Sección 5.3.4.3) y para elC4.5 (Sección 5.4.4.3), vimos que la ganancia favoreció a atributos con muchos valores diferentes frentea otros atributos que generaban una mayor ganancia neta de información pero que tenían menos valores.Resultados Magdalena Servente 185

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEste es un problema general de la ganancia y es una de las razones por las que se comenzó a utilizar laproporción de ganancia.50454035302520151050324425 25ID3-ÁrbolgananciaC4.5-ÁrbolgananciaID3-ÁrbolproporcióndegananciaC4.5-ÁrbolproporcióndegananciaFigura 5.13: Tamaño de los árboles de decisión obtenidos en el dominio Estudio sobre hongos30252015261319151050ID3-ReglasgananciaC4.5-ReglasgananciaID3-ReglasproporcióndegananciaC4.5-ReglasproporcióndegananciaFigura 5.14: Cantidad de reglas de decisión obtenidas en el dominio Estudio sobre hongosSi comparamos los árboles obtenidos en cada caso, veremos que en los árboles generados con el C4.5existen muchas ramas en las que N=E=0. Es decir, ramas que no cubren ningún caso, pero que existenporque el C4.5 toma la información de dominio y tiene en cuenta esos posibles valores al analizar laganancia y la proporción de ganancia en todos los casos. El ID3, en cambio, no tiene en cuentainformación de dominio, entonces, trabaja con la hipótesis de que los únicos valores válidos para losatributos son aquellos que ocurren en los datos.186 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente5.6. ANÁLISIS GENERAL DE LOS RESULTADOS OBTENIDOS5.6.1. Porcentaje de errorLa figura 5.15 muestra el porcentaje de error obtenido con cada uno de los métodos, para cada dominio. Asimple vista nos damos cuenta que en los dominios de Créditos y Análisis de Vidrios los porcentajes deerror son altos para todos los métodos.60.00%50.00%40.00%30.00%20.00%CréditosCardiologíaVotacionesHongosElitaHipotiroidismoVidrios10.00%0.00%ID3-árbolesgananciaID3-reglasgananciaID3-árbolesproporciónde gananciaID3-reglasproporciónde gananciaC4.5-árbolesgananciaC4.5-reglasgananciaC4.5-árbolespropociónde gananciaC4.5-reglasproporciónde gananciaFigura 5.15: Porcentaje de error obtenido para cada uno de los métodos en cada dominio de datosEn la figura 5.16 se han eliminado estos dos dominios para poder analizar más claramente el porcentajede error en el resto de los dominios. A partir de estos dos gráficos, podríamos decir que no hay unmétodo 4 que genere un modelo claramente superior al resto para todos los dominios. Al contrario,podríamos decir que el porcentaje de error en todos los casos no parece depender del método utilizadosino del dominio analizado. Es decir, el rango de porcentajes de error dentro de cada uno de los dominiosparecería estar acotado.4 En este caso, por método nos referimos a la combinación de un algoritmo (ID3 o C4.5) utilizando ganancia o proporción deganancia y generando un árbol o reglas de decisión (combinación algoritmo – criterio de decisión – tipo de resultado).Resultados Magdalena Servente 187

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente7.00%6.00%5.00%4.00%3.00%CardiologíaVotacionesHongosElitaHipotiroidismo2.00%1.00%0.00%ID3-árbolesgananciaID3-reglasgananciaID3-árbolesproporciónde gananciaID3-reglasproporciónde gananciaC4.5-árbolesgananciaC4.5-reglasgananciaC4.5-árbolespropociónde gananciaC4.5-reglasproporciónde gananciaFigura 5.16: Porcentaje de error obtenido para cada uno de los métodos en distintos dominios de datos5.6.2. Cantidad de datos de entrenamientoEn la figura 5.15 se presenta el porcentaje de error en función de la cantidad de datos de entrenamiento,con una línea de tendencia logarítmica para cada uno de los métodos. A partir de este gráfico podríamosdecir que el porcentaje de error disminuye a medida que aumenta la cantidad de datos de entrenamiento.Esto pareciera ser una conclusión lógica e intuitiva, y es similar a la forma en que aprendemos loshumanos: cuando nos encontramos ante una situación a la que nos hemos enfrentado múltiples veces,generalmente ya hemos aprendido cómo reaccionar.A pesar de lo que muestra el gráfico no podemos afirmar que la relación “menor porcentaje de error amayor cantidad de datos de entrenamiento” sea una regla absoluta que se cumple siempre. Para ello,habría que hacer una cantidad de pruebas que excede los alcances de este trabajo.188 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente60.00%C4.5-árboles-ganancia50.00%C4.5-reglas-gananciaPorcentaje de error40.00%30.00%20.00%10.00%0.00%0 1000 2000 3000 4000 5000 6000C4.5-árboles-propoción de gananciaC4.5-reglas-proporción de gananciaID3-árboles-gananciaID3-reglas-gananciaID3-árboles-proporción de ganancia-10.00%Cantidad de datos de entrenamientoID3-reglas-proporción de gananciaFigura 5.15: Porcentaje de error en función de la cantidad de datos de entrenamiento. Se haagregado una línea de tendencia logarítmica para cada uno de los métodos.Resultados Magdalena Servente 189

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente190 Magdalena Servente Resultados

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCAPÍTULO 6CONCLUSIONESEn este capítulo se presentan las conclusiones del trabajo realizado. Primero se destacan losconceptos más importantes a tener en cuenta a la hora de aplicar algún método como el ID3 y elC4.5 (Sección 6.1.1). Luego, se analiza la búsqueda que realizan estos dos métodos en el espaciode hipótesis (Sección 6.1.2). Se extraen conclusiones a partir de los resultados obtenidos(Sección 6.2) y se analiza la solución propuesta (Sección 6.3). Finalmente, se plantean mejoras ytemas a tener en cuenta para continuar con el desarrollo de este tipo de algoritmos de aprendizajeaplicados a la Minería de Datos (Sección 6.4).6.1. CONCLUSIONES GENERALES6.1.1. Conceptos destacablesA partir del estudio realizado sobre la Minería de Datos y el Aprendizaje Automático en general, y de losmétodos de la familia TDIDT en particular, podemos concluir que hay varios puntos claves a tener encuenta al realizar Minería de Datos con algoritmos inteligentes. Entre ellos, podemos destacar:• El Aprendizaje de Conceptos puede verse como una búsqueda en un gran espacio de hipótesispredefinidas [Mitchell, 1997]. En el caso de la familia TDIDT este espacio de hipótesis, estáconstituido por todos los árboles de decisión posibles para los datos que se están analizando.• Los datos ruidosos y faltantes pueden influir en la performance del algoritmo, y depende de cadamétodo en particular ser robusto o no ante estas situaciones.• Los algoritmos de aprendizaje son capaces de clasificar nuevos casos, nunca vistos para ellos, porquetienen un sesgo inductivo implícito, es decir, realizan alguna suposición que les permite construir elmodelo. En el caso de los algoritmos de la familia TDIDT, esta suposición implícita se divide en dos:1. Los datos sobre los que se construye el problema son representativos del dominio sobre el que seaplicará el modelo obtenido.2. Las hipótesis (árboles de decisión en este caso) más simples se prefieren sobre las hipótesis máscomplejas, es decir, se aplica la Afeitadora de Occam.Conclusiones Magdalena Servente 191

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSi el espacio de hipótesis se extendiera hasta cubrir todos los casos posibles, se eliminaría este sesgoinductivo. Sin embargo, trabajar con todos los árboles de decisión posibles para un conjunto de datos,no permitiría realizar la clasificación de un caso no presente en los datos de entrenamiento, ya que nosería clasificado por ningún árbol. Es decir, un modelo totalmente insesgado, no podría clasificarnuevos casos [Mitchell, 1997].Recordemos que no cualquier problema de Minería de Datos es apto para ser analizado mediante losalgoritmos de la familia TDIDT. Debe cumplirse que las instancias estén constituidas por pares atributovalor,y que los resultados de la función de clasificación sean discretos. Además, es conveniente que losalgoritmos sean capaces de trabajar con atributos ruidosos y con atributos faltantes.6.1.2. Espacio de hipótesisComo se destacó en la sección anterior, tanto el ID3 como el C4.5 realizan una búsqueda en un espacio dehipótesis constituido por los árboles de decisión posibles. El espacio de hipótesis para estos algoritmos esun espacio completo según los atributos disponibles. Como cualquier función de prueba de valor deatributos puede representarse como un árbol de decisión, estos métodos evitan uno de los mayores riesgosde los métodos inductivos que trabajan con un espacio de hipótesis reducido: que la función resultado, ennuestro caso el árbol de decisión, no se encuentre en el espacio de hipótesis analizado.A medida que exploran el espacio de hipótesis, los algoritmos analizados mantienen una sola hipótesisactual y no todas aquellas consistentes con los datos analizados. Esto ocasiona que estos métodos no seancapaces de representar todos los árboles consistentes con los datos de entrada.Por otro lado, recordemos que estos métodos no tienen vuelta atrás. Es decir, una vez que se seleccionóun atributo como nodo del árbol, éste nunca se cambiará; los algoritmos no vuelven atrás parareconsiderar sus elecciones. Esto ocasiona que los algoritmos sean susceptibles de caer en un máximolocal y que converjan a una solución que no es globalmente óptima [Mitchell, 1997]. El C4.5 agrega uncierto grado de reconsideración de sus elecciones en la postpoda que realiza.Por último, cabe destacar que el ID3 y el C4.5 utilizan todos los datos de entrenamiento en cada paso paraelegir el “mejor” atributo; esta elección se realiza estadísticamente. Esto es favorable frente a otrosmétodos de aprendizaje automático que analizan los datos de entrada en forma incremental. El hecho detener en cuenta todos los datos disponibles en cada paso, resulta en una búsqueda mucho menos sensible aerrores en casos individuales.192 Magdalena Servente Conclusiones

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente6.2. ANÁLISIS DE LOS RESULTADOS OBTENIDOSDel análisis de los resultados obtenidos podríamos concluir que no hay ningún método que seapredominante frente a los otros. Es decir, no podemos decir, por ejemplo, que el C4.5 que utiliza laganancia es claramente superior en todos los dominios. Sin embargo, podemos afirmar que los resultadosmuestran que la proporción de error parecería ser función del dominio. En cada dominio, la proporción deerror para los cuatro métodos analizados es similar: si la proporción de error es grande para alguno de losmétodos en un dominio, seguramente lo sea también para el resto de los métodos. Si la proporción deerror para alguno de los cuatro métodos en un dominio es pequeña, probablemente también sea pequeñacon los otros tres métodos.Como línea futura de trabajo, se propone analizar los datos de entrada con los cuatro métodos (ID3utilizando ganancia, ID3 utilizando proporción de ganancia, C4.5 utilizando ganancia y C4.5 utilizandoproporción de ganancia) y elegir para el nuevo dominio, el modelo que presenta la menor proporción deerror. Teniendo en cuenta que si con el primer método la proporción de error es inaceptable,probablemente también sea inaceptable para el resto de los métodos. En cuyo caso, convendría analizar elproblema con otros métodos de aprendizaje que enfoquen la resolución del mismo desde otro ángulo.La cantidad de datos presentada como entrada de los algoritmos debe ser la mayor posible, ya que loscasos analizados parecen mostrar que proporción de error disminuye a medida que la cantidad de datos deentrenamiento aumenta.6.3. ANÁLISIS DE LA SOLUCIÓN PROPUESTAA partir de la solución propuesta y de los resultados analizados, podemos responder a las cuestionesplanteadas en el Capítulo 3:Cuestión 1:¿Qué tipos de sistemas generan como resultado árboles de decisión? La familia de los Top DownInduction Trees (TDIDT) analiza datos previamente clasificados y genera árboles de inducción paralos mismos. Nuestro análisis se enfocó en dos algoritmos de dicha familia, el ID3 creado por Quinlana mediados de los años 80 [Quinlan, 1986] y el C4.5 creado por Quinlan unos años más tarde[Quinlan, 1993d]. Estos algoritmos generan como resultado árboles de decisión que pueden aplicarsetanto por un operador humano como por una máquina para clasificar nuevos casos.Conclusiones Magdalena Servente 193

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCuestión 2:¿Qué condiciones deben cumplir los datos para que su análisis con el ID3 o el C4.5 sea útil yválido? Como expresamos con anterioridad, no todos los datos son aptos para ser analizados con elID3 y el C4.5. En líneas generales, estos algoritmos trabajan con problemas de clasificación, es decir,problemas donde las instancias pertenecen o no a una clase. De esta manera, el árbol de decisióngenerado contiene en las hojas las distintas clases a las que pueden pertenecer los datos.Cuestión 3:¿Qué tan fácil es para un humano trabajar con estos algoritmos? Se planteó el desarrollo de unambiente integrado, en el que un usuario puede fácilmente aplicar estos dos algoritmos a bases dedatos existentes. El usuario debe lidiar con una interface gráfica mucho más amigable de por sí que lalínea de comandos, en donde, con una simple marca puede aplicar el ID3 o el C4.5 a la base de datosque seleccionó previamente.Cuestión 4:¿Cuáles son los resultados del sistema? Además, de producir los árboles de decisión, el sistemagenera un conjunto de reglas de producción que pueden aplicarse para clasificar nuevos casos. Lainterpretación de este conjunto de reglas debe hacerse en orden: se leen hasta que el antecedente dealguna de las reglas satisfaga el caso en cuestión, entonces se lee el consecuente para obtener la clase.El sistema también presenta como resultado, la evaluación de los modelos generados sobre un nuevoconjunto de datos de prueba.Cuestión 5:¿Cómo podemos medir la calidad de los resultados obtenidos? Una vez generado el modelo dedecisión, el usuario puede elegir la opción de evaluarlo contra un conjunto de datos de prueba,inéditos para el sistema. Básicamente, el sistema clasifica estos datos de prueba y compara las clasesobtenidas contra las que debería haber obtenido, generando una matriz de clasificación. De estamanera, se obtiene una medida de la calidad del sistema de información generado, bajo el supuestoque tanto los datos de entrenamiento como los de prueba sean representativos de la realidad a la cualel modelo de clasificación generado se verá enfrentado una vez que entre en funcionamiento.194 Magdalena Servente Conclusiones

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente6.4. UNA MIRADA AL FUTUROLos algoritmos analizados no clasifican perfectamente a todos los nuevos casos, a pesar de que losmodelos de clasificación presentados son entendibles y aceptables. Quedan cuestiones sin resolver,posibles mejoras y futuras líneas de trabajo que se plantean a continuación6.4.1. Atributos multivaluados en el ID3 y el C4.5Cuando alguno de los algoritmos realiza la partición de los casos de entrenamiento según los valores delos atributos siguiendo el método de divide y reinarás, los resultados son útiles en la medida en que losvalores del atributo según el cual se particiona no sean demasiados. Si existen demasiados valores para elatributo se presentan básicamente dos inconvenientes:1. Una de las consecuencias de particionar un conjunto de entrenamiento en numerosos subconjuntos esque cada subconjunto es pequeño. Por lo tanto, aquellos patrones útiles del subconjunto puedentornarse indetectables por insuficiencia de datos.2. Si los atributos discretos varían en forma notable en sus valores, ¿podemos estar seguros de que uncriterio como la proporción de ganancia los está evaluando de la mejor manera? La proporción deganancia mide la proporción de información relevante a la clasificación, que provee la división sobrela información producida por la división en sí. El denominador crece rápidamente a medida que lacantidad de subconjuntos se incrementa, por lo cual, el estimador deja de ser efectivo al existirmuchos valores para un atributo. Recordemos el ejemplo del cálculo de la información de la divisiónsobre la clave primaria de un conjunto de datos (Sección 4.2.1.1.2)Si deseamos reducir el número de resultados de un atributo multivaluado, debemos asociar uno o más desus valores en una colección de valores de atributos o grupo de valores. En los primeros trabajos sobre eltema [Hunt et al., 1966] la única forma de agrupar valores era mediante la división binaria o binarización,como la realizada por el C4.5.En lugar de realizar este tipo de división, los algoritmos podrían asociar cada grupo de valores con una delas ramas en cantidad variable. En algunos dominios, la agrupación de valores podría determinarse deacuerdo a los conocimientos sobre el dominio. De esta manera, además de mejorar el manejo de atributosmultivaluados, estaríamos incorporando información previa al sistema. De no existir agrupacionesdeterminables de acuerdo al dominio, debería seguirse otro método. Si un atributo tiene n valores, existen2 n-1 -1 divisiones binarias no triviales de estos valores, entonces para un valor de n grande se haceimposible explorar todas estas combinaciones.Conclusiones Magdalena Servente 195

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEn cuanto al ID3, que no maneja atributos continuos, podría incorporársele la binarización utilizada por elC4.5, o un método similar, para que pueda trabajar con atributos de este tipo. El ID3 tal como fuepresentado, no puede aplicarse a todos los dominios, además de descartarse los dominios con clasescontinuas, como en el C4.5, se descartan los dominios con cualquier atributo continuo. El agregado deuna mejora de este tipo lo liberaría de esta restricción y no es demasiado cara.6.4.2. El futuro de la Minería de Datos Inteligente¿En qué medida podemos afirmar que la Minería de Datos Inteligente es efectiva? Más aún, ¿cómopodemos estar seguros de que es útil realizar Minería de Datos Inteligente frente a cualquier problema deMinería de Datos? ¿Podemos afirmar que siempre será efectivo aplicar, por ejemplo, la familia TDIDTcuando se busca obtener un modelo a partir de una gran cantidad de datos?La Ley de Conservación sostiene que ningún algoritmo puede superar a otro cuando la medida deperformance es la precisión de generalización esperada, sobre la suposición de que todos los resultadosposibles son igualmente probables. El hecho de promediar la performance de un algoritmo sobre todos loscasos posibles, asumiendo que todos son igualmente probables, sería como evaluar la performance de unauto en todos los terrenos posibles, asumiendo que todos son igualmente probables. Esta afirmación esfalsa para la práctica, ya que en un dominio en particular, es claro que no todos los casos son igualmenteprobables.Quinlan, quien ha identificado familias de dominios paralelos y secuenciales, sostiene que las redesneuronales son más eficientes en los dominios paralelos, mientras que los algoritmos que construyenárboles de decisión obtienen mejores resultados en los dominios secuenciales. Por lo tanto, aunque unúnico algoritmo de inducción puede no ser óptimo en todas las situaciones posibles, debe analizarse elmejor algoritmo para cada situación en particular.El campo de la Minería de Datos es un campo en pleno desarrollo, donde la mayoría de las herramientasutilizadas provienen de otros campos relacionados como el reconocimiento de patrones, la Estadística o lateoría de complejidad. Dada la novedad de las investigaciones en esta área quedan todavía variosproblemas por afrontar, como ser el tamaño de los datos y el ruido en los mismos.En los últimos años se han desarrollado muchos sistemas de Minería de Datos y se espera que estedesarrollo continúe floreciendo dada la enorme cantidad de datos que son almacenados día a día, querequiere algún tipo de análisis, entendimiento o clasificación. La diversidad de los datos, y de las técnicasy enfoques de la minería de datos, son un desafío para el crecimiento de este área de la tecnología.196 Magdalena Servente Conclusiones

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteANEXO AMANUAL DEL USUARIOEn este Anexo se describen las características generales del sistema (Sección A.1) y lasfunciones de cada uno de los menúes (Sección A.2), detallando las acciones que puedenrealizarse con cada una de las opciones disponibles.A.1. CARACTERÍSTICAS GENERALESEl objetivo del sistema desarrollado es permitir que el usuario realice una minería de datos sobre lastablas de su elección. La minería se lleva a cabo mediante dos algoritmos inteligentes de la familia de losárboles inductivos construidos de raíz hacia las hojas (Top Down Induction Trees – TDIDT): el ID3 y, susucesor, el C4.5.Cuando el usuario ingresa al sistema debe seleccionar la tabla sobre la cual desea trabajar y la columna dela tabla que servirá como clasificador. Dicha tabla debe estar en formato de Paradox 4. Una vezseleccionada la tabla de trabajo, el usuario podrá elegir el método con el cual desea realizar la minería.Los métodos disponibles son el ID3 utilizando la ganancia como criterio de decisión, el ID3 utilizando laproporción de ganancia como criterio de decisión, el C4.5 utilizando la ganancia como criterio dedecisión y el C4.5 utilizando la proporción de ganancia con el mismo propósito.Una vez finalizada la minería, el sistema mostrará en pantalla el árbol de decisión generado. El usuariotendrá la opción de guardar dicho árbol en disco. Además, el sistema genera un conjunto de reglas dedecisión. El formato de estas reglas es lo suficientemente general como para que puedan aplicarse yutilizarse a posteriori para clasificar datos cuya clase no se conoce. Es decir, tanto el árbol como las reglasnos sirven para comprender el modelo de clasificación presente en los datos, y las reglas nos sirven paraclasificar nuevos datos de la misma base de datos que no fueron utilizados por el sistema.Manual del usuario Magdalena Servente 197

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteA.2. FUNCIONALIDADA.2.1. Pantalla principalCuando el usuario ingresa al sistema se encontrará con la pantalla mostrada en la Figura A.1, donde podráver un menú de acceso rápido que detalla la tabla que el usuario eligió como predeterminada paratrabajar, y el atributo clasificador de la misma. Si el usuario desea realizar una minería según susopciones por defecto puede hacerlo rápidamente, presionando los botones de ID3 o de C4.5, dependiendoen el tipo de método que desee utilizar.Figura A.1: Pantalla principal del sistemaA.2.2. Descripción del menúA continuación se detalla cada una de las funciones que se pueden realizar mediante las opciones delmenú del sistema.198 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteA.2.2.1. Menú ResoluciónA.2.2.1.1. ID3Con la opción ID3 del menú Resolución, se aplica el ID3 a la tabla elegida en la pantalla de Cambio deTabla (Menú Opciones/Cambio de Tabla). El ID3 puede aplicarse utilizando la ganancia o la proporciónde ganancia como criterio de decisión, el criterio de decisión se escoge según la subopción del menú queel usuario elija.A.2.2.1.2. C4.5Al igual que con la opción anterior, con la opción C4.5 del menú Resolución, se aplica el C4.5 a la tablaelegida en la sección de Cambio de Tabla (Menú Opciones/Cambio de Tabla). Nuevamente, se utilizará laganancia o la proporción de ganancia de acuerdo a la opción del menú desplegable en que el usuario hayamarcado.A.2.2.1.3. SalirLa opción Salir del menú Resolución, cierra el programa.A.2.2.2. Menú EvaluaciónA.2.2.2.1. ID3Cuando el usuario elige esta opción se encuentra con la pantalla de la figura A.2 donde puede elegir unatabla y una corrida sobre la cual desea obtener una evaluación de los resultados obtenidos. Por corrida, seentiende, una fecha y hora determinadas en las cuales se aplicó el ID3 sobre la tabla. De esta manera,cuando el usuario hace clic sobre el botón “Aceptar” de esta pantalla, se realiza una evaluación sobre losdatos de la tabla de prueba predefinida por el usuario y se muestran la cantidad de casos clasificadoscorrecta e incorrectamente para cada una de las clases de la tabla.A.2.2.2.1. C4.5Al hacer clic sobre esta opción de menú, el usuario podrá evaluar de manera similar a la explicada en lasección anterior, las corridas realizadas con el C4.5.Manual del usuario Magdalena Servente 199

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFigura A.2: Elección de la tabla y la corrida que se desean evaluarA.2.2.3. Menú OpcionesA.2.2.3.1. Ver TablaEsta función muestra los datos de la tabla sobre la que se está trabajando.A.2.2.3.2. Cambiar TablaEsta opción despliega la pantalla mostrada en la figura A.3 donde el usuario puede cambiar la tabla detrabajo y la columna del clasificador (clase) de la misma. Si el usuario hace clic en “Aceptar” esta tabla seutilizará para todas las corridas hasta que se cierre el sistema. Si el usuario hace clic en “Aplicar” estatabla quedará predeterminada, con lo cual se utilizará para todas las corridas posteriores y para lascorridas realizadas cuando se utilice el sistema por próxima vez; queda determinada como tabla pordefecto.A.2.2.3.3. Parámetros del sistemaEsta pantalla, permite cambiar los parámetros generales de trabajo que utiliza el sistema por defecto. Losparámetros que se pueden cambiar son el sistema de minería por defecto: ID3 o C4.5; el criterio dedecisión por defecto: ganancia o proporción de ganancia; y si se realiza o no la poda del árbol de decisiónobtenido.200 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFigura A.3: Pantalla de cambio de tabla y elección de la claseA.2.2.4. Menú AyudaEste menú despliega una ayuda para el usuario del sistema.Manual del usuario Magdalena Servente 201

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente202 Magdalena Servente Manual del usuario

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteANEXO BCONJUNTOS DE DATOSEn este Anexo se detallan los conjuntos de datos utilizados para realizar las pruebas descriptas enel Capítulo 5. Para cada uno de los dominios, se muestran los conjuntos de datos deentrenamiento y prueba. Los datos presentados corresponden a los siguientes dominios: Créditos(Sección B.1), Cardiología (Sección B.2), Votaciones (Sección B.3), Estudio sobre hongos(Sección B.4), Elita: Base de Asteroides (Sección B.5), Hipotiroidismo (Sección B.6),Identificación de vidrios (Sección B.7).Los datos del anexo B se encuentran en el CD que acompaña este trabajo. Están divididos en archivossegún los dominios a los que pertenecen:• Créditos: AnexoB-Creditos.doc• Cardiología: AnexoB-Cardiologia.doc• Votaciones: AnexoB-Votaciones.doc• Estudio sobre hongos: AnexoB-Hongos.doc• Elita: Base de Asteroides: AnexoB-Asteroides.doc• Hipotiroidismo: AnexoB-Hipotiroidismo.doc• Identificación de vidrios: AnexoB-Vidrios.doc.Conjuntos de datos Magdalena Servente 203

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente204 Magdalena Servente Conjuntos de datos

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteANEXO CDOCUMENTACIÓN DEL SISTEMAEste anexo es un complemento a la explicación de la funcionalidad del sistema de la Sección 4.5.En la sección C.1 se detalla la interacción entre los módulos del sistema. Las principalesfunciones de cada uno de estos módulos se presentan en la sección C.2. En la sección C.3 sedetallan las principales estructuras de datos utilizadas por el sistema.C.1. INTERACCIÓN DE LOS MÓDULOSEl sistema está compuesto básicamente por diez módulos o formularios (archivos de extensión cpp),complementados por cuatro archivos de definiciones de tipos (archivos de extensión h y cpp) y un archivode arranque del sistema (Archivo de extensión cpp). Este último es el primero que corre al iniciar elprograma y es quien inicializa los demás módulos.Existe un módulo principal, el Uprincipal, desde donde se realizan los llamados a los demás módulos.Este módulo es el formulario principal con el cual interactúa el usuario. El corazón del sistema reside enlos módulos UDMID3 y UDMC45, quienes aplican el ID3 y el C4.5 respectivamente.La figura C.1 detalla la interacción entre los módulos del sistema. Las flechas representan los mensajesentre ellos. Hemos divididos los módulos en cuatro grupos: módulos de pantallas principales, módulos deopciones generales, módulos de Minería de Datos y módulos de clases de datos. Los módulos de pantallasprincipales son aquellos que representan la pantalla principal y el menú de acceso rápido. Su objetivo esllamar a los otros módulos para llevar a cabo las acciones que el usuario indica en los menúes. Losmódulos de opciones generales son aquellos módulos que realizan todas las operaciones comunes al ID3y al C4.5, como el cambio de la tabla de datos, el cambio del criterio de decisión utilizado por defecto, ola elección de la tabla sobre la cual se desea evaluar el rendimiento, entre otros. Por otro lado, losmódulos de Minería de Datos son aquellos que construyen los árboles y las reglas de decisión a partir delas tablas, para ello utilizan las estructuras de datos definidas en los módulos de clases de datos.El módulo TDIDT no pertenece a ninguno de estos grupos ya es el módulo de inicio del programa.Las funciones principales de cada uno de estos módulos se detallan en la Sección C.2.Documentación del sistema Magdalena Servente 205

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteMódulos de clases de datosUTiposdefns.h Rulex.h Types.hTDIDT.cppInicializarUtilizaciónUtilizaciónInicializarMódulos de Minería de DatosMódulos de pantallas principalesInicializarAplicarmétodoUInfoGralUDMID3UDMC45Aplicar ID3 Aplicar C4.5UPrincipalEvaluarEvaluarRendimientoMostrar árbolRendimiento MostrarMostrar Mostrar ÁrbolrendimientorendimientoMostrar TablaCambiar TablaDeterminar EvaluarPreferencias RendimientoUBDUCambioTablafrmOpcionesSistUElegirRendimientoURendimientoUArbolMódulos de Opciones GeneralesFigura C.1:Esquema de la interacción de los módulos del sistemaC.2. DESCRIPCIÓN DE LOS ARCHIVOS FUENTEC.2.1. TDIDT.cppEs el módulo inicial del sistema. Inicializa las variables de entorno Windows, las librerías estándar y elmódulo de la Uprincipal, el módulo UinfoGral y el módulo DMID3.206 Magdalena Servente Documentación del sistema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteC.2.2. Módulos de pantallas principalesC.2.2.1. UPrincipalEste módulo administra el menú del sistema y transforma los clics del usuario en llamados a losprocedimientos correspondientes.C.2.2.2. UInfoGralEste es un menú de acceso rápido que aparece apenas se inicia el programa. El usuario puede elegiraplicar el ID3 o el C4.5 en las opciones previamente elegidas por defecto.C.2.3. Módulos de opciones generalesC.2.3.1. UBDLista por pantalla todos los casos de la tabla sobre la cual se está trabajando. Es un módulo de consultapara el usuario.C.2.3.2. UCambioTablaLista todos los datos de la tabla sobre la cual se está trabajando por pantalla. Permite que el usuarioseleccione otra tabla sobre la cual trabajar, y permite determinar la clase de los datos, es decir, el campode tabla que cumple la función de clasificador.Si el usuario aplica los cambios, la elección de la tabla y del campo clasificador serán guardadas comoelecciones por defecto. En cambio, si el usuario acepta los cambios, la tabla y el campo escogidos seránutilizados hasta que se cierre el programa o hasta que el usuario modifique su elección.C.2.3.3. frmOpcionesSistEn esta pantalla el usuario puede modificar las opciones por defecto del sistema. Estas opciones son elmétodo (ID3 o C4.5) aplicado con mayor preferencia, el criterio de decisión (ganancia o proporción deDocumentación del sistema Magdalena Servente 207

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteganancia) utilizado y la poda o no por defecto. Estas opciones se utilizan cuando el usuario realiza laMinería de Datos a través del menú de acceso rápido detallado en la Sección C.2.2.2.C.2.3.4. UElegirRendimientoCuando el usuario desea evaluar el rendimiento de alguno de los modelos generados con el sistema,deberá entrar en este módulo para elegir la tabla sobre la que desea trabajar y la fecha y hora en que segeneró el modelo que está tratando de evaluar. Una vez que el usuario ha determinado todos estos datos,se realiza la evaluación del rendimiento del modelo escogido.C.2.3.5. URendimientoMuestra por pantalla la matriz de evaluación del rendimiento del modelo escogido por el usuario en lapantalla descripta en la sección C.2.3.4. La matriz de evaluación muestra, para cada clase, la cantidad decasos que fueron evaluados correctamente y la cantidad de casos que fueron evaluados incorrectamente,según lo descripto en el Capítulo 5.C.2.3.6. UArbolEste módulo muestra el árbol obtenido por pantalla. El usuario puede guardar este árbol en el archivo detexto de su preferencia.C.2.4. Módulos de minería de datosC.2.4.1. UDMID3Este módulo agrupa todas las funciones necesarias para aplicar el ID3 a una tabla. Se utiliza tanto paragenerar el árbol de decisión como para construir las reglas de decisión y evaluar los modelos obtenidos.208 Magdalena Servente Documentación del sistema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteC.2.4.2. UDMC45Al igual que el módulo anterior, este módulo agrupa todas las funciones necesarias para aplicar el C4.5 auna tabla. Genera el árbol y las reglas de decisión, y evalúa los modelos generados.C.2.5. Módulos de clases de datosC.2.5.1. UTiposEn este modulo se definen todos los tipos de datos propios del sistema, principalmente aquellos utilizadospor el ID3.C.2.5.2. Types.hEn este modulo se definen todos los principales tipos de datos utilizados en el C4.5.C.2.5.3. Defns.hEste módulo complementa al anterior, y define aún más tipos de datos utilizados por el C4.5.C.2.5.4. Rulex.hEn este modulo se definen los tipos de datos necesarios para aplicar el C4.5C.3. ESTRUCTURAS DE DATOSC.3.1. Estructuras de datos generalesLa clase Tparams es una clase general que guarda todos los parámetros necesarios para aplicar el C4.5 yel ID3. Su estructura se detalla a continuación:Documentación del sistema Magdalena Servente 209

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteclass TParametros {public:AnsiString ArchivoIni;AnsiString NombreBD;AnsiString TablaBD;AnsiString TablaReglas;AnsiString ColClasificador;AnsiString ExtensionFileReglas;TStringList *LClasificadores;int iFormatoReglas; /* 0: Insight2+1: KappaPC2: ambos3: ninguno*/int iSistema; /* 0: ID31: C4.5 */int iCriterio; /* 0: Ganancia1: Proporción de ganancia */int iPoda;/* 0: Si1: No */int iConjuntos; /* indica si las pruebas en el C4.5 serealizan sobre grupos de atributos discretos0: Si1: No */int iMinObjs; /* Cantidad mínima de objetos que debe teneruna rama en el C4.5 */int iCF;/* Nivel de confianza para la poda en elC4.5 */TParametros(AnsiString ArchIni); //constructor//Toma los parámetros del archivo .ini~TParametros(); //destructor//Refresca los parámetros a partir del archivo .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/int RefrescarParams();//Guardar los parámetros en el .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/int GrabarParams();};C.3.2. Estructuras de datos del ID3La estructura principal utilizada por el ID3 es el árbol de decisión, implementado mediante el uso depunteros. Cada nodo del árbol de decisión contiene un indicador para determinar si es una hoja o un nodo,indica el descriptor que está evaluando, con sus valores válidos, y tiene un vector de punteros a sus nodoshijos. La declaración de este tipo de datos se muestra a continuación.typedef struct tree_node *tree_ptr;struct tree_node {short int flag_hoja; /* 0 si es hoja y todos los valores son "Yes"1 si es hoja y todos los valores son "No"2 si es hoja y sus valores son mixtos3 si no es hoja*/int desc;tree_ptr pHijos[MAX_HIJOS]; //hijo derechoshort int D[MAX_CANT_DESCRIPTORES];/*Descriptores válidos para el nodo*/};typedef tree_ptr DECISION_TREE;210 Magdalena Servente Documentación del sistema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteC.3.4. Estructuras de datos del C4.5La estructura del árbol utilizada en el C4.5 es similar a la detallada para el ID3 aunque tiene una mayorcantidad de objetos, necesarios para trabajar con atributos continuos. La definición de esta estructura dedatos se encuentra a continuación.typedef struct tree_record *Tree;struct tree_record{short NodeType; /* 0=hoja 1=rama 2=corte 3=subconj */ClassNo Leaf; /* clase más frecuente del nodo */ItemCount Items, /* nro de items en el nodo */*ClassDist, /* distrib de clase de los items */Errors; /* nro de errores en el nodo */Attribute Tested; /* atribute referenciado en la prueba */short Forks; /* nro de ramas en el nodo */float Cut, /* límite para los atrib continuos */Lower, /* límite inferior del valor límite */Upper; /* límite superior del valor límite */Conjunto *Subset; /* subconj de valores discretos */Tree *Branch; /* Branch[x] = (sub)árbol para el resultado x */};typedef Tree DECISION_TREE_C45;Documentación del sistema Magdalena Servente 211

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente212 Magdalena Servente Documentación del sistema

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteANEXO DCÓDIGO FUENTEEn este anexo se presenta el código fuente del sistema desarrollado. En la sección D.1 sepresenta el código fuente del archivo TDIDT.cpp que es el archivo inicial del proyecto y es quieninicializa al resto de los formularios requeridos. En la sección D.2 se presenta el código fuente delas pantallas principales. A continuación, se detallan los códigos fuentes de los módulos deopciones generales (Sección D:3), de los módulos de minería de datos (Sección D.4) y de losmódulos de clases o estructuras de datos (Sección D.5)D.1. TDIDT.CPP//---------------------------------------------------------------------------#include #pragma hdrstopUSERES("TDIDT.res");USEFORM("UPrincipal.cpp", FormPrincipal);USEFORM("UArbol.cpp", frm_Arbol);USEFORM("UDMID3.cpp", DMID3); /* TDataModule: DesignClass */USEUNIT("UTipos.cpp");USEFORM("UBD.cpp", frmBD);USEFORM("frmOpcionesSist.cpp", frmOpciones);USEFORM("UInfoGral.cpp", frmInfoGral);USEFORM("URendimiento.cpp", FrmRendimiento);USEFORM("UElegirRendimiento.cpp", frmElegirRendimiento);USEFORM("UCambioTabla.cpp", frmCambioTabla);USEFILE("C45\defns.h");USEFILE("C45\TYPES.h");USEFORM("C45\UDMC45.cpp", DMC45); /* TDataModule: DesignClass */USEFILE("C45\Rulex.h");//---------------------------------------------------------------------------WINAPI WinMain(HINSTANCE, HINSTANCE, LPSTR, int){try{Application->Initialize();Application->CreateForm(__classid(TDMID3), &DMID3);Application->CreateForm(__classid(TFormPrincipal), &FormPrincipal);Application->CreateForm(__classid(TfrmInfoGral), &frmInfoGral);Application->Run();}catch (Exception &exception){Application->ShowException(&exception);}return 0;}Código Fuente Magdalena Servente 213

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.2. MÓDULOS DE PANTALLAS PRINCIPALESD.2.1. UPrincipalD.2.1.1. UPrincipal.h//---------------------------------------------------------------------------#ifndef UPrincipalH#define UPrincipalH//---------------------------------------------------------------------------#include #include #include "frmOpcionesSist.h"#include "UDMID3.h"#include "UArbol.h"#include "UBD.h"#include "UInfoGral.h"#include "UElegirRendimiento.h"#include "URendimiento.h"#include "UCambioTabla.h"#include "UDMC45.h"//---------------------------------------------------------------------------class TFormPrincipal : public TForm{__published: // IDE-managed ComponentsTMainMenu *MenuPpal;TMenuItem *mnuGral;TMenuItem *mnuSep;TMenuItem *mnu_Salir;TMenuItem *mnuID3;TMenuItem *mnuC45;TMenuItem *mnuID3G;TMenuItem *mnuID3GR;TMenuItem *mnuC45G;TMenuItem *mnuC45GR;TMenuItem *mnuAyuda;TMenuItem *mnuHelpIndex;TMenuItem *mnuSep3;TMenuItem *mnuAcercaDe;TMenuItem *mnuEvaluacion;TMenuItem *mnuEvalID3;TMenuItem *mnuEvalC45;TMenuItem *mnuOpciones;TMenuItem *mnuTabla;TMenuItem *mnuCambiarTabla;TMenuItem *mnuParametros;void __fastcall FormCreate(TObject *Sender);void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall FormCloseQuery(TObject *Sender, bool &CanClose);void __fastcall mnu_ID3GainClick(TObject *Sender);void __fastcall mnu_ID3GainRatioClick(TObject *Sender);void __fastcall mnu_SalirClick(TObject *Sender);void __fastcall mnuID3GClick(TObject *Sender);void __fastcall mnuID3GRClick(TObject *Sender);void __fastcall FormShow(TObject *Sender);void __fastcall mnuEvalID3Click(TObject *Sender);void __fastcall mnuTablaClick(TObject *Sender);void __fastcall mnuParametrosClick(TObject *Sender);void __fastcall mnuCambiarTablaClick(TObject *Sender);void __fastcall mnuEvalC45Click(TObject *Sender);void __fastcall mnuC45GClick(TObject *Sender);void __fastcall mnuC45GRClick(TObject *Sender);private:TParametros *Params;public:__fastcall TFormPrincipal(TComponent* Owner);// void ActualizarParametros(TStringList *ListaParam);/* Esta función actualiza los parámetros del formularioLa lista de parámetros debe tener el siguiente orden:ExtensionArchivoReglas; AliasBD; TablaBDColClasificador; Lista de Clasificadores*/214 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentevoid ID3(short int MedidorGanancia); //llama al algoritmo ID3 sobre la tablaactualint EvalRendimiento; //indica si el usuario desea evaluar el rendimiento de unacorrida o no};//---------------------------------------------------------------------------extern PACKAGE TFormPrincipal *FormPrincipal;//---------------------------------------------------------------------------#endifD.2.1.1. UPrincipal.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UPrincipal.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TFormPrincipal *FormPrincipal;Tfrm_Arbol *frm_Arbol;TfrmOpciones *frmOpciones;TfrmElegirRendimiento *frmElegirRendimiento;TFrmRendimiento *FrmRendimiento;TfrmBD *frmBD;TfrmCambioTabla *frmCambioTabla;//-----------------------------------------------------------------------------//-----------------------------------------------------------------------------// IMPLEMENTACION//-----------------------------------------------------------------------------//-----------------------------------------------------------------------------__fastcall TFormPrincipal::TFormPrincipal(TComponent* Owner): TForm(Owner){Params=new TParametros("Gap.ini");}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::FormCreate(TObject *Sender){DMID3->RecibirParametros(Params);}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::FormClose(TObject *Sender,TCloseAction &Action){delete Params;}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::FormCloseQuery(TObject *Sender,bool &CanClose){int rta;rta=MessageBox(FormPrincipal->Handle, "¿Está seguro de que desea salir de laaplicación?", "Tesis", MB_ICONQUESTION|MB_YESNO|MB_DEFBUTTON1|MB_SYSTEMMODAL);if (rta==IDNO) //el usuario no desea salir de la aplicaciónCanClose=false;}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnu_ID3GainClick(TObject *Sender){ID3(0);}Código Fuente Magdalena Servente 215

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnu_ID3GainRatioClick(TObject *Sender){ID3(1);}//---------------------------------------------------------------------------void TFormPrincipal::ID3(short int MedidorGanancia){tree_ptr pRoot;TVecValores VecVal, VecDesc;int i;Cursor=crHourGlass;DMID3->RecibirParametros(Params);pRoot=DMID3->Principal(MedidorGanancia);DMID3->PruneTree(pRoot);DMID3->InformarValores(VecVal);DMID3->InformarDescrip(VecDesc);frm_Arbol= new Tfrm_Arbol(this);frm_Arbol->Cursor=crHourGlass;frm_Arbol->RecibirParametros(Params->LClasificadores,VecVal,VecDesc);frm_Arbol->PrintTree(pRoot);DMID3->ArmarReglas(pRoot);DMID3->EliminarTree(pRoot);free(pRoot);frm_Arbol->Cursor=crArrow;FormPrincipal->Cursor=crArrow;}for (i=0;iClose();}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuID3GClick(TObject *Sender){ID3(0);}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuID3GRClick(TObject *Sender){ID3(1);}void __fastcall TFormPrincipal::FormShow(TObject *Sender){frmInfoGral->RecibirParametros(Params->TablaBD,Params->ColClasificador,Params->iCriterio);}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuEvalID3Click(TObject *Sender){EvalRendimiento=0;frmElegirRendimiento= new TfrmElegirRendimiento(this);frmElegirRendimiento->ActualizarDatos(0,Params->NombreBD);frmElegirRendimiento->ShowModal();if (EvalRendimiento==0){FrmRendimiento= new TFrmRendimiento(this);FrmRendimiento->Cursor=crHourGlass;216 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDMID3->EvaluarReglas(frmElegirRendimiento->CodigoReglas);FrmRendimiento->Cursor=crArrow;}}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuTablaClick(TObject *Sender){frmBD=new TfrmBD(this);frmBD->RecibirParametros(Params);}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuParametrosClick(TObject *Sender){frmOpciones=new TfrmOpciones(this);frmOpciones->RecibirParametros(Params);frmOpciones->Show();}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuCambiarTablaClick(TObject *Sender){frmCambioTabla=new TfrmCambioTabla(this);frmCambioTabla->RecibirParametros(Params);frmCambioTabla->Show();}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuEvalC45Click(TObject *Sender){EvalRendimiento=0;frmElegirRendimiento= new TfrmElegirRendimiento(this);frmElegirRendimiento->ActualizarDatos(0,Params->NombreBD);frmElegirRendimiento->ShowModal();if (EvalRendimiento==0){FrmRendimiento= new TFrmRendimiento(this);FrmRendimiento->Cursor=crHourGlass;DMC45->EvaluacionRendimiento();FrmRendimiento->Cursor=crArrow;}}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuC45GClick(TObject *Sender){Params->iCriterio=0;DMC45->RecibirParametros(Params);DMC45->C45();}//---------------------------------------------------------------------------void __fastcall TFormPrincipal::mnuC45GRClick(TObject *Sender){Params->iCriterio=1;DMC45->RecibirParametros(Params);DMC45->C45();}//---------------------------------------------------------------------------D.2.2. UInfoGralD.2.2.1. UInfoGral.h//---------------------------------------------------------------------------#ifndef UInfoGralH#define UInfoGralHCódigo Fuente Magdalena Servente 217

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//---------------------------------------------------------------------------#include #include #include #include #include "UPrincipal.h"//---------------------------------------------------------------------------class TfrmInfoGral : public TForm{__published: // IDE-managed ComponentsTLabel *lblTabla;TLabel *lblClase;TEdit *txtClase;TEdit *txtTabla;TBitBtn *BtnC45;TBitBtn *BtnID3;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall BtnID3Click(TObject *Sender);private:short MedidorGanancia;public:__fastcall TfrmInfoGral(TComponent* Owner);void RecibirParametros(AnsiString tabla, AnsiString clase, short Ganancia);};//---------------------------------------------------------------------------extern PACKAGE TfrmInfoGral *frmInfoGral;//---------------------------------------------------------------------------#endifD.2.2.2. UInfoGral.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UInfoGral.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TfrmInfoGral *frmInfoGral;//---------------------------------------------------------------------------__fastcall TfrmInfoGral::TfrmInfoGral(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TfrmInfoGral::FormClose(TObject *Sender,TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------void TfrmInfoGral::RecibirParametros(AnsiString tabla, AnsiString clase, short Ganancia){txtTabla->Text=tabla;txtClase->Text=clase;MedidorGanancia=Ganancia;}void __fastcall TfrmInfoGral::BtnID3Click(TObject *Sender){ TFormPrincipal *pForm;pForm=FormPrincipal;pForm->Cursor=crHourGlass;pForm->ID3(MedidorGanancia);pForm->Cursor=crArrow;}//---------------------------------------------------------------------------218 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.3. MÓDULOS DE OPCIONES GENERALESD.3.1. UBDD.3.1.1. UBD.h//---------------------------------------------------------------------------#ifndef UBDH#define UBDH//---------------------------------------------------------------------------#include #include #include #include #include #include #include "UDMID3.h"//---------------------------------------------------------------------------class TfrmBD : public TForm{__published: // IDE-managed ComponentsTDBGrid *DBGrid;TDataSource *DSTabla;TTable *Tabla;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);private:/*Parámetros de la base sobre la que trabajaremos*/TParametros *Params;public:__fastcall TfrmBD(TComponent* Owner);void RecibirParametros(TParametros *Parametros);};//---------------------------------------------------------------------------extern PACKAGE TfrmBD *frmBD;//---------------------------------------------------------------------------#endifD.3.1.2. UBD.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UBD.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TfrmBD *frmBD;//---------------------------------------------------------------------------__fastcall TfrmBD::TfrmBD(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TfrmBD::FormClose(TObject *Sender, TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------void TfrmBD::RecibirParametros(TParametros *Parametros){Params=Parametros;}Tabla->DatabaseName=Params->NombreBD;Tabla->TableName=Params->TablaBD;Tabla->Active=true;Código Fuente Magdalena Servente 219

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.3.2. UCambioTablaD.3.2.1. UCambioTabla.h//---------------------------------------------------------------------------#ifndef UCambioTablaH#define UCambioTablaH//---------------------------------------------------------------------------#include #include #include #include #include #include #include #include #include #include "UTipos.h"#include "UDMID3.h"#include "UInfoGral.h"//---------------------------------------------------------------------------class TfrmCambioTabla : public TForm{__published: // IDE-managed ComponentsTDBGrid *DBGrid;TDataSource *DSTabla;TTable *Tabla;TEdit *txt_Tabla;TBitBtn *Btn_fod;TOpenDialog *fod_TablaBD;TLabel *lbl_TablaBD;TLabel *lbl_nbeColClasif;TComboBox *cbo_ColClasif;TBitBtn *btn_Aceptar;TBitBtn *btn_Cancelar;TBitBtn *btn_Aplicar;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall Btn_fodClick(TObject *Sender);void __fastcall btn_CancelarClick(TObject *Sender);void __fastcall btn_AceptarClick(TObject *Sender);void __fastcall btn_AplicarClick(TObject *Sender);void __fastcall txt_TablaChange(TObject *Sender);void __fastcall cbo_ColClasifChange(TObject *Sender);private:/*Parámetros de la base sobre la que trabajaremos*/TParametros *Params;void CargarCombo();int ActualizarCambios(); /*Devuelve:0: si los cambios fueron exitosos1: si hubo problemas*/public:__fastcall TfrmCambioTabla(TComponent* Owner);void RecibirParametros(TParametros *Parametros);};//---------------------------------------------------------------------------extern PACKAGE TfrmCambioTabla *frmCambioTabla;//---------------------------------------------------------------------------#endifD.3.2.2. UCambioTabla.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UCambioTabla.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"220 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteTfrmCambioTabla *frmCambioTabla;//---------------------------------------------------------------------------__fastcall TfrmCambioTabla::TfrmCambioTabla(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::FormClose(TObject *Sender,TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------void TfrmCambioTabla::RecibirParametros(TParametros *Parametros){Params=Parametros;}//Cargamos los datos relacionados con la Base de Datosfod_TablaBD->FileName=Params->TablaBD;txt_Tabla->Text=Params->TablaBD;Tabla->TableName=Params->TablaBD;Tabla->DatabaseName=Params->NombreBD;Tabla->Active=true;CargarCombo();btn_Aplicar->Enabled=false;//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::Btn_fodClick(TObject *Sender){bool res;int index;AnsiString TablaBD;res=fod_TablaBD->Execute();if (res){TablaBD=fod_TablaBD->FileName;index=TablaBD.LastDelimiter("\\");TablaBD=TablaBD.SubString(index+1,TablaBD.Length()-index);txt_Tabla->Text=TablaBD;Tabla->Active=false;Tabla->TableName=TablaBD;Tabla->Active=true;cbo_ColClasif->Clear();CargarCombo();}TablaBD.~AnsiString();}//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::btn_CancelarClick(TObject *Sender){Close();}//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::btn_AceptarClick(TObject *Sender){if (ActualizarCambios()==0)Close();}//---------------------------------------------------------------------------void TfrmCambioTabla::CargarCombo(){TStringList *listaCpos = new TStringList();int i;bool fin;Tabla->GetFieldNames(listaCpos);cbo_ColClasif->Items->AddStrings(listaCpos);i=0;while (iItems->Count){if (AnsiCompareText(cbo_ColClasif->Items->Strings[i].Trim(),"NIVEL")==0)cbo_ColClasif->Items->Delete(i);elseCódigo Fuente Magdalena Servente 221

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}i++;fin=false;i=0;while (iItems->Count && !fin){if (AnsiCompareText(cbo_ColClasif->Items->Strings[i].Trim(),Params->ColClasificador.Trim())==0){cbo_ColClasif->ItemIndex=i;fin=true;}i++;}delete(listaCpos);}//---------------------------------------------------------------------------int TfrmCambioTabla::ActualizarCambios() /*Devuelve:0: si los cambios fueron exitosos1: si hubo problemas*/{AnsiString TablaAnterior;AnsiString sqlstring;TQuery *QValoresClasif=new TQuery(frmCambioTabla);int res;try{res=0;if (Params->TablaBD!=txt_Tabla->Text) //actualizamos los datos de la tabla{Params->TablaBD=txt_Tabla->Text;TablaAnterior=DMID3->TTennis->TableName;DMID3->TTennis->Active=false;DMID3->TTennis->DatabaseName=Params->NombreBD;DMID3->TTennis->TableName=Params->TablaBD;DMID3->TTennis->Active=true;//Inicializamos los queries que harán sus consultas sobre la base//especificadaDMID3->QGral->DatabaseName=Params->NombreBD;//Inicializamos el campo Nivel en la Tablasqlstring="Update ";AppendStr(sqlstring, Params->TablaBD);AppendStr(sqlstring," SET Nivel = 0 ");DMID3->QGral->SQL->Clear();DMID3->QGral->SQL->Add(sqlstring);DMID3->QGral->ExecSQL();DMID3->QGral->SQL->Clear();DMID3->TTennis->Close();DMID3->TTennis->Open();}if (Params->ColClasificador!=cbo_ColClasif->Text)//Cambiamos la columna del clasificador{if (cbo_ColClasif->Text.Trim()==""){ShowMessage("El nombre de la Columna del Clasificador no puedequedar en blanco");cbo_ColClasif->SetFocus();res=1;}else{Params->ColClasificador=cbo_ColClasif->Text;//Actualizamos la lista de Clasificadoressqlstring="SELECT DISTINCT(" + Params->ColClasificador + ") asClasif FROM " + Params->TablaBD;QValoresClasif->DatabaseName=Params->NombreBD;QValoresClasif->SQL->Clear();QValoresClasif->SQL->Add(sqlstring);QValoresClasif->Open();222 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteQValoresClasif->Last();QValoresClasif->First();Params->LClasificadores->Clear();while (!QValoresClasif->Eof){Params->LClasificadores->Add(QValoresClasif->FieldByName("Clasif")->AsString);QValoresClasif->Next();}res=0;}}frmInfoGral->RecibirParametros(Params->TablaBD,Params->ColClasificador,Params->iCriterio);}catch(...){ShowMessage("Problemas con la Base de Datos, no podrá cambiar de tabla");//Restauramos los valores anterioresDMID3->TTennis->Active=false;DMID3->TTennis->DatabaseName=Params->NombreBD;Params->TablaBD=TablaAnterior;DMID3->TTennis->TableName=Params->TablaBD;DMID3->TTennis->Active=true;//Inicializamos los queries que harán sus consultas sobre la base//especificadaDMID3->QGral->DatabaseName=Params->NombreBD;}cbo_ColClasif->Clear();CargarCombo();res=1;}sqlstring.~AnsiString();TablaAnterior.~AnsiString();delete(QValoresClasif);return(res);//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::btn_AplicarClick(TObject *Sender){ActualizarCambios();Params->GrabarParams();btn_Aplicar->Enabled=false;}void __fastcall TfrmCambioTabla::txt_TablaChange(TObject *Sender){btn_Aplicar->Enabled=true;}//---------------------------------------------------------------------------void __fastcall TfrmCambioTabla::cbo_ColClasifChange(TObject *Sender){btn_Aplicar->Enabled=true;}//---------------------------------------------------------------------------D.3.3. frmOpcionesSistD.3.3.1. frmOpcionesSist.h//---------------------------------------------------------------------------#ifndef frmOpcionesSistH#define frmOpcionesSistH//---------------------------------------------------------------------------#include #include Código Fuente Magdalena Servente 223

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente#include #include #include #include "UPrincipal.h"#include "UTipos.h"//--------------------------------------------------------------------------class TfrmOpciones : public TForm{__published: // IDE-managed ComponentsTRadioGroup *rgSistema;TRadioGroup *rgCriterio;TRadioGroup *rgPoda;TBitBtn *btn_Aplicar;TBitBtn *btn_Cancelar;TBitBtn *btn_Aceptar;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall btn_CancelarClick(TObject *Sender);void __fastcall btn_AceptarClick(TObject *Sender);void __fastcall btn_AplicarClick(TObject *Sender);private: // User declarationspublic:TParametros *Params;// User declarations__fastcall TfrmOpciones(TComponent* Owner);void RecibirParametros(TParametros *Parametros);};//---------------------------------------------------------------------------extern PACKAGE TfrmOpciones *frmOpciones;//---------------------------------------------------------------------------#endifD.3.3.2. frmOpcionesSist.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "frmOpcionesSist.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TfrmOpciones *frmOpciones;//---------------------------------------------------------------------------__fastcall TfrmOpciones::TfrmOpciones(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TfrmOpciones::FormClose(TObject *Sender,TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------void TfrmOpciones::RecibirParametros(TParametros *Parametros){Params=Parametros;}//Cargamos los datos del sistemargSistema->ItemIndex=Params->iSistema;//Cargamos los datos del Criterio de EvaluaciónrgCriterio->ItemIndex=Params->iCriterio;//Cargamos los datos de la podargPoda->ItemIndex=Params->iPoda;void __fastcall TfrmOpciones::btn_CancelarClick(TObject *Sender){224 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteClose();}//---------------------------------------------------------------------------void __fastcall TfrmOpciones::btn_AceptarClick(TObject *Sender){ int cerrar;int rta;cerrar=0;Params->iSistema=rgSistema->ItemIndex;Params->iCriterio=rgCriterio->ItemIndex;Params->iPoda=rgPoda->ItemIndex;Params->iFormatoReglas=1;if (cerrar==0)Close();}//---------------------------------------------------------------------------void __fastcall TfrmOpciones::btn_AplicarClick(TObject *Sender){Params->iSistema=rgSistema->ItemIndex;Params->iCriterio=rgCriterio->ItemIndex;Params->iPoda=rgPoda->ItemIndex;Params->iFormatoReglas=1;Params->GrabarParams();}//---------------------------------------------------------------------------D.3.4. UElegirRendimientoD.3.4.1. UElegirRendimiento.h//---------------------------------------------------------------------------#ifndef UElegirRendimientoH#define UElegirRendimientoH//---------------------------------------------------------------------------#include #include #include #include #include #include #include #include "UPrincipal.h"//---------------------------------------------------------------------------class TfrmElegirRendimiento : public TForm{__published: // IDE-managed ComponentsTRadioGroup *rgCorrida;TGroupBox *gbSeleccionar;TLabel *lblTabla;TLabel *lblFecha;TComboBox *cbTabla;TComboBox *cbFecha;TBitBtn *btn_Cancelar;TBitBtn *btn_Aceptar;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall btn_CancelarClick(TObject *Sender);void __fastcall rgCorridaClick(TObject *Sender);void __fastcall btn_AceptarClick(TObject *Sender);void __fastcall cbTablaChange(TObject *Sender);private:AnsiString Base;int Tipo;void CargarCboFechora();public:int CodigoReglas;__fastcall TfrmElegirRendimiento(TComponent* Owner);Código Fuente Magdalena Servente 225

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentevoid ActualizarDatos(int iTipo, AnsiString NombreBD);/* iTipo 0: ID3 1:C4.5*/};//---------------------------------------------------------------------------extern PACKAGE TfrmElegirRendimiento *frmElegirRendimiento;//---------------------------------------------------------------------------#endifD.3.4.2. UElegirRendmiento.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UElegirRendimiento.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TfrmElegirRendimiento *frmElegirRendimiento;//---------------------------------------------------------------------------__fastcall TfrmElegirRendimiento::TfrmElegirRendimiento(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TfrmElegirRendimiento::FormClose(TObject *Sender,TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------void __fastcall TfrmElegirRendimiento::btn_CancelarClick(TObject *Sender){FormPrincipal->EvalRendimiento=1;Close();}//---------------------------------------------------------------------------void __fastcall TfrmElegirRendimiento::rgCorridaClick(TObject *Sender){if (rgCorrida->ItemIndex==1)gbSeleccionar->Enabled=true;elsegbSeleccionar->Enabled=false;}//---------------------------------------------------------------------------void TfrmElegirRendimiento::ActualizarDatos(int iTipo, AnsiString NombreBD){TQuery *QTabla=new TQuery(frmElegirRendimiento);AnsiString sqlstring;try {Base=NombreBD;Tipo=iTipo;QTabla->DatabaseName=NombreBD;sqlstring="SELECT distinct(Nombre_Tabla) FROM UpdatesHeader.db WHERE Metodo='";if (iTipo==0)AppendStr(sqlstring,"ID3'");elseAppendStr(sqlstring,"C45'");AppendStr(sqlstring,"ORDER BY Nombre_Tabla");QTabla->SQL->Clear();QTabla->SQL->Add(sqlstring);QTabla->Open();QTabla->First();while (!QTabla->Eof){cbTabla->Items->Add(QTabla->FieldByName("Nombre_Tabla")->AsString);226 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteQTabla->Next();}cbTabla->ItemIndex=0;CargarCboFechora();sqlstring.~AnsiString();delete(QTabla);}catch(...){ShowMessage("No se pudieron obtener los datos de la tabla de evaluación");sqlstring.~AnsiString();delete(QTabla);}}//---------------------------------------------------------------------------void __fastcall TfrmElegirRendimiento::btn_AceptarClick(TObject *Sender){TQuery *QTabla=new TQuery(frmElegirRendimiento);AnsiString sqlstring;try {QTabla->DatabaseName=Base;if (rgCorrida->ItemIndex==0){/* sqlstring="SELECT Max(Codigo)as Codigo FROM UpdatesHeader.db WHERENombre_Tabla='" +cbTabla->Text +"' AND Metodo='";*/ sqlstring="SELECT Max(Codigo) as Codigo FROM UpdatesHeader.db WHEREMetodo='";}else{if (Tipo==0)AppendStr(sqlstring,"ID3'");elseAppendStr(sqlstring,"C45'");sqlstring="SELECT Codigo FROM UpdatesHeader.db WHERE Nombre_Tabla='" +cbTabla->Text +"' AND Metodo='";if (Tipo==0)AppendStr(sqlstring,"ID3'");elseAppendStr(sqlstring,"C45'");AppendStr(sqlstring,"AND Fecha='");AppendStr(sqlstring,cbFecha->Text.SubString(0,8));AppendStr(sqlstring,"' AND Hora='");AppendStr(sqlstring,Trim(cbFecha->Text.SubString(9,cbFecha->Text.Length()-8)));AppendStr(sqlstring,"'");}QTabla->SQL->Clear();QTabla->SQL->Add(sqlstring);QTabla->Open();CodigoReglas=QTabla->FieldByName("Codigo")->AsInteger;QTabla->First();sqlstring.~AnsiString();delete(QTabla);}catch(...){ShowMessage("Problemas con la Base de Datos, no se pudo recuperar la tabla aprocesar.");sqlstring.~AnsiString();delete(QTabla);}}//---------------------------------------------------------------------------void __fastcall TfrmElegirRendimiento::cbTablaChange(TObject *Sender){CargarCboFechora();}void TfrmElegirRendimiento::CargarCboFechora(){TQuery *QTabla=new TQuery(frmElegirRendimiento);AnsiString sqlstring;Código Fuente Magdalena Servente 227

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif (cbTabla->Text!=""){try {QTabla->DatabaseName=Base;sqlstring="SELECT Fecha, Hora FROM UpdatesHeader.db WHERE Metodo='";if (Tipo==0)AppendStr(sqlstring,"ID3'");elseAppendStr(sqlstring,"C45'");AppendStr(sqlstring, " AND Nombre_Tabla='");AppendStr(sqlstring,cbTabla->Text);AppendStr(sqlstring,"' ORDER BY Fecha DESC");QTabla->SQL->Clear();QTabla->SQL->Add(sqlstring);QTabla->Open();QTabla->First();cbFecha->Clear();while (!QTabla->Eof){sqlstring=QTabla->FieldByName("Fecha")->AsString + " " + QTabla->FieldByName("Hora")->AsString;cbFecha->Items->Add(sqlstring);QTabla->Next();}cbFecha->ItemIndex=0;}catch(...){ShowMessage("No se pudieron obtener los datos de la tabla de evaluación");}}sqlstring.~AnsiString();delete(QTabla);}//---------------------------------------------------------------------------D.3.5. URendimientoD.3.5.1. URendimiento.h//---------------------------------------------------------------------------#ifndef URendimientoH#define URendimientoH#include #include #include //---------------------------------------------------------------------------class TFrmRendimiento : public TForm{__published: // IDE-managed ComponentsTStringGrid *GridResultados;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);private:public:// User declarations// User declarations__fastcall TFrmRendimiento(TComponent* Owner);};//---------------------------------------------------------------------------extern PACKAGE TFrmRendimiento *FrmRendimiento;//---------------------------------------------------------------------------#endifD.3.5.2. URendmiento.cpp//---------------------------------------------------------------------------#pragma hdrstop228 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente#include "URendimiento.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TFrmRendimiento *FrmRendimiento;//---------------------------------------------------------------------------__fastcall TFrmRendimiento::TFrmRendimiento(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall TFrmRendimiento::FormClose(TObject *Sender,TCloseAction &Action){Action = caFree;}//---------------------------------------------------------------------------D.3.6. UarbolD.3.6.1. UArbol.h//---------------------------------------------------------------------------#ifndef UArbolH#define UArbolH//---------------------------------------------------------------------------#include #include #include #include #include "UPrincipal.h"#include "UTipos.h"//--------------------------------------------------------------------------class Tfrm_Arbol : public TForm{__published: // IDE-managed ComponentsTTreeView *ArbolRes;TOpenDialog *fod_Archivo;void __fastcall FormClose(TObject *Sender, TCloseAction &Action);void __fastcall FormCloseQuery(TObject *Sender, bool &CanClose);private:/*String que tendrá los valores posibles para el clasificador*/TStringList *LClasificadores;TVecValores VecValores;TVecValores VecDescriptores;public:void PrintSubtree(tree_ptr Tree, int nivel);int ObtenerNuevoValor(); /*numeración de valores del VecValores parala impresión del árbol*/__fastcall Tfrm_Arbol(TComponent* Owner);void PrintTree(tree_ptr Tree);void RecibirParametros(TStringList *LClasif,TVecValores VecVal,TVecValores VecDescrip);};//---------------------------------------------------------------------------extern PACKAGE Tfrm_Arbol *frm_Arbol;//---------------------------------------------------------------------------#endifD.3.6.2. UArbol.cpp//---------------------------------------------------------------------------#pragma hdrstopCódigo Fuente Magdalena Servente 229

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente#include "UArbol.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"Tfrm_Arbol *frm_Arbol;TTreeNode *pNivel[MAX_CANT_DESCRIPTORES]; //para la visualización//---------------------------------------------------------------------------__fastcall Tfrm_Arbol::Tfrm_Arbol(TComponent* Owner): TForm(Owner){}//---------------------------------------------------------------------------void __fastcall Tfrm_Arbol::FormClose(TObject *Sender,TCloseAction &Action){int i;for (i=0;iExecute();if (res)ArbolRes->SaveToFile(fod_Archivo->FileName);}}//---------------------------------------------------------------------------int Tfrm_Arbol::ObtenerNuevoValor() /*numeración de valores del VecValores parala impresión del árbol*/{static int i=0;i++;return(i);}//---------------------------------------------------------------------------//-------------------- IMPRESIÓN DEL ÁRBOL EN PANTALLA ----------------------//---------------------------------------------------------------------------/************************************************************************************************************************************************************/void Tfrm_Arbol::PrintTree(tree_ptr Tree){int nivel;TTreeNode *pNivel[MAX_CANT_DESCRIPTORES]; //para la visualizaciónnivel=0;//nivel de la raízpNivel[nivel]= new TTreeNode(ArbolRes->Items);PrintSubtree(Tree, nivel);// frm_Arbol->ArbolRes->Width=Width-60;ArbolRes->Left=Left+30;ArbolRes->Top=Top+50;// frm_Arbol->ArbolRes->Height=Height-100;ArbolRes->FullExpand();230 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteArbolRes->Visible=true;}void Tfrm_Arbol::PrintSubtree(tree_ptr Tree, int nivel){int i;int val;AnsiString nodo;if (nivel!=0){val=ObtenerNuevoValor();nodo=VecDescriptores[val];AppendStr(nodo, " = ");AppendStr(nodo, VecValores[val]);pNivel[nivel]=ArbolRes->Items->AddChild(pNivel[nivel-1],nodo);}if (Tree->flag_hoja!=3) //es hojaArbolRes->Items->AddChild(pNivel[nivel], LClasificadores->Strings[Tree->flag_hoja]);else //no es hoja{i=0;nivel++;while ((Tree->pHijos[i]!=NULL)&&(ipHijos[i],nivel);i++;}}//end elsenodo.~AnsiString();return;}//---------------------------------------------------------------------------//---------------------------------------------------------------------------//---------------------------------------------------------------------------//---------------------------------------------------------------------------void Tfrm_Arbol::RecibirParametros(TStringList *LClasif,TVecValores VecVal,TVecValores VecDescrip){int i;LClasificadores=LClasif;for (i=0;i

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//---------------------------------------------------------------------------class TDMID3 : public TDataModule{__published: // IDE-managed ComponentsTTable *TTennis;TDataSource *DSTTennis;TQuery *QGral;TQuery *QUpdates;void __fastcall DMID3Destroy(TObject *Sender);private:TParametros *Params;short int EvaluarResultados(AnsiString NombreTabla);public:__fastcall TDMID3(TComponent* Owner);//----------------------------------------------------------------------------//--------------------DECLARACION DE FUNCIONES--------------------------------//----------------------------------------------------------------------------tree_ptr Principal ( short int MedidorGanancia); /*Módulo principal*/void RecibirParametros(TParametros *Parametros);short int EsUniforme(int nivelArbol); /*verifica si estamos en una hoja*/int ObtenerCantDescr();/*Obtiene la cantidad de descriptores de la tabla*/int BuscarPK(short int ValidDs[]); /*Busca claves promarias en la tabla*/tree_ptr BuildTree(int nivel, short int *pD);/*Función que construye el árbol de decisión según el ID3*/int ObtenerNuevoNivel(); /*numeración de niveles para el árbol*/int ObtenerNuevoValor(); /*numeración de subíndices del VecValores para laimpresión del árbol*/int ArmarTabla(TTablaCorrel& Tabla, int Nivel, int desc,TStringList *valores);/*arma la tabla de correlación para el nro de descriptor indicado en el niveldel árbol indicadoSi la función devuelve un 0 significa que no hubo problemasHubo problemas en todo otro caso*/int Particionar(int desc, int nivel, tree_ptr pNode, TStringList *valores);/*realiza la partición del conjunto de datosSi la función devuelve un 0 significa que no hubo problemasHubo problemas en todo otro caso*/short int PruneTree(tree_ptr Tree);/*realiza el "pruning" del árbol obtenidoDevuelve 0 si todos los valores son "Yes"1 si todos los valores son "No"2 si los valores son mixtos-1 si los valores son distintos*/void ArmarReglas(tree_ptr Tree);/*Arma las reglas de decisión generadas a partir del árbol de decisión "Tree"*/void ObtenerReglas(tree_ptr Tree, TVecInt VecReglas, int nroRegla, int codigo);short int ObtenerNroRegla();/*numeración de las reglas de decisión*/short int ObtenerSubReglas();short int ObtenerNroUpdate();void AplicarReglas(AnsiString Tabla, int codigoReglas);/*Aplica a Tabla lasreglas obtenidas*/short int EvaluarReglas(int codigoReglas);/*Evalua las reglas obtenidas sobrelos datosespecificados*/tabla);tabla);tabla);//----FUNCIONES UTILIZADAS PARA EL CÁLCULO DE LA ENTROPÍAfloat InfoTermino(int cant, int total); /*información brindada por un término*/float Ianterior(int cant_clasificadores, int cant_descriptores, TTablaCorrel/*Esta función devuelve la información de un conjunto antes de realizar lapartición*/float Iposterior(int cant_clasificadores, int cant_descriptores, TTablaCorrel/*Esta función devuelve la información de un conjunto después de realizarla partición según el atributo por el que se armó la tabla*/float Gain(float Ianterior, float Iposterior);/*Ganancia debida a la partición del conjunto según el atributo encuestión*/float SplitInfo(int cant_clasificadores, int cant_descriptores, TTablaCorrel/*Información debida a la partición realizada*/float GainRatio(float Ganancia, float SplitInformation);232 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*Proporción de ganancia debida a la partición del conjunto según elatributo en cuestión*/float GananciaEntropia(int cant_clasificadores, int cant_descriptores,TTablaCorrel tabla);/*Utiliza todas las funciones anteriores para obtener el Gain Ratio dela tabla recibida como parámetro*/tree_ptr InicializarTree(); /*inicializa el árbol, devolviendo un ptr ala raíz */void EliminarTree(tree_ptr Tree); /*elimina todos los elementos del árbol,liberando la memoria*/void InformarValores(TVecValores VecVal);/*Recibe los valores del arbol generado*/void InformarDescrip(TVecValores VecDesc);/*Recibe las descripciones del arbol generado*/};//---------------------------------------------------------------------------extern PACKAGE TDMID3 *DMID3;//---------------------------------------------------------------------------#endifD.4.1.2. UDMID3.cpp//---------------------------------------------------------------------------#pragma hdrstop#include "UDMID3.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TDMID3 *DMID3;tree_ptr pRoot;//---------------------------------------------------------------------------__fastcall TDMID3::TDMID3(TComponent* Owner): TDataModule(Owner){}//---------------------------------------------------------------------------//==============================VARIABLES======================================/*String que tendrá los valores posibles para el clasificador*/TVecValores VecValores;TVecValores VecDescriptores;fstream FReglas; //guarda las reglas generadas en formato de Insight 2+fstream FVitacora; //guarda las tablas generadas en cada paso del ID3int UsoGain; //vale 0 si uso gain, 1 si uso gain ratio//---------------------------------------------------------------------------//-----------------------IMPLEMENTACIÓN--------------------------------------//---------------------------------------------------------------------------/******************************************************************************Función principal que comienza con el armado del árbol de decisión según elalgoritmo ID3******************************************************************************/tree_ptr TDMID3::Principal ( short int MedidorGanancia){int cant_descr;short int ValidDs[MAX_CANT_DESCRIPTORES];short int *pValidDs = ValidDs;int i, error;char outFile[50]="Log\\ID3";tree_ptr pRoot;UsoGain=MedidorGanancia;Código Fuente Magdalena Servente 233

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//Obtener cantidad de descriptorescant_descr=ObtenerCantDescr();for (i=0;iTablaBD.c_str());strcat(outFile, ".log");}elseFVitacora.open(outFile, ios::out);pRoot=BuildTree(ObtenerNuevoNivel(), pValidDs);FVitacora.close();return(pRoot);}{pRoot=NULL;return(pRoot);}void TDMID3::RecibirParametros(TParametros *Parametros){int i;AnsiString sqlstring;Params=Parametros;TTennis->DatabaseName=Params->NombreBD;TTennis->TableName=Params->TablaBD;TTennis->Active=true;//Inicializamos los queries que harán sus consultas sobre la base//especificadaQGral->DatabaseName=Params->NombreBD;for (i=0; iTablaBD);AppendStr(sqlstring," SET Nivel = 0 ");QGral->SQL->Clear();QGral->SQL->Add(sqlstring);QGral->ExecSQL();QGral->SQL->Clear();TTennis->Close();TTennis->Open();sqlstring.~AnsiString();}/******************************************************************************Verifica la uniformidad de un conjunto de filas, por uniformidad nos referimosal hecho que todos los valores del clasificador para dicho conjunto sean igualesDevuelve:0 si todos los valores son "Yes"1 si todos los valores son "No"3 si los valores no son uniformes4 si hubo un error******************************************************************************/short int TDMID3::EsUniforme(int nivelArbol){//begin EsUniforme234 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteshort int aux;AnsiString sqlstring;try //intentamos abrir el QUniforme{sqlstring="Select Count(Distinct ";AppendStr(sqlstring, Params->ColClasificador);AppendStr(sqlstring,") AS diferentes FROM ");AppendStr(sqlstring,Params->TablaBD);AppendStr(sqlstring," WHERE Nivel= ");AppendStr(sqlstring,nivelArbol);QGral->SQL->Clear();QGral->SQL->Add(sqlstring);sqlstring.~AnsiString();QGral->Open();aux=0;aux=(short int)QGral->FieldByName("diferentes")->AsInteger;if (aux!=1) //no son uniformesreturn(3);else{QGral->Close();sqlstring="Select ";AppendStr(sqlstring, Params->ColClasificador);AppendStr(sqlstring," AS valor FROM ");AppendStr(sqlstring,Params->TablaBD);AppendStr(sqlstring," WHERE Nivel= ");AppendStr(sqlstring,nivelArbol);QGral->SQL->Clear();QGral->SQL->Add(sqlstring);QGral->Open();if (QGral->FieldByName("valor")->AsString == Params->LClasificadores->Strings[0])aux=0;elseaux=1;QGral->Close();return(aux);}}catch(...){sqlstring.~AnsiString();ShowMessage("No se pudo abrir el Query");return(4);}}//fin EsUniforme/******************************************************************************Obtiene la cantidad de descriptores presentes en la tablaque será la cantidad de atributos menos 2: el clasificador y el atributo nivel******************************************************************************/int TDMID3::ObtenerCantDescr(){int cant_descr;TTennis->Open();cant_descr=TTennis->FieldCount;cant_descr-=2;return(cant_descr);}/******************************************************************************/*Busca claves primarias en la tabla, para no trabajar sobre esos campos porno ofrecer ninguna ganancia de informaciónDevuelve:0 si no hubo problemas1 si hubo algún error/******************************************************************************/int TDMID3::BuscarPK(short int ValidDs[]){AnsiString sqlstring;int i, cantCampos, cantReg;cantCampos=TTennis->FieldCount;cantReg=TTennis->RecordCount;Código Fuente Magdalena Servente 235

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentetry{for (i=0; iFields->Fields[i]->FieldName);AppendStr(sqlstring," ) as Cant FROM ");AppendStr(sqlstring, Params->TablaBD);QGral->SQL->Clear();QGral->SQL->Add(sqlstring);sqlstring.~AnsiString();QGral->Open();if (QGral->FieldByName("Cant")->AsInteger==cantReg)ValidDs[i]=0; //no es un desc válido por ser PKQGral->Close();}return(0);}catch(...){sqlstring.~AnsiString();ShowMessage("No se pudo abrir el Query");return(1);}}//---------------------------------------------------------------------------/******************************************************************************Función recursiva que arma el árbol de decisión según elalgoritmo ID3******************************************************************************/tree_ptr TDMID3::BuildTree(int nivel, short int *pD){float max_ganancia=-1000;short int desc_max_ganancia=-1; /*descriptor con la mayor ganancia*/float ganancia;short int unif;tree_ptr pNewNode;short int i;int cant_clas, cant_valores_descr;int exito;TTablaCorrel Tabla;TStringList *valores = new TStringList();TStringList *MaxValores = new TStringList();cant_clas=Params->LClasificadores->Count;/* Inicializar Nodo*/pNewNode=(DECISION_TREE)malloc(sizeof(struct tree_node));if (pNewNode==0){ShowMessage("No hay suficiente espacio en memoria para la operación");}else{for (i=0; ipHijos[i]=0;pNewNode->desc=-1;for (i=0; iD[i]=*(pD+i);FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentedelete valores;delete MaxValores;return pNewNode;}else /*no es hoja*/{pNewNode->flag_hoja=3;son "Yes", y 1 si todos son "No"*/Tabla);/*Si no es hoja, calcular la entropía para cada descriptrorválido en el nivel que estamos analizando.Obtenemos el descriptor de mayor ganancia*/for (i=0; iD[i]==1) /*es un descriptor válido*/{valores->Clear();exito=ArmarTabla(Tabla,nivel,i, valores);if (exito==0){cant_valores_descr=valores->Count;ganancia=GananciaEntropia(cant_clas, cant_valores_descr,if (ganancia>max_ganancia){max_ganancia=ganancia;desc_max_ganancia=i;MaxValores->Clear();MaxValores->AddStrings(valores);}}}delete valores;/*Partir el conjunto según el desciptor que ofrezca mayor entropía*/if (desc_max_ganancia>=0) //es un descriptor válido{pNewNode->desc=desc_max_ganancia; /*descriptor utilizadopara realizar la partición*/pNewNode->D[desc_max_ganancia]=0;FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//------------------------------------------------------------------------------/******************************************************************************Esta función devuelve la información brindada por un términocant: cantidad de ocurrencias de ese elementototal: total de elementos en el conjuntoInfoTermino=-(cant/total)log2(cant/total)******************************************************************************/float TDMID3::InfoTermino(int cant, int total){float temp;float temp1;float temp2;if ((cant!=0)&&(total!=0)){temp1=float(cant)*0.1;temp2=float(total)*0.1;temp=temp1/temp2;else}if (temp==0)temp=0;elsetemp*=Log2(temp);temp=-temp;return(temp);}return(0);/******************************************************************************Esta función devuelve la información de un conjunto antes de realizar la particióncant_clasificadores: cantidad de valores posibles para los clasificadores, esdecir, la cantidad de filas de la tabla de correlacióncant_descriptores: cantidad de descriptores válidos para el nivel del árbol quese está analizando, es decir, la cantidad de columnasde la tabla de correlaciónIanterior(T)=Sum(i=1, i

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentefloat TDMID3::Iposterior(int cant_clasificadores, int cant_descriptores, TTablaCorreltabla){float Iaux, Itemp;int i,j;Iaux=0;for (i=0; i

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente{float anterior, posterior, gano;float splitI, auxGE;anterior=Ianterior(cant_clasificadores, cant_descriptores, tabla);posterior=Iposterior(cant_clasificadores, cant_descriptores, tabla);gano=Gain(anterior, posterior);splitI=SplitInfo(cant_clasificadores, cant_descriptores, tabla);auxGE=GainRatio(gano,splitI);FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentemaxd=d-1;QGral->Close();}catch(...) //De la apertura del Query{ShowMessage("No se pudo abrir el Query para obtener todos los valores de undescriptor");delete lista;sqlstring1.~AnsiString();sqlstring2.~AnsiString();return(1);}//======================================================================//=================== MANEJO DEL QUERY =============================//===========CARGAMOS LOS VALORES INDIVIDUALES DE Tabla[c][d]===========//==========================(NO LOS TOTALES)============================//======================================================================try //Intentamos abrir el QGral{d=0;while (dAdd(sqlstring2);QGral->Open();sqlstring2.~AnsiString();Tabla[c][d]=QGral->FieldByName("Cant")->AsInteger;FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*Obtenemos los totales de la tabla de correlación*//* TOTALES POR FILA */for (c=0; c

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteVecValores[nuevoNivel]=valores->Strings[i];TTennis->Close();TTennis->Open();pNode->pHijos[i]=BuildTree(nuevoNivel, pDesc);}sqlstring.~AnsiString();particion.~AnsiString();delete lista;return(0);}catch(...){ShowMessage("No se pudo realizar la actualización");sqlstring.~AnsiString();particion.~AnsiString();delete lista;return(1);}}//---------------------------------------------------------------------------/******************************************************************************/*realiza el "pruning" del árbol obtenidoDevuelve0 si todos los valores son "Yes"1 si todos los valores son "No"2 si los valores son mixtos-1 si los valores son distintos******************************************************************************/short int TDMID3::PruneTree(tree_ptr Tree){int i;short int hijo;short int iguales; /* 0 si todos los valores son "Yes"1 si todos los valores son "No"2 si todos los valores son mixtos-1 si no son iguales*/if (Tree->flag_hoja!=3) //es hojareturn(Tree->flag_hoja);else{i=0;iguales=3;while ((Tree->pHijos[i]!=NULL)&&(ipHijos[i]);if (iguales==3)iguales=hijo;else{if (iguales!=hijo)iguales=-1;}i++;}if (iguales!=-1) //se puede "podar" la rama{Tree->flag_hoja=iguales;i=0;while ((Tree->pHijos[i]!=NULL)&&(ipHijos[i]);i++;}}return(iguales);}//end else}//end PruneTree//---------------------------------------------------------------------------/********************************************************************************Arma las reglas de decisión generadas a partir del árbol de decisión "Tree"*********************************************************************************/void TDMID3::ArmarReglas(tree_ptr Tree){TVecInt VecReglas;Código Fuente Magdalena Servente 243

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentechar outFile[50]="Reglas\\";int nroRegla;int i;nroRegla=0;char* tabla="";char* delimitador=".";AnsiString sqlstring;int cod;//Iniciliazamos el vector de reglasfor (i=0; iDatabaseName=Params->NombreBD;sqlstring="SELECT * FROM UpdatesHeader.db";QUpdates->SQL->Clear();QUpdates->SQL->Add(sqlstring);QUpdates->Open();QUpdates->Last();cod=QUpdates->RecordCount;cod++;QUpdates->SQL->Clear();//Insertamos el Header de las ConsultasDateSeparator='/';TimeSeparator=':';sqlstring="INSERT INTO UpdatesHeader.db (CODIGO,HORA) VALUES (";AppendStr(sqlstring,cod);AppendStr(sqlstring,", '");AppendStr(sqlstring, Params->TablaBD);AppendStr(sqlstring,"', 'ID3', '");AppendStr(sqlstring, Date());AppendStr(sqlstring,"', '");AppendStr(sqlstring, Time());AppendStr(sqlstring,"')");QUpdates->SQL->Add(sqlstring);QUpdates->ExecSQL();QUpdates->SQL->Clear();NOMBRE_TABLA, METODO, FECHA,//Concatenamos fecha y hora en los archivosDateSeparator='-';TimeSeparator='_';strcat(outFile, DateTimeToStr(Now()).c_str());//Eliminamos la extensión de la tabla de la base de datostabla=strtok(Params->TablaBD.c_str(),delimitador);strcat(outFile, tabla);//Les agregamos la extensiónstrcat(outFile, Params->ExtensionFileReglas.c_str());FReglas.open(outFile, ios::out);//Obtenemos las reglasObtenerReglas(Tree, VecReglas, nroRegla,cod);}//Cerramos el archivoFReglas.close();sqlstring.~AnsiString();void TDMID3::ObtenerReglas(tree_ptr Tree, TVecInt VecReglas, int nroRegla, int codigo){char header[15]="Regla ";char then[]=" ENTONCES ";char si[]=" SI ";char is[]=" = ";char es[]=" = ";char and[]=" Y ";AnsiString sqlstring;AnsiString sqlstring2;AnsiString tabla;int i,j;244 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteTRule rule="";if (nroRegla!=0){/*Agregamos el el vector de reglas el subindice del par"descriptor - valor" utilizado para armar a regla, es decir,utilizado para recorrer la rama del arbol */j=0;while (VecReglas[j]!=-1){j++;}VecReglas[j]=ObtenerSubReglas();}if (Tree->flag_hoja!=3) //es hoja{//Agregamos el nro de regla "RULE N°"FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteQUpdates->SQL->Clear();QUpdates->SQL->Add(sqlstring2);QUpdates->ExecSQL();}else //no es hoja{i=0;nroRegla++;while ((Tree->pHijos[i]!=NULL)&&(ipHijos[i], VecReglas, nroRegla,codigo);/*Eliminamos el valor de la ultima rama recorrida porqueestamos cambiando de rama*/j=0;while (VecReglas[j]!=-1){j++;}VecReglas[j-1]=-1;i++;}}//end elsetabla.~AnsiString();sqlstring.~AnsiString();sqlstring2.~AnsiString();return;}/********************************************************************************Numeración única para las reglas de decisión generadas****************************************************************************************************/short int TDMID3::ObtenerNroRegla(){static short int nroRegla=-1;nroRegla++;return(nroRegla);}short int TDMID3::ObtenerSubReglas(){static short int subRegla=0;subRegla++;return(subRegla);}short int TDMID3::ObtenerNroUpdate(){static short int nroRegla=-1;nroRegla++;return(nroRegla);}//---------------------------------------------------------------------------/********************************************************************************Inicializa el árbol, creando un ptr a la raíz del mismo****************************************************************************************************/tree_ptr TDMID3::InicializarTree(){tree_ptr pNewNode;pNewNode=(DECISION_TREE)malloc(sizeof(struct tree_node));if (pNewNode==0){ShowMessage("No hay suficiente espacio en memoria para la operación");return(NULL);}else{pNewNode->pHijos[0]=0;return(pNewNode);}}/******************************************************************************246 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente**Elimina todos los elementos del árbol, liberando la memoria************************************************************************************************/void TDMID3::EliminarTree(tree_ptr Tree){int i;i=0;while ((Tree->pHijos[i]!=NULL)&&(ipHijos[i]);free(Tree->pHijos[i]);i++;}return;}void TDMID3::InformarValores(TVecValores VecVal)/*Recibe los valores del arbol generado*/{int i;for (i=0;iNombreBD;QAplicar->DatabaseName=Params->NombreBD;sqlstring="SELECT * FROM Updates.db where codigo=";AppendStr(sqlstring, codigoReglas);QReglas->SQL->Clear();QReglas->SQL->Add(sqlstring);QReglas->Open();QReglas->Last();QReglas->First();while (!QReglas->Eof){sqlstring=QReglas->FieldByName("Modificacion")->AsString;sqlstring.Insert(Tabla,0);sqlstring.Insert("UPDATE ",0);QAplicar->SQL->Clear();QAplicar->SQL->Add(sqlstring);QAplicar->ExecSQL();QReglas->Next();}}delete(QReglas);delete(QAplicar);sqlstring.~AnsiString();//Evalua los resultados de las reglas aplicadas sobre la tabla de NombreTablashort int TDMID3::EvaluarResultados(AnsiString NombreTabla)/*Arma una tabla de resultados de la forma:{TTablaCorrel TablaRes;int i, correctos,erroneos;CorrectoClase1 x y tClase2 m n l.... ... ... ...ClaseN z w vTotales totC totE totProb */Errores Probabilidad de aciertoCódigo Fuente Magdalena Servente 247

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteTQuery *QClases=new TQuery(DMID3);TQuery *QRes=new TQuery(DMID3);AnsiString sqlstring;TFrmRendimiento *pForm;try{pForm=FrmRendimiento;//Inicializamos los nombres de las columnaspForm->GridResultados->Cells[0][0]="Clases";pForm->GridResultados->Cells[1][0]="Correctos";pForm->GridResultados->Cells[2][0]="Errores";pForm->GridResultados->Cells[3][0]="Probabilidad de Aciertos";QClases->DatabaseName=Params->NombreBD;QRes->DatabaseName=Params->NombreBD;//Obtenemos los nombres de todas las clasessqlstring="SELECT DISTINCT(ClaseReal) as Clase FROM ";AppendStr(sqlstring,NombreTabla);QClases->SQL->Clear();QClases->SQL->Add(sqlstring);QClases->Open();QClases->First();i=0;while(!QClases->Eof){pForm->GridResultados->Cells[0][i+1]=QClases->FieldByName("Clase")->AsString;//Correctossqlstring=QClases->FieldByName("Clase")->AsString;sqlstring.Insert(" WHERE ClaseReal='",0);sqlstring.Insert(NombreTabla,0);sqlstring.Insert("SELECT Count(*) as Correctos FROM ",0);AppendStr(sqlstring,"' AND ClaseReal=");AppendStr(sqlstring,Params->ColClasificador);QRes->SQL->Clear();QRes->SQL->Add(sqlstring);QRes->Open();QRes->First();TablaRes[i][0]=(double)QRes->FieldByName("Correctos")->AsInteger;pForm->GridResultados->Cells[1][i+1]=TablaRes[i][0];//Erroressqlstring=QClases->FieldByName("Clase")->AsString;sqlstring.Insert(" WHERE ClaseReal='",0);sqlstring.Insert(NombreTabla,0);sqlstring.Insert("SELECT Count(*) as Erroneos FROM ",0);AppendStr(sqlstring,"' AND ClaseReal");AppendStr(sqlstring,Params->ColClasificador);QRes->SQL->Clear();QRes->SQL->Add(sqlstring);QRes->Open();QRes->First();TablaRes[i][1]=QRes->FieldByName("Erroneos")->AsInteger;pForm->GridResultados->Cells[2][i+1]=TablaRes[i][1];}QClases->Next();pForm->GridResultados->RowCount++;i++;QClases->First();i=0;correctos=0;erroneos=0;while(!QClases->Eof){/*Calculamos la probabilidad con que un ejemplo clasificadocomo de clase i pertenece a dicha clase*/TablaRes[i][2]=TablaRes[i][0]/(TablaRes[i][0]+TablaRes[i][1]);pForm->GridResultados->Cells[3][i+1]=TablaRes[i][2];correctos+=TablaRes[i][0];erroneos+=TablaRes[i][1];QClases->Next();248 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentei++;}//Resultados generalesTablaRes[i][0]=correctos;TablaRes[i][1]=erroneos;TablaRes[i][2]=TablaRes[i][0]/(TablaRes[i][0]+TablaRes[i][1]);pForm->GridResultados->Cells[0][i+1]="Totales";pForm->GridResultados->Cells[1][i+1]=TablaRes[i][0];pForm->GridResultados->Cells[2][i+1]=TablaRes[i][1];pForm->GridResultados->Cells[3][i+1]=TablaRes[i][2];}QClases->Close();QRes->Close();delete(QClases);delete(QRes);sqlstring.~AnsiString();return(0);}catch(...){delete(QClases);delete(QRes);sqlstring.~AnsiString();return(-1);}short int TDMID3::EvaluarReglas(int codigoReglas)/*Devuelve:0: no hubo problemas-1: problema general-2: problema en la creación de la tabla de evaluación-3: problema en la inicialización de la tabla de evaluación */{boolean CrearTabla;AnsiString consulta;TStringList *listaCampos = new TStringList();TQuery *QIni=new TQuery(DMID3);TTable *TEval=new TTable(DMID3);int i;short int errorNo;try{TEval->Active=false;TEval->DatabaseName=Params->NombreBD;TEval->TableName="Eval.db";TEval->TableType=ttDefault;TEval->FieldDefs->Clear();TFieldDef *NewField=TEval->FieldDefs->AddFieldDef();NewField->DataType=ftString;NewField->Name="ClaseReal";i=0;while ((TTennis->FieldDefs->Items[i]->Name!=Params->ColClasificador) &&(iFieldDefs->Count-1))i++;if (iFieldDefs->Count-1)NewField->Size=TTennis->FieldDefs->Items[i]->Size;elseNewField->Size=255;for (i=0; iFieldDefs->Count; i++){NewField=TEval->FieldDefs->AddFieldDef();NewField->DataType=TTennis->FieldDefs->Items[i]->DataType;NewField->Size=TTennis->FieldDefs->Items[i]->Size;NewField->Name=TTennis->FieldDefs->Items[i]->Name;}CrearTabla=false;if(TEval->Exists){if (Application->MessageBox((AnsiString("Sobreescribimos la tabla") +TEval->TableName + AnsiString("?")).c_str(),"Tabla Existente", MB_YESNO) == IDYES)Código Fuente Magdalena Servente 249

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteCrearTabla=true;}elseCrearTabla=true;if (CrearTabla)TEval->CreateTable();TEval->Active=true;errorNo=0;}catch(...){errorNo=-2;}if (errorNo==0) //no hubo problemas{ //Inicializamos la tabla de evaluacióntry {QIni->DatabaseName=Params->NombreBD;//Obtenemos los nombres de las columnasTEval->GetFieldNames(listaCampos);//Copiamos los datos de la tabla originalconsulta="INSERT INTO Eval.db (";AppendStr(consulta,listaCampos->Strings[0]);for (i=1;iCount;i++){AppendStr(consulta,", ");AppendStr(consulta,listaCampos->Strings[i]);}AppendStr(consulta,") select trim(");AppendStr(consulta,Params->ColClasificador);AppendStr(consulta,") ");for (i=1;iCount;i++){AppendStr(consulta,", ");AppendStr(consulta,listaCampos->Strings[i]);}AppendStr(consulta," from ");AppendStr(consulta,Params->TablaBD);QIni->SQL->Clear();QIni->SQL->Add(consulta);QIni->ExecSQL();}errorNo=0;}catch(...){errorNo=-3;}if (errorNo==0) //no hubo problemas{AplicarReglas(TEval->TableName ,codigoReglas);errorNo=EvaluarResultados(TEval->TableName);}}TEval->Close();TEval->DeleteTable();delete(listaCampos);delete(TEval);delete(QIni);consulta.~AnsiString();return(errorNo);void __fastcall TDMID3::DMID3Destroy(TObject *Sender){int i;for (i=0;i

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteD.4.2. UDMC45D.4.2.1. UDMC45.h//---------------------------------------------------------------------------#ifndef UDMC45H#define UDMC45H//---------------------------------------------------------------------------#include #include #include #include #include #include #include "UTipos.h"#include "defns.h"#include "types.h"#include "Rulex.h"#define Inc 2048#define LocalVerbosity(x) if (Sh >= 0 && VERBOSITY >= x)#define Intab(x) Indent(x, "| ")#define Tab "| "#define TabSize 4#define Width 80 /* ancho máx aproximado de un árbol en pantalla *///---------------------------------------------------------------------------class TDMC45 : public TDataModule{__published: // IDE-managed ComponentsTDataSource *DSTTennis;TTable *TTennis;void __fastcall DMC45Destroy(TObject *Sender);private:TParametros *Params;/* Datos externos descriptos en extern.i */short MaxAtt, MaxClass, MaxDiscrVal;DiscrValue MaxAttVal[MAX_CANT_DESCRIPTORES];TStringList *ClassName,*AttName;TTablaValores AttValName;TVecValores SpecialStatus;String FileName;ItemNo MaxItem;Description *Item;shortVERBOSITY,TRIALS;BooleanGAINRATIO,SUBSET,UNSEENS;ItemNo MINOBJS;floatCF;Tree*Pruned;BooleanAllKnown;ItemCount*Weight, /* Weight[i] = fracción actual del item i */**Freq, /* Freq[x][c] = nro de items de clase c con resultado x */*ValFreq, /* ValFreq[x] = nro.de items con resultado x */*ClassFreq; /* ClassFreq[c] = nro.de items de clase c */float*Gain, /* Gain[a] = info gain al dividir según el atrib a */*Info, /* Info[a] = info potencial de div sobre el atrib a */*Bar, /* Bar[a] = mejor valor límite para el atrib a */*UnknownRate; /* UnknownRate[a] = proporción desconocida actualpara el atrib a */char *Tested; /* Tested[a] seteado si el atrib a ya ha sido testeado */bool MultiVal; /* true cuando todos los atribs tienen muchos valores */float*SplitGain,/* SplitGain[i] = gain con el valor del atrib del item icomo límite */Código Fuente Magdalena Servente 251

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente*SplitInfo; /* SplitInfo[i] = split info potencial */ItemCount*Slice1, /* Slice1[c] = valores de Freq[x][c] en subconj.c */*Slice2; /* Slice2[c] = valores de Freq[y][c] */Conjunto **Subset; /* Subset[a][s] = subconj s para atrib a */short *Subsets; /* Subsets[a] = nro. subconj para atrib a */short Subtree; /* tamaño máx de subárbol impreso */Tree Subdef[100]; /* punteros a los subárboles */FILE *TRf; /* archivo para i/o del árbol */char Fn[500]; /* nombre del archivo *///----------------------------------------------------------------------void GetNames();/* Lee los nombres de las clases, atributos y valores legales de *//* atributos. */void GetData(); //Lee los datos de la tablaDescription GetDescription();int VerificarPK(AnsiString Atrib);/* Verifica si el atributo Atrib es clave primaria de la tablaDevuelve:0 si es PK1 en caso contrario-1 si hubo error*/int PosicionValor(AnsiString Valor,int nro_atrib, int pri, int ult);/* Busca la posición del Valor para el atributo especificado por elnro_atrib en el Tabla de Valores de atributos y la devuelve */int PosicionClase(AnsiString Valor);/* Busca la posición del Valor en el vector de la clase */void OneTree();/* Construye y poda un árbol a partir de todos los datos */void Evaluate(bool CMInfo,short Saved);/* Imprime los errores para cada una de las pruebas */void InitialiseTreeData();/* Reserva espacio para las tablas de construcción */void InitialiseWeights();/* Inicializa el peso de cada item */Tree FormTree(ItemNo Fp, ItemNo Lp);/* Construye un árbol de decisión para los casos Fp hasta Lp */ItemNo Group(DiscrValue V, ItemNo Fp, ItemNo Lp,Tree TestNode);/* Agrupa los ítems correspondiente a la rama V de una prueba yy devuelve el índice del último ítem */void Intercambio(ItemNo a, ItemNo b);/* Intercambia los items en a y b */ItemCount CountItems(ItemNo Fp, ItemNo Lp);/* Devuelve el peso total de los items desde Fp hasta Lp *//*************************************************************************//* *//* Calculo de la información, ganancia de información e *//* impresión de distribuciones *//* *//*************************************************************************/float Worth(float ThisInfo, float ThisGain, float MinGain);/* Determina el valor de una división particular según el criterio elegido */void ResetFreq(DiscrValue MaxVal);/* Resetea las tablas de frecuencia Freq[][] y ValFreq[] */float ComputeGain(float BaseInfo,float UnknFrac, DiscrValue MaxVal,ItemCountTotalItems);/* Dadas las tablas Freq[][] y ValFreq[], computa la ganancia de información */float TotalInfo(ItemCount V[], DiscrValue MinVal, DiscrValue MaxVal);/* Computa la información total en V[ MinVal..MaxVal ] */void PrintDistribution(Attribute Att,DiscrValue MaxVal,bool ShowNames);/* Imprime la tabla de distribución para un atributo determinado *//*************************************************************************//* *//* Rutinas de manejo de los árboles de decisión *//* *//*************************************************************************/252 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteTree Leaf(ItemCount *ClassFreq, ClassNo NodeClass,ItemCount Cases,ItemCountErrors);/* Construye una hoja en un determinado nodo */void Sprout(Tree Node, DiscrValue Branches);/* Inserta ramas en un nodo */Tree PrintTree(Tree T);/*Imprime el árbol de decisión T*/void Show(Tree T,short Sh);/* Muestra el árbol T con offset Sh*/void ShowBranch(short Sh,Tree T,DiscrValue v);/* Imprime un nodo T con offset Sh, valor de rama v */short MaxLine(Tree St);/* Encuentra el tamaño máx de una línea nodo para el subárbol St */void Indent(short Sh,char *Mark);/* Indenta Sh columnas */void SaveTree(Tree T,AnsiString Extension);/*Guarda el árbol T en el archivo con la extension especificada */void OutTree(Tree T);/*Guarda el árbol T como caracteres */Tree GetTree(AnsiString Extension);/*Obtiene el árbol T del archivo de la extensión especificada */Tree InTree();/*Recupera el árbol a partir de los caracteres guardados */void StreamOut(AnsiString s,int n);void StreamIn(AnsiString s,int n);/* Stream caracteres de/hacia el archivo TRf desde/hacia una dir */void ReleaseTree(Tree Node);/* Libera el espacio ocupado por Node */int TreeSize(Tree Node);/*Cuenta los nodos de un árbol */Tree CopyTree(Tree T);/* Devuelve una copia de tree T */void SaveDiscreteNames();/* Guarda los valores de los atributos leídos con "discrete N" */void RecoverDiscreteNames();/* Recupera los valores de los atributos leídos con "discrete N" *//*************************************************************************//* *//* Evaluación del armado de subconjuntos sobre los atrib discretos *//* *//*************************************************************************/void EvalSubset(Attribute Att, ItemNo Fp, ItemNo Lp,ItemCount Items);/* Evaluación del armado de subconjuntos sobre un atrib discreto. */void Combine(DiscrValue x,DiscrValue y,DiscrValue Last);/* Combina los valores de la distribución de los atributos discretos x e y */void Uncombine(DiscrValue x,DiscrValue y);/* Devuelve a x e y sus valores originales */void PrintSubset(Attribute Att,Conjunto Ss);/* Imprime los valores del atributo Att que estan en el subconjunto Ss */void SubsetTest(Tree Node,Attribute Att);/* Construye una prueba de nodo sobre un subconjunto de valores */void EvalDiscreteAtt(Attribute Att,ItemNo Fp,ItemNo Lp,ItemCount Items);/* Setea Info[] and Gain[] para la partición discreta de items Fp hasta Lp */void ComputeFrequencies(Attribute Att,ItemNo Fp,ItemNo Lp);/* Computa las tablas de frecuencia Freq[][] y ValFreq[] para Att */float DiscrKnownBaseInfo(DiscrValue KnownItems,ItemCount MaxVal);/* Devuelve la información base de los items con valores conocidosde un atributo discreto, utilizando la tabla de frecuencias Freq[][] */void DiscreteTest(Tree Node,Attribute Att);/* Construye y devuelve un nodo para una prueba sobre un atributo discreto *//*************************************************************************//* *//* Evaluación de una prueba sobre un atributo continuo *//* *//*************************************************************************/void EvalContinuousAtt(Attribute Att,ItemNo Fp,ItemNo Lp);void ContinTest(Tree Node,Attribute Att);/* Transforma una hoja en una prueba sobre un atributo continuo */float GreatestValueBelow(Attribute Att,float t);/* Devuelve el mayor valor del atributo Att por debajo del límite t */void Quicksort(ItemNo Fp,ItemNo Lp,Attribute Att);//, void (*Exchange)());/* Ordenamiento */Código Fuente Magdalena Servente 253

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************//* *//* Poda un árbol de decisión y predice su proporción de error *//* *//*************************************************************************/Conjunto *PossibleValues;//=Nil;bool Changed;bool Prune(Tree T);/*Poda el árbol T y devuelve true si el árbol fue modificado */float EstimateErrors(Tree T, ItemNo Fp,ItemNo Lp,short Sh,bool UpdateTree);/*Estima los errores en un determinado subárbol */void CheckPossibleValues(Tree T);/* Elimina pruebas de subconjuntos innecesarias sobre valores faltantes *//* Computa los errores adicionales */float Val[],Dev[];float AddErrs(ItemCount N,ItemCount e);/*************************************************************************//* *//* Determina la clase de un caso a partir del árbol de decisión *//* *//*************************************************************************/float *ClassSum; /* ClassSum[c]= peso total de la clase c */ClassNo Category(Description CaseDesc,Tree DecisionTree);/* Categoriza la descripción de un caso utilizando el árbol de decisión */void Classify(Description CaseDesc,Tree T,float Weight);/* Clasifica un caso utilizando el subárbol dado, ajustando el valorde ClassSum para cada clase */Tree*Raw;void PrintConfusionMatrix(ItemNo *ConfusionMat);/*Imprime matrices de confusión *//*************************************************************************//* *//* REGLAS DE DECISIÓN *//* *//*************************************************************************//* Variables usadas en la generación de reglas */bool SIGTEST, /* uso de la prueba de significado enla poda de reglas */SIMANNEAL; /* uso de simulated annealing */floatSIGTHRESH,REDUNDANCY;/* factor que estima la cantidad dede redundancia e irrelevanciaen los atributos */PR *Rule; /* reglas actuales */RuleNo NRules, /* nro de reglas actuales */*RuleIndex; /* índice de reglas */short RuleSpace; /* espacio reservado para las reglas */ClassNo DefaultClass; /* clase por defecto */RuleSet *PRSet; /* conjuntos de reglas */float AttTestBits, /* bits para codificar el atribtesteado */*BranchBits; /* idem para el valor del atrib */fstream FReglas; //guarda los datos generados durante la generación de lasreglas con el C4.5float *LogItemNo;double *LogFact;ItemNo *TargetClassFreq, /* [Boolean] */*Errors, /* [Condición] */*Total; /* [Condición] */float *Pessimistic, /* [Condición] */*Actual, /* [Condición] */*CondSigLevel; /* [Condición] */bool **CondSatisfiedBy, /* [Condición][NroItem] */*Deleted; /* [Condición] */DiscrValue *SingleValue; /* [Atributo] */Condition *Stack;short MaxDisjuncts,MaxDepth;ItemNo *Covered, /* Covered[i] = nro.de reglas que cubren el item i */*FalsePos,/* FalsePos[c] = nro.de falsos positivos de lasreglas seleccionadas para la calse c */254 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente*NoRule, /* NoRule[c] = nro.de items cubiertos porninguna de las reglas selecciondas */*Right, /* Right[r] = nro. de aciertos */*Wrong; /* Wrong[r] = nro. de fallas */float *Value, /* Value[r] = ventaja atribuíble a la regla r orealizable si la regla r es incluída */SubsetValue, /* valor de la mejor clase del subconjunto */CodeWeight; /* factor de multiplicación para la codificación de lasreglas */bool *RuleIn, /* RuleIn[r] = true si la regla r está incluída */**Match; /* Match[r][i] = true si el item i cumple las condde la regla r */RuleNo *ClassRules; /* lista de todas las reglas para la clase actual */ClassNoFocusClass;Test *TestVec;short NTests;float Confidence; /* factor de certeza de la regla aplicada(determinado por BestRuleIndex) */void GenerateLogs();// Creación del vector LogItemNovoid GenerateRules();/* Generación de todos los conjuntos de reglas apartir de los árboles de decisión */void FindTestCodes(); /*Determina las longitudes de los codigospara los atributos y las ramas */void SwapUnweighted(ItemNo a,ItemNo b);/*Intercambio de los items en a y b. */void CompositeRuleset();/*Creación de un conjunto compuesto de reglas de todaslas pruebas */void FormRules(Tree t);/*Creación de un conjunto de reglas del árbol de decisiónt */void TreeParameters(Tree t,short d);/* Calcula la profundidadmáx y el nro de hojas en el arbol t conprofundidad inicial d*/void Scan(Tree t,short d);/* Extrae los disjuntos del arbol t en laprofundidad d y los procesa */void ConstructRuleset();/* Construcción de un subconjunto ordenado(indexado por el RuleIndex)a partir del actualconjunto de reglas*/void InitialiseTables();/*Inicialización de tablas*/void CoverClass();/*Seleccionamos un subconjunto de las reglaspara la FocusClass */void AllCombinations(RuleNo NR); /* Probamos todas las combinaciones dereglas para encontrar la mejor */void SimAnneal(RuleNo RuleCount);/*Búsqueda de un buen subconjuntomediante simulated annealing */void SpotSearch(RuleNo RuleCount);/* Busca un buen subconjunto medianteuna búsqueda golosa reiterativa*/void HillClimb(RuleNo RuleCount);/* Mejora un subconjunto de reglasagregando o eliminando reglas */void CalculateValue();/* Calculamos los aciertos y errores para lasreglas de la FocusClass y determinamos el valorde dichas reglas. Si es el mejor hasta ahora, loguardamos.*/void AddRule(RuleNo r);/* Agregamos la regla r al conj de relgasincluidas e incrementamos la cantidad de reglas que cubrenlos items que disparan la regla*/void DeleteRule(RuleNo r);/* Eliminamos la regla r del conj de reglasincluídas y decrementamos la cant de reglas que cubren cada unode los items cubiertos por la regla*/void MakeIndex();/* Crea un índice de reglas incluídas en RuleIndex.Selecciona primero aquellas clases cuyas reglas tienen el menornro de falsos positivos dentro de cada clase, pone las reglascon más aciertos primero */void FindDefault();/* Determina la clase por defecto. Los empates seresuelven a favor de la clase más frecuente*/float Fuerza(PR ThisRule,Description Case);/* Dados una regla y un caso,determina la fuerza con la que podemos determinar que elcaso pertenece a la clase especificada en la regla */float Biased(int N, int E, float ExpE);/* Determina el nro de bitsnecesarios para codificar las excepciones*/float ExceptionBits(int Fires, int FP, int FN);void FindRuleCodes();/* Determina la longitud de codificación paratodas las reglas*/float CondBits(Condition C);/* Determina el nro de bits requerido paraCódigo Fuente Magdalena Servente 255

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentecodificar una condición */void SaveRules();/* Guarda el conjunto de reglas en el archivo de reglassegún el orden del índice*/void GetRules();/* Obtiene un nuevo conj de reglas del archivo de reglas*/Test FindTest(Test Newtest);/* Busca una prueba en el vector de pruebas,si no está allí, la agrega */bool SameTest(Test t1,Test t2);/*Verifica si la prueba t1 es igual a laprueba t2*/void InitialiseRules();/*Limpia las variables para un nuevo conj de reglas */bool NewRule(Condition Cond[],short NConds,ClassNo TargetClass,float Err);/* Agrega una nueva regla, al conjunto de reglas actual. ActualizaRule[],NRules y,en caso de ser necesario,RuleSpace*/bool SameRule(RuleNo r,Condition Cond[],short NConds,ClassNo TargetClass);/* Decide si la regla actual duplica la regla r */void PrintIndexedRules();/*Imprime el conjunto indexado de reglas*/void PrintRule(RuleNo r);/*Imprime la regla r */void PrintCondition(Condition c);/*Imprime la condición c de una regla deproducción*/Arrow);void PruneRule(Condition Cond[],short NCond,ClassNo TargetClass);/* Poda la regla dadas las condiciones Cond, y el nro decondiciones NCond, y agrega la regla resultante al actual conjuntode reglas si es lo suficientemente precisa*/bool Redundant(short R,Condition Cond[],short NCond);/* Verifica si lacondición R es redundante*/bool IsSubset(Conjunto S1,Conjunto S2,Attribute Att);/* Decide si el subconj de valores S1 está contenido en S2 */void FindTables(short NCond,ClassNo TargetClass);/* Busca las tablas dedistribución de frecuencias para la condiciones actuales*/void UpdateCount(ItemNo T[],ItemNo E[],short d,bool OK);/* Incrementa los valores de Total[d] y Errors[d]*/bool Satisfies(Description CaseDesc,Condition OneCond);/*Determina si la descripción de un caso satisface la cond dada*/double Hypergeom(int a,int r,int A,int B);/* Distribución hipergeometrica(usa los log de los factoriales tabulados)*/float TableProb(int t11,int t12,int t21,int t22);/* TableProb examinala tabla t de contingencias de 2x2 y calcula la probabilidad de que unadivisión al azar pueda producir una división al menos tan extrema comoesta. */void EvaluateRulesets(bool DeleteRules);/*Evalúa todos los conj de reglas*/ItemNo Interpret(ItemNo Fp,ItemNo Lp,bool DeleteRules, bool CMInfo, bool/*Evalúa el conjunto de reglas actual*/RuleNo BestRuleIndex(Description CaseDesc,RuleNo Start);/*Busca la mejorregla para el caso dado, dejando la probabilidad en Confidence*/public:__fastcall TDMC45(TComponent* Owner);void RecibirParametros(TParametros *Parametros);void C45(); //dispara el proceso del C4.5 con los parámetros recibidosvoid GenerarReglasC45(); //dispara el proceso de generación de las reglas dedecisión};//---------------------------------------------------------------------------extern PACKAGE TDMC45 *DMC45;//---------------------------------------------------------------------------#endifD.4.2.2. UDMC45.cpp//---------------------------------------------------------------------------#include #pragma hdrstop#include "UDMC45.h"//---------------------------------------------------------------------------#pragma package(smart_init)#pragma resource "*.dfm"TDMC45 *DMC45;fstream FVitacora; //guarda los datos generados durante la ejecución del C4.5256 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//---------------------------------------------------------------------------__fastcall TDMC45::TDMC45(TComponent* Owner): TDataModule(Owner){MaxDiscrVal = 2;FileName = "DF";VERBOSITY = 0;TRIALS = 10;GAINRATIO = true;SUBSET = false;UNSEENS = false;MINOBJS = 2;AllKnown = true;}Val[0]=0;Val[1]=0.001;Val[2]=0.005;Val[3]=0.01;Val[4]=0.05;Val[5]=0.10;Val[6]=0.20;Val[7]=0.40;Val[8]=1.00;//Val[] = { 0, 0.001, 0.005, 0.01, 0.05, 0.10, 0.20, 0.40, 1.00};Dev[0]=4.0;Dev[1]=3.09;Dev[2]=2.58;Dev[3]=2.33;Dev[4]=1.65;Dev[5]=1.28;Dev[6]=0.84;Dev[7]=0.25;Dev[8]=0.00;//Dev[] = {4.0, 3.09, 2.58, 2.33, 1.65, 1.28, 0.84, 0.25, 0.00};//*ClassSum=0;//------------------------------------------------------------------------------void TDMC45::RecibirParametros(TParametros *Parametros){AnsiString sqlstring;TQuery *QGral=new TQuery(DMC45);Params=Parametros;TTennis->DatabaseName=Params->NombreBD;TTennis->TableName=Params->TablaBD;TTennis->Active=true;//Inicializamos los queries que harán sus consultas sobre la base//especificadaQGral->DatabaseName=Params->NombreBD;//Inicializamos el campo Nivel en la Tablasqlstring="Update ";AppendStr(sqlstring, Params->TablaBD);AppendStr(sqlstring," SET Nivel = 0 ");QGral->SQL->Clear();QGral->SQL->Add(sqlstring);QGral->ExecSQL();QGral->SQL->Clear();TTennis->Close();TTennis->Open();}sqlstring.~AnsiString();delete(QGral);//---------------------------------------------------------------------------void __fastcall TDMC45::DMC45Destroy(TObject *Sender){int i,j;delete ClassName;delete AttName;Código Fuente Magdalena Servente 257

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}for (i=0;iTablaBD;VERBOSITY = 5; //grado de explicación en el Logif (Params->iCriterio==0)GAINRATIO = false;if (Params->iConjuntos==0)SUBSET = true;MINOBJS = Params->iMinObjs;CF =Params->iCF;Check(CF, Epsilon, 100);CF /= 100;/* Inicialización */GetNames();GetData();FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif ( UNSEENS ){GetData();FVitacoraColClasificador){if (VerificarPK(TTennis->Fields->Fields[i]->FieldName)==0 ||TTennis->Fields->Fields[i]->FieldName=="Nivel" ){SpecialStatus[i]="IGNORAR";}else{AttName->Add(TTennis->Fields->Fields[i]->FieldName);//es contínuo/* Verificamos los tipos de datos */if ( TTennis->Fields->Fields[i]->DataType!=ftString){SpecialStatus[i] = "CONTINUOUS";}else //es discreto{SpecialStatus[i] = "DISCRETE";//Cargamos los valores del atributoQGral->SQL->Clear();Código Fuente Magdalena Servente 259

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteQGral->SQL->Add("SELECT DISTINCT("+ TTennis->Fields->Fields[i]->FieldName + sqlstring);QGral->Open();QGral->First();j=0;while (!QGral->Eof){AttValName[i][j]=QGral->FieldByName("Campo")->AsString;QGral->Next();j++;}MaxAttVal[i] = (DiscrValue) j;/* Leemos la máxima cantidad de valores,y chequeamos MaxDiscrVal */if (j>MaxDiscrVal)MaxDiscrVal=j;}}}}}catch(...){Application->MessageBox("Error en la carga de los datos delarchivo","Error",MB_OK|MB_ICONWARNING);}}delete(QGral);sqlstring.~AnsiString();//---------------------------------------------------------------------------/*************************************************************************//* *//* Lee los casos de la tabla. *//* *//* Al terminar,los casos se almacenan en el vector Item con la forma *//* de Descriptions (i.e. vectores de valores de atributos), *//* y se le asigna a MaxItem el número de items de datos. *//* *//*************************************************************************/void TDMC45::GetData(){ItemNo i=-1, ItemSpace;Description GetDescription();TQuery *QData=new TQuery(DMC45);int Dv;float Cv;Variant Atributo;Description Dvec;Attribute Att;AnsiString AtDiscreto;try{ItemSpace=0;QData->DatabaseName=Params->NombreBD;QData->SQL->Clear();QData->SQL->Add("SELECT * FROM " + Params->TablaBD);QData->Open();QData->First();do{++i;MaxItem = i;/* Verificamos si hay lugar para otro ítem */if ( i >= ItemSpace ){if ( ItemSpace ){ItemSpace += Inc;Item = (Description *)260 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}realloc(Item, ItemSpace*sizeof(Description));}else{Item = (Description *)malloc((ItemSpace=Inc)*sizeof(Description));}Dvec = (Description) calloc(MaxAtt+2, sizeof(AttValue));for(Att=0;AttFieldValues[TTennis->Fields->Fields[Att]->FieldName];if ( SpecialStatus[Att] == "IGNORAR" ){/* Salteamos este valor */DVal(Dvec, Att) = 0;}elseif ( MaxAttVal[Att] || SpecialStatus[Att] == "DISCRETE" ){/* Valor discreto */AtDiscreto=AnsiString(Atributo);if ( AtDiscreto.AnsiCompareIC("?")==0){Dv = 0;}else{Dv = PosicionValor(AtDiscreto,Att, 0, MaxAttVal[Att]);}DVal(Dvec, Att) = Dv;}else{/* Valor Continuo */if ( Atributo.VType==varEmpty || Atributo.VType==varNull){Cv = Unknown;}else{Cv = double(Atributo);}CVal(Dvec, Att) = Cv;}}Class(Dvec) = PosicionClase(QData->FieldByName(Params->ColClasificador)->AsString);Item[i] = Dvec;QData->Next();} while ( Item[i] != NULL && !(QData->Eof) );QData->Close();}catch(...){Application->MessageBox("Error en la carga de los datos delarchivo","Error",MB_OK|MB_ICONWARNING);}delete (QData);AtDiscreto.~AnsiString();}//-----------------------------------------------------------------------------int TDMC45::PosicionValor(AnsiString Valor,int nro_atrib, int pri, int ult)/* Busca la posición del Valor para el atributo especificado por elnro_atrib en el Tabla de Valores de atributos y la devuelve */{int i;Código Fuente Magdalena Servente 261

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentei=pri;while (AttValName[nro_atrib][i].AnsiCompareIC(Valor)!=0 && iDatabaseName=Params->NombreBD;QGral->SQL->Clear();QGral->SQL->Add(sqlstring);QGral->Open();QGral->First();if (QGral->FieldByName("Cant")->AsInteger==cantReg){res=0;} //es PKelse{res=1;}}catch(...){res=-1;}delete (QGral);sqlstring.~AnsiString();return(res);/*************************************************************************//* Construye y poda un árbol a partir de todos los datos *//* *//*************************************************************************/void TDMC45::OneTree(){ItemNo*TargetClassFreq;Tree*Raw;Tree*Pruned;InitialiseTreeData();InitialiseWeights();Raw = (Tree *) calloc(1, sizeof(Tree));Pruned = (Tree *) calloc(1, sizeof(Tree));AllKnown = true;Raw[0] = FormTree(0, MaxItem);FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}Pruned[0] = CopyTree(Raw[0]);if ( Prune(Pruned[0]) ){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}if ( TRIALS > 1 ){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSlice1 = (ItemCount *) calloc(MaxClass+2, sizeof(ItemCount));Slice2 = (ItemCount *) calloc(MaxClass+2, sizeof(ItemCount));UnknownRate = (float *) calloc(MaxAtt+1, sizeof(float));/* Verificamos si todos los atributos tienen muchos valores discretos */}MultiVal = true;if ( ! SUBSET ){for ( a = 0 ; MultiVal && a = 0.3 * (MaxItem + 1);}}}/*************************************************************************//* *//* Inicializa el peso de cada item *//* *//*************************************************************************/void TDMC45::InitialiseWeights(){ItemNo i;}ForEach(i, 0, MaxItem){Weight[i] = 1.0;}/*************************************************************************//* *//* Construye un árbol de decisión para los casos Fp hasta Lp: *//* *//* - si todos los casos son de la misma clase, el árbol es una hoja, *//* y devuelve una hoja con dicha clase *//* *//* - para cada atributo, calcular la información potencial provista *//* por una prueba sobre el atributo (basada en las probabilidades *//* de que cada caso tenga un valor particular para el atributo), *//* y la ganancia en información que resultaría de una prueba *//* sobre el atributo (basada en las probabilidades de cada caso *//* con un valor particular para el atributo pertenezca a una *//* determinada clase). *//* *//* - sobre esta base, y dependiendo del criterio de selección actual, *//* encontrar el mejor atributo para crear una rama. *//* Nota: no se permitirán divisiones sobre un atributo a menos *//* que dos o más subconjuntos tengan al menos MINOBJS items. *//* *//* - intentar crear una rama y analizar si es mejor que crear una hoja *//* *//*************************************************************************/Tree TDMC45::FormTree(ItemNo Fp, ItemNo Lp){ItemNo i, Kp, Ep;ItemCount Cases, NoBestClass, KnownCases;float Factor, BestVal, Val, AvGain=0;Attribute Att, BestAtt, Possible=0;ClassNo c, BestClass;Tree Node;DiscrValue v;bool PrevAllKnown;Cases = CountItems(Fp, Lp);/* Generamos la distribución en frecuencias de la clase */ForEach(c, 0, MaxClass){ClassFreq[c] = 0;}Código Fuente Magdalena Servente 265

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteForEach(i, Fp, Lp){ClassFreq[ Class(Item[i]) ] += Weight[i];}/* Buscamos la clase más frecuente */BestClass = 0;ForEach(c, 0, MaxClass){if ( ClassFreq[c] > ClassFreq[BestClass] ){BestClass = c;}}NoBestClass = ClassFreq[BestClass];Node = Leaf(ClassFreq, BestClass, Cases, Cases - NoBestClass);/* Si todos los casos son de la misma clase o no hay suficientes casospara dividir, el árbol es una hoja */if ( NoBestClass == Cases || Cases < 2 * MINOBJS ){return Node;}Verbosity(1){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteBestVal = -Epsilon;BestAtt = None;AvGain = ( Possible ? AvGain / Possible : 1E6 );Verbosity(2){if ( AvGain < 1E6 ){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteKnownCases = Cases - CountItems(Fp, Kp-1);UnknownRate[BestAtt] = (Cases - KnownCases) / (Cases + 0.001);Verbosity(1){if ( UnknownRate[BestAtt] > 0 ){FVitacora= Cases - NoBestClass - Epsilon ){Verbosity(1){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}}return Node;/*************************************************************************//* *//* Agrupa los ítems correspondiente a la rama V de una prueba y *//* y devuelve el índice del último ítem *//* *//* Nota: si V está vacía, agrupa valores desconocidos *//* *//*************************************************************************/ItemNo TDMC45::Group(DiscrValue V, ItemNo Fp, ItemNo Lp,Tree TestNode){ItemNo i;Attribute Att;float Thresh;Conjunto SS;Att = TestNode->Tested;if ( V ){/* Agrupar items según el valor del atributo Att, según eltipo de rama */switch ( TestNode->NodeType ){case BrDiscr:for(i=Fp;iCut;for(i=Fp;i

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}if ( CVal(Item[i], Att) == Unknown ) Intercambio(Fp++, i);}break;}return Fp - 1;/*************************************************************************//* *//* Intercambia los items en a y b *//* *//*************************************************************************/void TDMC45::Intercambio(ItemNo a, ItemNo b){register Description Hold;register ItemCount HoldW;Hold = Item[a];Item[a] = Item[b];Item[b] = Hold;}HoldW = Weight[a];Weight[a] = Weight[b];Weight[b] = HoldW;/*************************************************************************//* *//* Devuelve el peso total de los items desde Fp hasta Lp *//* *//*************************************************************************/ItemCount TDMC45::CountItems(ItemNo Fp, ItemNo Lp){register ItemCount Sum=0.0, *Wt, *LWt;if ( AllKnown ) return Lp - Fp + 1;for ( Wt = Weight + Fp, LWt = Weight + Lp ; Wt = MinGain - Epsilon && ThisInfo > Epsilon ){return ThisGain / ThisInfo;}else{270 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}return -Epsilon;}}else{return ( ThisInfo > 0 && ThisGain > -Epsilon ? ThisGain : -Epsilon );}/*************************************************************************//* *//* Resetea las tablas de frecuencia Freq[][] y ValFreq[] *//* *//*************************************************************************/void TDMC45::ResetFreq(DiscrValue MaxVal){DiscrValue v;ClassNo c;}for (v=0;v

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteThisGain = (1 - UnknFrac) * (BaseInfo - ThisInfo / TotalItems);}Verbosity(5){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}{}else{}}}FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentebool FirstValue;short TextWidth, Skip, Values=0, i;Att = T->Tested;switch ( T->NodeType ){case BrDiscr:Indent(Sh, Tab);FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}FVitacoraStrings[St->Branch[Next]->Leaf].Length() + 6;}MaxLl = Max(MaxLl, Ll);}return AttName->Strings[a].Length() + 4 + MaxLl;/*************************************************************************//* *//* Indenta Sh columnas *//* *//*************************************************************************/void TDMC45::Indent(short Sh,char *Mark){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}strcpy(Fn, FileName.c_str());strcat(Fn, Extension.c_str());if ( ! ( TRf = fopen(Fn, "w") ) ){FVitacoraErrors, sizeof(ItemCount));StreamOut((char *) T->ClassDist, (MaxClass + 1) * sizeof(ItemCount));if ( T->NodeType ){StreamOut((char *) &T->Tested, sizeof(Attribute));StreamOut((char *) &T->Forks, sizeof(short));switch ( T->NodeType ){case BrDiscr:break;case ThreshContin:StreamOut((char *) &T->Cut, sizeof(float));StreamOut((char *) &T->Lower, sizeof(float));StreamOut((char *) &T->Upper, sizeof(float));break;}case BrSubset:Bytes = (MaxAttVal[T->Tested]>>3) + 1;ForEach(v, 1, T->Forks){StreamOut((char *) T->Subset[v], Bytes);}break;}}ForEach(v, 1, T->Forks){OutTree(T->Branch[v]);}/*************************************************************************//* *//* Obtiene el árbol de decisión con extensión Extension *//* *//*************************************************************************/Tree TDMC45::GetTree(AnsiString Extension){Tree Hold;static char *LastExt="";if ( strcmp(LastExt, Extension.c_str()) ){LastExt = Extension.c_str();Código Fuente Magdalena Servente 277

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif ( TRf ) fclose(TRf);}strcpy(Fn, FileName.c_str());strcat(Fn, Extension.c_str());if ( ! ( TRf = fopen(Fn, "r") ) ){FVitacoraItems, sizeof(ItemCount));StreamIn((char *) &T->Errors, sizeof(ItemCount));T->ClassDist = (ItemCount *) calloc(MaxClass+1, sizeof(ItemCount));StreamIn((char *) T->ClassDist, (MaxClass + 1) * sizeof(ItemCount));if ( T->NodeType ){StreamIn((char *) &T->Tested, sizeof(Attribute));StreamIn((char *) &T->Forks, sizeof(short));switch ( T->NodeType ){case BrDiscr:break;case ThreshContin:StreamIn((char *) &T->Cut, sizeof(float));StreamIn((char *) &T->Lower, sizeof(float));StreamIn((char *) &T->Upper, sizeof(float));break;case BrSubset:T->Subset = (Conjunto *) calloc(T->Forks + 1, sizeof(Conjunto));}Bytes = (MaxAttVal[T->Tested]>>3) + 1;ForEach(v, 1, T->Forks){T->Subset[v] = (Conjunto) malloc(Bytes);StreamIn((char *) T->Subset[v], Bytes);}T->Branch = (Tree *) calloc(T->Forks + 1, sizeof(Tree));ForEach(v, 1, T->Forks){T->Branch[v] = InTree();278 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}}return T;/*************************************************************************//* *//* Stream caracteres de/hacia el archivo TRf desde/hacia una dir *//* *//*************************************************************************/void TDMC45::StreamOut(AnsiString s,int n){char *ss;ss=s.c_str();while ( n-- ) putc(*ss++, TRf);}void TDMC45::StreamIn(AnsiString s,int n){char *ss;while ( n-- ) *ss++ = getc(TRf);s=AnsiString(ss);}/*************************************************************************//* *//* Libera el espacio ocupado por Node *//* *//*************************************************************************/void TDMC45::ReleaseTree(Tree Node){DiscrValue v;if ( Node->NodeType ){ForEach(v, 1, Node->Forks){ReleaseTree(Node->Branch[v]);}}free(Node->Branch);if ( Node->NodeType == BrSubset ){free(Node->Subset);}}free(Node->ClassDist);free(Node);/*************************************************************************//* *//* Cuenta los nodos de un árbol *//* *//*************************************************************************/int TDMC45::TreeSize(Tree Node){int Sum=0;DiscrValue v;if ( Node->NodeType ){ForEach(v, 1, Node->Forks){Sum += TreeSize(Node->Branch[v]);}}}return Sum + 1;/*************************************************************************//* *//* Devuelve una copia de tree T */Código Fuente Magdalena Servente 279

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* *//*************************************************************************/Tree TDMC45::CopyTree(Tree T){DiscrValue v;Tree New;New = (Tree) malloc(sizeof(tree_record));memcpy(New, T, sizeof(tree_record));New->ClassDist = (ItemCount *) calloc(MaxClass+1, sizeof(ItemCount));memcpy(New->ClassDist, T->ClassDist, (MaxClass + 1) * sizeof(ItemCount));if ( T->NodeType ){New->Branch = (Tree *) calloc(T->Forks + 1, sizeof(Tree));ForEach(v, 1, T->Forks){New->Branch[v] = CopyTree(T->Branch[v]);}}}return New;/*************************************************************************//* *//* Guarda los valores de los atributos leídos con "discrete N" *//* *//*************************************************************************/void TDMC45::SaveDiscreteNames(){Attribute Att;DiscrValue v;int Length;ForEach(Att, 0, MaxAtt){if ( SpecialStatus[Att] != "DISCRETE" ) continue;StreamOut((char *) &MaxAttVal[Att], sizeof(int));ForEach(v, 1, MaxAttVal[Att]){Length = AttValName[Att][v].Length() + 1;}}}StreamOut((char *) &Length, sizeof(int));StreamOut((char *) AttValName[Att][v].c_str(), Length);/*************************************************************************//* *//* Recupera los valores de los atributos leídos con "discrete N" *//* *//*************************************************************************/void TDMC45::RecoverDiscreteNames(){Attribute Att;DiscrValue v;int Length;ForEach(Att, 0, MaxAtt){if ( SpecialStatus[Att] != "DISCRETE" ) continue;StreamIn(AnsiString(MaxAttVal[Att]), sizeof(int));ForEach(v, 1, MaxAttVal[Att]){StreamIn(AnsiString(Length), sizeof(int));}}AttValName[Att][v] = (char *) malloc(Length);StreamIn(AttValName[Att][v], Length);280 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}/*************************************************************************//* *//* Evaluación del armado de subconjuntos sobre un atrib discreto. A *//* partir de los subconjuntos elegidos Subset[Att][], se asigna a *//* Subsets[Att] el nro de subconjuntos, y se calculan Info[] y Gain[] *//* de una prueba sobre el atributo of a test on the attribute. *//* *//*************************************************************************/void TDMC45::EvalSubset(Attribute Att, ItemNo Fp, ItemNo Lp,ItemCount Items){DiscrValue V1, V2, BestV1, BestV2, Barred;ItemCount KnownItems;ClassNo c;float BaseInfo, MinGain, ThisGain, ThisInfo,Val, BestVal, BestGain, BestInfo,PrevVal, PrevGain, PrevInfo;short Blocks=0, MissingValues=0, ReasonableSubsets, Bytes, b;bool MergedSubsets = false;int SaveMINOBJS;SaveMINOBJS = MINOBJS;MINOBJS = 1;/* Primero calculamos Freq[][], ValFreq[], info de base, y la gananciay la info total de una partición sobre el atrib discreto Att */ComputeFrequencies(Att, Fp, Lp);KnownItems = Items - ValFreq[0];if ( KnownItems < Epsilon ){Verbosity(2){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}if ( ++Blocks < V1 ){ValFreq[Blocks] = ValFreq[V1];ForEach(c, 0, MaxClass){Freq[Blocks][c] = Freq[V1][c];}}ClearBits(Bytes, Subset[Att][Blocks]);SetBit(V1, Subset[Att][Blocks]);}else{SetBit(V1, Subset[Att][0]);MissingValues++;}/* Unimos los subconjuntos de una única clase con otrs de la misma clase *//* Nota: ValFreq[V] > 0 para todo V */ForEach(V1, 1, Blocks-1){for ( c = 0 ; Freq[V1][c] < 0.1 ; c++ );if ( Freq[V1][c] < ValFreq[V1] - 0.1 ) continue;/* Tenemos una única clase -- buscamos otras */for ( V2 = V1+1 ; V2

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteMinGain = PrevGain / 2;while ( Blocks > 2 ){BestVal = BestV1 = 0;BestGain = -Epsilon;/* Verificamos si existen subconjuntos razonables; si = SaveMINOBJS ) ReasonableSubsets++;}if ( ValFreq[V1] > ValFreq[Barred] ) Barred = V1;if ( ReasonableSubsets >= 3 ) Barred = 0;/* Para cada par de valores posibles, calculamos la ganancia y lainfo total de una división en la cual se tratan como una unidad.Almacenamos el par con mejor ganancia. */ForEach(V1, 1, Blocks-1){ForEach(V2, V1+1, Blocks){if ( V1 == Barred || V2 == Barred ) continue;Combine(V1, V2, Blocks);ThisGain = ComputeGain(BaseInfo, UnknownRate[Att],Blocks-1, KnownItems);ThisInfo = TotalInfo(ValFreq, 0, Blocks-1) / Items;Val = Worth(ThisInfo, ThisGain, Epsilon);Verbosity(4){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteReasonableSubsets >= 2 &&( ! BestV1 ||BestVal < PrevVal + 1E-5 ||BestVal == PrevVal && BestGain < PrevGain ) ) break;PrevGain = BestGain;PrevInfo = BestInfo;PrevVal = BestVal;Combine(BestV1, BestV2, Blocks);ForEach(b, 0, Bytes-1){Subset[Att][BestV1][b] |= Subset[Att][BestV2][b];Subset[Att][BestV2][b] = Subset[Att][Blocks][b];}Blocks--;}Verbosity(2){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************//* *//* Combina los valores de la distribución de los atributos discretos *//* x e y, guardando los nuevos valores en Freq[x][] y ValFreq[x][]. *//* Los valores anteriores se guardan en Slice1 y Slice2 *//* *//*************************************************************************/void TDMC45::Combine(DiscrValue x,DiscrValue y,DiscrValue Last){ClassNo c;ForEach(c, 0, MaxClass){Slice1[c] = Freq[x][c];Slice2[c] = Freq[y][c];}Freq[x][c] += Freq[y][c];Freq[y][c] = Freq[Last][c];Slice1[MaxClass+1] = ValFreq[x];Slice2[MaxClass+1] = ValFreq[y];}ValFreq[x] += ValFreq[y];ValFreq[y] = ValFreq[Last];/*************************************************************************//* *//* Devuelve a x e y los valores de distribución originales a partir *//* de Slice1 y Slice2 *//* *//*************************************************************************/void TDMC45::Uncombine(DiscrValue x,DiscrValue y){ClassNo c;ForEach(c, 0, MaxClass){Freq[x][c] = Slice1[c];Freq[y][c] = Slice2[c];}}ValFreq[x] = Slice1[MaxClass+1];ValFreq[y] = Slice2[MaxClass+1];/*************************************************************************//* *//* Imprime los valores del atributo Att que estan en el subconjunto Ss *//* *//*************************************************************************/void TDMC45::PrintSubset(Attribute Att,Conjunto Ss){DiscrValue V1;bool First=true;}ForEach(V1, 1, MaxAttVal[Att]){if ( In(V1, Ss) ){if ( First ){First = false;}else{FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************//* *//* Construye una prueba de nodo sobre un subconjunto de valores *//* *//*************************************************************************/void TDMC45::SubsetTest(Tree Node,Attribute Att){short S, Bytes;Sprout(Node, Subsets[Att]);Node->NodeType = BrSubset;Node->Tested = Att;Node->Errors = 0;}Bytes = (MaxAttVal[Att]>>3) + 1;Node->Subset = (Conjunto *) calloc(Subsets[Att] + 1, sizeof(Conjunto));ForEach(S, 1, Node->Forks){Node->Subset[S] = (Conjunto) malloc(Bytes);CopyBits(Bytes, Subset[Att][S], Node->Subset[S]);}/*************************************************************************//* *//* Setea Info[] and Gain[] para la partición discreta de items *//* Fp hasta Lp *//* *//*************************************************************************/void TDMC45::EvalDiscreteAtt(Attribute Att,ItemNo Fp,ItemNo Lp,ItemCount Items){ItemCount KnownItems;ComputeFrequencies(Att, Fp, Lp);KnownItems = Items - ValFreq[0];/* Caso especial cuando no existen valores conocidos del atributo */if ( Items

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* Computa las tablas de frecuencia Freq[][] y ValFreq[] para el *//* atrib Att para los items desde Fp hasta Lp, y determina la *//* proporción de desconocidos (UnknownRate) para Att *//* *//*************************************************************************/void TDMC45::ComputeFrequencies(Attribute Att,ItemNo Fp,ItemNo Lp){Description Case;ClassNo c;DiscrValue v;ItemNo p;ResetFreq(MaxAttVal[Att]);/* Determinamos la frecuencia de cada clase según los casosde cada valor posible para el atributo dado */ForEach(p, Fp, Lp){Case = Item[p];Freq[ DVal(Case,Att) ][ Class(Case) ] += Weight[p];}/* Determinamos la frecuencia de cada valor posible para el atributo dado */ForEach(v, 0, MaxAttVal[Att]){ForEach(c, 0, MaxClass){ValFreq[v] += Freq[v][c];}}/* Determinamos la proporción de valores desconocidos para cada atributo */}UnknownRate[Att] = ValFreq[0] / CountItems(Fp, Lp);/*************************************************************************//* *//* Devuelve la información base de los itemscon valores conocidos *//* de un atributo discreto, utilizando la tabla de frecuencias Freq[][] *//* *//*************************************************************************/float TDMC45::DiscrKnownBaseInfo(DiscrValue KnownItems,ItemCount MaxVal){ClassNo c;ItemCount ClassCount;double Sum=0;DiscrValue v;ForEach(c, 0, MaxClass){ClassCount = 0;ForEach(v, 1, MaxVal){ClassCount += Freq[v][c];}Sum += ClassCount * Log(ClassCount);}}return (KnownItems * Log(KnownItems) - Sum) / KnownItems;/*************************************************************************//* *//* Construye y devuelve un nodo para una prueba sobre un *//* atributo discreto *//* *//*************************************************************************/void TDMC45::DiscreteTest(Tree Node,Attribute Att){ItemCount CountItems();Código Fuente Magdalena Servente 287

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteSprout(Node, MaxAttVal[Att]);}Node->NodeType = BrDiscr;Node->Tested = Att;Node->Errors = 0;/*************************************************************************//* *//* Evaluación de una prueba sobre un atributo continuo *//* --------------------------------------------------- *//* *//*************************************************************************//*************************************************************************//* *//* Trabajamos ocmo si los atributos continuos tuviesen los siguientes *//* valores posibles: *//* 0 (desconocido), 1 (menor que el corte), 2(mayor que el corte) *//* Esta rutina busca el mejor corte para los items desde Fp hasta Lp *//* y setea Info[], Gain[] and Bar[] *//* *//*************************************************************************/void TDMC45::EvalContinuousAtt(Attribute Att,ItemNo Fp,ItemNo Lp){ItemNo i, BestI, Xp, Tries=0;ItemCount Items, KnownItems, LowItems, MinSplit;ClassNo c;float AvGain=0, Val, BestVal, BaseInfo, ThreshCost;Verbosity(2){FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteQuicksort(Xp, Lp, Att);/* Contamos los valores base y determimos la información base */ForEach(i, Xp, Lp){Freq[ 2 ][ Class(Item[i]) ] += Weight[i];SplitGain[i] = -Epsilon;SplitInfo[i] = 0;}BaseInfo = TotalInfo(Freq[2], 0, MaxClass) / KnownItems;/* Probamos cortes posibles entre los items i e i+1, y determinamos lainformación y ganancia de cada corte.*/MinSplit = 0.10 * KnownItems / (MaxClass + 1);if ( MinSplit 25 ) MinSplit = 25;LowItems = 0;ForEach(i, Xp, Lp - 1){c = Class(Item[i]);LowItems += Weight[i];Freq[1][c] += Weight[i];Freq[2][c] -= Weight[i];if ( LowItems < MinSplit ) continue;elseif ( LowItems > KnownItems - MinSplit ) break;if ( CVal(Item[i],Att) < CVal(Item[i+1],Att) - 1E-5 ){ValFreq[1] = LowItems;ValFreq[2] = KnownItems - LowItems;SplitGain[i] = ComputeGain(BaseInfo, UnknownRate[Att], 2, KnownItems);SplitInfo[i] = TotalInfo(ValFreq, 0, 2) / Items;AvGain += SplitGain[i];Tries++;}}Verbosity(3){ FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteInfo[Att] = 0.0;Verbosity(2){ FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* Ordena los items desde Fp hasta Lp según el atributo a *//* *//*************************************************************************///void TDMC45::Quicksort(ItemNo Fp,ItemNo Lp,Attribute Att, void (*Exchange)())void TDMC45::Quicksort(ItemNo Fp,ItemNo Lp,Attribute Att){register ItemNo Lower, Middle;register float Thresh;register ItemNo i;if ( Fp < Lp ){Thresh = CVal(Item[Lp], Att);/* Separamos todos los items con valores

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteEstimateErrors(T, 0, MaxItem, 0, true);if ( SUBSET ){if ( ! PossibleValues ){PossibleValues = (Conjunto *) calloc(MaxAtt+1, sizeof(Conjunto));}ForEach(a, 0, MaxAtt){if ( MaxAttVal[a] ){PossibleValues[a] = (Conjunto) malloc((MaxAttVal[a]>>3) + 1);ClearBits((MaxAttVal[a]>>3) + 1, PossibleValues[a]);ForEach(i, 1, MaxAttVal[a]){SetBit(i, PossibleValues[a]);}}}}CheckPossibleValues(T);}return Changed;/*************************************************************************//* *//* Estima los errores en un determinado subárbol *//* *//*************************************************************************/float TDMC45::EstimateErrors(Tree T, ItemNo Fp,ItemNo Lp,short Sh,bool UpdateTree){ItemNo i, Kp, Ep;ItemCount Cases, KnownCases, *LocalClassDist, TreeErrors, LeafErrors,ExtraLeafErrors, BranchErrors,Factor, MaxFactor;DiscrValue v, MaxBr;ClassNo c, BestClass;bool PrevAllKnown;/* Generamos la distribución de clases */Cases = CountItems(Fp, Lp);LocalClassDist = (ItemCount *) calloc(MaxClass+1, sizeof(ItemCount));ForEach(i, Fp, Lp){LocalClassDist[ Class(Item[i]) ] += Weight[i];}/* Buscamos la clase más frecuente y actualizamos el árbol */BestClass = T->Leaf;ForEach(c, 0, MaxClass){if ( LocalClassDist[c] > LocalClassDist[BestClass] ){BestClass = c;}}LeafErrors = Cases - LocalClassDist[BestClass];ExtraLeafErrors = AddErrs(Cases, LeafErrors);if ( UpdateTree ){T->Items = Cases;T->Leaf = BestClass;memcpy(T->ClassDist, LocalClassDist, (MaxClass + 1) * sizeof(ItemCount));}if ( ! T->NodeType ) /* hoja */{TreeErrors = LeafErrors + ExtraLeafErrors;292 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif ( UpdateTree ){T->Errors = TreeErrors;}LocalVerbosity(1){Intab(Sh);FVitacoraLeaf].c_str();FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}Intab(Sh);FVitacoraTested].c_str();FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentechar Any=0;if ( T->NodeType == BrSubset ){A = T->Tested;Bytes = (MaxAttVal[A]>>3) + 1;HoldValues = (Conjunto) malloc(Bytes);/* Analizamos si la última (default) rama puede simplificarse uomitirse */ForEach(b, 0, Bytes-1){T->Subset[T->Forks][b] &= PossibleValues[A][b];Any |= T->Subset[T->Forks][b];}if ( ! Any ){T->Forks--;}/* Procesamos cada subárbol, dejando únicamente valores en lossubconjuntos de las ramas */CopyBits(Bytes, PossibleValues[A], HoldValues);ForEach(v, 1, T->Forks){CopyBits(Bytes, T->Subset[v], PossibleValues[A]);}CheckPossibleValues(T->Branch[v]);CopyBits(Bytes, HoldValues, PossibleValues[A]);}free(HoldValues);}elseif ( T->NodeType ){ForEach(v, 1, T->Forks){CheckPossibleValues(T->Branch[v]);}}/*************************************************************************//* *//* Computa los errores adicionales si la proporción de error llega al *//* límite superior del nivel de confianza. El coeficiente es el *//* cuadrado del nro de desviaciones estándar correspondientes al *//* nivel de confianza seleccionado. *//* (Basado en el Documenta Geigy Scientific Tables (Sixth Edition), *//* p185 (with modifications).) *//* *//*************************************************************************/float TDMC45::AddErrs(ItemCount N, ItemCount e){static float Coeff=0;float Val0, Pr;if ( ! Coeff ){/* Computa y retiene el valor del coeficiente, interpolando losvalores de Val y Dev */int i;i = 0;while ( CF > Val[i] ) i++;Coeff = Dev[i-1] +Código Fuente Magdalena Servente 295

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}(Dev[i] - Dev[i-1]) * (CF - Val[i-1]) /(Val[i] - Val[i-1]);Coeff = Coeff * Coeff;}if ( e < 1E-6 ){return N * (1 - exp(log(CF) / N));}elseif ( e < 0.9999 ){Val0 = N * (1 - exp(log(CF) / N));return Val0 + e * (AddErrs(N, 1.0) - Val0);}elseif ( e + 0.5 >= N ){return 0.67 * (N - e);}else{Pr = (e + 0.5 + Coeff/2+ sqrt(Coeff * ((e + 0.5) * (1 - (e + 0.5)/N) + Coeff/4)) )/ (N + Coeff);return (N * Pr - e);}/*************************************************************************//* *//* Categoriza la descripción de un caso utilizando el árbol de decisión *//* *//*************************************************************************/ClassNo TDMC45::Category(Description CaseDesc,Tree DecisionTree){ClassNo c, BestClass;if ( ! ClassSum ){ClassSum = (float *) malloc((MaxClass+1) * sizeof(float));}ForEach(c, 0, MaxClass){ClassSum[c] = 0;}Classify(CaseDesc, DecisionTree, 1.0);BestClass = 0;ForEach(c, 0, MaxClass){Verbosity(5) printf("clase %s peso %.2f\n", ClassName[c], ClassSum[c]);}if ( ClassSum[c] > ClassSum[BestClass] ) BestClass = c;}return BestClass;/*************************************************************************//* *//* Clasifica un caso utilizando el subárbol dado, ajustando el valor *//* de ClassSum para cada clase *//* *//*************************************************************************/void TDMC45::Classify(Description CaseDesc,Tree T,float Weight){DiscrValue v, dv;float Cv;Attribute a;ClassNo c;296 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteswitch ( T->NodeType ){case 0: /* hoja */if ( T->Items > 0 ){/* Actualizamos a partir de TODAS las clases */ForEach(c, 0, MaxClass){if ( T->ClassDist[c] ){ClassSum[c] += Weight * T->ClassDist[c] / T->Items;}}}else{ClassSum[T->Leaf] += Weight;}return;case BrDiscr: /* prueba sobre un atrib discreto */a = T->Tested;v = DVal(CaseDesc, a);if ( v && v Forks ) /* Nos aseguramos que no sea unnuevo valor discreto */{Classify(CaseDesc, T->Branch[v], Weight);}else{ForEach(v, 1, T->Forks){Classify(CaseDesc, T->Branch[v],(Weight * T->Branch[v]->Items) / T->Items);}}return;case ThreshContin: /* prueba sobre un atributo contínuo */a = T->Tested;Cv = CVal(CaseDesc, a);if ( Cv == Unknown ){ForEach(v, 1, 2){Classify(CaseDesc, T->Branch[v],(Weight * T->Branch[v]->Items) / T->Items);}}else{v = ( Cv Cut ? 1 : 2 );Classify(CaseDesc, T->Branch[v], Weight);}return;case BrSubset: /* prueba sobre un subconj de valores discretos */a = T->Tested;dv = DVal(CaseDesc, a);if ( dv ){ForEach(v, 1, T->Forks){if ( In(dv, T->Subset[v]) ){Classify(CaseDesc, T->Branch[v], Weight);Código Fuente Magdalena Servente 297

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}}return;}}/* Valor desconocido o no encontrado en ningún subconjunto */ForEach(v, 1, T->Forks){Classify(CaseDesc, T->Branch[v],(Weight * T->Branch[v]->Items) / T->Items);}return;/*************************************************************************//* *//* Imprime matrices de confusión *//* *//*************************************************************************/void TDMC45::PrintConfusionMatrix(ItemNo *ConfusionMat){short Row, Col;if ( MaxClass > 20 ) return; /* No imprimir matrices sin sentido *//* Imprimimos el encabezado primero, y luego cada una de las filas */FVitacora

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*** REGLAS DE DECISIÓN *******//**************************************************************************************/void TDMC45::GenerarReglasC45(){int o;extern char *optarg;extern int optind;bool FirstTime=true;char outFile[50]="Log\\C45Reglas";//Inicializamos las variablesFileName = "DF";VERBOSITY = 5;UNSEENS = true;SIGTEST = false;SIMANNEAL = false;SIGTHRESH = 0.05;CF= 0.25;REDUNDANCY = 1.0;NRules = 0;RuleSpace = 0;NTests = 0;//Inicializamos el archivostrcat(outFile, DateTimeToStr(Now()).c_str());strcat(outFile, Params->TablaBD.c_str());strcat(outFile, ".log");FReglas.open(outFile, ios::out);FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************//* *//* Creación del vector LogItemNo para contener los logaritmos de *//* enteros, y el vector LogFact para contener los logaritmos de los *//* factoriales (todos en base 2) *//* *//*************************************************************************/void TDMC45::GenerateLogs(){ItemNo i;LogItemNo = (float *) malloc((MaxItem+100) * sizeof(float));LogFact = (double *) malloc((MaxItem+100) * sizeof(double));LogItemNo[0] = -1E38;LogItemNo[1] = 0;LogFact[0] = LogFact[1] = 0;}ForEach(i, 2, MaxItem+99){LogItemNo[i] = log((float) i) / Log2;LogFact[i] = LogFact[i-1] + LogItemNo[i];}/*************************************************************************//* *//* Para cada árbol, creamos un conj de reglas y lo procesamos. Luego *//* componemos un conjunto de reglas a partir de estos conjuntos. *//* Si hay un sólo árbol, entoncesno se compone un nuevo conjunto. *//* *//* Los conj de reglas se almacenan desde PRSet[0] hasta PRSet[TRIALS], *//* donde PRSet[TRIALS] contiene el conjunto compuesto. *//* *//* Al terminar, el conjunto actual es el compuesto (si es que uno se *//* creó), sino es el conjunto de un árbol. *//* *//*************************************************************************/void TDMC45::GenerateRules(){Tree DecisionTree, GetTree();short t=0, RuleSetSpace=0, r;/* Buscamos los bits para codificar los atributos y las ramas */FindTestCodes();/* Procesamos cada árbol de decisión */while ( DecisionTree = GetTree() ){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente{RuleSetSpace += 10;if ( RuleSetSpace > 10 ){PRSet = (RuleSet *) realloc(PRSet, RuleSetSpace * sizeof(RuleSet));}else{PRSet = (RuleSet *) malloc(RuleSetSpace * sizeof(RuleSet));}}PRSet[t].SNRules = NRules;PRSet[t].SRule = Rule;PRSet[t].SRuleIndex = RuleIndex;PRSet[t].SDefaultClass = DefaultClass;}++t;if ( ! t ){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}free(ValFreq);BranchBits[Att] = Sum;}else{Quicksort(0, MaxItem, Att);PossibleCuts = 1;ForEach(i, 1, MaxItem){if ( CVal(Item[i],Att) > CVal(Item[i-1],Att) ){PossibleCuts++;}}}BranchBits[Att] = PossibleCuts > 1 ? 1 + LogItemNo[PossibleCuts] / 2 : 0 ;}SumBranches += BranchBits[Att];}AttTestBits = 0;ForEach(Att, 0, MaxAtt){if ( (p = BranchBits[Att] / SumBranches) > 0 ){AttTestBits -= p * log(p) / log(2.0);}}/*************************************************************************//* *//* Intercambio de los items en a y b. *//* *//*************************************************************************/void TDMC45::SwapUnweighted(ItemNo a,ItemNo b){Description Hold;}Hold = Item[a];Item[a] = Item[b];Item[b] = Hold;/*************************************************************************//* *//* Creación de un conjunto compuesto de reglas de todas las pruebas *//* *//*************************************************************************/void TDMC45::CompositeRuleset(){RuleNo r;short t, ri;InitialiseRules();/* Procesamos juntas todas las reglas de cada subconjunto */ForEach(t, 0, TRIALS-1){ForEach(ri, 1, PRSet[t].SNRules){r = PRSet[t].SRuleIndex[ri];NewRule(PRSet[t].SRule[r].Lhs, PRSet[t].SRule[r].Size,PRSet[t].SRule[r].Rhs, PRSet[t].SRule[r].Error);}}/* Seleccionamos un subconjunto */ConstructRuleset();FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* profundidad inicial d *//* *//*************************************************************************/void TDMC45::TreeParameters(Tree t,short d){DiscrValue v;if ( t->NodeType ){ForEach(v, 1, t->Forks){TreeParameters(t->Branch[v], d+1);}}else{/* Es una hoja */}}if ( d > MaxDepth ) MaxDepth = d;MaxDisjuncts++;/*************************************************************************//* *//* Extrae los disjuntos del arbol t en la profundidad d y los procesa *//* *//*************************************************************************/void TDMC45::Scan(Tree t,short d){DiscrValue v;short i;Condition *Term;Test x, FindTest();if ( t->NodeType ){d++;x = (Test) malloc(sizeof(struct TestRec));x->NodeType = t->NodeType;x->Tested = t->Tested;x->Forks = t->Forks;x->Cut = ( t->NodeType == ThreshContin ? t->Cut : 0 );if ( t->NodeType == BrSubset ){x->Subset = (Conjunto *) calloc(t->Forks + 1, sizeof(Conjunto));ForEach(v, 1, t->Forks){x->Subset[v] = t->Subset[v];}}Stack[d]->CondTest = FindTest();ForEach(v, 1, t->Forks){Stack[d]->TestValue = v;Scan(t->Branch[v], d);}}elseif ( t->Items >= 1 ){/* Hoja del árbol de decisión - construimos el conjunto decondiciones asociadas con esta hoja y las podamos */Term = (Condition *) calloc(d+1, sizeof(Condition));ForEach(i, 1, d){Term[i] = (Condition) malloc(sizeof(struct CondRec));Term[i]->CondTest = Stack[i]->CondTest;Term[i]->TestValue = Stack[i]->TestValue;}PruneRule(Term, d, t->Leaf);free(Term);304 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}/*************************************************************************//* *//* Construcción de un subconjunto ordenado (indexado por el RuleIndex) *//* a partir del actual conjunto de reglas *//* *//*************************************************************************/void TDMC45::ConstructRuleset(){RuleNo r, OldNRules = NRules;/* Reservamos lugar para las tablas */Right = (ItemNo *) calloc(NRules+1, sizeof(ItemNo));Wrong = (ItemNo *) calloc(NRules+1, sizeof(ItemNo));Value = (float *) calloc(NRules+1, sizeof(float));RuleIn = (bool *) calloc(NRules+1, sizeof(Boolean));Subset = (char ***) malloc((NRules+1) * sizeof(Boolean));ClassRules = (RuleNo *) malloc((NRules+1) * sizeof(RuleNo));ClassFreq = (float *) calloc(MaxClass+1, sizeof(ItemNo));Covered = (ItemNo *) calloc(MaxItem+1, sizeof(ItemNo));Match = (bool **) calloc(NRules+1, sizeof(Boolean *));FalsePos = (ItemNo *) calloc(MaxClass+1, sizeof(ItemNo));NoRule = (ItemNo *) calloc(MaxClass+1, sizeof(ItemNo));ForEach(r, 1, NRules){Match[r] = (Boolean *) calloc(MaxItem+1, sizeof(Boolean));}/* Cubrimos cada una de las clases, y luego las ordenamos en uníndice de reglas */InitialiseTables();FindRuleCodes();CodeWeight = 0.5;ForEach(FocusClass, 0, MaxClass){CoverClass();}MakeIndex();FindDefault();/* Liberamos espacio en memoria */}free(Value);free(RuleIn);free(ClassRules);free(Subset);free(Covered);free(FalsePos);free(NoRule);ForEach(r, 1, OldNRules){free(Match[r]);}free(Match);/*************************************************************************//* *//* Inicialización de tablas *//* *//*************************************************************************/Código Fuente Magdalena Servente 305

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentevoid TDMC45::InitialiseTables(){ItemNo i;RuleNo r;ClassNo c;float Strength();ForEach(r, 1, NRules){RuleIn[r] = false;Rule[r].Used = Rule[r].Incorrect = 0;}ForEach(c, 0, MaxClass){ClassFreq[c] = 0;}ForEach(i, 0, MaxItem){ClassFreq[Class(Item[i])]++;ForEach(r, 1, NRules){Match[r][i] = Fuerza(Rule[r], Item[i]) > 0.1;}}}if ( Match[r][i] ){Rule[r].Used++;if ( Class(Item[i]) != Rule[r].Rhs ) Rule[r].Incorrect++;}/*************************************************************************//* *//* Seleccionamos un subconjunto de las reglas para la FocusClass *//* *//*************************************************************************/void TDMC45::CoverClass(){RuleNo r, RuleCount=0;ItemNo i;Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente{AllCombinations(RuleCount);}elseif ( SIMANNEAL ){SimAnneal(RuleCount);}else{SpotSearch(RuleCount);}}memcpy(RuleIn, Subset, NRules+1);Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}{}if ( ! (OutCount++ % 3) ) printf("\n\t\t");FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente{}r = ClassRules[ri];RuleIn[r] = Random < ProbIn;}}HillClimb(RuleCount);/*************************************************************************//* *//* Mejora un subconjunto de reglas agregando o eliminando reglas *//* *//*************************************************************************/void TDMC45::HillClimb(RuleNo RuleCount){RuleNo r, Bestr;short ri, OutCount;ItemNo i;float Delta, BestDelta;ItemNo aux;ForEach(i, 0, MaxItem){Covered[i] = 0;}ForEach(ri, 1, RuleCount){r = ClassRules[ri];if ( RuleIn[r] ){ForEach(i, 0, MaxItem){if ( Match[r][i] ){Covered[i]++;}}}}/* Agregamos o eliminamos la regla con la mayor reducción en el costode codificación */while ( true ){CalculateValue();Verbosity(2){OutCount = 0;ForEach(ri, 1, RuleCount){r = ClassRules[ri];}if ( ! RuleIn[r] ){if ( ! (OutCount++ % 3) ) printf("\n\t\t");FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif ( Delta > BestDelta ){Bestr = r;BestDelta = Delta;}}if ( ! Bestr ) break;}}if ( RuleIn[Bestr] ){DeleteRule(Bestr);}else{AddRule(Bestr);}/*************************************************************************//* *//* Calculamos los aciertos y errores para las reglas de la FocusClass *//* y determinamos el valor de dichas reglas. Si es el mejor hasta *//* ahora, lo guardamos. *//* *//*************************************************************************/void TDMC45::CalculateValue()/* -------------- */{RuleNo r, Selected=0, InCount;ItemNo i, Times, FPos=0, FNeg=0, SumCover=0,aux;float BaseBits, RuleBits=0, NewBits;ClassNo ThisClass;Boolean *RuleMatch;ForEach(i, 0, MaxItem){ThisClass = Class(Item[i]);}if ( Covered[i] ){SumCover++;if( ThisClass != FocusClass ) FPos++;}elseif ( ThisClass == FocusClass ){FNeg++;}ForEach(r, 1, NRules){if ( Rule[r].Rhs == FocusClass ){Right[r] = Wrong[r] = 0;if ( RuleIn[r] ){RuleBits += Rule[r].Bits;Selected++;}RuleMatch = Match[r];ForEach(i, 0, MaxItem){if ( RuleMatch[i] &&( ! (Times = Covered[i]) || Times == 1 && RuleIn[r] ) ){if ( Class(Item[i]) == FocusClass ){Right[r]++;}else310 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}}}{}Wrong[r]++;RuleBits -= LogFact[Selected];BaseBits = CodeWeight * RuleBits + ExceptionBits(SumCover, FPos, FNeg);/* A partir de los aciertos y errores de cada regla, calculamos su valor */Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}{}SubsetValue = BaseBits;memcpy(Subset, RuleIn, NRules+1);/*************************************************************************//* *//* Agregamos la regla r al conj de relgas incluidas e incrementamos la *//* cantidad de reglas q cubren los items q disparan la regla *//* *//*************************************************************************/void TDMC45::AddRule(RuleNo r){ItemNo i;RuleIn[r] = true;ForEach(i, 0, MaxItem){if ( Match[r][i] ){Covered[i]++;}}}Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRuleNo r, BestR, NewNRules = 0;ItemNo i;Boolean *Included;Included = (Boolean *) calloc(MaxClass+1, sizeof(Boolean));RuleIndex = (RuleNo *) calloc(NRules+1, sizeof(RuleNo));Verbosity(1) printf("\nFalsosPos Clase\n");ForEach(i, 0, MaxItem){Covered[i] = 0;}/* Seleccionamos la mejor clase para poner a continuación */ForEach(Pass, 0, MaxClass){ForEach(c, 0, MaxClass){if ( Included[c] ) continue;FalsePos[c] = 0;ForEach(i, 0, MaxItem){if ( Covered[i] || Class(Item[i]) == c ) continue;}}ForEach(r, 1, NRules){if ( Rule[r].Rhs == c && RuleIn[r] && Match[r][i] ){FalsePos[c]++;break;}}BestC = -1;ForEach(c, 0, MaxClass){if ( ! Included[c] &&( BestC < 0 || FalsePos[c] < FalsePos[BestC] ) ){BestC = c;}}Included[BestC] = true;Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteRuleIndex[++NewNRules] = BestR;RuleIn[BestR] = false;}ForEach(i, 0, MaxItem){Covered[i] |= Match[BestR][i];}}} while ( BestR );}NRules = NewNRules;free(Included);/*************************************************************************//* *//* Determina la clase por defecto. Los empates se resuelven a favor *//* de la clase más frecuente *//* *//*************************************************************************/void TDMC45::FindDefault(){ClassNo c;ItemNo i;/* Determinamos los items no cubiertos por ninguna regla */ForEach(c, 0, MaxClass){NoRule[c] = 0;}ForEach(i, 0, MaxItem){if ( ! Covered[i] ){NoRule[Class(Item[i])]++;}}Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************/float TDMC45::Fuerza(PR ThisRule,Description Case){short d;if ( ThisRule.Error > 0.7 ) return 0.0;ForEach(d, 1, ThisRule.Size){if ( ! Satisfies(Case, ThisRule.Lhs[d]) ){return 0.0;}}}return ( 1 - ThisRule.Error );/*************************************************************************//* *//* Determina el nro de bits necesarios para codificar las excepciones *//* *//*************************************************************************/float TDMC45::Biased(int N, int E, float ExpE){float Rate;if ( ExpE = N-1E-6 ){return ( E == N ? 0.0 : 1E6 );}}Rate = ExpE / N;return -E * Log(Rate) - (N-E) * Log(1-Rate);float TDMC45::ExceptionBits(int Fires, int FP, int FN){if ( Fires > 0.5 * (MaxItem+1) ){return Log(MaxItem+1)+ Biased(Fires, FP, 0.5 * (FP+FN))+ Biased(MaxItem+1-Fires, FN, (float) FN);}else{return Log(MaxItem+1)+ Biased(Fires, FP, (float) FP)+ Biased(MaxItem+1-Fires, FN, 0.5 * (FP+FN));}}/*************************************************************************//* *//* Determina la longitud de codificación para todas las reglas *//* *//*************************************************************************/void TDMC45::FindRuleCodes(){RuleNo r;short d, NCond;float Bits;ForEach(r, 1, NRules){NCond = Rule[r].Size;Bits = 0;ForEach(d, 1, NCond){Bits += CondBits(Rule[r].Lhs[d]);}Código Fuente Magdalena Servente 315

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* Debemos codificar el nro de condiciones, pero mejorar lacodificación total mediante la forma en que las condicionespueden reordenarse */}}Rule[r].Bits = Bits + LogItemNo[NCond] - LogFact[NCond];/*************************************************************************//* *//* Determina el nro de bits requerido para codificar una condición *//* *//*************************************************************************/float TDMC45::CondBits(Condition C){Test t;Attribute a;t = C->CondTest;a = t->Tested;switch ( t->NodeType ){case BrDiscr: /* prueba de un atrib discreto */case ThreshContin: /* prueba de un atrib continuo */return AttTestBits/REDUNDANCY + BranchBits[a];case BrSubset: /* prueba de un subconj de atrib discretos */}}return AttTestBits/REDUNDANCY + MaxAttVal[a];/*************************************************************************//* *//* Guarda el conjunto de reglas en el archivo de reglas según el orden *//* del índice *//* *//*************************************************************************/void TDMC45::SaveRules(){short ri, d, v, Bytes;RuleNo r;Test Tst;strcpy(Fn, FileName.c_str());strcat(Fn, ".rules");if ( ! ( TRf = fopen(Fn, "w") ) ){FReglasForks, sizeof(short));StreamOut((char *) &Tst->Cut, sizeof(float));if ( Tst->NodeType == BrSubset ){Bytes = (MaxAttVal[Tst->Tested]>>3) + 1;ForEach(v, 1, Tst->Forks)316 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}{StreamOut((char *) Tst->Subset[v], Bytes);}}StreamOut((char *) &Rule[r].Lhs[d]->TestValue, sizeof(short));}StreamOut((char *) &Rule[r].Rhs, sizeof(ClassNo));StreamOut((char *) &Rule[r].Error, sizeof(float));}SaveDiscreteNames();/*************************************************************************//* *//* Obtiene un nuevo conj de reglas del archivo de reglas *//* *//*************************************************************************/void TDMC45::GetRules(){RuleNo nr, r;short n, d, v, Bytes;Condition *Cond;Test Tst;ClassNo c;float e;if ( TRf ) fclose(TRf);strcpy(Fn, FileName.c_str());strcat(Fn, ".rules");if ( ! ( TRf = fopen(Fn, "r") ) ){FReglasTested, sizeof(Attribute));StreamIn((char *) &Tst->Forks, sizeof(short));StreamIn((char *) &Tst->Cut, sizeof(float));if ( Tst->NodeType == BrSubset ){Tst->Subset = (Conjunto *) calloc(Tst->Forks + 1, sizeof(Conjunto));}Bytes = (MaxAttVal[Tst->Tested]>>3) + 1;ForEach(v, 1, Tst->Forks){Tst->Subset[v] = (Conjunto) malloc(Bytes);StreamIn((char *) Tst->Subset[v], Bytes);}}Cond[d] = (Condition) malloc(sizeof(struct CondRec));Cond[d]->CondTest = FindTest(Tst);StreamIn((char *) &Cond[d]->TestValue, sizeof(short));}StreamIn((char *) &c, sizeof(ClassNo));StreamIn((char *) &e, sizeof(float));NewRule(Cond, n, c, e);free(Cond);}RecoverDiscreteNames();/*************************************************************************//* *//* Busca una prueba en el vector de pruebas, si no está allí, la agrega */Código Fuente Magdalena Servente 317

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* *//*************************************************************************/Test TDMC45::FindTest(Test Newtest){static short TestSpace=0;short i;ForEach(i, 1, NTests){if ( SameTest(Newtest, TestVec[i]) ){free(Newtest);return TestVec[i];}}NTests++;if ( NTests >= TestSpace ){TestSpace += 1000;if ( TestSpace > 1000 ){TestVec = (Test *) realloc(TestVec, TestSpace * sizeof(Test));}else{TestVec = (Test *) malloc(TestSpace * sizeof(Test));}}TestVec[NTests] = Newtest;}return TestVec[NTests];/*************************************************************************//* *//* Verifica si la prueba t1 es igual a la prueba t2 *//* *//*************************************************************************/bool TDMC45::SameTest(Test t1,Test t2){short i;if ( t1->NodeType != t2->NodeType ||t1->Tested != t2->Tested ){return false;}}switch ( t1->NodeType ){case BrDiscr: return true;case ThreshContin: return t1->Cut == t2->Cut;case BrSubset:}return true;ForEach(i, 1, t1->Forks){if ( t1->Subset[i] != t2->Subset[i] ){return false;}}/*************************************************************************//* *//* Limpia las variables para un nuevo conj de reglas *//* *//*************************************************************************/void TDMC45::InitialiseRules()/* ---------------- */{NRules = 0;Rule = 0;RuleSpace = 0;}318 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/*************************************************************************//* *//* Agrega una nueva regla, al conjunto de reglas actual. Actualiza *//* Rule[],NRules y,en caso de ser necesario,RuleSpace *//* *//*************************************************************************/bool TDMC45::NewRule(Condition Cond[],short NConds,ClassNo TargetClass,float Err){short d, r;/* Verificamos si la regla ya existe */ForEach(r, 1, NRules){if ( SameRule(r, Cond, NConds, TargetClass) ){Verbosity(1) printf("\tduplica la regla %d\n", r);/* Mantenemos el estimador de error más pesismista */if ( Err > Rule[r].Error ){Rule[r].Error = Err;}}}return false;/* Verificamos que haya suficiente espacio para una nueva regla */NRules++;if ( NRules >= RuleSpace ){RuleSpace += 100;if ( RuleSpace > 100 ){Rule = (PR *) realloc(Rule, RuleSpace * sizeof(PR));}else{Rule = (PR *) malloc(RuleSpace * sizeof(PR));}}/* Formamos la nueva regla */Rule[NRules].Size = NConds;Rule[NRules].Lhs = (Condition *) calloc(NConds+1, sizeof(Condition));ForEach(d, 1, NConds){Rule[NRules].Lhs[d] = (Condition) malloc(sizeof(struct CondRec));Rule[NRules].Lhs[d]->CondTest = Cond[d]->CondTest;Rule[NRules].Lhs[d]->TestValue = Cond[d]->TestValue;}Rule[NRules].Rhs = TargetClass;Rule[NRules].Error = Err;Verbosity(1) PrintRule(NRules);}return true;/*************************************************************************//* *//* Decide si la regla actual duplica la regla r *//* *//*************************************************************************/bool TDMC45::SameRule(RuleNo r,Condition Cond[],short NConds,ClassNo TargetClass){short d, i;Test SubTest1, SubTest2;Código Fuente Magdalena Servente 319

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteif ( Rule[r].Size != NConds || Rule[r].Rhs != TargetClass ){return false;}ForEach(d, 1, NConds){if ( Rule[r].Lhs[d]->CondTest->NodeType != Cond[d]->CondTest->NodeType ||Rule[r].Lhs[d]->CondTest->Tested != Cond[d]->CondTest->Tested ){return false;}switch ( Cond[d]->CondTest->NodeType ){case BrDiscr:if ( Rule[r].Lhs[d]->TestValue != Cond[d]->TestValue ){return false;}break;case ThreshContin:if ( Rule[r].Lhs[d]->CondTest->Cut != Cond[d]->CondTest->Cut ){return false;}break;}}case BrSubset:SubTest1 = Rule[r].Lhs[d]->CondTest;SubTest2 = Cond[d]->CondTest;ForEach(i, 1, SubTest1->Forks){if ( SubTest1->Subset[i] != SubTest2->Subset[i] ){return false;}}}return true;/*************************************************************************//* *//* Imprime el conjunto indexado de reglas actual *//* *//*************************************************************************/void TDMC45::PrintIndexedRules(){short ri;}ForEach(ri, 1, NRules ){PrintRule(RuleIndex[ri]);}printf("\nClase por defecto: %s\n", ClassName[DefaultClass]);/*************************************************************************//* *//* Imprime la regla r *//* *//*************************************************************************/void TDMC45::PrintRule(RuleNo r){short d;printf("\nRegla %d:\n", r);ForEach(d, 1, Rule[r].Size){printf(" ");PrintCondition(Rule[r].Lhs[d]);}printf("\t-> clase %s [%.1f%%]\n",320 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}ClassName[Rule[r].Rhs], 100 * (1 - Rule[r].Error));/*************************************************************************//* *//* Imprime la condición c de una regla de producción *//* *//*************************************************************************/void TDMC45::PrintCondition(Condition c){Test tp;DiscrValue v, pv, Last, Values=0;Boolean First=true;Attribute Att;tp = c->CondTest;v = c->TestValue;Att = tp->Tested;printf("\t%s", AttName[Att]);if ( v < 0 ){printf(" es desconocido\n");return;}switch ( tp->NodeType ){case BrDiscr:printf(" = %s\n", AttValName[Att][v]);break;case ThreshContin:printf(" %s %g\n", ( v == 1 ? "" ), tp->Cut);break;case BrSubset:/* Contamos los valores en la rama */for ( pv=1 ; Values Subset[v]) ){if ( First ){printf("{");First = false;}else{printf(", ");}printf("%s", AttValName[Att][pv]);}}printf("}\n");/*************************************************************************/Código Fuente Magdalena Servente 321

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* *//* Poda la regla dadas las condiciones Cond, y el nro de condiciones *//* NCond, y agrega la regla resultante al actual conjunto de reglas *//* si es lo suficientemente precisa *//* *//*************************************************************************/void TDMC45::PruneRule(Condition Cond[],short NCond,ClassNo TargetClass){short d, dd, id, Bestd, Bestid, Remaining=NCond;float DefaultError, Extra;Boolean Alter;Condition Hold;ItemNo i;ForEach(d, 0, NCond){Deleted[d] = false;}/* Evaluamos la matriz de satisfacción */TargetClassFreq[0] = TargetClassFreq[1] = 0;ForEach(i, 0, MaxItem){ForEach(d, 1, NCond){CondSatisfiedBy[d][i] = Satisfies(Item[i], Cond[d]);}TargetClassFreq[IsTarget(Item[i])]++;}DefaultError = 1.0 - (TargetClassFreq[true] + 1.0) / (MaxItem + 3.0);/* Buscamos las condiciones a eliminar */Verbosity(1){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteFReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}return;if ( Pessimistic[0] >= DefaultError ){Verbosity(1){FReglasTestValue;ForEach(d, 1, NCond){if ( Deleted[d] || d == R ) continue;t = Cond[d]->CondTest;vv = Cond[d]->TestValue;if ( t->Tested != Rt->Tested ) continue;switch ( t->NodeType ){case BrDiscr: /* prueba sobre un atrib discreto */return false;case ThreshContin: /* prueba sobre un atrib contínuo */if ( vv == v &&( v == 1 ? t->Cut < Rt->Cut : t->Cut > Rt->Cut ) ){return true;324 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}}break;case BrSubset: /* sprueba sobre un subconjunto de atrib discretos */if ( IsSubset(t->Subset[vv], Rt->Subset[v], Rt->Tested) ){return true;}}return false;/*************************************************************************//* *//* Decide si el subconj de valores S1 está contenido en S2 *//* *//*************************************************************************/bool TDMC45::IsSubset(Conjunto S1,Conjunto S2,Attribute Att){DiscrValue v;ForEach(v, 1, MaxAttVal[Att]){if ( In(v, S1) && ! In(v, S2) ) return false;}}return true;/*************************************************************************//* *//* Busca las tablas de distribución de frecuencias para la condiciones *//* actuales: *//* *//* Total[0] = items q satisfacen todas las condiciones *//* Total[d] = items q satisfacen todas las condiciones menos d *//* *//* Errors[0] = items de clase errónea q satisfacen todas las cond *//* Errors[d] = items de clase errónea q satisfacen todas las cond *//* menos d *//* *//*************************************************************************/void TDMC45::FindTables(short NCond,ClassNo TargetClass){ItemNo i;short Misses, Missed[2], d;Boolean CorrectClass;/* Limpiamos las distribuciones */ForEach(d, 0, NCond){Total[d] = Errors[d] = 0;}/* Determinamos las distribuciones */ForEach(i, 0, MaxItem){Misses = 0;CorrectClass = IsTarget(Item[i]);for ( d = 1 ; d

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}{UpdateCount(Total, Errors, 0, CorrectClass);}elseif ( Misses == 1 ){UpdateCount(Total, Errors, Missed[0], CorrectClass);}/* Ajustamos las cuentas para reflejar todos los casos q satisfacentodas las condiciones */}ForEach(d, 1, NCond){if ( ! Deleted[d] ){Total[d] += Total[0];Errors[d] += Errors[0];}}/*************************************************************************//* *//* Incrementa los valores de Total[d] y Errors[d] *//* *//*************************************************************************/void TDMC45::UpdateCount(ItemNo T[],ItemNo E[],short d,bool OK){T[d]++;if ( ! OK ) E[d]++;}/*************************************************************************//* *//* Determina si la descripción de un caso satisface la cond dada *//* *//*************************************************************************/bool TDMC45::Satisfies(Description CaseDesc,Condition OneCond){DiscrValue v;float cv;Test t;short s;bool Outcome;t = OneCond->CondTest;/* Determina el resultado de la prueba sobre el item actual */switch ( t->NodeType ){case BrDiscr: /* prueba sobre un atrib discreto */v = DVal(CaseDesc, t->Tested);Outcome = ( v == 0 ? -1 : v );break;case ThreshContin: /* prueba sobre un atrib contínuo */cv = CVal(CaseDesc, t->Tested);Outcome = ( cv == Unknown ? -1 : cv Cut ? 1 : 2 );break;case BrSubset: /* prueba sobre un subconj de atrib discretos */v = DVal(CaseDesc, t->Tested);Outcome = -1;ForEach(s, 1, t->Forks){if ( In(v, t->Subset[s]) ){Outcome = s;break;}}326 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}}return ( Outcome == OneCond->TestValue );/*************************************************************************//* *//* Distribución hipergeometrica (usa los log de los factoriales *//* tabulados) *//* *//*************************************************************************/double TDMC45::Hypergeom(int a,int r,int A,int B){return exp( LogFact[A] + LogFact[B] + LogFact[r] + LogFact[A+B-r] -( LogFact[a] + LogFact[r-a] + LogFact[A-a]+ LogFact[B-(r-a)] + LogFact[A+B]) );}/*************************************************************************//* *//* TableProb examina la tabla t de contingencias de 2x2 y calcula la *//* probabilidad de que una división al azar pueda producir una división *//* al menos tan extrema como esta. Esto también se conoce como la *//* "Prueba Exacta de Fisher" *//* *//*************************************************************************/float TDMC45::TableProb(int t11,int t12,int t21,int t22){double Sum=0.0;int A, B, r, a, k, a0;/* Primero, llevamos la tabla a la forma canónica */if ( t11 + t12 > t21 + t22 ){A = t11 + t12;B = t21 + t22;if ( t11 * (t21 + t22) > t21 * (t11 + t12) ){a0 = t11;r = t11 + t21;}else{a0 = t12;r = t12 + t22;}}else{A = t21 + t22;B = t11 + t12;if ( t21 * (t11 + t12) > t11 * (t21 + t22) ){a0 = t21;r = t21 + t11;}else{a0 = t22;r = t22 + t12;}}/* Ahora calculamos la probabilidad */k = Min(r, A);ForEach(a, a0, k){Sum += Hypergeom(a, r, A, B);}}return Sum;/*************************************************************************/Código Fuente Magdalena Servente 327

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente/* *//* Evalúa todos los conj de reglas *//* *//*************************************************************************/void TDMC45::EvaluateRulesets(bool DeleteRules){short t;ItemNo *Errors;float AvSize=0, AvErrs=0;Boolean Final;if ( TRIALS == 1 ){/* Evaluamos el conj de reglas actual como si no existiera un conjcompuesto de reglas */}Interpret(0, MaxItem, DeleteRules, true, true);return;Errors = (ItemNo *) malloc((TRIALS+1) * sizeof(ItemNo));ForEach(t, 0, TRIALS){NRules = PRSet[t].SNRules;Rule = PRSet[t].SRule;RuleIndex = PRSet[t].SRuleIndex;DefaultClass = PRSet[t].SDefaultClass;if ( t < TRIALS ){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligenteelse{AssignedClass = DefaultClass;}if ( CMInfo ){ConfusionMat[Class(Item[i])*(MaxClass+1)+AssignedClass]++;}Tested++;if ( AssignedClass != Class(Item[i]) ){Errors++;if ( FoundRule ) Rule[Bestr].Incorrect++;Verbosity(3){FReglas

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteForEach(ri, 1, NRules){p = RuleIndex[ri];if ( Rule[p].Used > 0 ){ErrorRate = Rule[p].Incorrect / (float) Rule[p].Used;FReglas

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente}return Errors;/*************************************************************************//* *//* Busca la mejor regla para el caso dado, dejando la probabilidad *//* en Confidence *//* *//*************************************************************************/RuleNo TDMC45::BestRuleIndex(Description CaseDesc,RuleNo Start){RuleNo r, ri;ForEach(ri, Start, NRules){r = RuleIndex[ri];Confidence = Fuerza(Rule[r], CaseDesc);}if ( Confidence > 0.1 ){return ri;}}Confidence = 0.0;return 0;D.5. MÓDULOS DE CLASES DE DATOSD.5.1. UTiposD.5.1.1. UTipos.h//---------------------------------------------------------------------------#ifndef UTiposH#define UTiposH//---------------------------------------------------------------------------//Definición de constantes#define LONG_CLASSIFIER 3 /*Longitud del campo del clasificador*/#define MAX_CANT_DESCRIPTORES 20 /*Cantidad máxima de descriptores que puedehaber en la tabla*/#define MAX_CANT_CLASIFICADORES 10 /*Cantidad máxima de valores distintos quepuede haber para el clasificador*/#define MAX_HIJOS 20 /*Máxima de cantidad de hijos que puede tener un nodo delárbol*/#define MAX_NIVELES 200#define MAX_CHAR 100//---------------------------------------------------------------------------//---------------------------------------------------------------------------// DECLARACION DE TIPOS//---------------------------------------------------------------------------//---------------------------------------------------------------------------//Tabla de correlación//*****************EL TAMAÑO DE LA TABLA DEBERÍA SER DINÁMICOtypedef double TTablaCorrel[MAX_CANT_DESCRIPTORES+1][MAX_CANT_CLASIFICADORES+1];typedef struct tree_node *tree_ptr;struct tree_node {short int flag_hoja; /* 0 si es hoja y todos los valores son "Yes"1 si es hoja y todos los valores son "No"2 si es hoja y sus valores son mixtos3 si no es hoja*/int desc;332 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentetree_ptr pHijos[MAX_HIJOS]; //hijo derechoshort int D[MAX_CANT_DESCRIPTORES];/*Descriptores válidos para el nodo*/};typedef tree_ptr DECISION_TREE;typedef AnsiString TVecValores [MAX_NIVELES];typedef AnsiString TTablaValores [MAX_NIVELES][MAX_NIVELES];typedef char TRule [MAX_CHAR];typedef int TVecInt [MAX_NIVELES];class TParametros {public:AnsiString ArchivoIni;AnsiString NombreBD;AnsiString TablaBD;AnsiString TablaReglas;AnsiString ColClasificador;AnsiString ExtensionFileReglas;TStringList *LClasificadores;int iFormatoReglas; /* 0: Insight2+1: KappaPC2: ambos3: ninguno*/int iSistema; /* 0: ID31: C4.5 */int iCriterio; /* 0: Ganancia1: Proporción de ganancia */int iPoda;/* 0: Si1: No */int iConjuntos; /* indica si las pruebas en el C4.5 serealizan sobre grupos de atrib discretos0: Si1: No */int iMinObjs; /* Cantidad mínima de objetos que debe teneruna rama en el C4.5 */int iCF;/* Nivel de confianza para la poda en elC4.5 */TParametros(AnsiString ArchIni); //constructor//Toma los parámetros del archivo .ini~TParametros(); //destructor//Refresca los parámetros a partir del archivo .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/int RefrescarParams();//Guardar los parámetros en el .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/int GrabarParams();};//---------------------------------------------------------------------------#endifD.5.1.2. UTipos.cpp//---------------------------------------------------------------------------#include #pragma hdrstop#include "UTipos.h"//---------------------------------------------------------------------------#pragma package(smart_init)//---------------------------------------------------------------------------//---------------------------------------------------------------------------// IMPLEMENTACIÓN DE LA CLASE TParametros//---------------------------------------------------------------------------Código Fuente Magdalena Servente 333

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente//---------------------------------------------------------------------------TParametros::TParametros(AnsiString ArchIni) //constructor//Toma los parámetros del archivo .ini{int i;char Buffer[80];ArchivoIni=ArchIni;LClasificadores = new TStringList();//Cargamos las opciones por default del archivo .ini//Cargamos los datos asociados con los clasificadoresGetPrivateProfileString("Clasificadores", "ColClasif", "???", Buffer, sizeofBuffer, ArchivoIni.c_str());if (Buffer!="???")ColClasificador=Trim(Buffer);GetPrivateProfileString("Clasificadores", "lClasif", "???", Buffer, sizeofBuffer, ArchivoIni.c_str());if (Buffer!="???"){LClasificadores->Add(AnsiString(strtok(Buffer, ",")));i=0;while (Trim(LClasificadores->Strings[i])!=""){LClasificadores->Add(AnsiString(strtok(NULL, ",")));i++;}LClasificadores->Delete(i);}//Cargamos los datos relacionados con la Base de DatosGetPrivateProfileString("BaseDeDatos", "Tabla", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")TablaBD=Trim(Buffer);GetPrivateProfileString("BaseDeDatos", "Alias", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")NombreBD=Trim(Buffer);//Cargamos los datos asociados con las reglas de decisiónGetPrivateProfileString("Reglas", "Extension", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")ExtensionFileReglas=Trim(Buffer);GetPrivateProfileString("Reglas", "Formato", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iFormatoReglas=StrToInt(Trim(Buffer));//Cargamos los datos asociados con el sistema de resolución y sus opcionesGetPrivateProfileString("Resolucion", "Sistema", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iSistema=StrToInt(Trim(Buffer));GetPrivateProfileString("Resolucion", "Criterio", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iCriterio=StrToInt(Trim(Buffer));GetPrivateProfileString("Resolucion", "Poda", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iPoda=StrToInt(Trim(Buffer));//Cargamos los datos asociados con el C4.5GetPrivateProfileString("C45", "Conjuntos", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")334 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteiConjuntos=StrToInt(Trim(Buffer));GetPrivateProfileString("C45", "MinObjs", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iMinObjs=StrToInt(Trim(Buffer));GetPrivateProfileString("C45", "CF", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iCF=StrToInt(Trim(Buffer));}//---------------------------------------------------------------------------TParametros::~TParametros() //destructor{ArchivoIni.~AnsiString();NombreBD.~AnsiString();TablaBD.~AnsiString();TablaReglas.~AnsiString();ColClasificador.~AnsiString();ExtensionFileReglas.~AnsiString();delete LClasificadores;}//---------------------------------------------------------------------------int TParametros::RefrescarParams()//Refresca los parámetros a partir del archivo .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/{int i;char Buffer[80];try {LClasificadores = new TStringList();//Cargamos las opciones por default del archivo .ini//Cargamos los datos asociados con los clasificadoresGetPrivateProfileString("Clasificadores", "ColClasif", "???", Buffer, sizeofBuffer, ArchivoIni.c_str());if (Buffer!="???")ColClasificador=Trim(Buffer);GetPrivateProfileString("Clasificadores", "lClasif", "???", Buffer, sizeofBuffer, ArchivoIni.c_str());if (Buffer!="???"){LClasificadores->Add(AnsiString(strtok(Buffer, ",")));i=0;while (Trim(LClasificadores->Strings[i])!=""){LClasificadores->Add(AnsiString(strtok(NULL, ",")));i++;}LClasificadores->Delete(i);}//Cargamos los datos relacionados con la Base de DatosGetPrivateProfileString("BaseDeDatos", "Tabla", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")TablaBD=Trim(Buffer);GetPrivateProfileString("BaseDeDatos", "Alias", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")NombreBD=Trim(Buffer);//Cargamos los datos asociados con las reglas de decisiónGetPrivateProfileString("Reglas", "Extension", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")ExtensionFileReglas=Trim(Buffer);Código Fuente Magdalena Servente 335

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteGetPrivateProfileString("Reglas", "Formato", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iFormatoReglas=StrToInt(Trim(Buffer));//Cargamos los datos asociados con el sistema de resolución y sus opcionesGetPrivateProfileString("Resolucion", "Sistema", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iSistema=StrToInt(Trim(Buffer));GetPrivateProfileString("Resolucion", "Criterio", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iCriterio=StrToInt(Trim(Buffer));GetPrivateProfileString("Resolucion", "Poda", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iPoda=StrToInt(Trim(Buffer));//Cargamos los datos asociados con el C4.5GetPrivateProfileString("C45", "Conjuntos", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iConjuntos=StrToInt(Trim(Buffer));GetPrivateProfileString("C45", "MinObjs", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iMinObjs=StrToInt(Trim(Buffer));GetPrivateProfileString("C45", "CF", "???", Buffer, sizeof Buffer,ArchivoIni.c_str());if (Buffer!="???")iCF=StrToInt(Trim(Buffer));return(0);}catch(...) {return(-1);}}//---------------------------------------------------------------------------int TParametros::GrabarParams()//Guardar los parámetros en el .ini/*Devuelve 0 si no hubo problemas,-1 en caso contrario*/{AnsiString lista;int index;try {//Actualizamos el archivo de inicioWritePrivateProfileString("Clasificadores","ColClasif",ColClasificador.c_str(), ArchivoIni.c_str());WritePrivateProfileString("BaseDeDatos", "Alias", NombreBD.c_str(),ArchivoIni.c_str());WritePrivateProfileString("BaseDeDatos", "Tabla", TablaBD.c_str(),ArchivoIni.c_str());WritePrivateProfileString("Reglas", "Extension", ExtensionFileReglas.c_str(),ArchivoIni.c_str());//Clasificadoreslista= "";index=0;while (indexCount){AppendStr(lista, LClasificadores->Strings[index]);AppendStr(lista, ", ");index++;}336 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteWritePrivateProfileString("Clasificadores", "lClasif", lista.c_str(),ArchivoIni.c_str());//Formato de las reglaslista=IntToStr(iFormatoReglas);WritePrivateProfileString("Reglas", "Formato", lista.c_str(),ArchivoIni.c_str());//Sistema de resoluciónlista=IntToStr(iSistema);WritePrivateProfileString("Resolucion", "Sistema", lista.c_str(),ArchivoIni.c_str());lista=IntToStr(iCriterio);WritePrivateProfileString("Resolucion", "Criterio", lista.c_str(),ArchivoIni.c_str());lista=IntToStr(iPoda);WritePrivateProfileString("Resolucion", "Poda", lista.c_str(),ArchivoIni.c_str());//C4.5lista=IntToStr(iConjuntos);WritePrivateProfileString("C45", "Conjuntos", lista.c_str(),ArchivoIni.c_str());lista=IntToStr(iMinObjs);WritePrivateProfileString("C45", "MinObjs", lista.c_str(), ArchivoIni.c_str());lista=IntToStr(iCF);WritePrivateProfileString("C45", "CF", lista.c_str(), ArchivoIni.c_str());lista.~AnsiString();return(0);}catch(...) {lista.~AnsiString();return(-1);}}//---------------------------------------------------------------------------//---------------------------------------------------------------------------// FIN DE LA CLASE TParametros//---------------------------------------------------------------------------//---------------------------------------------------------------------------D.5.2. Types.h/*************************************************************************//* *//* Definiciones de tipos para C4.5 *//* ------------------------------- *//* *//*************************************************************************/typedef char *Conjunto;typedef int ItemNo; /* nro de data item */typedef float ItemCount; /* cant de items (parciales) */typedef short ClassNo, /* nro de clase, 0..MaxClass */DiscrValue; /* valor discreto del atributo (0 = ?) */typedef short Attribute; /* nro de atributo, 0..MaxAtt */typedef union _attribute_value{DiscrValue _discr_val;float _cont_val;}AttValue, *Description;#define CVal(Case,Attribute) Case[Attribute]._cont_val#define DVal(Case,Attribute) Case[Attribute]._discr_val#define Class(Case)Case[MaxAtt+1]._discr_valCódigo Fuente Magdalena Servente 337

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente#define Unknown -999 /* valor desconocido para un atrib continuo */#define BrDiscr 1 /* tipos de nodo: rama */#define ThreshContin 2 /* límite de corte */#define BrSubset 3 /* prueba de subconjuntos*/typedef struct tree_record *Tree;struct tree_record{short NodeType; /* 0=hoja 1=rama 2=corte 3=subconj */ClassNo Leaf; /* clase más frecuente del nodo */ItemCount Items, /* nro de items en el nodo */*ClassDist, /* distrib de clase de los items */Errors; /* nro de errores en el nodo */Attribute Tested; /* atribute referenciado en la prueba */short Forks; /* nro de ramas en el nodo */float Cut, /* límite para los atrib continuos */Lower, /* límite inferior del valor límite */Upper; /* límite superior del valor límite */Conjunto *Subset; /* subconj de valores discretos */Tree *Branch; /* Branch[x] = (sub)árbol para el resultado x */};typedef Tree DECISION_TREE_C45;#define IGNORAR 1 /* estado especial de un atrib: no utilizar */#define DISCRETE 2 /* estado especial de un atrib: incorporar losvalores a medida que se leen los datos */typedef short RuleNo; /* nro de regla */typedef struct TestRec *Test;struct TestRec{short NodeType; /* tipo de prueba */Attribute Tested; /* atributo testeado */short Forks; /* ramas posibles */float Cut; /* valor límite (si es relevante) */Conjunto *Subset; /* subconjunto (si es relevante) */};typedef struct CondRec *Condition;struct CondRec{Test CondTest; /* antecedente de la prueba */short TestValue; /* resultado de la prueba */};typedef struct ProdRuleRec PR;struct ProdRuleRec{short Size; /* nro de condiciones */Condition *Lhs; /* condiciones */ClassNo Rhs; /* clase resultante de la regla */float Error, /* proporción estimada de error */Bits; /* bits para codificar la regla */ItemNo Used, /* cant de veces en q se uso la regla */Incorrect; /* cant de veces en q la regla fueincorrecta */};typedef struct RuleSetRec RuleSet;struct RuleSetRec{PR *SRule; /* reglas */RuleNo SNRules, /* cant de reglas */338 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente};*SRuleIndex; /* indice de reglas */ClassNo SDefaultClass; /* clase por defecto */D.5.3. Defns.h/*************************************************************************//* *//* Definiciones utilizadas en el C4.5 *//* ---------------------------------- *//* *//*************************************************************************/#include #include #define None -1#define Epsilon 1E-3long random();#define Random ((random()&2147483647) / 2147483648.0)#define Max(a,b) ((a)>(b) ? a : b)#define Min(a,b) ((a)> 3] |= Bit((b) & 07))#define ForEach(v,f,l)for(v=f ; v= d)#define Check(v,l,h)if ( vh ) {printf("\t** valor inválido **\n"); exit(1);}D.5.4. Rulex.h/*************************************************************************//* *//* Datos globales para la construcción y aplicación de las reglas *//* -------------------------------------------------------------- *//* *//*************************************************************************/#define Before(n1,n2) (n1->Tested < n2->Tested || n1->NodeType < n2->NodeType ||n1->Tested == n2->Tested && n1->Cut < n2->Cut)#define IsTarget(case) (Class(case) == TargetClass ? 1 : 0)extern PR *Rule; /* reglas de producción */extern RuleNo NRules, /* nro de relgas de producción */*RuleIndex; /* índeice de las relgas de producción */extern short RuleSpace; /* espacio reservado para las relgas */extern RuleSet *PRSet; /* conjuntos de reglas */extern ClassNo DefaultClass;extern Boolean SIGTEST,/* clase por defecto asociada con unconj de reglas *//* utilizar la prueba de Fisher en laCódigo Fuente Magdalena Servente 339

Algoritmos TDIDT aplicados a la Minería de Datos Inteligentepoda de reglas */SIMANNEAL; /* usar simulated annealing */extern float SIGTHRESH, /* nivel de sig usado en la poda de relgas */REDUNDANCY, /* factor que regula la codificaciónentre reglas y excepciones */AttTestBits, /* bits promedio necesarios paracodificar un atributo testeado */*BranchBits; /* idem para el valor del atributo */extern float *LogItemNo; /* LogItemNo[i] = log2(i) */extern double *LogFact; /* LogFact[i] = log2(i!) */340 Magdalena Servente Código Fuente

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteREFERENCIAS[Babic et al, 1998] Babic, A., Mathiesen, U., Hedin, K., Bodemar, G., Wigertz, O. 1998.Assessing an AI Knowledge-Base for Asymptomatic Liver Diseases.Department of Medical Informatics, Department of Internal Diseases,Department of Infectious Diseases, Linköping University Hospital,Suecia. Faculty of Electrical and Computer Engineering, University ofLjubljana, Eslovenia. Department of Internal Diseases, OskarshamnCounty Hospital, Suecia.[Baldwin et al, 2000]Baldwin, J.F., Lawry, J., Martin, T.P. 2000 Mass AssignmentInduction of Decision Trees on Words. A.I. Group, Departament ofEngineering Mathematics, University of Bristol, Reino Unido,{jim.baldwin, j.lawry, trevor.martin}@bristol.ac.uk[Bergadano et al, 1992] Bergadano, F., Matwin, S. Michalski, R. S., Zhang, J. (1992)Learning Two-TieredDescriptions of flexible Concepts: thePOSEIDON System. En Machine Learning, Volumen 8, páginas 5-43,DBLP, www.dblp.uni-tier.de, Dinamarca.[Blockeel y De Raedt, 1997][Blum, Langley, 1997][Blurock, 1996][Cabena et al, 2000][Callahan, B., Coombs, 1998][Chen, 1994]Blockeel, H., De Raedt, L., 1997 Top-Down Induction of LogicalDecision Trees. Katholieke Universiteit Leuven, Departament ofComputer Science, Celestijnelaan, BélgicaBlum, A., Langley, P. 1997 Selection of Relevant Features andExamples in Machine Learning. School of Computer Science,Carnegie Mellon University, Pittisburgh, Pennsylvania, Institute forthe Study of Learning and Expertise, Palo Alto, California, EE.UU.Edward S. Blurock, 1996 The ID3 Algorithm, Research Institute forSymbolic Computation, www.risc.unilinz.ac.at/people/bulrock/ANALYSIS/manual/document,AustriaCabena, P., Choi, H.H., Kim, S., Otsuka, S., Reinschmidt, J.,Saarenvirta, G. 2000. Intelligent Miner for Data Applications Guide,International Technical Support Organization, IBM,http://www.redbooks.ibm.comCallahan, B., Coombs, J. 1998 Training Decision Trees with ID3,http://www.css.tayloru.edu/~jcoombs/proj/ml/id3.htmChen, H. 1994. Machine Learning for Information Retrieval: NeuralNetworks, Symbolic Learning, and Genetic Algorithms. JASIS,http://ai.bpa.arizona.edu/papers/mlir93/mlir93.html[Davidsson, 1995] Davidsson, P. 1995. ID3-SD: An Algortithm for LearningCharacteristic Decision Trees by Controlling the Degree ofGeneralization. Departament of Computer Science, Lund University,Suecia[DeJong, Mooney, 1986][Elomaa, 1993][Espasa-Calpe, 1974]DeJong, G.F., Mooney, R.J. 1986. Explanation-Based Learning. AnAlternative View, en Machine Learning, Volumen 1, páginas 145-176.Kluwer Academic PublishingElomaa, T. 1993. In Defense of C4.5: Notes on Learning One-LevelDecision Trees. Departament of Computer Science, University ofHelsinki, Finlandia1974 Diccionario Enciclopédico Abreviado. Espasa-Calpe S.A.,Madrid. Tomo I, Séptima Edición, España.[Fayad et al, 1996] Fayad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R.(eds). 1996 Advances in Knowledge Discovery and Data Mining, SanMateo, AAAI Press, EE.UU.[Fjara, 2000] Fjara, 2000. A Decision Tree Algorithm.www.cs.uml.edu/~fjara/mineset/id3/id3_example/id3_algoritm.html[Frank y Witten, 1999][Gallion et al, 1993]Frank, E. , Witten, I.H. 1999. Making Better Use of GlobalDiscretization, Proceedings 16 th International Conference on MachineLearning, páginas 115-123. Departament of Computer Science,University of Waikato, Nueva ZelandaGallion, R., St Clair, D., Sabharwal, C., Bond, W.E. 1993. DynamicID3: A Symbolic Learning Algorithm for Many-Valued AttributeReferencias Magdalena Servente 341

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteDomains. Engineering Education Center, University of Missouri-Rolla, St. Luis, EE.UU.[García Martínez et al, 1987] García Martínez, R., Frítz, W., y Blanqué, J. 1987. Un algoritmo deaprendizaje de conceptos para sistemas inteligentes. Anales del VCongreso Nacional de Informática y Teleinformática. Páginas 91-96.Buenos Aires. Junio. Argentina[García Martínez, 1994] García Martínez, R. 1994. Adquisición de Conocimiento. EnAbecasis, S. y Heras, C. Metodología de la Investigación. Prologadopor el Dr. L. Santaló. Editorial Nueva Librería. Argentina[García Martínez, 1997] García Martínez, R. 1997 Sistemas Autónomos: AprendizajeAutomático. Nueva Librería, Buenos Aires, Argentina[Gestwicki, 1997]Gestwicki, P. 1997 ID3: History, Implementation, and Applications,citeseer.nj.nec.com/398697.html[Grossman et al, 1999]Grossman, R., Kasif, S., Moore, R., Rocke, D., Ullman, J. 1999. DataMining Research: Opportunities and Challenges, A Report of threeNSF Workshops on Mining Large, Massive, and Distributed Data,January 1999, Chicago, EE.UU.[Hall, 1998] Hall, P.W. 1998. Machine Learning – ID3 Classification.Philipv@apk.net, http://junior.apk.net/~philiv/rschmlid.htm[Holsheimer, Siebes, 1994] Holsheimer, M., Siebes, A.P.J.M. 1994. Data Mining: the search forknowledge in databases. Computer Science/Departament ofAlgorithmics and Architectire, Centrum voor Wiskunde enInformatica, CS-R9406, Amsterdam, Holanda.[Holte, 1993]Holte, R.1993. Very Simple Classification Rules Perform Well onMost Commonly Used Datasets. Computer Science Departament,University of Ottawa, Canada.[Hunt et al, 1966]Hunt, E.B., Marin, J., Stone, P.J. 1966. Experiments in Induction.New York: Academic Press, EE.UU.[Hunt, 1975]Hunt, E.B. 1975. Artificial Intelligence. New York: Academic Press,EE.UU.[Joachims et al, 1995]Joachims, T., Freitag, D., Mitchell, T. 1997 Web Watcher: A TourGuide for the World Wide Web, School of Computer Science,Carnegie Mellon University, EE.UU.[Joachims et al, 1997]Joachims, T., Mitchell, T., Freitag, D., Armstrong, R. 1995. WebWatcher: Machine Learning and Hypertext, School of ComputerScience, Carnegie Mellon University, EE.UU.[Joshi, 1997] Joshi, K.P. 1997. Analysis of Data Mining Algorithms,http://userpages.umbc.edu/~kjoshi1/data-mine/proj_rpt.htm[Kerns, Mansour, 1996] Kearns, M., Mansour, Y. 1996. On the Boosting Ability of Top-DownDecision Tree Learning Algorithms, AT&T Research, Tel-AvivUniversity, Israel.[Klemettinen et al, 1994] Klemettinen, M., Mannila, H., Ronkainen, P., Toivonen, H., Verkamo,A. 1994. Finding Interesting Rules from Large Sets of DiscoveredAssociation Rules, University of Helsinki, Department of ComputerScience, Helsinki, Finlandia.[Korab, 1997]Korab, H. 1997. Rule Induction: Decision Trees and Rules,http://www.ncsa.uiuc.edu/News/Access/Stories/97Stories/KUFRIN.html[Mannila et al, 1994]Mannila, H., Toivonen, H., Verkamo, A. 1994. Efficient Algorithmsfor Discovering Association Rules, University of Helsinki, Departmentof Computer Science, Helsinki, Finlandia.[Michalski et al, 1998]Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning andData Mining. Methods and Applications. Wiley & Sons Ltd., EE.UU.[Michalski et al, 1982]Michalski, R. S., Baskin, A. B., Spackman, K. A. 1982. A Logic-Based Approach to Conceptual Database Analysis, Sixth AnnualSymposium on Computer Applications on Medical Care, GeorgeWashington University, Medical Center, Washington, DC, EE.UU.[Michalski, 1983]Michalski, R. S. 1983. A Theory and Methodology of InductiveLearning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M. (eds.).(1983) Machine Learning: An Artificial Intelligence Approach, Vol. I.342 Magdalena Servente Referencias

Algoritmos TDIDT aplicados a la Minería de Datos InteligenteMorgan-Kauffman, EE.UU.[Michalski, 1991][Michalski, Tecuci, 1994][Michie, 1986][Michie, 1998][Mitchell, 1997]Michalski, R. S. 1991. Towards an Unified Theory of Learning: AnOutline of Basic Ideas, Proceedings of the 3rd World Conference onthe Fundamentals of Artificial Intelligence, Paris, Julio 1-5, 1991Michalski, R. S., Tecuci, G. (eds) 1994. Machine Learning: AMultistrategy Approach, Vol.IV, Morgan Kauffinan, EE.UU.Michie, D. 1986. On Machine Intelligence (2 nd ed), Ellis Horwood,Chichester, Reino UnidoMichie, D. 1988 Machine Learning in the next five years, EWSL-88,3rd European Working Session on Leaming, Pitman, Glasgow,Londres, Reino Unido.Mitchell, T. 1997. Machine Learning. MCB/McGraw-Hill, CarnegieMellon University, EE.UU.[Mitchell, 2000a] Mitchell, T. 2000 Decision Trees. Cornell University,www.cs.cornell.edu/courses/c5478/2000SP, EE.UU.[Mitchell, 2000b] Mitchell, T. 2000 Decision Trees 2. Cornell University,www.cs.cornell.edu/courses/c5478/2000SP, EE.UU.[Montalvetti, 1995][Monter, 2001][Quinlan y Cameron-Jones, 1995][Quinlan, 1986][Quinlan, 1987][Quinlan, 1988b][Quinlan, 1989][Quinlan, 1990]Montalvetti, Mario 1995. Sistemas de adquisición automática deconocimientos, Tesis de grado en Ingeniería en Computación.Universidad Católica de Santiago del Estero, Argentina.Monter, C. 2001. Equiparación de Marcos. Notas de Seminario.Escuela de Posgrado, Instituto Tecnológico de Buenos Aires,ArgentinaQuinlan, J.R., Cameron-Jones, R.M. 1995. Oversearching andLayered Search in Empirical Learning. Basser Departament ofComputer Science, University of Science, Australia.Quinlan, J.R. 1986. Induction of Decision Trees. En MachineLearning, Capítulo 1, p.81-106. Morgan Kaufmann, 1990Quinlan, J.R. 1987. Generating Production Rules from Decision trees.Proceeding of the Tenth International Joint Conference on ArtificialIntelligence, páginas. 304-307. San Mateo, CA., Morgan Kaufmann,EE.UU.Quinlan, J.R. 1988. Decision trees and multi-valued attributes. EnJ.E. Hayes, D. Michie, and J. Richards (eds.), Machine Intelligence,Volumen II, páginas. 305-318.Oxford University Press, Oxford, ReinoUnidoQuinlan, J.R. 1989. Unknown Attribute Values in Induction. BasserDepartament of Computer Science, University of Science, Australia.Quinlan, J. R. 1990. Learning Logic Definitions from Relations. EnMachine Leaming, Vol 5, páginas 239-266. Oxford University Press,Oxford, Reino Unido[Quinlan, 1993a] Quinlan, J.R. 1993. The Effect of Noise on Concept Learning, En R.S. Michalski, J. G. Carbonell, & T. M. Mitchells (Eds.) MachineLearning, The Artificial Intelligence Approach. Morgan Kaufmann,Vol. I, Capítulo 6, páginas149-167. San Mateo, CA: MorganKaufmann, EE.UU.[Quinlan, 1993b][Quinlan, 1993c][Quinlan, 1993d][Quinlan, 1995]Quinlan, J.R. 1993. Learning Efficient Classification Procedures andTheir Application to Chess Games, En R. S. Michalski, J. G.Carbonell, & T. M. Mitchells (Eds.) Machine Learning, The ArtificialIntelligence Approach. Morgan Kaufmann, Vol. II, Capítulo 15,páginas 463-482, EE.UU.Quinlan, J.R. 1993. Combining Instance-Based and Model-BasedLearning. Basser Departament of Computer Science, University ofScience, Australia.Quinlan, J.R. 1993 C4.5: Programs for Machine Learning. MorganKaufmann Publishers, San Mateo, California, EE.UU.Quinlan, J.R. 1995 MDL and Categorical Theories. BasserDepartament of Computer Science, University of Science, Australia.Referencias Magdalena Servente 343

Algoritmos TDIDT aplicados a la Minería de Datos Inteligente[Quinlan, 1996a]Quinlan, J.R. 1996. Improved Use of Continuous Attributes in C4.5.Basser Departament of Computer Science, University of Science,Australia.[Quinlan, 1996b]Quinlan, J.R.1996. Learning First-Order Definitions of Functions.Basser Departament of Computer Science, University of Science,Australia[Riddle, 1997] Riddle, P.J. 1997. ID3 Algorithm.www.cs.auckland.ac.nz/~pat/706_99/ln/node75.html, Nueva Zelanda[Rissanen, 1983]Rissanen, J. 1983. A universal prior for integers and estimation byminimum description length. En Annals of Statistics 11, Vol 2, p. 416-431[S/A, 19950]S/A. 1995. Building Classification Models: ID3 and C4.5,yoda.cis.temple.edu:8080/UGAIWWW/lectures/C45, Pensilvania,[S/A, 1998]EE.UU.S/A 1998.Confidence intervals for small sample sizes. En EngineeringStatistics Handbook, Information Technology Laboratory, NIST,http://www.itl.nist.gov/div898/handbook/prc/section2/prc242.htm,EE.UU.[S/A, 1999] S/A. 1999. What is Data Mining?,www.citeseer.nj.nec.com/69212.html.[Thakore, 1993] Thakore, M., St Clair, D. 1993. Effect of the X 2 test on theConstruction of ID3 decision trees, Sun Microsystems, University ofMO-Rolla, Engineering Education Center, St. Louis, EE.UU.[Thrun et al, 1991][Thrun et al, 1998][Witten y Frank, 2000]Thrun, S., Bala, J., Bratko, I., Cestnik, B., Cheng, J., De Jong, K.,Dzeroski, S., Fahlman, S.E., Fisher, D., Hamann, R., Kaufman, K.,Keller, S., Kononenko, I., Michalski, R.S., Mitchell, T., Pachowicz,P., Reich, Y., Vafaie, H., Van de Welde, W., Wenzel, W., Wnek, J,Zhang, J. 1991 The MONK’s Problems. A Performance Comparisonof Different Learning Algorithms, Carnegie Mellon University,Pittisburgh, EE.UU.Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. 1998 AutomatedLearning and Discovery: State-Of-The-Art and Research Topics in aRapidly Growing Field. CMU-CALD-98-100, Center for AutomatedLearning and Discovery, Carnegie Mellon University, Pittisburgh,EE.UU.Witten, I.H., Frank, E. 2000. Data Mining: Practical MachineLearning Tools and Techniques with Java Implementations. MorganKaufmann, San Diego, EE.UU.344 Magdalena Servente Referencias

Algoritmos TDIDT aplicados a la Mineria de Datos ... - Laboratorios

Create successful ePaper yourself

Delete template?

Save as template?