PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV

PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV

from poliformat.upv.es More from this publisher

13.07.2015 Views

Page 3: Figura 1. Una ruta en Clementine.Co
Page 6 and 7: 1.5 Modelado (Modelling)La siguient
Page 9 and 10: 2. Un primer ejemploVamos a constru
Page 12 and 13: Ahora vamos a unirlos manualmente.
Page 14 and 15: No, de momento. Pinchamos dos veces
Page 16 and 17: 3. Un problema de clasificaciónVam
Page 18 and 19: Figura 25. Pasos para visualizar la
Page 20 and 21: Figura 30. Calidad del modelo gener
Page 22 and 23: Figura 34. Resultado de un nodo Gr
Page 25 and 26: Además si analizamos su calidad co
Page 27 and 28: marcamos que nos genere el campo de
Page 29: Figura 47. Ejemplos agrupados por c

Figura 1. Una ruta en Clementine.Como se puede ver en la parte inferior de la Figura 1, el Clementine clasifica los nodos en seiscategorías (aparte de la pestaña Favoritos, donde se incluyen los nodos más usados):• Sources (Orígenes): nodos para obtener los datos de trabajo (fuentes de datos).• Record Ops (Oper. con registros): operadores para modificar o combinar registros (filas) dedistintas fuentes. Es decir, selecciones y combinaciones.• Field Ops (Oper. con campos): operadores para modificar o combinar campos (columnas).• Graphs (Gráficos): gráficas.• Modelling (Modelado): tipos de modelos/patrones que puede generar Clementine• Output (Resultado): presentación de tablas, análisis de modelos, estadísticas, exportación dedatos.Las categorías han sido las mismas (salvo pequeños cambios en la nomenclatura) desde, al menos,la versión 5.2 del Clementine, aunque el número de nodos en cada categoría se ha idoincrementando lentamente hasta la versión 9.Pasemos a describir los nodos más importantes de las categorías anteriores y en las versiones en lasque están disponibles. Los nombres los damos en castellano y en inglés porque parte de la ayuda(las cosas más avanzadas) o información en webs de Clementine pueden estar s´plo en inglés ypuede ser útil saber cómo es el nombre de los nodos en inglés:3

1.3 Operaciones con campos (Field Ops.)La siguiente figura muestra los nodos disponibles en esta categoría:Figura 4. Nodos disponibles en la categoría “Operaciones con campos”La siguiente tabla recoge una breve descripción de cada uno de ellos:NOMBRE V5.2 V6.0 V9.0 DESCRIPCIÓNFilter (Filtrar) Permite eliminar campos no representativos o inservibles. También permiterenombrar.Derive (Derivar) Permite añadir nuevos campos derivados como combinación de otros.Type (Tipo) Filler (Rellenar) History(Histórico)SetToFlag(Convertir amarca) Permite tipar los campos (si son discretos o continuos, si son de entrada osalida, etc.). Este paso suele ser necesario para poder aplicar modelos ygráficos. También se puede utilizar para descartar datos anómalos.Permite rellenar o sustituir campos faltantes o anómalos siguiendo unascondiciones.Permite generar campos con memoria, especialmente en series (acumuladosparciales, etc.)Permite generar nuevos campos como transformación de un valor discretode n posibles valores a n nuevos campos booleanos (tipo flag).1.4 Gráficos (Graph)La siguiente figura muestra los nodos disponibles en esta categoría:Figura 5. Nodos disponibles en la categoría “Gráficos”La siguiente tabla recoge una breve descripción de cada uno de ellos:NOMBRE V5.2 V6.0 V9.0 DESCRIPCIÓNGráfico (Plot) Permite representar la relación entre dos valores numéricos en dosdimensiones.Histograma(Histogram)Distribución(Distribution) Malla (Web) Colección/Recolectar (Collect)Directd Web(Malladireccional)Gráf. múltiple(multiplot) Evaluación(Evaluation) Representa un histograma de la distribución de los datos respecto a un valornumérico.Representa un histograma de la distribución de los datos respecto a un valorno numérico.Representan la fuerza de asociaciones entre distintos valores de dos o másatributos simbólicos (no numéricos). Permite ver las asociaciones entrecampos. A partir de la versión 9 integra la versión direccional.Similar al histograma, pero muestra la distribución de un valor numéricorespecto a otro.Genera un subconjunto de las asociaciones que muestra el nodo “Web”. Eneste caso, muestra sólo las conexiones entre uno o más campos “FROM” aun campo “TO”. En la versión 9, esta funcionalidad se ha integrado en laMalla.Es un derivado del nodo Gráfico/Plot. Permite definir varios campos “Y”respecto a un campo “X”Variantes de los gráficos de respuesta, que permiten evaluar qué modelo seva a comportar mejor dependiendo del contexto, como los ROI (return oninvestment). Muy relacionado con el análisis ROC (Receiver OperatingCharacteristic).5

1.5 Modelado (Modelling)La siguiente figura muestra los nodos disponibles en esta categoría:Figura 6. Nodos disponibles en la categoría “Modelado”La siguiente tabla recoge una breve descripción de cada uno de ellos:NOMBRE V5.2 V6.0 V9.0 DESCRIPCIÓNRed Neuronal Red neuronal multicapa con backpropagation. Dispone de muchos(Train Net)parámetros. Especialmente útil para problemas de clasificación einterpolación (tanto los campos de entrada como los de salida, la clase,pueden ser simbólicos o numéricos). Requiere uno y sólo un atributo“SALIDA”.C5.0 (Build C5.0) Árbol de decisión derivado del ID3 y el C4.5 de Quinlan. Dispone dediferentes opciones. Los campos de entrada pueden ser simbólicos onuméricos, pero la clase ha de ser discreta. Requiere uno y sólo un atributo“SALIDA”.Tr. Kohonen Redes Asociativas de Kohonen, conocidas también como Knets. Permiterealizar agrupamiento/conglomerado/segmentaciones (clustering). Elalgoritmo actúa sólo sobre los atributos definidos como “ENTRADA “ (elresto se ignoran). El resultado es un conjunto de condiciones queRegression(Reg. Lineal) GRI Kmedias (TrainKmeans) A Priori Logística (Log.Regression) Árbol C&R (C&R,CART) PCA/Factorial Bietápico(TwoStep) separan/segmentan las instancias en dos o más grupos (clusters).Construye un modelo de regresión lineal, es decir, una función lineal de unvalor numérico respecto uno o más atributos numéricos. Requiere uno y sóloun atributo “SALIDA”.Genera reglas de asociación orientadas de uno o más atributos (numéricoso simbólicos) o un atributo simbólico de ordenadas por support y accuracy.Método basado en el movimiento de centros. Permite realizarsegmentaciones (clustering). El algoritmo actúa sólo sobre los atributosdefinidos como IN (el resto se ignoran). El resultado es un conjunto decondiciones que separan/segmentan las instancias en dos o más grupos(clusters).Este nodo descubre reglas de asociación en los datos, en la forma “ifantecedent(s) then consequent(s)”. Se puede especificar confianza ysoporte.También llamada regresión nominal. Es como la regresión lineal, pero paraclasificación. Es decir, requiere uno y sólo un atributo “SALIDA” y debe serdiscreto (nominal).Es un método de clasificación y regresión basado en árboles, originalmentedenominado CART (Classification And Regression Trees). La clase puedeser discreta (clasificación) o continua (regresión). Requiere uno y sólo unatributo “SALIDA”.Permite realizar “Principal component analysis (PCA)” o análisis factorial.QUEST Un método para agrupamiento/conglomerado/segmentación (clustering). Aligual que el Kmeans, el algoritmo actúa sólo sobre los atributos definidoscomo IN (el resto se ignoran). El resultado es un conjunto de condicionesque separan/segmentan las instancias en dos o más grupos (clusters). Es un tipo de árbol de decisión, similar al C&R, pero presumiblemente máseficiente.CHAID Es un tipo de árbol de decisión, similar al C&R, pero basado en Chicuadrado, que además permite particiones no binarias.CARMA Es un método de reglas de asociación. Es más flexible que A Priori o queGRI.Secuencia(Sequence) Permite reglas de asociación secuenciales, es decir, que se den en más deun ejemplo en tiempo posterior, p.ej. “si un cliente compra una cuchilla y unaloción para después del afeitado, la próxima vez que vaya a comprar, habráun 80% de posibilidades de que compre la crema para el afeitado". Esnecesario especificar un campo de ID, un campo de tiempo opcional y uno ovarios campos de contenido.6

Extracción deTexto (TextExtraccion)Build Rule 1.6 Resultado (Output) Permite procesar datos no estructurados o semiestructurados: documentosde texto y páginas web y extraer términos relevantes.Este nodo puede requerir una licencia especial y la traducción de textospuede requerir una instalación aparte. La ayuda de este nodo sólo está enLa siguiente figura muestra los nodos disponibles en esta categoría:inglés en la versión 9.0.Genera un conjunto de reglas de clasificación. Los campos de entradapueden ser simbólicos o numéricos, pero la clase ha de ser discreta.Requiere uno y sólo un atributo “SALIDA”.Figura 7. Nodos disponibles en la categoría “Resultado”La siguiente tabla recoge una breve descripción de cada uno de ellos:NOMBRE V5.2 V6.0 V9.0 DESCRIPCIÓNTabla (Table) Muestra los datos de una ruta en una tabla.Análisis Se añade a la salida de un modelo para analizar su validez.(Analysis)Val. globales(Set Globals) Permite calcular ciertos valores (medias, máximos, mínimos, desviaciones)que al ejecutar el nodo están disponibles para expresiones, condiciones encualquier nodo.Matriz (Matrix) Genera una matriz de ocurrencias para los valores de dos campos. Encada una de las celdas se muestra la cantidad o el porcentaje deinstancias con el para de valores de cada dimensión.Estadísticos Genera estadísticas de distribuciones de los distintos atributos.(Statistics)Especialmente útil para calcular correlaciones.Informe (Report) Permite realizar informes combinando los resultados de una ruta.Archivo Plano(File)Exportar SPSS(SPSS Export)Base de Datos(Database/ODBCOutput)ProcedimientoSPSS (SPSSProcedure) Permite exportar a fichero, también permite exportar a ficheros cachés. Exporta a ficheros de datos con el formato SPSS.Calidad (Quality) Proporciona un informe sobre la proporción de datos faltantes por campo. Permite exportar y enlazar una ruta con una fuente de bases de datos,generalmente ODBC, insertando el resultado de la ruta en una tabla. Permite ejecutar in situ en el Clementine un procedimiento estadísticogenerado en el paquete estadístico SPSS.Excel Permite lanzar una ruta al Excel.Exportar SAS Exporta a ficheros de datos con el formato SAS.(SAS Export) Auditar Datos(Data Audit) El nodo Auditar datos permite realizar un primer análisis exploratorio de losdatos. Se utiliza generalmente durante la exploración de datos iniciales, ymuestra estadísticos de resumen así como histogramas y gráficos dedistribución para cada campo de datos.Editor (SolutionPublisher) El nodo Solution Publisher permite exportar rutas completas de Clementinepara poder incrustar dichas rutas en aplicaciones externas.Puede requerir una licencia especial para su funcionamiento. Este nodo hacambiado significativamente desde las versiones 5.2 y 6.0.Además de los nodos anteriores, existen nodos para los modelos, que serepresentan con la figura de un diamante. A partir de ahora denominaremosa estos nodos, nodos diamante, para diferenciarlos del resto.7

2. Un primer ejemploVamos a construir la ruta de la Figura 1. En primer lugar, aparte del Clementine, dispones de undirectorio llamado “LabKDD” con todos los ficheros de datos necesarios para realizar este boletín. Enparticular, en este primer ejemplo, vamos a trabajar con los datos acerca de los días que se hapodido jugar al tenis, dependiendo de diversos aspectos meteorológicos. El objetivo es poderdeterminar (predecir) si hoy podremos jugar al tenis. Los datos de que disponemos están en elfichero: “..\LabKDD\PlayTennis\playtennis-evidence.txt” y son los siguientes:Sky Temperature Humidity Wind PlayTennisSunny Hot High Weak NoSunny Hot High Strong NoOvercast Hot High Weak YesRain Mild High Weak YesRain Cool Normal Weak YesRain Cool Normal Strong NoOvercast Cool Normal Strong YesSunny Mild High Weak NoSunny Cool Normal Weak YesRain Mild Normal Weak YesSunny Mild Normal Strong YesOvercast Mild High Strong YesOvercast Hot Normal Weak YesRain Mild High Strong NoAbrimos el Clementine (para ello, ve a Inicio → Programas → Clementine 9.0 → Clementine 9.0). Alabrir el programa, las dos áreas de trabajo (izquierda superior y derecha superior) te aparecen enblanco (mejor dicho, en azul y gris). Existe otra parte que incluye dos pestañas (CRISP-DM y Clases)que, de momento, no vamos a utilizar (puedes minimizarla si quieres).Lo primero que vamos a hacer es insertar un nodo fuente de datos al área de trabajo. Para ello,pincha dos veces (o pincha una vez en el nodo y después otra vez en el área de trabajo) en el nodo“Archivo var.” que está en la categoría “Orígenes” (abajo a la izquierda). Te aparecerá el nodo en elárea de trabajo, como se muestra en la Figura 8:Figura 8. Insertando el primer nodo en el área de trabajo9

Para borrar un nodo, simplemente se selecciona y se pulsa la tecla “Supr”. También se puede borrarcon el menú de contexto asociado a un nodo, el cual se abre pulsando el botón derecho sobre unnodo.Ahora vamos a conectar el nodo con una fuente de datos. Para ello, pincharemos con el botónderecho sobre el nodo ”Archivo variable” de la zona de trabajo y seleccionaremos “Edición”. En lapantalla de edición modificaremos el nombre del fichero, el directorio donde está y la forma deimportarlo (utilizando los tabuladores). Veámoslo paso por paso.Para seleccionar el fichero, simplemente pincha en los puntos suspensivos a la derecha del campo“Fichero”. Busca el fichero “..\LabKDD\PlayTennis\playtennis-evidence.txt”. En la siguiente pantalla(Figura 9) se muestra donde pinchar y qué aparece una vez asignado el fichero.Figura 9. Una vez asignado el fichero de datosA continuación pincha el CheckBox “Tabulador” y asegúrate que el checkbox “Leer nombres decampo del archivo” esté activados, como aparece en la siguiente Figura 10:10

Ahora vamos a unirlos manualmente. Para ello:Figura 13. Los dos nodos desconectadosPara enlazar dos nodos en Clementine, se pulsa el botón del medio del ratónsobre el nodo origen y se arrastra el ratón hasta el nodo destino, soltando eneste momento el botón del medio.(si el ratón no tiene botón del medio, también se puede realizar pulsando el botónizquierdo y derecho a la vez)Veamos paso a paso esta delicada operación:El resultado es el siguiente:Figura 14. Enlazando dos nodosFigura 15. Dos nodos enlazadosUna vez conectados, pulsa sobre el nodo “Tabla” con el botón derecho y seleccionas “EJECUTAR”.Te deberán aparecer los datos importados en una tabla, tal y como se muestra a continuación:Figura 16. Los datos se han enganchado correctamente12

Como se muestra en la tabla, el problema que estábamos intentando tratar era el de ver los días quepodemos jugar al tenis. Para poder abordar este problema, hemos de decir que los campos “Sky”,“Temperature”, “Humidity”, “Wind” son predictores (es decir de entrada), mientras que el campo“Playtennis” es la clase a predecir, el resultado (es decir la salida).Para ello vamos a añadir un nodo “Tipo”, que se encuentra en la categoría “Operaciones conCampos”. Ahora enlazamos el nodo “playtennis-evidence...” con el nodo “tipo”. A continuación, vamosa editar el nodo “tipo”. Para ello pinchamos con el botón derecho en “tipo” y pinchamos en “EDICIÓN”.Como vemos todos los nodos tienen dirección “Entrada”. Como la salida va a ser “playtennis”modificamos su dirección a “Salida”, como vemos en la siguiente figura:Figura 17. Tipando los atributos.Una vez hecho esto, le damos a “Aceptar” y ya estamos en disposición de intentar aprender unmodelo a partir de los datos, en este caso, una función, que dados unos determinados valores de losatributos de entrada nos dé un valor para el valor de salida.Para ello añadimos un nuevo nodo “C5.0” (está en la categoría de “Modelado”) para construir unárbol de decisión sobre los datos. El Clementine nos conecta el nodo “Tipo” con el nodo “C5.0”, quepasa a llamarse Playtennis, quedando el resultado como se muestra en la siguiente figura.Figura 18. Ruta resultante.Ahora ya estamos en disposición de aprender un modelo (en este caso un árbol de decisión). Paraello, cogemos carrerilla y sobre el nodo C50 (llamado Playtennis) le damos al botón derecho yseleccionamos “Ejecutar”. ¡¡¡A “minerizar”!!!!Como puedes observar, se ha generado un nuevo icono en el área de trabajo de la derecha(pestaña de “Modelos”, con la forma de un diamante). ¿Somos ricos?13

No, de momento. Pinchamos dos veces en el diamante de la derecha y nos aparece en el área detrabajo de la izquierda.Figura 19. Modelo generado y una copia en el área de trabajo.Ahora pinchamos con el botón derecho en el diamante que hemos copiado en el área de trabajo (elque aparece a la izquierda del todo en la Figura 19) y pinchamos en “Editar”. En la pantallita que saleaparecen algunas reglas del árbol. Para verlas todas pulsamos en “Todos”, con lo que tendremos yatodas las reglas. Además pinchamos en el %, con lo que veremos el número de elementos que caenpor cada regla y el porcentaje de aciertos. Ahora tienes el árbol etiquetado como se muestra en lasiguiente figura:Figura 20. Árbol generado y su cobertura/confianza.14

Además, la Figura 20 nos muestra para cada hoja cuántos ejemplos de la evidencia son cubiertos ycon qué confianza (en este caso el 100% en todas las ramas). ¿Cómo interpretramos el árbolanterior? Si pulsamos en “Visor”, tenemos una representación gráfica::La representación lógica del árbol anterior sería:Figura 21. Árbol representado gráficamente.(Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR (Outlook=Rain AND Wind=Weak)Finalmente, podemos utilizar el modelo para predecir si podemos jugar o no jugar al tenis hoy.Supongamos que tenemos, p.ej., la instancia (Sky = rain, Temperature = cool, Humidity = high, Wind= strong). Podemos ver en el árbol que la clase es NO, con lo que no jugaremos al tenis. No nosharemos ricos pero nos ahorraremos un constipado.Hemos acabado, de momento, con este ejemplo sencillo. Podemos grabar lo que hemos realizadoen un fichero .str mediante “Archivo Guardar Ruta”. También, si cerramos el Clementine (aunqueno es necesario hacerlo ahora), nos permitirá (por defecto) grabar los modelos generados, en unfichero con nombre “ModelosGenerados.gen”.15

3. Un problema de clasificaciónVamos a abordar problemas más complejos a partir de ahora, en particular en la parte de preparaciónde datos.3.1 Enunciado del problema. Selección de FármacoEn este caso se trata de predecir el tipo de fármaco (drug) que se debe administrar a un pacienteafectado de rinitis alérgica según distintos parámetros/variables. Las variables que se recogen en loshistoriales clínicos de cada paciente son:• Age: Edad• Sex: Sexo• BP (Blood Pressure): Tensión sanguínea.• Cholesterol: nivel de colesterol.• Na: Nivel de sodio en la sangre.• K: Nivel de potasio en la sangre.Hay cinco fármacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos delmedicamento idóneo para muchos pacientes en cuatro hospitales (los ficheros están en el directorio“..\LabKDD\drugs”). Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.3.2 Resolución del problemaEn primer lugar vamos a coger los datos del primer hospital, ya que al ser el de menor tamaño (200registros), permite hacer más pruebas inicialmente. Limpiamos la zona de trabajo (podemosseleccionar y borrar todos los nodos o ir al menú Archivo -> Nueva Ruta). Los datos del fichero“drug1n” tienen cabecera, con lo que añadiremos un nodo fuente “Archivo Var.” y al editar,indicaremos el nombre y directorio del fichero y marcaremos el checkbox para que lea el nombre delos campos a partir de la primera línea del fichero (es el valor por defecto):Figura 22. Abriendo el fichero del primer hospital16

Ahora añadiremos un nodo tabla y lo engancharemos con el nodo “Archivo Var.”. Podemos ver losdatos ya cargados al ejecutar la tabla, como se ve en la siguiente figura:Figura 23. Datos del primer hospitalLa primera pregunta que nos podemos hacer es ver qué fármacos son más comunes en general, paraver si todos suelen ser igualmente efectivos en términos generales. Para ello añadimos un nodo“Distribución” en la categoría “Gráficos” y lo enlazamos con la fuente de datos “drug1n”. La situacióndebe ser similar a la siguiente:Figura 24. Primeros pasos analizando los fármacosSi editamos el nodo “distribución”, podemos elegir el atributo por el cual vamos a representar elgráfico. Seleccionamos “drug” como el atributo para mostrar las distribuciones.17

Figura 25. Pasos para visualizar la distribución de los fármacosAhora ya podemos ejecutar la “ruta” y ver la distribución del uso de fármacos en el hospital 1.Figura 26. Distribución de los fármacos en el hospital 1Vemos que el fármaco más efectivo es el Y, que se administra con éxito en casi la mitad de lospacientes. Una regla vulgar sería aplicar el fármaco Y, en el caso que falle, el fármaco X, y asísucesivamente siguiendo las frecuencias de uso con éxito. Con la herramienta Clementine seguroque lo podemos hacer mucho mejor...Apliquemos lo mismo que hemos realizado en el ejemplo anterior. Intentemos generar un árbol dedecisión. Construyamos y ejecutemos una ruta con un nodo “Tipo” (donde el atributo drug se hapuesto como “salida”) y con un nodo C5.0. Añadamos el modelo generado al área de trabajo como seve en la siguiente figura:Figura 27. Realización de un modelo directamente sobre los datos18

El modelo resultante es el siguiente (para verlo sólo tienes que pinchar con el botón derecho en eldiamante y EDITAR. Una vez allí mostrar “Todos” los niveles y también el %):Figura 28. Árbol de decisión directamente sobre los datosComo podemos observar, el árbol tiene bastantes ramas (en concreto 13). Podemos ver cuál es elacierto (también denominado precisión o accuracy) de este árbol respecto a los datos deentrenamiento. Para ello, conectamos el nodo “Tipo” al nodo diamante “Drug” y éste a un nuevo nodo“Análisis” de la categoría “Resultado”, como se ve en la siguiente figura:Figura 29. Ruta para analizar la calidad de un modeloSi ejecutamos el nodo “análisis” (con el menú contextual pulsando el botón derecho) obtenemos lossiguientes resultados:19

Figura 30. Calidad del modelo generado para los datos de entrenamientoCon lo que tenemos un 96,5% de acierto. Es decir un error de sólo el 3,5% sobre los datos deentrenamiento. Este modelo es muchísimo mejor que sí sólo nos guiamos por la distribución, que nosdaría un error de más del 50% (el 54,5% de las veces el medicamento DRUGY no es el adecuado).De todas maneras, es posible hacerlo mejor... ¿pero cómo? ¿con otro tipo de algoritmo deaprendizaje, una red neuronal, p.ej.?Es posible que otros modelos (p.ej. las redes neuronales) dieran mejor resultado (ya loprobaremos), pero el asunto aquí es que igual no hemos examinado suficientemente los datos deentrada.Vamos a analizar, con más detenimiento, los atributos de entrada del problema. Es posible que sepuedan establecer mejores modelos si combinamos algunos atributos. Podemos analizar pares deatributos utilizando diferentes gráficos.Para comparar los atributos discretos, el gráfico “Malla” suele ser conveniente. Creemos un nodo“malla” y enganchemos el nodo de fuentes de datos “drug1n” con él. Al editarlo, decimos que vamos aexaminar los campos discretos (Sex, BP, Cho, Drug):Figura 31. Configurando un nodo mallaUsaremos valores “Absolutos”. Ahora ejecutaremos el nodo:20

Figura 32. Relación (asociaciones) entre los atributos discretos Sex x BP x Cho x Drug con un nivel de 5(izquierda) y uno de 35 (derecha)Las líneas más gruesas representan asociaciones más fuertes. A un nivel absoluto de 5 no parecever ninguna relación especial entre los distintos valores de los atributos discretos, exceptuando laclase (valor de salida “drug”), que va decreciendo la intensidad de una manera regular para losfármacos menos usuales. Pero si movemos el límite a 35 podemos ver algunas cosas interesantes: lapresión “High” y “Low” está más asociada a hombres que a mujeres (sólo se asocia la presión “High”).En cualquier caso, este tipo de gráfico nos permite conocer un poco mejor la relación entre losatributos discretos (no numéricos) pero no parece aportar mucha información de cómo podemosintentar mejorar el modelado.Estudiemos la relación que hay entre los atributos continuos (numéricos) y su influencia en laclase. Para ello vamos a utilizar el nodo “gráfico” de la categoría “gráficos”. Añadimos el nodo al áreade trabajo y lo enganchamos con el nodo de entrada “drug1n”. Lo editamos y seleccionaremos quequeremos comparar el Na y el K. Para ello al editar el nodo “gráfico” pondremos en el Campo X elcampo Na, en el Campo Y el campo K y en el “Superponer” la clase Drug, tanto en “color” como en“forma”. Lo demás se deja por defecto, como se ve en la siguiente figura:Figura 33. Editando un nodo GráficoEn la pestaña de “Aspecto” podemos cambiar el fondo del gráfico a color blanco, para que se veanmás claros los colores. El resultado al ejecutar el gráfico es el siguiente:21

Figura 34. Resultado de un nodo Gráfico (Na x K x Drug)En este gráfico sí que se ven algunas características muy significativas. Parece haber una claraseparación lineal entre una relación K/Na alta y una relación K/Na baja. De hecho, para lasconcentraciones K/Na bajas, el fármaco Y es el más efectivo de una manera clara y parece mostrarseque por encima de un cierto cociente K/Na ese medicamento deja de ser efectivo y se debe recurrir alos otros cuatro.Podemos utilizar este conocimiento que acabamos de extraer para mejorar nuestros modelos.Hemos establecido que el medicamento a administrar depende en gran medida del cocienteentre K/Na. Por tanto, vamos a realizar un nuevo modelo que utilice este cociente. Para ello, vamos acrear un nuevo atributo derivado (también llamados atributos pick & mix) mediante el nuevo nodo“Derivar” de la categoría “Oper. con campos”, que enganchamos con el nodo drug1n.Figura 35. Definiendo un atributo derivadoAhora duplica (para duplicar un nodo, en el menú contextual con el botón derecho pulsamos en“copiar” y luego en el área de trabajo pulsamos “pegar”) los nodos Tipo y el nodo C5.0 Drug que22

teníamos de antes y engánchalos al ruta que sale del nodo Na_to_Ka. Cambia el nombre del nodoDrug (C5.0) a Drug2, para no liarte. Para ello, pulsa el botón derecho sobre “Cambiar Nombre yAnotaciones”:Figura 36. Cambiando el nombre del nodoAhora vamos a la pestaña “Modelo” y cambiamos el nombre del campo de salida, como se ve en lasiguiente figura:Figura 37. Cambiando el nombre del modelo a generarAhora ejecuta ese nodo y te generará un nuevo modelo “Drug2”. Añádelo al área de trabajo,engánchalo con el nodo “Tipo” de abajo y añade un nodo de “Análisis” como hicimos con el primermodelo. El grafo de rutas resultante debe ser el de la siguiente figura:Figura 38. Rutas realizadas para el problema del fármaco23

Además si analizamos su calidad con el nodo de análisis, tenemos:Figura 41. Calidad del segundo modelo que utiliza el atributo derivado Na_to_KTenemos con el nuevo modelo un 99.5% de precisión, con lo que el modelo es mucho más fiable queantes. La precisión no es exactamente 100% en este caso porque hay un ejemplo con Na_to_K =14,642. El árbol lo toma sólo con dos dígitos 14,64 y por tanto le asigna DrugX, mientras que elanálisis lo toma con los tres dígitos y le asigna DrugY, ya que la regla principal depende de si esmayor o menor de 14,64.No obstante, los árboles de decisión pueden tener poda y tener porcentajes que no son del 100%ni siquiera con los mismos datos que se han usado para el aprendizaje. Todos estos detalles lostrataremos más adelante. De hecho, como veremos, los modelos los evaluaremos con datos devalidación/prueba, nunca con los mismos datos de entrenamiento, como hemos hecho ahora.Ahora graba la ruta en un fichero “.str”, p.ej. “drug1.str”, porque volveremos sobre esteproblema.4. Un problema de agrupación4.1 Enunciado: Agrupación de EmpleadosLa empresa de software para Internet “Memolum Web” quiere extraer tipologías de empleados, con elobjetivo de hacer una política de personal más fundamentada y seleccionar a qué grupos incentivar.Las variables que se recogen de las fichas de los 15 empleados de la empresa son:• Sueldo: sueldo anual en euros.• Casado: si está casado o no.• Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la empresa).• Hijos: si tiene hijos.• Alq/Prop: si vive en una casa alquilada o propia.• Sindic.: si pertenece al sindicato revolucionario de Internet• Bajas/Año: media del nº de bajas por año• Antigüedad: antigüedad en la empresa• Sexo: H: hombre, M: mujer.Los datos de los 15 empleados se encuentran en el directorio “..\LabKDD\empleados\empleados.txt”).Se intenta extraer grupos de entre estos quince empleados.4.2 Resolución del ProblemaEn primer lugar vamos a leer los datos de los empleados. Limpiamos la zona de trabajo o creamosuna nueva ruta. Los datos del fichero “empleados” tienen cabecera y están tabulados, con lo que25

añadiremos un nodo fuente “Archivo Var.” y al editar, indicaremos el nombre y directorio del fichero ymarcaremos el checkbox para que obtenga el nombre de los atributos a partir de la primera línea delfichero y además marcaremos el checkbox Tabulador:Figura 42. Abriendo el fichero fuente empleados.txtA continuación añadimos un nodo “Tipo” y lo enganchamos. Todos los atributos deberían ser de“ENTRADA” exceptuando el número de ejemplo (#Ej), que es irrelevante y pondremos “NINGUNA”,como se muestra en la siguiente figura:Figura 43. Tipando los datos de los empleadosAhora vamos a utilizar un algoritmo de clustering para obtener grupos sobre esta población. En primerlugar vamos a probar con tres grupos. Para ello añadimos un nodo Kmedias (en modelado), loenganchamos al nodo Tipo y modificamos el campo “Número de conglomerados” a 3, también26

marcamos que nos genere el campo de distancia y que nos muestra la proximidad deconglomerados, como se ve en la siguiente figura:Figura 44. Determinando el número de clustersAhora podemos ejecutar la ruta, obteniendo un nodo diamante K-medias. Lo podemos añadir yenganchar al nodo Tipo, como se muestra en la siguiente figura:Figura 45. Ruta para el problema de los empleadosSi examinamos el nodo diamante Kmeans vemos qué características tiene cadacluster/conglomerados. A continuación, se muestra de una manera más resumida a cómo lo muestrael Clementine (que incluye desviaciones y distancias):cluster 1 cluster 2 cluster 35 examples 4 examples 6 examplesSueldo : 226000Casado : No -> 0.8Sí -> 0.2Coche : No -> 0.8Sí -> 0.2Hijos : 0Alq/Prop : Alquiler -> 1.0Sindic. : No -> 0.8Sí -> 0.2Bajas/Año : 8Antigüedad : 8Sexo : H -> 0.6Sueldo : 225000Casado : No -> 1.0Coche : Sí -> 1.0Hijos : 0Alq/Prop : Alquiler -> 0.75Prop -> 0.25Sindic. : Sí -> 1.0Bajas/Año : 2Antigüedad : 8Sexo : H -> 0.25M -> 0.75Sueldo : 188333Casado : Sí -> 1.0Coche : Sí -> 1.0Hijos : 2Alq/Prop : Alquiler -> 0.17Prop -> 0.83Sindic. : No -> 0.67Sí -> 0.33Bajas/Año : 5Antigüedad : 8Sexo : H -> 0.83M -> 0.1727

Podemos verlo de una manera gráfica tal y como lo muestra el Clementine en la pestaña de Visor:Figura 46. Visualización gráfica de las distribuciones por grupos formados.En esta visualización gráfica podemos ver además a qué campos el K-medias les asigna mayor omenor “importancia” a la hora de haber realizado los grupos.Si añadimos un nodo tabla a la salida del nodo diamante Kmedias podemos observar quéejemplos exactamente han caído en qué clúster.28

Figura 47. Ejemplos agrupados por clusters.Podemos ver a qué conglomerado va a parar cada ejemplo. Pero además, podemos ver la distanciaal centro de su conglomerado. Cuanto menor es ese valor la pertenencia a su conglomerado es másfuerte. En cambio, cuanto mayor es ese valor el empleado no está tan claramente asignado dentro desu conglomerado.EJERCICIOS PROPUESTOS:• ¿Cómo interpretarías los tres grupos anteriores?• Varía el número de clusters (2, 4, 5, ...) y vuelve a ejecutar la ruta para cada uno de estosvalores. ¿qué se puede observar?• Analiza las distancias entre grupos y las distancias de los elementos al centroAhora graba la ruta en un fichero “.str”, p.ej. “empleados.str”, porque volvemos sobre esteproblema a continaucín.29

PrÃ¡ctica 1 de MinerÃ­a de Datos - PoliformaT - UPV

PrÃ¡ctica 1 de MinerÃ­a de Datos - PoliformaT - UPV ... View more PrÃ¡ctica 1 de MinerÃ­a de Datos - PoliformaT - UPV

Delete template?

Save as template ?

PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV

PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV PrÃ¡ctica 1 de MinerÃa de Datos - PoliformaT - UPV