e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

cab.inta.csic.es
from cab.inta.csic.es More from this publisher
11.07.2015 Views

e-Ciencia, Minería deDatos y AstrofísicaDescubrimiento de Conocimiento en la era de los grandessurveysL.M. Sarro 1,21 Departmento de Inteligencia Artificial, UNED, España2 Spanish Virtual ObservatoryJulio 2012 / Desarrollos tecnológicos en Astronomía

e-<strong>Ciencia</strong>, <strong>Minería</strong> <strong>de</strong><strong>Datos</strong> y <strong>Astrofísica</strong>Descubrimiento <strong>de</strong> Conocimiento en la era <strong>de</strong> los gran<strong>de</strong>ssurveysL.M. Sarro 1,21 Departmento <strong>de</strong> Inteligencia Artificial, UNED, España2 <strong>Spanish</strong> <strong>Virtual</strong> <strong>Observatory</strong>Julio 2012 / Desarrollos tecnológicos en Astronomía


Avance


Lista para llevar• Clasificación supervisada/no-supervisada• La maldición <strong>de</strong> la dimensionalidad• El compromiso sesgo-varianza• Reducción <strong>de</strong> la dimensionalidad• La importancia <strong>de</strong> la evaluación


1.- Intro: e-<strong>Ciencia</strong> y el 4 o paradigma


Los cuatro paradigmas <strong>de</strong> la cienciasegún J. Gray• Paradigma 1: <strong>Ciencia</strong> empirica (que <strong>de</strong>scribe fenómenosnaturales)• Paradigma 2: <strong>Ciencia</strong> teórica• Paradigma 3: Simulaciones numéricas• Paradigma 4: Massive data exploration• El cuarto paradigma, unifica experimentos, teoría ysimulaciones• Consiste en extraer conocimiento a partir <strong>de</strong> datos(knowledge discovery)• Involucra las ciencias <strong>de</strong> la computación, la inteligenciaartificial y estadística.


e-<strong>Ciencia</strong>: encrucijada <strong>de</strong> disciplinas<strong>Ciencia</strong>s <strong>de</strong> la Computación, Estadística, Inteligencia Artificial y...• La e-<strong>Ciencia</strong> es Inteligencia Artificial porque preten<strong>de</strong>reproducir con máquinas un comportamientogenuinamente humano. Implica mo<strong>de</strong>los e Ingeniería <strong>de</strong>lConocimiento.• La e-<strong>Ciencia</strong> es Estadística porque ésa es el área en laque las máquinas nos superan.• La e-<strong>Ciencia</strong> es algo más: en este caso, Astronomía.


RecordatorioEn ocasiones, utilizaré figuras en 2 o 3 dimensiones parailustrar <strong>de</strong>terminados aspectos <strong>de</strong> la charla. Recordad: todo loque os voy a contar tiene sentido sólo en las gigantescasbases <strong>de</strong> datos actuales, que resi<strong>de</strong>n en espacios <strong>de</strong> muy altadimensionalidad en los que la intuición visual no sirve <strong>de</strong> nada.


La ley <strong>de</strong> Moore en AstronomíaÁrea total <strong>de</strong> telescopios<strong>de</strong> 3+ m (en m 2 ).Número total <strong>de</strong> píxeles(en Megapíxeles).(Cortesía <strong>de</strong> Djorgovski)• Los sensores CCD siguen la ley<strong>de</strong> Moore• Pronto tendremos sensoresGigapíxel• El volumen <strong>de</strong> datos creceexponencialmente (eje ylogarítmico)• Los sistemas <strong>de</strong> almacenamientoy acceso siguen una ley similar


El tsunami <strong>de</strong> datosKatsushika Hokusai(Edo, actual Tokio, 31 <strong>de</strong> octubre <strong>de</strong> 1760 - 10 <strong>de</strong> mayo <strong>de</strong>1849)


Ejemplos <strong>de</strong> bases <strong>de</strong> datos masivasSurvey Mirror Píxeles Tamaño MuestreoLSST 8.4 m 3.2 GP 6.8 PB al año 1000/10Pan-STARRS 1.8 m 4 x 1.4 GP 800 TB al añoSDSS 2.5 m 120 MP DR8, 50 TBGaia 2 x 1m 106x10MP 1 PB


Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimiento• Determinación <strong>de</strong> parámetros físicos:regresión no lineal multivariante• Clasificación <strong>de</strong> objetos: clasificaciónsupervisada• Descubrimiento <strong>de</strong> nuevos tipos <strong>de</strong>objetos (clustering, clasificación nosupervisada)• Descubrimiento <strong>de</strong> objetos exóticos(outliers o atípicos)• Selección <strong>de</strong> mo<strong>de</strong>los


Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDeterminación <strong>de</strong> parámetros físicosConceptos clave:• Conjunto <strong>de</strong> entrenamiento• Mapa no lineal• Existen multitud <strong>de</strong> técnicasestadísticas y <strong>de</strong> <strong>Minería</strong> <strong>de</strong> <strong>Datos</strong>para construir el mo<strong>de</strong>lo: re<strong>de</strong>sneuronales, máquinas <strong>de</strong> vectoressoporte, Random Forests, ProcesosGaussianos...• Reducción <strong>de</strong> dimensionalidad• Sobreajuste


Tareas <strong>de</strong> DCClasificación <strong>de</strong> objetos-0.06CoRoT 110835975-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)CoRoT 110666938-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)Conceptos clave:• ¡Los mismos!


Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoClasificación <strong>de</strong> objetos


Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDescubrimiento <strong>de</strong> objetos exóticos


2.- Clasificación Supervisada o regresión


Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDescubrimiento <strong>de</strong> objetos exóticosMultitud <strong>de</strong> métodos:• Re<strong>de</strong>s neuronales• Máquinas <strong>de</strong> Vectores Soporte• Árboles <strong>de</strong> <strong>de</strong>cisión/regresión, Random Forests...• Procesos Gaussianos• ...


El ejemplo más simpleAnálisis Lineal• Un problema 3D: D = {x i , y i , c i }• Un mo<strong>de</strong>lo lineal:f θ (x) = Θ(θ 1 · x + θ 2 · y − k)• Un mo<strong>de</strong>lo lineal equivalente alperceptrón (neurona artificial)• Desconocemos los parámetros θ• Asumimos errores gaussianoserrors• Verosimilitud: L = p(D|θ)


Re<strong>de</strong>s neuronalesMo<strong>de</strong>lo no lineal• Capa <strong>de</strong> entrada, oculta y <strong>de</strong> salida• La no linealidad aparece como consecuencia <strong>de</strong> la capaoculta• Se entrenan por ciclos con un conjunto <strong>de</strong> entrenamiento• Los ciclos <strong>de</strong> entrenamiento se <strong>de</strong>tienen cuando sealcanza un mínimo <strong>de</strong> la función <strong>de</strong> error sobre unconjunto in<strong>de</strong>pendiente.


Un último ejemplo:Máquinas <strong>de</strong> Vectores Soporte• Una aproximación totalmente diferente: Minimización <strong>de</strong>lriesgo estructural• La receta: encontrar el hiperplano <strong>de</strong> margen máximo• El truco <strong>de</strong>l kernel


Dos avisos (I)La representatividad estadística <strong>de</strong>l conjunto <strong>de</strong> entrenamiento:• Construir un conjunto <strong>de</strong>entrenamientorepresentativo es difícil• Los conjuntos <strong>de</strong>entrenamiento suelenreflejar sesgosobservacionales• Los conjuntos sintéticos noson perfectos (y hay queañadirles ruido).


Dos avisos (II)El sobreajuste y el compromiso sesgo-varianza.La frontera i<strong>de</strong>al (sinruido).Una muestra realcon ruidoOtra muestra realcon ruidoLa frontera perfecta (sin errores) para la primera muestra reales <strong>de</strong>sastrosa si la aplicamos a la segunda muestra real.


Evaluación <strong>de</strong> los mo<strong>de</strong>losValidación cruzada¿Cómo evitar el sobreajuste?• Alternativas:LOOCV, stratifiedCV, ...• ¡Nunca evaluéis elmo<strong>de</strong>lo sobre elconjunto <strong>de</strong>entrenamiento!


La maldición <strong>de</strong> la dimensionalidadUn ejemplo: los 10 vecinos más cercanos. Supongamos unadistribución homogénea <strong>de</strong> 1000 ejemplos en un hipercubo <strong>de</strong>dimensión d.10 1 0.1d=2 10% 3% 1%d=5 40% 25% 16%d=10 63% 50% 40%d=20 79% 71% 63%d=50 91% 87% 83%¡Necesitamos técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad!


Un ejemplo clásico: los espectros


¿Qué no he mencionado?


La búsqueda <strong>de</strong> nuevas clases <strong>de</strong> objetos: Agrupamiento


El problemaEl objetivo <strong>de</strong> la clasificación nosupervisada es i<strong>de</strong>ntificar losgrupos naturales presentes en unconjunto <strong>de</strong> datos, sin categoríaspreconcebidas. Los miembros <strong>de</strong>un mismo grupo <strong>de</strong>ben sersimilares entre sí y diferentes <strong>de</strong>lso miembros <strong>de</strong> otros grupos.Métrica. El problema principal es laseparación <strong>de</strong> grupos solapadosen espacios <strong>de</strong> altadimensionalidad.


Clustering espacial


Cross-matchingPero... la visión completa se obtiene sumando datosastrométricos y espectrofotométricos (o, equivalentemente,físicos como temperaturas, graveda<strong>de</strong>s, luminosida<strong>de</strong>s...). Unfactor fundamental es la i<strong>de</strong>ntificación cruzada <strong>de</strong> fuentes enmúltiples bases <strong>de</strong> datos: SDSS, 2MASS, VISTA, DENIS...


Gaia


Características <strong>de</strong>seables <strong>de</strong> unalgoritmo <strong>de</strong> agrupamientoTipos <strong>de</strong> técnicas: jerárquicas/planas, duras/probabilísticas,paramétricas/no-paramétricas,• Capacidad <strong>de</strong> i<strong>de</strong>ntificargrupos pequeñossolapados consuper-grupos• Descripción probabilística• Determinación automática<strong>de</strong>l número <strong>de</strong> grupos.• Grupos <strong>de</strong> forma arbitraria


Nuestra propuesta para Gaia:agrupamiento basado en <strong>de</strong>nsida<strong>de</strong>s


La búsqueda <strong>de</strong> lo exótico: <strong>de</strong>tección <strong>de</strong> atípicos


Nuestra propuesta para Gaia:agrupamiento basado en <strong>de</strong>nsida<strong>de</strong>s


¿Por dón<strong>de</strong> empezamos?1 I<strong>de</strong>ntificad un problemainteresante (pero no <strong>de</strong>masiado)2 Buscad en el ADS3 Localizad las bases <strong>de</strong> datos coninformación relevante y cruzadlas4 Explorad los datos, hacedrepresentaciones reducidas,enten<strong>de</strong>dlos5 Explorad técnicas (weka, rapidminer, R...)6 Analizad los resultados


¿Os hace un Weka?


...O para l@s muy valientes, R


Yo, por si acaso, os <strong>de</strong>jo datos parajugar:• README• Hipparcos Variabilidad• OGLE LMC• OGLE SMC• OGLE bulge• Mix variabilidad• Mo<strong>de</strong>los <strong>de</strong> Kurucz• Espectros ELODIE (R)• VLT Giraffe (R)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!