e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory
e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory
e-Ciencia, Minería deDatos y AstrofísicaDescubrimiento de Conocimiento en la era de los grandessurveysL.M. Sarro 1,21 Departmento de Inteligencia Artificial, UNED, España2 Spanish Virtual ObservatoryJulio 2012 / Desarrollos tecnológicos en Astronomía
- Page 2 and 3: Avance
- Page 4 and 5: 1.- Intro: e-Ciencia y el 4 o parad
- Page 6 and 7: e-Ciencia: encrucijada de disciplin
- Page 8 and 9: La ley de Moore en AstronomíaÁrea
- Page 10 and 11: Ejemplos de bases de datos masivasS
- Page 12 and 13: Tareas de descubrimiento deconocimi
- Page 14 and 15: Tareas de descubrimiento deconocimi
- Page 16 and 17: 2.- Clasificación Supervisada o re
- Page 18 and 19: El ejemplo más simpleAnálisis Lin
- Page 20 and 21: Un último ejemplo:Máquinas de Vec
- Page 22 and 23: Dos avisos (II)El sobreajuste y el
- Page 24 and 25: La maldición de la dimensionalidad
- Page 26 and 27: ¿Qué no he mencionado?
- Page 28 and 29: El problemaEl objetivo de la clasif
- Page 30 and 31: Cross-matchingPero... la visión co
- Page 32 and 33: Características deseables de unalg
- Page 34 and 35: La búsqueda de lo exótico: detecc
- Page 36 and 37: ¿Por dónde empezamos?1 Identifica
- Page 38 and 39: ...O para l@s muy valientes, R
e-<strong>Ciencia</strong>, <strong>Minería</strong> <strong>de</strong><strong>Datos</strong> y <strong>Astrofísica</strong>Descubrimiento <strong>de</strong> Conocimiento en la era <strong>de</strong> los gran<strong>de</strong>ssurveysL.M. Sarro 1,21 Departmento <strong>de</strong> Inteligencia Artificial, UNED, España2 <strong>Spanish</strong> <strong>Virtual</strong> <strong>Observatory</strong>Julio 2012 / Desarrollos tecnológicos en Astronomía
Avance
Lista para llevar• Clasificación supervisada/no-supervisada• La maldición <strong>de</strong> la dimensionalidad• El compromiso sesgo-varianza• Reducción <strong>de</strong> la dimensionalidad• La importancia <strong>de</strong> la evaluación
1.- Intro: e-<strong>Ciencia</strong> y el 4 o paradigma
Los cuatro paradigmas <strong>de</strong> la cienciasegún J. Gray• Paradigma 1: <strong>Ciencia</strong> empirica (que <strong>de</strong>scribe fenómenosnaturales)• Paradigma 2: <strong>Ciencia</strong> teórica• Paradigma 3: Simulaciones numéricas• Paradigma 4: Massive data exploration• El cuarto paradigma, unifica experimentos, teoría ysimulaciones• Consiste en extraer conocimiento a partir <strong>de</strong> datos(knowledge discovery)• Involucra las ciencias <strong>de</strong> la computación, la inteligenciaartificial y estadística.
e-<strong>Ciencia</strong>: encrucijada <strong>de</strong> disciplinas<strong>Ciencia</strong>s <strong>de</strong> la Computación, Estadística, Inteligencia Artificial y...• La e-<strong>Ciencia</strong> es Inteligencia Artificial porque preten<strong>de</strong>reproducir con máquinas un comportamientogenuinamente humano. Implica mo<strong>de</strong>los e Ingeniería <strong>de</strong>lConocimiento.• La e-<strong>Ciencia</strong> es Estadística porque ésa es el área en laque las máquinas nos superan.• La e-<strong>Ciencia</strong> es algo más: en este caso, Astronomía.
RecordatorioEn ocasiones, utilizaré figuras en 2 o 3 dimensiones parailustrar <strong>de</strong>terminados aspectos <strong>de</strong> la charla. Recordad: todo loque os voy a contar tiene sentido sólo en las gigantescasbases <strong>de</strong> datos actuales, que resi<strong>de</strong>n en espacios <strong>de</strong> muy altadimensionalidad en los que la intuición visual no sirve <strong>de</strong> nada.
La ley <strong>de</strong> Moore en AstronomíaÁrea total <strong>de</strong> telescopios<strong>de</strong> 3+ m (en m 2 ).Número total <strong>de</strong> píxeles(en Megapíxeles).(Cortesía <strong>de</strong> Djorgovski)• Los sensores CCD siguen la ley<strong>de</strong> Moore• Pronto tendremos sensoresGigapíxel• El volumen <strong>de</strong> datos creceexponencialmente (eje ylogarítmico)• Los sistemas <strong>de</strong> almacenamientoy acceso siguen una ley similar
El tsunami <strong>de</strong> datosKatsushika Hokusai(Edo, actual Tokio, 31 <strong>de</strong> octubre <strong>de</strong> 1760 - 10 <strong>de</strong> mayo <strong>de</strong>1849)
Ejemplos <strong>de</strong> bases <strong>de</strong> datos masivasSurvey Mirror Píxeles Tamaño MuestreoLSST 8.4 m 3.2 GP 6.8 PB al año 1000/10Pan-STARRS 1.8 m 4 x 1.4 GP 800 TB al añoSDSS 2.5 m 120 MP DR8, 50 TBGaia 2 x 1m 106x10MP 1 PB
Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimiento• Determinación <strong>de</strong> parámetros físicos:regresión no lineal multivariante• Clasificación <strong>de</strong> objetos: clasificaciónsupervisada• Descubrimiento <strong>de</strong> nuevos tipos <strong>de</strong>objetos (clustering, clasificación nosupervisada)• Descubrimiento <strong>de</strong> objetos exóticos(outliers o atípicos)• Selección <strong>de</strong> mo<strong>de</strong>los
Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDeterminación <strong>de</strong> parámetros físicosConceptos clave:• Conjunto <strong>de</strong> entrenamiento• Mapa no lineal• Existen multitud <strong>de</strong> técnicasestadísticas y <strong>de</strong> <strong>Minería</strong> <strong>de</strong> <strong>Datos</strong>para construir el mo<strong>de</strong>lo: re<strong>de</strong>sneuronales, máquinas <strong>de</strong> vectoressoporte, Random Forests, ProcesosGaussianos...• Reducción <strong>de</strong> dimensionalidad• Sobreajuste
Tareas <strong>de</strong> DCClasificación <strong>de</strong> objetos-0.06CoRoT 110835975-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)CoRoT 110666938-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)Conceptos clave:• ¡Los mismos!
Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoClasificación <strong>de</strong> objetos
Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDescubrimiento <strong>de</strong> objetos exóticos
2.- Clasificación Supervisada o regresión
Tareas <strong>de</strong> <strong>de</strong>scubrimiento <strong>de</strong>conocimientoDescubrimiento <strong>de</strong> objetos exóticosMultitud <strong>de</strong> métodos:• Re<strong>de</strong>s neuronales• Máquinas <strong>de</strong> Vectores Soporte• Árboles <strong>de</strong> <strong>de</strong>cisión/regresión, Random Forests...• Procesos Gaussianos• ...
El ejemplo más simpleAnálisis Lineal• Un problema 3D: D = {x i , y i , c i }• Un mo<strong>de</strong>lo lineal:f θ (x) = Θ(θ 1 · x + θ 2 · y − k)• Un mo<strong>de</strong>lo lineal equivalente alperceptrón (neurona artificial)• Desconocemos los parámetros θ• Asumimos errores gaussianoserrors• Verosimilitud: L = p(D|θ)
Re<strong>de</strong>s neuronalesMo<strong>de</strong>lo no lineal• Capa <strong>de</strong> entrada, oculta y <strong>de</strong> salida• La no linealidad aparece como consecuencia <strong>de</strong> la capaoculta• Se entrenan por ciclos con un conjunto <strong>de</strong> entrenamiento• Los ciclos <strong>de</strong> entrenamiento se <strong>de</strong>tienen cuando sealcanza un mínimo <strong>de</strong> la función <strong>de</strong> error sobre unconjunto in<strong>de</strong>pendiente.
Un último ejemplo:Máquinas <strong>de</strong> Vectores Soporte• Una aproximación totalmente diferente: Minimización <strong>de</strong>lriesgo estructural• La receta: encontrar el hiperplano <strong>de</strong> margen máximo• El truco <strong>de</strong>l kernel
Dos avisos (I)La representatividad estadística <strong>de</strong>l conjunto <strong>de</strong> entrenamiento:• Construir un conjunto <strong>de</strong>entrenamientorepresentativo es difícil• Los conjuntos <strong>de</strong>entrenamiento suelenreflejar sesgosobservacionales• Los conjuntos sintéticos noson perfectos (y hay queañadirles ruido).
Dos avisos (II)El sobreajuste y el compromiso sesgo-varianza.La frontera i<strong>de</strong>al (sinruido).Una muestra realcon ruidoOtra muestra realcon ruidoLa frontera perfecta (sin errores) para la primera muestra reales <strong>de</strong>sastrosa si la aplicamos a la segunda muestra real.
Evaluación <strong>de</strong> los mo<strong>de</strong>losValidación cruzada¿Cómo evitar el sobreajuste?• Alternativas:LOOCV, stratifiedCV, ...• ¡Nunca evaluéis elmo<strong>de</strong>lo sobre elconjunto <strong>de</strong>entrenamiento!
La maldición <strong>de</strong> la dimensionalidadUn ejemplo: los 10 vecinos más cercanos. Supongamos unadistribución homogénea <strong>de</strong> 1000 ejemplos en un hipercubo <strong>de</strong>dimensión d.10 1 0.1d=2 10% 3% 1%d=5 40% 25% 16%d=10 63% 50% 40%d=20 79% 71% 63%d=50 91% 87% 83%¡Necesitamos técnicas <strong>de</strong> reducción <strong>de</strong> la dimensionalidad!
Un ejemplo clásico: los espectros
¿Qué no he mencionado?
La búsqueda <strong>de</strong> nuevas clases <strong>de</strong> objetos: Agrupamiento
El problemaEl objetivo <strong>de</strong> la clasificación nosupervisada es i<strong>de</strong>ntificar losgrupos naturales presentes en unconjunto <strong>de</strong> datos, sin categoríaspreconcebidas. Los miembros <strong>de</strong>un mismo grupo <strong>de</strong>ben sersimilares entre sí y diferentes <strong>de</strong>lso miembros <strong>de</strong> otros grupos.Métrica. El problema principal es laseparación <strong>de</strong> grupos solapadosen espacios <strong>de</strong> altadimensionalidad.
Clustering espacial
Cross-matchingPero... la visión completa se obtiene sumando datosastrométricos y espectrofotométricos (o, equivalentemente,físicos como temperaturas, graveda<strong>de</strong>s, luminosida<strong>de</strong>s...). Unfactor fundamental es la i<strong>de</strong>ntificación cruzada <strong>de</strong> fuentes enmúltiples bases <strong>de</strong> datos: SDSS, 2MASS, VISTA, DENIS...
Gaia
Características <strong>de</strong>seables <strong>de</strong> unalgoritmo <strong>de</strong> agrupamientoTipos <strong>de</strong> técnicas: jerárquicas/planas, duras/probabilísticas,paramétricas/no-paramétricas,• Capacidad <strong>de</strong> i<strong>de</strong>ntificargrupos pequeñossolapados consuper-grupos• Descripción probabilística• Determinación automática<strong>de</strong>l número <strong>de</strong> grupos.• Grupos <strong>de</strong> forma arbitraria
Nuestra propuesta para Gaia:agrupamiento basado en <strong>de</strong>nsida<strong>de</strong>s
La búsqueda <strong>de</strong> lo exótico: <strong>de</strong>tección <strong>de</strong> atípicos
Nuestra propuesta para Gaia:agrupamiento basado en <strong>de</strong>nsida<strong>de</strong>s
¿Por dón<strong>de</strong> empezamos?1 I<strong>de</strong>ntificad un problemainteresante (pero no <strong>de</strong>masiado)2 Buscad en el ADS3 Localizad las bases <strong>de</strong> datos coninformación relevante y cruzadlas4 Explorad los datos, hacedrepresentaciones reducidas,enten<strong>de</strong>dlos5 Explorad técnicas (weka, rapidminer, R...)6 Analizad los resultados
¿Os hace un Weka?
...O para l@s muy valientes, R
Yo, por si acaso, os <strong>de</strong>jo datos parajugar:• README• Hipparcos Variabilidad• OGLE LMC• OGLE SMC• OGLE bulge• Mix variabilidad• Mo<strong>de</strong>los <strong>de</strong> Kurucz• Espectros ELODIE (R)• VLT Giraffe (R)