e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

from cab.inta.csic.es More from this publisher

11.07.2015 Views

e-Ciencia, Minería deDatos y AstrofísicaDescubrimiento de Conocimiento en la era de los grandessurveysL.M. Sarro 1,21 Departmento de Inteligencia Artificial, UNED, España2 Spanish Virtual ObservatoryJulio 2012 / Desarrollos tecnológicos en Astronomía

e-Ciencia, Minería deDatos y AstrofísicaDescubrimiento de Conocimiento en la era de los grandessurveysL.M. Sarro 1,21 Departmento de Inteligencia Artificial, UNED, España2 Spanish Virtual ObservatoryJulio 2012 / Desarrollos tecnológicos en Astronomía

Avance

Lista para llevar• Clasificación supervisada/no-supervisada• La maldición de la dimensionalidad• El compromiso sesgo-varianza• Reducción de la dimensionalidad• La importancia de la evaluación

1.- Intro: e-Ciencia y el 4 o paradigma

Los cuatro paradigmas de la cienciasegún J. Gray• Paradigma 1: Ciencia empirica (que describe fenómenosnaturales)• Paradigma 2: Ciencia teórica• Paradigma 3: Simulaciones numéricas• Paradigma 4: Massive data exploration• El cuarto paradigma, unifica experimentos, teoría ysimulaciones• Consiste en extraer conocimiento a partir de datos(knowledge discovery)• Involucra las ciencias de la computación, la inteligenciaartificial y estadística.

e-Ciencia: encrucijada de disciplinasCiencias de la Computación, Estadística, Inteligencia Artificial y...• La e-Ciencia es Inteligencia Artificial porque pretendereproducir con máquinas un comportamientogenuinamente humano. Implica modelos e Ingeniería delConocimiento.• La e-Ciencia es Estadística porque ésa es el área en laque las máquinas nos superan.• La e-Ciencia es algo más: en este caso, Astronomía.

RecordatorioEn ocasiones, utilizaré figuras en 2 o 3 dimensiones parailustrar determinados aspectos de la charla. Recordad: todo loque os voy a contar tiene sentido sólo en las gigantescasbases de datos actuales, que residen en espacios de muy altadimensionalidad en los que la intuición visual no sirve de nada.

La ley de Moore en AstronomíaÁrea total de telescopiosde 3+ m (en m 2 ).Número total de píxeles(en Megapíxeles).(Cortesía de Djorgovski)• Los sensores CCD siguen la leyde Moore• Pronto tendremos sensoresGigapíxel• El volumen de datos creceexponencialmente (eje ylogarítmico)• Los sistemas de almacenamientoy acceso siguen una ley similar

El tsunami de datosKatsushika Hokusai(Edo, actual Tokio, 31 de octubre de 1760 - 10 de mayo de1849)

Ejemplos de bases de datos masivasSurvey Mirror Píxeles Tamaño MuestreoLSST 8.4 m 3.2 GP 6.8 PB al año 1000/10Pan-STARRS 1.8 m 4 x 1.4 GP 800 TB al añoSDSS 2.5 m 120 MP DR8, 50 TBGaia 2 x 1m 106x10MP 1 PB

Tareas de descubrimiento deconocimiento• Determinación de parámetros físicos:regresión no lineal multivariante• Clasificación de objetos: clasificaciónsupervisada• Descubrimiento de nuevos tipos deobjetos (clustering, clasificación nosupervisada)• Descubrimiento de objetos exóticos(outliers o atípicos)• Selección de modelos

Tareas de descubrimiento deconocimientoDeterminación de parámetros físicosConceptos clave:• Conjunto de entrenamiento• Mapa no lineal• Existen multitud de técnicasestadísticas y de Minería de Datospara construir el modelo: redesneuronales, máquinas de vectoressoporte, Random Forests, ProcesosGaussianos...• Reducción de dimensionalidad• Sobreajuste

Tareas de DCClasificación de objetos-0.06CoRoT 110835975-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)CoRoT 110666938-0.04Delta Mag-0.0200.020.0410 15 20 25Time (days)Conceptos clave:• ¡Los mismos!

Tareas de descubrimiento deconocimientoClasificación de objetos

Tareas de descubrimiento deconocimientoDescubrimiento de objetos exóticos

2.- Clasificación Supervisada o regresión

Tareas de descubrimiento deconocimientoDescubrimiento de objetos exóticosMultitud de métodos:• Redes neuronales• Máquinas de Vectores Soporte• Árboles de decisión/regresión, Random Forests...• Procesos Gaussianos• ...

El ejemplo más simpleAnálisis Lineal• Un problema 3D: D = {x i , y i , c i }• Un modelo lineal:f θ (x) = Θ(θ 1 · x + θ 2 · y − k)• Un modelo lineal equivalente alperceptrón (neurona artificial)• Desconocemos los parámetros θ• Asumimos errores gaussianoserrors• Verosimilitud: L = p(D|θ)

Redes neuronalesModelo no lineal• Capa de entrada, oculta y de salida• La no linealidad aparece como consecuencia de la capaoculta• Se entrenan por ciclos con un conjunto de entrenamiento• Los ciclos de entrenamiento se detienen cuando sealcanza un mínimo de la función de error sobre unconjunto independiente.

Un último ejemplo:Máquinas de Vectores Soporte• Una aproximación totalmente diferente: Minimización delriesgo estructural• La receta: encontrar el hiperplano de margen máximo• El truco del kernel

Dos avisos (I)La representatividad estadística del conjunto de entrenamiento:• Construir un conjunto deentrenamientorepresentativo es difícil• Los conjuntos deentrenamiento suelenreflejar sesgosobservacionales• Los conjuntos sintéticos noson perfectos (y hay queañadirles ruido).

Dos avisos (II)El sobreajuste y el compromiso sesgo-varianza.La frontera ideal (sinruido).Una muestra realcon ruidoOtra muestra realcon ruidoLa frontera perfecta (sin errores) para la primera muestra reales desastrosa si la aplicamos a la segunda muestra real.

Evaluación de los modelosValidación cruzada¿Cómo evitar el sobreajuste?• Alternativas:LOOCV, stratifiedCV, ...• ¡Nunca evaluéis elmodelo sobre elconjunto deentrenamiento!

La maldición de la dimensionalidadUn ejemplo: los 10 vecinos más cercanos. Supongamos unadistribución homogénea de 1000 ejemplos en un hipercubo dedimensión d.10 1 0.1d=2 10% 3% 1%d=5 40% 25% 16%d=10 63% 50% 40%d=20 79% 71% 63%d=50 91% 87% 83%¡Necesitamos técnicas de reducción de la dimensionalidad!

Un ejemplo clásico: los espectros

¿Qué no he mencionado?

La búsqueda de nuevas clases de objetos: Agrupamiento

El problemaEl objetivo de la clasificación nosupervisada es identificar losgrupos naturales presentes en unconjunto de datos, sin categoríaspreconcebidas. Los miembros deun mismo grupo deben sersimilares entre sí y diferentes delso miembros de otros grupos.Métrica. El problema principal es laseparación de grupos solapadosen espacios de altadimensionalidad.

Clustering espacial

Cross-matchingPero... la visión completa se obtiene sumando datosastrométricos y espectrofotométricos (o, equivalentemente,físicos como temperaturas, gravedades, luminosidades...). Unfactor fundamental es la identificación cruzada de fuentes enmúltiples bases de datos: SDSS, 2MASS, VISTA, DENIS...

Gaia

Características deseables de unalgoritmo de agrupamientoTipos de técnicas: jerárquicas/planas, duras/probabilísticas,paramétricas/no-paramétricas,• Capacidad de identificargrupos pequeñossolapados consuper-grupos• Descripción probabilística• Determinación automáticadel número de grupos.• Grupos de forma arbitraria

Nuestra propuesta para Gaia:agrupamiento basado en densidades

La búsqueda de lo exótico: detección de atípicos

Nuestra propuesta para Gaia:agrupamiento basado en densidades

¿Por dónde empezamos?1 Identificad un problemainteresante (pero no demasiado)2 Buscad en el ADS3 Localizad las bases de datos coninformación relevante y cruzadlas4 Explorad los datos, hacedrepresentaciones reducidas,entendedlos5 Explorad técnicas (weka, rapidminer, R...)6 Analizad los resultados

¿Os hace un Weka?

...O para l@s muy valientes, R

Yo, por si acaso, os dejo datos parajugar:• README• Hipparcos Variabilidad• OGLE LMC• OGLE SMC• OGLE bulge• Mix variabilidad• Modelos de Kurucz• Espectros ELODIE (R)• VLT Giraffe (R)

e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory ... View more e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory

Delete template?

Save as template ?

e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory e-Ciencia, Minería de Datos y Astrofísica - Spanish Virtual Observatory