Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

20
Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC Dr. Jordi Portell i de Mora i l’Equip Gaia de l’IEECUB / ICCUB

Transcript of Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

Page 1: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

Dr. Jordi Portell i de Morai l’Equip

Gaia de l’IEEC‐UB

/ ICCUB

Page 2: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 2

La missió Gaia

• Astrometria Global des de l’Espai:– Posicions i distàncies (3D)– Moviments propis– Velocitats radials– Fotometria multi‐color– Espectroscopia– >1000 milions d’objectes astronòmics– Precisió: ~15 μas

(cabell humà

a 2000km)

– Observació

no esbiaixada de

tot objecte més brillant de 20mag

• Catàleg astronòmic de referència per les properes dècades

Page 3: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 3

Gaia: El satèl·lit

• Òrbita: Lissajous

a L2– 1.5 milions km de la Terra

• Duració: 5 anys (+5?)• Instruments principals:

– 2 telescopis– 1 gran pla focal 106 CCD

(gigapixel)

• Dades:– ~7 Mbps, ~8h/dia– Fins a 3 estacions terrestres

(Madrid, Austràlia, Argentina)

Crèdits: Astrium / ESA

Page 4: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 4

Dades, dades, dades!

• 25 GB / dia

(65 GB descomprimits)115 TB en 5 anys

• 50 milions de mesures / dia (1 mesura = 10 petites fotos)

100.000 milions en 5 anys• Processament de dades a Terra:

– Algoritmes extremadament complexes– Moltes dades,

molt relacionades entre sí

• Cens Galàctic– Observació

sistemàtica de tot objecte suficientment

brillant per ser detectat

Models i simuladors per poder provar els sistemes de processamentPrototipus dels sistemes de processament de dades

Page 5: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 5

Projecte GDAAS

• Gaia Data Access and Analysis

Study– UB + CESCA + GMV, 2000‐2006

• Prova de concepte

pel sistema de reducció

de dades de Gaia

• Sistema “monolític”, o “all‐in‐one”– Model de dades– Simulador– Tractament inicial– Reconstrucció

d’actitud

– Enllaç

amb catàleg (cross‐match)

– Calibracions– Solució

Global Iterativa (GIS)

Page 6: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 6

GDAAS: Primers passos

• Primer hardware: IBM SP2 (any 2000)– 44 CPUs, 11 GFLOP/s

• Llenguatge: Java

(!!!)– Portabilitat

pel futur

(missió

fins al ~2020)

• Base de dades: Objectivity DB– Orientada a Objectes

• Primeres proves: petita escala– 1/1000 de densitat, <2 anys

Page 7: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 7

GDAAS: Millores en infraestructura

• Compaq AlphaServer (2001)– 32 CPUs, 53 GFLOP/s

• Base de dades: Oracle

• Resultats representatius (2005‐2006):– 1.1 milions d’estrelles (12mag)– 18 mesos

de missió

– 30 milions

de mesures (“trànsits”)

– 70 GB

telemetria simulada

• Rendiment (usant 11 CPUs + 3 Oracle):– Tractament inicial: 4 dies– 1ª

iteració

GIS: 8 dies

– Iteracions 2‐7 GIS: 49 dies– Base de dades: 200GB

Page 8: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 8

GDAAS: Solució global iterativa

• GDAAS va demostrar la factibilitat

del concepte GIS sobre dades tipus Gaia

– Astrometria: Posicions, moviments

propis, distàncies (paralaxis)– Reconstrucció

d’actitud

– ...a nivell de µas!

• A més:– Fotometria (milimagnituds)– Calibració

de cromaticitat (µas)

– Calibració

de LSF

Page 9: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 9

GDAAS: Lliçons apreses

• Accés directe a BD

segons ho necessitin els algoritmes: NO!

– Latència

massa alta

(accessos freqüents)Concepte “tren de dades”:Preparar blocs de dades perpassar als algoritmes

• Algoritmes senzills sobre moltes dades: NO!

– Millor agrupar operacions en

blocs més complexesMillor balanceig E/S vs. càrrega CPU

• Estimacions de necessitats de càlcul– Caldrà

molta

potència per Gaia...

• Gran sistema monolític?– Millor distribuït

Page 10: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 10

La creació de DPAC

• Gaia Data Processing and Analysis Consortium

(2006)

– Consorci Europeu multi‐disciplinar– Gran projecte conjunt de software

• 8 Unitats de Coordinació

(CU)– Científics i enginyers de software– Nucli de processament astromètric,

simulacions, arquitectura general,

objectes extesos i dobles,

fotometria, espectroscopia,

variabilitat, classificació

• 6 Centres de Processament de Dades

(DPC)– Centres de càlcul on ha de córrer el software implementat per les CUs

• Grup Gaia‐UB: Simulacions, Processament Inicial, Fotometria...– CESCA: Execució

de les simulacions i proves del processament inicial

Page 11: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 11

Processament diari de dades (IDT): Els inicis

• Transformació

de mesures “en brut” a dades amb significat científic

– Posicions– Brillantors– Colors– Refinament d’actitud– Monitorització

d’angle base

– Cross‐matching

• Primeres proves al CESCA (2006‐2008):– Càlcul (Java 1.5): 10 nodes

x 4 CPUs

– BD (Oracle 10g): 3 nodes

x 2 CPUs

– Fins a 26 milions d’estrelles– Fins a 44 milions de trànsits

(en 62h...)

– Algoritmes molt senzills

Page 12: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 12

Anys de preparació per IDT

• Més

funcionalitats i millors

algorismes– Reconstrucció

d’observacions realistes

– Refinament acurat d’actitud– Ús de les calibracions adequades– Determinació

de fons de cel

– Millors paràmetres d’imatge– Millor cross‐matching– Monitorització

exhaustiva

• Millores en infraestructura– Pròpia d’IDT (optimització, estabilitat)

“data‐driven”– Maquinari i programari

Intersystems Caché DB

Page 13: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 13

A punt pel Llançament

• Simulacions realistes full‐scale– TBs de dades de telemetria– Diversos dies, >50M trànsits/dia

• Proves exhaustives d’IDT– 24h

de dades processades

en 28h

...amb només 3 nodes

x 8 CPUs

(ESAC: ~8 nodes)– Proves a ESAC confirmen que

estem a punt!

Page 14: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 14

Entrem en Operacions

• Llançament: 19 de Desembre de 2013

Page 15: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 15

Les dades reals de Gaia

• El simulador

va resultar ser força acurat• IDT

va funcionar correctament des dels

primers dies de missió...però van caldre correccions i ajustos:“Patch releases”

cada 3‐4 setmanes,

cadascun amb les seves proves al CESCA.

Page 16: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 16

Monitorització de les operacions diàries

• Sistema web per comprovar el correcte funcionament de tots els sistemes (a bord i a terra)

– ...incloent algunes figures “per disfrutar”

Page 17: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 17

Gaia: Present i Futur a IEEC/UB + CESCA/CSUC

• Suport a operacions diàries

d’ESAC– Almenys fins 2019,

probablement 2024!– Proves pre‐releases IDT,

millores, anàlisis...– Darreres proves (Maig 2016):

50 milions de mesures (reals)

processades en 12h

(només 5 nodes)!

• Tasques per la Unitat de Coordinació

9

(explotació

del Catàleg)– Preparació

de les eines per l’accés als resultats de DPAC (arxiu de Gaia)

– Publicacions progressives: GDR1 prevista per Setembre 2016!– Projecte GENIUS

(FP7‐SPACE‐2013‐1), 2013‐2017

Page 18: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 18

GENIUS: Big Data amb Gaia

• CSUC: infraestructura per tasques de mineria de dades sobre Gaia (GDAF – Gaia Data Analytics Framework)

• Hardware:– 6 nodes x 96 CPUs– 4 TFLOP/s– 384 GB RAM– 72 TB disc– Exclusiu per GENIUS

• Software:– Hadoop (Cloudera 5.4.4 CDH)– Apache Spark (1.6)– HDFS (Hadoop Distributed File System), YARN (gestor de recursos),

Hadoop commons (llibreries), Spark ‘core’

+ API (Machine Learning,  SQL)

• Volum actual dades simulades de Gaia (HDFS): 3,3TB– Estimació

per Operacions (~2018): desenes de TB

6 servers RSTORAGE 12D+ E5V3:• 2 x Intel Xeon™

E5‐2640v3 8 Core 2,6GHz, 22nm, 20MB, 90W• 8 x 8GB DDR4 2133MHz ECC REG• 2 x SSD Toshiba 128GB 19nm PCIe 6Gb/s MLC 7mm 19nm 

NAND Flash Memory Multi‐Level Cell. 510/460MB/s. R/W

• 12 x HD 1TB, SATA 6 Gb/s 7.200 r.p.m 3,5 64MB Nearline 

Enterprise Storage

Page 19: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 19

En resum

• Després de...– Més de 14 anys de preparació

de missió

– Uns 8 anys de construcció

del satèl∙lit

– 6 anys de prototipatge i 7 anys de desenvolupament

dels sistemes de processament de dades– Centenars d’astrònoms, científics i enginyers– Milions d’hores de CPU

...Gaia és una realitat!• Processament rutinari

de ~65GB

i ~50 milions de mesures

cada dia

– En bona part gràcies al CESCA/CSUC

• Primera publicació

del Catàleg (parcial) de Gaia: Setembre 2016– Preparació

dels sistemes d’explotació

de dades

Encara ens queden anys de feina!

Page 20: Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC

J. Portell - 16 anys de Gaia al CESCA/CSUC 20

Gràcies per la vostra atenció!

http://gaia.ub.edu | [email protected] | GaiaApp

Finançament: MINECO – FEDER, ESP2014‐55996‐C2‐1‐R i MDM‐2014‐0369 ICCUB ('María de Maeztu'), FP7/2007‐2013 GENIUS FP7 ‐

606740