Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto...

25
INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS CURSO CLUSTERS & GRID COMPUTING EN ENTORNOS DE SOFTWARE LIBRE 28, 29 y 30 de Noviembre 2005 http://bifi.unizar.es/clustersygrid Gestión de datos y otros servicios en GRID Guillermo Losilla Anadón ([email protected])

Transcript of Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto...

Page 1: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOS

CURSO

CLUSTERS & GRID COMPUTINGEN ENTORNOS DE SOFTWARE LIBRE

28, 29 y 30 de Noviembre 2005http://bifi.unizar.es/clustersygrid

Gestión de datos y otros servicios en GRID

Guillermo Losilla Anadón

([email protected])

Page 2: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Indice

► Gestión de datos en Globus

► Ejemplo de gestión de datos: el caso LCG

► Otros servicios grid

Resumen y referencias de interés

Page 3: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► Servicios grid relacionados con la gestión de datos en Globus Toolkit 4:

The Globus Toolkit 4 tutorial ®

Page 4: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► Los servicios del grupo Data Management de Globus permiten la localización, transferencia y gestión de datos a través de una infraestructura grid

► Se dividen en 2 categorías:● Movimiento de datos:

– gridFTP– RFT (Reliable File Transfer Service)

● Replicación de datos:– RLS (Replica Location Service)– DRS (Data Replication Service)

Page 5: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► GridFTP● Permite la transferencia de ficheros usando gsiftp,

una versión ”securizada” del clásico protocolo FTP (GridFTP= GSI + FTP)

● Permite acceder a los datos localizados en:– sistemas de ficheros locales o externos con un interfaz

POSIX-compliant (discos locales, importados por NFS, Samba...) accesibles desde el nodo en el que corre el servidor GridFTP

– otros sistemas de almacenamiento con interfaz no POSIX que dispongan de un interfaz de integración DSI (Data Storage Interface) para Globus. Ejemplos: HPSS, SRB, NeST...

Page 6: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► GridFTP

● No está implementado como WS● Gran eficiencia (especialmente con ficheros

grandes)● Globus incluye una implementación del servidor

(globus-gridftp-server), un cliente (globus-url-copy) y una completa API para desarrollo

Page 7: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► RFT (Reliable File Transfer Service):● Servicio que permite programar transferencias

gsiftp (por debajo utiliza GridFTP)● Mayor tolerancia a fallos (usa una base de datos

para guardar en memoria persistente las transferencias que se han programado)

● WSRF-compliant● Utilizado por WS GRAM para el staging de

ficheros

Page 8: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► RLS (Replica Location Service)● Permite la gestión (registro y localización) de réplicas de

ficheros en los distintos puntos de almacenamiento (GridFTP servers) dentro de un entorno grid

● Servicio distribuido (varios RLS servers)● Conceptos de nombre de fichero lógico y nombre de fichero

físico:

● La misión de RLS es mantener el mapeo entre nombres de ficheros lógicos y la localización de las distintas réplicas (nombre físico)

● Globus incluye servidor, cliente CLI y API de desarrollo

Page 9: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Gestión de datos en Globus

► Otros servicios incluidos en Globus (contribs):

● DRS (Data Replication Service)– Servicio de alto nivel que integra la copia y réplica de

ficheros

– Combina RLS + RFT

● OGSA-DAI– Servicio que permite incorporar bases de datos

(relacionales & XML) como fuentes de datos del grid– Permite consultas SQL & XPath

Page 10: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Indice

► Gestión de datos en Globus

► Ejemplo de gestión de datos: el caso LCG

► Otros servicios grid

Resumen y referencias de interés

Page 11: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► Large Hadron Collider (LHC)

● Proyecto científico para construir el mayor acelerador de partículas del mundo

● Está siendo construido por el CERN en Ginebra (Suiza)● 27 km de diámetro, varias decenas de metros bajo tierra,

operando alrededor de -300ºC● 4 detectores (cada uno corresponde a un experimento

distinto): ATLAS, CMS, ALICE & LHCb● Se espera que empiece a operar en 2007

Page 12: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

Page 13: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

Page 14: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► ¿Para qué va a servir el LHC?

● permitirá acelerar partículas a muy altas energías para posteriormente producir colisiones entre las mismas

● dichas colisiones permitirán identificar los componentes de las partículas, crear otras nuevas, estudiar las interacciones entre las mismas y reproducir un escenario similar al existente en el momento en el que se generó el universo.

● especial interés en encontrar la partícula de Higgs, componente fundamental del Modelo Estándar de Física de Partículas

● los científicos esperan obtener respuestas a preguntas del tipo de ¿Cómo nació el universo? ¿Cuál es el origen de la materia? ¿Cuál es la naturaleza de la antimateria?

Page 15: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► Reto computacional que supone el LHC:

● Cuando el acelerador esté operativo, cada segundo se producirán 40 millones de colisiones, de las cuales sólo 100 serán de interés

● El registro de cada colisión en formato digital se estima que ocupará 1MB

● 1010 colisiones registradas anualmente● Información generada cada año: 10 PetaBytes!!!

» 1 PetaByte = 1.000.000 GigaBytes

Page 16: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► ¿Dónde almacenar 10 PetaBytes anuales de manera que puedan ser procesados y analizados a posteriori por centenares de científicos distribuidos geográficamente por todo el mundo?

► Solución: el GRID responde a todas las necesidades del LHC● nace el proyecto LCG (“LHC Computing Grid”)● actualmente la infraestructura de LCG está integrada en

EGEE

Page 17: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► Distribución de los datos del LHC:● Distribución jerárquica en ”tiers” o capas● Una primera copia de seguridad se realizará en

el CERN, único centro ”tier-0”● Tras un procesado inicial, los datos viajarán a

diversos centros ”tier-1”, donde serán almacenados en condiciones especiales antes de ser transferidos a centros ”tier-2” y ”tier-3” donde serán accedidos por los científicos

► Cada experimento del LHC tiene su propia V.O. en EGEE

Page 18: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Ejemplo de gestión de datos:el caso LCG

► El proyecto tiene programados tests intensivos para probar la infraestructura de LCG: data & service challenges

GridFTP Monitor para Service challenge 3

Page 19: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Indice

► Gestión de datos en Globus

► Ejemplo de gestión de datos: el caso LCG

► Otros servicios grid

Resumen y referencias de interés

Page 20: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Otros servicios grid► Servicios de información en Globus Toolkit 4:

The Globus Toolkit 4 tutorial ®

Page 21: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Otros servicios grid

► Los servicios de información se utilizan para indexar, publicar y buscar información relativa a los recursos y servicios disponibles en cada nodo del Grid

► Son utilizados por el resto de servicios de Globus que publican información a través de ellos

► Son la base para otros servicios de monitorización y accounting

Page 22: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Indice

► Gestión de datos en Globus

► Ejemplo de gestión de datos: el caso LCG

► Otros servicios grid

Resumen y referencias de interés

Page 23: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Resumen

1. Globus proporciona diversos servicios para la gestión de datos en el grid que se agrupan en dos categorías: transferencia y réplica de datos, siendo GridFTP y RLS los más representativos respectivamente

2. LCG es la infraestructura grid creada para almacenar y procesar los datos que generará el acelerador LHC

3. Los servicios de información permiten dar a conocer al mundo exterior, el nombre y estado de los recursos presentes en un nodo del Grid

Page 24: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre INSTITUTO DE BIOCOMPUTACIÓN Y FÍSICA DE SISTEMAS COMPLEJOSClusters & Grid computing en entornos de software libre

Referencias de interés

► Documentación Data Management services en Globus Toolkit 4.0: http://www.globus.org/toolkit/docs/4.0/data/

► Proyecto LHC: http://lhc.web.cern.ch/lhc/

► Proyecto LCG: http://lcg.web.cern.ch/LCG/

► Documentación Information services en Globus Toolkit 4.0: http://www.globus.org/toolkit/docs/4.0/info/

Page 25: Gestión de datos y otros servicios en GRID · el caso LCG Large Hadron Collider (LHC) Proyecto científico para construir el mayor acelerador de partículas del mundo Está siendo

ANEXO: Ejercicios prácticos sesión “Gestión de datos y otros servicios en GRID”

1. GridFTP:

1.1 Enviar un fichero usando globus-url-copy:user@host:~/curso> globus-url-copy gsiftp://host/home/user/curso/copia file:///home/user/curso/data

1.2 Recuperamos el mismo fichero:user@host:~/curso> globus-url-copy file:///home/guillermo/curso/data gsiftp://host/home/user/curso/copia_recuperada

2. Gestión avanzada de datos en GRID: ejemplo de middleware LCG

2.1 Uso catálogo tipo RLS

2.1.1 Copia y registro de un fichero en el Grid:[dteam@ui-egee curso] lcg-cr --vo dteam -d se-egee.bifi.unizar.es -l lfn:ejemplo_curso file:///home/dteam/curso/fecha

2.1.2 Obtención del listado de réplicas de nuestro fichero en el Grid:[dteam@ui-egee curso] lcg-lr --vo dteam lfn:ejemplo_curso

2.1.3 Creamos otra réplica de nuestro fichero en otro servidor GridFTP:[dteam@ui-egee curso] lcg-rep --vo dteam -d lxn1183.cern.ch lfn:ejemplo_curso

2.1.4 Descargamos nuestro fichero del Grid:[dteam@ui-egee curso] lcg-cp --vo dteam lfn:ejemplo_curso file:///home/dteam/curso/fecha2

2.1.5 Borramos todas las réplicas de nuestro fichero en el GRID:[dteam@ui-egee curso] lcg-del --vo dteam -a lfn:ejemplo_curso

2.2 Uso catálogo tipo LFC (simula un árbol de directorios con los nombres lógicos de fichero)

2.2.1 Listado de un directorio en el árbol de nombres lógicos de fichero:lfc-ls /grid/

2.2.2 Creación de un directorio en el árbol de nombres lógicos de fichero:lfc-mkdir /grid/swetest/guillermo/curso

2.2.3 Copia y registro de un fichero en el Grid:lcg-cr -d se-egee.bifi.unizar.es --vo swetest -l /grid/swetest/guillermo/curso/mi_fichero file:///home/swetest/curso/fecha

2.2.4 Listado de réplicas de un fichero en el Grid:lcg-lr --vo swetest lfn:/grid/swetest/guillermo/curso/mi_fichero

3. Servicios de información

3.1 Datos publicados por el nodo del BIFI en EGEE (basado en pre-MDS):http://goc.grid.sinica.edu.tw/gstat/BIFI/

3.2 A través de línea de comandos:user@host:~/curso> ldapsearch -x -H ldap://ce-egee.bifi.unizar.es:2170 -b mds-vo-name=BIFI,o=grid

3.3 GridICE, herramienta de monitorización basada en los servicios de información;http://gridice2.cnaf.infn.it:50080/gridice/