Linked Data: un caso de uso en la BNE. Ana Manchado Mangas, Daniel Vila Suero.
-
Upload
biblioteca-nacional-de-espana -
Category
Technology
-
view
1.702 -
download
1
description
Transcript of Linked Data: un caso de uso en la BNE. Ana Manchado Mangas, Daniel Vila Suero.
1
Un caso de uso en la BNEAna Manchado Daniel Vila Suero
2
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Índice
• Origen del proyecto• Proyecto de colaboración con la UPM
• Análisis y selección de las ontologías y vocabularios• Identificar alcance y fuente de datos
• Desarrollo del proyecto
• Tareas en curso • Posibles proyectos futuros
3
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Origen del proyecto
• Proyecto de cooperación de la BNE y las Bibliotecas Nacionales y Regionales de las Comunidades Autónomas
• Objetivo: Creación de un Sistema Nacional de Autoridades (Fichero de Autoridades compartido – “tipo VIAF”)
• Principal dificultad: Multilingüismo en los nombres de persona y entidad.
4
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Origen del proyecto
• Primeras aproximaciones:
Desarrollo dentro de nuestro SIGB
Desarrollo por parte de una empresa privada
Proyecto PilotoElevado presupuesto
5
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Proyecto de colaboración con la UPM
• En Octubre de 2010 se firma un Convenio de colaboración con la UPM.
• Primeras acciones: Formación / Consultoría de la persona designada por la UPM en el ámbito, organización y necesidades de la información bibliográfica.
• Objetivos: Conocimiento y dominio de nuestros estándares y modelos de datos
6
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Análisis y selección de las ontologías y vocabularios
• Estudio de otras iniciativas y proyectos de Library Linked Data otros proyectos no estaban basados en estándares de la IFLA
• Selección de FRBR, FRAD e ISBD por tratarse de las ontologías proporcionadas por el
trabajo realizado en la IFLApor ser más exhaustivas y más precisasse encuentran inscritas en el Open Metadata
Registry
7
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Análisis y selección de las ontologías y vocabularios
8
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datos
• FASE 1:
Autoridades CervantesBibliográficos asociados
• FASE 2:
Autoridades asociadas
Ficheros en formato ISO2709 enviados por ftp.
9
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datos
FASE 1: Seleccionamos en nuestro catálogo de autoridades
todos los registros que comienzan por Cervantes Saavedra, Miguel de (1547-1616)
550 registros de autoridadDe esta forma hemos seleccionado, además del propio registro de autor, registros de
Autor-títuloAutor-título-lenguaAutor-título-subencabezamientoAutor-subencabezamiento
10
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datos
Ejemplos: Cervantes Saavedra, Miguel de (1547-1616). Novelas ejemplares
Cervantes Saavedra, Miguel de (1547-1616). Novelas ejemplares. Francés
Cervantes Saavedra, Miguel de (1547-1616). Don Quijote de la Mancha-Influencia
Cervantes Saavedra, Miguel de (1547-1616)-Familia
11
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datos
FASE 1: Seleccionamos en nuestro catálogo los bibliográficos
asociados a estas autoridades Aparecen en el registro bibliográfico como
autor/título/materia8.512 registros bibliográficos
1 mapa61 grabaciones sonoras
924 grabados, dibujos o fotografías18 manuscritos
509 monografías antiguas6897 monografías modernas
37 partituras4 registros electrónicos8 publicaciones periódicas
48 vídeos
12
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 1 – Ejemplo 1: .001. |abimo0000768982.005. |a20090113.008. |a980120s1997 esp| ||| ||spa.016. 7 |abimoBNE19980014836|2SpMaBN.017. |aM 7218-1997|bOficina Depósito Legal Madrid.020. |a84-239-4133-7.040. |aSpMaBN|bspa|cSpMaBN|erdc.080. 0|a821.134.2-31"15".100. 20|aCervantes Saavedra, Miguel de|d1547-1616.245. 13|aEl ingenioso hidalgo Don Quijote de la Mancha|h[Texto impreso]|cMiguel de Cervantes Saavedra ; ilustrado por José Segrelles.260. 0 |aMadrid|bEspasa Calpe|c[1997].300. |a2 v.|bil. col.|c32 cm.700. 11|aSegrelles, José
13
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 1 – Ejemplo 2: . .001. |aa4731194.005. |a20100713.008. |a100419s2010 esp | |||| 000 0 spa.015. |aMON1005.017. |aVG 287-2010|bOficina Depósito Legal Vigo.020. |a978-84-96915-67-1.040. |aSpMaBN.080. |a821.134.2-22.09"15/16".080. |a821.134.2 Cervantes Saavedra, Miguel de 7 Novelas ejemplares.07.100. 1 |aVaiopoulos, Katerina.245. 10|aDe la novela a la comedia|h[Texto impreso] :|blas "Novelasejemplares" de Cervantes en el teatro del Siglo de Oro|cKaterina Vaiopoulos.260. |aVigo, Pontevedra|bAcademia del Hispanismo|c2010.300. |a295 p.|c21 cm.490. 0 |aBiblioteca Cátedra Miguel de Cervantes|v15.504. |aBibliografía: p. 281-295.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|tNovelas ejemplares.650. 7|aIntertextualidad.650. 7|aComedia española|yS.XVI-XVII|xHistoria y crítica
14
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 1 – Ejemplo 3: .001. |aMimo0000660591.005. |a20090514.008. |a900725n fra r fre.010. |zIND9100156998|zIND9100156999.016. 7 |abimoBNE19971409228|2SpMaBN.040. |aSpMaBN|bspa|cA2.080. 0|a86-321.2"16".100. 1 |aCervantes Saavedra, Miguel de|d1547-1616.240. 10|aNovelas ejemplares|lFrancés.245. 14|aLes Nouvelles exemplaires|h[Texto impreso]|cTraduction de LouisViardot. Avec préface... et notes par Maurice Bardon....260. 1 |aParis|b[s.n.|cS.a.|fImp. Paul Dupont].300. |aXXVIII + 528 p. + 1 h.|c18 cm.490. 0 |aClassiques Garnier.700. 1 |aViardot, Louis|d1800-1883.700. 1 |aBardon, Maurice.
15
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 1 – Ejemplo 4:.001. |aMimo0002138672.005. |a20071219.008. |a061025s2005 rus| ||| ||rus.016. 7 |abimoBNE20061026593|2SpMaBN.020. |a5-02-027028-8.245. 00|aIberica|h[Texto impreso]|b : k 400-letiiu romana servantesa "DonKijot".260. |aSant-Peterburg|bNauka|c2005.300. |a293 p.|c22 cm.500. |aSelección de ponencias presentadas en las XXVIII, XXIX y XXX'Lecturas Cervantinas' que anualmente se celebran en la Universidad Estatal deSan Petersburgo.594. |aPrecede al tít.: Rossiiskaia akademiia nauk.594. |aPort. adicional en español.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xInfluencia|2embne.650. 7|aLiteratura rusa|yS.XX|xHistoria y crítica.650. 7|aLiteratura española|yS.XVI-XVII|xHistoria y crítica.710. 2 |aRossiiskaia akademiia nauk.730. 0 |aLecturas cervantinas
16
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 1 – Ejemplo 5:.001. |aa4696572.005. |a20100406.008. |a100305s2010 espa | |||| 000 0 spa.015. |aMON1003.017. |aM 2148-2010|bOficina Depósito Legal Madrid.020. |a978-84-613-7663-6.100. 1 |aBarros Campos, José.245. 10|aArganda del Rey, cuna de Miguel de Cervantes|h[Texto impreso]|cJoséBarros Campos.260. |a[Madrid]|bJ. Barros|cimp. 2010|eMadrid|fReprografía Simancas yCasanova.300. |a573 p.|bil.|c30 cm.504. |aBibliografía: p. 567-573.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xFamilia.600. 17|aCervantes (Familia)|xGenealogía.651. 7|aArganda del Rey|xHistoria
17
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datos
FASE 2: Seleccionamos en nuestro catálogo las autoridades
relacionadas con los bibliográficos anteriores
7.351 registros de autoridad en total
18
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 2 – Ejemplo 1: .001. |abimo0000768982.005. |a20090113.008. |a980120s1997 esp| ||| ||spa.016. 7 |abimoBNE19980014836|2SpMaBN.017. |aM 7218-1997|bOficina Depósito Legal Madrid.020. |a84-239-4133-7.040. |aSpMaBN|bspa|cSpMaBN|erdc.080. 0|a821.134.2-31"15".100. 20|aCervantes Saavedra, Miguel de|d1547-1616.245. 13|aEl ingenioso hidalgo Don Quijote de la Mancha|h[Texto impreso]|cMiguel de Cervantes Saavedra ; ilustrado por José Segrelles.260. 0 |aMadrid|bEspasa Calpe|c[1997].300. |a2 v.|bil. col.|c32 cm.700. 11|aSegrelles, José
19
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 2 – Ejemplo 2: .001. |aa4731194.005. |a20100713.008. |a100419s2010 esp | |||| 000 0 spa.015. |aMON1005.017. |aVG 287-2010|bOficina Depósito Legal Vigo.020. |a978-84-96915-67-1.040. |aSpMaBN.080. |a821.134.2-22.09"15/16".080. |a821.134.2 Cervantes Saavedra, Miguel de 7 Novelas ejemplares.07.100. 1 |aVaiopoulos, Katerina.245. 10|aDe la novela a la comedia|h[Texto impreso] :|blas "Novelasejemplares" de Cervantes en el teatro del Siglo de Oro|cKaterina Vaiopoulos.260. |aVigo, Pontevedra|bAcademia del Hispanismo|c2010.300. |a295 p.|c21 cm.490. 0 |aBiblioteca Cátedra Miguel de Cervantes|v15.504. |aBibliografía: p. 281-295.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|tNovelas ejemplares.650. 7|aIntertextualidad.650. 7|aComedia española|yS.XVI-XVII|xHistoria y crítica
20
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 2 – Ejemplo 3: .001. |aMimo0000660591.005. |a20090514.008. |a900725n fra r fre.010. |zIND9100156998|zIND9100156999.016. 7 |abimoBNE19971409228|2SpMaBN.040. |aSpMaBN|bspa|cA2.080. 0|a86-321.2"16".100. 1 |aCervantes Saavedra, Miguel de|d1547-1616.240. 10|aNovelas ejemplares|lFrancés.245. 14|aLes Nouvelles exemplaires|h[Texto impreso]|cTraduction de LouisViardot. Avec préface... et notes par Maurice Bardon....260. 1 |aParis|b[s.n.|cS.a.|fImp. Paul Dupont].300. |aXXVIII + 528 p. + 1 h.|c18 cm.490. 0 |aClassiques Garnier.700. 1 |aViardot, Louis|d1800-1883.700. 1 |aBardon, Maurice.
21
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 2 – Ejemplo 4: .001. |aMimo0002138672.005. |a20071219.008. |a061025s2005 rus| ||| ||rus.016. 7 |abimoBNE20061026593|2SpMaBN.020. |a5-02-027028-8.245. 00|aIberica|h[Texto impreso]|b : k 400-letiiu romana servantesa "DonKijot".260. |aSant-Peterburg|bNauka|c2005.300. |a293 p.|c22 cm.500. |aSelección de ponencias presentadas en las XXVIII, XXIX y XXX'Lecturas Cervantinas' que anualmente se celebran en la Universidad Estatal deSan Petersburgo.594. |aPrecede al tít.: Rossiiskaia akademiia nauk.594. |aPort. adicional en español.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xInfluencia|2embne.650. 7|aLiteratura rusa|yS.XX|xHistoria y crítica.650. 7|aLiteratura española|yS.XVI-XVII|xHistoria y crítica.710. 2 |aRossiiskaia akademiia nauk.730. 0 |aLecturas cervantinas
22
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Identificar alcance y fuente de datosFASE 2 – Ejemplo 5: .001. |aa4696572.005. |a20100406.008. |a100305s2010 espa | |||| 000 0 spa.015. |aMON1003.017. |aM 2148-2010|bOficina Depósito Legal Madrid.020. |a978-84-613-7663-6.100. 1 |aBarros Campos, José.245. 10|aArganda del Rey, cuna de Miguel de Cervantes|h[Texto impreso]|cJoséBarros Campos.260. |a[Madrid]|bJ. Barros|cimp. 2010|eMadrid|fReprografía Simancas yCasanova.300. |a573 p.|bil.|c30 cm.504. |aBibliografía: p. 567-573.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xFamilia.600. 17|aCervantes (Familia)|xGenealogía.651. 7|aArganda del Rey|xHistoria
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Proceso de transformación de los datos
• OBJETIVOS: 1. Encontrar una metodología de transformación
sistemática y repetible2. Diseño e implementación de aplicaciones que
automaticen el proceso.3. Demostrar la aplicabilidad de los modelos de IFLA
• Ciclo de vida del proceso: Iterativo e incremental
• Esfuerzo conjunto para aunar los dos mundos: Bibliotecas y Web Semántica (Linked Data)
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Principales fases del proceso
1. Análisis de los datos:Entender la organización de los registros de autoridades y bibliográficosDesarrollo de herramientas de apoyo (informe de combinaciones de subcampos, nº de apariciones de campos…)
2. Correspondencias registros MARC21 y ModelosProceso complejo y difícil de sistematizarMEJORA: Herramienta que permite sistematizar el proceso de generación de correspondencias (mediante Hojas de cálculo).
3. Transformación de los datos:Herramienta ad-hoc de transformación automática
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Principales fases del proceso
4. Creación del dominio cultura.linkeddata.es
5. Publicación de los datos en RDF:Virtuoso ServerPubby
6. Enlazado con otros datasets:FASE 1: VIAF y otras BibliotecasFASE 2: DBPEDIA, Geo, etc.
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Desarrollo de interfaz (en proceso)• Búsqueda y navegación del catálogo• Utilizando los datos en RDF• Basada en FRBR• Tecnologías de software libre
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Algunos resultados
Nº total tripletas:344.439
29
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Tareas en curso
• Expediente de adquisición del servidor para almacenar los datos del catálogo en RDF
Configuración recomendada: 2 procesadores Intel Xeon E5506 Processor (2.13GHz, 4M Cache, 4.86 GT/s QPI), 800MHz Max Memory 16Gb de memoria RAM 4 Discos duros de 450Gb SAS 15000 rpm en raid 5 + controladora RAID 2 fuentes de alimentacion redundantes de 500W
• Evaluación enlacesComprobar si enlazan correctamente
• FormaciónCurso de Linked Data incluido en el Plan de Formación de la
BNE
30
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Posibles proyectos futuros
• Transformación a RDF de todo el catálogo -actualizaciones
• Catálogos colectivos multilingües de autoridades – idea original
• Enlazado con Dataset de Geonames y de GeoLinkedData. •Ejemplos:
Obtención de bibliografías locales: dependiendo del lugar de publicación
Ubicación de mapas antiguos y otros objetos digitalizados, por medio del lugar geográfico
31
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de AndalucíaMálaga 25, 26 y 27 de Mayo de 2011
Gracias por su atención
www.bne.eshttp://catalogo.bne.eshttp://bdh.bne.eswww.facebook.com/bnewww.youtube.com/bibliotecaBNEhttp://www.flickr.com/photos/bibliotecabne