Post on 21-Apr-2015
UNIVERSITAT DE BARCELONA
Metadatos OAI-PMH
Josep-Manuel Rodríguez-Gairínrodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals
2009-2010
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
OAI-PMH
• es un protocolo basado en HTTP diseñado para distribuir, recolectar, y federar metadatos.
• El protocolo utiliza XML tanto en el transporte como en la codificación de los datos.
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
OAI-PMH
• Actualmente se encuentra en la versión 2.0
• http://www.openarchives.org/OAI/openarchivesprotocol.html
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Los spiders o robots
• Recogen los datos
• De todo tipo de fuentes
• Los indexan de manera automática
• punto común de consulta
• Los resultados son relevantes
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
DATA PROVIDERS
SERVICE PROVIDER
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Los proveedores de servicios
• Recogen los metadatos
• registrados de manera manual• en fuentes concretas (data providers)
• punto común de consulta
• Los resultados son relevantes
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos
• Bases de datos de imágenes– http://mdc.cbuc.cat
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos
• Bases de datos de imágenes– http://mdc.cbuc.cat
• Depósitos o repositorios– Temáticos http://eprints.rclis.org/
– Institucionales http://www.ucm.es/BUCM/servicios/6358.php
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos
• Bases de datos de imágenes– http://mdc.cbuc.cat
• Depósitos o repositorios– Temáticos http://eprints.rclis.org/
– Institucionales http://www.ucm.es/BUCM/servicios/6358.php
• Directorios (http://www.directorioexit.info)
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos
• Bases de datos de imágenes– http://mdc.cbuc.cat
• Depósitos o repositorios– Temáticos http://eprints.rclis.org/
– Institucionales http://www.ucm.es/BUCM/servicios/6358.php
• Directorios (http://www.directorioexit.info)
• Agregadores (http://www.temaria.net)
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de servicios
• Nacionales – HISPANAO (ROAI): http://roai.mcu.es/es/inicio/inicio.cmd– E-revistas : http://www.erevistas.csic.es/– Universia : http://biblioteca.universia.net/
• Internacionales – OAISTER: http://oaister.worldcat.org/
• Temáticos
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
¿Cómo funciona el protocolo?
• Conversación entre provider y harvester
– A través de una conexión Web (port 80)– La pregunta se envía en la URL (GET)– La respuesta se recibe en XML
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Verbos
• Las preguntas tienen 6 verbos que se envian en la URL
– Identify– ListMetadataFormats– ListSets– ListIdentifiers– ListRecords– GetRecord
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Hola!¿Puedes decirme con quién estoy hablando?
http://www.temaria.net/metadatos.php?verb=Identify
Hola!Yo soy Temaria, estoy en la
URL…., mi administrador es …..
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="temaria.xsl" ?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.o <responseDate>2007-09-06T17:13:48Z</responseDate> <request metadataPrefix="oai_dc" verb="Identify">http://www.temaria.net/metadatos.php</request> <Identify> <repositoryName>Temaria: rev digitales de biblioteconomia documentación</repositoryName> <baseURL>http://temaria.net/metadatos.php</baseURL> <protocolVersion>2.0</protocolVersion> <adminEmail>rodriguez.gairin@ub.edu</adminEmail> <earliestDatestamp>1976-01-01</earliestDatestamp> <deletedRecord>persistent</deletedRecord> <granularity>YYYY-MM-DD</granularity> <compression>deflate</compression> <description> <oai-identifier xmlns="http://www.openarchives.org/OAI...................> <scheme>oai</scheme> <repositoryIdentifier>temaria.net</repositoryIdentifier> <delimiter>:</delimiter> <sampleIdentifier>oai:temaria.net:1</sampleIdentifier> </oai-identifier> </description> </Identify></OAI-PMH>
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Perfecto!¿Puedes decirme qué formatos de metadatos
puedes enviarme?
http://www.temaria.net/metadatos.php?verb=ListMetadataFormats
Puedo darte los metadatos en formato Dublin Core
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="temaria.xsl" ?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2007-09-06T17:24:10Z</responseDate> <request metadataPrefix="oai_dc" verb="ListMetadataFormats">http://www.temaria.net/metadatos.php</request> <ListMetadataFormats> <metadataFormat> <metadataPrefix>oai_dc</metadataPrefix> <schema>http://www.openarchives.org/OAI/2.0/oai_dc.xsd</schema> <metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace> </metadataFormat> </ListMetadataFormats></OAI-PMH>
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Muy bien, ¡puedo recolectar DC!
¿Puedes decirme si tienes la información
agrupada en conjuntos?
http://www.temaria.net/metadatos.php?verb=ListSets
Tengo ocho conjuntos identificados como 1697-7904
(anales de documentación)…….
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="temaria.xsl" ?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2007-09-06T17:26:40Z</responseDate> <request metadataPrefix="oai_dc" verb="ListSets">http://www.temaria.net/metadatos.php</request> <ListSets> <set> <setSpec>1697-7904</setSpec> <setName>Anales de documentación</setName> </set> <set> <setSpec>1885-0685</setSpec> <setName>Bibliodoc: anuari de biblioteconomia, documentació i informació</setName> </set> ………………………………………………
<set> <setSpec>1136-7679</setSpec> <setName>Revista TK</setName> </set> </ListSets></OAI-PMH>
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Me interesan los Anales de
Documentación. Ya los recolecté en Enero.
¿Puedes enviarme los nuevos desde
entonces?
http://www.temaria.net/metadatos.php?verb=ListRecords&metadataPrefix=oai_dc&from=2007-02-01
Aquí los tienes….. Te envio 25, pideme más si quieres.
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://................."> <responseDate>2007-09-06T17:56:01Z</responseDate> <request from="2007-02-01" metadataPrefix="oai_dc" verb="ListRecords">http://www.temaria……”> <ListRecords> <record> <header> <identifier>oai:temaria.net:2422</identifier> <datestamp>2007-07-31 19:19:05</datestamp><setSpec>1575-5886</setSpec> </header> <metadata> <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" ……………"> <dc:title>Usuaris, necessitats i serveis : experiencia de la Biblioteca de Terrassa</dc:title> <dc:creator>Gental Morral, Maria</dc:creator> <dc:subject>Bibliotecas municipales | Servicios de extensión bibliotecaria | ……</dc:subject> <dc:description>En aquest article es presenta l'actuació de la Biblioteca del Dist…….”> <dc:publisher>Univ. de Barcelona. Facultat Biblioteconomia i Documentació</dc:publisher> <dc:date>2007-06</dc:date> <dc:type>Text.Article</dc:type> <dc:format>text/html</dc:format> <dc:identifier>http://www2.ub.edu/bid/consulta_artic……..18gental.htm</dc:identifier> <dc:source>BiD: de biblioteconomia i documentació, núm. 18 (juny 2007)</dc:source> <dc:language>cat</dc:language> <dc:relation>1575-5886</dc:relation> <dc:rights>Universitat de Barcelona. Facultat de Biblioteconomia i Documentació</dc:rights> </oai_dc:dc> </metadata> ………………………….…..
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<dc:source>Anales de documentación, núm. 10 (2007), p. 429-450.</dc:source> <dc:language>spa</dc:language> <dc:relation>1697-7904</dc:relation> <dc:rights>Universidad de Murcia. Facultad de Comunicación y Documentación</dc:rights> </oai_dc:dc> </metadata> </record> <resumptionToken>25::2007-07-31::::::25</resumptionToken> </ListRecords> </OAI-PMH>
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Si, quiero más registros.
¿Puedes enviarme desde ese punto?
http://www.temaria.net/metadatos.php?verb=ListRecords&ResumptionToken=25::2007-07-31::::::25
Aquí los tienes….. Te envio otros 25, pideme más si quieres.
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Muchas gracias !Los incorporo a mi
base de datos. Hasta la próxima!
Esto es una licencia ficticia….. Los servidores no tienen porquéser amables entre ellos y se despiden fríamente cortando la comunicación
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Problemas
• Insuficiencia del DC para codificar determinados tipos de documentos– Se usaran otros conjuntos como
• Prism (artículos de revista)• Vcard (nombres de persona)
• Duplicidades
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Problemas
• Estandarización de contenidos– Autores
• Library of Congress Authorities • IraLIS (http://www.iralis.org)
– Instituciones• Propuesta FECYT
• http://biblioteca.unex.es/PDF/nombre_autor.pdf
– Materias
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Programas disponibles
• Como data provider– Gestión de imágenes
• ContentDM http://www.dimema.com/
• FEDORA http://www.fedora-commons.org/
– Repositorios• Dspace http://www.dspace.org/
• Eprints http://www.eprints.org
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Programas disponibles
• Como service provider
– PKP Open Archives Harvester http://pkp.sfu.ca/?q=harvester
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Prácticas
• Crear un documento ficticio• http://pdos.csail.mit.edu/scigen/
• Entrarlo en dos repositorios• DSpace http://ignucius.bd.ub.es:8180/dspace/
• Eprints http://eprints3.bd.ub.es/
• Recolectarlos• http://ignucius.bd.ub.es/harvester