Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital...
-
Upload
desiderio-melchor -
Category
Documents
-
view
5 -
download
2
Transcript of Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital...
“Indexado de texto completo en textos
digitalizados”5a Jornada sobre la Biblioteca Digital
Universitaria9 Noviembre de 2007
Marcio Luis Andrade Lessa
Biblioteca Nacional de Maestros
En que consiste
Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.
El material en una biblioteca digital se somete a:
• Catalogación• Digitalización• Indexado de texto completo del
contenido
Catalogación
Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette
Proceso para la digitalización
• Imágenes: registro asociado y metadatos• Digitalización de videos: registro asociado
y metadatos• Texto en imagen: se lo digitaliza y se
realiza un control de calidad.– OCR: Se realiza de manera automática un
conocimiento óptico de caracteres y se somete a algoritmos de depuración.
– Indexación: Se alimenta una base de datos con el documento asociado.
Organización del material
• Material organizado por inventario y páginas
• Software que actúa como “book reader” con conversión automática de formatos.
• Software para “streaming” de los videos digitalizados
Almacenaje
Inventario
Número de página
Sistema de archivos: ReiserFS
(Permite hasta 2.000.0000 de archivos por directorio)
Imagen: 200-360 DPI (2 MBY aprox en JPG)
00011354 - 0003 . JPG
00011354
Automatización
• Se cataloga el material agregando el registro correspondiente a la base de datos.• Se procede a la digitalización del material en las estaciones de trabajo• Control de calidad del material digitalizado• Ejecución de “script” de actualización del buscador
Reconocimiento óptico de caracteres
• Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores…
• Software: GOCR –Ocrad• Mediante IPC (Interprocess comunication)• Salida mediante una (pipe)
Algoritmos de depuración
• Por distancia: vectorizado de palabras• Algoritmo de “Bayer”• B-Tree*
Software de bases de datos
Se puede implementar en:
• Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella)
• MYSQL o cualquier otro motor de base datos relacional• ZODB (Base datos orientada a objetos – Python)
Arquitectura informáticaEstaciones de trabajo
Internet
Servicios:
Sitio web
Catálogos
Lectura de documentos on-line
Streaming de video
Cluster
Linux: etherblades + GFS
ConclusionesPros: • Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre.• Se realiza todo de manera casi automatizada.
Contras: • El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo
del OCR).• Hay que realizar una buena gestión de la calidad en los documentos digitalizados.
Contacto
Marcio Luis Andrade Lessa
Biblioteca Nacional de Maestros
Teléfono: 4129-1203
E-Mail: [email protected]