TÉCNICAS AVANZADAS DE BÚSQUEDA Y RECUPERACIÓN DE … · En un SID la información se estructura...
Transcript of TÉCNICAS AVANZADAS DE BÚSQUEDA Y RECUPERACIÓN DE … · En un SID la información se estructura...
TÉCNICAS AVANZADAS DE BÚSQUEDA Y
RECUPERACIÓN DE INFORMACIÓNAna Rosa Candela Hidalgo
Junio 2012
Proceso selectivo de promoción interna para el acceso a escalas del grupo A, subgrupo A1.
INTRODUCCIÓN. EL CONTEXTO ACTUAL EN LA RECUPERACIÓN DE INFORMACIÓN
Ana Rosa Candela Hidalgo 2
Desarrollo de Internet y de las Tecnologías de la Información y las comunicaciones gran impacto en las fuentes de información existentes y en los sistemas de recuperación de información Sociedad de la información gran volumen de información
disponible y su crecimiento exponencial INFOXICACIÓN Dispersión de la información en gran variedad de soportes y
formatos Nuevas tipologías documentales Aplicaciones de navegabilidad e intercambio de información que
potencian la interconexión entre usuarios y la trasferencia de información entre ellos
Nuevos cauces de difusión de la información científica y académica (open access, herramientas web 2.0 –RSS, blogs, gestores de referencias sociales-)
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 3
Para que la información documental pueda recuperarse, según las necesidades de los distintos tipos de usuarios, es fundamental su almacenamiento y organización en sistemas cuya estructura se adecue a las características de esta clase específica de información, y cuyo motor de búsqueda posibilite obtener resultados de manera satisfactoria.
Los sistemas de información son estructuras organizadas con la finalidad de transformar datos en información e información en datos. Estructuran y organizan los datos de manera sistemática y uniforme, facilitan mecanismos para acceder a ellos y están provistos de un aparato conceptual que permite representar el mundo o el entorno al que hacen referencia.
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 4
Entidades: objetos materiales o conceptuales del mundo real representados (personas, organizaciones, artículos de revista, noticias de prensa, páginas web…) se corresponden con registros, que es la unidad de información básica de los sistemas de información .
Atributos: características de las entidades del mundo real, que las representan y diferencian de otras entidades Cada uno de los valores de un atributo constituye un campo, una zona del registro (título, autor o creador, materia, fecha publicación…)
Los SI se desarrollan siguiendo dos modelos: relacional y documental, en función del objetivo del sistema, el tipo de información y de las necesidades de los usuarios del mismo.
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 5
Un SID es un sistema que acepta como entradas documentos cognitivos y necesidades de información y que produce como salidas personas informadas, a partir de un proceso de descripción y comparación. Descripción: permite identificar las entidades representadas en el
sistema y acceder a los documentos a partir de los elementos de la descripción características que lo diferencian de los demás y lo relacionan con el resto Atributos descriptivos (título, autor, fecha) y analíticos, que representan el
contenido (palabras clave, descriptores) recuperación de un documento concreto o de un conjunto de documentos
Comparación: permite relacionar las necesidades de información de los usuarios con un documento o conjunto de documentos necesitan motores de búsqueda que comparen los términos de la demanda informativa con los de la representación de los documentos, mediante mecanismos de confrontación exacta o parcial.
Ana Rosa Candela Hidalgo 6
En un SID la información se estructura en una base de datos, que consiste en un conjunto de datos almacenados en soporte informático y organizados de forma que pueden recuperarse de determinadas maneras, de acuerdo con las necesidades expresadas en la estrategia de búsqueda.
La recuperación se realiza por sistemas informáticos que manejan y explotan los ficheros de datos y, para que la información sea accesible, es necesario describir y analizar los documentos según sus características específicas.
El tercer elemento de un SID es el software de interfaz, que determina y condiciona la comunicación entre el usuario y el sistema
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 7
La naturaleza de la información y las características y necesidades del colectivo que usará los datos condicionan la organización de los datos que se almacenan y procesan y las formas de recuperación de los mismos. Diccionario de datos: lista de todos los campos de una base de datos
con la especificación de un conjunto de parámetros que los caracterizan: etiqueta (título, autor, descriptor), dominio (título, autor o descriptor del documento), tipo (alfanumérico, fecha), indización (sí o no), tratamiento documental (lenguaje libre, lenguaje controlado, no procede)...
Índices (ficheros o índices inversos) que permiten la recuperación, integrados por los valores de un campo indizado. Son ficheros en los que cada registro se corresponde con cada uno de los términos indizados, con un campo que recoge información sobre la localización del término, el tipo de campo, el lugar que ocupa dentro de ese campo y un puntero que permite el acceso inmediato al registro la forma en la que se procesa la información de cada campo de la BD en el fichero inverso determina las posibilidades de búsqueda
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 8
Documentos administrativos: tienen una estructura previsible, formada por un conjunto estable y repetitivo de elementos formales y un contenido predeterminado factura de venta: estructura integrada por fecha, nº de factura, importe, artículo, nº unidades vendidas, nombre del deudor y del emisor…, y siempre tratará sobre la deuda contraída por un deudor respecto al emisor de la misma.
Documentos cognitivos: poseen características estructurales (extensión, estructura en párrafos o en secciones y subsecciones, subtítulos, títulos paralelos, autores diversos, distintos roles de responsabilidad...) y semánticas poco repetitivas y son de naturaleza imprevisible. No se pueden predecir anticipadamente los temas de los distintos documentos integrados en una unidad de información y la mayor dificultad es la expresión de su contenido.
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 9
Sistemas de gestión de bases de datos administrativas o relacionales Programas muy adecuados a la gestión de información muy estructurada de tipo
numérico o textual (datos propiamente dichos: volumen de ventas, sueldos, existencias de almacén…)
Implantados en el ámbito de la empresa para automatizar procesos no están pensadas para ser consultadas por personas (usuarios), sino para ser usadas como parte de procesos informáticos (generar facturación mensual, nóminas….)
Utiliza tablas homogéneas para representar entidades. Cada fila es una entidad (cliente) y cada columnas: un atributos (apellido). Una base de datos relacional tendrá diversas tablas (personal, retribuciones según puesto de trabajo…)
Se pueden combinar filas y columnas de las distintas bases de datos para generar otra nueva
Los documentos que procesan tienen una estructura previsible, formada por un conjunto estable y repetitivo de elementos formales y un contenido predeterminado factura de venta: estructura integrada por fecha, nº de factura, importe, artículo, nº unidades vendidas, nombre del deudor y del emisor…, y siempre tratará sobre la deuda contraída por un deudor respecto al emisor de la misma.
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 10
Sistemas de gestión de bases de datos documentales (textuales): Adecuadas para la gestión de información con gran cantidad de texto
discursivo y poco estructurado, típica de los documentos cognitivos (artículos de revistas, informes, patentes, páginas web, noticias de prensa…) documentos de tipo científico, técnico o cultural
Presentan: un tipo de “registro irrestricto”: no hay restricciones previas al tipo de registro a
manejar: esquemas abiertos o articulados en campos y tipos de datos, distintos tipos de registros coexistentes, longitud variable de campos, valores repetibles para los campos (documentos con más de un autor o un descriptor)…,
capacidad monobase o multibase indistintamente: abrir y operar una sola o varias BD a la vez
índices analíticos (fichero invertido o inverso): los índices analíticos suelen basarse en una estructura denominada fichero invertido o inverso
Lenguaje e interfaces de consulta orientados al usuario: exploración (registros o índices), lenguajes de interrogación, estrategias de búsqueda, almacenamiento y reutilización de consultas
Definición de vistas (versiones de cada modelo de registro adaptadas a categorías de usuarios: administrador, operadores y usuarios finales) e informes
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Ana Rosa Candela Hidalgo 11
Índice analítico (fichero inverso) El fichero inverso es un índice o conjunto de índices compuestos por
todas y cada una de las palabras que aparecen en todos y cada uno de los registros de la base de datos. Algunos SRI pueden crear índices independientes para cada uno de los campos del registro.
El índice de una BDD es una representación de los temas presentes en todos los documentos de la BD
Su estructura permite: La existencia de valores repetidos (documentos indizados con el mismo
descriptor), La realización de búsquedas en documentos de texto completo con gran
rapidez La realización de tareas de control terminológico En estos índices, cada término o entrada del índice es único en una BD
documental, puede aparecer 100 veces el término “Economía”, pero sólo existe una entrada en el fichero invertido
Relacionar datos de contexto con cada término de entrada: su frecuencia, su posición exacta en cada registro, posibles sinónimos…
SISTEMAS DE INFORMACIÓN DOCUMENTAL
Por tanto, los ficheros invertidos son estructuras que almacenan un conjunto de entradas que ofrecen acceso rápido a los diferentes documentos a los que hacen referencia. Estas entradas suelen coincidir con unidades textuales (palabras, raíces, sintagmas), por lo que se pueden utilizar para almacenar el léxico de una colección.
Además de estas entradas, disponemos de un conjunto de referencias a documentos o a representaciones de documentos que nos permiten acceder a ellas de forma rápida
Ana Rosa Candela Hidalgo 12
Elemento ExplicaciónTérmino Todas y cada una de las palabras que forman parte de los registro so de los documentos de la
base de datos (y que no constan en el fichero de palabras vacías). Son siempre términos únicos, es decir, hay una sola entrada para cada término aunque aparezca muchas veces en uno o en muchos registros de la base de datos.
Frecuencia Número de registros (por tanto, número de documentos) en los que aparece el término. En algunos ficheros invertidos se consigna también el número de veces (frecuencia) con la que aparece en total el término
Localización Indicación de los parámetros de localización, imprescindible para la recuperación. La información necesaria consta, al menos, de los siguientes elementos: número de documento –número de campo (si es que hay campos) – número de palabra. El motivo es que hay que conocer la posición absoluta de la palabra en el documento para poder aplicar correctamente algunos operadores como el de proximidad.
SISTEMAS DE INFORMACIÓN DOCUMENTAL
COMPOSICIÓN TÍPICA DE UN ÍNDICE INVERTIDO
Fuente: Abadal, E; Codina, L. Bases de datos documentales: características, funciones y método. Madrid: Síntesis, 2005, p.97
Ana Rosa Candela Hidalgo 13
Término Frecuencia Localización
Barcelona 2 (00017, 03, 01) (03401, 01, 04)
Madrid 2 (00017, 03, 03) (17200, 02, 01)
Zaragoza 3 (00017, 03, 04), (03401, 01, 02) (17001, 04, 01)
EJEMPLO DE UN ÍNDICE INVERTIDO
Modelo de registro de la base de datos del
ejemplo01020304…
TítuloAutorFuenteDescriptores…
ID Campo 0340101 Título Historia ilustrada de Barcelona
02 Autor U. Eco
03 Fuente Vic. Editorial ZYX, 2002
04 Descriptores Barcelona, Historia
(03401, 01, 04)
(03401, 01, 04) y el resto de conjuntos de datos son vectores porque en cada conjunto la posición de cada elemento es significativa. El 1er elemento siempre es el identificador del registro, el 2º el identificador del campo y el 3º identifica el nº de orden de la palabra en el campo considerado
SISTEMAS DE INFORMACIÓN DOCUMENTAL
LA RECUPERACIÓN DE LA INFORMACIÓN
Ana Rosa Candela Hidalgo 14
Es el proceso de determinación y selección de la información más adecuada a las demandas o necesidades de información de los usuarios de un fondo documental, por medio automáticos o semiautomáticos
En la RI el objeto de la búsqueda es información de carácter textual, son documentos que contienen información.
En ésto radica la dificultad del proceso, pues intervienen las propiedades semánticas de los documentos (el contenido)
Las características de la información a tratar está en la base de la diferenciación entre la Recuperación de datos (data retrieval) y Recuperación de la información (information retrieval)
1Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 1-3. [Disponible en http://hdl.handle.net/10201/4316].
INTRODUCCIÓN. LA RECUPERACIÓN DE LA INFORMACIÓN
Ana Rosa Candela Hidalgo 15
Diferencias entre RD y RI (Blair, 1990) Según la forma de responder las preguntas:
en RD se emplean preguntas muy formalizadas, cuya respuesta es directamente la información deseada
En RI, las preguntas resultan difíciles de trasladar a un lenguaje normalizado y la respuesta es un conjunto de documentos que probablemente pueden contener la información deseada, con un cierto grado de incertidumbre.
Según la relación entre el requerimiento del sistema y la satisfacción de usuario: RD es determinista entre pregunta y satisfacción del usuario RI es probabilística, debido al nivel de incertidumbre de la respuesta
Según el criterio de éxito de la Búsqueda: En RD, el criterio a emplear es la exactitud de lo encontrado En RI, el grado en el que la respuesta satisface las necesidades de información del
usuario, su percepción personal de utilidad. Tramullas destaca en la RI la importancia del factor de predicción por
parte del usuario, que debe intuir los términos utilizados para presentar el contenido de los documentos
LA RECUPERACIÓN DE LA INFORMACIÓN
Ana Rosa Candela Hidalgo 16
Salton, 1983, formula la definición de RI más extendida2: “la recuperación de la información tiene que ver con la representación, almacenamiento, organización y acceso a los itemsde información”.
Croft, 1987: “es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes a la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental…"
En definitiva: la RI no es un hecho aislado vinculado al acceso a la información, sino que constituye un proceso que incluye también la representación, la organización, la búsqueda y la localización de la información. Se inicia, por tanto, con la descripción y el almacenamiento de los documentos.
2Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 4. [Disponible en http://hdl.handle.net/10201/4316].
SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Ana Rosa Candela Hidalgo 17
Los Sistemas de Recuperación de la Información son los programas informáticos que permiten automatizar las distintas tareas que se integran en el proceso de recuperación de la información
Por ejemplo, hay que diferenciar las bases de datos (colección organizada de datos e información almacenada) de los programas informáticos que permiten su explotación (sistemas de gestión de bases de datos –SGBD)
Forman el núcleo de diversas aplicaciones informáticas. Sistemas de gestión de bases de datos documentales Motores de búsqueda en internet
Ana Rosa Candela Hidalgo 18
Si la función básica de un SRI es "la recuperación de documentos que contengan información textual cuyo contenido resulte relevante, según el sistema, desde el punto de vista de las necesidades del usuario expresadas a través de los términos de búsqueda” (Moya, p. 554), éstos realizan dos operaciones básicas: la representación y búsqueda
Representación o indización: del contenido semántico de los documentos y de las necesidades de información del usuario (pregunta) con el uso de palabras o términos del lenguaje natural (términos de indización) las características de un documento se representan como un conjunto de términos de indización Puede ser automática (ordenadores, lenguaje natural ) o manual
(intelectual), utilizando lenguajes controlados
Búsqueda: proceso por el que el sistema examina las representaciones de los documentos y trata de equipararlas con las de la consulta, para determinar las que mejor satisfacen las necesidades de los usuarios, las más relevantes (las que presentan un mayor grado de semejanza).
SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Ana Rosa Candela Hidalgo 19
Tareas de un SRI:1. Indización de la
colección de documentos índice con las descripciones de los documentos
2. Análisis y representación de la consulta del usuario
3. Comparación de las descripciones del documento y la consulta
4. Ordenación de los resultados en función de su relevancia
SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Fuente: Vallez, M,, Pedraza-Jiménez, R. El procesamiento del lenguaje natural en la recuperación de información textual y áreas afines. Hipertext.net, nº 5, 2007, p. 4.
SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Ana Rosa Candela Hidalgo 20
SALTON, 1983: "cualquier SRI puede ser descrito como un conjunto de items de información (DOCS), un conjunto de peticiones (REQS) y algún mecanismo (SIMILAR) que determine qué ítems satisfacen las necesidades de información expresadas por el usuario en la petición"3
SIMILAR
Esquema simple de un SRI. Fuente: Salton , G. and MC Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.
3Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 5. [Disponible en http://hdl.handle.net/10201/4316].
LOS SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Ana Rosa Candela Hidalgo 21
SALTON, 1983: en realidad, el esquema es un poco más complejo, puesto que "los documentos suelen convertirse inicialmente a un formato especial, por medio del uso de una clasificación o de un sistema de indización, que denominaremos LANG"
ESQUEMA AVANZADO DE UN SRI. Fuente: Salton , G. and MC Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.
SIMILAR
LANG
• proceso establecido entre la entrada REQS y SIMILAR: proceso de formulación de la búsqueda
• proceso establecido entre SIMILAR y el conjunto de documentos DOCS: proceso de recuperación
• SIMILAR: proceso de determinación de la similitud existente entre la representación de la pregunta y la representación de los items de información.
SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)
Ana Rosa Candela Hidalgo 22
Funciones principales en un SRI (Chowdhury, 1999)1. Identificar las fuentes de información relevantes a las áreas de
interés de las solicitudes de los usuarios2. Analizar los contenidos de los documentos3. Representar los contenidos de las fuentes analizadas de manera
adecuada para compararlas con las preguntas de los usuarios4. Analizar las preguntas de los usuarios y representarlas de forma
adecuada para compararlas con las representaciones de los documentos de la base de datos
5. Realizar la correspondencia entre la representación de la búsqueda y los documentos almacenados en la base de datos
6. Recuperar la información relevante7. Realizar los ajustes necesarios en el sistema basados en la
retroalimentación con los usuarios
MODELOS DE SRI
Ana Rosa Candela Hidalgo 23
El diseño de un RSI se realiza siguiendo un modelo en el que se define: cómo se obtienen las representaciones de los documentos y de la
consulta la estrategia para evaluar la relevancia de un documento respecto
a una consulta los métodos para establecer la importancia (el orden) de los
documentos de salida
MODELOS DE SRI
Ana Rosa Candela Hidalgo 24
Baeza-Yates, en función de la tarea inicial que realiza el usuario en el sistema, clasifica los modelos de SRI en:1. aquellos en los que se recupera información por medio de una ecuación
de búsqueda (retrieval) que se inserta en un formulario destinado a ello Modelos clásicos: booleano, espacio vectorial y probabilístico Modelos estructurados.
2. Aquellos en los que se consultan (browse) los documentos en la búsqueda de referencias, basados en la navegación entre páginas web web
Estructura plana: simple lectura de un documento aislado del contexto Estructura guiada: facilita la exploración organizando los documentos en una
estructura tipo directorio con una jerarquía de clases y subclases Hipertexto: posibilidad de adquirir información de forma no estrictamente
secuencial, sino a través de nodos y enlaces.
Ana Rosa Candela Hidalgo 25
Elementos a considerar en un SRI: Necesidades de información: entidad subjetiva, consiste en un estado
psicológico. El usuario desea información sobre un tema o materia y no puede precisar con datos aquello que quiere conocer.
Documentos cognitivos: obras de creación o de pensamiento (sobre ciencia, tecnología, cultura), es decir, información textual en lenguaje natural RI esencial en un fondo documental de gran volumen Se pasa de la gestión de referencias bibliográficas a la gestión de
documentos a texto completo
MODELOS DE SRI
Ana Rosa Candela Hidalgo 26
Elementos a considerar en un SRI: El proceso de representación
La representación de un documento puede consistir en una ficha bibliográfica estructurada en una descripción formal (ISBD) y una descripción característica (contenido: descriptores) para el ordenador es un conjunto de palabras o términos de indización (cadenas de caracteres) Di= {t1, t2, t3,…tn} t1, t2, t3,…tn son palabras simples (turismo) o compuestas (turismo rural) que reflejan el
contenido temático del documento Di
Documento "Legislación sobre economía y trabajo en España y Europa" Di= {Economía, España, Europa, Legislación, Trabajo}
Las necesidades de información (pregunta) también se representan con términos de indización. Pj= {t1, t2, t3,…tn} Necesidad de información "legislación sobre trabajo y mujeres en Cataluña"
Pi= {Cataluña, Trabajo, Legislación, Mujeres}
MODELOS DE SRI
Ana Rosa Candela Hidalgo 27
Elementos a considerar en un SRI: El proceso de comparación
Un SRI compara de forma automática un conjunto de palabras que representa los documentos con el que representa la necesidad de información
Como resultado, se obtiene una ordenación de los documentos partiendo del grado de probabilidad de cada documento para satisfacer las necesidad de información, es decir, de su relevancia, a partir de la estimación del nº de elementos en común.
La relevancia tiene grados, no se limita a ser relevante o no ordenación de los resultados recuperados en función de ese valor y no de manera aleatoria u ordenados desde un punto de vista semántico no muy significativo (título o fecha de creación), como sucede en gran parte de las bases de datos documentales
Presentación y visualización de la información Pueden presentar uno o varios formatos de presentación (vistas) de los
documentos individuales o de los grupos de documentos recuperados (listas de resultados resumidas o detalladas), para adaptarlos a los intereses o las necesidades de los diferentes tipos de usuarios.
MODELOS DE SRI
MODELOS DE SRI
Ana Rosa Candela Hidalgo 28
MODELO BOOLEANO En un RI booleano, una vez indizados los documentos, y ante
la pregunta del usuario, existen dos objetos: la entidad documento y la pregunta, ambos representados por un conjunto de términos de indización
La recuperación se basa en obtener aquellos documentos que cumplan la función lógica del Álgebra de Boole, expresada en la consulta del usuario Los términos de la pregunta se pueden relacionar mediante los
operadores lógicos AND, OR y NOT. El motor de búsqueda proporciona otros tipos de búsquedas
suplementarias: por truncamiento y por proximidad. Opción de restringir la búsqueda a campos concretos o series
de datos
MODELOS DE SRI
Ana Rosa Candela Hidalgo 29
MODELO BOOLEANO El resultado de una ecuación de búsqueda booleana es un
conjunto que contiene los documentos relevantes (en ocasiones puede ser vacío)
El acierto es exacto: sólo hay dos tipos de documentos, los que cumplen las condiciones de la búsqueda y los que no.
La estructura de datos empleada tradicionalmente es el fichero inverso. Este fichero genera diversos índices de términos (todos los términos, términos agrupados y/o raíces de los términos) con punteros al fichero de los documentos o fichero directo.
El más empleado de forma tradicional en los sistemas de información bibliográfica (BB.DD, portales de revistas-e…)
Ana Rosa Candela Hidalgo 30
Término Frecuencia Localización
Barcelona 2 (00017, 03, 01) (03401, 01, 04)
Madrid 2 (00017, 03, 03) (17200, 02, 01)
Zaragoza 3 (00017, 03, 04), (03401, 01, 02) (17001, 04, 01)
EJEMPLO DE UN ÍNDICE INVERTIDO
Modelo de registro de la base de datos del
ejemplo01020304…
TítuloAutorFuenteDescriptores…
ID Campo 0340101 Título Historia ilustrada de Barcelona
02 Autor U. Eco
03 Fuente Vic. Editorial ZYX, 2002
04 Descriptores Barcelona, Historia
(03401, 01, 04)
(03401, 01, 04) y el resto de conjuntos de datos son vectoresporque en cada conjunto la posición de cada elemento es significativa. El 1er elemento siempre es el identificador del registro, el 2º el identificador del campo y el 3º identifica el nº de orden de la palabra en el campo considerado
MODELO BOOLEANO - FICHERO INVERSO
MODELOS DE SRI
Ana Rosa Candela Hidalgo 31
MODELO BOOLEANO LIMITACIONES
De difícil uso por los usuarios. Se requieren cierto tipo de conocimientos y habilidades.
Escaso control sobre el volumen del resultado producido por una petición concreta necesarias reformulaciones de la pregunta para lograr un volumen aceptable de resultados.
Todos los registros recuperados son supuestamente de la misma utilidad para el usuario. Se entregan de manera aleatoria. No existen mecanismos que permitan ordenarlos en función de su relevancia.
No permite reflejar la importancia relativa de los diferentes componentes de la pregunta todos los términos tienen un peso 1 o 0, dependiendo de si están o no presentes en la pregunta.
MODELOS DE SRI
Ana Rosa Candela Hidalgo 32
MODELO PROBABILISTICO (Sparck-Jones y Robertson) Para cada pregunta existe una respuesta ideal, un conjunto de
documentos que contienen exactamente los documentos relevantes y no otros
Requiere especificar correctamente las propiedades de estos documentos, pero no sabemos cómo hacerlo. Sólo conocemos la existencia de términos índices cuyo significado puede usarse para caracterizar esas propiedades.
Como esos términos son desconocidos al preguntar, hay que llevar a cabo una conjetura inicial, que genera un primer conjunto de documentos. A continuación se interactúa con el usuario para mejorar la calidad.
El usuario valora la respuesta y selecciona los documentos relevantes y el sistema emplea esa información para refinar la respuesta
Por repetición de este proceso, se espera que la descripción de la respuesta evolucione aproximándose a la ideal, porque cada paso realimenta la información disponible para calcular la relevancia de un documento.
MODELOS DE SRI
Ana Rosa Candela Hidalgo 33
MODELO DE ESPACIO VECTORIAL (Salton) Después del booleano, es el modelo de mayor influencia. A este
modelo responden los motores de búsqueda en la web. Los términos de indización son considerados como coordenadas en un
espacio informativo multidimensional. Documentos y preguntas son representados como vectores que
recogen la frecuencia de aparición de los términos en los documentos (términos significativos y sólo la raíz común). Cada componente del vector representa al término de indización correspondiente.
La base de datos se concibe como una matriz de términos y documentos
La similaridad entre un documento y una pregunta se calcula mediante la comparación entre sus vectores. La similitud se entiende como afinidad entre el significado del documento y el tema de la pregunta Relevancia
MODELOS DE SRI
Ana Rosa Candela Hidalgo 34
si la pregunta fuera “¿cuál es el caudal del río Danubio?”, su vector de términos sería Q = (1,1,0,0,0,1,0,0,0).
Fuente: Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 10 [Disponible en http://hdl.handle.net/10201/4316].
La base de datos se concibe como una matriz de términos y documentos
MODELOS DE SRI
Ana Rosa Candela Hidalgo 35
MODELO DE ESPACIO VECTORIAL (Salton) La indización implica la asignación de designadores de contenido a los
documentos (ponderación de términos ), de manera que puedan ser fácilmente diferenciables en el espacio multidimensional. Las frecuencias absolutas de los términos distorsionan los resultados, por
eso se tiene en cuenta el peso de los términos en cada documento y en la colección
Se mide el valor de discriminación (incentivación de la presencia de aquellos términos que aparecen en menos documentos, frente a los que aparecen en todos o casi todos) frecuencia inversa de documento (idf)
El peso de un término en un documento aumenta si es más frecuente en el documento y disminuye si es más frecuente en todos los demás documentos. Se calcula mediante la combinación de la frecuencia de término (tf) y la frecuencia inversa del documento (idf) tf-idf
Considera la posibilidad del acierto parcial frente a la simple coincidencia de términos (booleano), más adecuado cuando se trabaja con el significado de los documentos
MODELOS DE SRI
Ana Rosa Candela Hidalgo 36
Con estos valores de similitud, se obtiene la siguiente respuesta: {D3,D2, D1, D4}
Fuente: Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 12 [Disponible en http://hdl.handle.net/10201/4316].
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 37
Baeza-yates señala 3 criterios de evaluación de los SRI Eficacia en la ejecución: medida del tiempo que tarda un SRI
en realizar una operación Eficiencia del almacenamiento: medida del espacio que se
precisa para almacenar los datos Efectividad en la recuperación de la información: medida del
éxito en satisfacer la demanda de información de los usuarios basada en la relevancia.
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 38
Evaluación del rendimiento de los SRI Se parte del concepto de relevancia un documento recuperado es
relevante cuando el contenido del mismo responde a la necesidad de información del usuario (pregunta) Subjetividad dificultad de determinar el grado de relevancia del documento: un
mismo documento puede ser considerado relevante o no por dos personas distintas (motivos de la búsqueda, grado de conocimiento), incluso recibir distinta evaluación por el mismo usuario en dos momentos distintos.
Existen distintos grados de relevancia (relevancia parcial), no puede medirse en términos binarios (relevante no relevante)
Los juicios de relevancia son realizados por los usuarios, en función de la utilidad del contenido de los documentos recuperados y no tienen por qué coincidir con los juicios de valor de los expertos sobre el contenido de los mismos, por eso parece más apropiado utilizar el término pertinencia. Relevancia: relación existente entre los contenidos de un documento con una
temática determinada Pertinencia: relación de utilidad entre un documento recuperado y una
necesidad de información individual
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 39
Evaluación del rendimiento de los SRI Medidas empleadas
Precisión: la relación existente entre el número de documentos relevantes recuperados y el total de documentos recuperados. Mide el % de documentos relevantes con el tema de la pregunta recuperados, y por tanto, el acierto, la habilidad del sistema para evitar el ruido
número de documentos relevantes recuperados x100número total de documentos recuperados
Exhaustividad: relación entre el número de documentos relevantes recuperados y el total de documentos relevantes sobre la materia objeto de la búsqueda presentes en la BD. Mide la capacidad del SRI para recuperar elementos relevantes.
número de documentos relevantes recuperados x100nº total de documentos relevantes existentes en la BD
Precisión=
Exhaustividad =
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 40
Evaluación del rendimiento de los SRI Tasa de fallo: % de documentos recuperados no relevantes sobre el
total de documentos no relevantes de la BD. Precisión y Exhaustividad se comportan de manera antagónica, ya que las
medidas tendentes a incrementar la recuperación tienden a disminuir la precisión y viceversa
Búsquedas específicas obtienen resultados muy precisos, pero habrán perdido documentos por ese alto nivel de especificación. Se reduce la exhaustividad.B1:“contaminación de agua en los ríos”B2: “contaminación en los ríos”
Búsquedas generales recuperan la mayoría de los documentos relevantes, con el tema, pero también otros que no lo son. Se reduce la precisión.b1:“contaminación”b2: “contaminación en los ríos”
Fuente: Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 60 [Disponible en http://hdl.handle.net/10201/4316].
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 41
Evaluación del rendimiento de los SRI En el contexto de la web, los motores de búsqueda generalista
(google, altavista…) proporcionan altas tasas de exhaustividad (recuperan muchos documentos relevantes), pero su tasa de precisión es muy baja, ya que sólo una parte muy reducida de los documentos recuperados es relevante.
Los sistemas muy especializados, como las agencias de selección y evaluación de recursos digitales (BUBL, Go-Geo, Intute), proporcionan muchos menos recursos, probablemente tasas de exhaustividad muy bajas, pero las tasas de precisión se aproximan al 100%.
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 42
Evaluación rendimiento de los SRI Falsos positivos: un documento es un falso positivo cuando se
recupera pero no es relevante. Falsos negativos: un documento es un falso negativo cuando no
se recupera aunque sea relevante.
Factores que generan los falsos positivos y negativos: Indización deficiente del documento (descriptores inadecuados) Indización deficiente de la necesidad de información Grado insuficiente de especificidad del lenguaje documental Algoritmo de relevancia deficiente: documentos relevantes en
últimas posiciones de la lista de resultados o no relevantes en las primeras.
EVALUACIÓN DE LOS SRI
Ana Rosa Candela Hidalgo 43
Otros criterios de evaluación
Fuente: Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 57 [Disponible en http://hdl.handle.net/10201/4316].
TÉCNICAS DE INDIZACIÓN Como hemos señalado anteriormente, la RI engloba la
representación, almacenamiento, organización y acceso a los ítems de información. En la descripción y representación de los documentos contenidos en el SRI y en la de representación de la pregunta del usuario, juega un papel fundamental el lenguaje.
Dificultades derivadas de la riqueza y ambigüedad del lenguaje natural, el que utilizamos cuando hablamos y escribimos, en la RI. En contraposición, disponemos de los lenguajes documentales, de carácter unívoco (cada término representa un único concepto) para facilitarnos este proceso.
Ana Rosa Candela Hidalgo 44
TÉCNICAS DE INDIZACIÓN
Ana Rosa Candela Hidalgo 45
En el contexto de la indización automática. Tratan de imitar la indización intelectual (humana) Indización humana conceptos
Detecta descriptores simples y compuestos, asigna descriptores aunque la palabra no esté presente en el documento y los descarta aunque estén
Indización automática cadenas de caracteres Las palabras únicas son las diferentes cadenas de caracteres que contiene el
documento cada una de las palabras diferentes de un documento
La moderna RI se decanta por la utilización del texto, el lenguaje natural, para la indización de los documentos técnicas de procesamiento del lenguaje natural (PLN) Motores de búsqueda del web Herramientas de traducción automática Generación automática de resúmenes
TÉCNICAS DE INDIZACIÓN
Ana Rosa Candela Hidalgo 46
El lenguaje natural está constituido por las palabras oexpresiones libres del lenguaje común que se encuentran tanto enlos documentos (título, resumen y texto), por tanto utilizadas porel autor, como en la consulta que se plantea el usuario. Se utilizanlos propios términos del texto para la indización y la recuperación.Generalmente se utiliza el término “texto libre” como sinónimo.
Lenguaje natural Vs. lenguaje artificialLenguaje o texto libre Vs. lenguaje controlado
El lenguaje artificial representan los conceptos y la materia deldocumento, a la hora de indizarlos y recuperarlos, mediante unlenguaje normalizado y controlado. Existe previamente una listalimitada y estructurada de términos que se pueden utilizar pararepresentar el contenido de los documentos y las peticiones delos usuarios.
TÉCNICAS DE INDIZACIÓN - PLN
Ana Rosa Candela Hidalgo 47
El procesamiento del lenguaje natural resulta problemático por las propiedades del mismo: variación y ambigüedad lingüística Ambigüedad lingüística: una palabra o frase permite más de una
interpretación ruido documental A nivel morfológico: una misma palabra con diferentes roles morfosintácticos
en función del contexto en que aparece Deja la comida que sobre sobre la mesa e la cocina, dijo llevando el sobre en la mano
A nivel sintáctico (relaciones entre palabras para formar sintagmas y frases): posibilidad de asociar a una frase más de una estructura sintáctica María vio a un niño con un telescopio en la ventana
A nivel semántico (significado de una palabra y el de una frase a partir de los significados de las palabras que la componen): polisemia Luis dejó el periódico en el banco
Provocada por la anáfora: presencia en la oración de pronombres y adverbios que hacen referencia a algo mencionado con anterioridad Ella le dijo que los pusiera debajo
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 48
El procesamiento del lenguaje natural resulta problemático por las propiedades del mismo: variación y ambigüedad lingüística Variación lingüística: utilización de diferentes palabras o expresiones
para comunicar una misma idea provoca silencio documental A nivel léxico: sinonimia (distintos términos para un mismo significado) A nivel pragmático (relación del lenguaje con el contexto en que se utiliza):
no puede realizarse una interpretación literal de los términos, hay que acudir al contexto en que es formulada la frase Se moría de risa
De momento, no existen técnicas de PLN que permitan extraer inequívocamente el significado de un documento o una consulta
Enfoques del PLN: Estadístico Lingüístico En la práctica los sistemas de procesamiento del lenguajes natural combinan
técnicas de ambos enfoques.
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 49
Procesamiento estadístico del lenguaje natural Representa el modelo clásico de los SRI y es el más utilizado
actualmente en los SRI textual. Cada documento está descrito por un conjunto de palabras clave
denominadas términos índice. Se basa en la “bolsa de palabras” (“bag of words”). Todas las palabras del
documento se tratan como términos índices para ese documento y se les asigna un peso en función de su importancia, determinada generalmente por su frecuencia de aparición en el documento.
No se toma en consideración ni el orden, ni la estructura, ni el significado de las palabras.
Se limitan a emparejar las palabras de los documentos con los de las consultas
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 50
Etapas del modelo de procesamiento estadístico del lenguaje natural Preprocesado de los documentos: se preparan los documentos para su
parametrización, eliminando elementos superfluos. Se identifican los términos relevantes.
Parametrización: se realiza una cuantificación de las características (es decir, de los términos) de los documentos.
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 51
Fases del preprocesado de los documentos1. Eliminación de los elementos del documento que no se van a indizar
(etiquetas o cabeceras de los documentos)
2. Normalización de textos: homogeneizar todo el texto de la colección de documentos sobre la que se trabajará:
a. Consideración de mayúsculas y minúsculasb. Control de ciertos parámetros como cantidades o fechasc. Control de abreviaturas y acrónimos
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 52
Fases del preprocesado de los documentosd. Eliminación de palabras vacías (stop words), palabras de frecuencia tan alta
que no tienen ninguna capacidad para discriminar documentos A priori: mediante la aplicación de listas (diccionario de palabras vacías) de palabras
con función gramatical pero significado semántico pobre (preposiciones, artículos, pronombres, adverbios) unas 300 palabras
A posteriori: se determinan por cálculo de frecuencia. Se desestiman palabras que aparecen, por ejemplo, en más del 80% de los documentos.
Se consigue reducir la lista inicial de términos en un 40% o 50%.
e. Identificación de N-Gramas (términos compuestos), para tratarlas como una única unidad conceptual.
Se estima la probabilidad de que de que dos palabras que aparecen con cierta frecuencia juntas, constituyen un solo término.
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 53
Fases del preprocesado de los documentos3. Lematización de los términos (stemming): determinar el lema (forma
básica más sus formas declinadas) de cada palabra que aparece en el texto para fusionar términos con una raíz común. Se representan de un mismo modo las distintas variantes de un término y
se reduce el tamaño del vocabulario mejora capacidad de almacenamiento del sistema y el tiempo de procesamiento de los documentos
4. Se detectan posibles sinónimos, a partir del uso de un tesauro o una lista de sinónimos.
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 54
Parametrización Asignación de un peso a cada uno de los términos relevantes asociados a un
documento. Se calcula en función de su frecuencia de aparición en el documento e indica la importancia de dicho término como descriptor del contenido de ese documento.
Además, se supedita esa frecuencia a su frecuencia de aparición total en el conjunto de términos de la colección, para establecer su capacidad discriminatoria (incentivación de la presencia de aquellos términos que aparecen en menos documentos, frente a los que aparecen en todos o casi todos ) Frecuencia inversa de documento (IDF) (relaciona su frecuencia en todo el fondo documental con el número total de documentos)
El peso o índice de discriminación del término se obtiene por la combinación de esas dos variables FT x FID
TÉCNICAS DE INDIZACIÓN -PLN
Ana Rosa Candela Hidalgo 55
Procesamiento lingüístico del lenguaje natural Se basa en la aplicación de técnicas y reglas que codifican el
conocimiento lingüístico Los documentos son analizados a partir de los diferente niveles
lingüísticos (palabras, sintagmas y frases) por herramientas lingüísticas que incorporan al texto las anotaciones propias de cada nivel. Análisis morfológico es ejecutado por los etiquetadores (taggers) que
asignan a cada palabra su categoría gramatical Análisis sintáctico del texto: analizar como se relacionan y combinan las
distintas palabras para formar unidades superiores (sintagmas y frases) Se aplican gramáticas (parsers), formalismos descriptivos del lenguaje que
tienen como objetivo fijar la estructura sintáctica del texto En RI se aplica un análisis superficial y se identifican las estructuras más
significativas (frase nominales, sintagmas verbales y preposicionales…) Obtener el significado de las frases (representación semántica ) que
componen el texto, a partir de los elementos que la forman.
LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 56
"El lenguaje documental es un sistema artificial de signosnormalizados, que facilitan la representación formalizada delcontenido de los documentos para permitir la recuperación,manual o automática, de información solicitada por los usuarios".3
Este lenguaje es utilizado por el documentalista en el momento dela indización y por el usuario para describir sus necesidades deinformación.
Los lenguajes documentales controlados permiten describir elcontenido de los documentos de una manera clara e inequívoca,evitando los problemas del lenguaje natural. Resultan unasimplificación del lenguaje natural.
Objetivo: recuperar documentos por contenido (temática), nopor otros criterios como autor, título, fecha, idioma, etc.
3GIL URDICIAIN, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de ladocumentación. 2ª ed. Madrid: Pirámide, 2008, p. 379.
LENGUAJE NATURAL Vs CONTROLADO
Ana Rosa Candela Hidalgo 57
El control del vocabulario permite: Controlar la sinonimia y la polisemia de los términos de
indización, además del género y número de lasexpresiones
Que el lenguaje sea unívoco: un único término, un únicoconcepto
Facilitar la ampliación de las búsquedas temáticas,enlazando los términos con relaciones de asociaciónsemánticas: genéricas, específicas y asociadas
Por el contrario: El lenguaje libre resulta más adecuado en caso de
necesidades de información muy específicas y adaptablea nueva terminología
LENGUAJES DOCUMENTALES -LENGUAJE NATURAL
Ana Rosa Candela Hidalgo 58
Los sistemas de recuperación de información con lenguaje natural pueden estar basados en la indización humana, la indización automática o no existir indización (búsqueda en un texto o parte de él, almacenada en el ordenador, mediante combinaciones de palabras y frases).
El vocabulario utilizado en los SRI puede consistir en palabras o frases extraídas del texto que representen al documento o consistir en textos completos o partes de él (títulos o resúmenes)
LENGUAJES DOCUMENTALES -LENGUAJE NATURAL
Ana Rosa Candela Hidalgo 59
Los lenguajes libres son vocabularios formados por términos de indización extraídos del lenguaje natural empleado en los documentos (título, resumen y texto completo), utilizados para representar y recuperar el contenido de los mismos.
Normalmente, se aplican sistemas de indización automática El LL más común es el fichero inverso o diccionario de una
base de datos documental, que recoge todas las palabras significativas del título, resumen y otros campos definidos en la B.D., ordenadas alfabéticamente.
El usuario puede realizar consultas combinando estos términos con los operadores de búsqueda.
Tipos de lenguajes libres Listas de palabras claves Listas de descriptores libres:
TIPOLOGÍAS DE LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 60
Según la función que desempeñen: Lenguajes de indización: son los empleados en la indización.
Permiten la representación del contenido de los documentos mediante palabras obtenidas del lenguaje natural Tesauros, listas de encabezamientos, listas de palabras claves y de
descriptores libres Lenguajes de clasificación: permiten describir el contenido de los
documentos mediante códigos numéricos o alfanuméricos, que se corresponden con las categorías en que se ha dividido previamente el conocimiento Clasificaciones (CDU, Dewey Decimal Classification, Library of Congress
clasification) Función principal: ordenación física de los documentos, aunque permiten
también la RI. Usadas por algunos directorios temáticos de Internet.
TIPOLOGÍAS DE LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 61
Según el control del vocabulario que realizan: Lenguajes libres: formados a posteriori. Están constituidos
por términos extraídos del propio documento (lenguaje natural), no predefinidos, en el proceso de indización. Algunos autores no los consideran lenguajes documentales Listas de palabras claves y de descriptores libres
Lenguajes controlados: creados con carácter previo a la indización. Constituidos por un vocabulario previamente elaborado. Existe un riguroso control terminológico, pues cada concepto está representado por un único término. Tesauros, listas de encabezamientos y Clasificaciones
TIPOLOGÍAS DE LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 62
Según el criterio de coordinación (momento en que se combinan los términos que los componen): Lenguajes Precoordinados: los términos se coordinan en
el momento de la descripción de los documentos o de la elaboración del lenguaje. Listas de encabezamientos y Clasificaciones
Lenguajes Postcoordinados: los términos se coordinan en el momento de la recuperación Tesauros, Listas de palabras claves y Listas de descriptores libres
TIPOLOGÍAS DE LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 63
Según la estructura interna: Lenguajes jerárquicos: estructura de carácter
arborescente, en la que cada concepto depende de uno superior. Clasificaciones
Lenguajes combinatorios: los términos se relacionan unos con otros, permitiendo gran cantidad de combinaciones en el momento de la recuperación. Tesauros (aunque participan de una estructura jerárquica) , Listas de
encabezamientos
TIPOLOGÍA DE LENGUAJES DOCUMENTALES
Ana Rosa Candela Hidalgo 64
TIPOLOGÍA DE LENGUAJES DOCUMENTALESSegún la FUNCIÓN que desarrollan
Lenguajes de INDIZACIÓN Listas de descriptores libres Listas de palabras claves Tesauros Listas de encabezamientos
Lenguajes de CLASIFICACIÓN Clasificaciones
Según el CONTROL sobre el VOCABULARO
Lenguajes LIBRES Listas de descriptores libres Listas de palabras clave
Lenguajes CONTROLADOS Tesauros Listas de encabezamientos Clasificaciones
Según el momento de COORDINACIÓN de los términos
Lenguajes PRECOORDINADOS Listas de encabezamientos Clasificaciones
Lenguajes POSTCOORDINADOS Listas de descriptores libres Listas de palabras claves Tesauros
Según la ESTRUCTURA INTERNA
Estructura JERÁRQUICA ClasificacionesEstructura COMBINATORIA Listas de encabezamientos
Tesauros
USOS LENGUAJE NATURAL Y LENGUAJE CONTROLADO
Ana Rosa Candela Hidalgo 65
LENGUAJE NATURAL: Búsquedas por título, resumen, texto completoo palabra clave en cualquier tipo de recurso
Catálogo Bases de datos de sumarios electrónicos Bases de datos (CSIC, Current contents…) Portales de Revistas electrónicas Recursos de información en Internet
LENGUAJE CONTROLADO Catálogo bibliográfico:
CDU (Clasificación Decimal Universal): sistema de clasificación utilizadopara ordenar y catalogar los fondos de la biblioteca de forma sistemática(por materias).Aparece en la signatura topográfica.
Listas de encabezamientos de materias Bases de datos:
Tesauros
LENGUAJES DOCUMENTALES. LISTAS DE PALABRAS CLAVES
Ana Rosa Candela Hidalgo 66
Vocabulario, ordenado alfabéticamente, de las palabras significativas (no vacías: artículos, preposiciones, conjunciones, pronombres, adverbios …) extraídas a partir del título, resumen o texto completo de los documentos.
Generalmente, son palabras simples, aunque también pueden ser palabras compuestas. Abarcan todas las categorías gramaticales (nombres comunes o propios, adjetivos, verbos…)
A la hora de plantear la consulta: Seleccionar todos los sinónimos posibles referentes a los conceptos que le
interesen Tener en cuenta singulares y plurales, masculinos y femeninos Utilizar todas las variantes de una misma raíz Tener en cuenta variantes ortográficas y todos los idiomas presentes Utilizar tanto las siglas como los conceptos desarrollados Eliminar los documentos no pertinentes
LENGUAJES DOCUMENTALES. LISTAS DE DESCRIPTORES LIBRES
Ana Rosa Candela Hidalgo 67
vocabulario, ordenado alfabéticamente, de conceptos destacados de los documentos a través de un proceso intelectual. Pueden ser palabras o expresiones extraídas del documentos o propuestas por los indizadores (sin que pertenezcan a un listado establecido previamente), en una o varias lenguas, independientemente del idioma del documento original. Suelen ser nombres y se eliminan las variantes formales de los
términos (genero, números, adjetivos, verbos …) Se mantienen la sinonimia y la polisemia, pero más reducidas que
con los listados de palabras claves. Imposibilidad de recuperar documentos si los conceptos de la
consulta han sido indizados de manera diferente
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 68
Lenguaje documental que recoge los conceptos destinados a representar el contenido de los documentos para facilitar su posterior recuperación. Esta constituido por listas de términos construidas a priori, ordenadas alfabéticamente, y de carácter abierto, es decir, que pueden ser ampliadas. Es un lenguaje precoordinado porque la combinación entre
conceptos es previa a la recuperación de la información Es un lenguaje enciclopédico, no especializado. Permite que el usuario acceda al documento por medio de la materia
general que trata y sirve para agrupar en el catálogo todos los documentos que traten sobre un mismo tema.
Los encabezamientos de materias extraídos de una lista e introducidos en el catálogo deben reflejar las relaciones entre conceptos.
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 69
Las listas de encabezamientos de materia se componen de encabezamientos y subencabezamientos.
El encabezamiento consiste en una o varias palabras que representan conceptos (Ej. Literatura, Literatura juvenil). Intenta condensar el tema sobre el que trata un documento.
El subencabezamiento es la palabra o palabras que siguen a un encabezamiento. Se añaden a fin de precisar o delimitar su sentido. Se separan con un guión [-]. Literatura – Antologías Literatura inglesa – Historia y crítica – Publicaciones periódicas
electrónicas Arquitectura – Francia – Historia -Videodiscos DVD Enfermería – Historia – Tesis doctorales
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 70
Clases de subencabezamientos: De materia: indican el punto de vista bajo el que es estudiado
un tema. Ej.: Matemáticas – Filosofía, Alpinismo - Historia De forma: expresan la forma de presentación de la obra
(diccionarios, enciclopedias, anuarios, atlas, bibliografías, etc.). Ej.: Español (lengua) - Diccionarios
Cronológicos: para representar el período histórico que estudia la obra. Ej.: España – Historia- 1516-1556 (Carlos I), Civilización occidental – Siglo 20º
Geográficos: algunos encabezamientos permiten el uso de subencabezamientos geográficos. Ej.: Agricultura – Francia –Normandía, Educación – Planificación - Madrid
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 71
Relaciones entre conceptos: (V., Véase) sirve para remitir de un término no aceptado en la
lista (sinónimos, siglas, variantes ortográficas, etc.) a otro sí aceptado.
El término correlativo (X., U.p., Úsase por) precede a los términos o formas no aceptados.
Ejemplo: Enseñanza – Investigación V: Educación – Investigación Educación – Investigación X: Enseñanza - Investigación
Ana Rosa Candela Hidalgo 72
En el catálogo ser refleja:
Término no admitido
Término admitido
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 73
(VA, V.a., Véase además) sirve para remitir a otros encabezamientos bajo los cuales el usuario puede encontrar información complementaria.
Ejemplo: Niños – Cuidados en instituciones X: Casas de niños Comunidades de niños Establecimientos de Beneficiencia Niños - Albergues VA: Asilos Asilos de indigentes Correccionales Guarderías Orfelinatos
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
Ana Rosa Candela Hidalgo 74
En el catálogo las materias relacionadas se reflejan:
LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 75
“Lenguaje documental compuesto de una lista normalizada y estructurada de términos, con relaciones semánticas entre ellos y que cubre uno o más campos específicos del conocimiento. Permite representar de manera unívoca el contenido de los documentos y de las consultas, dentro de un sistema documental determinado.”4
Está constituido por una lista de palabras llamadas descriptores, estructuradas de forma que unas se relacionan con otras que también están en el tesauro.
4López Yepes, J. Diccionario Enciclopédico de Ciencias de la Documentación. 2004
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 76
Descriptor (o término preferente) “es una palabra o grupo de palabras incluidas en un tesauro y escogidas de entre un conjunto de términos equivalentes para representar sin ambigüedad un concepto contenido en un documento o en una petición de búsqueda documental” 5.
No descriptor (o término no preferente o término equivalente) es un sinónimo o cuasisinónimo de un descriptor presente en el tesauro. No puede ser utilizado para indizar documentos ni para formular consultas, pero reenvía al descriptor aceptado. Es, por lo tanto, un punto de acceso que facilita el paso del
lenguaje natural al lenguaje del sistema, permitiendo la elección de los descriptores pertinentes.
5 Gil Urdiciain, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008.
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 77
Las relaciones entre los términos son de equivalencia, de jerarquía y de asociación De Equivalencia: se utilizan entre términos considerados
equivalentes. Permiten evitar ambigüedades terminológicas y la sinonimia, la homonimia, la antonimia y la polisemia. Se producen entre descriptores y no descriptores --, USE (Use) = UP, UF (Usado Por, Used For)
Jerárquicas: establecen relaciones de generalidad o especificidad entre descriptores. Los descriptores genéricos representan un concepto que engloba a otros más específicos. < TG, BT (Término Genérico, Broader Term) > TE, NT (Término Específico, Narrower Term)
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 78
Las relaciones entre los términos son de equivalencia, de jerarquía y de asociación Asociativa: relación entre dos descriptores que designan
conceptos afines, pero sin una relación semántica o jerárquica. +TR, RT (Término Relacionado, Related Term)
Para ayudar a la aclaración de los términos se utilizan las notas de alcance (NA). Son breve explicaciones del sentido de un descriptor dentro de contexto de un tesauro. No son definiciones. Se emplean para restringir el uso de un descriptor, explicar abreviaturas y siglas y excluir posibles significados. NE, SN (note explicative, scope note)
RELACIONES ENTRE TÉRMINOS DEL TESAURO
Ana Rosa Candela Hidalgo 79
Relación de equivalencia, término admitido al no admitido y a la inversa
Relación de jerarquía, término general y específico
Relación asociativa, términos afinesTesauro de URBANISMO. CINDOC
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 80
Los términos que componen un tesauro y sus relaciones se pueden representar de forma Alfabética, Sistemática Gráfica.
Para garantizar si efectividad en la RI es preciso que en su estructura estén presentes dos de esas formas de representación: alfabética y sistémica o alfabética y gráfica. La primera es la más habitual en los tesauros disponibles en las bases de datos accesibles en el web.
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 81
Presentación ALFABÉTICA índice alfabético de descriptores y no descriptores con información
asociada de sus relaciones. Con cada descriptor aparece el conjunto completo de sus relaciones semánticas, incluida toda su jerarquía.
Cada entrada lleva: Indicación del campo semántico al que pertenece el descriptor Notas aclaratorias o de aplicación Equivalencias semánticas (relación de descriptores y no descriptores) Descriptores genéricos Descriptores específicos Descriptores asociados
-- Relación de equivalencia USE (Use) = Relación de equivalencia UP, UF (Usado Por, Used For) < Relación jerárquicaTG, BT (Término Genérico, Broader Term) > Relación jerárquica TE, NT (Término Específico, Narrower Term) - Relación asociativaTR, RT (Término Relacionado, RelatedTerm)
PRESENTACIÓN ALFABETICA TESAURO CINDOC
Ana Rosa Candela Hidalgo 82
Relación alfabética con inclusión de, términos admitidos y no admitidos
Término admitido
Términos no admitidos
PRESENTACIÓN ALFABETICA TESAURO ERIC (PROQUEST)
Ana Rosa Candela Hidalgo 83
Presentación alfabética. El signo + expande el término correspondiente con toda la información asociada
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 85
Presentación SISTEMÁTICA O JERÁRQUICA presentación dividida en las grandes temáticas del tesauro (campos
semánticos o microdisciplinas). Los descriptores se ordenan dentro de sus disciplinas, de sus campos semánticos, formando cadenas jerárquicas (más genérico que, más específico que).
Permite obtener una visión de conjunto de la información contenida en el tesauro y hasta qué punto se ha detallado un tema.
Presentación GRAFICA 3 tipos:
Estructura arborescente Diagrama de flechas Terminogramas
Se complementan con un índice alfabético con notas aclaratorias, reenvíos entre términos preferentes y no preferentes y referencias entre términos genéricos, específicos y relacionados.
Reflejan principalmente relaciones jerárquicas entre descriptores. Los reenvíos hacia términos asociados se indican en los márgenes.
TESAURO: PSYCINFO
Ana Rosa Candela Hidalgo 89
Funcionamiento del tesauro en PsycINFO, base de datos integrada anteriormente en OVID y que ha pasado a PROQUEST. Adulteducation es el término admitido, que hemos de usar en lugar de high school equivalency. Nos informa del término más genérico, education, y del más específico Continuing education.
Término más general: Education
Término más específico: Continuing Education
Número de documentos asociados a ese término: Adult Education
EJEMPLOS DE TESAUROS
Ana Rosa Candela Hidalgo 90
Tesauros del CINDOC (Centro de Información y Documentación Científica) http://thes.cindoc.csic.es/index_esp.php
Tesauro de la UNESCO http://databases.unesco.org/thessp/
EurovocThesaurus http://europa.eu/eurovoc/
Selección de Tesauros de la Universidad de León, Área de Biblioteconomía y Documentación http://www3.unileon.es/dp/abd/tesauro/pagina/tesauros/tesauros.htm
Tesauro Europeo de la Educación http://www.freethesaurus.info/redined/es/index.php
Tesauros en plataforma OVID:, Medline, Inspect Tesauros en PROQUEST: ERIC, Sociological, PILOTS, Water
Resources, PsycInfo…
LENGUAJES DOCUMENTALESTESAUROS
Ana Rosa Candela Hidalgo 93
ÍNDICES AUXILIARES Indice permutado:
recoge la terminología completa del tesauro. Su objetivo es concentrar las palabras, para facilitar la búsqueda inicial y remitir al sistémico.
Los descriptores y no descriptores se encuentran ordenados alfabéticamente tantas veces como términos los componen permite localizar los términos compuestos a partir de cualquiera de los elementos que componen su sintagma.
Indice de identificadores Listado alfabético de términos, generalmente de uso frecuente, en el
sistema de información asociado al tesauro:. Se compone de términos onomásticos (nombres propios, de organismos
y de instituciones) y de topónimos. Los términos que lo componen se limitan a identificar organismos,
nombres de personas…, pero no describen el contenido semántico de los documentos.
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 94
Buscadores de internet son recursos de uso mayoritario en la búsqueda de información, pero producen mucho ruido, a la vez que existe un gran volumen de información importante que no se recupera. Internet global: red de información libre y gratuita, accesible mediante
programas navegadores, chats, mensajería… La información se obtiene mediante los procesos de recuperación de información de motores de búsqueda y directorios. Calidad de la información muy variada
Internet oscura: servidores o host totalmente inaccesibles desde nuestros ordenadores (porque cubren zonas restringidas con fines de seguridad nacional y militar, servicios de cortafuegos y protección, servidores inactivos…)
Internet Invisible: información disponible en internet, pero sólo accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Inaccesible mediante los procedimientos anteriores. Información de alta calidad
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 95
¿qué información podemos localizar en la Internet Invisible? Bases de datos: los buscadores sólo proporcionan acceso a la página de
inicio, porque las siguientes son dinámicas. Documentos pdf, word … Los motores de búsqueda fueron creados
sólo para localizar e indizar páginas html, aunque actualmente buscadores como Google indizan documentos en formato pdf, doc, xml…
Páginas web que no son indizadas por los motores de búsqueda porque se excluyen ellas mismas a través de un protocolo de exclusión
Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder a esas páginas, como por ejemplo, las revistas electrónicas con clave de acceso.
Herramientas más frecuentes de búsqueda en Internet: Directorios Motores de búsqueda Metabuscadores
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 96
La RI en la web se realiza navegando por su estructura hipertextualo localizando referencias por medio de los “buscadores”
Las técnicas de RI empleadas en internet, proceden de las empleadas en los SRI tradicionales, pero debieron modificarse para superar los desajustes motivados por el distinto entorno de trabajo y las características de los datos almacenados Enorme tamaño de las colecciones de documentos indexados Heterogeneidad de la información (temas, géneros y calidad) Porcentaje de recursos sin indexar La web es un contexto volátil (ubicación y actualización) refresco de
los índices Duplicados Métodos no ético de posicionamiento de las páginas
Son SRI de naturaleza distinta a los SGBDD, pero mantienen similitud en sus interfacies de usuario
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 97
Los “Buscadores” se clasifican en: DIRECTORIOS
Sistemas que clasifican documentos web seleccionados por materia y que permiten navegar por sus secciones o buscar en sus índices
La indización es humana y se manejan grandes bases de datos con direcciones de páginas, títulos, descripciones….
Se organizan en categorías temáticas ordenadas jerárquicamente, con listados de enlaces a las páginas referenciadas.
METABUSCADORES No poseen bases de datos propias, si no lanzan sus búsquedas a índices y
motores No almacenan direcciones y descripciones de páginas web en su base de
datos, sino registros de motores de búsqueda e información sobre ellos Colecciona las repuestas recibidas y las unifica o las presenta según la
fuente Eliminan duplicados No ofrecen la totalidad de los documentos de sus fuentes
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 98
MOTORES DE BÚSQUEDA Aplicaciones que manejan grandes bases de datos de referencias a
páginas web recopiladas por procesos automáticos, sin intervención humana
Uno o varios agentes de búsqueda (arañas o robots) recorren la web, a partir de una relación de direcciones inicial y recopilan nuevos direcciones a partir de ellas, generando etiquetas que permiten sus indexación y almacenamiento en la base de datos indización automática. Se encargan también de refrescar el índice de los motores Junto a la información de las páginas, recopilan información sobre enlaces
que salen o que recibe una página Afirman recopilar información sobre los metadatos insertos en las
páginas el rastreo puede ser superficial o profundo
También almacenan direcciones enviadas por los usuarios
LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
Ana Rosa Candela Hidalgo 99
MOTORES DE BÚSQUEDA Cuentan con algoritmos de búsqueda que analizan las páginas
almacenadas en su base de datos y proporcionan el resultado más adecuado a una búsqueda, ordenando los documentos en función de su relevancia.
Disponen de interfaces de usuario básicas y avanzadas (operadores booleanos, búsqueda exacta, operadores de adyacencia, límites) y algunos sistemas permiten refinar la búsqueda y restringir la búsqueda a alguna parte de los documentos
Aunque cada motor tiene su forma de alineamiento (presentación de los resultados), casi todos implantan el modelo del espacio vectorial relevancia basada en el peso o índice discriminatorio de los términos de indización (tf-idf) También se consideran otros elementos:
Frecuencias Aparición en determinados lugares Metadatos Enlaces de la página Google PageRank: los enlaces que sale o recibe la página son la base del alineamiento
Son SRI muy exhaustivos pero poco precisos
Ana Rosa Candela Hidalgo 100
Representación de los datos Los SRI utilizan distintos métodos para indizar los recursos
que incorporan a sus bases de datos A nivel sufmorfológico: sin ningún tipo de análisis morfológico,
sintáctico o semántico muy flexible para la recuperación Las fuentes de información se indizan como patrones de bits
Por palabra clave o conceptos: predominantes y se desarrollan gracias a la aplicación de técnicas estadísticas de RI.
Indización por palabras clave: Se crean índices inversos de raíces y palabras clave, direcciones, ubicación y
frecuencia de apariciones Basa la RI en la similitud formal de las palabras y las estadísiticas de su
aparición en documentos y colecciones de documentos
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
Ana Rosa Candela Hidalgo 101
Desde la Representación de los datos Forma más común de indización de textos en la web Algunos buscadores obtienen las palabras clave de las metaetiquetas
HTML, pero la mayoría indiza el texto completo de las páginas, incluyendo o no palabras vacías y eliminando a veces las más frecuentes
Indización por conceptos: Siguen procedimientos bastante complejos basados en teorías lingüísticas y
de inteligencia artificial En otros casos, se basan en una aproximación numérica, calculando la
frecuencia de aparición de ciertas palabras significativas análisis estadísticos de que términos aparecen juntos o relacionados en textos que se centran en u tema concreto
Se pueden recuperar recursos por materia, aunque las palabras incluidas en el documento no coincidan con las de la pregunta.
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
Ana Rosa Candela Hidalgo 102
Procesos de equiparación Los SRI de la web han incorporado, aunque no de manera uniforme,
técnicas de recuperación avanzadas para intentar superar los problemas del modelo de recuperación clásico booleano Posibilidad de plantear preguntas en lenguaje natural Ordenación de los resultados por su relevancia Ponderación de los términos de la consulta dependiendo de los intereses del
usuario Búsqueda mediante ejemplos y la ayuda en la formulación de las preguntas Utilización de "tesauros" para que el usuario pueda refinar las búsquedas mediante
la adición o eliminación de palabras Extensión de las búsquedas mediante truncamiento implícito (stemming) o
reducción automática de los términos de búsqueda a su raíz ruido documental
Si se ha generalizado el uso de métodos de equiparación parcial permiten la comparación matizada y no la igualación exacta entre los términos de la búsqueda y el documento
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
Ana Rosa Candela Hidalgo 103
Altavista, para mejorar los resultados de la búsqueda utiliza un “tesauro” para que el usuario pueda refinar sus búsquedas mediante la adición o eliminación de palabras clave de la ecuación de búsqueda
En realidad, no se trata de un lenguaje documental normalizado sino de una serie de términos que el buscador identifica como próximos o relacionados con los de la ecuación de búsqueda
Procesos de equiparación (matching processes)
Ana Rosa Candela Hidalgo 104
En respuesta a la consulta realizada, se muestran términos relacionados con la pregunta y se le pide al usuario que indique si desea incluirlos para reformular la consulta.
Ana Rosa Candela Hidalgo 105
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
Procesos de equiparación (matching processes)
Ana Rosa Candela Hidalgo 106
Capacidad de aprendizaje Algunos sistemas emplean el feedback de relevancia para mejorar su
funcionamiento El sistema pondera las palabras clave partiendo de la relevancia
determinada por los usuarios para los documentos recuperados en una 1ª búsqueda.
Otros sistemas utilizan la interacción con el usuario como medio para mejorar la relevancia
Síntaxis de la consulta Incorporación de la navegación y la búsqueda basada en términos
dentro de un mismo servicio. La mayor parte de los buscadores permiten formulaciones
booleanas y la búsqueda en lenguaje natural La búsqueda mediante ejemplos invita a identificar documentos
relevantes sobre los que basarse para mejorar la recuperación opción "mas como ése"
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
Ana Rosa Candela Hidalgo 107
Direct Hit, utiliza la interacción con el usuario para mejorar la relevancia. “Observa y registra” el comportamiento de los usuarios en las búsquedas. “Aprende” de ello y puede ofrecer una lista donde las páginas se ordenan según su popularidad para los internautas.
Comprueba si ya se le hecho con anterioridad esa pregunta u otra parecida en el buscador y ordena los resultados según el número de usuarios que han preferido esas referencias y las han consultado, seleccionándolas del conjunto de resultados ofrecidos.
Capacidad de aprendizaje
MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB
BIBLIOGRAFÍA
Ana Rosa Candela Hidalgo 109
Abadal, E; Codina Ll. Bases de datos documentales: características, funciones y método. Madrid: Síntesis, 2005.
Codina, L. Fundamentos de teoría de recuperación de información. En: Organización y recuperación de la información, documentos de lectura. UOC, 2002. [Disponible en http://www.temarium.com/serlibre/recursos/pdf/79009.ORI.Lecturas.pdf]
Cordón García, J. A. et al. Las nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0. Madrid. Pirámide, 2010.
Checa Rubio, A.M.; Masip Masip, P. Introducció a la cerca i recuperació de la informació. UOC [Material docente]
Checa Rubio, A.M.; Masip Masip, P. La importància del llenguatge en la recuperació de la informació. UOC [Material docente]
Gil Urdiciain, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008.
López Yepes, J. Diccionario Enciclopédico de Ciencias de la Documentación. Madrid: Síntesis, 2004
BIBLIOGRAFÍA
Ana Rosa Candela Hidalgo 110
Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004. [Disponible en Http://hdl.handle.net/10201/4316].
Moscoso, P. Sistemas de información documental: concepto, modelo, estructura y organización. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008, pp.519-536
Moya Anegón, F. de. Sistemas avanzados de recuperación de la información. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008, pp. 553- 599.
Olvera Lobo, Mª Dolores. Métodos y técnicas para la indización y recuperación de los recursos de la World Wide Web. Boletín de la Asociación Andaluza de Bibliotecarios, nº 57,1999, págs. 11-22. [Disponible en http://hdl.handle.net/10760/5980]
Vallez, M., Pedraza, R. El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines [en línea]. Hipertext.net., nº 5, 2007. [Disponible en http://hdl.handle.net/10760/9973 ].