TÉCNICAS AVANZADAS DE BÚSQUEDA Y RECUPERACIÓN DE … · En un SID la información se estructura...

TÉCNICAS AVANZADAS DE BÚSQUEDA Y

RECUPERACIÓN DE INFORMACIÓNAna Rosa Candela Hidalgo

Junio 2012

Proceso selectivo de promoción interna para el acceso a escalas del grupo A, subgrupo A1.

INTRODUCCIÓN. EL CONTEXTO ACTUAL EN LA RECUPERACIÓN DE INFORMACIÓN

Ana Rosa Candela Hidalgo 2

Desarrollo de Internet y de las Tecnologías de la Información y las comunicaciones gran impacto en las fuentes de información existentes y en los sistemas de recuperación de información Sociedad de la información gran volumen de información

disponible y su crecimiento exponencial INFOXICACIÓN Dispersión de la información en gran variedad de soportes y

formatos Nuevas tipologías documentales Aplicaciones de navegabilidad e intercambio de información que

potencian la interconexión entre usuarios y la trasferencia de información entre ellos

Nuevos cauces de difusión de la información científica y académica (open access, herramientas web 2.0 –RSS, blogs, gestores de referencias sociales-)

SISTEMAS DE INFORMACIÓN DOCUMENTAL


Para que la información documental pueda recuperarse, según las necesidades de los distintos tipos de usuarios, es fundamental su almacenamiento y organización en sistemas cuya estructura se adecue a las características de esta clase específica de información, y cuyo motor de búsqueda posibilite obtener resultados de manera satisfactoria.

Los sistemas de información son estructuras organizadas con la finalidad de transformar datos en información e información en datos. Estructuran y organizan los datos de manera sistemática y uniforme, facilitan mecanismos para acceder a ellos y están provistos de un aparato conceptual que permite representar el mundo o el entorno al que hacen referencia.



Entidades: objetos materiales o conceptuales del mundo real representados (personas, organizaciones, artículos de revista, noticias de prensa, páginas web…) se corresponden con registros, que es la unidad de información básica de los sistemas de información .

Atributos: características de las entidades del mundo real, que las representan y diferencian de otras entidades Cada uno de los valores de un atributo constituye un campo, una zona del registro (título, autor o creador, materia, fecha publicación…)

Los SI se desarrollan siguiendo dos modelos: relacional y documental, en función del objetivo del sistema, el tipo de información y de las necesidades de los usuarios del mismo.



Un SID es un sistema que acepta como entradas documentos cognitivos y necesidades de información y que produce como salidas personas informadas, a partir de un proceso de descripción y comparación. Descripción: permite identificar las entidades representadas en el

sistema y acceder a los documentos a partir de los elementos de la descripción características que lo diferencian de los demás y lo relacionan con el resto Atributos descriptivos (título, autor, fecha) y analíticos, que representan el

contenido (palabras clave, descriptores) recuperación de un documento concreto o de un conjunto de documentos

Comparación: permite relacionar las necesidades de información de los usuarios con un documento o conjunto de documentos necesitan motores de búsqueda que comparen los términos de la demanda informativa con los de la representación de los documentos, mediante mecanismos de confrontación exacta o parcial.


En un SID la información se estructura en una base de datos, que consiste en un conjunto de datos almacenados en soporte informático y organizados de forma que pueden recuperarse de determinadas maneras, de acuerdo con las necesidades expresadas en la estrategia de búsqueda.

La recuperación se realiza por sistemas informáticos que manejan y explotan los ficheros de datos y, para que la información sea accesible, es necesario describir y analizar los documentos según sus características específicas.

El tercer elemento de un SID es el software de interfaz, que determina y condiciona la comunicación entre el usuario y el sistema



La naturaleza de la información y las características y necesidades del colectivo que usará los datos condicionan la organización de los datos que se almacenan y procesan y las formas de recuperación de los mismos. Diccionario de datos: lista de todos los campos de una base de datos

con la especificación de un conjunto de parámetros que los caracterizan: etiqueta (título, autor, descriptor), dominio (título, autor o descriptor del documento), tipo (alfanumérico, fecha), indización (sí o no), tratamiento documental (lenguaje libre, lenguaje controlado, no procede)...

Índices (ficheros o índices inversos) que permiten la recuperación, integrados por los valores de un campo indizado. Son ficheros en los que cada registro se corresponde con cada uno de los términos indizados, con un campo que recoge información sobre la localización del término, el tipo de campo, el lugar que ocupa dentro de ese campo y un puntero que permite el acceso inmediato al registro la forma en la que se procesa la información de cada campo de la BD en el fichero inverso determina las posibilidades de búsqueda



Documentos administrativos: tienen una estructura previsible, formada por un conjunto estable y repetitivo de elementos formales y un contenido predeterminado factura de venta: estructura integrada por fecha, nº de factura, importe, artículo, nº unidades vendidas, nombre del deudor y del emisor…, y siempre tratará sobre la deuda contraída por un deudor respecto al emisor de la misma.

Documentos cognitivos: poseen características estructurales (extensión, estructura en párrafos o en secciones y subsecciones, subtítulos, títulos paralelos, autores diversos, distintos roles de responsabilidad...) y semánticas poco repetitivas y son de naturaleza imprevisible. No se pueden predecir anticipadamente los temas de los distintos documentos integrados en una unidad de información y la mayor dificultad es la expresión de su contenido.



Sistemas de gestión de bases de datos administrativas o relacionales Programas muy adecuados a la gestión de información muy estructurada de tipo

numérico o textual (datos propiamente dichos: volumen de ventas, sueldos, existencias de almacén…)

Implantados en el ámbito de la empresa para automatizar procesos no están pensadas para ser consultadas por personas (usuarios), sino para ser usadas como parte de procesos informáticos (generar facturación mensual, nóminas….)

Utiliza tablas homogéneas para representar entidades. Cada fila es una entidad (cliente) y cada columnas: un atributos (apellido). Una base de datos relacional tendrá diversas tablas (personal, retribuciones según puesto de trabajo…)

Se pueden combinar filas y columnas de las distintas bases de datos para generar otra nueva

Los documentos que procesan tienen una estructura previsible, formada por un conjunto estable y repetitivo de elementos formales y un contenido predeterminado factura de venta: estructura integrada por fecha, nº de factura, importe, artículo, nº unidades vendidas, nombre del deudor y del emisor…, y siempre tratará sobre la deuda contraída por un deudor respecto al emisor de la misma.



Sistemas de gestión de bases de datos documentales (textuales): Adecuadas para la gestión de información con gran cantidad de texto

discursivo y poco estructurado, típica de los documentos cognitivos (artículos de revistas, informes, patentes, páginas web, noticias de prensa…) documentos de tipo científico, técnico o cultural

Presentan: un tipo de “registro irrestricto”: no hay restricciones previas al tipo de registro a

manejar: esquemas abiertos o articulados en campos y tipos de datos, distintos tipos de registros coexistentes, longitud variable de campos, valores repetibles para los campos (documentos con más de un autor o un descriptor)…,

capacidad monobase o multibase indistintamente: abrir y operar una sola o varias BD a la vez

índices analíticos (fichero invertido o inverso): los índices analíticos suelen basarse en una estructura denominada fichero invertido o inverso

Lenguaje e interfaces de consulta orientados al usuario: exploración (registros o índices), lenguajes de interrogación, estrategias de búsqueda, almacenamiento y reutilización de consultas

Definición de vistas (versiones de cada modelo de registro adaptadas a categorías de usuarios: administrador, operadores y usuarios finales) e informes



Índice analítico (fichero inverso) El fichero inverso es un índice o conjunto de índices compuestos por

todas y cada una de las palabras que aparecen en todos y cada uno de los registros de la base de datos. Algunos SRI pueden crear índices independientes para cada uno de los campos del registro.

El índice de una BDD es una representación de los temas presentes en todos los documentos de la BD

Su estructura permite: La existencia de valores repetidos (documentos indizados con el mismo

descriptor), La realización de búsquedas en documentos de texto completo con gran

rapidez La realización de tareas de control terminológico En estos índices, cada término o entrada del índice es único en una BD

documental, puede aparecer 100 veces el término “Economía”, pero sólo existe una entrada en el fichero invertido

Relacionar datos de contexto con cada término de entrada: su frecuencia, su posición exacta en cada registro, posibles sinónimos…


Por tanto, los ficheros invertidos son estructuras que almacenan un conjunto de entradas que ofrecen acceso rápido a los diferentes documentos a los que hacen referencia. Estas entradas suelen coincidir con unidades textuales (palabras, raíces, sintagmas), por lo que se pueden utilizar para almacenar el léxico de una colección.

Además de estas entradas, disponemos de un conjunto de referencias a documentos o a representaciones de documentos que nos permiten acceder a ellas de forma rápida


Elemento ExplicaciónTérmino Todas y cada una de las palabras que forman parte de los registro so de los documentos de la

base de datos (y que no constan en el fichero de palabras vacías). Son siempre términos únicos, es decir, hay una sola entrada para cada término aunque aparezca muchas veces en uno o en muchos registros de la base de datos.

Frecuencia Número de registros (por tanto, número de documentos) en los que aparece el término. En algunos ficheros invertidos se consigna también el número de veces (frecuencia) con la que aparece en total el término

Localización Indicación de los parámetros de localización, imprescindible para la recuperación. La información necesaria consta, al menos, de los siguientes elementos: número de documento –número de campo (si es que hay campos) – número de palabra. El motivo es que hay que conocer la posición absoluta de la palabra en el documento para poder aplicar correctamente algunos operadores como el de proximidad.


COMPOSICIÓN TÍPICA DE UN ÍNDICE INVERTIDO

Fuente: Abadal, E; Codina, L. Bases de datos documentales: características, funciones y método. Madrid: Síntesis, 2005, p.97


Término Frecuencia Localización

Barcelona 2 (00017, 03, 01) (03401, 01, 04)

Madrid 2 (00017, 03, 03) (17200, 02, 01)

Zaragoza 3 (00017, 03, 04), (03401, 01, 02) (17001, 04, 01)

EJEMPLO DE UN ÍNDICE INVERTIDO

Modelo de registro de la base de datos del

ejemplo01020304…

TítuloAutorFuenteDescriptores…

ID Campo 0340101 Título Historia ilustrada de Barcelona

02 Autor U. Eco

03 Fuente Vic. Editorial ZYX, 2002

04 Descriptores Barcelona, Historia

(03401, 01, 04)

(03401, 01, 04) y el resto de conjuntos de datos son vectores porque en cada conjunto la posición de cada elemento es significativa. El 1er elemento siempre es el identificador del registro, el 2º el identificador del campo y el 3º identifica el nº de orden de la palabra en el campo considerado


LA RECUPERACIÓN DE LA INFORMACIÓN


Es el proceso de determinación y selección de la información más adecuada a las demandas o necesidades de información de los usuarios de un fondo documental, por medio automáticos o semiautomáticos

En la RI el objeto de la búsqueda es información de carácter textual, son documentos que contienen información.

En ésto radica la dificultad del proceso, pues intervienen las propiedades semánticas de los documentos (el contenido)

Las características de la información a tratar está en la base de la diferenciación entre la Recuperación de datos (data retrieval) y Recuperación de la información (information retrieval)

1Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 1-3. [Disponible en http://hdl.handle.net/10201/4316].

INTRODUCCIÓN. LA RECUPERACIÓN DE LA INFORMACIÓN


Diferencias entre RD y RI (Blair, 1990) Según la forma de responder las preguntas:

en RD se emplean preguntas muy formalizadas, cuya respuesta es directamente la información deseada

En RI, las preguntas resultan difíciles de trasladar a un lenguaje normalizado y la respuesta es un conjunto de documentos que probablemente pueden contener la información deseada, con un cierto grado de incertidumbre.

Según la relación entre el requerimiento del sistema y la satisfacción de usuario: RD es determinista entre pregunta y satisfacción del usuario RI es probabilística, debido al nivel de incertidumbre de la respuesta

Según el criterio de éxito de la Búsqueda: En RD, el criterio a emplear es la exactitud de lo encontrado En RI, el grado en el que la respuesta satisface las necesidades de información del

usuario, su percepción personal de utilidad. Tramullas destaca en la RI la importancia del factor de predicción por

parte del usuario, que debe intuir los términos utilizados para presentar el contenido de los documentos

LA RECUPERACIÓN DE LA INFORMACIÓN


Salton, 1983, formula la definición de RI más extendida2: “la recuperación de la información tiene que ver con la representación, almacenamiento, organización y acceso a los itemsde información”.

Croft, 1987: “es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes a la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental…"

En definitiva: la RI no es un hecho aislado vinculado al acceso a la información, sino que constituye un proceso que incluye también la representación, la organización, la búsqueda y la localización de la información. Se inicia, por tanto, con la descripción y el almacenamiento de los documentos.

2Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 4. [Disponible en http://hdl.handle.net/10201/4316].

SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)


Los Sistemas de Recuperación de la Información son los programas informáticos que permiten automatizar las distintas tareas que se integran en el proceso de recuperación de la información

Por ejemplo, hay que diferenciar las bases de datos (colección organizada de datos e información almacenada) de los programas informáticos que permiten su explotación (sistemas de gestión de bases de datos –SGBD)

Forman el núcleo de diversas aplicaciones informáticas. Sistemas de gestión de bases de datos documentales Motores de búsqueda en internet


Si la función básica de un SRI es "la recuperación de documentos que contengan información textual cuyo contenido resulte relevante, según el sistema, desde el punto de vista de las necesidades del usuario expresadas a través de los términos de búsqueda” (Moya, p. 554), éstos realizan dos operaciones básicas: la representación y búsqueda

Representación o indización: del contenido semántico de los documentos y de las necesidades de información del usuario (pregunta) con el uso de palabras o términos del lenguaje natural (términos de indización) las características de un documento se representan como un conjunto de términos de indización Puede ser automática (ordenadores, lenguaje natural ) o manual

(intelectual), utilizando lenguajes controlados

Búsqueda: proceso por el que el sistema examina las representaciones de los documentos y trata de equipararlas con las de la consulta, para determinar las que mejor satisfacen las necesidades de los usuarios, las más relevantes (las que presentan un mayor grado de semejanza).



Tareas de un SRI:1. Indización de la

colección de documentos índice con las descripciones de los documentos

2. Análisis y representación de la consulta del usuario

3. Comparación de las descripciones del documento y la consulta

4. Ordenación de los resultados en función de su relevancia


Fuente: Vallez, M,, Pedraza-Jiménez, R. El procesamiento del lenguaje natural en la recuperación de información textual y áreas afines. Hipertext.net, nº 5, 2007, p. 4.



SALTON, 1983: "cualquier SRI puede ser descrito como un conjunto de items de información (DOCS), un conjunto de peticiones (REQS) y algún mecanismo (SIMILAR) que determine qué ítems satisfacen las necesidades de información expresadas por el usuario en la petición"3

SIMILAR

Esquema simple de un SRI. Fuente: Salton , G. and MC Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.

3Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 5. [Disponible en http://hdl.handle.net/10201/4316].

LOS SISTEMAS DE RECUPERACIÓN DE LA INFORMACIÓN (SRI)


SALTON, 1983: en realidad, el esquema es un poco más complejo, puesto que "los documentos suelen convertirse inicialmente a un formato especial, por medio del uso de una clasificación o de un sistema de indización, que denominaremos LANG"

ESQUEMA AVANZADO DE UN SRI. Fuente: Salton , G. and MC Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.

SIMILAR

LANG

• proceso establecido entre la entrada REQS y SIMILAR: proceso de formulación de la búsqueda

• proceso establecido entre SIMILAR y el conjunto de documentos DOCS: proceso de recuperación

• SIMILAR: proceso de determinación de la similitud existente entre la representación de la pregunta y la representación de los items de información.



Funciones principales en un SRI (Chowdhury, 1999)1. Identificar las fuentes de información relevantes a las áreas de

interés de las solicitudes de los usuarios2. Analizar los contenidos de los documentos3. Representar los contenidos de las fuentes analizadas de manera

adecuada para compararlas con las preguntas de los usuarios4. Analizar las preguntas de los usuarios y representarlas de forma

adecuada para compararlas con las representaciones de los documentos de la base de datos

5. Realizar la correspondencia entre la representación de la búsqueda y los documentos almacenados en la base de datos

6. Recuperar la información relevante7. Realizar los ajustes necesarios en el sistema basados en la

retroalimentación con los usuarios

MODELOS DE SRI


El diseño de un RSI se realiza siguiendo un modelo en el que se define: cómo se obtienen las representaciones de los documentos y de la

consulta la estrategia para evaluar la relevancia de un documento respecto

a una consulta los métodos para establecer la importancia (el orden) de los

documentos de salida

MODELOS DE SRI


Baeza-Yates, en función de la tarea inicial que realiza el usuario en el sistema, clasifica los modelos de SRI en:1. aquellos en los que se recupera información por medio de una ecuación

de búsqueda (retrieval) que se inserta en un formulario destinado a ello Modelos clásicos: booleano, espacio vectorial y probabilístico Modelos estructurados.

2. Aquellos en los que se consultan (browse) los documentos en la búsqueda de referencias, basados en la navegación entre páginas web web

Estructura plana: simple lectura de un documento aislado del contexto Estructura guiada: facilita la exploración organizando los documentos en una

estructura tipo directorio con una jerarquía de clases y subclases Hipertexto: posibilidad de adquirir información de forma no estrictamente

secuencial, sino a través de nodos y enlaces.


Elementos a considerar en un SRI: Necesidades de información: entidad subjetiva, consiste en un estado

psicológico. El usuario desea información sobre un tema o materia y no puede precisar con datos aquello que quiere conocer.

Documentos cognitivos: obras de creación o de pensamiento (sobre ciencia, tecnología, cultura), es decir, información textual en lenguaje natural RI esencial en un fondo documental de gran volumen Se pasa de la gestión de referencias bibliográficas a la gestión de

documentos a texto completo

MODELOS DE SRI


Elementos a considerar en un SRI: El proceso de representación

La representación de un documento puede consistir en una ficha bibliográfica estructurada en una descripción formal (ISBD) y una descripción característica (contenido: descriptores) para el ordenador es un conjunto de palabras o términos de indización (cadenas de caracteres) Di= {t1, t2, t3,…tn} t1, t2, t3,…tn son palabras simples (turismo) o compuestas (turismo rural) que reflejan el

contenido temático del documento Di

Documento "Legislación sobre economía y trabajo en España y Europa" Di= {Economía, España, Europa, Legislación, Trabajo}

Las necesidades de información (pregunta) también se representan con términos de indización. Pj= {t1, t2, t3,…tn} Necesidad de información "legislación sobre trabajo y mujeres en Cataluña"

Pi= {Cataluña, Trabajo, Legislación, Mujeres}

MODELOS DE SRI


Elementos a considerar en un SRI: El proceso de comparación

Un SRI compara de forma automática un conjunto de palabras que representa los documentos con el que representa la necesidad de información

Como resultado, se obtiene una ordenación de los documentos partiendo del grado de probabilidad de cada documento para satisfacer las necesidad de información, es decir, de su relevancia, a partir de la estimación del nº de elementos en común.

La relevancia tiene grados, no se limita a ser relevante o no ordenación de los resultados recuperados en función de ese valor y no de manera aleatoria u ordenados desde un punto de vista semántico no muy significativo (título o fecha de creación), como sucede en gran parte de las bases de datos documentales

Presentación y visualización de la información Pueden presentar uno o varios formatos de presentación (vistas) de los

documentos individuales o de los grupos de documentos recuperados (listas de resultados resumidas o detalladas), para adaptarlos a los intereses o las necesidades de los diferentes tipos de usuarios.

MODELOS DE SRI

MODELOS DE SRI


MODELO BOOLEANO En un RI booleano, una vez indizados los documentos, y ante

la pregunta del usuario, existen dos objetos: la entidad documento y la pregunta, ambos representados por un conjunto de términos de indización

La recuperación se basa en obtener aquellos documentos que cumplan la función lógica del Álgebra de Boole, expresada en la consulta del usuario Los términos de la pregunta se pueden relacionar mediante los

operadores lógicos AND, OR y NOT. El motor de búsqueda proporciona otros tipos de búsquedas

suplementarias: por truncamiento y por proximidad. Opción de restringir la búsqueda a campos concretos o series

de datos

MODELOS DE SRI


MODELO BOOLEANO El resultado de una ecuación de búsqueda booleana es un

conjunto que contiene los documentos relevantes (en ocasiones puede ser vacío)

El acierto es exacto: sólo hay dos tipos de documentos, los que cumplen las condiciones de la búsqueda y los que no.

La estructura de datos empleada tradicionalmente es el fichero inverso. Este fichero genera diversos índices de términos (todos los términos, términos agrupados y/o raíces de los términos) con punteros al fichero de los documentos o fichero directo.

El más empleado de forma tradicional en los sistemas de información bibliográfica (BB.DD, portales de revistas-e…)


Término Frecuencia Localización

Barcelona 2 (00017, 03, 01) (03401, 01, 04)

Madrid 2 (00017, 03, 03) (17200, 02, 01)

Zaragoza 3 (00017, 03, 04), (03401, 01, 02) (17001, 04, 01)

EJEMPLO DE UN ÍNDICE INVERTIDO

Modelo de registro de la base de datos del

ejemplo01020304…

TítuloAutorFuenteDescriptores…

ID Campo 0340101 Título Historia ilustrada de Barcelona

02 Autor U. Eco

03 Fuente Vic. Editorial ZYX, 2002

04 Descriptores Barcelona, Historia

(03401, 01, 04)

(03401, 01, 04) y el resto de conjuntos de datos son vectoresporque en cada conjunto la posición de cada elemento es significativa. El 1er elemento siempre es el identificador del registro, el 2º el identificador del campo y el 3º identifica el nº de orden de la palabra en el campo considerado

MODELO BOOLEANO - FICHERO INVERSO

MODELOS DE SRI


MODELO BOOLEANO LIMITACIONES

De difícil uso por los usuarios. Se requieren cierto tipo de conocimientos y habilidades.

Escaso control sobre el volumen del resultado producido por una petición concreta necesarias reformulaciones de la pregunta para lograr un volumen aceptable de resultados.

Todos los registros recuperados son supuestamente de la misma utilidad para el usuario. Se entregan de manera aleatoria. No existen mecanismos que permitan ordenarlos en función de su relevancia.

No permite reflejar la importancia relativa de los diferentes componentes de la pregunta todos los términos tienen un peso 1 o 0, dependiendo de si están o no presentes en la pregunta.

MODELOS DE SRI


MODELO PROBABILISTICO (Sparck-Jones y Robertson) Para cada pregunta existe una respuesta ideal, un conjunto de

documentos que contienen exactamente los documentos relevantes y no otros

Requiere especificar correctamente las propiedades de estos documentos, pero no sabemos cómo hacerlo. Sólo conocemos la existencia de términos índices cuyo significado puede usarse para caracterizar esas propiedades.

Como esos términos son desconocidos al preguntar, hay que llevar a cabo una conjetura inicial, que genera un primer conjunto de documentos. A continuación se interactúa con el usuario para mejorar la calidad.

El usuario valora la respuesta y selecciona los documentos relevantes y el sistema emplea esa información para refinar la respuesta

Por repetición de este proceso, se espera que la descripción de la respuesta evolucione aproximándose a la ideal, porque cada paso realimenta la información disponible para calcular la relevancia de un documento.

MODELOS DE SRI


MODELO DE ESPACIO VECTORIAL (Salton) Después del booleano, es el modelo de mayor influencia. A este

modelo responden los motores de búsqueda en la web. Los términos de indización son considerados como coordenadas en un

espacio informativo multidimensional. Documentos y preguntas son representados como vectores que

recogen la frecuencia de aparición de los términos en los documentos (términos significativos y sólo la raíz común). Cada componente del vector representa al término de indización correspondiente.

La base de datos se concibe como una matriz de términos y documentos

La similaridad entre un documento y una pregunta se calcula mediante la comparación entre sus vectores. La similitud se entiende como afinidad entre el significado del documento y el tema de la pregunta Relevancia

MODELOS DE SRI


si la pregunta fuera “¿cuál es el caudal del río Danubio?”, su vector de términos sería Q = (1,1,0,0,0,1,0,0,0).

Fuente: Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004, p. 10 [Disponible en http://hdl.handle.net/10201/4316].

La base de datos se concibe como una matriz de términos y documentos

MODELOS DE SRI


MODELO DE ESPACIO VECTORIAL (Salton) La indización implica la asignación de designadores de contenido a los

documentos (ponderación de términos ), de manera que puedan ser fácilmente diferenciables en el espacio multidimensional. Las frecuencias absolutas de los términos distorsionan los resultados, por

eso se tiene en cuenta el peso de los términos en cada documento y en la colección

Se mide el valor de discriminación (incentivación de la presencia de aquellos términos que aparecen en menos documentos, frente a los que aparecen en todos o casi todos) frecuencia inversa de documento (idf)

El peso de un término en un documento aumenta si es más frecuente en el documento y disminuye si es más frecuente en todos los demás documentos. Se calcula mediante la combinación de la frecuencia de término (tf) y la frecuencia inversa del documento (idf) tf-idf

Considera la posibilidad del acierto parcial frente a la simple coincidencia de términos (booleano), más adecuado cuando se trabaja con el significado de los documentos

MODELOS DE SRI


Con estos valores de similitud, se obtiene la siguiente respuesta: {D3,D2, D1, D4}


EVALUACIÓN DE LOS SRI


Baeza-yates señala 3 criterios de evaluación de los SRI Eficacia en la ejecución: medida del tiempo que tarda un SRI

en realizar una operación Eficiencia del almacenamiento: medida del espacio que se

precisa para almacenar los datos Efectividad en la recuperación de la información: medida del

éxito en satisfacer la demanda de información de los usuarios basada en la relevancia.



Evaluación del rendimiento de los SRI Se parte del concepto de relevancia un documento recuperado es

relevante cuando el contenido del mismo responde a la necesidad de información del usuario (pregunta) Subjetividad dificultad de determinar el grado de relevancia del documento: un

mismo documento puede ser considerado relevante o no por dos personas distintas (motivos de la búsqueda, grado de conocimiento), incluso recibir distinta evaluación por el mismo usuario en dos momentos distintos.

Existen distintos grados de relevancia (relevancia parcial), no puede medirse en términos binarios (relevante no relevante)

Los juicios de relevancia son realizados por los usuarios, en función de la utilidad del contenido de los documentos recuperados y no tienen por qué coincidir con los juicios de valor de los expertos sobre el contenido de los mismos, por eso parece más apropiado utilizar el término pertinencia. Relevancia: relación existente entre los contenidos de un documento con una

temática determinada Pertinencia: relación de utilidad entre un documento recuperado y una

necesidad de información individual



Evaluación del rendimiento de los SRI Medidas empleadas

Precisión: la relación existente entre el número de documentos relevantes recuperados y el total de documentos recuperados. Mide el % de documentos relevantes con el tema de la pregunta recuperados, y por tanto, el acierto, la habilidad del sistema para evitar el ruido

número de documentos relevantes recuperados x100número total de documentos recuperados

Exhaustividad: relación entre el número de documentos relevantes recuperados y el total de documentos relevantes sobre la materia objeto de la búsqueda presentes en la BD. Mide la capacidad del SRI para recuperar elementos relevantes.

número de documentos relevantes recuperados x100nº total de documentos relevantes existentes en la BD

Precisión=

Exhaustividad =



Evaluación del rendimiento de los SRI Tasa de fallo: % de documentos recuperados no relevantes sobre el

total de documentos no relevantes de la BD. Precisión y Exhaustividad se comportan de manera antagónica, ya que las

medidas tendentes a incrementar la recuperación tienden a disminuir la precisión y viceversa

Búsquedas específicas obtienen resultados muy precisos, pero habrán perdido documentos por ese alto nivel de especificación. Se reduce la exhaustividad.B1:“contaminación de agua en los ríos”B2: “contaminación en los ríos”

Búsquedas generales recuperan la mayoría de los documentos relevantes, con el tema, pero también otros que no lo son. Se reduce la precisión.b1:“contaminación”b2: “contaminación en los ríos”




Evaluación del rendimiento de los SRI En el contexto de la web, los motores de búsqueda generalista

(google, altavista…) proporcionan altas tasas de exhaustividad (recuperan muchos documentos relevantes), pero su tasa de precisión es muy baja, ya que sólo una parte muy reducida de los documentos recuperados es relevante.

Los sistemas muy especializados, como las agencias de selección y evaluación de recursos digitales (BUBL, Go-Geo, Intute), proporcionan muchos menos recursos, probablemente tasas de exhaustividad muy bajas, pero las tasas de precisión se aproximan al 100%.



Evaluación rendimiento de los SRI Falsos positivos: un documento es un falso positivo cuando se

recupera pero no es relevante. Falsos negativos: un documento es un falso negativo cuando no

se recupera aunque sea relevante.

Factores que generan los falsos positivos y negativos: Indización deficiente del documento (descriptores inadecuados) Indización deficiente de la necesidad de información Grado insuficiente de especificidad del lenguaje documental Algoritmo de relevancia deficiente: documentos relevantes en

últimas posiciones de la lista de resultados o no relevantes en las primeras.



Otros criterios de evaluación


TÉCNICAS DE INDIZACIÓN Como hemos señalado anteriormente, la RI engloba la

representación, almacenamiento, organización y acceso a los ítems de información. En la descripción y representación de los documentos contenidos en el SRI y en la de representación de la pregunta del usuario, juega un papel fundamental el lenguaje.

Dificultades derivadas de la riqueza y ambigüedad del lenguaje natural, el que utilizamos cuando hablamos y escribimos, en la RI. En contraposición, disponemos de los lenguajes documentales, de carácter unívoco (cada término representa un único concepto) para facilitarnos este proceso.


TÉCNICAS DE INDIZACIÓN


En el contexto de la indización automática. Tratan de imitar la indización intelectual (humana) Indización humana conceptos

Detecta descriptores simples y compuestos, asigna descriptores aunque la palabra no esté presente en el documento y los descarta aunque estén

Indización automática cadenas de caracteres Las palabras únicas son las diferentes cadenas de caracteres que contiene el

documento cada una de las palabras diferentes de un documento

La moderna RI se decanta por la utilización del texto, el lenguaje natural, para la indización de los documentos técnicas de procesamiento del lenguaje natural (PLN) Motores de búsqueda del web Herramientas de traducción automática Generación automática de resúmenes

TÉCNICAS DE INDIZACIÓN


El lenguaje natural está constituido por las palabras oexpresiones libres del lenguaje común que se encuentran tanto enlos documentos (título, resumen y texto), por tanto utilizadas porel autor, como en la consulta que se plantea el usuario. Se utilizanlos propios términos del texto para la indización y la recuperación.Generalmente se utiliza el término “texto libre” como sinónimo.

Lenguaje natural Vs. lenguaje artificialLenguaje o texto libre Vs. lenguaje controlado

El lenguaje artificial representan los conceptos y la materia deldocumento, a la hora de indizarlos y recuperarlos, mediante unlenguaje normalizado y controlado. Existe previamente una listalimitada y estructurada de términos que se pueden utilizar pararepresentar el contenido de los documentos y las peticiones delos usuarios.

TÉCNICAS DE INDIZACIÓN - PLN


El procesamiento del lenguaje natural resulta problemático por las propiedades del mismo: variación y ambigüedad lingüística Ambigüedad lingüística: una palabra o frase permite más de una

interpretación ruido documental A nivel morfológico: una misma palabra con diferentes roles morfosintácticos

en función del contexto en que aparece Deja la comida que sobre sobre la mesa e la cocina, dijo llevando el sobre en la mano

A nivel sintáctico (relaciones entre palabras para formar sintagmas y frases): posibilidad de asociar a una frase más de una estructura sintáctica María vio a un niño con un telescopio en la ventana

A nivel semántico (significado de una palabra y el de una frase a partir de los significados de las palabras que la componen): polisemia Luis dejó el periódico en el banco

Provocada por la anáfora: presencia en la oración de pronombres y adverbios que hacen referencia a algo mencionado con anterioridad Ella le dijo que los pusiera debajo

TÉCNICAS DE INDIZACIÓN -PLN


El procesamiento del lenguaje natural resulta problemático por las propiedades del mismo: variación y ambigüedad lingüística Variación lingüística: utilización de diferentes palabras o expresiones

para comunicar una misma idea provoca silencio documental A nivel léxico: sinonimia (distintos términos para un mismo significado) A nivel pragmático (relación del lenguaje con el contexto en que se utiliza):

no puede realizarse una interpretación literal de los términos, hay que acudir al contexto en que es formulada la frase Se moría de risa

De momento, no existen técnicas de PLN que permitan extraer inequívocamente el significado de un documento o una consulta

Enfoques del PLN: Estadístico Lingüístico En la práctica los sistemas de procesamiento del lenguajes natural combinan

técnicas de ambos enfoques.



Procesamiento estadístico del lenguaje natural Representa el modelo clásico de los SRI y es el más utilizado

actualmente en los SRI textual. Cada documento está descrito por un conjunto de palabras clave

denominadas términos índice. Se basa en la “bolsa de palabras” (“bag of words”). Todas las palabras del

documento se tratan como términos índices para ese documento y se les asigna un peso en función de su importancia, determinada generalmente por su frecuencia de aparición en el documento.

No se toma en consideración ni el orden, ni la estructura, ni el significado de las palabras.

Se limitan a emparejar las palabras de los documentos con los de las consultas



Etapas del modelo de procesamiento estadístico del lenguaje natural Preprocesado de los documentos: se preparan los documentos para su

parametrización, eliminando elementos superfluos. Se identifican los términos relevantes.

Parametrización: se realiza una cuantificación de las características (es decir, de los términos) de los documentos.



Fases del preprocesado de los documentos1. Eliminación de los elementos del documento que no se van a indizar

(etiquetas o cabeceras de los documentos)

2. Normalización de textos: homogeneizar todo el texto de la colección de documentos sobre la que se trabajará:

a. Consideración de mayúsculas y minúsculasb. Control de ciertos parámetros como cantidades o fechasc. Control de abreviaturas y acrónimos



Fases del preprocesado de los documentosd. Eliminación de palabras vacías (stop words), palabras de frecuencia tan alta

que no tienen ninguna capacidad para discriminar documentos A priori: mediante la aplicación de listas (diccionario de palabras vacías) de palabras

con función gramatical pero significado semántico pobre (preposiciones, artículos, pronombres, adverbios) unas 300 palabras

A posteriori: se determinan por cálculo de frecuencia. Se desestiman palabras que aparecen, por ejemplo, en más del 80% de los documentos.

Se consigue reducir la lista inicial de términos en un 40% o 50%.

e. Identificación de N-Gramas (términos compuestos), para tratarlas como una única unidad conceptual.

Se estima la probabilidad de que de que dos palabras que aparecen con cierta frecuencia juntas, constituyen un solo término.



Fases del preprocesado de los documentos3. Lematización de los términos (stemming): determinar el lema (forma

básica más sus formas declinadas) de cada palabra que aparece en el texto para fusionar términos con una raíz común. Se representan de un mismo modo las distintas variantes de un término y

se reduce el tamaño del vocabulario mejora capacidad de almacenamiento del sistema y el tiempo de procesamiento de los documentos

4. Se detectan posibles sinónimos, a partir del uso de un tesauro o una lista de sinónimos.



Parametrización Asignación de un peso a cada uno de los términos relevantes asociados a un

documento. Se calcula en función de su frecuencia de aparición en el documento e indica la importancia de dicho término como descriptor del contenido de ese documento.

Además, se supedita esa frecuencia a su frecuencia de aparición total en el conjunto de términos de la colección, para establecer su capacidad discriminatoria (incentivación de la presencia de aquellos términos que aparecen en menos documentos, frente a los que aparecen en todos o casi todos ) Frecuencia inversa de documento (IDF) (relaciona su frecuencia en todo el fondo documental con el número total de documentos)

El peso o índice de discriminación del término se obtiene por la combinación de esas dos variables FT x FID



Procesamiento lingüístico del lenguaje natural Se basa en la aplicación de técnicas y reglas que codifican el

conocimiento lingüístico Los documentos son analizados a partir de los diferente niveles

lingüísticos (palabras, sintagmas y frases) por herramientas lingüísticas que incorporan al texto las anotaciones propias de cada nivel. Análisis morfológico es ejecutado por los etiquetadores (taggers) que

asignan a cada palabra su categoría gramatical Análisis sintáctico del texto: analizar como se relacionan y combinan las

distintas palabras para formar unidades superiores (sintagmas y frases) Se aplican gramáticas (parsers), formalismos descriptivos del lenguaje que

tienen como objetivo fijar la estructura sintáctica del texto En RI se aplica un análisis superficial y se identifican las estructuras más

significativas (frase nominales, sintagmas verbales y preposicionales…) Obtener el significado de las frases (representación semántica ) que

componen el texto, a partir de los elementos que la forman.

LENGUAJES DOCUMENTALES


"El lenguaje documental es un sistema artificial de signosnormalizados, que facilitan la representación formalizada delcontenido de los documentos para permitir la recuperación,manual o automática, de información solicitada por los usuarios".3

Este lenguaje es utilizado por el documentalista en el momento dela indización y por el usuario para describir sus necesidades deinformación.

Los lenguajes documentales controlados permiten describir elcontenido de los documentos de una manera clara e inequívoca,evitando los problemas del lenguaje natural. Resultan unasimplificación del lenguaje natural.

Objetivo: recuperar documentos por contenido (temática), nopor otros criterios como autor, título, fecha, idioma, etc.

3GIL URDICIAIN, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de ladocumentación. 2ª ed. Madrid: Pirámide, 2008, p. 379.

LENGUAJE NATURAL Vs CONTROLADO


El control del vocabulario permite: Controlar la sinonimia y la polisemia de los términos de

indización, además del género y número de lasexpresiones

Que el lenguaje sea unívoco: un único término, un únicoconcepto

Facilitar la ampliación de las búsquedas temáticas,enlazando los términos con relaciones de asociaciónsemánticas: genéricas, específicas y asociadas

Por el contrario: El lenguaje libre resulta más adecuado en caso de

necesidades de información muy específicas y adaptablea nueva terminología

LENGUAJES DOCUMENTALES -LENGUAJE NATURAL


Los sistemas de recuperación de información con lenguaje natural pueden estar basados en la indización humana, la indización automática o no existir indización (búsqueda en un texto o parte de él, almacenada en el ordenador, mediante combinaciones de palabras y frases).

El vocabulario utilizado en los SRI puede consistir en palabras o frases extraídas del texto que representen al documento o consistir en textos completos o partes de él (títulos o resúmenes)

LENGUAJES DOCUMENTALES -LENGUAJE NATURAL


Los lenguajes libres son vocabularios formados por términos de indización extraídos del lenguaje natural empleado en los documentos (título, resumen y texto completo), utilizados para representar y recuperar el contenido de los mismos.

Normalmente, se aplican sistemas de indización automática El LL más común es el fichero inverso o diccionario de una

base de datos documental, que recoge todas las palabras significativas del título, resumen y otros campos definidos en la B.D., ordenadas alfabéticamente.

El usuario puede realizar consultas combinando estos términos con los operadores de búsqueda.

Tipos de lenguajes libres Listas de palabras claves Listas de descriptores libres:

TIPOLOGÍAS DE LENGUAJES DOCUMENTALES


Según la función que desempeñen: Lenguajes de indización: son los empleados en la indización.

Permiten la representación del contenido de los documentos mediante palabras obtenidas del lenguaje natural Tesauros, listas de encabezamientos, listas de palabras claves y de

descriptores libres Lenguajes de clasificación: permiten describir el contenido de los

documentos mediante códigos numéricos o alfanuméricos, que se corresponden con las categorías en que se ha dividido previamente el conocimiento Clasificaciones (CDU, Dewey Decimal Classification, Library of Congress

clasification) Función principal: ordenación física de los documentos, aunque permiten

también la RI. Usadas por algunos directorios temáticos de Internet.



Según el control del vocabulario que realizan: Lenguajes libres: formados a posteriori. Están constituidos

por términos extraídos del propio documento (lenguaje natural), no predefinidos, en el proceso de indización. Algunos autores no los consideran lenguajes documentales Listas de palabras claves y de descriptores libres

Lenguajes controlados: creados con carácter previo a la indización. Constituidos por un vocabulario previamente elaborado. Existe un riguroso control terminológico, pues cada concepto está representado por un único término. Tesauros, listas de encabezamientos y Clasificaciones



Según el criterio de coordinación (momento en que se combinan los términos que los componen): Lenguajes Precoordinados: los términos se coordinan en

el momento de la descripción de los documentos o de la elaboración del lenguaje. Listas de encabezamientos y Clasificaciones

Lenguajes Postcoordinados: los términos se coordinan en el momento de la recuperación Tesauros, Listas de palabras claves y Listas de descriptores libres



Según la estructura interna: Lenguajes jerárquicos: estructura de carácter

arborescente, en la que cada concepto depende de uno superior. Clasificaciones

Lenguajes combinatorios: los términos se relacionan unos con otros, permitiendo gran cantidad de combinaciones en el momento de la recuperación. Tesauros (aunque participan de una estructura jerárquica) , Listas de

encabezamientos

TIPOLOGÍA DE LENGUAJES DOCUMENTALES


TIPOLOGÍA DE LENGUAJES DOCUMENTALESSegún la FUNCIÓN que desarrollan

Lenguajes de INDIZACIÓN Listas de descriptores libres Listas de palabras claves Tesauros Listas de encabezamientos

Lenguajes de CLASIFICACIÓN Clasificaciones

Según el CONTROL sobre el VOCABULARO

Lenguajes LIBRES Listas de descriptores libres Listas de palabras clave

Lenguajes CONTROLADOS Tesauros Listas de encabezamientos Clasificaciones

Según el momento de COORDINACIÓN de los términos

Lenguajes PRECOORDINADOS Listas de encabezamientos Clasificaciones

Lenguajes POSTCOORDINADOS Listas de descriptores libres Listas de palabras claves Tesauros

Según la ESTRUCTURA INTERNA

Estructura JERÁRQUICA ClasificacionesEstructura COMBINATORIA Listas de encabezamientos

Tesauros

USOS LENGUAJE NATURAL Y LENGUAJE CONTROLADO


LENGUAJE NATURAL: Búsquedas por título, resumen, texto completoo palabra clave en cualquier tipo de recurso

Catálogo Bases de datos de sumarios electrónicos Bases de datos (CSIC, Current contents…) Portales de Revistas electrónicas Recursos de información en Internet

LENGUAJE CONTROLADO Catálogo bibliográfico:

CDU (Clasificación Decimal Universal): sistema de clasificación utilizadopara ordenar y catalogar los fondos de la biblioteca de forma sistemática(por materias).Aparece en la signatura topográfica.

Listas de encabezamientos de materias Bases de datos:

Tesauros

LENGUAJES DOCUMENTALES. LISTAS DE PALABRAS CLAVES


Vocabulario, ordenado alfabéticamente, de las palabras significativas (no vacías: artículos, preposiciones, conjunciones, pronombres, adverbios …) extraídas a partir del título, resumen o texto completo de los documentos.

Generalmente, son palabras simples, aunque también pueden ser palabras compuestas. Abarcan todas las categorías gramaticales (nombres comunes o propios, adjetivos, verbos…)

A la hora de plantear la consulta: Seleccionar todos los sinónimos posibles referentes a los conceptos que le

interesen Tener en cuenta singulares y plurales, masculinos y femeninos Utilizar todas las variantes de una misma raíz Tener en cuenta variantes ortográficas y todos los idiomas presentes Utilizar tanto las siglas como los conceptos desarrollados Eliminar los documentos no pertinentes

LENGUAJES DOCUMENTALES. LISTAS DE DESCRIPTORES LIBRES


vocabulario, ordenado alfabéticamente, de conceptos destacados de los documentos a través de un proceso intelectual. Pueden ser palabras o expresiones extraídas del documentos o propuestas por los indizadores (sin que pertenezcan a un listado establecido previamente), en una o varias lenguas, independientemente del idioma del documento original. Suelen ser nombres y se eliminan las variantes formales de los

términos (genero, números, adjetivos, verbos …) Se mantienen la sinonimia y la polisemia, pero más reducidas que

con los listados de palabras claves. Imposibilidad de recuperar documentos si los conceptos de la

consulta han sido indizados de manera diferente

LENGUAJES DOCUMENTALES. LISTA DE ENCABEZAMIENTOS DE MATERIAS (LEM)


Lenguaje documental que recoge los conceptos destinados a representar el contenido de los documentos para facilitar su posterior recuperación. Esta constituido por listas de términos construidas a priori, ordenadas alfabéticamente, y de carácter abierto, es decir, que pueden ser ampliadas. Es un lenguaje precoordinado porque la combinación entre

conceptos es previa a la recuperación de la información Es un lenguaje enciclopédico, no especializado. Permite que el usuario acceda al documento por medio de la materia

general que trata y sirve para agrupar en el catálogo todos los documentos que traten sobre un mismo tema.

Los encabezamientos de materias extraídos de una lista e introducidos en el catálogo deben reflejar las relaciones entre conceptos.



Las listas de encabezamientos de materia se componen de encabezamientos y subencabezamientos.

El encabezamiento consiste en una o varias palabras que representan conceptos (Ej. Literatura, Literatura juvenil). Intenta condensar el tema sobre el que trata un documento.

El subencabezamiento es la palabra o palabras que siguen a un encabezamiento. Se añaden a fin de precisar o delimitar su sentido. Se separan con un guión [-]. Literatura – Antologías Literatura inglesa – Historia y crítica – Publicaciones periódicas

electrónicas Arquitectura – Francia – Historia -Videodiscos DVD Enfermería – Historia – Tesis doctorales



Clases de subencabezamientos: De materia: indican el punto de vista bajo el que es estudiado

un tema. Ej.: Matemáticas – Filosofía, Alpinismo - Historia De forma: expresan la forma de presentación de la obra

(diccionarios, enciclopedias, anuarios, atlas, bibliografías, etc.). Ej.: Español (lengua) - Diccionarios

Cronológicos: para representar el período histórico que estudia la obra. Ej.: España – Historia- 1516-1556 (Carlos I), Civilización occidental – Siglo 20º

Geográficos: algunos encabezamientos permiten el uso de subencabezamientos geográficos. Ej.: Agricultura – Francia –Normandía, Educación – Planificación - Madrid



Relaciones entre conceptos: (V., Véase) sirve para remitir de un término no aceptado en la

lista (sinónimos, siglas, variantes ortográficas, etc.) a otro sí aceptado.

El término correlativo (X., U.p., Úsase por) precede a los términos o formas no aceptados.

Ejemplo: Enseñanza – Investigación V: Educación – Investigación Educación – Investigación X: Enseñanza - Investigación


En el catálogo ser refleja:

Término no admitido

Término admitido



(VA, V.a., Véase además) sirve para remitir a otros encabezamientos bajo los cuales el usuario puede encontrar información complementaria.

Ejemplo: Niños – Cuidados en instituciones X: Casas de niños Comunidades de niños Establecimientos de Beneficiencia Niños - Albergues VA: Asilos Asilos de indigentes Correccionales Guarderías Orfelinatos



En el catálogo las materias relacionadas se reflejan:


LENGUAJES DOCUMENTALESTESAUROS


“Lenguaje documental compuesto de una lista normalizada y estructurada de términos, con relaciones semánticas entre ellos y que cubre uno o más campos específicos del conocimiento. Permite representar de manera unívoca el contenido de los documentos y de las consultas, dentro de un sistema documental determinado.”4

Está constituido por una lista de palabras llamadas descriptores, estructuradas de forma que unas se relacionan con otras que también están en el tesauro.

4López Yepes, J. Diccionario Enciclopédico de Ciencias de la Documentación. 2004



Descriptor (o término preferente) “es una palabra o grupo de palabras incluidas en un tesauro y escogidas de entre un conjunto de términos equivalentes para representar sin ambigüedad un concepto contenido en un documento o en una petición de búsqueda documental” 5.

No descriptor (o término no preferente o término equivalente) es un sinónimo o cuasisinónimo de un descriptor presente en el tesauro. No puede ser utilizado para indizar documentos ni para formular consultas, pero reenvía al descriptor aceptado. Es, por lo tanto, un punto de acceso que facilita el paso del

lenguaje natural al lenguaje del sistema, permitiendo la elección de los descriptores pertinentes.

5 Gil Urdiciain, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008.



Las relaciones entre los términos son de equivalencia, de jerarquía y de asociación De Equivalencia: se utilizan entre términos considerados

equivalentes. Permiten evitar ambigüedades terminológicas y la sinonimia, la homonimia, la antonimia y la polisemia. Se producen entre descriptores y no descriptores --, USE (Use) = UP, UF (Usado Por, Used For)

Jerárquicas: establecen relaciones de generalidad o especificidad entre descriptores. Los descriptores genéricos representan un concepto que engloba a otros más específicos. < TG, BT (Término Genérico, Broader Term) > TE, NT (Término Específico, Narrower Term)



Las relaciones entre los términos son de equivalencia, de jerarquía y de asociación Asociativa: relación entre dos descriptores que designan

conceptos afines, pero sin una relación semántica o jerárquica. +TR, RT (Término Relacionado, Related Term)

Para ayudar a la aclaración de los términos se utilizan las notas de alcance (NA). Son breve explicaciones del sentido de un descriptor dentro de contexto de un tesauro. No son definiciones. Se emplean para restringir el uso de un descriptor, explicar abreviaturas y siglas y excluir posibles significados. NE, SN (note explicative, scope note)

RELACIONES ENTRE TÉRMINOS DEL TESAURO


Relación de equivalencia, término admitido al no admitido y a la inversa

Relación de jerarquía, término general y específico

Relación asociativa, términos afinesTesauro de URBANISMO. CINDOC



Los términos que componen un tesauro y sus relaciones se pueden representar de forma Alfabética, Sistemática Gráfica.

Para garantizar si efectividad en la RI es preciso que en su estructura estén presentes dos de esas formas de representación: alfabética y sistémica o alfabética y gráfica. La primera es la más habitual en los tesauros disponibles en las bases de datos accesibles en el web.



Presentación ALFABÉTICA índice alfabético de descriptores y no descriptores con información

asociada de sus relaciones. Con cada descriptor aparece el conjunto completo de sus relaciones semánticas, incluida toda su jerarquía.

Cada entrada lleva: Indicación del campo semántico al que pertenece el descriptor Notas aclaratorias o de aplicación Equivalencias semánticas (relación de descriptores y no descriptores) Descriptores genéricos Descriptores específicos Descriptores asociados

-- Relación de equivalencia USE (Use) = Relación de equivalencia UP, UF (Usado Por, Used For) < Relación jerárquicaTG, BT (Término Genérico, Broader Term) > Relación jerárquica TE, NT (Término Específico, Narrower Term) - Relación asociativaTR, RT (Término Relacionado, RelatedTerm)

PRESENTACIÓN ALFABETICA TESAURO CINDOC


Relación alfabética con inclusión de, términos admitidos y no admitidos

Término admitido

Términos no admitidos

PRESENTACIÓN ALFABETICA TESAURO ERIC (PROQUEST)


Presentación alfabética. El signo + expande el término correspondiente con toda la información asociada

TESAURO ERIC. DETALLE DE ENTRADA




Presentación SISTEMÁTICA O JERÁRQUICA presentación dividida en las grandes temáticas del tesauro (campos

semánticos o microdisciplinas). Los descriptores se ordenan dentro de sus disciplinas, de sus campos semánticos, formando cadenas jerárquicas (más genérico que, más específico que).

Permite obtener una visión de conjunto de la información contenida en el tesauro y hasta qué punto se ha detallado un tema.

Presentación GRAFICA 3 tipos:

Estructura arborescente Diagrama de flechas Terminogramas

Se complementan con un índice alfabético con notas aclaratorias, reenvíos entre términos preferentes y no preferentes y referencias entre términos genéricos, específicos y relacionados.

Reflejan principalmente relaciones jerárquicas entre descriptores. Los reenvíos hacia términos asociados se indican en los márgenes.


Presentación sistémica o jerárquica

TESAURO: PSYCINFO


Funcionamiento del tesauro en PsycINFO, base de datos integrada anteriormente en OVID y que ha pasado a PROQUEST. Adulteducation es el término admitido, que hemos de usar en lugar de high school equivalency. Nos informa del término más genérico, education, y del más específico Continuing education.

Término más general: Education

Término más específico: Continuing Education

Número de documentos asociados a ese término: Adult Education

EJEMPLOS DE TESAUROS


Tesauros del CINDOC (Centro de Información y Documentación Científica) http://thes.cindoc.csic.es/index_esp.php

Tesauro de la UNESCO http://databases.unesco.org/thessp/

EurovocThesaurus http://europa.eu/eurovoc/

Selección de Tesauros de la Universidad de León, Área de Biblioteconomía y Documentación http://www3.unileon.es/dp/abd/tesauro/pagina/tesauros/tesauros.htm

Tesauro Europeo de la Educación http://www.freethesaurus.info/redined/es/index.php

Tesauros en plataforma OVID:, Medline, Inspect Tesauros en PROQUEST: ERIC, Sociological, PILOTS, Water

Resources, PsycInfo…

TESAUROS IEDCYT (antiguo CINDOC)


TESAUROS EN PROQUEST




ÍNDICES AUXILIARES Indice permutado:

recoge la terminología completa del tesauro. Su objetivo es concentrar las palabras, para facilitar la búsqueda inicial y remitir al sistémico.

Los descriptores y no descriptores se encuentran ordenados alfabéticamente tantas veces como términos los componen permite localizar los términos compuestos a partir de cualquiera de los elementos que componen su sintagma.

Indice de identificadores Listado alfabético de términos, generalmente de uso frecuente, en el

sistema de información asociado al tesauro:. Se compone de términos onomásticos (nombres propios, de organismos

y de instituciones) y de topónimos. Los términos que lo componen se limitan a identificar organismos,

nombres de personas…, pero no describen el contenido semántico de los documentos.

LA BÚSQUEDA DE INFORMACIÓN EN LA WEB


Buscadores de internet son recursos de uso mayoritario en la búsqueda de información, pero producen mucho ruido, a la vez que existe un gran volumen de información importante que no se recupera. Internet global: red de información libre y gratuita, accesible mediante

programas navegadores, chats, mensajería… La información se obtiene mediante los procesos de recuperación de información de motores de búsqueda y directorios. Calidad de la información muy variada

Internet oscura: servidores o host totalmente inaccesibles desde nuestros ordenadores (porque cubren zonas restringidas con fines de seguridad nacional y militar, servicios de cortafuegos y protección, servidores inactivos…)

Internet Invisible: información disponible en internet, pero sólo accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Inaccesible mediante los procedimientos anteriores. Información de alta calidad



¿qué información podemos localizar en la Internet Invisible? Bases de datos: los buscadores sólo proporcionan acceso a la página de

inicio, porque las siguientes son dinámicas. Documentos pdf, word … Los motores de búsqueda fueron creados

sólo para localizar e indizar páginas html, aunque actualmente buscadores como Google indizan documentos en formato pdf, doc, xml…

Páginas web que no son indizadas por los motores de búsqueda porque se excluyen ellas mismas a través de un protocolo de exclusión

Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder a esas páginas, como por ejemplo, las revistas electrónicas con clave de acceso.

Herramientas más frecuentes de búsqueda en Internet: Directorios Motores de búsqueda Metabuscadores



La RI en la web se realiza navegando por su estructura hipertextualo localizando referencias por medio de los “buscadores”

Las técnicas de RI empleadas en internet, proceden de las empleadas en los SRI tradicionales, pero debieron modificarse para superar los desajustes motivados por el distinto entorno de trabajo y las características de los datos almacenados Enorme tamaño de las colecciones de documentos indexados Heterogeneidad de la información (temas, géneros y calidad) Porcentaje de recursos sin indexar La web es un contexto volátil (ubicación y actualización) refresco de

los índices Duplicados Métodos no ético de posicionamiento de las páginas

Son SRI de naturaleza distinta a los SGBDD, pero mantienen similitud en sus interfacies de usuario



Los “Buscadores” se clasifican en: DIRECTORIOS

Sistemas que clasifican documentos web seleccionados por materia y que permiten navegar por sus secciones o buscar en sus índices

La indización es humana y se manejan grandes bases de datos con direcciones de páginas, títulos, descripciones….

Se organizan en categorías temáticas ordenadas jerárquicamente, con listados de enlaces a las páginas referenciadas.

METABUSCADORES No poseen bases de datos propias, si no lanzan sus búsquedas a índices y

motores No almacenan direcciones y descripciones de páginas web en su base de

datos, sino registros de motores de búsqueda e información sobre ellos Colecciona las repuestas recibidas y las unifica o las presenta según la

fuente Eliminan duplicados No ofrecen la totalidad de los documentos de sus fuentes



MOTORES DE BÚSQUEDA Aplicaciones que manejan grandes bases de datos de referencias a

páginas web recopiladas por procesos automáticos, sin intervención humana

Uno o varios agentes de búsqueda (arañas o robots) recorren la web, a partir de una relación de direcciones inicial y recopilan nuevos direcciones a partir de ellas, generando etiquetas que permiten sus indexación y almacenamiento en la base de datos indización automática. Se encargan también de refrescar el índice de los motores Junto a la información de las páginas, recopilan información sobre enlaces

que salen o que recibe una página Afirman recopilar información sobre los metadatos insertos en las

páginas el rastreo puede ser superficial o profundo

También almacenan direcciones enviadas por los usuarios



MOTORES DE BÚSQUEDA Cuentan con algoritmos de búsqueda que analizan las páginas

almacenadas en su base de datos y proporcionan el resultado más adecuado a una búsqueda, ordenando los documentos en función de su relevancia.

Disponen de interfaces de usuario básicas y avanzadas (operadores booleanos, búsqueda exacta, operadores de adyacencia, límites) y algunos sistemas permiten refinar la búsqueda y restringir la búsqueda a alguna parte de los documentos

Aunque cada motor tiene su forma de alineamiento (presentación de los resultados), casi todos implantan el modelo del espacio vectorial relevancia basada en el peso o índice discriminatorio de los términos de indización (tf-idf) También se consideran otros elementos:

Frecuencias Aparición en determinados lugares Metadatos Enlaces de la página Google PageRank: los enlaces que sale o recibe la página son la base del alineamiento

Son SRI muy exhaustivos pero poco precisos


Representación de los datos Los SRI utilizan distintos métodos para indizar los recursos

que incorporan a sus bases de datos A nivel sufmorfológico: sin ningún tipo de análisis morfológico,

sintáctico o semántico muy flexible para la recuperación Las fuentes de información se indizan como patrones de bits

Por palabra clave o conceptos: predominantes y se desarrollan gracias a la aplicación de técnicas estadísticas de RI.

Indización por palabras clave: Se crean índices inversos de raíces y palabras clave, direcciones, ubicación y

frecuencia de apariciones Basa la RI en la similitud formal de las palabras y las estadísiticas de su

aparición en documentos y colecciones de documentos

MÉTODOS DE INDIZACIÓN Y RECUPERACIÓN DE RECURSOS EN EL WEB


Desde la Representación de los datos Forma más común de indización de textos en la web Algunos buscadores obtienen las palabras clave de las metaetiquetas

HTML, pero la mayoría indiza el texto completo de las páginas, incluyendo o no palabras vacías y eliminando a veces las más frecuentes

Indización por conceptos: Siguen procedimientos bastante complejos basados en teorías lingüísticas y

de inteligencia artificial En otros casos, se basan en una aproximación numérica, calculando la

frecuencia de aparición de ciertas palabras significativas análisis estadísticos de que términos aparecen juntos o relacionados en textos que se centran en u tema concreto

Se pueden recuperar recursos por materia, aunque las palabras incluidas en el documento no coincidan con las de la pregunta.



Procesos de equiparación Los SRI de la web han incorporado, aunque no de manera uniforme,

técnicas de recuperación avanzadas para intentar superar los problemas del modelo de recuperación clásico booleano Posibilidad de plantear preguntas en lenguaje natural Ordenación de los resultados por su relevancia Ponderación de los términos de la consulta dependiendo de los intereses del

usuario Búsqueda mediante ejemplos y la ayuda en la formulación de las preguntas Utilización de "tesauros" para que el usuario pueda refinar las búsquedas mediante

la adición o eliminación de palabras Extensión de las búsquedas mediante truncamiento implícito (stemming) o

reducción automática de los términos de búsqueda a su raíz ruido documental

Si se ha generalizado el uso de métodos de equiparación parcial permiten la comparación matizada y no la igualación exacta entre los términos de la búsqueda y el documento




Altavista, para mejorar los resultados de la búsqueda utiliza un “tesauro” para que el usuario pueda refinar sus búsquedas mediante la adición o eliminación de palabras clave de la ecuación de búsqueda

En realidad, no se trata de un lenguaje documental normalizado sino de una serie de términos que el buscador identifica como próximos o relacionados con los de la ecuación de búsqueda

Procesos de equiparación (matching processes)


En respuesta a la consulta realizada, se muestran términos relacionados con la pregunta y se le pide al usuario que indique si desea incluirlos para reformular la consulta.



Procesos de equiparación (matching processes)


Capacidad de aprendizaje Algunos sistemas emplean el feedback de relevancia para mejorar su

funcionamiento El sistema pondera las palabras clave partiendo de la relevancia

determinada por los usuarios para los documentos recuperados en una 1ª búsqueda.

Otros sistemas utilizan la interacción con el usuario como medio para mejorar la relevancia

Síntaxis de la consulta Incorporación de la navegación y la búsqueda basada en términos

dentro de un mismo servicio. La mayor parte de los buscadores permiten formulaciones

booleanas y la búsqueda en lenguaje natural La búsqueda mediante ejemplos invita a identificar documentos

relevantes sobre los que basarse para mejorar la recuperación opción "mas como ése"



Direct Hit, utiliza la interacción con el usuario para mejorar la relevancia. “Observa y registra” el comportamiento de los usuarios en las búsquedas. “Aprende” de ello y puede ofrecer una lista donde las páginas se ordenan según su popularidad para los internautas.

Comprueba si ya se le hecho con anterioridad esa pregunta u otra parecida en el buscador y ordena los resultados según el número de usuarios que han preferido esas referencias y las han consultado, seleccionándolas del conjunto de resultados ofrecidos.

Capacidad de aprendizaje


BIBLIOGRAFÍA


Abadal, E; Codina Ll. Bases de datos documentales: características, funciones y método. Madrid: Síntesis, 2005.

Codina, L. Fundamentos de teoría de recuperación de información. En: Organización y recuperación de la información, documentos de lectura. UOC, 2002. [Disponible en http://www.temarium.com/serlibre/recursos/pdf/79009.ORI.Lecturas.pdf]

Cordón García, J. A. et al. Las nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0. Madrid. Pirámide, 2010.

Checa Rubio, A.M.; Masip Masip, P. Introducció a la cerca i recuperació de la informació. UOC [Material docente]

Checa Rubio, A.M.; Masip Masip, P. La importància del llenguatge en la recuperació de la informació. UOC [Material docente]

Gil Urdiciain, Blanca. “Lenguajes documentales”. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008.

López Yepes, J. Diccionario Enciclopédico de Ciencias de la Documentación. Madrid: Síntesis, 2004

BIBLIOGRAFÍA


Martínez Mendez, F.J. Recuperación de información. Modelos, sistemas y evaluación. Murcia: KIOSKO JMC, 2004. [Disponible en Http://hdl.handle.net/10201/4316].

Moscoso, P. Sistemas de información documental: concepto, modelo, estructura y organización. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008, pp.519-536

Moya Anegón, F. de. Sistemas avanzados de recuperación de la información. En: López Yepes, J. (coord.) Manual de ciencias de la documentación. 2ª ed. Madrid: Pirámide, 2008, pp. 553- 599.

Olvera Lobo, Mª Dolores. Métodos y técnicas para la indización y recuperación de los recursos de la World Wide Web. Boletín de la Asociación Andaluza de Bibliotecarios, nº 57,1999, págs. 11-22. [Disponible en http://hdl.handle.net/10760/5980]

Vallez, M., Pedraza, R. El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines [en línea]. Hipertext.net., nº 5, 2007. [Disponible en http://hdl.handle.net/10760/9973 ].

TÉCNICAS AVANZADAS DE BÚSQUEDA Y RECUPERACIÓN DE … · En un SID la información se estructura...

Documents

Transcript of TÉCNICAS AVANZADAS DE BÚSQUEDA Y RECUPERACIÓN DE … · En un SID la información se estructura...