Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la...

25
Unidad 6. Unidad 6. Evaluación de Evaluación de la Indización la Indización

Transcript of Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la...

Page 1: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Unidad 6.Unidad 6.Evaluación de Evaluación de la Indizaciónla Indización

Page 2: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

6.2 Relevancia y Pertinencia.6.2 Relevancia y Pertinencia.

Según el Según el Diccionario de la Lengua EspañolaDiccionario de la Lengua Española, , relevanciarelevancia significa “cualidad o condición significa “cualidad o condición

de relevante, importancia, significación”, y de relevante, importancia, significación”, y relevante relevante es definida como “importante o es definida como “importante o

significativo”. Así, un documento será significativo”. Así, un documento será relevante cuando el contenido del mismo relevante cuando el contenido del mismo posea alguna significación o importancia posea alguna significación o importancia

en relación con la pregunta realizada por el en relación con la pregunta realizada por el usuario, es decir, con su necesidad de usuario, es decir, con su necesidad de

información. información.

Page 3: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Un mismo documento puede ser Un mismo documento puede ser considerado relevante, o no relevante, considerado relevante, o no relevante, por dos personas distintas en función por dos personas distintas en función de su necesidad de información o su de su necesidad de información o su grado de conocimiento de la materia. grado de conocimiento de la materia.

Llegados a un caso extremo, un mismo Llegados a un caso extremo, un mismo documento puede parecer relevante o documento puede parecer relevante o no a la misma persona en momentos no a la misma persona en momentos

diferentes de tiempo. (Lancaster, diferentes de tiempo. (Lancaster, 1993).1993).

Page 4: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Lo mencionado anteriormente nos hace Lo mencionado anteriormente nos hace notar que el concepto de la relevancia notar que el concepto de la relevancia contiene un alto grado de subjetividad. contiene un alto grado de subjetividad.

Es común recuperar documentos Es común recuperar documentos que, en que, en alguno de sus apartados resulta relevante alguno de sus apartados resulta relevante con una materia determinada pero que no con una materia determinada pero que no en el resto de sus contenidos, por lo que en el resto de sus contenidos, por lo que algunos autores, hablan del concepto de algunos autores, hablan del concepto de

““relevancia parcialrelevancia parcial”, ”,

Page 5: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

(Cooper, 1973).(Cooper, 1973).Introdujo la idea de: “utilidad de un Introdujo la idea de: “utilidad de un

documento” o documento” o PertinenciaPertinencia, , considerando que es mejor definir a la considerando que es mejor definir a la

relevancia relevancia en términos de la en términos de la percepción que un usuario posee sobre percepción que un usuario posee sobre

la utilidad de un documento la utilidad de un documento recuperado, es decir, recuperado, es decir, si el mismo le va si el mismo le va

a ser útil o noa ser útil o no. .

Page 6: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

La ventaja de este punto de vista esta en que La ventaja de este punto de vista esta en que podemos asumir que un usuario tendrá podemos asumir que un usuario tendrá problemas a la hora de definir qué es problemas a la hora de definir qué es

relevante y qué no lo es, pero tendrá pocos relevante y qué no lo es, pero tendrá pocos problemas a la hora de decidir si el problemas a la hora de decidir si el

documento le parece o no útil. Finalmente es documento le parece o no útil. Finalmente es el usuario quién va a analizar el documento y el usuario quién va a analizar el documento y quien lo va a utilizar si le conviene, por lo que quien lo va a utilizar si le conviene, por lo que los juicios de los juicios de relevanciarelevancia van a ser realizados van a ser realizados por él, y son esos juicios de por él, y son esos juicios de relevanciarelevancia los los

que van a propiciar que un sistema de que van a propiciar que un sistema de recuperación de información, sea considerado recuperación de información, sea considerado

bueno o malo.bueno o malo.

Page 7: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

FrantsFrants plantea otra acepción de plantea otra acepción de relevancia relevancia muy muy similar a la anterior, en términos de similar a la anterior, en términos de eficiencia eficiencia

funcionalfuncional. Así, . Así, relevancia relevancia queda asociada con el queda asociada con el concepto de la relación existente entre los concepto de la relación existente entre los

contenidos de un documento con una temática contenidos de un documento con una temática determinada (esto es definido por otros autores determinada (esto es definido por otros autores

como como Korfhage comoKorfhage como relevancia objetivarelevancia objetiva) ) y y pertinencia pertinencia se restringe a la se restringe a la relación de utilidad relación de utilidad existente entre un documento recuperado y una existente entre un documento recuperado y una necesidad de información individual. (definido necesidad de información individual. (definido

por Korfhage como por Korfhage como relevancia subjetivarelevancia subjetiva))

Page 8: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

El El Diccionario de la RAEDiccionario de la RAE define define ““pertinenciapertinencia” como “calidad de ” como “calidad de

pertinente”, entendiéndose “pertinente” pertinente”, entendiéndose “pertinente” como "todo lo que viene a propósito o como "todo lo que viene a propósito o resulta oportuno". Así, un documento resulta oportuno". Así, un documento

pertinente es un documento que pertinente es un documento que resulta oportuno, porque le proporciona resulta oportuno, porque le proporciona al usuario final la información que a él al usuario final la información que a él

le cumple algún propósito.le cumple algún propósito.

Page 9: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Gerard Salton en 1983Gerard Salton en 1983 considera que el conjunto considera que el conjunto pertinente de documentos pertinente de documentos

recuperados puede definirse recuperados puede definirse como "el subconjunto de los como "el subconjunto de los

documentos almacenados en el documentos almacenados en el sistema que es apropiado para sistema que es apropiado para la necesidad de información del la necesidad de información del

usuario”.usuario”.

Page 10: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Para calcular la Para calcular la relevanciarelevancia, lo más , lo más habitual es establecer valores binarios: habitual es establecer valores binarios: si un documento es relevante, es decir, si un documento es relevante, es decir,

sirve como respuesta a nuestra sirve como respuesta a nuestra pregunta, se le asigna un valor de 1. O pregunta, se le asigna un valor de 1. O

si no sirve su valor será de 0. si no sirve su valor será de 0. También se puede fijar una gradación, y También se puede fijar una gradación, y

establecer una escala ordinal para establecer una escala ordinal para medir la medir la relevanciarelevancia de los de los

documentos. El problema de documentos. El problema de determinar una escala es que no hay determinar una escala es que no hay

una guía clara para elaborarla. Por una guía clara para elaborarla. Por ejemplo Saracevic 1988, da tres valores ejemplo Saracevic 1988, da tres valores

a su escala: relevante, parcialmente a su escala: relevante, parcialmente relevante y no relevante. relevante y no relevante.

Page 11: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Criterios de relevanciaCriterios de relevancia..

Los criterios de Los criterios de relevanciarelevancia de un documento se basan en tres de un documento se basan en tres aspectos: necesidad de la información, petición y perfil de aspectos: necesidad de la información, petición y perfil de

búsqueda. A menudo la petición no coincide con las búsqueda. A menudo la petición no coincide con las verdaderas necesidades; otras veces no coincide la petición verdaderas necesidades; otras veces no coincide la petición con el perfil de búsqueda. En consecuencia, para medir el con el perfil de búsqueda. En consecuencia, para medir el grado de adecuación de la respuesta a la búsqueda, hay grado de adecuación de la respuesta a la búsqueda, hay

que introducir tres conceptos distintos:que introducir tres conceptos distintos: Relevancia formal: adecuación de los resultados al perfil de Relevancia formal: adecuación de los resultados al perfil de

búsqueda.búsqueda. Relevancia semántica: adecuación a la petición de Relevancia semántica: adecuación a la petición de

información,información, Pertinencia: adecuación a la necesidad de información.Pertinencia: adecuación a la necesidad de información.

Page 12: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

El cálculo de la relevanciaEl cálculo de la relevancia

Existen dos métodos para calcular la Existen dos métodos para calcular la relevanciarelevancia, uno manual , uno manual y otro conocido como y otro conocido como pollingpolling : :

Manual:Manual: consiste en la exploración de los documentos uno consiste en la exploración de los documentos uno a uno para saber si se adecuan o no como respuesta a una a uno para saber si se adecuan o no como respuesta a una pregunta. Muchas veces establecer la relevancia de un pregunta. Muchas veces establecer la relevancia de un documento para una pregunta determinada resulta difícil y documento para una pregunta determinada resulta difícil y los especialistas no se ponen de acuerdo, por ello, es los especialistas no se ponen de acuerdo, por ello, es conveniente que los juicios los haga más de uno, y a ser conveniente que los juicios los haga más de uno, y a ser posible un número impar de especialistas. El principal posible un número impar de especialistas. El principal problema que presenta este método, es que en colecciones problema que presenta este método, es que en colecciones muy grandes, hay que invertir gran cantidad de tiempo, lo muy grandes, hay que invertir gran cantidad de tiempo, lo que supone mucho dinero para realizar esta operación. que supone mucho dinero para realizar esta operación.

Page 13: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

PollingPolling : : cuando las bases de datos son muy grandes, y no cuando las bases de datos son muy grandes, y no es posible evaluar uno a uno los documentos, para determinar es posible evaluar uno a uno los documentos, para determinar cuáles son los documentos relevantes, se recurre al "polling". cuáles son los documentos relevantes, se recurre al "polling".

Lo que se hace es analizar de manera manual un número Lo que se hace es analizar de manera manual un número determinado de documentos recuperados, con distintos determinado de documentos recuperados, con distintos

sistemas, este número suele ser elevado (varios centenares) sistemas, este número suele ser elevado (varios centenares) y se comparan con los primeros documentos recuperados con y se comparan con los primeros documentos recuperados con

cada sistema. Este conjunto de documentos es el que de cada sistema. Este conjunto de documentos es el que de manera manual analizan los expertos, que son los manera manual analizan los expertos, que son los

encargados de decir en último término si son relevantes o no. encargados de decir en último término si son relevantes o no. Este sistema asume que la gran mayoría de los documentos Este sistema asume que la gran mayoría de los documentos

relevantes son encontrados, si no por todos los sistemas, sí al relevantes son encontrados, si no por todos los sistemas, sí al menos por alguno de ellos, y los no recuperados pueden menos por alguno de ellos, y los no recuperados pueden considerarse como no relevantes. De esta manera no es considerarse como no relevantes. De esta manera no es necesario evaluar toda la base de datos, pero aún así el necesario evaluar toda la base de datos, pero aún así el

sistema es fiable ya que el número de documentos que se sistema es fiable ya que el número de documentos que se suele examinar es elevado.suele examinar es elevado.

Page 14: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

La medida de la La medida de la pertinencia.pertinencia.

Puede hacerse una estimación Puede hacerse una estimación cuantitativa de la cuantitativa de la pertinenciapertinencia mediante la aplicación de las tasas mediante la aplicación de las tasas de exhaustividad y precisión.de exhaustividad y precisión.

Documentos recuperados relevantes: Documentos recuperados relevantes: aa Documentos recuperados no relevantes: Documentos recuperados no relevantes: bb Total documentos recuperados: Total documentos recuperados: a+ba+b

Page 15: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Documentos no recuperados relevantes: Documentos no recuperados relevantes: ccDocumentos no recuperados no relevantes: Documentos no recuperados no relevantes: ddTotal documentos no recuperados: Total documentos no recuperados: c+dc+dTotal documentos relevantes: Total documentos relevantes: a+ca+cTotal documentos no relevantes: Total documentos no relevantes: b+db+dTotal documentos: Total documentos: a+b+c+da+b+c+dTasa de precisión: Tasa de precisión: P= (a/a+b)x100P= (a/a+b)x100Tasa de exhaustividad: Tasa de exhaustividad: E= (a/a+c)x100E= (a/a+c)x100

Los valores óptimos de precisión y exhaustividad Los valores óptimos de precisión y exhaustividad dependen en gran medida del tipo de búsqueda y de dependen en gran medida del tipo de búsqueda y de los intereses que mueven a la misma. El factor coste los intereses que mueven a la misma. El factor coste es asimismo importante. Para mejorar la eficacia de es asimismo importante. Para mejorar la eficacia de una búsqueda, los mejores resultados se consiguen una búsqueda, los mejores resultados se consiguen mediante el ajuste del perfil en aproximaciones mediante el ajuste del perfil en aproximaciones sucesivas, con la colaboración del peticionariosucesivas, con la colaboración del peticionario

Page 16: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

6.3 Exhaustividad y Precisión en la 6.3 Exhaustividad y Precisión en la recuperación de información.recuperación de información.

Exhaustividad:Exhaustividad: En Recuperación de la En Recuperación de la Información, es una aptitud que tiene un Información, es una aptitud que tiene un sistema de información para recuperar la sistema de información para recuperar la totalidad de los documentos relevantes que totalidad de los documentos relevantes que posee una colección, conforme a los posee una colección, conforme a los requerimientos establecidos en la estrategia requerimientos establecidos en la estrategia de búsqueda. La de búsqueda. La exhaustividadexhaustividad sólo puede sólo puede medirse cualitativamente, tomando en medirse cualitativamente, tomando en consideración el grado de satisfacción de consideración el grado de satisfacción de los usuarios.los usuarios.

Page 17: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

La exhaustividad consiste en recuperar La exhaustividad consiste en recuperar en una búsqueda toda la información en una búsqueda toda la información que a uno le interesa. Por ejemplo, si que a uno le interesa. Por ejemplo, si

se buscara el término “Tchaikovsky” en se buscara el término “Tchaikovsky” en un catálogo bibliográfico, el índice de un catálogo bibliográfico, el índice de exhaustividad sería bajo si el catálogo exhaustividad sería bajo si el catálogo incluyera además de “Tchaikovsky”, incluyera además de “Tchaikovsky”,

otras variantes como “Chaikovsky” y no otras variantes como “Chaikovsky” y no utilizara referencias cruzadas entre las utilizara referencias cruzadas entre las distintas formas de escribir el nombre.distintas formas de escribir el nombre.

Page 18: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Precisión:Precisión: Aptitud de un sistema de Aptitud de un sistema de almacenamiento y recuperación de almacenamiento y recuperación de la información para representar los la información para representar los

diferentes conceptos de un diferentes conceptos de un documento con un grado adecuado documento con un grado adecuado

de profundidad. de profundidad.

Page 19: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Es decir, que la Precisión, consiste Es decir, que la Precisión, consiste en que los resultados de la en que los resultados de la

búsqueda estén relacionados. Por búsqueda estén relacionados. Por ejemplo, si se buscara “Cyril ejemplo, si se buscara “Cyril

Smith”, el índice de pertinencia Smith”, el índice de pertinencia sería bajo si incluyera una gran sería bajo si incluyera una gran cantidad de resultados sobre el cantidad de resultados sobre el político cuando en realidad nos político cuando en realidad nos

interesaba el pianista.interesaba el pianista.

Page 20: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

La La precisión precisión mide el porcentaje mide el porcentaje de documentos recuperados de documentos recuperados

que resultan relevantes con el que resultan relevantes con el tema de la pregunta y su tema de la pregunta y su

cálculo es simple: se divide el cálculo es simple: se divide el total de documentos relevantes total de documentos relevantes

recuperados entre el total de recuperados entre el total de documentos recuperados.documentos recuperados.

Page 21: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Así, la recuperación perfecta es en la que únicamente se recuperan los documentos

relevantes

Page 22: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

La La exhaustividad exhaustividad conlleva algunos conlleva algunos problemas más en su cálculo. Si bien su problemas más en su cálculo. Si bien su

definición es clara, (número de documentos definición es clara, (número de documentos relevantes recuperados dividido entre el relevantes recuperados dividido entre el

número de documentos totales relevantes número de documentos totales relevantes

de la colección),de la colección),

Si el resultado de este cálculo tiene como valor 1, tendremos la exhaustividad máxima, ya que hemos encontrado todo lo relevante que había en la base de datos, por lo tanto no tendremos ni ruido ni silencio informativo: la recuperación será perfecta.

Page 23: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

no está claro cuál es el valor de ese denominador, si el no está claro cuál es el valor de ese denominador, si el usuario conociera de antemano el número de usuario conociera de antemano el número de

documentos relevantes de la colección, ¿por qué no los documentos relevantes de la colección, ¿por qué no los recupera todos en esa búsqueda? La respuesta es recupera todos en esa búsqueda? La respuesta es simple: porque no los puede conocer de antemano, simple: porque no los puede conocer de antemano,

como máximo puede inferir ese valor. Estas dos como máximo puede inferir ese valor. Estas dos medidas tienden a relacionarse de forma inversa, ya que medidas tienden a relacionarse de forma inversa, ya que cuanto mayor es el valor de la cuanto mayor es el valor de la precisiónprecisión, menor va a ser , menor va a ser el valor de la el valor de la exhaustividadexhaustividad. Si un usuario lleva a cabo . Si un usuario lleva a cabo

una operación de recuperación de información en la cual una operación de recuperación de información en la cual inserta condiciones muy específicas, obtendrá un inserta condiciones muy específicas, obtendrá un

conjunto de resultados muy preciso pero, de igual modo, conjunto de resultados muy preciso pero, de igual modo, habrá dejado de recuperar algunos documentos a causa habrá dejado de recuperar algunos documentos a causa

de ese alto nivel de especificación.de ese alto nivel de especificación.

Page 24: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

De hecho, una amplia mayoría de De hecho, una amplia mayoría de usuarios consideran mucho más usuarios consideran mucho más

importante la importante la precisiónprecisión, relegando , relegando generalmente a la generalmente a la exhaustividad exhaustividad a a un cometido secundario, mientras un cometido secundario, mientras

la búsqueda proporcione la búsqueda proporcione información relevante, el usuario no información relevante, el usuario no

suele detenerse a pensar en la suele detenerse a pensar en la cantidad de documentos relevantes cantidad de documentos relevantes

que no recupera.que no recupera.

Page 25: Unidad 6. Evaluación de la Indización. 6.2 Relevancia y Pertinencia. Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición.

Necesitamos comprobar que la Necesitamos comprobar que la precisión y la exhaustividad precisión y la exhaustividad

están compensadas, ya que un están compensadas, ya que un sistema con una exhaustividad sistema con una exhaustividad

muy alta pero con baja muy alta pero con baja precisión y viceversa no será precisión y viceversa no será

adecuado. adecuado.