Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

67
Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea

Transcript of Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Page 1: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelos Alternativos (2)M. Andrea Rodríguez Tastets

DIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea

Page 2: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelos

Non-Overlapping ListsProximal Nodes

Structured Models

Retrieval: Adhoc Filtering

Browsing

U s e r

T a s k

Classic Models

boolean vector probabilistic

Set Theoretic

Fuzzy Extended Boolean

Probabilistic

Inference Network Belief Network

Algebraic

Generalized Vector Lat. Semantic Index Neural Networks

Browsing

Flat Structure Guided Hypertext

Page 3: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo Vector Generalizado

Modelos clásicos asumen la independencia de los términos índices.

Para el modelo vector: • El conjunto de vectores de términos {k1, k2, ..., kt} are

linealmente independientes, los cuales forman la base para el subespacio de interes.

Esto se interpreta también como una ortogonalidad:• i,j ki kj = 0

En 1985, Wong, Ziarko, y Wong propusieron una interpretación en la cual los vectores de términos son linealmnete independientes, pero no ortogonales.

Page 4: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Idea Base:• En el modelo vector generalizado, dos vectores de

términos índices pueden ser no ortogonales y son representados en base a componentes más pequeños (minterms).

• Tal como antes, sea, wij el peso asociado con [ki,dj] {k1, k2, ..., kt} sea el conjunto de todos los términos

• Si estos pesos son todos binarios, todos los patrones de ocurrencia de los términos puden ser representados por:: m1 = (0,0, ..., 0) m5 = (0,0,1, ..., 0) m2 = (1,0, ..., 0) …. m3 = (0,1, ..., 0) m4 = (1,1, ..., 0) m2t =(1,1,1,

…..1) Aquí, m2 indica documentos en los cuales sólo el

término k1 occurre.

Page 5: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Idea Base:

• La base para el modelo vector generalizado está formado por un conjunto de vectores definidos sobre el conjunto de minterms (que son ortogonales), como sigue:

0 1 2 ... 2t

m1 = (1, 0, 0, ..., 0, 0) m2 = (0, 1, 0, ..., 0, 0) m3 = (0, 0, 1, ..., 0, 0)

• m2t = (0, 0, 0, ..., 0, 1)

• Note que,• i,j mi mj = 0 e.i., ortogonales

Page 6: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Idea Base:• Vectores minterm son ortogonales, pero no necesariamente

independientes:• El minterm m4 está dado por:

m4 = (1, 1, 0, ..., 0, 0)• Este minterm indica la ocurrencia de los términos k1 y

k2 en el mismo documento. Si tal documento existe en una colección, se dice que el mintem m4 está activo y que una dependencia entre estos términos está inducida.

• Se asume que la co-ocurrencia de términos en documentos induce dependencias entre ellos.

Page 7: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

• El vector asociado con el término ki es computado:

El peso c con el par [ki,mr] suma los pesos de los términos ki en todos lo documentos en los cuales tiene un patrón de ocurrencia dado por mr.

Note que para una colección de tamaño N, sólo N minterms afectan el ranking.

Formando el Vector de Términos

t

rki =

ci,rrmr∀r,gi(mr )=1

∑ci,r2

∀r,gi(mr )=1∑

ci,r = wi, jdj |gl (

rdj )=gl (mr )∀l∑

Page 8: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

• Un grado de correlación entre términos entre ki y kj puede ser determinado por:

• Este grado de correlación suma (en una forma ponderada) las dependencias entre ki y kj inducido por los documentos en la colección (representado por el mr minterms).

• Luego se aplica el modelo vectorial:

Dependencia entre Términos Índices

Ki ⋅K j = ci,r ×cj ,r∀r,gr (mr )=1∧gj (mr )=1∑

drj = wi, j k

ri

∀i∑ ,q

r= wi,qk

ri

∀i∑

Page 9: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Ejemplo

d1

d2

d3d4 d5

d6d7

k1k2

k3

k1 k2 k3

d1 2 0 1

d2 1 0 0

d3 0 1 3

d4 2 0 0

d5 1 2 4

d6 1 2 2

d7 0 5 0

q 1 2 3

Page 10: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Cálculo de C i,r

k1 k2 k3

d1 2 0 1

d2 1 0 0

d3 0 1 3

d4 2 0 0

d5 1 2 4

d6 1 2 2

d7 0 5 0

q 1 2 3

k1 k2 k3

d1=m6

1 0 1

d2=m2

1 0 0

d3=m7

0 1 1

d4=m2

1 0 0

d5=m8

1 1 1

d6=m7

0 1 1

d7=m3

0 1 0

q=m8 1 1 1

c1,r c2,r c3,r

m1 0 0 0

m2 3 0 0

m3 0 5 0

m4 0 0 0

m5 0 0 0

m6 2 0 1

m7 0 3 5

m8 1 2 4

Page 11: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Cálculo de vector de términos índices

c1,r c2,r c3,r

m1 0 0 0

m2 3 0 0

m3 0 5 0

m4 0 0 0

m5 0 0 0

m6 2 0 1

m7 0 3 5

m8 1 2 4

k1 =1

32 + 22 +12(3m2 + 2m6 +m8)

k2 =1

52 + 32 + 22(5m3+ 3m7 + 2m8)

k3 =1

12 + 52 + 42(1m6 + 5m7 + 4m8)

Page 12: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Cálculo de vector de documentos

k1 k2 k3

d1 2 0 1

d2 1 0 0

d3 0 1 3

d4 2 0 0

d5 1 2 4

d6 1 2 2

d7 0 5 0

q 1 2 3

d1 =2k1 + k3d2 =k1d3 =k2 + 3k3d4 =2k1d5 =k1 + 2k2 + 4k3d6 =2k2 + 2k3d7 =5k1q=k1 + 2k2 + 3k3

Page 13: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Calculo de Ranking

d1 =2k1 + k3d2 =k1d3 =k2 + 3k3d4 =2k1d5 =k1 + 2k2 + 4k3d6 =2k2 + 2k3d7 =5k1q=k1 + 2k2 + 3k3

k1 =1

32 + 22 +12(3m2 + 2m6 +m8)

k2 =1

52 + 32 + 22(5m3+ 3m7 + 2m8)

k3 =1

12 + 52 + 42(1m6 + 5m7 + 4m8)

Page 14: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Conclusiones

El modelo considera correlación entre términos índices.

No es claro cuánto mejor es con respecto al modelo vector clásico.

Costo computacional mayor Ideas nuevas e interesantes

Page 15: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Semantic Indexing IR clásica puede llevar a una recuperación deficiente por:

• Documentos no relacionados pueden ser incluidos en la respuesta.

• Documentos relevantes que no contienen al menos un térmico índice no son considerados.

• Razonamiento: recuperación basada en términos índices es vaga y afectada

por “ruido”. El usuario está más relacionado a conceptos e ideas que a términos

índices. Un documento que comparte conceptos con otro documento conocido

de ser relevante puede ser de ínteres también.

Page 16: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Semantic Indexing

La clave es mapear documentos y consultas a un espacio de dimensión menor (e.i. un espacio compuesto de conceptos de mayor nivel con un conjunto menor de términos índices).

Recuperar en este espacio reducido de conceptos puede ser mejor para recuperar que un espacio de términos índices.

Page 17: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Semantic Indexing

Definiciones• Sea t el número total de términos índices• Sea N el número de documentos• Sea (Mij) una matriz de documento-término con t

filas y N columnas• Cada elemento de esta matriz está asociada con

un peso wij asociado con el par [ki,dj]• El peso wij puede basarse en el esquema tf-idf

Page 18: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Semantic Indexing

La matriz (Mij) puede ser descompuesta en 3 matrices (decomposición de valor singular) como sigue:

• (Mij) = (K) (S) (D)t

• (K) es la matriz de vectores propios derivada de (M)(M)t

• (D)t es la matriz de vectores propios derivada de (M)t(M)

• (S) es una matriz diagonal r x r de valores singulares donde r = min(t,N) que es el rango de (Mij)

Page 19: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Ejemplo Sea (Mij) la matriz dada por

• determinar las matrices (K), (S), y (D)t

k1 k2 k3 q*dj

d1 2 0 1 5

d2 1 0 0 1

d3 0 1 3 11

d4 2 0 0 2

d5 1 2 4 17

d6 1 2 2 5

d7 0 5 0 10

q 1 2 3

Page 20: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Semantic Indexing En la matriz (S), seleccionar sólo los s valores singulares

mayores mantenga las correspondientes columnas en (K) y (D)t

La matriz resultante es llamada (M)s y está dada por

• (M)s = (K)s (S)s (D)t

• donde s, s < r, es la dimensionalidad del espacio de conceptos

El parámetro s debe ser• suficientemente grande para permitir la caracterización de

los datos • suficientemente pequeño para filtrar datos no relevantes.

s

Page 21: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Latent Ranking

La consulta puede ser modelada como un seudo-documento en la matriz original (M)

Asuma que la consulta es numerada como un documento 0 in la matriz

La matriz cuantifica la

relación entre cualquier par de documentos en el espacio reducido

La primera fila de la matriz da el ranking de todos los documentos con respecto a la consulta del usuario.

M stM s

Page 22: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Conclusiones

Latent semantic indexing otorga una conceptualización interesante de recuperación de información

Permite reducir la complejidad de la representación, el cual puede ser explorado,por ejemplo, con el propósito de interacción con el usurario.

Page 23: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes Neuronales

IR clásica: • Términos son usados parta indexar documentos y

consultas• Recuperación está basada en el matching de términos

índices.

Motivación: • Redes neuronales son conocidas por ser buenas para

realizar matching.

Page 24: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes Neuronales

Redes Neuronales:• El cerebro humano está compuesto de billones de

neuronas • Cada neurona puede ser vista como una unidad de

procesamiento• Un neurona es estimulada por una señal de entrada y

emite una señal de salida como reacción• Una cadena de reacción de propagación de señales es

llamada spread activation process • Como resultado de este proceso, el cerebro puede

controlar el cuerpo para lograr reacciones físicas.

Page 25: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Una red neuronal es una simplificación de la interacción de neuronas en el cerebro humano. • Nodos son unidades de procesamiento • Arcos son conexiones sinápticas • La fuerza de propagación es modelada como un

peso asignado a cada arco• El estado de un nodo es definido por su nivel de

activación • Dependiendo de su nivel de activación, un nodo

puede generar una señal de salida.

Modelo de Redes Neuronales

Page 26: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes Neuronales para IR Basado en el trabajo de Wilkinson & Hingston,

SIGIR’91Document Terms

Query Terms Documents

ka

kb

kc

ka

kb

kc

k1

kt

d1

dj

dj+1

dN

Page 27: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes de tres niveles Las señales se propagan a través de la red Primer nivel de propagación:

• Los términos de la consulta inician la señal • Estas señales se propoagan a través de la red hasta alcanzar

los nodos documentos Segundo nivel de propagación:

• Los nodos documentos pueden ellos por sí mismos generar nuevas señales las cuales afectan los términos de los documentos

• Los nodos de términos de documentos pueden responder con nuevas señales

Redes Neuronales para IR

Page 28: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Cuantificación de la Señal Normalizar la fuerza de la señal (MAX = 1) Términos de consulta emiten una señal igual a 1 Pesos asociados a cada arco desde un nodo término

de consulta ki a un nodo término documento ki:• WiqWiq = wiq

sqrt ( i wiq ) Pesos asociados a cada arco desde un nodo término

de un document ki a un nodo documento dj:• WijWij = wij

sqrt ( i wij )

2

2

Page 29: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Después del primer nivel de propación, el nivel de activación de un nodo documento dj está dado por:

i WiqWiq WijWij = i wiq wij sqrt ( i wiq ) * sqrt ( i wij )

el cual es exactamente el ranking del modelo vectorial Nuevas señales pueden ser intercambiadas entre nodos

términos de documento y nodos documento en un proceso análago a un ciclo de feedback

Un threshold mínimo debe ser asegurado para evitar generación de señales perturbadoras.

2 2

Cuantificación de la Señal

Page 30: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Conclusiones El modelo da una formulación

interesante al problema de IR El modelo no ha sido evaluado

extensiblementeNo es claro las mejoras que otorga

Page 31: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo Alternativos Probabilísticos

Teoría de Probabilidad• Semánticamente clara• Computacionalmente enrredada

Por qué Redes Bayesianas? • Es un formalismo claro que combina evidencias • Comparticiona el mundo (dependencias)• Redes Bayesianas para IR

Redes de Inferencia (Turtle & Croft, 1991) Redes de Creencia (Ribeiro-Neto & Muntz, 1996)

Page 32: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Inferencia Bayesiana

Escuelas de pensamiento en probabilidad• Frecuencia: noción estadística

relacionada con las leyes de cambios

• Epistemología: interpreta la probabilidad como grado de creencia

Page 33: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Inferencia Bayesiana

Axiomas básicos:

0 < P(A) < 1 ;

P(sure)=1;

P(A V B)=P(A)+P(B) Si A y B son mutuamente exclusivos

Page 34: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Inferencias Bayesianas

Otras formulaciones• P(A)=P(A B)+P(A ¬B)• P(A)= i P(A Bi) , donde Bi,i es un conjunto

exhaustivo y mutuamente exclusivo• P(A) + P(¬A) = 1• P(A|K) creencia en A dado el conocimiento de

K• if P(A|B)=P(A), A y B son independientes• if P(A|B C)= P(A|C), A y B son

condicionalmente independientes, dado C• P(A B)=P(A|B)P(B)• P(A)= i P(A | Bi)P(Bi)

Page 35: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Inferencia Bayesiana

Regla de Bayes: El corazón de la técnica Bayesiana

P(H|e) = P(e|H)P(H)/ P(e)donde, H : una hipótesis y e es una evidencia

P(H) : Probabilidad anterior P(H|e) : Probabilidad posterior P(e|H) : Probabilidad de e si H es

verdadero P(e) : una constante normalizadora, entonces escribimos:

P(H|e) ~ P(e|H)P(H)

Page 36: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes Bayesianas

Definición:Son grafos dirigidos acíclicos en los cuales nodos representan variables aleatorias, los arcos representan relaciones de causalidad entre estas variables, y la fuerza de estas causalidades son expresadas por probabilidaddes condicionales.

Page 37: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes Bayesianas

yi : Nodos padres (en este caso, nodos de raíz)x : nodo hijoyi causa xY el conjunto de padres de xLa enfuencia de Y en x puede ser cuantificada por cualquier funciónF(x,Y) tal que x F(x,Y) = 1 0 < F(x,Y) < 1Por ejemplo, F(x,Y)=P(x|Y)

y1 y2 y3

x1

Page 38: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes Bayesianas

Dada la dependencia declarada en una red Bayesiana, la expresión para la probabilidad conjunto puede ser calculada como un producto de probabilidad condicional local, por ejemplo, P(x1, x2, x3, x4, x5)=

P(x1 ) P(x2| x1 ) P(x3| x1 ) P(x4| x2, x3 ) P(x5| x3 ).

P(x1 ) : probabilidad anterior del nodo raíz

x1

x2 x3

x4x5

Page 39: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Redes Bayesianas

En una red Bayesiana cada variable es condicionalmente dependiente de todos los no descendientes, sus padres Por ejemplo,

P(x4, x5| x2 , x3)= P(x4| x2 , x3) P( x5| x4)

x1

x2 x3

x4x5

Page 40: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes de Inferencia

Vista Epistemológica del problema de IR Variables aleatorias asociadas con

documentos, términos índices y consultas Una variable aleatoria asociada con un

documento dj representa el evento de observar tal documento

Page 41: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes de InferenciaNodos

documentos (dj)

términos índices (ki)

consultas (q, q1, y q2)necesidad de información del usuario (I)

Arcos desde dj, su nodo de término índice ki indica que la observación de dj aumenta la creencia en la variable ki

dj

k1 k2

q

q2

q1

I

ki kt

or

and

Page 42: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

dj tiene términos k2, ki, y kt

q tiene términos k1, k2, y ki

q1 y q2 es una formulación Boolean

q1=((k1 k2) v ki);

I = (q v q1)

Modelo de Redes de Inferencia

dj

k1 k2

q

q2

q1

I

ki kt

or

and

Page 43: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Definiciones:k1, dj,, son q variables aleatorias

k=(k1, k2, ...,kt) un vector t-dimensional

ki,i{0, 1}, entonces k tiene 2t posibles estados

dj,j{0, 1}; q{0, 1}

El ranking de un documento dj es calculado como P(q dj)

q y dj,son representación cortas para q=1 y dj =1

(dj representa un estado donde dj = 1 and lj dl =0, porque se observa un documento en cada momento)

Modelo de Redes de Inferencia

Page 44: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

P(q dj) = k P(q dj| k) P(k)

= k P(q dj k)

= k P(q | dj k) P(dj k)

= k P(q | k) P(k | dj ) P( dj )

P(¬(q dj)) = 1 - P(q dj)

Modelo de Redes de Inferencia

Page 45: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Como la instanciación de dj hace todos los nodos de términos índices mutuamente independientes P(k | dj ),entonces

P(q dj) = k [ P(q | k) x

(i|gi(k)=1 P(ki | dj ))x (i|gi(k)=0 P(¬ki | dj)) x

P( dj )]recuerde que: gi(k)= 1 si ki=1 en el vector k

0 en otro caso

Modelo de Redes de Inferencia

Page 46: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Probabilidad anterior P(dj) refleja la probabilidad asociado a un evento de observación a un documento dj

• Uniforme para N documentos

P(dj) = 1/N

P(¬dj) = 1 - 1/N• Basada en la norma del vector dj

P(dj)= 1/|dj|

P(¬dj) = 1 - 1/|dj|

Modelo de Redes de Inferencia

Page 47: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para el modelo BooleanP(dj) = 1/N

1 if gi(dj)=1

P(ki | dj) = 0 otro caso

P(¬ki | dj) = 1 - P(ki | dj)

solo los nodos asociados con los términos índices del documento dj son activados

Modelo de Redes de Inferencia

Page 48: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para el modelo Boolean 1 if qcc | (qcc qdnf) ( ki, gi(k)= gi(qcc)P(q | k) =

0 otherwise

P(¬q | k) = 1 - P(q | k)

uno de los componentes conjuntivos de la consulta debe ser igualado por los términos índices activos en k

Modelo de Redes de Inferencia

Page 49: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para una estrategia tf-idf

P(dj)= 1 / |dj|

P(¬dj) = 1 - 1 / |dj|

probabilidad anterior refleja la importancia de normalización de documento

Modelo de Redes de Inferencia

Page 50: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para la estrategia tf-idf

P(ki | dj) = fi,j

P(¬ki | dj)= 1- fi,j

La relevancia del término ki es determinada por su factor de frecuencia de término normalizada fi,j = freqi,j / max freql,j

Modelo de Redes de Inferencia

Page 51: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para estrategia tf-idfDefine un vector ki dado por

ki = k | ((gi(k)=1) (ji gj(k)=0))

en el estado ki sólo el nodo ki está activo y todos los otros inactivos

Modelo de Redes de Inferencia

Page 52: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para la estrategia tf-idf

idfi if k = ki gi(q)=1P(q | k) =

0 if k ki v gi(q)=0

P(¬q | k) = 1 - P(q | k)

sumamos las contribuciones individuales de cada término por su normalizado idf

Modelo de Redes de Inferencia

Page 53: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para la estrategia tf-idf

Como P(q|k)=0 k ki, se reescribe P(q dj) como

P(q dj) = ki [ P(q | ki) P(ki | dj )x

(l|li P(¬kl | dj)) x P( dj )] = (i P(¬kl | dj))x P( dj )x ki [P(ki | dj ) xP(q | ki) / P(¬ki| dj)]

Modelo de Redes de Inferencia

Page 54: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para una estrategia tf-idfAplicando la probabilidad,se tiene que

P(q dj) = Cj (1/|dj|) i [fi,j idfi (1/(1- fi,j ))] Cj cambia de documento en documento

El ranking es distinto del cual dado por el modelo vectorial

Modelo de Redes de Inferencia

Page 55: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Combinando evidenciaSea I = q v q1

P(I dj) = k P(I | k) P(k | dj ) P( dj)

= k [1 - P(¬q|k)P(¬q1| k)] P(k| dj ) P( dj)

Puede llevar a un rendimiento de recuperación el cual sobrepasa el rendimiento de los nodos de consulta individuales (Turtle & Croft)

Modelo de Redes de Inferencia

Page 56: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes de Creencia

Como el Modelo de Redes de Inferencia• Una vista epistemológica • Variables aleatorias para docuementos,índices y

consultas Contrario a Redes de Inferencia

• Espacio de muestreo bien definido• Vista de teoría de conjuntos• Diferente topología de red

Page 57: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

El espacio de probabilidadDefine:

K={k1, k2, ...,kt} el espacio de muestreo (un espacio conceptual)

u K un subconjunto de K (un concepto)ki un término índice (un concepto elemental)

k=(k1, k2, ...,kt) un vector asociado a cada u tal que gi(k)=1 ki u

ki una variable binaria aleatoria asociada con el término índice ki , (ki = 1 gi(k)=1 ki u)

Modelo de Redes de Creencia

Page 58: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Un vista de teoría de conjuntoDefine:

un documento dj y una consulta q como conceptos en K

un concepto genérico c en Kuna probabilidad de distribución P sobre K, como

P(c)=uP(c|u) P(u)

P(u)=(1/2)t

P(c) es el grado de cobertura del espacio por c

Modelo de Redes de Creencia

Page 59: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Topología de Red consultas

documentos

Modelo de Redes de Creencia

q

k1 k2 ki kt

dndjd1

Page 60: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Asume

P(dj|q) es adoptado como un ranking del documento dj con respecto a la consulta q. Refleja el grado de cobertura que da el concepto dj para el concepto q.

Modelo de Redes de Creencia

Page 61: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

El ranking de dj

P(dj|q) = P(dj q) / P(q)

~ P(dj q)

~ u P(dj q | u) P(u)

~ u P(dj | u) P(q | u) P(u)

~ k P(dj | k) P(q | k) P(k)

Modelo de Redes de Creencia

Page 62: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para el modelo vectorialDefine

Define un vestor ki dado por

ki = k | ((gi(k)=1) (ji gj(k)=0))

en el estado ki sólo el nodo ki está activo

Modelo de Redes de Creencia

Page 63: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para el modelo vectorialDefine

(wi,q / |q|) if k = ki gi(q)=1P(q | k) =

0 if k ki v gi(q)=0

P(¬q | k) = 1 - P(q | k) (wi,q / |q|) es una versión normalizada del peso del término índice ki en la consulta q

Modelo de Redes de Creencia

Page 64: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Para el modelo vectorialDefine

(wi,j / |dj|) if k = ki gi(dj)=1

P(dj | k) =

0 if k ki v gi(dj)=0

P(¬ dj | k) = 1 - P(dj | k)

(wi,j / |dj|) es una versión normalizada del peso del término índice ki en el documento d,j

Modelo de Redes de Creencia

Page 65: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelode Redes Bayesianas

Comparación Modelo de redes de inferencia en el primero y bien

conocido Modelo de redes de creencia adopta una vista de teoría de

conjunto Modelo de redes de creencia adopta un claro espacio de

muestreo Modelo de redes de creencia separa claramente la

consulta de los documentos Modelo de redes de creencia es capaz de reproducir

el ranking derivado de una red de inferencia (pero no el inverso)

Page 66: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelo de Redes Bayesianas

Costo Computacional Modelo de Redes de Inferencias: es lineal en el

número de documentos. Redes de creencia: sólo los estados de los

términos de la consulta son considerados Las redes no tienen ciclos y no imponen costos

adicionales

Page 67: Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción andrea.

Modelos de Redes Bayesianas

Impacto

La combinación de propiedades de distintos modelos es una idea que ayuda a la mejora en recuperación de información.