¿Cómo trabajar en el grafo web?¿Cómo trabajar en el grafo web?
José Luis Alonso BerrocalJosé Luis Alonso Berrocal
http://reina.usal.es
Dpto. de Informática y Automática.
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
2 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Estructura de enlaces en el web
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
3 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido del grafo web.
Básicamente lo podemos recorrer:
Recorrido en anchura (breadth-first).
Recorrido en profundidad (depth-first).
El mejor posible (best-first).
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
4 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido del grafo (II)
Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6
Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
5 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Procedimiento básico
WEB
Urls a seguirUrls visitados
Base de datosFicheros ascii
URL inicialURL inicial
Se carga la páginaSe carga la página
Se extraen los URL
Se extraen los URL
Almacenar lainformación
Almacenar lainformación
Seguir el siguienteURL
Seguir el siguienteURLOperaciones de normalización:
- convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
6 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido avanzado
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
7 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido avanzado (II)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
8 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
WebBotHarvest-NGWebvac SpiderSocSciBot 3 y SocSciBot_ToolsSacarinoBot y EloisaBot Tools
Web crawlers para captura de datos
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
9 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
10 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
11 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación II)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
12 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación III)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
13 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Creación de matrices
0100000000
0000010100
0000001000
1110001010
1010011000
0000100000
0001010000
0001000001
0000001100
0000000110
10
9
8
7
6
5
4
32
1
10987654321
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
14 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Operaciones con matrices
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
15 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Matriz de distancia.
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
16 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Se pueden resumir los datos de la siguiente forma:
Resumen de los datos
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
17 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Tratamiento de los datos
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
18 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Herramienta de cálculo
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
19 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Matriz sparse
0100000000
0000010100
0000001000
1110001010
1010011000
0000100000
0001010000
0001000001
0000001100
0000000110
10
9
8
7
6
5
4
32
1
10987654321
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
20 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
PageRank
jBj j
i xN
xi
1
importancia pagina i
paginas j que enlazan a pagina i
Nº enlaces salientes desde página j
importancia pagina j
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
21 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Estructura de enlaces en el web
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
0 1/20 0 0 0 00 0 0
1/2 00 0 0 0 01/5 0 0
1/2 01/2 0 0 0 00 1/2 0
0 01/2 0 0 1/4 11/5 0 0
1 32 4 5 6 87 9 10
0 00 1/2 0 1/4 00 1/2 0
0 00 0 1 0 00 0 0
0 1/20 1/2 0 0 00 0 0
0 00 0 0 1/4 01/5 0 0
0 00 0 0 0 01/5 0 1
0 00 0 0 1/4 01/5 0 0
1
2
3
4
5
6
7
8
9
10
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
22 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Resultado final
---- Iteración 1 ----
0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045
NORM es 1.000000
Residual es 0.380000
---- Iteratión 3 ----
0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066
NORM es 1.000000
Residual es 0.297500
---- Iteración 10 ----
0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066
NORM es 1.000000
Residual es 0.017855
---- Iteración 20 ----
0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065
NORM es 1.000000
Residual es 0.000896
El “eigen vector” principal (contiene los valores del PageRank)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
23 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Pajek
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
24 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Conversión a formato Pajek
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
25 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
26 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo (II)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
27 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo (III)
http://reina.usal.es
José Luis Alonso [email protected]