PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.
-
Upload
alisa-collado -
Category
Documents
-
view
221 -
download
0
Transcript of PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.
![Page 1: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/1.jpg)
PFC ITIS 2012Alumno: Dersu García Sanz
Director: German Rigau Claramunt
1
![Page 2: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/2.jpg)
Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración
2
![Page 3: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/3.jpg)
Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.
Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea.
3
![Page 4: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/4.jpg)
Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.
Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC.
4
![Page 5: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/5.jpg)
Sistema informático de clasificación de noticias multilingües.
Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas.
Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo.
5
![Page 6: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/6.jpg)
6
![Page 7: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/7.jpg)
Extraer periódicamente información de las noticias recogidas en el portal News Explorer.
Almacenarla en disco para su posterior análisis.
Guardar un registro con la fecha de ejecución del programa y los datos almacenados.
7
![Page 8: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/8.jpg)
8
![Page 9: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/9.jpg)
9
![Page 10: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/10.jpg)
Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.
Acceder a dichas páginas y extraer información de las noticias.
Necesitamos especificar al programa:◦ Lenguajes de las noticias que queremos recoger.◦ Umbral de semejanza para recopilar clústers
relacionados.
10
![Page 11: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/11.jpg)
De cada clúster de noticias queremos extraer:◦ Enlace◦ Idioma◦ Título◦ Descripción◦ Fecha◦ Historia◦ Noticias◦ Países◦ Lugares◦ Personas◦ Entidades◦ Keywords◦ Clústers relacionados
11
![Page 12: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/12.jpg)
12
![Page 13: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/13.jpg)
Dividir el trabajo en subprogramas Realizar los contratos de las operaciones
13
![Page 14: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/14.jpg)
Base de Datos◦ Claves primarias SHA1(enlace)◦ Relaciones entre tablas◦ Frecuencias (Personas, Países, Otros nombres)
Elección tecnológica◦ Expresiones regulares
Pseudocódigo de las operaciones
14
![Page 15: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/15.jpg)
15
![Page 16: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/16.jpg)
Ejemplos:
◦ Fecha del clúster m{<p class="center_group_main">(.+?)</p>}
◦ Otros nombres m{Other Names</p>(.*?)</div>}s m{<a href="(.*)" class="headline_link">(.*?)</a> \((\d+)\)</p>}g
◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+)</a>}g m{<p class="center_headline_source">.+? (.+?)</p>}g
16
![Page 17: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/17.jpg)
Módulos Perl◦ LWP::Simple◦ DBI◦ URI◦ HTML::Entities◦ Digest::SHA1
Extracción de información◦ Expresiones Regulares
Estructuras de datos◦ Listas
17
![Page 18: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/18.jpg)
emm_launcher.pl◦ Ejecuta diferentes configuraciones de emm.pl
emm.pl◦ Programa principal
NewsMonitor.pm◦ Definición de funciones y variables globales
18
![Page 19: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/19.jpg)
Parámetros de entrada del programa◦ Idioma Principal◦ Idiomas Secundarios◦ Umbral de Semejanza
Unitarias◦ Probar funcionamiento de subprogramas antes de
añadirlos al programa principal. (Caja Negra) De Integración
◦ Probar programa principal al añadirle un subprograma.
19
![Page 20: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/20.jpg)
De Sistema◦ Comparación de los datos almacenados en la
base de datos con los que se encuentran en las páginas extraídas.
De Explotación◦ Problema al cambiar de servidor.◦ Personas con claves primarias iguales.
De Rendimiento◦ Expresiones regulares frente a parsers HTML.◦ Tamaño de columnas en la base de datos.
20
![Page 21: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/21.jpg)
Procesos Planificado Real
Tácticos 50 60
Operativos 80 85
Formativos 115 145
Total 245 290
Desviación 18%
21
![Page 22: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/22.jpg)
Incidencias principales◦ Falta de documentación.◦ Se estimó poco tiempo para desarrollar la
memoria.◦ Re-planificación de entregas.◦ Pensábamos terminar el proyecto en junio.
Otras asignaturas Cursos online Trabajo Inglés
22
![Page 23: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/23.jpg)
Objetivos Cumplidos◦ Extraer datos de News Explorer◦ Almacenarlos en disco◦ Guardar registro log
El programa está en explotación
Mejoras futuras◦ Extraer información adicional◦ Obtener clústers relacionados en el mismo idioma◦ Guardar los datos en XML◦ Recuperar todo el cuerpo de las noticias (PF Máster)◦ Normalizar las fechas
23
![Page 24: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/24.jpg)
Balance positivo del resultado◦ Objetivos cumplidos.◦ El programa lleva en funcionamiento desde
febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity 2013
24
Proyectos Europeos
Proyecto Nacional (MEC)
![Page 25: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.](https://reader035.fdocumento.com/reader035/viewer/2022062315/5665b4391a28abb57c9025e4/html5/thumbnails/25.jpg)
Estado actual de la base de datos en el servidor.
Prueba de ejecución en local. emm_launcher.pl
◦ emm.pl en es fr it de nl 0.5◦ emm.pl nl en es fr it de 0.5◦ emm.pl de nl en es fr it 0.5◦ emm.pl it de nl en es fr 0.5◦ emm.pl fr it de nl en es 0.5◦ emm.pl es fr it de nl en 0.5
25