Aplicaciones de text mining para gestión de información.
-
Upload
sebastian-alvarado-vergara -
Category
Science
-
view
212 -
download
0
Transcript of Aplicaciones de text mining para gestión de información.
Aplicaciones de
text mining para
gestión de información.
Sebastián AlvaradoPsicólogo | Magíster en Procesamiento y Gestión de Información
Centro de Innovación en Tecnologías de Información para Aplicaciones Sociales (CITIAPS)
Universidad de Santiago de Chile
cl.linkedin.com/in/saav123/
Contexto
Se espera que para el 2020 la cantidad total de información digital
aumente desde los actuales 3.2 zettabytes a 40 zettabytes.
1 ZB= 103 EB = 106 PB = 109 TB = 1012 GB = 1015 MB = 1018 kB = 1021
bytes.
Cada minuto enviamos 204 millones de mails, 1,8 millones de likes en
FB, 278 mil tweets, y subimos 200 mil fotos a FB.
En Estados Unidos se crearán 1,9 millones de empleos relacionados
con TICs para proyectos de Big Data; cada uno de ellos será apoyado
por 3 empleos fuera del ámbito directo de las TIC, sumando un total
de 6 millones de empleos gracias al Big Data.
Bernard Marr
http://linkd.in/11uKNMk
Text Mining
Text Mining = Text Data Mining = Text Analytics = Minería de Textos
Procedimiento mediante el cual se deriva nueva información a partir de
fuentes de datos textuales.
Integración de métodos y técnicas de Lingüística, Estadística,
Aprendizaje de Máquina
Ámbito de aplicación
Largas colecciones de texto cuya lectura y análisis
requieran más tiempo que el disponible por una o un
conjunto de personas.
Tareas y aplicaciones
Resumen automático de textos
Detección de fraude
Modelación de tópicos
Análisis de sentimientos
Clasificación de textos
Clasificación de textos
Asignación de un documento a una CLASE
Algunas restricciones:
Pueden pertenecer a 1 clase o más de 1
Se puede resolver como una pertenencia (1) a una clase y una no
pertenencia (0) a las demás clases
Hard categorization v/s ranking categorization
Clasificación de textos
Asignación de un documento a una CLASE
Enfoque manual v/s automático
Predefinida Desconocida
Clasificación de textos
Asignación de un documento a una CLASE
Enfoque manual v/s automático
Predefinida Desconocida
Aprendizaje
supervisado
(Clasificación)
Aprendizaje no
supervisado
(Clustering)
De texto a datos
Enfoque de Bag of words (bolsa de palabras)
No importa el orden de las palabras ni la gramática
De texto a datos
Bag of words
Gramática no es relevante
N-gram: una subsecuencia de n elementos de una secuencia dada.
Bi-gram, tri-gram, four-gram
Normalización:
Minúsculas, stemming, lemma
Stopword list
Palabras que no aportan información
Word vector (de símbolos a números)
Ocurrencia de términos: 1 – 0
Frecuencia de términos:
tf(i) = el número de veces que apareció en un documento alguna palabra
o n-gram
Frecuencia inversa de términos
Idf(i) = total de documentos dividido por el número de documentos que
contienen el término
Tf-idf = Tf*idf
Word vector (de símbolos a números)
Ocurrencia de términos: 1 – 0
Frecuencia de términos:
tf(i) = el número de veces que apareció en un documento alguna palabra
o n-gram
Frecuencia inversa de términos
Idf(i) = total de documentos dividido por el número de documentos que
contienen el término
Tf-idf = Tf*idf
Word vector (de símbolos a números)
Ocurrencia de términos: 1 – 0
Frecuencia de términos:
tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram
Frecuencia inversa de términos
Idf(i) = total de documentos dividido por el número de documentos que contienen
el término
Tf-idf = Tf*idf
Machine Learning
Classificación
Algoritmos de aprendizaje supervisado
k-NN
Bayesiano
Decision Tree
SVM
Algoritmos de aprendizaje no
supervisado
Jerárquicos
Divisivo
Aglomerativo
Particionales
K-means
Bisecting K-means
Kohonens
Algoritmos de aprendizaje
semisupervisado
Co-training
Expectation-Maximization
Basado en grafo
Aplicaciones para gestión de información
Análisis de opiniones en
período de elecciones el
2007 en EE.UU.
Franz Wanner et al., 2009
http://bit.ly/1w8vX8O
Aplicaciones para gestión de información
Interfaz de text mining de TAKMI.
A: Número de documentos que devolvió
la búsqueda.
B: Títulos de documentos relevantes.
C: Distribución de conceptos que han
sido extraídos de esos documentos.
D: Estadísticas de los conceptos.
Marti A. Hearst, 2009
Aplicaciones para gestión de información
Relaciones entre entidades
extraídas del sistema Jigsaw.
Las entidades seleccionadas en
amarillo; entidades conectadas
indicadas con líneas y color
anaranjado; color más oscuro
representa una conexión más
fuerte.
Marti A. Hearst, 2009
Aplicaciones para gestión de información
La interfaz del sistema TRIST respondiendo
a una búsqueda relacionada a la gripe
aviar. Izquierda: querys ejecutadas,
historial de querys, panel de dimensiones.
Centro: dimensiones con resultados
categorizados y visor de documentos.
Derecha: panel de entidades.
Marti A. Hearst, 2009
Aplicaciones para gestión de información
Ejemplo de marcado
automático en una
entrevista.
Louise Corti & Arofan Gregory, 2011
Aplicaciones para gestión de información
Sistema VOSviewer. Mapa
de calor del Journal of the
American Society for
Information Science and
Technology. El color de un
término indica el índice de
citación promedio de las
publicaciones en que el
término ocurrió.
http://www.vosviewer.com/maps/term_maps/
Aplicaciones para gestión de información
Sistema BILBO
(Bibliographical Robot).
Detecta, identifica, analiza
y codifica referencias
bibliográficas en los
artículos (título, revista,
año y lugar de publicación
de cada referencia).
http://oep.hypotheses.org/