Aplicaciones de text mining para gestión de información.

Aplicaciones de

text mining para

gestión de información.

Sebastián AlvaradoPsicólogo | Magíster en Procesamiento y Gestión de Información

Centro de Innovación en Tecnologías de Información para Aplicaciones Sociales (CITIAPS)

Universidad de Santiago de Chile

cl.linkedin.com/in/saav123/

[email protected]

Qmee:

http://bit.ly/100Wvhq

Contexto

Se espera que para el 2020 la cantidad total de información digital

aumente desde los actuales 3.2 zettabytes a 40 zettabytes.

1 ZB= 103 EB = 106 PB = 109 TB = 1012 GB = 1015 MB = 1018 kB = 1021

bytes.

Cada minuto enviamos 204 millones de mails, 1,8 millones de likes en

FB, 278 mil tweets, y subimos 200 mil fotos a FB.

En Estados Unidos se crearán 1,9 millones de empleos relacionados

con TICs para proyectos de Big Data; cada uno de ellos será apoyado

por 3 empleos fuera del ámbito directo de las TIC, sumando un total

de 6 millones de empleos gracias al Big Data.

Bernard Marr

http://linkd.in/11uKNMk

Text Mining

Text Mining = Text Data Mining = Text Analytics = Minería de Textos

Procedimiento mediante el cual se deriva nueva información a partir de

fuentes de datos textuales.

Integración de métodos y técnicas de Lingüística, Estadística,

Aprendizaje de Máquina

Ámbito de aplicación

Largas colecciones de texto cuya lectura y análisis

requieran más tiempo que el disponible por una o un

conjunto de personas.

Tareas y aplicaciones

Resumen automático de textos

Detección de fraude

Modelación de tópicos

Análisis de sentimientos

Clasificación de textos


Asignación de un documento a una CLASE

Algunas restricciones:

Pueden pertenecer a 1 clase o más de 1

Se puede resolver como una pertenencia (1) a una clase y una no

pertenencia (0) a las demás clases

Hard categorization v/s ranking categorization



Enfoque manual v/s automático




Predefinida Desconocida




Predefinida Desconocida

Aprendizaje

supervisado

(Clasificación)

Aprendizaje no

supervisado

(Clustering)

De texto a datos

Enfoque de Bag of words (bolsa de palabras)

No importa el orden de las palabras ni la gramática

De texto a datos

Bag of words

Gramática no es relevante

N-gram: una subsecuencia de n elementos de una secuencia dada.

Bi-gram, tri-gram, four-gram

Normalización:

Minúsculas, stemming, lemma

Stopword list

Palabras que no aportan información

Word vector (de símbolos a números)

Cada término recibe un valor


Ocurrencia de términos: 1 – 0

Frecuencia de términos:

tf(i) = el número de veces que apareció en un documento alguna palabra

o n-gram

Frecuencia inversa de términos

Idf(i) = total de documentos dividido por el número de documentos que

contienen el término

Tf-idf = Tf*idf


Ocurrencia de términos: 1 – 0

Frecuencia de términos:

tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram

Frecuencia inversa de términos

Idf(i) = total de documentos dividido por el número de documentos que contienen

el término

Tf-idf = Tf*idf

Machine Learning

Classificación

Algoritmos de aprendizaje supervisado

k-NN

Bayesiano

Decision Tree

SVM

Algoritmos de aprendizaje no

supervisado

Jerárquicos

Divisivo

Aglomerativo

Particionales

K-means

Bisecting K-means

Kohonens

Algoritmos de aprendizaje

semisupervisado

Co-training

Expectation-Maximization

Basado en grafo

Esquema general

Modelo de Bird, Klein & Loper (2007)

Aplicaciones para gestión de información

Análisis de opiniones en

período de elecciones el

2007 en EE.UU.

Franz Wanner et al., 2009

http://bit.ly/1w8vX8O


Interfaz de text mining de TAKMI.

A: Número de documentos que devolvió

la búsqueda.

B: Títulos de documentos relevantes.

C: Distribución de conceptos que han

sido extraídos de esos documentos.

D: Estadísticas de los conceptos.

Marti A. Hearst, 2009


Relaciones entre entidades

extraídas del sistema Jigsaw.

Las entidades seleccionadas en

amarillo; entidades conectadas

indicadas con líneas y color

anaranjado; color más oscuro

representa una conexión más

fuerte.



La interfaz del sistema TRIST respondiendo

a una búsqueda relacionada a la gripe

aviar. Izquierda: querys ejecutadas,

historial de querys, panel de dimensiones.

Centro: dimensiones con resultados

categorizados y visor de documentos.

Derecha: panel de entidades.



Ejemplo de marcado

automático en una

entrevista.

Louise Corti & Arofan Gregory, 2011


Sistema VOSviewer. Mapa

de calor del Journal of the

American Society for

Information Science and

Technology. El color de un

término indica el índice de

citación promedio de las

publicaciones en que el

término ocurrió.

http://www.vosviewer.com/maps/term_maps/


Sistema BILBO

(Bibliographical Robot).

Detecta, identifica, analiza

y codifica referencias

bibliográficas en los

artículos (título, revista,

año y lugar de publicación

de cada referencia).

http://oep.hypotheses.org/

¡Muchas gracias!

www.citiaps.cl

cl.linkedin.com/in/saav123/

Aplicaciones de text mining para gestión de información.

Science

Transcript of Aplicaciones de text mining para gestión de información.