Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

22
Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

description

Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial. Motivación. Las empresas necesitan conocer qué se dice de ellas en los medios, para Reaccionar frente a comentarios negativos (alertas) Sacar partido de los comentarios positivos - PowerPoint PPT Presentation

Transcript of Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Page 1: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Page 2: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Motivación Las empresas necesitan conocer qué se dice de

ellas en los medios, para Reaccionar frente a comentarios negativos (alertas) Sacar partido de los comentarios positivos Conocer el impacto y alcance de sus campañas

publicitarias(Online) Reputation Management

Seguimiento

Valoración

Acción

Page 3: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Seguimiento (Monitoring)

Page 4: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Generación Automática de Resúmenes (GAR)

¿En qué consiste? Identificar las ideas más importantes de uno o varios documentos y

presentarlas al usuario de forma concisa y útil.

¿Por qué es necesaria? Hacer frente a la sobrecarga de información Su origen se remonta a mediados del siglo XX (Luhn, 1958), pero su

popularidad aumenta con la generalización de Internet

Tipologías de resúmenes Indicativos versus informativos Mono-documento versus multi-documento Genéricos versus adaptados al usuario Resumen por extracción versus resumen por abstracción

Page 5: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Generación Automática de Resúmenes

La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por 12.000 millones de euros. Repsol, que controla un 85 por 100 de YPF, reconoció que ha recibido “propuestas de distinta naturaleza y de diferentes compañías” para entrar en el accionariado de YPF, sin que “haya ninguna en firme”. La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF.

La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por 12.000 millones de euros.

La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF.

Original

La petrolera china CNPC estudia la compra de YPF, por 12.000 millones de euros.

Por su parte, Repsol reconoce haber recibido ofertas, así como su deseo de incorporar nuevos accionistas.

Extracción

Abstracción

Page 6: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Generación Automática de Resúmenes

Factores de contexto Entrada: forma, especificidad y multiplicidad de la

fuente. Propósito: situación, audiencia y función. Salida: extensión, formato y estilo.

Técnicas Puntuar las oraciones en función de:

las frecuencias de sus términos, su posición en el documento, su relación con un determinado tema o consulta de usuario, su similitud con el título del documento, etc.

Métodos basados en grafos, plantillas, etc.

Page 7: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial

Entrada: Conjunto de tweets en los que se menciona a una empresa objetivo

Máximo 140 caracteres Lenguaje coloquial Gran cantidad de errores gramaticales y

ortográficos Hashtags, menciones a usuarios, enlaces

externos (webs, imágenes, etc.)

Page 8: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación

Empresarial Propósito:

Servir a los analistas/consumidorescomo sustituto de los tweets originales mostrando únicamente la información

relevante para la toma de decisiones

¿Qué información es relevante cuando se monitoriza la reputación de una empresa?Diferencias con la generación automática de

resúmenes tradicionalNecesidad de métodos específicos

Page 9: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación

Empresarial Salida:

Difiere de los formatos habituales en GAR y se asemeja a un informe

A priori: Listado de temas ordenados por importancia relativa,

junto con los tweets más representativos Listado de los n tweets más negativos y más positivos Listado de los n tweets más relevantes por dimensión

reputacional Estadísticas, incluyendo:

• Número total de tweets con menciones a la empresa• Número de tweets positivos/negativos• Distribución por áreas geográficas• Usuarios influyentes• Etc.

Page 10: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

La que se difunde con rapidez La que se propaga globalmente

La que es potencialmente peligrosa para su imagen

La que ensalza sus productos/comportamiento

¿Qué Información es Relevante cuando se Monitoriza la Reputación?

La emitida por usuarios influyentes

Contenido del mensaje

Difusión del mensaje

Emisor del mensaje

Page 11: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué Información es Relevante?: Contenido del Mensaje

¿De qué depende? De la positividad/negatividad

del mensaje De la subjetividad/objetividad

del mensaje

De la prioridad del tema y la dimensión reputacional

Page 12: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué Información es Relevante?: Contenido del

Mensaje ¿Qué algoritmos tenemos?

Clasificadores de polaridad (Acc. ≈ 66) Sistema de detección de temas (F(R,S) ≈ 47) Ranking de temas por prioridad (F(R,S) ≈ 30)

Colecciones RepLab: Polaridad – POSITIVO / NEGATIVO / NEUTRAL Subjetividad – OPINIONADO / NO OPINIONADO Temas – Ej. HIPOTECAS, COMISIONES, DESAHUCIOS Prioridad – ALERTA / MEDIA / BAJA Dimensiones reputacionales – PRODUCTS AND SERVICES /

WORKPLACE / GOVERNANCE / CITIZENSHIP / INNOVATION / FINANCIAL / LEADERSHIP

Page 13: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué Información es Relevante?: Difusión del Mensaje

Tweets diferentes con el mismo mensaje (GAR):

Propagación en Twitter: Compartición directa del mensaje (retweets) Retweets modificados (modified tweets) Respuestas al mensaje (replies)

Page 14: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué algoritmos tenemos?

Retweets y Modified Retweets: Información proporcionada por el API de Twitter

Mensajes con mismo significado: Algoritmos básicos de similitud textual (Jaccard, Dice-

Sorensen, solapamiento de jerarquías de conceptos, distancia de edición en grafos)

Textual entailment Problema: Complejidad computacional

¿Qué Información es Relevante?: Difusión del Mensaje

Page 15: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué Información es Relevante?: Características del Emisor

Reputación del autor Número de seguidores Número de tweets publicados Número de tweets retweeteados Etc.

Ámbito geográfico Procedencia del autor Nacionalidades de sus seguidores Etc.

Características socio-culturales del autor Sexo Grupo de edad Profesión Etc.

Page 16: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Qué Información es Relevante?: Características del Emisor

¿Qué tenemos? - RepLab 2013 y 2014 Número de seguidores (API Twitter) Perfiles anotados como INFLUYENTE/ NO INFLUYENTE Perfiles etiquetados con categorías de usuario

relevantes para la reputación (Ej. EMPLEADO / ACCIONISTA / INSTITUCIÓN / PRENSA)

Perfiles etiquetados con SEXO/EDAD

Page 17: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Un tweet es relevante si …

Su mensaje afecta negativamente a la imagen de la empresa

Su mensaje ensalza las virtudes de la empresa Trata de un tema de especial importancia para la

empresa Se difunde rápidamente por la red Alcanza a usuarios de muchos países Es emitido/retweeteado por un usuario influyente

¿Qué Información es Relevante?: Recopilación

Page 18: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Tienen todos los Criterios de Relevancia la misma Importancia?

¿Qué peso dar a cada uno de los criterios para obtener un ranking de tweets?

Aprendizaje supervisado Construcción de una colección de entrenamiento y test

Reglas de experto Los tweets negativos son más relevantes que los positivos Los tweets de temas prioritarios son muy relevantes

independientemente de su dimensión reputacional Los tweets que se difunden rápidamente pero sin polaridad

no son relevantes

Page 19: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

¿Cómo Construir y Presentar el Resumen?

Tenemos un ranking de tweets, cada uno con una puntuación que indica su importancia relativa

Muchos de estos tweets serán redundantes Detección y eliminación de redundancia Similitud textual Textual entailment

Presentar al analista únicamente los top N tweets del ranking, clasificados por tema y por dimensión reputacional

Completar la información con estadísticas relevantes

Page 20: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Evaluación Colección de evaluación

Creación de una colección de evaluación, de forma semi-automática, a partir de las anotaciones del RepLab 2013

Para un subconjunto de entidades, restringimos la colección a los tweets de temas con

prioridad ALERT dentro de estos, restringimos la colección a los tweets

con polaridad (POSITIVO y NEGATIVO) y extraemos manualmente los N tweets más

representativos de cada tema para formar el resumen

Page 21: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Evaluación Estrategias de evaluación

Etiquetado manual Polaridad, Temas, Prioridad y Dimensiones

Etiquetado automático Sistemas presentados en RepLab 2013 y 2014

Métricas de evaluación

Métricas de evaluación automáticas (ROUGE, Precisión y Cobertura)

Evaluación manual sobre un subconjunto

Page 22: Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial