Post on 15-Apr-2017
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
ANÁLISIS, DISEÑO E IMPLEMENTACIÓN DEL CLASIFICADOR DE OPINIONES
TBONTB
Autor: Manuel José Lazo Reyes
Tutor: Alejandro Calderón Mateos
1
Trabajo de Fin de grado Titulación: Grado en Ingeniería Informática
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
CONTENIDO
2
INTRODUCCIÓN
Motivación (4-5)
Objetivo (6)
Estado del Arte (7-10)
PROPUESTA
Algoritmo (12-17)
Evaluación (18-34) CIERRE
Planificación (39-41)
Presupuesto (42-44)
Conclusiones (45)
Trabajo Futuro (46)
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
INTRODUCCIÓN
3
Motivación
Objetivos
Estado del Arte
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
MOTIVACIÓN
4
INICIO de cuatrimestre
Encuesta Problema: Reacción tardía
FINAL de cuatrimestre
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
MOTIVACIÓN
5
Encuesta
Solución: Medir polaridad emocional de forma continua
? ? ? ? ?
Otras aplicaciones: Marketing, Inteligencia de negocios, Estudio de mercados
INICIO de cuatrimestre
FINAL de cuatrimestre
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España. 6
OBJETIVO
Desarrollar un CLASIFICADOR DE OPINIONES con las siguientes características:
• Precisión similar a la de los seres humanos al clasificar.
• Independiente del contexto sobre el cual se expresa la opinión.
• Válido tanto para opiniones subjetivas como objetivas.
• Dos formatos: microblogging y blogging.
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Niveles de análisis de sentimientos:
Nivel de documento (formato blogging).
Nivel de oración (formato microblogging).
Nivel de característica.
Hedonometer:
http://hedonometer.org/index.html
7
ESTADO DEL ARTE
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Nivel de Documento
Clasificador Contexto Precisión Supervisado
Turney Críticas 70-80% No
Pang Independiente 71-85% Si
8
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Nivel de Oración
Clasificador Contexto Precisión Supervisado
Rilof y Wiebe Oración subjetiva
70-80% Si
Yu y Hatzivassiloglou Independiente 86-91% No
9
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Nivel de Característica
Clasificador Contexto Precisión Supervisado
Hu y Liu Customer Review 84% Si
10
Además de subjetividad y polaridad del texto se determina: Características del objeto comentado Orientación positiva, negativa o neutral de las opiniones Agrupar características que son sinónimos y producir un resumen
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Hedonometer: Histórico de Felicidad
11
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Hedonometer (Atentado de Boston 15/04/2013)
12
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Limitaciones del hedonómetro
Tamaño de grano muy grande: todos los tweets de
un día conforman un documento
Devuelve valores numéricos entre 1 y 9 para cada día
Dependiente del contexto de la opinión:
Twitter como red social
13
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
PROPUESTA
14
Algoritmo
TBONTB
Evaluación
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
ALGORITMO TBONTB
• PASO 1: Separar en componentes léxicos el texto. Esto es normalizar
el texto eliminando concatenaciones de espacios en blancos, caracteres
de tabulación, saltos de línea, retornos de carro, etc. y finalmente
separar el texto en tokens.
• PASO 2: Filtrar por palabras vacías. Conocido como stopwords.
• PASO 3: Hallar qué palabras aparecen en la lista de palabras afectivas.
15
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
ALGORITMO TBONTB
• PASO 4: Calcular la valencia media del texto a partir de la valencia
media de cada palabra afectiva encontrada.
• PASO 5: Clasificar el texto según el umbral de decisión. El umbral de
decisión aplicado para una opinión en formato microblogging es 5,795
mientras que para blogging es 5,725.
16
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
¿Qué es supervisado?
• El aprendizaje del umbral de decisión, es supervisado por un algoritmo 1-
vecino más cercano, de aprendizaje basado en instancias.
• Cada instancia de una opinión tiene un solo atributo, la valencia
psicológica media correspondiente.
• Conjunto de entrenamiento microblogging:
http://inclass.kaggle.com/c/si650winter11
• Conjunto de entrenamiento blogging:
http://www.cs.cornell.edu/People/pabo/movie-review-data/
17
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
1 – Vecinos más cercanos discreto
18
Val
enci
a m
ed
ia
Índice temporal de opinión
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
K - Vecinos más cercanos discreto
19
1- Vecino más cercano 2- Vecino más cercano 3- Vecino más cercano
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
¿Qué no es supervisado?
20
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
EVALUACIÓN
21
TIPOS DE EVALUACIÓN
• Evaluación de conjunto de opiniones
en formato microblogging
• Evaluación de conjunto de opiniones
en formato blogging
• Evaluación manual
• Evaluación aleatoria
MEDIDAS DE EVALUACIÓN
• Porcentaje de acierto • Porcentaje de acierto positivo • Porcentaje de acierto negativo • Porcentaje de textos no
clasificados • Cantidad de positivos • Cantidad de negativos • Valencia media positiva global • Desviación estándar positiva • Valencia media negativa global • Desviación estándar negativa
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato microblogging
22
Val
enci
a m
edia
Índice temporal de opinión
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España. 23
Evaluación en formato microblogging
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
• Porcentaje de acierto es 84%
• Porcentaje de acierto positivo es 87%
• Porcentaje de acierto negativo es 79%
• Porcentaje de textos no clasificados es 15%
• Cantidad de positivos es 699
• Cantidad de negativos es 524
• La valencia media positiva entre 1 y 9 evaluada es 6,78
• La desviación estándar positiva de la muestra evaluada es 0,88
• La valencia media negativa entre 1 y 9 evaluada es 4,81
• La desviación negativa estándar de la muestra evaluada es 1,36
24
Evaluación en formato microblogging
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato blogging
25
Índice temporal de opinión
Val
enci
a m
edia
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato blogging
26
Val
enci
a m
edia
Índice temporal de opinión
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato blogging
27
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato blogging
28
de bijbel is ontzettend populair en een inspiratiebron voor veel mensen . vooral de mysterieuze en paranormale aspecten van dit boek interesseren veel mensen ...
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación en formato blogging • Porcentaje de acierto es 59%
• Porcentaje de acierto positivo es 60%
• Porcentaje de acierto negativo es 59%
• Porcentaje de textos no clasificados es 0%
• Cantidad de positivos es 699
• Cantidad de negativos es 698
• La valencia media positiva entre 1 y 9 evaluada es 5,77
• La desviación estándar positiva de la muestra evaluada es 0,21
• La valencia media negativa entre 1 y 9 evaluada es 5,68
• La desviación negativa estándar de la muestra evaluada es 0,19
29
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación manual
30
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación aleatoria
Generador de texto aleatorio a partir de opinión con polaridad
emocional conocida, empleando cadenas de Markov.
Observación de la herencia del ruido de la opinión padre, y la
polaridad emocional de la misma.
Modelo de representación de cadenas de tweets. Análisis y
estudio de la polaridad emocional de un hilo de conversación en
una red social en formato blogging.
31
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación aleatoria
32
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Cadena de Markov
33
“El hombre armado miró enojado, armado de valor. El hombre miró nuevamente. El hombre miró por última vez”
Palabras Relevantes: Hombre, Armado, Miró, Alrededor, Valor, Nuevamente, Última, Vez
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Cadena de Markov
34
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Evaluación aleatoria
35
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
CIERRE
36
Planificación
Presupuesto
Conclusiones
Trabajo Futuro
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
PLANIFICACIÓN
37
Estudio del Problema
Análisis del Sistema
Diseño del Sistema
Implementación del Sistema
Validación del Sistema
Documentación
Presentación y Preparación Lectura
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Planificación Inicial
38
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Planificación Final
39
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Presupuesto de Personal
Rol Horas Coste por hora Coste total
Jefe de proyecto 46 40 € 1.840 €
Arquitecto 93 25 € 2.325 €
Analista 116 20 € 2.320 €
Desarrollador 209 13 € 2.717 €
TOTAL 9.202 €
40
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Presupuesto de Material Material Precio
Período de
amortización
Duración del
proyecto Coste total
Equipo Intel(R)
Core(TM) I3 CPU a
2.40 Gh cada
procesador
530 € 36 meses 8 meses 117,77 €
Impresora HP C3180 Photosmart
160 € 36 meses 8 meses 35,56 €
Licencia de Microsoft
Office 2007
129,99 € 36 meses 8 meses 28,89 €
Licencia de Visual
Studio 2010
0 € 36 meses 8 meses 0 €
Licencia de Microsoft
SQL Server 2005
0 € 36 meses 8 meses 0 €
Microsoft Windows
8.1
0 € 36 meses 8 meses 0 €
TOTAL 182,22 €
41
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Presupuesto Total
42
RECURSOS
Humanos (Personal)
Materiales
TOTAL
COSTE
9.202 €
182,22 €
9.384,22 €
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Conclusiones
• Dificultades encontradas
Idioma: Traducir del español al inglés y clasificar.
Evaluación: Conjuntos de entrenamiento en formato
microblogging y blogging.
Documentación: Poca información disponible.
• Resultados obtenidos
84% de precisión en formato microblogging.
59% de precisión en formato blogging.
43
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Trabajo Futuro
• Filtro semántico para formato blogging.
• Incrementar el valor del parámetro k de vecinos más cercanos para
formato blogging, con la restricción de que k sea siempre impar.
• Aplicar una valencia media más específica, en correspondencia con
el género, nivel educacional y edad del autor de la opinión.
• Probar otras fórmulas que involucren además de la valencia media,
la dominancia y la excitación. Pensar en Weka.
• Extracción de sentimientos. Nivel de característica.
44
Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.
Clasificador de Opiniones TBONTB
45
GRACIAS