Taller de Text Mining en Twitter con R
-
Upload
beatriz-martin-valcarcel -
Category
Data & Analytics
-
view
288 -
download
1
Transcript of Taller de Text Mining en Twitter con R
![Page 1: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/1.jpg)
Octubre.2016
Taller de introducción a técnicas de Text Mining en Twitter con R
@Legado y @zigiella
![Page 2: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/2.jpg)
Índice1. Quiénes somos2. Contexto3. Qué es R4. Los datos textuales5. Cómo obtener información de estos datos 6. Demo en R
a) Preprocesadob) Stemmingc) Inspeccionar palabras frecuentesd) Asociaciones e) Plot de asociacionesf) Nube de palabrasg) Clúster
i. Dendogramaii. K-means
7. Interpretación y conclusiones8. Anexo 1: Conectarse a Twitter9. Anexo 2: Instalar paquetes necesarios
![Page 3: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/3.jpg)
QUIÉNESSOMOS
¡Hola!
![Page 4: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/4.jpg)
Consultor Freelance
@Legado
![Page 5: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/5.jpg)
Juandy
● Jefe de campamento y algo friki.● Escritor frustrado (por ahora).● Viajero por necesidad.● Jugador de fútbol americano.● Filólogo.
@Legado
![Page 6: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/6.jpg)
@zigiella
INGENIERÍA INFORMÁTICA
DATA MANAGEMENT & ANALYTICS
PSICOLOGÍA
ExecutiveMBA
EMPR
END
EDU
RÍA
BUSINESS MANAGEMENTMARKETINGADVERTISING
![Page 7: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/7.jpg)
Bea
● Nativa digital de la generación X!● Tech+Digital+Business.● Aprendizaje non stop.● Retos non stop.● Me gusta que los planes salgan
bien.@zigiella
![Page 8: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/8.jpg)
CONTEXTODónde, qué, por qué y eso...
![Page 9: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/9.jpg)
![Page 10: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/10.jpg)
TRANSFORMACIÓNDIGITAL
BIG DATA
CULTURADATA DRIVEN
EL DATOVALOR
TOMA DE DECISIONES
TRANSVERSAL
![Page 11: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/11.jpg)
RBreve introducción breve
![Page 12: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/12.jpg)
● Software de análisis de datos.● Ciencia, medicina, psicología, economía,...● Gratuito, libre y de código abierto.● Gran comunidad.● Muchos paquetes.● Bla, bla, bla,...● Fin de la intro breve.
![Page 13: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/13.jpg)
Origen: DataCamp
![Page 14: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/14.jpg)
![Page 15: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/15.jpg)
LA TEORÍAComencemos a entender
![Page 16: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/16.jpg)
Datos textuales – Qué son
![Page 17: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/17.jpg)
Datos textuales – Qué son
![Page 18: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/18.jpg)
Datos textuales – Qué son
![Page 19: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/19.jpg)
Datos textuales – Qué son
![Page 20: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/20.jpg)
Datos textuales – Qué son
![Page 21: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/21.jpg)
Datos textuales – Qué son
![Page 22: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/22.jpg)
Datos textuales – Qué son
![Page 23: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/23.jpg)
Datos textuales – Qué son
![Page 24: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/24.jpg)
Datos textuales – Qué son
![Page 25: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/25.jpg)
Datos textuales – Qué son
![Page 26: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/26.jpg)
Datos textuales – Qué son
Voice to text
![Page 27: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/27.jpg)
Datos textuales – Qué son
Focus groups
Libros
Investigaciones
Documentos oficialesTexto …
![Page 28: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/28.jpg)
CASOS DE USO REALES¿Pero esto es útil?
![Page 29: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/29.jpg)
Caso de uso real
MARCA DE BEBIDAS
MARCA DE COCHES
E-COMMERCE DE MODA
![Page 30: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/30.jpg)
Caso de uso real
Necesitamos conectar con las tendencias en nuestro e-commerce
Scrapping
Frecuencia
Asociación
Topics
Descripciones
Etiquetas
Taxonomía
Posicionamiento
E-COMMERCE DE MODA
![Page 31: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/31.jpg)
Caso de uso real
Necesitamos conocer a tiempo posibles amenazas hacia la marca
Salud
Medio ambiente
Nutrición
Bulos
Sistema de alerta
temprana
MARCA DE BEBIDAS
![Page 32: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/32.jpg)
Caso de uso real
MARCA DE COCHES
Necesitamos encontrar la forma de volver a conectar con la audiencia: conocer sus nuevos territorios e intereses, y descubrir insights para
trabajar la reconexión.
![Page 33: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/33.jpg)
Caso de uso real
Movilidad
Medios de transporte
Sensaciones
Problemas
MARCA DE COCHES
![Page 34: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/34.jpg)
EL NEGOCIOHerramientas
![Page 35: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/35.jpg)
El negocio
![Page 36: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/36.jpg)
El negocio
30.000€ y
50.000€Anuales
Wordcloud
Ásociación
Topics en líneas temporales
Clustering
![Page 37: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/37.jpg)
Gratis
Un buen comienzo
![Page 38: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/38.jpg)
TALLER PRÁCTICOYa es la hora de hacer cositas en R...
![Page 39: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/39.jpg)
Se trata de un ejercicio de iniciación a las técnicas de Text Mining. Tenemos un dataset compuesto de un conjunto de tweets recién extraídos de Twitter y vamos a tratar de averiguar qué temas tratan.
El esquema del proceso a realizar es el siguiente:
Conjunto de tweets
PreprocesoCreación
de Corpus
CreaciónMatriz
TérminosDocs
Análisis
¡¡¡Al final, a la máquina le damos números!!!
![Page 40: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/40.jpg)
![Page 41: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/41.jpg)
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
![Page 42: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/42.jpg)
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
![Page 43: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/43.jpg)
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
![Page 44: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/44.jpg)
Preprocesado
Minería
Pasar texto a minúsculas
Quitar todo aquello que no es útil en el análisis
Quitar signos de puntuación
Quitar números
Quitar expresiones
Stemming
Preprocesado
![Page 45: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/45.jpg)
Preprocesado - Stemming
ArboladoArboledaArbóreoArbolitos
Árbol
Stemming
![Page 46: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/46.jpg)
![Page 47: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/47.jpg)
![Page 48: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/48.jpg)
![Page 49: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/49.jpg)
¡Son matrices con mucho “sparsity”!
![Page 50: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/50.jpg)
Asociación
Árbol ipsum dolor incendio amet, consectetur adipiscing elit. Praesent vestibulum magna sed ante tempus iaculis. Maecenas vitae nisl quam. Integer augue nisi, lacinia in neque sit amet, interdum congue odio. In neque magna, mattis sit amet nisi id, cursus ullamcorper felis. Aenean pharetra porttitor ipsum ut tincidunt. Sed condimentum purus ut leo mattis, quis pretium nunc rhoncus. Ut accumsan orci at orci venenatis, vitae Bosque dui congue. Nulla magna quam, accumsan ac tincidunt id, cursus in massa. Etiam nec eros sit amet eros fringilla varius. Vestibulum ac purus venenatis, malesuada est vitae, molestie dui. Nulla eget neque sit amet odio semper mollis et ornare justo. Etiam lacinia, purus at semper tincidunt, libero metus venenatis sapien, sed convallis quam elit vel sapien. Vivamus porta dictum augue ut ornare. Pellentesque luctus, purus non fringilla ornare, velit est volutpat nulla, eget tempus tellus eros ac ligula. Etiam nulla Arboleda, ultrices vel mauris incendio, mollis ornare massa. Sed aliquam vulputate consectetur. Ut lacinia dignissim nisl vitae consequat. Donec posuere, dui et placerat varius, libero enim laoreet est, quis posuere purus neque nec libero. Nunc aliquet sapien nec convallis rhoncus. Donec ac metus leo.
![Page 51: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/51.jpg)
¡EMpezamos a saber de qué va la cosa!
![Page 52: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/52.jpg)
Igual “USEFUL” no aporta valor al resultado y debería haberla quitado antes (momento stopwords)...
visualizar es super potente para darse cuenta de cosas… :)
![Page 53: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/53.jpg)
SE ven cosas interesantes cuando buscamos los términos que más se relacionan con unos en concreto...
![Page 54: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/54.jpg)
una sencilla visualización superpotente!
![Page 55: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/55.jpg)
![Page 56: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/56.jpg)
![Page 57: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/57.jpg)
Clusterización - Clúster
Agrupación(Habitualmente por similitud
o por cercanía)
Dendograma – Clúster por orden jerárquico
![Page 58: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/58.jpg)
![Page 59: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/59.jpg)
![Page 60: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/60.jpg)
CONCLUSIONES¿Dónde está el valor verdadero?
INTERPRETACIÓN
Y DEBATE DE RESULTADOS
¡el dato no habla por nosotros!
¡nosotros hablamos por el dato!
![Page 61: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/61.jpg)
¡GRACIAS Y HASTA PRONTO!
@zigiella @Legado
![Page 62: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/62.jpg)
ANEXO 1Conectarse a Twitter con R
![Page 63: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/63.jpg)
PASO 1: Para poder conectarnos a Twitter desde R necesitamos tener una cuenta en Twitter y estar logineados.
Entonces debemos acceder a https://apps.twitter.com y crear una app:
Rellenaremos un sencillo formulario indicando cuatro cosas. Mirad el ejemplo.
![Page 64: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/64.jpg)
PASO 2: Si todo ha ido bien estaremos en la página de la app. Iremos al menú “Keys and Access Tokens y crearemos nuestros tokens:
El resultado será similar al que ves y tendrás tus credeciales:
Api KeyApi SecretAccess TokenAccess Token Secret
![Page 65: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/65.jpg)
Ya podemos ejecutar código R para obtener tweets. Este ejemplo es una pequeña muestra.
Tendremos que poner nuestras credenciales en el código.
Cuando hagamos setup nos hará una pregunta:
Responderemos “Yes” y continuaremos.:)
![Page 66: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/66.jpg)
ANEXO 2Instalar paquetes necesarios en R
![Page 67: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/67.jpg)
![Page 68: Taller de Text Mining en Twitter con R](https://reader031.fdocumento.com/reader031/viewer/2022021815/587641b51a28ab68098b8691/html5/thumbnails/68.jpg)
¡GRACIAS DE NUEVO!
@zigiella @Legado