[#wmcl2015] Investigando usando Wikipedia
-
Upload
eduardo-graells-garrido -
Category
Technology
-
view
234 -
download
3
Transcript of [#wmcl2015] Investigando usando Wikipedia
![Page 1: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/1.jpg)
Investigando usando Wikipedia: desde aplicaciones lúdicas hasta estudios sociolingüísticosPresentado por: Eduardo Graells-Garrido / @carnbyInvestigador en Telefónica I+D ChileWeb Research Group, Universitat Pompeu Fabra
Trabajo en conjunto con: Luca Chiarandini (Google) Mounia Lalmas (Yahoo Labs London) Filippo Menczer (Yahoo Labs Sunnyvale)
Wikimedia Chile 2015 - 28 de Marzo de 2015Imagen: Margot de Pablo Picasso, 1901.
![Page 2: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/2.jpg)
Sobre @carnby*
Investigo el comportamiento de las personas en mundos físicos y virtuales (pero ambos reales).
Luego propongo maneras de interactuar con esos mundos que puedan cambiar las vidas de las personas.**
* Soy fan absoluto de los zorzales.
** Aunque sea un poquito y no se den cuenta ;)
Ilustración para mi tesis. Por Paula Pérez / Athziri.
![Page 3: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/3.jpg)
¿Por qué Investigar con Wikipedia?
Imagen: https://xkcd.com/285/
![Page 4: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/4.jpg)
Dinámicas de Generación Colectiva de Contenido:
- ¿Cómo se relaciona la comunidad en Wikipedia?
- ¿Cuál es el impacto en el contenido?
Brecha de Género en Wikipedia:- ¿Cuántas mujeres participan en
Wikipedia? (En inglés: 16%)- ¿Cómo incentivar la participación
diversa?
@WikiResearchhttps://meta.wikimedia.org/wiki/Research:Newsletter
![Page 5: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/5.jpg)
Exploración / Serendipia
http://xkcd.com/214/
Todos los caminos llevan a Filosofía
http://www.xefer.com/2011/05/wikipedia
![Page 6: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/6.jpg)
Esta historia comienza en Barcelona, junto a Luca Chiarandini.
Hack4Europe! Realizado el 2011 en Museu Picasso de Barcelona.
Fotos por Kippelboy y Conxa Rodà.
![Page 7: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/7.jpg)
TimebookA Social Network of Historical Figures
¿Cómo acercar el arte a la gente?
¿Qué pasaría si los medios sociales hubiesen existido siglos atrás?
![Page 8: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/8.jpg)
¿Cómo lograrlo? Wikipedia (DBPedia) + spin-offs de Wikipedia (WikiQuote) + Colecciones Culturales (Europeana)
![Page 9: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/9.jpg)
![Page 10: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/10.jpg)
![Page 11: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/11.jpg)
![Page 12: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/12.jpg)
![Page 13: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/13.jpg)
El 2012 presentamos Timebook en MuseumNext, en el CCCB de Barcelona.
A partir de una pregunta muy simple muchas personas, desde directores/as de museos hasta educadores, vieron potenciales aplicaciones para Timebook. ¡Wikipedia fue fundamental!
![Page 14: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/14.jpg)
InterludioMuseumNext marcó el fin de Timebook.
Luca siguió con su tesis, en la que estudió cómo las personas navegaban las páginas dentro de un sitio web.
Yo comencé a estudiar Twitter y la manera en la que las personas se comunican en la red de micro-blogging.
Sin embargo, la historia continuaría...http://auroratwittera.cl/perfil/BNChile
![Page 15: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/15.jpg)
En este Encuentro, Daniela Alarcón Sánchez (@Dany_Passarinho) presentó el artículo “El Rol de la Mujer en la Historia visto a través de los libros de texto de
Educación Básica de las Escuelas Públicas de Chile”
![Page 16: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/16.jpg)
El Rol de la Mujer en la Historia visto a través de los libros de texto de Educación Básica de las Escuelas Públicas de Chile.Daniela Alarcón Sánchez / @Dany_PassarinhoLibro: Socializar Conocimientos II: Observando a Chile desde la Distancia
![Page 17: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/17.jpg)
¿Podemos replicar ese enfoque cualitativo en Wikipedia?¿Puede una máquina detectar sesgos?
Trabajo junto a Mounia Lalmas y Filippo Menczer.
![Page 18: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/18.jpg)
Wikipedia (en inglés) contiene 1,445,021 biografías, de las cuales 893,380 se pueden caracterizar como hombre o mujer. 15.5% de ellas son de mujeres.
El gráfico muestra la proporción de mujeres a lo largo del tiempo.
![Page 19: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/19.jpg)
Infoboxes
El formato determina la clase de una persona.
Clases más comunes:
Atleta 268,632 bios, 8.9% mujeres
Artista 93,840 bios, 25.1% mujeres
OfficeHolder 47,534 bios, 13% mujeres
Político/a 40,209 bios, 8.8% mujeres
Militar 25,607 bios, 1.7% mujeres
1.56% de hombres incluye atributo “spouse”6.86% de mujeres incluye “spouse”.
![Page 20: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/20.jpg)
¿Cómo analizar el lenguaje?
- Pointwise Mutual Information de n-gramas y género para todo n-grama encontrado (“La Serena” es un 2-grama, “Viña del Mar” es un 3-grama) en los abstracts de cada biografía.
- PMI entrega una medida de asociatividad entre los n-gramas (w) y cada género (c).
- Frecuencia de palabras categorizadas semánticamente en los abstracts.
- Los abstracts son, posiblemente, las partes más leídas de una biografía.
- Burstiness (ráfagas) de palabras categorizadas semánticamente en el texto completo de cada biografía.
- Palabras que se repiten varias veces (aparecen en ráfagas) en una misma biografía deben ser importantes.
![Page 21: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/21.jpg)
N-gramas asociados a hombres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.
![Page 22: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/22.jpg)
N-gramas asociados a mujeres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.
![Page 23: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/23.jpg)
Frecuencia y Burstiness
Categorías semánticas (diccionario LIWC, tienen subcategorías):
- procesos sociales, mecanismos cognitivos, mecanismos biológicos, trabajo, logros.
Frecuencia
- palabras de categoría mecanismos cognitivos tienen tendencia a ser más frecuentes en hombres.
- palabras de categoría sexual (sub. de mecanismos biológicos) tienen tendencia a ser más frecuentes en mujeres.
Burstiness
- palabras de categorías mecanismos cognitivos y trabajo tienen tendencia a aparecer en ráfagas en hombres.
![Page 24: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/24.jpg)
Enlaces y Ranking
Calculamos PageRank sobre la red de enlaces entre biografías, y ordenamos las biografías de acuerdo al ranking.
Repetimos el proceso para diferentes redes artificiales construidas a partir de la red original, para comparar posibles sesgos.
![Page 25: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/25.jpg)
¿Qué significa todo esto?
Sesgos en Meta-datos: infra-representación en cantidad y tiempo.
- Mujeres pre-1900 casi no tienen presencia en Wikipedia. - Para las mujeres es más importante agregar el atributo de pareja que para los
hombres.
Sesgos en Lenguaje
- Para las mujeres, el sexo parece ser más importante que sus propios logros (first woman, women’s, woman, etc). Además, son cosificadas (cat. sexual) y caracterizadas en base a filiaciones (her husband).
- Los hombres son destacados por lo que han hecho (cat. trabajo), concretamente, por cómo lo han hecho (cat. mecanismos cognitivos).
Sesgos en la Red de Enlaces
- Las mujeres son más difíciles de encontrar, sea siguiendo links, o porque en el ranking aparecen en posiciones mucho más bajas que hombres de lo esperado dado el contexto.
Para mayor discusión y detalles vean el paper: http://arxiv.org/abs/1502.02341
![Page 26: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/26.jpg)
¿Terminó la historia? - Aplicaciones Lúdicas
Timebook, a partir de una idea simple, inspiró a personas de todo el mundo...
... y ellos/ellas a nosotros.
No habría sido posible sin Wikipedia, ni Barcelona, ni Picasso (y el Museu).
Lo aprendido: una aplicación (o pregunta) debe ser:
- Interesante: que las personas sepan que aprenderán algo nuevo (sea útil o no).
- Estimulante: que despierte la curiosidad (¿cómo será el perfil de mi artista favorito/a?).
- Cercana: que presente familiaridad con el concepto (Picasso tiene un perfil como el mío).
![Page 27: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/27.jpg)
¿Terminó la historia? - Estudios Sociolingüísticos
Una máquina puede analizar sesgos de manera cualitativa (y cuantitativa): utilizamos técnicas de lingüística computacional y de análisis de redes. (pero necesita ayuda cualitativa - en este caso, LIWC)
El contenido de Wikipedia está sesgado, a pesar de las políticas de neutralidad.
Aunque editores trabajan con fuentes secundarias, utilizan sus propias palabras. El sesgo es compartido.
=> Hay que replantear políticas de notabilidad, neutralidad, y lenguaje.
=> Hay que mejorar la conectividad de las mujeres caracterizadas.
=> Creemos que una mayor presencia de mujeres editoras en Wikipedia NO resolverá el problema si es que no se consideran los dos puntos anteriores.
![Page 28: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/28.jpg)
¡Gracias!
Esta historia aún no termina. ¿Nos ayudan a seguir escribiéndola?
Pueden encontrarnos en:
Luca Chiarandini / http://grupoweb.upf.edu/~luca.chiarandini/
Eduardo Graells-Garrido / @carnby
Mounia Lalmas / @mounialalmas
Filippo Menczer / http://cnets.indiana.edu/people/filippo-menczer/
![Page 29: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/29.jpg)
Extras
![Page 30: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/30.jpg)
¡Casi todo esto ya está en Timebook! :) Falta full biography y gender.
Abstract
Infobox
Meta-data
Full Biography
![Page 31: [#wmcl2015] Investigando usando Wikipedia](https://reader034.fdocumento.com/reader034/viewer/2022051315/55b3990fbb61ebfb288b460c/html5/thumbnails/31.jpg)
Impacto
Wikipedia Gender Gap Task Force
https://en.wikipedia.org/wiki/User:GGTF/Writing_about_women