Tratamiento de los datos en la época del Big...

Post on 28-Mar-2020

4 views 0 download

Transcript of Tratamiento de los datos en la época del Big...

Tratamiento de los datos en

la época del Big Data

23 Noviembre de 2018

Jornadas de análisis cualitativo y cuantitativo aplicado a la investigación de mercado

Maestría en Generación y Análisis de Información Estadística

Big Data

Big Data es un termino general que se usa para

denominar a los conjuntos de datos heterogéneos que

no pueden ser procesados en forma tradicionales debido

a su Volumen, Velocidad y Variedad.

Qué es Big Bang Data?

Es un fenomeno actual que se caracteriza por

Volumen de datos

Variedad de datos

• {Emails, bloogs, tweets, likes, shares, busquedas en

la web, videos subidos, compras online, etc.} +

Metadata

Velocidad de los datos

El crecimiento del VOLUMEN de los datos

LA CONEXIÓN CON EL MUNDO – La VARIEDAD de datos

Redes y Audiencias - Big Brother (1984)

Facebook 1968 FB Red social

Whatsapp 1200 FB Red social

YouTube 1000 Google Compartir videos

Facebook Messenger 1000 FB Mensajeria

WeChat 889 TENCENT Mensajeria

QQ 868 TENCENT Mensajeria

Instagram 600 FB Red social

Qzone 595 TENCENT Red social

Tumblr 550 Independiente Microbloging

Twitter 319 Independiente Microbloging

FB 4768

TENCENT 2352

GOOGLE 1000

OTRAS 869

Redes lideres Abril 2017 Ordenado por numero de usuarios activos

(en millones)

Por compañía

El Conocimiento es un bien escaso

DATOS ≠ INFORMACION INFORMACION ≠ CONOCIMIENTO (INSIGHTS)

La Ciencia del Big Data

MÁS ES DIFERENTE…. OPORTUNIDADES!

Las inmensas masas de datos que producen las organizaciones

científicas, empresariales y gubernamentales contienen

conocimiento valioso, que puede ser capturado si aprendemos a

detectarlo, extraerlo y leerlo.

El Big Data ha traído consigo, un conjunto de nuevas metodologías

y técnicas de análisis y gestión de la información, y también

profesiones emergentes: el científico de datos, el analista de

información, el experto en visualización

Impacto en nuestra actividad

“El mundo del “Conocimiento y Análisis” y el mundo de la

“Imaginación e Intuición” están ahora conectándose. El rol jugado

por el entrevistado solo el tiempo lo dirá. Sin embargo, es muy

deseable que actuemos lo más activamente posible en nuestros

desarrollos….. Si bien recientemente, ha habido crecimiento del

Market Research, la expansión en paralelo de otras formas de

acercarse a la información han sido sin precedentes” David Smith

Congreso ESOMAR Lisboa 2004

El Big Bang de los Datos

Impacto en nuestra actividad

• Cambio del paradigma ideológico (deseo, ocio, ética)

• Cambio modelo de comunicación

• Emergencia de nuevos modelos de recolección de datos

• Alcance de las redes sociales

• Observación multimedia vs cuestionario

• Trazabilidad de los individuos

• Metadata

• Automatización

• Nuevas profesiones relacionadas al mundo de los datos

Hitos en el desarrollo de un proyecto de

Big Data

Perfil del científico de los datos

Algunos tratamientos del Big Data, mediante

métodos de Ciencia de Datos

• Redes neuronales y geo demografía

• Machine Learning

• Visualización de la información

• Minería de textos

Caracterización de las ciudades

Se trata de representar las ciudades, buscando el ordenamiento de

orientación y el grado de conectividad de las calles.

Se parte del mapa de cada ciudad, cada calle tiene datos

georreferénciales. Mediante una aplicación se obtienen datos de

orientación y longitud de las calles

Se construyen características de cada ciudad, desarrollando histogramas

de orientación y ordenamiento de las calles.

Mapa e Histograma

Representacion de Buenos Aires

Por que la representación de las ciudades es asi?

Redes SOM mantienen cercania y lejania de los

casos

Caso Big Data en la industria automotriz

Los objetivos fueron: 1) mejorar la línea de producción, para obtener un vehículo

con mejor índice de calidad. 2) Testear comparativamente dos plataformas

analíticas y determinar la mas adecuada.

Preparación de los datos

La tarea inicial fue explorar los datos del historial de producción y predecir fallos de

inspección del coche de la línea de producción.

Modelado

Inicialmente se utilizo el

modelo de red neuronal que

fue logrando una precisión del

70%.

Mediante la inclusión de

nuevos predictores, la prueba

de diferentes modelos y uso de

técnicas de mejoramiento de

los algoritmos, se concluyo

que el modelo optimo era un

árbol C5.0, donde la precisión

escaló a 85,4%.

Evaluación del modelo

El modelo predictivo C5.0 logra precisión de 85,4% (en el set de

datos de entrenamiento) con 425 predictores.

Comparación de soluciones analíticas

Al principio de la investigación, descubrimos que ambas soluciones contenían

herramientas para el análisis descriptivos pero requieren herramientas de terceros

para el análisis predictivo. Ambos productos tuvieron diferentes enfoques para la

integración con una tercera herramienta.

El grado de integración entre los productos de cada oferente fue vital. Esto se

convirtió en un factor importante en la recomendación de un conjunto de soluciones

para el fabricante.

Visualización de la Información

Es la forma de procesar y organizar la información,

para transformarla en conocimiento

Es un lenguaje para comunicar la información.

Es el arte de elaborar y transportar un mensaje con el

menor ruido posible

CAMPAÑA A RUSIA 1812-1813

Mapa de las elecciones USA 2016_1

https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-

maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re

cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-

vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article&region=CompanionColumn&contentColl

ection=Trending#3.15/37.22/-86.02

Mapa de las elecciones USA 2016_2

https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-

maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re

cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-

vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article&region=CompanionColumn&contentColl

ection=Trending#3.15/37.22/-86.02

http://www.visual-literacy.org/periodic_table/periodic_table.html

Mineria de textos sobre el concepto Felicidad

¿Es posible construir un mapa general de un

determinado concepto (“La Felicidad”)

sobre el cual ubicar a cada uno de los diferentes

targets?

Felicidad

La metodología utilizada

1. 1000 entrevistas abiertas conceptualizando sobre la felicidad.

2. Creamos un primer Escenario o Diccionario Semántico sobre la Felicidad.

3. Indexamos 200.000 posts en Argentina sobre el tema.

4. Se revisó y enriqueció el Escenario - Diccionario original.

5. Expusimos al mapa un discurso espontaneo: 147 comentarios de internautas acerca de la felicidad en un blog femenino (Historias de mujeres emprendedoras).

6. Conclusiones - Recomendaciones

1000 entrevistas – Estudio Omnibus; pregunta abierta

Sobre este texto se construyó un primer

escenario

La Felicidad según variables demográficas

Mapa de textos

Dinámica del discurso (verbalizaciones) y la adjetivación utilizada.

El Escenario de las 1000 encuestas: Nodos semánticos

¿Que es lo que hicimos?

Tomamos un target muy especifico: Mujeres lectoras de un blog de Yahoo! Mujer enfocado a aquellas mujeres “que no se creen el sexo débil”

Se procesaron aproximadamente 150 comentarios , como opinión a una nota sobre la Felicidad

Nuestra premisa fue encontrar la manera en la que estas mujeres entienden la Felicidad y donde se ubica es concepto en nuestro mapa semántico del tema: Que conceptos están cerca y lejos

del concepto principal? Que palabras utilizar para

involucrarlas? Con que tono hablarles del tema?

¿Cuales fueron los conceptos mas repetidos en el texto?

El mismo discurso sobre la felicidad esta ahora segmentado a partir de las voces de quien lo emite

¿Cuales fueron los conceptos mas repetidos en el corpus?

Pasados por el algoritmo clasificador, los conceptos que mas se repitieron en el discurso fueron los siguientes.

• Momentos, tiempo. • Vivir. • Amor, amistad, afectos. • Logros, objetivos, ideales. • Uno, yo, persona. • Problemas y necesidades. Felicidad

La diferencia entre los mapas de la Felicidad para distintos targets

1000 casos

Mujeres emprendoras

Web2.0

Ejemplo-6.3.4

Conclusiones

MÁS ES DIFERENTE…. OPORTUNIDADES!

Las inmensas masas de datos que producen las organizaciones

científicas, empresariales y gubernamentales contienen

conocimiento valioso, que puede ser capturado si aprendemos a

detectarlo, extraerlo y leerlo.

El Big Data ha traído consigo, un conjunto de nuevas metodologías

y técnicas de análisis y gestión de la información, y también

profesiones emergentes: el científico de datos, el analista de

información, el experto en visualización

Posibles acciones en nuestro Ecosistema

Utilización de nuevos recursos metodológicos e informáticos para

preparación, análisis y presentación de la información.

Una inmersión más activa y profunda en el conocimiento y en fluir

interdisciplinario.

Explorar mas velozmente los modelos de representación de otras

disciplinas.

Formación de investigadores en Ciencia de los datos.

Algunos terminos en Ciencia de los datos Big Data

Representación de los datos

Visualización de datos y de

Informacion

Algoritmos

AI (Inteligencia Artificial)

Machine Learning

Soluciones Analiticas

Data Science

Aplicaciones

t-SNE

Analíticas

Deep Learning

Redes neuronales

AWS y Ad manager

Blockchain

Fake news

Qué es la Investigación en nuestro ámbito?

Investigación incluye todas las formas de estudios

Sociales, de Mercado, y de Opinión y el Análisis de

Datos; es la recopilación e interpretación sistemática de

Información sobre individuos y organizaciones. Utiliza

los métodos y técnicas estadísticos y analíticos de las

ciencias sociales, del comportamiento y de la información.

Sirve para generar conocimiento y apoyar la toma de

decisiones de proveedores de bienes y servicios, de

gobiernos, de organizaciones sin fines de lucro y del

público en general.

Fuente: Definición Oficial de ICC/ESOMAR

o Soy un viejo Investigador de Mercado

o Me gusta jugar con las Matemáticas

o Soy la primera camada de Data Mining en la UBA (2004)

o Aunque admiro a los grandes maestros, veo con sumo placer el arte en

las cuevas de hace 30000 años, en las obras de Banksy y en la

visualización de información.

Gracias