Realidades y sueños de
en México
Marzo 2015
abel.coronado @ inegi.org.mx
@abxda
@abxda
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
Según Gartner
Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas
creativas y viables económicamente para procesarla con el fin de contribuir
a tomar decisiones, actuar y crear valor.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
¿Qué es Big Data?
@abxda
Existen Nuevas Fuentes de Datos que
Complementan las Tradicionales
@abxda
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg
Tomar decisiones, actuar y crear valor
http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/
Comprender
Recolectar
Explorar, Visualizar
Limpiar
Transformar/
Caracterizar
Modelar / Entrenar
Validar
Comunicar ?
Imaginar /
Considerar la
Integración
de Otras Fuentes
Analizar Fuente(s) Conceptualizar
Un Proceso de Ciencia de Datos
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
CIENCIA
DE
DATOS
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
CIENCIA
DE
DATOS
Científico de Datos
Ingeniero de Datos
@abxda
Productos
de Datos
Manejar
las 3 v’s
vs
Visualización
Modelado
Contar
Historias
Científico de Datos
Administración
de Sistemas
Programación
Matemáticas
Estadística
Ingeniero de Datos
Administración de
Bases de Datos
Almacenamiento de
Datos
Equipo de Big Data y Ciencia de Datos
Estadística
Matemáticas
Machine Learning
Minería de Texto
Interfaces de Usuario
Experiencia del Usuario
First Mobile
Visualización de Datos
Ingeniería de Software
Administradores de Sistemas
Bases de datos NoSQL
Arquitecturas Big Data
Arquitecturas de Software
Crowdsourcing
@abxda
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos
Crudoshdfs://
Información
(Significado)
Tomar
Decisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de Datos
Estadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…
Análisis de Redes (Grafos)
Minería de Datos
Volumen
Ciencia de Datos
(Transforma/Modela)Cómputo Concurrente y Paralelo
Arquitectura para
Ciencia de Datos y Big Data
@abxda@hbcolectivo
Internet de las Personas
Internet de las Cosas
Sensores
{ json }
< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos Distribuidos
Computo Paralelo y Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis MultivariadoMachine Learning
Análisis de Interacción Espacial
{ json }
< xml >
c,s,v
{ json }
< xml >
c,s,v
Bases de Datos NoSQL
Visualización
Panorama Tecnológico
Infraestructura de Cómputo
Big Data en las Oficinas Nacionales de
Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
@abxda
• It is clear that during the next two years there
is a need to identify a few pilot projects that
will serve as proof of concept.
• Statistical organisations are, therefore,
encouraged to address formally Big data
issues in their annual and multi-annual work
programmes by undertaking research and pilot
projects in selected areas and by allocating
appropriate resources for that purpose.@abxda
Big Data en las Oficinas Nacionales de
Estadística
• 'new' exploration and analysis methods are
required: Visualization methods, Text mining, and
High Performance Computing.
• To use Big data, statisticians are needed with a
different mind-set and new skills. The
processing of more and more data for official
statistics requires statistically aware people with
an analytical mind-set, an affinity for IT (e.g.
programming skills) @abxda
Big Data en las Oficinas Nacionales de
Estadística
ESTRATIFICADOR INEGIQué es un producto de datos
Ciencia de Datos
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
Tecnologías Involucradas (2013)
@abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Motor de análisis estadístico,
habilitador de la inteligencia
estadística.
Ciencia de Datos
@abxda
Ciencia de Datos
@abxda
Ciencia de Datos
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de Manzanas
En la misma Pc de 4 Procesadores:(2013)
Software Tiempo
Manzanas
Big Data 8 Seg. 1’221,180
Tradicional 8 Seg. 2,666
https://spark.apache.org/
@hbcolectivo
TWITTER COMO FUENTE DE BIG DATA
¿Cuántos caracteres?
@abxda
140 ???
@abxda
Todo listo para la presentación de #BigData en el @FSLmx .
1482
Json: Formato de Intercambio
Nuestra huella en las Redes Sociales
@abxda
Todos los tuits están disponibles para su
recolección en tiempo real.
@abxda
Incluso permite consultas geográficas
@abxda
¿Dónde recolectar?
@abxda
http://www.elasticsearch.org/
@abxda
¿Por qué ElasticSearch?
@abxda
SwitchPuertos (a) 10.200.2.xPuertos (b)10.1.1.X
Hydra 2 – [10.1.1.X | 10.200.X.X]
Hydra1 – Master 10.1.1.X
Acceso a Internet [Recolecta información Redes Sociales]
< ESCALABILIDAD HORIZONTAL >
¿Por qué ElasticSearch?
@abxda
Hydra
@abxda< ESCALABILIDAD HORIZONTAL >
– El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana.
– Mas de 121 millones de tuits recolectados
Recolección de tuits en Archivos
Distribuidos con Bases de Datos NoSQL.
Visualización de la Base de Datos
121 Millones de Tuits
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
882,007 Tuiteros generaron 43’079,312 de Tuits
Frecuencia de Tuiteo
Movilidad de los Tuiteros
4’469,550 de desplazamientos de 347,157 Tuiteros
Movilidad hacia Pueblos Mágicos
Contenido de los Tuits
@abxda
Red Nacional de Caminos y Twitter
Red Nacional de Caminos y Twitter
Horarios de Tuiteo cerca de algún sector
@abxda
PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING
Qué es un producto de datos
Indicador de sentimiento
…
…
Proceso de Machine Learning
Objetivo:
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numérica
http://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
Modelo ClasificadorIndicador
de sentimiento
@abxda
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
@abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Web Api 2 / Interface REST
Tecnologías Involucradas
Resultados
@hbcolectivo
@ricardoaolvera
@abxda
Seguimos trabajando…
• Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning…
IMPLEMENTACIÓN DE BIG DATA
Hadoop / Apache Spark
@abxda
ó
Procesamiento70 Cores > 3 Ghz
>250 Gb Ram
5 TB
+Recolección20 Cores > 3 Ghz
100 Gb Ram
1 TB
• Tecnología de procesamiento en paralelo para Ciencia de Datos
Apache Spark
@abxda
@abxda
Reflexión
@abxda
http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html
Reflexión
@abxda
Preguntas
@abxda
Top Related