Post on 13-Apr-2017
Anatomía de un proyecto de Big
Data
8 Septiembre 2015
abel.coronado @ inegi.org.mx@abxda
COOPERACIÓN INTERINSTITUCIONAL
• Nacional • Internacional
@abxda
¿QUÉ ES BIG DATA?
Dan Ariely, Duke University
¿Qué es Big Data?
@abxda
¿Qué es Big Data?
http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante @abxda
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
Según Gartner
Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas
creativas y viables económicamente para procesarla con el fin de contribuir
a tomar decisiones, actuar y crear valor.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
¿Qué es Big Data?
@abxda
Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales
@abxda
@abxda
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg
Tomar decisiones, actuar y crear valor
@abxda
Big Data en las Oficinas Nacionales de Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 @abxda
• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.
• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.
@abxda
Big Data en las Oficinas Nacionales de Estadística
• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.
• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda
Big Data en las Oficinas Nacionales de Estadística
Fuentes alternas (Big Data)
Registros Administrativos
Encuestas
CensosMayor:Desagregación, Precisión, ComparabilidadCosto, Recursos, Dificultad de Obtención
Mayor:Oportunidad, Autonomía (intrínseca)Conocimientos, Capacidades Técnicas, Dificultad de Análisis
@abxda
Experto encomputación ydesarrollo avanzados
Experto enestadística
matemática
Experto enel dominio de
datos
CIENCIADE
DATOSZonapeligrosa!
Investigacióntradicional
Machinelearning
Ciencia de Datos
@abxdahttp://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Experto encomputación ydesarrollo avanzados
Experto enestadística
matemática
Experto enel dominio de
datos
Unicornio
Zonapeligrosa!
Investigacióntradicional
Machinelearning
Ciencia de Datos
@abxda
CIENCIADE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
Científico de Datos
Ingeniero de Datos
@abxda
Productos de Datos
Manejar las 3 v’s
vsVisualización
Modelado
Contar Historias
Científico de Datos
Administración de Sistemas
Programación
Matemáticas
Estadística
Ingeniero de DatosAdministración de Bases de DatosAlmacenamiento de Datos
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
Equipo de Big Data y Ciencia de DatosEstadística
Matemáticas
Machine Learning
Minería de Texto
Interfaces de Usuario
Experiencia del Usuario
First Mobile
Visualización de Datos
Ingeniería de Software
Administradores de Sistemas
Bases de datos NoSQL
Arquitecturas Big Data
Arquitecturas de Software
Crowdsourcing
@abxda
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos Crudoshdfs://
Información(Significado)
TomarDecisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de DatosEstadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…Análisis de Redes (Grafos)
Minería de Datos
Velocidad
Varie
dad
VolumenCiencia de Datos
(Transforma/Modela)Cómputo Concurrente y Paralelo
Arquitectura paraCiencia de Datos y Big Data
@abxda@hbcolectivo
Internet de las Personas
Internet de las Cosas
Sensores
{ json }< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos Distribuidos
Computo Paralelo y Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis MultivariadoMachine Learning
Análisis de Interacción Espacial
{ json }< xml >
c,s,v
{ json }< xml >
c,s,v
Bases de Datos NoSQL
Visualización
Panorama TecnológicoInfraestructura de Cómputo
ESTRATIFICADOR INEGIQué es un producto de datos
Ciencia de Datos
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
Tecnologías Involucradas (2013)
{ JSON }
@abxda
D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Motor de análisis estadístico,habilitador de la inteligenciaestadística.
Ciencia de Datos
Ciencia de Datos
@abxda
Ciencia de Datos
@abxda
Ciencia de Datos
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)
Software Tiempo Manzanas
Big Data 8 Seg. 1’221,180
Tradicional 8 Seg. 2,666
https://spark.apache.org/
@hbcolectivo
TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …
2009 2010 2011 2012 2013 2014 2015
(Junio) GIVAS = Global Pulse
(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services
(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS
(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.
(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.
(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.
DGAI Inicia con Herramientas Big Data
(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.
(Diciembre 2013) Visita de Upenn a INEGI
(Febrero 2014) Inicia recolección de Tuits (Hydra)
(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC
(Julio 2014) SECTUR y mapa resultado y paper.
(Agosto 2014) Inicia Pioanálisis
(Nov. 2014) Concluye clasificación de Twits.
(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits
(Febrero 2015) Viaje a UPenn
(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.
(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real
(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC
(Julio 2015) Herramienta de Visualización
@abxda
Equipo de Trabajo
Dr. Oscar S. Siordia osanchez@centrogeo.edu.mx
Dr. Mario Graffmario.graff@infotec.com.mx Dra. Daniela Moctezuma
dmoctezuma@centrogeo.edu.mx
Dr. Elio Villaseñorelio.villaseñor@infotec.com.mx
Dr. Eric Tellezeric.tellez@infotec.com.mx
Dr. Sabino Mirandasabino.miranda@infotec.com.mx
Dr. Gerardo Leyvagerardo.leyva@inegi.org.mx
Dr. Alfredo Bustosalfredo.bustos@inegi.org.mx
Mtro. Abel Coronadoabel.coronado@inegi.org.mx
Ing. Silvia FraustroSilvia.fraustro@inegi.org.mx Y el apoyo de:
Dr. Juan Muñoz LópezJuan.munoz@inegi.org.mx
Ing. Ricardo OlveraRicardo.olvera@inegi.org.mx
Y en la parte de visualización:Lic. Marco IbarraMarco.ibarra@inegi.org.mx
@abxda
OBJETIVO DEL PROYECTO
Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.
@abxda
Impactos esperados del proyectoDesarrollo Estadístico
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
@abxda
Impactos esperados del proyectoDesarrollo Tecnológico
• Adquirir experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos
• Identificar el proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales
• Identificar los requerimientos de Hardware y Software para desarrollar un ambiente de producción de Big Data
@abxda
¿Cuántos caracteres?
@abxda
140 ???@abxda
Todo listo para la presentación de #BigData en el @FSLmx .
1482
Json: Formato de Intercambio
Nuestra huella en las Redes Sociales
@abxda
Todos los tuits están disponibles para su recolección en tiempo real.
@abxda
Incluso permite consultas geográficas
@abxda
¿Dónde recolectar?
@abxda
http://www.elasticsearch.org/
@abxda
¿Por qué ElasticSearch?
@abxda
Hydra
@abxda< ESCALABILIDAD HORIZONTAL >
Hydra
@abxda
@abxda
– 1 año 7 meses de estar recolectando las 24 horas 7 días de la semana tuits georeferenciados.
– Mas de 150 millones de tuits recolectados
Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL.
@abxda
Visualización de la Base de Datos
>150 Millones de Tuits
@abxda
~ 70 Millones de Tuits
@abxda
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
882,007 Tuiteros generaron 43’079,312 de Tuits
@abxda
Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros
@abxda
@abxda
Red Nacional de Caminos y Twitter
Red Nacional de Caminos y Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
DENUE & Twitter
@abxda
Horarios de Tuiteo cerca de algún sector
@abxda
PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING
Qué es un producto de datos
Indicador de sentimiento
…
…
Proceso de Machine LearningObjetivo:
@abxda
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numéricahttp://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
ClasificadorIndicador
de sentimiento
@abxda
Entrenamiento
Producción
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
@abxda
{ JSON }
D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Web Api 2 / Interface REST
Tecnologías Involucradas
Resultados
@hbcolectivo
@ricardoaolvera
@abxda
Alrededor de 5000 anotadores de la Universidad Tec Milenio
El proceso de limpieza sirvió para eliminar redundancias e inconsistencias, dejando un conjunto menor de Tuits pero con mayor calidad.
@abxda
El proceso de normalización convierte cada tuit a una representación que facilite su clasificación automatizada. @abxda
Preparación para el entrenamiento de algoritmos de Machine Learning@abxda
El resultado final de la fase de entrenamiento consistió en un ensamblado desarrollado por la colaboración INFOTEC - Centro Geo
@abxda
@abxda
@abxda
IMPLEMENTACIÓN DE BIG DATAVisión de
Hadoop / Apache Spark
@abxda
ó
Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB
+Recolección20 Cores > 3 Ghz100 Gb Ram1 TB
• Tecnología de procesamiento en paralelo para Ciencia de Datos
Apache Spark
@abxda
@abxda
http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html
Reflexión
@abxda
Preguntas
@abxda
abel.coronado@inegi.org.mx @abxda