Big data o datos masivos en investigación en odontología

37
Los grandes volúmenes de datos o “Big Data” retos y oportunidades Juan Carlos Munévar Niño

Transcript of Big data o datos masivos en investigación en odontología

Los grandes volúmenes de datos o “Big Data” retos y

oportunidades

Juan Carlos Munévar Niño

Qué es Big Data

Preguntas alrededor de Big Data3.

2.

Contenido

¿Qué es Big Data?

“Volumen masivo de datos, tanto estructurados como no-estructurados, los cuales son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales" (ONU, 2012)

Pero no es la cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que conduzcan a mejores decisiones y movimientos estratégicos.

Introducción al Big Data Introducción al Big Data y su impacto en la sociedady su impacto en la sociedad

Nuestro mundo gira en torno a los datos

Exabytes: 1018 bytes.

La explosión de los datos

La explosión de los datos

Zettabyes: 1021 bytes.

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de

Extraer el valor de los datos

Convertir datos en conocimiento

¿Qué hacemos con estos datos?

¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos

El poder de los datos y su impacto en la sociedad

El valor de la informaciEl valor de la informacióón: el n: el reto del reto del ““Big DataBig Data””

¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos

El poder de los datos y su impacto en la sociedad

El valor de la informaciEl valor de la informacióón: el n: el reto del reto del ““Big DataBig Data””

• Problema: Escalabilidad de grandes cantidades de datos• Ejemplo:

• Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días

¿Por qué Big Data?

¿Cómo podemos procesar 1000 TB (1 PB) ó 10000 TB?Propuesta de Google

2004: Paradigma MapReduce(aproximación más popular a big data)

Terabyte: 1012 bytes

• Solución Divide-Y-Vencerás– Exploración en un clúster de 1000 nodos = 33 minutos

Fragmentación Datos Procesamiento Paralelo Fusión de Modelos

Big Data en 3 V’s

Doug Laney, Gartner Feb. 6, 2001 3-D Data Management: Controlling Data Volume, Velocity and Variety.

Big Data

Some Make it 4V’s: Veracity

¿Qué es Big Data? 3 V’s de Big Data

“Big Data” son datos cuyo volumen, diversidad y complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento oculto en ellos ...

14

2010-2015:

Big Data Analytics: Mahout, MLLib, …

Hadoop Ecosystem

Aplicaciones

Nuevas Tecnologías

Big Data: Tecnología y Cronología

2001-20102010-2015

Clustering

Recommendation Systems

Classification

Association

Potentiales escenarios

Real Time Analytics/Big Data Streams

Social Media MiningSocial Big Data

Big Data Analytics

Ámbito del conocimiento que engloba las habilidades asociadas al análisis inteligente de datos, incluyendo Big Data

Ciencia de Datos

Científico de datos

¿Por qué Big Data? Tecnologías para Big Data y Big Data Analytics. Ciencia de Datos

El poder de los datos y su impacto en la sociedad

El valor de la informaciEl valor de la informacióón: el n: el reto del reto del ““Big DataBig Data””

El poder de los datosAnálisis de transacciones Amazon: Sistema de recomendación

Los datos incrementaron tremendamente las ventas

Ahora más de 1/3 de las ventas son gracias a las recomendaciones

Fuente: Big Data. La revolución de los datos masivos. Pag. 69. The power of habit, Charles Duhigg. Feb. 2012

Fuente: Big Data. La revolución de los datos masivos. Pag. 77

El poder de los datos

Análisis de transacciones

Acción: Envío de cupones para cada fase del embarazo

Enfado de un padre: Su Hija recibe publicidad de productos para embarazadas

Target (cadena de grandes almacenes) que utiliza el análisis de transacciones y asociaciones.

Fuente: Big Data. La revolución de los datos masivos. Pag. 77.

Unos días después el director llamó al padre para disculparse. Respuesta conciliadora del padre: “He estado hablando con mi hija –dijo el padre– Resulta que en mi casa han tenido lugar ciertas actividades de las que yo no estaba del todo informado. Mi hija sale de cuentas en agosto. Soy yo el que les debe una disculpa”.

Análisis de transacciones: Un chivo expiatorio

El poder de los datos

Discovering Health Topics in Social Media Using Topic ModelsMichael J. Paul, Mark Dredze, Johns Hopkins University, Plos One 9(8) e103408, 2014

doi:10.1371/journal.pone.0103408

Analizando Twitter para medir la Salud Pública

Se obtienen 13 grupos coherentes de mensajes correlacionados- Gripe estacional (r= 0.689) y alergias (r = 0.810) - Ejercicio y obesidad relacionados con datos geográficos, ..

You Are What You Tweet

Un sistema de filtrado de datos de Twitter puede inferir aspectos de salud analizando 144M de tuits (2011-2013)

http://elpais.com/elpais/2015/01/29/ciencia/1422520042_066660.html

http://www.sciencemag.org/content/347/6221/536

Banca: Identificación de personas con las compras de tarjetas de crédito

Identificación por el número de compras

Identificación por el género

Identificación por el poder adquisitivo

Banca: Identificación de personas con las compras de tarjetas de crédito

SaludRedes sociales como fuente de datos Industria, comercio, banca, … Ocio y cultural (Ej. Recomendaciones)PolíticaBien social (Social good)

Impacto en la sociedad

http://www.elmundo.es/elmundo/2013/09/03/navegante/1378243782.html

Big Data: Gran Impacto en la Sociedad y presencia en los medios de comunicación

http://economia.elpais.com/economia/2013/09/27/actualidad/1380283725_938376.html

La demanda de profesionales formados en Ciencia de Datos y Big Data es enorme.

Se estima que la conversión de datos en información útil generó un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos.

España necesitaba para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data.

Impacto Económico

http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-data-hasta-2015/?goback=.gde_4377072_member_5811011886832984067#!

Algunas experiencias internacionales a nivel gubernamental

Comisión Estadística de Naciones Unidas: Seminario de Asuntos Emergentes en la 44°Sesión de la Comisión: Big Data para la Política, el Desarrollo y las Estadísticas Oficiales

Estados Unidos: “Iniciativa de I+D en Big Data” (2012), propuesta de la administración Obama, dirigido por la Oficina para la Ciencia y la Tecnología de la Casa Blanca.

Japón: Dentro de la primera estrategia de crecimiento del Japón del gobiernode Shinzo Abe (“Desatar el poder del sector privado hasta su máxima extensión”), se encuentra un plan básico para aprovechar Big Data” (Mayo 2012).

Corea del Sur: “Plan Maestro de Big Data para la Implementación de una Nación Inteligente” (2013), del gobierno coreano.

..

Lo que algunos consideran debe ser la relación Big Data - INE

“Si los gobiernos quisieran, podrían ya dejar que los grandes datos (y el sector privado) tengan un papel en el suministro de información sobre

los temas que están actualmente en el ámbito de las oficinas nacionales de estadística” (Comisión Estadística de las Naciones Unidas, 2013)”.

“Si los gobiernos quisieran, podrían ya dejar que los grandes datos (y el sector privado) tengan un papel en el suministro de información sobre

los temas que están actualmente en el ámbito de las oficinas nacionales de estadística” (Comisión Estadística de las Naciones Unidas, 2013)”.

Lo que algunos consideran debe ser la relación Big Data - INE

“¿Cuál es el futuro del uso de Big data para el sistema estadístico de Los Estados Unidos? Veo un potencial inmediato: usar Big data para mejorar la calidad de nuestros estimados dentro de nuestros marcos metodológicos actuales”.

Michael W. Horrigan Comisionado asociado en la Oficina de Precios y Condiciones de Vida de la

Oficina de Estadísticas Laborales de Estados Unidos

Lo que algunos consideran debe ser la relación Big Data - INE

“Algún día los INE tendrán que decidir si producen estadísticas basadas en Big Data”

Ki-Jong Woo. Comisionado delInstituto Nacional de Estadísticas de Corea del Sur

(KOSTAT).

Lo que algunos consideran debe ser la relación Big Data - INE

“La Oficina de Censos está incorporando soluciones de Big Data para mejorar la eficiencia de las operaciones a través del ciclo de vida de la encuesta”

William G. Bostic, Jr. Director Asociado, Programas Económicos.

Oficina de Censos de los Estados Unidos.

Lo que algunos consideran debe ser la relación Big Data - INE

• Cuál es la utilidad de Big Data para la producción de estadísticas oficiales?.

• Para producir estadísticas oficiales ¿debemos saltar a “Big Data”, cuando aún estamos en proceso de maduración del uso de registros administrativos?.

• ¿Cómo , dónde y cuándo podemos usar “Big Data”, para tomar decisiones en asuntos de políticas públicas?

• ¿Si se usará “Big Data” para la producción de estadísticas oficiales, como mantener los asuntos de reserva estadística propios de los INEs?.

Preguntas Sobre “Big Data”

• Si Big Data se computa y guarda en la “nube” ¿Qué retos legales con relación a la información de nuestros ciudadanos deben enfrentar los gobiernos y en particular los INEs?.

• Qué consecuencias positivas y negativas puede tener el uso de Big Data para políticas públicas?.

• ¿Si los INEs incorporamos Big Data en la producción estadística, debemos adquirir bases de datos de proveedores particulares?.

• ¿Son aplicables los modelos de planeación estadística que incorporen el uso de Big Data?

Preguntas Sobre “Big Data”

http://issuu.com/secacult_uja/docs/libro_francisco_herrera.indd

2 Lecturas rápidas: Sobre la tecnología y sobre el poder de los datos

Capítulo 3.

El valor de la informaciEl valor de la informacióón: el n: el reto del reto del ““Big DataBig Data””

Nube de datos

ConclusionConclusiones es

Discernir información relevante, sintetizarla y extraer

conocimiento de ella es, cada vez, un aspecto más crítico

en la sociedad en que vivimos

¡Gracias!¡Gracias!@munevarjuan