El arte de la Ciencia de Datos
-
Upload
datalab-community -
Category
Science
-
view
71 -
download
3
Transcript of El arte de la Ciencia de Datos
![Page 1: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/1.jpg)
El Arte de la Ciencia de Datos
Campus Party 2016#DatosALoGrande
![Page 2: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/2.jpg)
Presentación
- Machine LearningStanford
- Mining Massive DatasetsStanford
- Process MiningEindhoven
- Data AnalysisJohn Hopkins
- Data Lakes for Big DataEMC
- Big Data with SparkBerkeley
Héctor Neri Cano
Data Science Enthusiast
![Page 3: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/3.jpg)
![Page 4: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/4.jpg)
Datos a lo Grande
![Page 5: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/5.jpg)
Beneficios
• Resultados más precisos.
• Mejores recomendaciones.
• Los periodistas pueden analizar y entender mejor.
• Soluciones para el problema de tráfico en las ciudades.
• Predecir las enfermedades que cada persona pueda padecer.
• Encontrar la mejor cura y tratamiento personalizados.
![Page 6: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/6.jpg)
Acciones impulsadas por Datos
• Aprender de los datos
• Convertir los datos en algo valioso
• Tomar decisiones basadas en los datos
• Crear productos y servicios impulsados por los datos
El Trabajo en Equipo es fundamental.
El tratamiento de los datos para extraer conocimiento,
es un arte y una ciencia.
![Page 7: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/7.jpg)
Data Vincis
El rol de científico de datos se ha descrito como “parte analista, parte artista”. De acuerdo a Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, “un científico de datos es alguien inquisitivo, que puede mirar a los datos y encontrar patrones. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambio a una organización”.
![Page 8: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/8.jpg)
![Page 9: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/9.jpg)
Las 7 Artes Liberales de la Ciencia de Datos
![Page 10: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/10.jpg)
Trivium 1 (Dialéctica)
Análisis Estadístico
![Page 11: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/11.jpg)
Trivium 2 (Gramática)
Estructura de Datos
![Page 12: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/12.jpg)
Trivium 3 (Retórica)
Data Visualization+ Open Data
![Page 13: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/13.jpg)
Quadrivium 1 (Aritmética)
Big Data
![Page 14: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/14.jpg)
Quadrivium 2 (Geometría)
Distributed FileSystem
![Page 15: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/15.jpg)
Quadrivium 3 (Música)
MapReduce
![Page 16: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/16.jpg)
Quadrivium 4 (Astronomía)
Data Mining
![Page 17: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/17.jpg)
El Arte de Analizar Datos
![Page 18: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/18.jpg)
El Científico de Datos
Un científico de datos debe reunir y aplicar herramientas adecuadas a los datos para responder una pregunta relevante.
Actividades Centrales
1. Definir (y refinar) la pregunta
2. Explorar los datos
3. Construir modelos estadísticos formales
4. Interpretar los resultados
5. Comunicar los resultados
![Page 19: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/19.jpg)
El Epiciclo de Análisis Ajustar las
expectativas
Se necesitará repasar este epiciclo continuamente para refinar las actividades centrales.
Recolectar información (datos)
Comparar tu información o datos con tus expectativas
Corregir tus expectativas o arreglar los datos
![Page 20: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/20.jpg)
Definir la Pregunta
Muchas de las trampas mortales de un análisis de datos pueden ser evitados al gastar energía mental para hacer que la pregunta quede bien formulada.
Tipos de Preguntas
1. Descriptiva
2. Exploratoria
3. Inferencial
4. Predictiva
5. Causal
6. Mecánica
![Page 21: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/21.jpg)
Pregunta Descriptiva
Pregunta Exploratoria
![Page 22: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/22.jpg)
Pregunta Inferencial
Pregunta Predictiva
![Page 23: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/23.jpg)
Pregunta Causal
Pregunta Mecánica
![Page 24: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/24.jpg)
Características de una Buena Pregunta
Ejemplo de una Buena Pregunta
¿Comer 5 porciones de
fruta y vegetales frescos
se relaciona con menos
infecciones de las vías
respiratorias?
Debe ser de interés para tu audiencia
No debe haber sido ya respondida
Debe provenir de un cuadro de trabajo plausible
Debe poder ser respondida con los datos adquiribles
Debe ser lo suficientemente específica
![Page 25: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/25.jpg)
Traducir una pregunta en un problema de datos
Piensa cómo lucirían los resultados del análisis de datos y cómo pueden ser interpretados.
Evita preguntas que usan datos inapropiados y con una infinidad de interpretaciones.
Asegurate que los datos disponibles pueden proveer los factores necesarios para obtener la respuesta.
![Page 26: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/26.jpg)
Evita las Variables de Confusión
Se presenta cuando un factor que no se consideró está relacionado.
Se refiere a aquellas variables que aparentemente son significativas, pero que en realidad no lo son porque son dependientes de otras que no han sido consideradas.
Conviene identificar si el dataset incluye información acerca de estas potenciales
variables de confusión.
![Page 27: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/27.jpg)
Evita la Parcialidad (Bias)
Una selección parcializada ocurre cuando los datos inflan la proporción de la gente que tiene más ciertas características que la población general.
Si la forma en que los datos son recolectados lleva a un resultado parcializado, el
resultado no puede ser bien interpretado.
La parcialidad puede ser un problema si estás más (o menos) propenso de observar individuos con ciertos factores debido a cómo la población fue seleccionada.
![Page 28: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/28.jpg)
Revisa tus datos primero
Los datos usualmente vendrán en un formato muy desordenado y
necesitarás hacer algo de limpieza.
Con algunas cuantas maniobras, puedes identificar problemas potenciales con el conjunto de datos antes de que te enfrasques en un complicado análisis de datos.
Frecuentemente es útil mirar al “inicio” y al “final” de un conjunto de datos. Esto te permite conocer si los datos fueron leídos propiamente, si las cosas están propiamente formateadas y si todo está en su sitio.
![Page 29: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/29.jpg)
Valida con al menos una fuente externa
En Machine Learning, el dataset es mejor separarlo en 3 subconjuntos
Testing
Asegurarse de que los datos concuerdan con algo fuera de tu conjunto de datos es muy importante. Permite que te asegures de que las medidas están firmemente en línea con lo que debe ser y sirve como una revisión sobre qué otras cosas podrían estar mal en tu conjunto de datos.
Aprendizaje
Validación
![Page 30: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/30.jpg)
Intenta lo más fácil, pero siempre desafialo
La intención de intentar primero la solución más fácil es ver cómo podría proveerse evidencia ‘a primera vista’.
Si no encuentras evidencia en los datos usando solo un simple plot o análisis, entonces frecuentemente es poco probable que encuentres algo en un análisis más sofisticado.
Se debe siempre pensar en formas de desafiar
los resultados, especialmente si esos
resultados se comportan según tus expectativas
previas.
![Page 31: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/31.jpg)
Utiliza un modelo razonable y útil.
Tener todos los datos es importante, pero no siempre es muy útil. Esto es debido a que el modelo trivial (no tener ni un solo modelo) no provee ninguna reducción de los datos. El primer elemento clave de un modelo estadístico es la reducción de los datos.
La pregunta es si el modelo provee una
aproximación razonable que pueda ser útil.
Un modelo estadístico permite una aleatoriedad al generar los datos.
El modelo es
esencialmente
una expectativa
de la relación
entre varios
factores del
mundo real en
tu conjunto de
datos.
![Page 32: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/32.jpg)
¿Ciencia de Datos?
![Page 33: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/33.jpg)
![Page 34: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/34.jpg)
Analítica de Datos vs Ciencia de Datos
Descubrir aquellas cosas que no sabemos
que desconocemos
Más que un interés en conocer aquellas
cosas que no conocemos
Ciencia de
Datos: Más
que muchas
disciplinas
y diversas
herramientas
Fuente: DataScientistInsight.com
![Page 35: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/35.jpg)
.Aspecto Análitica de Datos Ciencia de Datos
Filosofía Saber Entender
Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos
Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo
Resultados Operacionales y Tácticos Estratégicos y Generan Valor
Carga de Trabajo Repetitiva y Sistemática Experimental y Particular
Ámbito de Estudio Limitado y Específico Amplio y General
Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles
Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida
![Page 37: El arte de la Ciencia de Datos](https://reader031.fdocumento.com/reader031/viewer/2022020113/5875874b1a28ab901c8b5003/html5/thumbnails/37.jpg)
Muchas Gracias por estar aquí