Lic. Ernesto [email protected] - @fetnelio AETTI 2012Agosto 2012 – Tucumán –Argentina 7puentes.com
Data Mining@AETTI 2012
Motivaciones
Muchos datos (digitales y disponibles) - Web data (contenido y uso) - comercio electrónico, transacciones bancarias- Sensores, satélites, telescópios, simulaciones - Bioinformática- Social media- Mobile
Computadoras/procesamiento baratas- procesamiento en la nube (PASS)- poder de cómputo en una desktop
Empresas cuyo valor reside en el uso inteligente de los datos generados por sus clientes. Amazon, Facebook, Google, Linkedin, Netflix
7puentes.com Data Mining
Data Science & Big Data
7puentes.com Data Mining
Nueva generación de problemas- Web & Social media- Mobile- Sistemas de Recomendación
El Científico de Datos (data scientist)- Formación en IA, estadísticas, algoritmos, base de datos, gestión proyectos, arquitecturas distribuidas, visualización de datos.- Maestrías de DM en Argentina- Cursos online de 1er nivel. Stanford, MIT, Udacity
Competitions- Netflix prize- Kaggle & Infochimps
Maestría en Explotación de Datos y
Descubrimiento del Conocimiento
7puentes.com Data Mining
Objetivos:- Formación Carrera de Especialización y Maestría- Investigación : Proyectos- Consultoría: Cooperación y complementación- Jornadas de DM: +250 inscriptos x año
Títulos- Carrera de especialización: 1 AñoEspecialista una vez aprobadas las seis asignaturas del primer año.- - Maestría: 1 Año AdicionalMagister aprobadas las seis asignaturas de segundo año y la defensa de una Tesis- Matrícula: +50 inscriptos anuales
Maestría en Explotación de Datos y
Descubrimiento del Conocimiento
7puentes.com Data Mining
Admisión:- Graduados de la UBA con titulo de grado de carreras de cuatro años de duración y graduados de otras instituciones con títulos equivalentes,- Graduados de carreras de duración menor luego de aprobar prerrequisitos o cursos de nivelación- Importante :Vocación interdisciplinaria de la Maestría.
Dictado:- Presencial- Clases Teórico-Prácticas- Asistencia no- obligatoria- Apoyo mediante la Web y prácticas de Laboratorio- Alumnos regulares y vocacionales
Pipeline KDD
7puentes.com Sistemas de Recomendación
[KNOWLEDGE]
Orígenes
7puentes.com Data Mining
Tareas
Modelos descriptivos- Reconocer patrones subyacentes en los datos y darles una explicación en español.- Cuáles son las variables que mejor explican el fenómeno
Modelos predictivos- Utilizar la evidencia para inferir comportamiento en el futuro (Lógica inductiva)- Utilizar variables conocidas para inferir el valor de las que no se conocen
7puentes.com Data Mining
Tareas
Modelos descriptivos- Clustering- Association Rule(*)- Sequential Pattern(*)
Modelos predictivos- Clasificación- Regresión- Sistemas de Recomendación
7puentes.com Data Mining
Modelo de Aprendizaje
7puentes.com Data Mining
Modelo de Aprendizaje
Aprendizaje = Mejorar la ejecución de una tarea utilizando la experiencia
-Mejorar la tarea T,
-Con la performance medida a través de las métricas P,
-Basándonos en la experiencia E.
7puentes.com Data Mining
Lógica inductiva
7puentes.com Data Mining
Clasificación / Regresión
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 1
Direct Marketing- Targeting: Reconocer dentro de una población los más propensos a comprar un producto- Utilizar historia de consumo- Modelo de clasificación {buy, not-buy}- Selección de variables - Modelo de scoring
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 2
Detección de Fraude- Reconocer casos de fraude o comportamiento sospechoso en patrones de consumo.- Tarjetas de crédito, consumos médicos, etc.- Etiquetar patrones en el pasado caracterizados como fraude- Inferir patrones de conducta similar- Modelos online. Monitoreo. Tablero de control
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 3
Customer Attrition/Churn- Reconocer la población propensa a abandonar el servicio abonado.- Empresas de servicios, CRM.- Cómo se comportaron aquellos que abandonaron el servicio? - Frecuencia de llamadas al call-center, consumos claves, poco consumo vs. altísimo consumo.- Detección de divorcios
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 4
Credit scoring- Clasificar y asignar puntaje a los abonados al servicio.- (Re)Asignación de créditos - Historia crediticia- Indicadores demográficos- Estimación de valor de cuota, mora, repago y demás indicadores
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 5
Clasificación de emails- Categorizar correos entrantes / buzones de sugerencia.- Asignación automática de responsables - Pregunta-Respuesta
7puentes.com Data Mining
Clasificación / Regresión: Ejemplo 6
Análisis de sentimiento- Clasificar documentos según su orientación subjetiva.- Minado de opiniones- Buzz monitoring en redes sociales
7puentes.com Data Mining
Clustering
7puentes.com Data Mining
Clustering: Ejemplo 1
Market Segmentation- Dividir a una población en subconjuntos con características similares- Similaridad en cuanto a patrones de consumo vs. características demográficas.- Campañas más enfocadas- Describir/Explicar los clusters - Armado de planes de telefonía celula- Clusters de sucursales o puntos de venta
7puentes.com Data Mining
Clustering: Ejemplo 2
Clustering de documentos- Dividir a un corpus en colecciones de documentos similares- Resultados de un motor de búsqueda más explicativos- Communities managers tools- Eliminación duplicados (near-duplicates)- News aggregators
7puentes.com Data Mining
Association Rule / Sequential Pattern
7puentes.com Data Mining
Rules: Ejemplo 1
Marketing & Sales- Descubir patrones de consumos asociados y construir promociones a partir de eso- Productos similares (restaurantes, libros, discos)- Productos complementarios (accesorios para el celular / consola de videojuegos)- Ciclos de vidaBásico -> deportivo -> 4 puertas -> familiar -> de lujo -> deportivo -> básico
7puentes.com Data Mining
Rules: Ejemplo 2
Mantenimiento- Descubir patrones de necesidad de productos/servicios asociados al mantenimiento- Cambio de aceite, neumáticos, cambio de correa de distribución…- Adelantarse a la necesidad de productos de mantenimiento
7puentes.com Data Mining
Rules: Ejemplo 3
Publicidad personalizada- Presentar ADs personalizados para cada cliente.- Detectar dentro de las ofertas de publicidad, la más adecuada para el usuario- Y en el contexto de consumo: a la noche, dese un dispositivo móvil, desde su casa o lugar de trabajo
7puentes.com Data Mining
Desafíos actuales
Big DataEscalabilidadArquitecturas elásticasDB & file systems distribuidos en el cloud
PrivacidadConfidenciabilidadPermisos y uso
ComplejidadDimensionalidadStreamingCalidadMúltiples fuentes
7puentes.com Data Mining