La Minería de Datos y el Negocio: Aplicaciones, Metodología y ...

Post on 11-Feb-2017

239 views 5 download

Transcript of La Minería de Datos y el Negocio: Aplicaciones, Metodología y ...

La Minería de Datos y el Negocio:

Aplicaciones, Metodologías y Aplicaciones, Metodologías y Técnicas

María Esther Ordóñez O. - 2008

Agenda

• Minería de Datos en el contexto de BI y DWH

• Aplicaciones de Minería de Datos

• Principales Tareas y Técnicas

• Metodología para procesos de Minería• Metodología para procesos de Minería

Definición de BI

Conjunto de Tecnologías y Aplicaciones

que permiten Recopilar, Almacenar,

Analizar y Tener Acceso a datos, de tal

manera que los usuarios de la Organización manera que los usuarios de la Organización

pueden tomar mejores decisiones .

Transformar los datos operacionales de

una empresa en información

“accionable”

Definición de BI

Información accionable

Información que realmente habilita y

optimiza el proceso de toma de decisiones

y la definición de estrategias y acciones y la definición de estrategias y acciones

encaminadas a mejorar el desempeño del

negocio

Fundamento de BI

BOGEGAS DE DATOS

Area de Preparaciónde Datos - ETLC(Data Staging Area)

SistemasFuente(Source)

AlmacenamientoArchivos PlanosRDBMSOtrosProcesamiento:LimpiezaPodaCombinaciónEliminación DuplicadosAdaptaciónEstandarizaciónDimens. correspondientesAlmient. para Réplica

Extraer

Servidor de PresentaciónBODEGA DE DATOS

DWBUS

DATA MART # 1Servicios Consulta OLAP(Rolap y/o Molap)

DimensionalOrientado al NegocioActualizado con frecuenciaEstructura Bus

DATA MART # 2

Dimensiones/HechosCorrespondientes

Herramientas para Consultas no Previstas

Generador deReportes

Aplicaciones de UsuarioFinal

Usuario FinalAcceso a Datos

Alimentar

PoblarReplicarRecuperar

Extraer

Alimentar

Alimentar

Alimentar

PoblarReplicarRecuperar

Descargue dimensionescorregidas

Almient. para RéplicaCopia de soporteExportación a DataMart

NO HAY SERVICIO DECONSULTA

PARA USUARIOS DATA MART # N

DWBUS

Dimensiones/HechosCorrespondientes

Descargue Resultados delModelo

MODELOS:PredictivosClasificaciónEstimaciónPredicciónOtros

Ralph Kimball

Extraer

Alimentar

Alimentar

PoblarReplicarRecuperar

Definición de Minería de Datos

Exploración y Análisis de grandes

cantidades de datos, utilizando

métodos automáticos o semi-métodos automáticos o semi-

automáticos, con el objeto de

descubrir patrones significativos y

reglas de comportamiento

Aspectos a tener en cuenta….

• DM tiene a su alrededor elementos éticos y legales

• Pueden verse como métodos de discriminación

• La razón para un rechazo no puede ser “…la red • La razón para un rechazo no puede ser “…la red neuronal dijo que NO!!!!”

• Condiciones bajo las cuales se recoge la información - las personas deben ser informadas de los objetivos del proceso

Por qué es Factible HOY• Los datos necesarios se están produciendo y

recopilando en DWH

• La potencia computacional está al alcance ($)

• CRM es importante en el negocio• CRM es importante en el negocio

– Todo negocio es un negocio de servicios

– La información se percibe como un producto

• Disponibilidad de productos comerciales

Agenda

• Minería de Datos en el contexto de BI y DWH

• Aplicaciones de Minería de Datos

• Principales Tareas y Técnicas

• Metodología para procesos de Minería• Metodología para procesos de Minería

Aplicaciones Generales

• Conocimiento y

Fidelización de clientes

– Segmentación

– Cross-sell y Up-sell– Cross-sell y Up-sell

– Manejo del ciclo de vida

del cliente

– Conocimiento

Comunitario

Aplicaciones Generales

• Optimización de

Campañas de Mercadeo

– Mercadeo Masivo vs.

Mercadeo DirigidoMercadeo Dirigido

Contactos

AHORRO

Aplicaciones Generales

• Detección de Fraudes

– Identificación de

patrones de

comportamiento normal

/ fraudulento/ fraudulento

Aplicaciones Generales

• Manejo de deserción de

clientes (churn –

attrition)

– Identificar potenciales – Identificar potenciales

desertores para aplicar

estrategias de retención

(si lo amerita)

Aplicaciones Generales

• Eficiencia de Procesos

– Se aplican técnicas de

DM a casos ya resueltos

para determinar reglaspara determinar reglas

– Control estadístico de

procesos de manufactura

Bioinformática

– Gestión y análisis de datos

biológicos

– Predicción de estructura de

proteínas, genoma humanoproteínas, genoma humano

– Técnicas de predicción para

determinar químicos con

mayor probabilidad de

producir drogas útiles

Telecomunicaciones

– Detección de Fraudes

– Perfilación de clientes

– Definición de productos (planes

familia y amigos, identificación

de clientes residenciales/oficina, de clientes residenciales/oficina,

llamadas internales)

– Aislamiento de fallas en red

– Localización de nuevos recursos

(antenas)

Medicina

− Análisis características de grupos humanos sensibles a cierto tipo de enfermedades -Diagnóstico

− Mezcla con GIS para determinar condiciones determinar condiciones geográficas asociadas a la presentación de enfermedades

− Planeación de recursos para atender necesidades de población

Almacenes de Retail

− Marcas propias

− Combos de productos

− Administración espacio en − Administración espacio en góndolas

Entidades Financieras

– Control de Fraude

– Nivel de “involucramiento”

de los clientes

Empresas de Servicios Públicos

– Venta de espacios de

mercado dirigido

– Identificación de datos

errados o fraudes por errados o fraudes por

desviación en patrones de

consumo

Entidades Gubernamentales

– Análisis de conexiones (Link

Analysis sobre reportes de

sus agentes para encontrar

pistas y asociaciones)pistas y asociaciones)

– Identificación de patrones

sospechosos en traslados

internacionales de fondos

– Lavado de activos

Brokers de Información

– Se “venden” servicios de

información para mercadeo

(Supermercados, Tarjetas

de Crédito)de Crédito)

– Se recopila información

para ofrecer servicios a

terceros (Hábitos de TV,

Recetas Farmacéuticas)

Agenda

• Minería de Datos en el contexto de BI y DWH

• Aplicaciones de Minería de Datos

• Principales Tareas y Técnicas

• Metodología para procesos de Minería• Metodología para procesos de Minería

Estrategias de DM

Estrategia Bottom-Up: Parte de los

datos para descubrir

Prueba de HipótesisEstrategia Top-Down: Sustenta o

descarta ideas preconcebidas

datos para descubrir

Descubrimiento de

ConocimientoDirigido

No Dirigido

Minería de Datos - Tareas

• Clasificación

• Estimación

• Predicción / Forecasting

Dirigido

26

• Asociación / Agrupamiento por afinidad

• Segmentación / Clustering

• Descripción y Perfilación

• Análisis Textual

No Dirigido

Clasificación• Establecer una o más variables discretas de un objeto,

con base en otros atributos del conjunto de datos -Analizar características de un nuevo objeto y asignarlo a una clase particular predefinida

• Clasificar solicitud de crédito en riesgo alto - medio – bajo

27

• Clasificar solicitud de crédito en riesgo alto - medio – bajo

• Determinar qué teléfonos corresponde a máquinas de fax

• Identificar Reclamos de Seguro fraudulentos

• Clasificar persona como potencial “respondedor” a oferta

• Clasificar a un cliente dentro de un perfil particular

Estimación• Establecer el valor de una variable continua, los

resultados pueden ser ORDENADOS – Similar a Clasificación

• Estimar el valor del ingreso total de un grupo familiar

• Determinar probabilidad de transacción sea fraudulenta

28

• Determinar probabilidad de transacción sea fraudulenta

• Estimar número de hijos en un grupo familiar

• Estimar el valor del ciclo de vida de un cliente

• Estimar probabilidad con que persona responde a campaña

Predicción• Similar a clasificación o estimación, sólo que se refiere a

identificar un comportamiento o valor estimado futuro

• Predecir qué clientes desertarán en los siguientes 6 meses

• Predecir el monto de saldo transferido si un prospecto de TC

29

• Predecir el monto de saldo transferido si un prospecto de TC acepta la oferta de transferencia

• Predecir qué suscriptores de teléfonos ordenarán servicios de valor agregado

Asociación / Affinity Grouping

• Detectar eventos que ocurren de manera simultánea

• Un cliente que compra cerveza, compra pañales con prb P1

30

• Un cliente que compra cerveza, compra pañales con prb P1

• Un cliente que compra Pizza, compra Vino con prb P1

• Un cliente que compra Vino, compra Pizza con prb P2

Segmentación / Clustering

• Dividir población heterogénea en grupos más homogéneos

31

• Identificar segmentos de clientes para un negocio particular

Descripción

• Describir un comportamiento en una base de datos compleja para aumentar el conocimiento y entendimiento sobre gente, productos, procesos etc. –Visualización – Diferenciación

32

• Establecer que las mujeres presentan menor siniestralidad en seguros de automóvil que los hombres

• Identificar las características de personas que apoya uno u otro partido político

Análisis Textual

• Convertir información des-estructurada en información estructurada (análisis de términos)

• Retroalimentación de datos en Call Center

33

• Retroalimentación de datos en Call Center

• Clasificación de textos por temas

Técnicas

• Modelos de regresión lineal - logística

• Arboles de Decisión (regresión/modales)

• Redes Neuronales

• Detección de Clusters• Detección de Clusters

• Market Basket Analysis

• Razonamiento Basado en memoria

• Link Analysis

• Algoritmos Genéticos

Agenda

• Minería de Datos en el contexto de BI y DWH

• Aplicaciones de Minería de Datos

• Principales Tareas y Técnicas

• Metodología para procesos de Minería• Metodología para procesos de Minería

Transformar datos en

Información “accionable”

mediante técnicas de Minería

El ciclo de Minería de Datos

(Siniestralidad Femenina en Seguro Automóviles es menor)

36

Identificar oportunidad de

negocio

Medir resultados

(Crear Nuevos Productos)

Seguro Automóviles es menor)

(Crear producto de seguroAutomóviles para mujeres)

Actuar

Consideraciones

• DM puede verse como un proceso de

“Machine Learning”

� Lenguaje de descripción de conceptos (language bias)

� Orden en que se busca en el espacio de búsqueda (search bias)

� Manera como se evita el overfitting al conjunto de entrenamiento (overfitting-avoidance bias)

Consideraciones

• La mayoría de métodos aprenden mediante

ejemplos

• Los “ejemplos” se establecen mediante

INSTANCIAS que tienen ATRIBUTOS INSTANCIAS que tienen ATRIBUTOS

(numéricos / categóricos o nominales) y están

“pre-clasificados”

Consideraciones

� Preparar Datos

• Incluir información derivada o calculada

• Dividir en 3 conjuntos: Entrenamiento – Prueba –Evaluación

• Incluir casos “positivos” y “negativos”

• Oversampling

Ciclo de Vida – Minería de Datos

1Planeación y Justificación delProyecto

3

Escogencia del

Conjunto de Datos

6

Selección de la

Herramienta de

Minería

Fase de

Planeación

Fase de

Preparación

de Datos

Fase de

Análisis de

Datos

9

Crear y Aprobar

Plan de

Acción

Fase de

Implementación

40

2

Identificación de

Preguntas claves

Del negocio

4

Transformación del

Conjunto de Datos

5

Verificación del

Conjunto de Datos

7

Análisis del Modelo

Minería

8

Verificar y Presentar

Modelo de Minería

10

Implementar

Plan de

Acción

11

Medir Resultados