Minería de Datos como Herramienta para la Gestión Moderna

1

Minería de Datos como Minería de Datos como Herramienta para la Gestión Herramienta para la Gestión

ModernaModerna

DR. NICOLAS KEMPER VALVERDELaboratorio de Sistemas Inteligentes

CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICOUNIVERSIDAD NACIONAL AUTONOMA DE MEXICO

e-mail: [email protected]

2

Gestión Moderna: Contexto de los negocios

• Globalización

• Competencia

• Ventajas competitivas

• Tecnología

• Cambio

• Cultura organizacional

• Distancias geográficas e Internet

3

Gestión Moderna: Contexto de los negocios

•Economía del conocimiento

•Administración de la relación con clientes

• Campañas de publicidad

• Mejoramiento de procesos

• Diseño de producto

• Investigación de mercados

• Investigación de productos

4

Tipos de Empresas

Manufactureras Tarjetas de CréditoServicios Medios: TV, radio, prensaGobierno Telefonía fija y móvilBancarias MedicinaBursátiles FarmacéuticasSeguros Minoristas

5

Gestión Moderna:

Implantar Ventajas Competitivas

6

Datos

Conocimiento Información

Símbolos

Expertise Competencia

Competencia y conocimiento

7

Ventaja competitiva

• Aprender sobre los clientes

• Utilizar lo aprendido sobre los clientes para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

8

Ventaja competitiva

• Aprender sobre los competidores

• Utilizar lo aprendido sobre los competidores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

9

Ventaja competitiva

• Aprender sobre los proveedores

• Utilizar lo aprendido sobre los proveedores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

10

Ventaja competitiva

• Aprender sobre los procesos internos

• Utilizar lo aprendido sobre los procesos internos para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

11

¿Qué hacer para adquirir ventajas competitivas?

• Comprar los resultados:

• Comprar el software y los modelos:

• Contratar consultores

• Desarrollar la expertisia internamente

12

Inteligencia de Negocios y MD

Negocios

Inteligencia de Negocios

Administración del Conocimiento

Minería de datosOLAP

13

Negocios: Establecimiento de metas concretas

•Incremento de las ventas en un 30% en productos de baja rotación en los próximos 10 meses

•Reducir de 2 a 1% el número de clientes premier que se pueden ir a la competencia en este trimestre (retención de clientes)

•Encontrar las características demográficas de los clientes de un nuevo producto (predicción de demanda )

14

Negocios: Establecimiento de metas concretas

•Detección de fraudes en tarjetas de crédito

•Estrategia de las promociones en una sala de venta al por menor

•Encontrar patrones de enfermedades

• Establecer estrategias para el ahorro de energía

15

Escoger bien el problema del negocio

Tener los datos apropiados (cantidad y calidad)

Otros: •habilidades de modelación•herramienta interactiva•medios de visualización

Factores de Éxito

16

Inteligencia de NegociosEl flujo de información y conocimiento en una empresa es actualmente muy importante si se quiere mantener una posición fuerte en el mercado, sin embargo, la gran mayoría de las organizaciones tienen una abundancia de datos, pero muy poco conocimiento explicito.

La Inteligencia de Negocios, es un concepto que trata de englobar todos los sistemas de información de una organización para obtener de ellos no solo información o conocimiento, si no una verdadera inteligencia que le confiera a la organización una ventaja competitiva por sobre sus competidores.

El éxito de un negocio depende de que tan bien conozca a sus clientes, que tan bien entienda sus procesos internos y que tan efectivo sea para realizar todas sus operaciones

17

Inteligencia de NegociosLa Inteligencia de Negocios se compone de todas las actividades relacionadas a la organización y entrega de información así como el análisis del negocio.

Data Warehousing y Data Marts, Sistemas de almacén de datos. Aplicaciones analíticas. Data Mining, herramientas para minería de datos. OLAP, herramientas de procesamiento analítico de datos. Herramientas de consulta y reporte de datos. Herramientas de producción de reportes personalizados. ELT, herramientas de extracción, traducción y carga de datos. Herramientas de administración de sistemas. Portales de información empresarial. Sistemas de base de datos. Sistemas de administración del conocimiento.

18

Administración del Conocimiento

Manejo de la información para generar conocimiento, abarcando todos los recursos intelectuales de una organización en todos los niveles de responsabilidad.

Así mismo, la Gestión de Conocimiento ayuda a obtener mayor comprensión y entendimiento del entorno y de los procesos desde la propia experiencia en las personas y organizaciones.

19

Administración del ConocimientoAnte este reto, se plantea la necesidad de alcanzar una forma de organización que rompa los límites tradicionales.

Una organización con estructuras más flexibles que supere los cuatro tipos de fronteras más frecuentes: . verticales o jerárquicas, entre personas; . horizontales, entre funciones y disciplinas; . externas, con suministradores, clientes, empresas y otros stakeholders; . y geográficas, con naciones, culturas y mercados.

20

La Minería de Datos se centra en la búsqueda de patrones interesantes y regularidades importantes en grandes bases de datos

MINERIA DE DATOS

21

Supuestos de la Minería de Datos

• El pasado es un buen descriptor y predictor del futuro

• Hay datos disponibles

• Los datos contienen lo que queremos describir o predecir

22

• El aumento del volumen y variedad de información que se encuentran en bases de datos digitales ha crecido espectacularmente en la última década.

• Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido (bitácoras).

• Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura.

Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos

23

La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muy diversas.

Las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana.

El área de la extracción automática de conocimiento de bases de datos ha adquirido recientemente una

importancia científica y económica inusual

24

• Tamaño de datos poco habitual para algoritmos clásicos:• número de registros (ejemplos) muy largo (108-1012 bytes).• datos altamente dimensionales (nº de columnas/atributos):

102-104.• El usuario final no es un experto en aprendizaje automático ni

en estadística. • El usuario no puede perder más tiempo analizando los datos:

• industria: ventajas competitivas, decisiones más efectivas.• ciencia: datos nunca analizados, bancos no cruzados, etc.

Los sistemas clásicos de estadística son difíciles de usar y no

escalan al número de datos típicos en bases de datos.

25

• “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases).

“proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a

partir de los datos”. Fayyad et al. 1996• Diferencia clara con métodos estadísticos: la estadística se

utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo.

• Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el análisis de los datos.

26

KDD nace como interfaz y se nutre de diferentes disciplinas:

• estadística.

• sistemas de información / bases de datos.

• aprendizaje automático / Inteligencia Artificial.

• visualización de datos.

• computación paralela / distribuida.

• interfaces de lenguaje natural a bases de datos.

27

La minería o prospección de datos (DM) no es más que una fase del KDD:

• Fase que integra los métodos de aprendizaje y métodos estadísticos para obtener hipótesis de patrones y modelos.

• Al ser la fase de generación de hipótesis, vulgarmente se asimila al KDD con DM.

• Además, las connotaciones de aventura y de dinero fácil del término “minería de datos” han hecho que éste se use como identificador del área.

28

La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing).

La minería de datos aspira a más

29

Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como:

“¿Han subido las ventas del producto X en junio?” “¿Las ventas del producto X bajan cuando promocionamos el

producto Y?”Pero sólo con técnicas de minería de datos podremos responder a

preguntas del estilo:“¿Qué factores influyen en las ventas del producto X?”

“¿Cuál será el producto más vendido si abrimos una sucursal en Chiclayo?

30

• Visión con las herramientas tradicionales:• El analista empieza con una pregunta, una suposición o

simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo.

• Visión con la minería de datos:• Aunque el analista no pierde la posibilidad de proponer modelos,

el sistema encuentra y sugiere modelos.

Ventajas: Generar un modelo requiere menos esfuerzo manual y permite

evaluar cantidades ingentes de datos. Se pueden evaluar muchos modelos generados automáticamente,

y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formación sobre construcción de

modelos y menos experiencia.

31

El descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD). Se refiere a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de ellas.

El Proceso del KDD

32

El Proceso del KDD. FASES

1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.

2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida.

3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados.

4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos).

5. Seleccionar y aplicar el método de minería de datos apropiado.

6. Evaluación, interpretación, transformación y representación de los patrones extraídos.

7. Difusión y uso del nuevo conocimiento.

33

La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten:

Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos.

Extraer patrones y tendencias para predecir comportamientos futuros.

Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.

Minería de Datos

34

La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que:

no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente.

la minería de datos “analiza” los datos

Minería de Datos

35

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple fichero de

datos.

Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

¿Es necesario tener almacenes de datos para realizar minería de datos?

36

Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos.

Un modelo predictivo responde preguntas sobre datos futuros.

• ¿Cuáles serán las ventas el año próximo? • ¿Es ésta transacción fraudulenta? • ¿Qué tipo de seguro es más probable que contrate el cliente

X?• ¿Cuántos clientes nuevos habrán en este mes?

Tipología de Técnicas de Minería de Datos

37

Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo:

• Los clientes que compran pañales suelen comprar cerveza.• El tabaco y el alcohol son los factores más importantes en la

enfermedad Y.• Los clientes sin televisión y con bicicleta tienen

características muy diferenciadas del resto.

Tipología de Técnicas de Minería de Datos

38

Tipos de conocimiento

Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta.

Ejemplo, en un supermercado se analiza si los pañales y los biberones de bebé se compran conjuntamente.

39


Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en

maternidad determina su sexo.

La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio.

40


Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que

los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria.

Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.

41


Agrupamiento/Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos.

Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.

42


Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, generalmente el tiempo. Ejemplo, se intenta predecir el número de clientes o

pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores.

Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidad para establecer otros patrones más generales.

43

¿Qué es aprendizaje?• (visión genérica, Mitchell 1997) es mejorar el comportamiento a

partir de la experiencia. Aprendizaje = Inteligencia.• (visión más estática) es la identificación de patrones, de

regularidades, existentes en la evidencia.• (visión externa) es la predicción de observaciones futuras con

plausibilidad.• (visión teórico-informacional, Solomonoff 1966) es eliminación de

redundancia = compresión de información.

El Problema de la Extracción Automática de Conocimiento

La minería de datos no es más que un caso especial de aprendizaje computacional inductivo.

Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.

44

Taxonomía Técnicas de Minería de Datos

Data Mining

Discovery Driven DMVerification Driven DM

SQL SQL Generator

Query Tools

OLAP

Description Prediction

Classification StatisticalRegression

Decision Tree

Rule Induction

Neural Network

Visualization

Clustering

Association

Sequential Association

Distillation

45

DESCRIPTIVO: Análisis Exploratorio

• Técnicas:• Estudios correlacionales • Asociaciones.• Dependencias.• Detección datos anómalos.• Análisis de dispersión.

Taxonomía de Técnicas de DM

46

DESCRIPTIVO: Segmentación (Aprendizaje no supervisado)

• Técnicas de clustering:

• k-means (competitive learning).• SOM: redes neuronales de Kohonen• EM (Estimated Means) (Dempster et al. 1977).• Cobweb (Fisher 1987).• AUTOCLASS• …


47

PREDICTIVO: Interpolación y Predicción Secuencial.

• Generalmente las mismas técnicas:• Datos continuos (reales):

• Regresión Lineal: • Regresión lineal global (clásica).• Regresión lineal ponderada localmente.

• Regresión No Lineal: logarítmica, pick & mix, ...• Datos discretos:

• No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos.


48

PREDICTIVO: Aprendizaje supervisado.

Dependiendo de si se estima una función o una correspondencia:

• clasificación: se estima una función (las clases son disjuntas).

• categorización: se estima una correspondencia (las clases pueden solapar).


49

Dependiendo del número y tipo de clases:• clase discreta: se conoce como “clasificación”.

Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres.

• si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno.

• clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”).

Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias.


50

PREDICTIVO: Aprendizaje supervisado (Clasificación).

• Técnicas:

• k-NN (Nearest Neighbor).• k-means (competitive learning).• Perceptron Learning.• Multilayer ANN methods (e.g. backpropagation).• Radial Basis Functions.


51

PREDICTIVO: Aprendizaje supervisado (Clasificación).

• Técnicas:

• Arboles de Decisión (p.ej. ID3, C4.5, CART).• Clasificadores Bayesianos• Center Splitting Methods.• Reglas (CN2)• Pseudo-relacional: Supercharging, Pick-and-Mix.• Relacionales: ILP, IFLP, SCIL.


52

Áreas de Aplicación:• Toma de Decisiones (banca-finanzas-seguros,

márketing, políticas sanitarias/demográficas, ...)• Procesos Industriales (componentes químicos,

compuestos, mezclas, esmaltes, procesos, etc.)• Investigación Científica (medicina, astronomía,

meteorología, psicología, ...). Aquí la eficiencia no es tan importante.

Áreas de Aplicación

Más importante industrialmente

53

• Soporte al Diseño de Bases de Datos. • Reverse Engineering (dados una base de datos,

desnormalizarla para que luego el sistema la normalice). • Mejora de Calidad de Datos.• Mejora de Consultas (si se descubren dependencias

funcionales nuevas u otras condiciones evitables).

Áreas de Aplicación

54

Comercio/Marketing: - Identificar patrones de compra de los clientes. - Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing. - Análisis de cestas de la compra.

Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de históricos.

Áreas de Aplicación. Problemas Tipo

55

Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente.

- Predecir qué clientes compran nuevas pólizas.

- Identificar patrones de comportamiento para clientes con riesgo.

- Identificar comportamiento fraudulento.

Transportes: - Determinar la planificación de la distribución entre tiendas.

- Analizar patrones de carga.


56

Medicina:- Identificación de terapias médicas satisfactorias para diferentes

enfermedades.- Asociación de síntomas y clasificación diferencial de patologías.- Estudio de factores (genéticos, precedentes, hábitos, alimenticios,

etc.) de riesgo/salud en distintas patologías.- Segmentación de pacientes para una atención más inteligente según

su grupo.- Predicciones temporales de los centros asistenciales para el mejor

uso de recursos, consultas, salas y habitaciones.- Estudios epidemiológicos, análisis de rendimientos de campañas de

información, prevención, sustitución de fármacos, etc.


57

- Extracción de modelos sobre comportamiento de compuestos.

- Detección de piezas con trabas.- Predicción de fallos- Modelos de calidad.- Estimación de composiciones óptimas en mezclas.- Extracción de modelos de coste.- Extracción de modelos de producción.- Simulación costes/beneficios según niveles de calidad


58

Sistemas

59

Tipos de Sistemas: Standalone: Los datos se deben exportar/convertir al

formato interno del sistema de DM: Knowledge Seeker IV (Angoss International Limited, Groupe Bull).

On-top: Pueden funcionar sobre un sistema propietario (Clementine sobre ODBC, microstrategy sobre Oracle).

Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM...

Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de interfaz con los datos, estadísticas y visualización, y los algoritmos de aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER).

60

Producto Compañía Técnicas Plataformas Interfaz

Knowledge Seeker Angoss http://www.angoss.com/

Decision Trees, Statistics Win NT ODBC

CART Salford Systems www.salford-systems.com

Decision Trees UNIX/NT

Clementine

SPSS/Integral Solutions Limited (ISL) www.spss.com

Decision Trees, ANN, Statistics, Rule Induction, Association Rules, K Means, Linear Regression.

UNIX/NT ODBC

Data Surveyor Data Distilleries http://www.datadistilleries.com/

Amplio Abanico. UNIX ODBC

GainSmarts Urban Science www.urbanscience.com

Especializado en gráficos de ganancias en campañas de clientes (sólo Decision Trees, Linear Statistics y Logistic Regression).

UNIX/NT

Intelligent Miner IBM http://www.ibm.com/software/data/iminer

Decision Trees, Association Rules, ANN, RBF, Time Series, K Means, Linear Regression.

UNIX (AIX) IBM, DB2

Microstrategy Microstrategy www.microstrategy.com

Datawarehouse sólo Win NT Oracle

Polyanalyst Megaputer http://www.megaputer.com/html/polyanalyst4.0.html

Symbolic, Evolutionary Win NT Oracle, ODBC

Darwin Oracle http://www.oracle.com/ip/analyze/warehouse/datamining/index.html

Amplio Abanico (Decision Trees, ANN, Nearest Neighbour)

UNIX/NT Oracle

Enterprise Miner SAS http://www.sas.com/software/components/miner.html

Decision Trees, Association rules, ANN, regression, clustering.

UNIX (Sun), NT, Mac

Oracle, ODBC

SGI MineSet Silicon Graphics http://www.sgi.com/software/mineset/

association rules and classification models, used for prediction, scoring, segmentation, and profiling

UNIX (Irix) Oracle, Sybase, Informix.

Wizsoft/Wizwhy http://www.wizsoft.com/

Sistemas

61

MUCHAS GRACIAS

DR. NICOLAS KEMPER VALVERDELaboratorio de Sistemas Inteligentes

CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICOUniversidad Nacional Autónoma de México

e-mail: [email protected]

Minería de Datos como Herramienta para la Gestión Moderna

Documents

Transcript of Minería de Datos como Herramienta para la Gestión Moderna