Minería de Datos como Herramienta para la Gestión Moderna
description
Transcript of Minería de Datos como Herramienta para la Gestión Moderna
1
Minería de Datos como Minería de Datos como Herramienta para la Gestión Herramienta para la Gestión
ModernaModerna
DR. NICOLAS KEMPER VALVERDELaboratorio de Sistemas Inteligentes
CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICOUNIVERSIDAD NACIONAL AUTONOMA DE MEXICO
e-mail: [email protected]
2
Gestión Moderna: Contexto de los negocios
• Globalización
• Competencia
• Ventajas competitivas
• Tecnología
• Cambio
• Cultura organizacional
• Distancias geográficas e Internet
3
Gestión Moderna: Contexto de los negocios
•Economía del conocimiento
•Administración de la relación con clientes
• Campañas de publicidad
• Mejoramiento de procesos
• Diseño de producto
• Investigación de mercados
• Investigación de productos
4
Tipos de Empresas
Manufactureras Tarjetas de CréditoServicios Medios: TV, radio, prensaGobierno Telefonía fija y móvilBancarias MedicinaBursátiles FarmacéuticasSeguros Minoristas
5
Gestión Moderna:
Implantar Ventajas Competitivas
6
Datos
Conocimiento Información
Símbolos
Expertise Competencia
Competencia y conocimiento
7
Ventaja competitiva
• Aprender sobre los clientes
• Utilizar lo aprendido sobre los clientes para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
8
Ventaja competitiva
• Aprender sobre los competidores
• Utilizar lo aprendido sobre los competidores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
9
Ventaja competitiva
• Aprender sobre los proveedores
• Utilizar lo aprendido sobre los proveedores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
10
Ventaja competitiva
• Aprender sobre los procesos internos
• Utilizar lo aprendido sobre los procesos internos para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
11
¿Qué hacer para adquirir ventajas competitivas?
• Comprar los resultados:
• Comprar el software y los modelos:
• Contratar consultores
• Desarrollar la expertisia internamente
12
Inteligencia de Negocios y MD
Negocios
Inteligencia de Negocios
Administración del Conocimiento
Minería de datosOLAP
13
Negocios: Establecimiento de metas concretas
•Incremento de las ventas en un 30% en productos de baja rotación en los próximos 10 meses
•Reducir de 2 a 1% el número de clientes premier que se pueden ir a la competencia en este trimestre (retención de clientes)
•Encontrar las características demográficas de los clientes de un nuevo producto (predicción de demanda )
14
Negocios: Establecimiento de metas concretas
•Detección de fraudes en tarjetas de crédito
•Estrategia de las promociones en una sala de venta al por menor
•Encontrar patrones de enfermedades
• Establecer estrategias para el ahorro de energía
15
Escoger bien el problema del negocio
Tener los datos apropiados (cantidad y calidad)
Otros: •habilidades de modelación•herramienta interactiva•medios de visualización
Factores de Éxito
16
Inteligencia de NegociosEl flujo de información y conocimiento en una empresa es actualmente muy importante si se quiere mantener una posición fuerte en el mercado, sin embargo, la gran mayoría de las organizaciones tienen una abundancia de datos, pero muy poco conocimiento explicito.
La Inteligencia de Negocios, es un concepto que trata de englobar todos los sistemas de información de una organización para obtener de ellos no solo información o conocimiento, si no una verdadera inteligencia que le confiera a la organización una ventaja competitiva por sobre sus competidores.
El éxito de un negocio depende de que tan bien conozca a sus clientes, que tan bien entienda sus procesos internos y que tan efectivo sea para realizar todas sus operaciones
17
Inteligencia de NegociosLa Inteligencia de Negocios se compone de todas las actividades relacionadas a la organización y entrega de información así como el análisis del negocio.
Data Warehousing y Data Marts, Sistemas de almacén de datos. Aplicaciones analíticas. Data Mining, herramientas para minería de datos. OLAP, herramientas de procesamiento analítico de datos. Herramientas de consulta y reporte de datos. Herramientas de producción de reportes personalizados. ELT, herramientas de extracción, traducción y carga de datos. Herramientas de administración de sistemas. Portales de información empresarial. Sistemas de base de datos. Sistemas de administración del conocimiento.
18
Administración del Conocimiento
Manejo de la información para generar conocimiento, abarcando todos los recursos intelectuales de una organización en todos los niveles de responsabilidad.
Así mismo, la Gestión de Conocimiento ayuda a obtener mayor comprensión y entendimiento del entorno y de los procesos desde la propia experiencia en las personas y organizaciones.
19
Administración del ConocimientoAnte este reto, se plantea la necesidad de alcanzar una forma de organización que rompa los límites tradicionales.
Una organización con estructuras más flexibles que supere los cuatro tipos de fronteras más frecuentes: . verticales o jerárquicas, entre personas; . horizontales, entre funciones y disciplinas; . externas, con suministradores, clientes, empresas y otros stakeholders; . y geográficas, con naciones, culturas y mercados.
20
La Minería de Datos se centra en la búsqueda de patrones interesantes y regularidades importantes en grandes bases de datos
MINERIA DE DATOS
21
Supuestos de la Minería de Datos
• El pasado es un buen descriptor y predictor del futuro
• Hay datos disponibles
• Los datos contienen lo que queremos describir o predecir
22
• El aumento del volumen y variedad de información que se encuentran en bases de datos digitales ha crecido espectacularmente en la última década.
• Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido (bitácoras).
• Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura.
Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos
23
La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muy diversas.
Las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana.
El área de la extracción automática de conocimiento de bases de datos ha adquirido recientemente una
importancia científica y económica inusual
24
• Tamaño de datos poco habitual para algoritmos clásicos:• número de registros (ejemplos) muy largo (108-1012 bytes).• datos altamente dimensionales (nº de columnas/atributos):
102-104.• El usuario final no es un experto en aprendizaje automático ni
en estadística. • El usuario no puede perder más tiempo analizando los datos:
• industria: ventajas competitivas, decisiones más efectivas.• ciencia: datos nunca analizados, bancos no cruzados, etc.
Los sistemas clásicos de estadística son difíciles de usar y no
escalan al número de datos típicos en bases de datos.
25
• “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases).
“proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a
partir de los datos”. Fayyad et al. 1996• Diferencia clara con métodos estadísticos: la estadística se
utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo.
• Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el análisis de los datos.
26
KDD nace como interfaz y se nutre de diferentes disciplinas:
• estadística.
• sistemas de información / bases de datos.
• aprendizaje automático / Inteligencia Artificial.
• visualización de datos.
• computación paralela / distribuida.
• interfaces de lenguaje natural a bases de datos.
27
La minería o prospección de datos (DM) no es más que una fase del KDD:
• Fase que integra los métodos de aprendizaje y métodos estadísticos para obtener hipótesis de patrones y modelos.
• Al ser la fase de generación de hipótesis, vulgarmente se asimila al KDD con DM.
• Además, las connotaciones de aventura y de dinero fácil del término “minería de datos” han hecho que éste se use como identificador del área.
28
La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing).
La minería de datos aspira a más
29
Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como:
“¿Han subido las ventas del producto X en junio?” “¿Las ventas del producto X bajan cuando promocionamos el
producto Y?”Pero sólo con técnicas de minería de datos podremos responder a
preguntas del estilo:“¿Qué factores influyen en las ventas del producto X?”
“¿Cuál será el producto más vendido si abrimos una sucursal en Chiclayo?
30
• Visión con las herramientas tradicionales:• El analista empieza con una pregunta, una suposición o
simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo.
• Visión con la minería de datos:• Aunque el analista no pierde la posibilidad de proponer modelos,
el sistema encuentra y sugiere modelos.
Ventajas: Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos. Se pueden evaluar muchos modelos generados automáticamente,
y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formación sobre construcción de
modelos y menos experiencia.
31
El descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD). Se refiere a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de ellas.
El Proceso del KDD
32
El Proceso del KDD. FASES
1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.
2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida.
3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados.
4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos).
5. Seleccionar y aplicar el método de minería de datos apropiado.
6. Evaluación, interpretación, transformación y representación de los patrones extraídos.
7. Difusión y uso del nuevo conocimiento.
33
La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten:
Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos.
Extraer patrones y tendencias para predecir comportamientos futuros.
Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.
Minería de Datos
34
La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que:
no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente.
la minería de datos “analiza” los datos
Minería de Datos
35
Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple fichero de
datos.
Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.
¿Es necesario tener almacenes de datos para realizar minería de datos?
36
Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.
• ¿Cuáles serán las ventas el año próximo? • ¿Es ésta transacción fraudulenta? • ¿Qué tipo de seguro es más probable que contrate el cliente
X?• ¿Cuántos clientes nuevos habrán en este mes?
Tipología de Técnicas de Minería de Datos
37
Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo:
• Los clientes que compran pañales suelen comprar cerveza.• El tabaco y el alcohol son los factores más importantes en la
enfermedad Y.• Los clientes sin televisión y con bicicleta tienen
características muy diferenciadas del resto.
Tipología de Técnicas de Minería de Datos
38
Tipos de conocimiento
Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta.
Ejemplo, en un supermercado se analiza si los pañales y los biberones de bebé se compran conjuntamente.
39
Tipos de conocimiento
Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en
maternidad determina su sexo.
La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio.
40
Tipos de conocimiento
Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que
los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria.
Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.
41
Tipos de conocimiento
Agrupamiento/Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos.
Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.
42
Tipos de conocimiento
Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, generalmente el tiempo. Ejemplo, se intenta predecir el número de clientes o
pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores.
Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidad para establecer otros patrones más generales.
43
¿Qué es aprendizaje?• (visión genérica, Mitchell 1997) es mejorar el comportamiento a
partir de la experiencia. Aprendizaje = Inteligencia.• (visión más estática) es la identificación de patrones, de
regularidades, existentes en la evidencia.• (visión externa) es la predicción de observaciones futuras con
plausibilidad.• (visión teórico-informacional, Solomonoff 1966) es eliminación de
redundancia = compresión de información.
El Problema de la Extracción Automática de Conocimiento
La minería de datos no es más que un caso especial de aprendizaje computacional inductivo.
Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.
44
Taxonomía Técnicas de Minería de Datos
Data Mining
Discovery Driven DMVerification Driven DM
SQL SQL Generator
Query Tools
OLAP
Description Prediction
Classification StatisticalRegression
Decision Tree
Rule Induction
Neural Network
Visualization
Clustering
Association
Sequential Association
Distillation
45
DESCRIPTIVO: Análisis Exploratorio
• Técnicas:• Estudios correlacionales • Asociaciones.• Dependencias.• Detección datos anómalos.• Análisis de dispersión.
Taxonomía de Técnicas de DM
46
DESCRIPTIVO: Segmentación (Aprendizaje no supervisado)
• Técnicas de clustering:
• k-means (competitive learning).• SOM: redes neuronales de Kohonen• EM (Estimated Means) (Dempster et al. 1977).• Cobweb (Fisher 1987).• AUTOCLASS• …
Taxonomía de Técnicas de DM
47
PREDICTIVO: Interpolación y Predicción Secuencial.
• Generalmente las mismas técnicas:• Datos continuos (reales):
• Regresión Lineal: • Regresión lineal global (clásica).• Regresión lineal ponderada localmente.
• Regresión No Lineal: logarítmica, pick & mix, ...• Datos discretos:
• No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos.
Taxonomía de Técnicas de DM
48
PREDICTIVO: Aprendizaje supervisado.
Dependiendo de si se estima una función o una correspondencia:
• clasificación: se estima una función (las clases son disjuntas).
• categorización: se estima una correspondencia (las clases pueden solapar).
Taxonomía de Técnicas de DM
49
Dependiendo del número y tipo de clases:• clase discreta: se conoce como “clasificación”.
Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres.
• si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno.
• clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”).
Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias.
Taxonomía de Técnicas de DM
50
PREDICTIVO: Aprendizaje supervisado (Clasificación).
• Técnicas:
• k-NN (Nearest Neighbor).• k-means (competitive learning).• Perceptron Learning.• Multilayer ANN methods (e.g. backpropagation).• Radial Basis Functions.
Taxonomía de Técnicas de DM
51
PREDICTIVO: Aprendizaje supervisado (Clasificación).
• Técnicas:
• Arboles de Decisión (p.ej. ID3, C4.5, CART).• Clasificadores Bayesianos• Center Splitting Methods.• Reglas (CN2)• Pseudo-relacional: Supercharging, Pick-and-Mix.• Relacionales: ILP, IFLP, SCIL.
Taxonomía de Técnicas de DM
52
Áreas de Aplicación:• Toma de Decisiones (banca-finanzas-seguros,
márketing, políticas sanitarias/demográficas, ...)• Procesos Industriales (componentes químicos,
compuestos, mezclas, esmaltes, procesos, etc.)• Investigación Científica (medicina, astronomía,
meteorología, psicología, ...). Aquí la eficiencia no es tan importante.
Áreas de Aplicación
Más importante industrialmente
53
• Soporte al Diseño de Bases de Datos. • Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la normalice). • Mejora de Calidad de Datos.• Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
Áreas de Aplicación
54
Comercio/Marketing: - Identificar patrones de compra de los clientes. - Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing. - Análisis de cestas de la compra.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de históricos.
Áreas de Aplicación. Problemas Tipo
55
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente.
- Predecir qué clientes compran nuevas pólizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
Transportes: - Determinar la planificación de la distribución entre tiendas.
- Analizar patrones de carga.
Áreas de Aplicación. Problemas Tipo
56
Medicina:- Identificación de terapias médicas satisfactorias para diferentes
enfermedades.- Asociación de síntomas y clasificación diferencial de patologías.- Estudio de factores (genéticos, precedentes, hábitos, alimenticios,
etc.) de riesgo/salud en distintas patologías.- Segmentación de pacientes para una atención más inteligente según
su grupo.- Predicciones temporales de los centros asistenciales para el mejor
uso de recursos, consultas, salas y habitaciones.- Estudios epidemiológicos, análisis de rendimientos de campañas de
información, prevención, sustitución de fármacos, etc.
Áreas de Aplicación. Problemas Tipo
57
- Extracción de modelos sobre comportamiento de compuestos.
- Detección de piezas con trabas.- Predicción de fallos- Modelos de calidad.- Estimación de composiciones óptimas en mezclas.- Extracción de modelos de coste.- Extracción de modelos de producción.- Simulación costes/beneficios según niveles de calidad
Áreas de Aplicación. Problemas Tipo
58
Sistemas
59
Tipos de Sistemas: Standalone: Los datos se deben exportar/convertir al
formato interno del sistema de DM: Knowledge Seeker IV (Angoss International Limited, Groupe Bull).
On-top: Pueden funcionar sobre un sistema propietario (Clementine sobre ODBC, microstrategy sobre Oracle).
Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM...
Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de interfaz con los datos, estadísticas y visualización, y los algoritmos de aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER).
60
Producto Compañía Técnicas Plataformas Interfaz
Knowledge Seeker Angoss http://www.angoss.com/
Decision Trees, Statistics Win NT ODBC
CART Salford Systems www.salford-systems.com
Decision Trees UNIX/NT
Clementine
SPSS/Integral Solutions Limited (ISL) www.spss.com
Decision Trees, ANN, Statistics, Rule Induction, Association Rules, K Means, Linear Regression.
UNIX/NT ODBC
Data Surveyor Data Distilleries http://www.datadistilleries.com/
Amplio Abanico. UNIX ODBC
GainSmarts Urban Science www.urbanscience.com
Especializado en gráficos de ganancias en campañas de clientes (sólo Decision Trees, Linear Statistics y Logistic Regression).
UNIX/NT
Intelligent Miner IBM http://www.ibm.com/software/data/iminer
Decision Trees, Association Rules, ANN, RBF, Time Series, K Means, Linear Regression.
UNIX (AIX) IBM, DB2
Microstrategy Microstrategy www.microstrategy.com
Datawarehouse sólo Win NT Oracle
Polyanalyst Megaputer http://www.megaputer.com/html/polyanalyst4.0.html
Symbolic, Evolutionary Win NT Oracle, ODBC
Darwin Oracle http://www.oracle.com/ip/analyze/warehouse/datamining/index.html
Amplio Abanico (Decision Trees, ANN, Nearest Neighbour)
UNIX/NT Oracle
Enterprise Miner SAS http://www.sas.com/software/components/miner.html
Decision Trees, Association rules, ANN, regression, clustering.
UNIX (Sun), NT, Mac
Oracle, ODBC
SGI MineSet Silicon Graphics http://www.sgi.com/software/mineset/
association rules and classification models, used for prediction, scoring, segmentation, and profiling
UNIX (Irix) Oracle, Sybase, Informix.
Wizsoft/Wizwhy http://www.wizsoft.com/
Sistemas
61
MUCHAS GRACIAS
DR. NICOLAS KEMPER VALVERDELaboratorio de Sistemas Inteligentes
CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICOUniversidad Nacional Autónoma de México
e-mail: [email protected]