● Introducción
● KDD: Proceso de Extracción de conocimiento
● Procesos de un proyecto de minería de datos
● Técnicas de minería de datos
● Ciclo de un Proyecto de Minería de Datos
Índice
● La minería de datos (DM, Data Mining) consiste en la
extracción no trivial de información que reside de
manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para
algún proceso. En otras palabras, la minería de datos
prepara, sondea y explora los datos para sacar la
información oculta en ellos.
¿Qué es la Minería de Datos?
Fuente: wikipedia
● Deducir conocimiento examinando los datos y realizando
predicciones
○ «examinar datos» examinar ejemplos de hechos conocidos
sobre «casos» utilizando sus atributos – «variables»
○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de
Decisión, Redes Neuronales, Reglas de Asociación,….
● OLAP: Análisis orientado al modelo
● DM: Análisis orientado al dato
● Nombres alternativos: Análisis Predictivo
¿Qué es la Minería de Datos?
● La minería de datos (es la etapa de análisis de "Knowledge Discovery in
Databases" o KDD)
● Proceso de detectar la información procesable de los conjuntos
grandes de datos.
● Utiliza el análisis matemático para deducir los patrones y tendencias
que existen en los datos.
● Estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.
● Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos.
¿Qué es la Minería de Datos?
KDD: Proceso de Extracción de conocimiento
Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos
2. Preprocesamiento
3. Transformación
4. Data Mining
5. Interpretación y Evaluación
Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.
3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.
KDD: Proceso de Extracción de conocimiento
Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:● Comprensión del negocio y del problema que se quiere
resolver.● Determinación, obtención y limpieza de los datos
necesarios.● Creación de modelos matemáticos.● Validación, comunicación, etc. de los resultados
obtenidos.● Integración, si procede, de los resultados en un
sistema transaccional o similar.
Procesos de un proyecto de minería de datos
● La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme.
Procesos de un proyecto de minería de datos
● Generación de Recomendaciones○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros
clientes?● Detección de anomalías
○ Detección de fraude● Análisis de Rotación
○ ¿Qué clientes son más proclives de irse a la competencia?● Gestión de Riesgos
○ ¿Debería de concederse el crédito?● Segmentación de clientes
○ Clasificación de nuestros clientes● Anuncios Orientados
○ Personalización de anuncios, contenido,…
Procesos de un proyecto de minería de datos
● Previsión○ ¿Cuánto venderemos el próximo semestre?
● Clasificación○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de
atributos uno de ellos es el atributo clase.○ Se busca un modelo que describa el atributo clase como una función de los
atributos de salida● Agrupación
○ También conocido como segmentación○ Identifica grupos naturales basándose en un conjunto de atributos
● Asociación○ También conocido como análisis de cesta de la compra
● Regresión○ Similar a clasificación pero con el objetivo de buscar patrones para determinar
un valor numérico○ Ej.: Predicción de la velocidad del viento basada en temperatura presión de
aire y humedad
Procesos de un proyecto de minería de datos
Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Técnicas de minería de datos
Las técnicas más representativas son● Redes neuronales
● Árboles de decisión
● Modelos estadísticos
● Agrupamiento o Clustering
● Algoritmos supervisados (o predictivos)
● Algoritmos no supervisados (o del descubrimiento
del conocimiento)
Técnicas de minería de datos
Redes neuronalesSon un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:● El Perceptrón● El Perceptrón multicapa. ● Los Mapas Autoorganizados, también conocidos como
redes de Kohonen.
Técnicas de minería de datos
Árboles de decisiónUn árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.Ejemplos:● Algoritmo ID3.● Algoritmo C4.5.
Técnicas de minería de datos
Modelos estadísticos● Es una expresión simbólica en forma de
igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
Técnicas de minería de datos
Agrupamiento o ClusteringEs un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.Ejemplos:● Algoritmo K-means.● Algoritmo K-medoids.
Técnicas de minería de datos
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):● Algoritmos supervisados (o predictivos)
○ Predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
● Algoritmos no supervisados (o del descubrimiento del
conocimiento)
○ Se descubren patrones y tendencias en los datos.
Técnicas de minería de datos
Técnicas de minería de datosEjemploComprador potencial de bicis:
Provincia Ciudad Edad Coche Distancia trabajo Bici