mineria de datos
-
Upload
washington-bastidas -
Category
Technology
-
view
6.468 -
download
0
Transcript of mineria de datos
DATA WAREHOUSE & DATA MINING
http://www.espol.edu.ec
INTEGRANTESINTEGRANTES
Bastidas Santos Washington Raúl
López Serrano Silvio Stephan
Montiel Salazar Marcos Xavier
DATA WAREHOUSE
INTRODUCCIÓNINTRODUCCIÓN
DW es una tecnología construida para optimizar el uso y análisis de información utilizado por las organizaciones para adaptarse a los cambios en los mercados.
Su función esencial es ser la base de un sistema de información gerencial. Debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas.
Se caracteriza por ser integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza
DATA WAREHOUSEDATA WAREHOUSE
DETALLESDETALLES
El DW se encuentra normalmente implementado dentro de una arquitectura de cliente/servidor.
Por la complejidad de los DW es común utilizar middleware entre los clientes y los servidores dando una arquitectura de 3 niveles (three tier).
ARQUITECTURAARQUITECTURA
Online Transaction Processing (OLTP) Consolidación Middleware Online Analytical Process (OLAP) Data Marts
OLTPOLTP
Consultas rápidas, escuetas y predecibles
Poco volumen de información e información disgregada
Transacciones rápidas Gran nivel de concurrencia Modo de actualización on-line Baja redundancia de datos
Consolidación Se encarga de producir el cambio de los sistemas
OLTP a las Bases de Datos OLAP. (comprobar validez, consistencia, actualización, propagación datos)
Middleware Es un término genérico que se utiliza para referirse a
todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas
OLAPOLAP
Estructura de datos transparente al usuario Solo Consulta, trabajan sobre la información
operacional generada por los sistemas OLTP Consultas sobre grandes volúmenes de
datos no predecibles Información histórica Modo de actualización Batch Alta redundancia de datos para facilitar la
generación de consultas y obtener buenos tiempos de respuesta
Poderoso Back-end analítico para múltiples aplicaciones de usuarios
TIPOS DE SISTEMAS TIPOS DE SISTEMAS OLAPOLAP
ROLAPMotor relacional. Datos
detallados, tablas normalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve
MOLAPBase de datos
multidimensional. el resumen de la información es usualmente calculado por adelantado.
HOLAP (Hybrid OLAP)Almacena algunos datos en
un motor relacional y otros en una base de datos multidimensional
DATA MARTSDATA MARTS
DATA MARTSDATA MARTS
Es una versión especial de DW El Data Mart es un sistema orientado a la
consulta, en el que se producen procesos batch de carga de datos.
Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información.
Sobre estas bases de datos se pueden construir EIS y DSS.
Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil.
IMPLEMENTACIONES DE IMPLEMENTACIONES DE DWDW
DW central: un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa.
DW distribuido: estructura de un solo nivel que se particiona para distribuirlo a nivel departamental.
DW de dos niveles: soporta requerimientos de información tanto a nivel empresarial como departamental.
Extract, Transform and Extract, Transform and Load (ETL)Load (ETL)
EXTRACT, TRANSFORM AND EXTRACT, TRANSFORM AND LOAD (ETL)LOAD (ETL)
Extraer los datos desde los sistemas de origen (Normalmente en DB relacionales). Debe causar un impacto mínimo.
Transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados.
Carga los datos de la fase anterior en el sistema de destino. Se aplicarán todas las restricciones y triggers definidos.
ETL – PROCESAMIENTO ETL – PROCESAMIENTO PARALELOPARALELO
De datos: dividir un único archivo secuencial en pequeños archivos de datos.
De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos.
De componente: funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo.
ESQUEMA EN ESTRELLAESQUEMA EN ESTRELLA
• Modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las dimensiones estas tiene una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las demás.
ESQUEMA EN COPO DE ESQUEMA EN COPO DE NIEVENIEVE
Un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos
DATAWAREHOUSE – DATA DATAWAREHOUSE – DATA MININGMINING
DATA WAREHOUSEDATA WAREHOUSE
EXECUTIVE INFORMATION EXECUTIVE INFORMATION SYSTEM (EIS)SYSTEM (EIS)
Herramienta orientada a usuarios de nivel gerencial.
Permite a usuarios con perfil no técnico construir nuevos informes y navegar por los datos de la compañía para descubrir información relevante.
Provee acceso instantáneo al estado de los indicadores de negocio que le afectan.
DECISION SUPPORT DECISION SUPPORT SYSTEM (DSS)SYSTEM (DSS)
Sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones, realizando análisis de las diferentes variables del negocio.
Capacidad de análisis multidimensional (OLAP) que permite profundizar en la información hasta llegar a un alto nivel de detalle
DATA MINING
INTRODUCCIONINTRODUCCION
Proceso de extraer conocimiento útil y comprensible, previamente desconocido (Witten y Frank, 2000)
Que no es? Data warehousing SQL / Ad Hoc
Queries / Reporting
Software Agents Online Analytical
Processing (OLAP) Data Visualization
“Rico en datos, Pobre en información”
Conocimiento(patrones interesantes)
POR QUÉ MINERÍA DE POR QUÉ MINERÍA DE DATOS?DATOS?
Gran cantidad de datos para analizar de forma clásica
¿Cómo explorar millones de registros, decenas o cientos de campos, y encontrar patrones?
QUERY
RESULT
(Latitude, Longitude)1
(Latitude, Longitude)2
Knowledge Discovery in Knowledge Discovery in DatabasesDatabases
Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996
Computational Knowledge Discovery
QUÉ TIPOS DE DATOSQUÉ TIPOS DE DATOS??
Data Warehouses Base de Datos
Transaccionales Sistemas de Base
de Datos Avanzado: Objetos
Relacionales Temporales y
Espaciales Serie de Tiempo Multimedia, Texto WWW
Structure - 3D Anatomy
Function – 1D Signal
Metadata – Annotation
MULTIPLES MULTIPLES DISCIPLINASDISCIPLINAS
?
20x20 ~ 2^400 10^120 patterns
CLASIFICACIÓN DE CLASIFICACIÓN DE ALGORITMOSALGORITMOS
CLASIFICACIÓNCLASIFICACIÓN
Encuentra modelos que describen y distinguen clases o conceptos.
El objetivo es describir los datos o para hacer el futuro de predicción.
Árbol de decisiones, la clasificación general, redes neuronales.
EJEMPLO CLASIFICACIÓNEJEMPLO CLASIFICACIÓN
Tid Refund MaritalStatus
TaxableIncome Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes10
cate
goria
cate
goria
Continuo
clas
e
Refund MaritalStatus
TaxableIncome Cheat
No Single 75K ?
Yes Married 50K ?
No Married 150K ?
Yes Divorced 90K ?
No Single 40K ?
No Married 80K ?10
Test SetTest Set
Training Set
ModeloModeloClasifica-
dor
REPRESENTACIÓNREPRESENTACIÓN: : ÁRBOL DE DECISIONESÁRBOL DE DECISIONES
Refund
MarSt
TaxInc
YESNO
NO
NO
Yes No
Married Single, Divorced
< 80K > 80K
Atributos DivididosTid Refund Marital
StatusTaxableIncome Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes10
cate
goria
cate
goria
contin
uo
clas
e
CLUSTERINGCLUSTERING
Divide la información en diferentes grupos.
A diferencia de la clasificación, no se sabe donde habrá clúster o con que atributos de los datos se harán los clústeres.
Algoritmo K-means y Mapas de Presentación de Kohonen
Clustering schemes Basado en Distancia
(Distancia entre vectores) Basado en Partición
(Enumera y valora) Basado en Modelo(
ALGORITMO K-MEANSALGORITMO K-MEANS
Initial seeds
ALGORITMO K-MEANSALGORITMO K-MEANS
Nuevos Centros
ALGORITMO K-MEANSALGORITMO K-MEANS
Centros Finales
MODELO LÓGICOMODELO LÓGICO
Mining ModelMining Model
Mining ModelMining Model
Training DataTraining Data
DB dataClient dataApplication data
DB dataClient dataApplication data
Data MiningEngine
Data MiningEngine
To PredictTo Predict
Predicted DataPredicted Data
Mining ModelMining Model
DB dataClient dataApplication data“Just one row”
DB dataClient dataApplication data“Just one row”
Data MiningEngine
Data MiningEngine
algorithm
Analysis ServicesAnalysis ServicesServerServer
Mining ModelMining Model
Data Mining AlgorithmData Mining Algorithm DataDataSourceSource
MODELO FÍSICOMODELO FÍSICO
Interfaz GráficaInterfaz Gráfica
OLE DB/ ADOMD/ XMLAOLE DB/ ADOMD/ XMLA
App DataApp Data
Resultado de laResultado de la EvaulacionEvaulacion
MINERIA DE DATOS MINERIA DE DATOS DISTRIBUIDADISTRIBUIDA
Hacer frente a plataformas heterogéneas, con múltiples bases de datos y (posiblemente) diferentes esquemas
Diseñar e implementar protocolos escalables y eficaces para la comunicación con los datos de los sitios.
Combine información recién adquiridos que previamente no estaban disponibles cuando los modelos se calcularon con los modelos existentes
La flexibilidad para incorporar nuevas técnicas de minería de datos