Inteligencia de Negocios

24
 Data Warehouse and Data Mining José A. Royo http://www.cps.unizar.es/~jaroyo email: [email protected] Departamento de Informática e Ingeniería de Sistemas Sistemas de Información-2003 JoAlberto Royo 2 ¿Por qué DW y DM? May or pode r de proc esamie nto y sofisticación de herramientas Demanda de mejor a del a cces o a dat os Nece sidad de informaci ón para la toma de decisiones Rec opila ción de infor mación Alto Coste Sistemas de Información-2003 JoAl berto Royo 3 Data War eho use Sistemas de Información-2003 JoAlberto Royo 4 Información en las empresas La Inf ormac ión p roviene de fuentes internas (sistemas de producción) y externas (hasta un 20%) Pr ob le ma s  Satu raci ón de inform ació n  Dif íci l de acc ede r  No select iva La in formació n se necesi ta para:  Compe tir (co mpar aci ón con otros pr oduc tos)  Pers onal iza r (sim ular qu e cada c lie nte es ún ico)

Transcript of Inteligencia de Negocios

Data Warehouse and Data MiningJos A. Royo http://www.cps.unizar.es/~jaroyo email: [email protected] Departamento de Informtica e Ingeniera de Sistemas

Por qu DW y DM? Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

2

Informacin en las empresas La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas Saturacin de informacin Difcil de acceder No selectiva

Data Warehouse

La informacin se necesita para: Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4

Data Warehouse Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugarSistemas de Informacin-2003 Jos Alberto Royo 5

Data Warehouse Orientacin al tema Disponer de toda la informacin sobre un tema No organizar los datos segn los procesos funcionales

La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizadoSistemas de Informacin-2003 Jos Alberto Royo 6

Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente

Data Warehouse Datos no voltiles: Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles

Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto

Infocentro: similar al Data Warehouse pero centrado en el sistema de produccin

Los datos se referencian temporalmenteSistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8

Data Warehouse: Estructura Varia clases de datosDatos fuertemente agregados Nivel de sntesisTR2

Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejesREG5 REG1 REG2 REG3 REG4 REG5 TR2

Nivel de historial

Producto Tr im est re

Datos detallados historiados

ReginP2

P1

Datos: Representaciones Jerrquicas Exploracin ascendente (roll-up) Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales

Datos: Representacin fsica 2 Tablas Tabla de dimensiones Tabla de hechos

Exploracin Descendente (drill-down) Divisin de datos Ej.: Ventas nacionales provinciales

Tipos de esquema Esquema de estrella: Tabla de hechos con una nica tabla para cada dimensin

Esquema de copos Tablas dimensinales organizadas jerrquicamenteSistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12

P2

Sistemas de Informacin-2003

Jos Alberto Royo

9

Sistemas de Informacin-2003

Jos Alberto Royo

TR1

REG1

Estructura multidimensional

REG2 REG3

Metadatos

Datos agregados Datos detalladosTR1 P1

REG4

10

Construccin de un Data Warehouse Adquisicin: Recopilar informacin de varias fuentes y unificarla Extraccin Preparacin (formateo y limpieza) Carga

DW: CaractersticasSalvado de datos limpios OLAPDATOS

Limpieza Bases de Datos

Reformateo

DSS

METADATOS

Almacenamiento: basado en un SGBD El historial influir en la estructura fsicaOtras entradas de datos Actualizaciones/Nuevos Datos

MINERIA DE DATOS

Acceso: distintos grupos de usuarios requerirn distintas consultasSistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003

Jos Alberto Royo

14

OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes Transacciones predeterminadas Utiliza pocas tablas

DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS

OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos) Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacinSistemas de Informacin-2003 Jos Alberto Royo 15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumenSistemas de Informacin-2003 Jos Alberto Royo 17

Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario

DW son multidimensionales Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas Las vistas no

DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BDSistemas de Informacin-2003 Jos Alberto Royo 18

Errores a evitar Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data WarehouseSistemas de Informacin-2003 Jos Alberto Royo 19

Implementacin: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart

Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa

Control de calidad de los datos Heterogeneidad e Integracin de datosSistemas de Informacin-2003 Jos Alberto Royo 20

Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.

Data Mining

Sistemas de Informacin-2003

Jos Alberto Royo

21

Sistemas de Informacin-2003

Jos Alberto Royo

22

Data Mining Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas

Data Mining: Visin General Data Mining y Data Warehouse Bsqueda automtica de relaciones Extraccin de patrones

Descubrimiento de conocimiento (Fases) 23

Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacinJos Alberto Royo 24

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Resultados del Data Mining Descubrir Reglas de asociacin Patrones secuenciales rboles de clasificacin

Objetivos del Data Mining Prediccin Ej.: que compraran los clientes bajo determinados descuentos

Identificacin Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados Listas Representaciones Grficas Tablas resumenSistemas de Informacin-2003 Jos Alberto Royo 25

Clasificacin Ej.: clientes que buscan descuentos, fieles y ocasionales

Optimizacin utilizacin de recursos limitados: tiempo, espacio, dinero, etc.Sistemas de Informacin-2003 Jos Alberto Royo 26

Conocimiento Descubierto Reglas de asociacin Ej.: Compra bolso Compra zapatos

Tipos de reglas X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)

Jerarquas de clasificacin Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin Ej.: nios, jvenes, adultos y jubiladosSistemas de Informacin-2003 Jos Alberto Royo 27

Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedenteSistemas de Informacin-2003 Jos Alberto Royo 28

Data Mining Automtico Descubrimiento automtico de reglas Tcnicas de machine learning, adaptadas para grandes volmenes de datos Tres tipos de problemas: Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre seriesSistemas de Informacin-2003 Jos Alberto Royo 29

Clasificacin Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos

Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datosSistemas de Informacin-2003 Jos Alberto Royo 30

Asociaciones Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas

Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema Optimizaciones Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el Usuario El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos

Otras Tcnicas Regresin Estadstica Establecimiento de probabilidades

Redes neuronales Entrenar la red Reconocer los patrones segn el entrenamiento

Algoritmos genticos 33

Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracinJos Alberto Royo 34

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra

Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.

Finanzas Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin

Fabricacin Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacinSistemas de Informacin-2003 Jos Alberto Royo 35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin GeogrficaJos Alberto Royo [email protected] Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espacialesSistemas de Informacin-2003 Jos Alberto Royo 38

GIS: Categoras1. Aplicaciones Cartogrficas Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas

Informacin espacial Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)39 Sistemas de Informacin-2003 Jos Alberto Royo 40

2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetosJos Alberto Royo

3. Aplicaciones de Objetos geogrficosSistemas de Informacin-2003

Mapas Estructuracin Vectores (+verstil, -fcil de crear) Creados con paneles digitalizadores

GIS: Operaciones sobre los Datos Interpolacin Obtencin de datos de elevacin no obtenidos en la muestra

Interpretacin Cierre de polgonos Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning

Anlisis de proximidad Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelizacin de vectores rasterSistemas de Informacin-2003 Jos Alberto Royo 41

Procesamiento de imgenes en una matriz de puntos Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenesSistemas de Informacin-2003 Jos Alberto Royo 42

Otras funcionalidades Extensibilidad Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos

Preguntas a los GIS Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos mapas de elevacin, densidad de poblacin, etc.

Control de calidad de los datos

Visualizacin1. Contorneado Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionalesJos Alberto Royo 43

2. Sombreado de montaas 3. Visualizaciones de perspectivasSistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

44

Utilidad de los GIS Generacin de mapas Seleccin de lugares Creacin de planes de emergencia Ante terremotos u otras catstrofes

GIS: Trabajo Futuro Nuevas arquitecturas: Distribucin de datos Separacin de datos espaciales y no espaciales

Versionado Ej.: Qu pasa si construimos una autopista?

Simulacin de transformaciones medioambientales Cambio en paisajes ante tneles, obras, urbanizaciones, etc.Sistemas de Informacin-2003 Jos Alberto Royo 45

Estndares de Datos Compartir de datos

Aplicaciones especficas Tipos de datos distintos

Ausencia de semntica en las estructuras de datos Vas de sentido nicoSistemas de Informacin-2003 Jos Alberto Royo 46

Bibliografa Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47

Data Warehouse and Data MiningJos A. Royo http://www.cps.unizar.es/~jaroyo email: [email protected] Departamento de Informtica e Ingeniera de Sistemas

Por qu DW y DM? Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

2

Informacin en las empresas La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas Saturacin de informacin Difcil de acceder No selectiva

Data Warehouse

La informacin se necesita para: Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4

Data Warehouse Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugarSistemas de Informacin-2003 Jos Alberto Royo 5

Data Warehouse Orientacin al tema Disponer de toda la informacin sobre un tema No organizar los datos segn los procesos funcionales

La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizadoSistemas de Informacin-2003 Jos Alberto Royo 6

Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente

Data Warehouse Datos no voltiles: Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles

Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto

Infocentro: similar al Data Warehouse pero centrado en el sistema de produccin

Los datos se referencian temporalmenteSistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8

Data Warehouse: Estructura Varia clases de datosDatos fuertemente agregados Nivel de sntesisTR2

Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejesREG5 REG1 REG2 REG3 REG4 REG5 TR2

Nivel de historial

Producto Tr im est re

Datos detallados historiados

ReginP2

P1

Datos: Representaciones Jerrquicas Exploracin ascendente (roll-up) Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales

Datos: Representacin fsica 2 Tablas Tabla de dimensiones Tabla de hechos

Exploracin Descendente (drill-down) Divisin de datos Ej.: Ventas nacionales provinciales

Tipos de esquema Esquema de estrella: Tabla de hechos con una nica tabla para cada dimensin

Esquema de copos Tablas dimensinales organizadas jerrquicamenteSistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12

P2

Sistemas de Informacin-2003

Jos Alberto Royo

9

Sistemas de Informacin-2003

Jos Alberto Royo

TR1

REG1

Estructura multidimensional

REG2 REG3

Metadatos

Datos agregados Datos detalladosTR1 P1

REG4

10

Construccin de un Data Warehouse Adquisicin: Recopilar informacin de varias fuentes y unificarla Extraccin Preparacin (formateo y limpieza) Carga

DW: CaractersticasSalvado de datos limpios OLAPDATOS

Limpieza Bases de Datos

Reformateo

DSS

METADATOS

Almacenamiento: basado en un SGBD El historial influir en la estructura fsicaOtras entradas de datos Actualizaciones/Nuevos Datos

MINERIA DE DATOS

Acceso: distintos grupos de usuarios requerirn distintas consultasSistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003

Jos Alberto Royo

14

OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes Transacciones predeterminadas Utiliza pocas tablas

DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS

OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos) Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacinSistemas de Informacin-2003 Jos Alberto Royo 15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumenSistemas de Informacin-2003 Jos Alberto Royo 17

Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario

DW son multidimensionales Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas Las vistas no

DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BDSistemas de Informacin-2003 Jos Alberto Royo 18

Errores a evitar Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data WarehouseSistemas de Informacin-2003 Jos Alberto Royo 19

Implementacin: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart

Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa

Control de calidad de los datos Heterogeneidad e Integracin de datosSistemas de Informacin-2003 Jos Alberto Royo 20

Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.

Data Mining

Sistemas de Informacin-2003

Jos Alberto Royo

21

Sistemas de Informacin-2003

Jos Alberto Royo

22

Data Mining Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas

Data Mining: Visin General Data Mining y Data Warehouse Bsqueda automtica de relaciones Extraccin de patrones

Descubrimiento de conocimiento (Fases) 23

Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacinJos Alberto Royo 24

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Resultados del Data Mining Descubrir Reglas de asociacin Patrones secuenciales rboles de clasificacin

Objetivos del Data Mining Prediccin Ej.: que compraran los clientes bajo determinados descuentos

Identificacin Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados Listas Representaciones Grficas Tablas resumenSistemas de Informacin-2003 Jos Alberto Royo 25

Clasificacin Ej.: clientes que buscan descuentos, fieles y ocasionales

Optimizacin utilizacin de recursos limitados: tiempo, espacio, dinero, etc.Sistemas de Informacin-2003 Jos Alberto Royo 26

Conocimiento Descubierto Reglas de asociacin Ej.: Compra bolso Compra zapatos

Tipos de reglas X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)

Jerarquas de clasificacin Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin Ej.: nios, jvenes, adultos y jubiladosSistemas de Informacin-2003 Jos Alberto Royo 27

Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedenteSistemas de Informacin-2003 Jos Alberto Royo 28

Data Mining Automtico Descubrimiento automtico de reglas Tcnicas de machine learning, adaptadas para grandes volmenes de datos Tres tipos de problemas: Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre seriesSistemas de Informacin-2003 Jos Alberto Royo 29

Clasificacin Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos

Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datosSistemas de Informacin-2003 Jos Alberto Royo 30

Asociaciones Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas

Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema Optimizaciones Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el Usuario El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos

Otras Tcnicas Regresin Estadstica Establecimiento de probabilidades

Redes neuronales Entrenar la red Reconocer los patrones segn el entrenamiento

Algoritmos genticos 33

Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracinJos Alberto Royo 34

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra

Bibliografa J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.

Finanzas Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin

Fabricacin Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacinSistemas de Informacin-2003 Jos Alberto Royo 35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin GeogrficaJos Alberto Royo [email protected] Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espacialesSistemas de Informacin-2003 Jos Alberto Royo 38

GIS: Categoras1. Aplicaciones Cartogrficas Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas

Informacin espacial Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)39 Sistemas de Informacin-2003 Jos Alberto Royo 40

2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetosJos Alberto Royo

3. Aplicaciones de Objetos geogrficosSistemas de Informacin-2003

Mapas Estructuracin Vectores (+verstil, -fcil de crear) Creados con paneles digitalizadores

GIS: Operaciones sobre los Datos Interpolacin Obtencin de datos de elevacin no obtenidos en la muestra

Interpretacin Cierre de polgonos Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning

Anlisis de proximidad Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelizacin de vectores rasterSistemas de Informacin-2003 Jos Alberto Royo 41

Procesamiento de imgenes en una matriz de puntos Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenesSistemas de Informacin-2003 Jos Alberto Royo 42

Otras funcionalidades Extensibilidad Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos

Preguntas a los GIS Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos mapas de elevacin, densidad de poblacin, etc.

Control de calidad de los datos

Visualizacin1. Contorneado Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionalesJos Alberto Royo 43

2. Sombreado de montaas 3. Visualizaciones de perspectivasSistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

44

Utilidad de los GIS Generacin de mapas Seleccin de lugares Creacin de planes de emergencia Ante terremotos u otras catstrofes

GIS: Trabajo Futuro Nuevas arquitecturas: Distribucin de datos Separacin de datos espaciales y no espaciales

Versionado Ej.: Qu pasa si construimos una autopista?

Simulacin de transformaciones medioambientales Cambio en paisajes ante tneles, obras, urbanizaciones, etc.Sistemas de Informacin-2003 Jos Alberto Royo 45

Estndares de Datos Compartir de datos

Aplicaciones especficas Tipos de datos distintos

Ausencia de semntica en las estructuras de datos Vas de sentido nicoSistemas de Informacin-2003 Jos Alberto Royo 46

Bibliografa Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47