Presentación Data Warehouse - Almacenes de Datos

download Presentación Data Warehouse - Almacenes de Datos

of 122

Transcript of Presentación Data Warehouse - Almacenes de Datos

  • PARTE II: ALMACENES DE DATOS

    Dra. Angelica Urrutia [email protected]/aurrutiaDepartamento de Computacin e InformticaUniversidad Catlica del Maule, Talca-Chile* Transparencias basadas parcialmente en el tutorial DW de Matilde Celma

  • Temario1. Introduccin1.1. Finalidades y Evolucin de los Sistemas de Informacin.1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin.1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.

    2. Almacenes de Datos2.1. Introduccin a los Almacenes de Datos.2.2. Arquitectura de un Sistema de Almacn de Datos.2.3. Explotacin de un Almacn de Datos: Herramientas OLAP.2.4. Sistemas ROLAP y MOLAP.2.5. Carga y Mantenimiento de un Almacn de Datos.2.6. Diseo de un almacn de Datos.2.7. Lneas de Investigacin Abiertas.

  • Objetivos Parte IIConocer las ventajas y casos donde es aconsejable recopilar informacin interna y externa en un Almacn de Datos.

    Conocer el modelo multidimensional de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot.

    Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos.

    Reconocer pautas para el diseo y mantenimiento de ADs.

  • Introduccin a los Almacenes de Datos

    Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacin se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.

    Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).

    OBJETIVO: Anlisis de Datos para el Soporte en la Toma de Decisiones.

  • Introduccin a los Almacenes de DatosSobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visin tradicional).

    Uso de la base de datos transaccional para varios cometidos:

    Se mantiene el trabajo transaccional diario de los sistemas de informacin originales (conocido como OLTP, On-Line Transactional Processing).

    Se hace anlisis de los datos en tiempo real sobre la misma base de datos (conocido como OLAP, On-Line Analytical Processing).

  • Introduccin a los Almacenes de DatosUso de la base de datos transaccional para varios cometidos:

    PROBLEMAS:

    perturba el trabajo transaccional diario de los sistemas de informacin originales (killer queries). Se debe hacer por la noche o en fines de semana.

    la base de datos est diseada para el trabajo transaccional, no para el anlisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).

  • Introduccin a los Almacenes de DatosSe desea operar eficientemente con esos datos...los costes de almacenamiento masivo y conectividad se han reducido drsticamente en los ltimos aos, parece razonable recoger los datos (informacin histrica) en un sistema separado y especfico.

    Data warehouses (Almacenes o Bodegas de Datos)

    NACE EL DATA-WAREHOUSING

  • Introduccin a los Almacenes de DatosAlmacenes de Datos (AD) (data warehouse)disponer de Sistemas de Informacin de apoyo a la toma de decisiones*disponer de bases de datos que permitan extraer conocimiento de la informacin histrica almacenada en la organizacinmotivacinanlisis de la organizacin previsiones de evolucindiseo de estrategiasobjetivos* DSS: Decision Support Systems

  • Introduccin a los Almacenes de DatosAlmacenes de datosBase de Datos diseada con un objetivo de explotacin distinto que el de las bases de datos de los sistemas operacionales.Sistema Operacional(OLTP)Sistema de Almacn de Datos(DW)BD orientada al procesoBD orientada al anlisis

  • Introduccin a los Almacenes de DatosAlmacenes de Datoscoleccin de datos diseada para dar apoyo a los procesos de toma de decisionescaractersticas* subject oriented, not process orienteddefinicin

  • Introduccin a los Almacenes de DatosAD: Orientado hacia la informacin relevante de la organizacinse disea para consultar eficientemente informacin relativa a las actividades (ventas, compras, produccin, ...) bsicas de la organizacin, no para soportar los procesos que se realizan en ella (gestin de pedidos, facturacin, etc).Base de Datos Transaccional

  • Introduccin a los Almacenes de DatosAD: Integradointegra datos recogidos de diferentes sistemas operacionales de la organizacin (y/o fuentes externas).

  • Introduccin a los Almacenes de DatosLos datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo. AD: Variable en el tiempolos datos son relativos a un periodo de tiempo y deben ser incrementados peridicamente.

  • Introduccin a los Almacenes de DatosREADCargaINSERT READUPDATEDELETEBases de datos operacionalesAlmacn de DatosAD: No voltillos datos almacenados no son actualizados, slo son incrementados. El periodo de tiempo cubierto por un AD vara entre 2 y 10 aos.

  • Introduccin a los Almacenes de DatosAlmacenes de Datosventajas para las organizacionesrentabilidad de las inversiones realizadas para su creacinaumento de la competitividad en el mercadoaumento de la productividad de los tcnicos de direccin

  • Introduccin a los Almacenes de DatosAlmacenes de Datosproblemasinfravaloracin de los recursos necesarios para la captura, carga y almacenamiento de los datosincremento continuo de los requisitos de los usuariosprivacidad de los datosinfravaloracin del esfuerzo necesario para su diseo y creacin

  • Introduccin a los Almacenes de DatosSistema Operacional (OLTP)Almacn de datos (DW)- almacena datos actuales- almacena datos histricos- almacena datos de detalle- almacena datos de detalle y datos agregados a distintos nivelesbases de datos medianas- bases de datos grandes(100Mb-1Gb)(100Gb-1Tb)- los datos son dinmicos (actualizables)- los datos son estticos- los procesos (transacciones) son repetitivos- los procesos no son previsibles- el nmero de transacciones es elevado- el nmero de transacciones esbajo o medio- tiempo de respuesta pequeo (segundos)- tiempo de respuesta variable (segundos-horas)- dedicado al procesamiento de transacciones- dedicado al anlisis de datos- orientado a los procesos de la organizacin- orientado a la informacin relevante- soporta decisiones diarias- soporta decisiones estratgicas- sirve a muchos usuarios (administrativos)- sirve a tcnicos de direccin

  • Arquitectura de un Almacn de DatosLa Arquitectura de un AD viene determinada por su situacin central como fuente de informacin para las herramientas de anlisis.

    Base de Datos TransaccionalFuentes InternasHerramientas de consultas e informesHerramientas EISHerramientas OLAPHerramientas de Minera de DatosCopias de Seguridad

  • Arquitectura de un Almacn de DatosComponentes:

    Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin (limpieza, consolidacin, ...) y la carga del AD, realizando:extraccin de los datos.filtrado de los datos: limpieza, consolidacin, etc.carga inicial del almacn: ordenacin, agregaciones, etc.refresco del almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos

    Repositorio Propio de Datos: informacin relevante, metadatos.

    Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos).

    Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...

  • Arquitectura de un Almacn de DatosOrganizacin (Externa) de Los DatosLas herramientas de explotacin de los almacenes de datos han adoptado un modelo multidimensional de datos.Se ofrece al usuario una visin multidimensional de los datos que son objeto de anlisis.

  • Arquitectura de un Almacn de DatosEJEMPLOOrganizacin: Cadena de supermercados.

    Actividad objeto de anlisis: ventas de productos.

    Informacin registrada sobre una venta: del producto Tauritn 33cl se han vendido en el almacn Almacn nro.1 el da 17/7/2003, 5 unidades por un importe de 103,19 euros.Para hacer el anlisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.

  • Arquitectura de un Almacn de Datos

  • Arquitectura de un Almacn de DatosDepartamentoNro_productoCategoraMarcaTipoDaMesSemanaAlmacnCiudadReginTipoAoDescripcinDimensiones (puntos de vista) desde los que se puede analizar la actividad.Trimestre

  • Arquitectura de un Almacn de DatosModelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).

  • Arquitectura de un Almacn de DatosAlmacnAlmacnCiudadReginTipo

  • Arquitectura de un Almacn de DatosEntre los atributos de una dimensin se definen jerarquasdepartamentoalmacnciudadregintipodamesaoProductoAlmacnTiemponro. productocategoratrimestresemana

  • Arquitectura de un Almacn de DatosEste esquema multidimensional recibe varios nombres:

    estrella: si la jerarqua de dimensiones es lineal estrella jerrquica o copo de nieve: si la jerarqua no es lineal.PERSONALVENTAStiempotiempoproductolugarproyectoequipo

  • Arquitectura de un Almacn de DatosSe pueden obtener hechos a diferentes niveles de agregacin:obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensionesUn nivel de agregacin para un conjunto de dimensiones se denomina cubo.HECHO: El primer trimestre de 2004 la empresa vendi en Valencia por un importe de 22.000 euros del producto tauritn 33 cl.

  • Arquitectura de un Almacn de DatosSe puede recopilar toda la informacin necesaria en un nico esquema estrella o copo de nieve?

    NO : necesidad de varios esquemas.

    Cada uno de estos esquemas se denomina datamart.Almacn formado por 4 datamarts.

  • Arquitectura de un Almacn de DatosEl almacn de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.Data martse definen para satisfacer las necesidades de un departamento o seccin de la organizacin.contiene menos informacin de detalle y ms informacin agregada.subconjunto de un almacn de datos, generalmente en forma de estrella o copo de nieve.

  • Herramientas OLAPLas herramientas de OLAP presentan al usuario una visin multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de anlisis.El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema fsico) del almacn de datos.La herramienta OLAP genera la correspondiente consulta y la enva al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

  • Herramientas OLAPuna consulta a un almacn de datos consiste generalmente en la obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre y por categora ?.Restricciones: productos del departamento Bebidas, ventas durante este aomedidahechoParmetros de la consulta: por categora de producto y por trimestre

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categora y trimestreTrimestre

  • Herramientas OLAPINFORME

  • Herramientas OLAPPresentacin tabular (relacional) de los datos seleccionadosCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000Se asumen dos categoras en el departamento de Bebidas: Refrescos y Zumos.

  • Herramientas OLAPT4T3T2T1ZumosRefrescoscategoratrimestrePresentacin matricial (multidimensional) de los datos seleccionadosLos parmetros de la consulta (por trimestre y por categora) determinan los criterios de agrupacin de los datos seleccionados (ventas de productos del departamento Bebidas durante este ao). La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo). 20000001000000300000020000001000000150000080000002400000

  • Herramientas OLAPLo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.

    Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulacin de consultas.DRILLROLLSLICE & DICEPIVOT

  • Herramientas OLAPEl carcter agregado de las consultas en el Anlisis de Datos, aconseja la definicin de nuevos operadores que faciliten la agregacin (consolidacin) y la disgregacin (divisin) de los datos:agregacin (roll): permite eliminar un criterio de agrupacin en el anlisis, agregando los grupos actuales.disgregacin (drill): permite introducir un nuevo criterio de agrupacin en el anlisis, disgregando los grupos actuales.

  • Herramientas OLAPSi se desea introducir la dimensin Almacn en el anlisis anterior e incluir un nuevo criterio de agrupacin sobre la ciudad del almacn: Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre, por categoras y por ciudad del almacn ?.Restricciones: productos del departamento Bebidas, ventas durante este aoParmetros de la consulta: por categora de producto, por trimestre y por ciudad del almacn.

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categora, trimestre y ciudadTrimestreel usuario no necesita disear este nuevo informe

  • Herramientas OLAPDRILL ACROSS Almacn (Ciudad)Informe mas detallado la operacin de DRILL se realiza sobre el informe original !

  • Herramientas OLAPCategoraTrimestreVentasCiudadT2T1400000T2700000RefrescosT1Valenciadrill-acrossCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000LenRefrescosRefrescosRefrescosValenciaLen10000001000000* Se asumen dos ciudades: Valencia y Len.Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-ciudad) para las ciudades de Len y Valencia.

  • Herramientas OLAPT1T2T3T4ValenciaZumosRefrescosLen10000003000004000005000001000002000005000002000000Presentacin matricial de los datos seleccionados.

  • Herramientas OLAPSi se desea eliminar el criterio de agrupacin sobre la dimensin Tiempo en la consulta original: Importe total de las ventas durante este ao de los productos del departamento Bebidas, por categoras ?

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categorasTrimestreel usuario no necesita disear este nuevo informe

  • Herramientas OLAPROLL ACROSS Tiempo (Trimestre)Informe mas agregado la operacin de ROLL se realiza sobre el informe original !

  • Herramientas OLAPCategoraVentasRefrescos8000000Zumos12900000roll-acrossCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000

  • Herramientas OLAPLas operaciones de agregacin (DRILL) y disgregacin (ROLL) se pueden hacer sobre:atributos de una dimensin sobre los que se ha definido una jerarqua: DRILL-DOWN, ROLL-UPdepartamento categora - producto (Producto)ao - trimestre mes - da (Tiempo)sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSSProducto Almacn -Tiempo

  • Herramientas OLAPDRILL DOWN Tiempo (mes) la operacin de DRILL se realiza sobre el informe original !Importe total de ventas en este ao, del departamento de Bebidas, por categora y mes

  • Herramientas OLAPCategoraTrimestreVentasMesT1T1500000RefrescosT1Enerodrill-downCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000FebreroRefrescosRefrescosMarzo1000000500000Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-mes).

  • Herramientas OLAPOtras operaciones de OLAP:

    SLICE & DICE: seleccionar y proyectar datos en el informe.

    PIVOT: reorientacin de las dimensiones en el informe.

  • Herramientas OLAPVentasElectronics Toys Clothing CosmeticsQ1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsQ2$8,9 $0,75 $4,6 $1,5ProductosStore1Store2$5,6 $1,4 $2,6 $1,1$7,2 $0,4 $4,6 $0,5VentasElectronics Toys Clothing CosmeticsStore 1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsStore 2$5,6 $1,4 $2,6 $1,1ProductosQ1Q2$8,9 $0,75 $4,6 $1,5$7,2 $0,4 $4,6 $0,5PIVOT

  • Herramientas OLAPVentasElectronics Toys Clothing CosmeticsQ1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsQ2$8,9 $0,75 $4,6 $1,5ProductosStore1Store2$5,6 $1,4 $2,6 $1,1$7,2 $0,4 $4,6 $0,5VentasElectronics ToysQ1$5,2 $1,9ProductosStore1Electronics ToysQ2$8,9 $0,75SLICE & DICE

  • Herramientas OLAPLas herramientas de OLAP se caracterizan* por:ofrecer una visin multidimensional de los datos (matricial).no imponer restricciones sobre el nmero de dimensiones.ofrecer simetra para las dimensiones.permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquas entre ellas.ofrecer operadores intuitivos de manipulacin: drill-down, roll-up, slice-and-dice, pivot.ser transparentes al tipo de tecnologa que soporta el almacn de datos (ROLAP o MOLAP).

    *Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.

  • ROLAP y MOLAPEl Almacn de Datos y las herramientas OLAP se pueden basar fsicamente en varias organizaciones:

    Sistemas MOLAPdisponen de estructuras de almacenamiento especficas (arrays) y tcnicas de compactacin de datos que favorecen el rendimiento del almacn.Sistemas ROLAPse implementan sobre tecnologa relacional, pero disponen de algunas facilidades para mejorar el rendimiento (ndices de mapas de bits, ndices de JOIN). Sistemas HOLAPsistemas hbridos entre ambos.

  • ROLAP y MOLAPSistemas ROLAP:

    El almacn de datos se construye sobre un SGBD Relacional.

    Los fabricantes de SGBD relacionales ofrecen extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.

  • ROLAP y MOLAPSistemas ROLAP:Extensiones de los SGBD relacionales:ndices de mapa de bitsndices de JOINtcnicas de particionamiento de los datosoptimizadores de consultasextensiones del SQL (operador CUBE, roll-up)

  • ROLAP y MOLAPSistemas MOLAP.Sistema de propsito especfico:estructuras de datos (arrays)tcnicas de compactacin.El objetivo de los sistemas MOLAP es almacenar fsicamente los datos en estructuras multidimensionales de forma que la representacin externa y la representacin interna coincidan.

  • ROLAP y MOLAPWarehouseEl servidor MOLAP construye y almacena datos en estructuras multidimensionales.

    La herramienta de OLAP presenta estas estructuras multidimensionales.HerramientaOLAPEstructuras multidimensionales

  • ROLAP y MOLAPMOLAP:DatosArraysExtrados del almacn de datos

    almacenamiento y procesos eficientes

    la complejidad de la BD se oculta a los usuarios

    el anlisis se hace sobre datos agregados y mtricas o indicadores precalculados.WarehouseHerramientaOLAPEstructuras multidimensionales

  • ROLAP y MOLAP HerramientaOLAP HerramientaOLAP Servidor RelacionalDesktopServidor MultidimensionalWarehouseMOLAPROLAPClienteServidor

  • ROLAP y MOLAPROLAP/MOLAP: Ventajas e Inconvenientes:ROLAPpueden aprovechar la tecnologa relacional.pueden utilizarse sistemas relacionales genricos (ms baratos o incluso gratuitos).el diseo lgico corresponde al fsico si se utiliza el diseo de Kimball.MOLAP:generalmente ms eficientes que los ROLAP.el coste de los cambios en la visin de los datos.la construccin de las estructuras multidimensionales.

  • Carga y Mantenimiento de un A.D.El sistema encargado del mantenimiento del almacn de datos es el Sistema E.T.T* (Extraccin - Transformacin -Transporte)La construccin del Sistema E.T.T es responsabilidad del equipo de desarrollo del almacn de datos. El Sistema E.T.T es construido especficamente para cada almacn de datos. Aproximadamente 50% del esfuerzo.En la construccin del E.T.T se pueden utilizar herramientas del mercado o programas diseados especficamente.Funciones del Sistema E.T.T:Carga inicial. (initial load)Mantenimiento o refresco peridico: inmediato, diario, semanal, mensual,... (refreshment)* Conocido tambin por E.T.L: Extraccin Transformacin Load (carga)

  • Carga y Mantenimiento de un A.D.CorrespondenciaBases de datos operacionalesAlmacenamiento intermedioAlmacn de datosTransformacinExtraccinTransporteEl Almacenamiento intermedio permite:Realizar transformaciones sin paralizar las bases de datos operacionales y el almacn de datos.Almacenar metadatos. Facilitar la integracin de fuentes externas.Fuentes ExternasE.T.T.

  • Carga y Mantenimiento de un A.D.E.T.T.CorrespondenciaTransformacinExtraccinTransporteIdentificacin de los datos que han cambiadoExtraccin (lectura) de datos.Obtencin de agregadosMantenimiento de metadataLimpieza y transformacin de datos Integracin de datos (clculo de datos derivados)Creacin de clavesObtencin de agregadosMantenimiento de metadataCarga Indizacin Obtencin de datos agregados. Realizacin de pruebas de calidad de la carga.Gestin de errores.Mantenimiento de metadata

  • Carga y Mantenimiento de un A.D.Definir una estrategia de calidad:actuacin sobre los sistemas operacionales: modificar las reglas de integridad, los disparadores y las aplicaciones de los sistemas operacionales.documentacin de las fuentes de datos.definicin de un proceso de transformacin.nombramiento de un responsable de calidad del sistema (Data Quality Manager).

    La calidad de los datos es la clave del xito de un almacn de datos.

  • Carga y Mantenimiento de un A.D.Extraccin.Programas diseados para extraer los datos de las fuentes.Herramientas: data migration tools, wrappers, ...

    CorrespondenciaBases de datos operacionalesAlmacenamiento intermedioAlmacn de datosExtraccin

  • Carga y Mantenimiento de un A.D.Ejecucin de la extraccin:a) si los datos operacionales estn mantenidos en un SGBDR, la extraccin de datos se puede reducir a consultas en SQL o rutinas programadas.b) si los datos operacionales estn en un sistema propietario (no se conoce el formato de los datos) o en fuentes externas textuales, hipertextuales u hojas de clculo, la extraccin puede ser muy difcil y puede tener que realizarse a partir de informes o volcados de datos proporcionados por los propietarios que debern ser procesados posteriormente. Extraccin: lectura de datos del sistema operacional.a) durante la carga inicial .b) mantenimiento del AD

  • Carga y Mantenimiento de un A.D.Identificacin de Cambios.Identificar los datos operacionales (relevantes) que han sufrido una modificacin desde la fecha del ltimo mantenimiento.MtodosCarga total: cada vez se empieza de cero.Comparacin de instancias de la base de datos operacional.Uso de marcas de tiempo (time stamping) en los registros del sistema operacional.Uso de disparadores en el sistema operacional.Uso del fichero de log (gestin de transacciones) del sistema operacional.Uso de tcnicas mixtas.Extraccin: en el mantenimiento/refresco del AD. Antes de realizar la extraccin es preciso Identificar los Cambios.

  • Carga y Mantenimiento de un A.D.Transformacin.Transformar los datos extrados de las fuentes operacionales: limpieza, estandarizacin. (cleansing)Calcular los datos derivados: aplicar las leyes de derivacin. (integration)CorrespondenciaBases de datos operacionalesAlmacenamiento intermedioAlmacn de datosTransformacin

  • Carga y Mantenimiento de un A.D.Transformacin.En los datos operacionales existen anomalas: desarrollos independientes a lo largo del tiempo, fuentes heterogneas, ..Eliminar anomalas: Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados, ...Estandarizacin: codificacin, formatos, unidades de medida, ...12M6543112-m-6542112m6542112m65421 12M6543112M6543112-m-6542112m6542112m65421 12M65431121212Mmm6543165421654211212MM6543165421

  • Carga y Mantenimiento de un A.D.Transformacin.Claves con estructura: descomponer en valores atmicoscdigo del paszona de ventasnmero de productocdigo de vendedorCdigo de producto = 12M65431345

  • Carga y Mantenimiento de un A.D.Transformacin.Unificar codificaciones: existencia de codificaciones mltiples.

    Deben detectarse los valores errneos.

  • Carga y Mantenimiento de un A.D.Transformacin.Unificar estndares:unidades de medida, unidades de tiempo,moneda,...

  • Carga y Mantenimiento de un A.D.Transformacin.Valores duplicados: deben ser eliminados.SQLrestricciones en el SGBDRACME Inc

  • Carga y Mantenimiento de un A.D.Transformacin.Integridad referencial: debe reconstruirse.

  • Carga y Mantenimiento de un A.D.Transformacin. Creacin de claves.#1Venta 1/2/98 12:00:01 Ham Pizza $10.00#2Venta 1/2/98 12:00:02 Cheese Pizza $15.00#3Venta 1/2/98 12:00:02 Anchovy Pizza $12.00#5Venta 1/2/98 12:00:04 Sausage Pizza $11.00#4Devolucin 1/2/98 12:00:03 Anchovy Pizza - $12.00Claves sin significado

  • Carga y Mantenimiento de un A.D.Transporte. (carga)La fase de Transporte consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el almacn de datos y cargar los datos en las correspondientes estructuras de datos.La carga puede consumir mucho tiempo.En la carga inicial del AD se mueven grandes volmenes de datos.En los mantenimientos peridicos del AD se mueven pequeos volmenes de datos.La frecuencia del mantenimiento peridico est determinada por el grnulo del AD y los requisitos de los usuarios.

  • Carga y Mantenimiento de un A.D.Transporte. Creacin y mantenimiento de un AD.Crear el AD (base de datos)En intervalos de tiempo fijos aadir cambios al AD. Se deben determinar las ventanas de carga ms convenientes para no saturar la base de datos operacional.Ocasionalmente archivar o eliminar datos obsoletos que ya no interesan para el anlisis.T1T2T3Base de datos operacional

  • Carga y Mantenimiento de un A.D.Procesos posteriores a la carga: indizacin.Durante la carga:carga con el ndice habilitadoproceso tupla a tupla. (lento)Despus de la carga:carga con el ndice deshabilitado creacin del ndice (total o parcial). (rpido)IndexAlmacn de datosBase de datos operacional

  • Carga y Mantenimiento de un A.D.Procesos posteriores a la carga: obtencin de agregados.Durante la extraccin. Despus de la carga (transporte).Base de datos operacionalAlmacenamiento intermedioAlmacn de datosTransporteExtraccin

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgico especficoImplementacinDiseo conceptualRecogida y anlisis derequisitos

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosAnlisisDiscernimiento de las fuentes necesarias del sistema de informacin de la organizacin (OLTP) y externasRequisitos de usuario (consultas de anlisis necesarias, nivel de agregacin, )p.ej. Entidad-RelacinDiseo Conceptual

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosDiseo LgicoModelado multidimensional (MR)Esquemas estrella

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosDefinicin del esquema ROLAP o MOLAP

    Diseo FsicoDiseo del ETL

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosImplementacinCarga del AD (ETL)Preparacin de las vistas de usuario (herramienta OLAP)

  • Diseo de un Almacn de DatosDetallemos ms ahora el Diseo Lgico... La visin multidimensional seguida por las herramientas de explotacin de almacenes de datos (OLAP) ha inspirado los modelos y metodologas de diseo de este tipo de sistemas.En la literatura se habla de Bases de Datos Multidimensionales y de Diseo MultidimensionalDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitos

  • Diseo de un Almacn de DatosModelado multidimensional:en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).

  • Diseo de un Almacn de DatosModelado multidimensional:el modelado multidimensional se puede aplicar utilizando distintos modelos de datos (conceptuales o lgicos).la representacin grfica del esquema multidimensional depender del modelo de datos utilizado (relacional, ER, UML, OO, ...).

  • Diseo de un Almacn de DatosEl desarrollo de la tecnologa de almacenes de datos se ha caracterizado por: - un temprano desarrollo industrial provocado por las demandas de los usuarios.- el uso de metodologas de diseo centradas principalmente en los niveles lgico e interno. (la atencin se ha centrado en mejorar la eficiencia en la ejecucin de consultas)Metodologa de diseo basada en el modelo relacional: Modelo multidimensional de KimballNo es muy congruente usar modelos para diseo conceptual.

  • Diseo de un Almacn de DatosPasos en el diseo del almacn de datos:Paso 1. Elegir un proceso de la organizacin para modelar.Paso 2. Decidir el grnulo (nivel de detalle) de representacin del proceso.Paso 3. Identificar las dimensiones que caracterizan el proceso.Paso 4. Decidir la informacin a almacenar sobre el proceso.

  • Diseo de un Almacn de DatosPaso 1. Elegir un proceso de la organizacin para modelar.Proceso: actividad de la organizacin soportada por un OLTP del cual se puede extraer informacin con el propsito de construir el almacn de datos.Pedidos (de clientes)Compras (a suministradores)FacturacinEnvosVentasInventario

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.

    Actividad: Ventas.La actividad a modelar son las ventas de productos en los almacenes de la cadena.

  • Diseo de un Almacn de DatosPaso 2. Decidir el grnulo (nivel de detalle) de representacin.Grnulo: es el nivel de detalle al que se desea almacenar informacin sobre la actividad a modelar.El grnulo define el nivel atmico de datos en el almacn de datos.El grnulo determina el significado de las tuplas de la tabla de hechos.El grnulo determina las dimensiones bsicas del esquema transaccin en el OLTP informacin diaria informacin semanal informacin mensual. ....

  • Diseo de un Almacn de Datosid_dim1id_dim2id_dim3...id_dim n....(hechos)

    Dim3Dim2Dim1tabla de hechostabla Dimensin 3tabla Dimensin 1tabla Dimensin 2

    tabla Dimensin nDimn

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada almacn de la cadena.Grnulo: define el significado de las tuplas de la tabla de hechos.determina las dimensiones bsicas del esquema.productodaalmacnventas

    tiempoalmacnproducto

  • Diseo de un Almacn de DatosGrnulo inferior: no se almacena informacin a nivel de lnea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitira hacer anlisis del comportamiento (hbitos de compra) del cliente.

    Grnulo superior: no se almacena informacin a nivel semanal o mensual porque se perderan opciones de anlisis interesantes: ventas en das previos a vacaciones, ventas en fin de semana, ventas en fin de mes, ....En un almacn de datos se almacena informacin a un nivel de detalle (grnulo) fino no porque se vaya a interrogar el almacn a ese nivel sino porque ello permite clasificar y estudiar (analizar) la informacin desde muchos puntos de vista.

  • Diseo de un Almacn de Datosproductodaalmacnventas

    tiempoalmacnproductoid_productoid_fechaid_almacn................tabla de hechosla clave primaria* est formada por los identificadores de las dimensiones bsicas.datos (medidas) sobre las ventas diarias de un producto en un almacn.* pueden existir excepciones a esta regla general

  • Diseo de un Almacn de DatosPaso 3. Identificar las dimensiones que caracterizan el proceso.Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (grnulo) que se ha elegido.Tiempo (dimensin temporal: cundo se produce la actividad?)Producto (dimensin cul es el objeto de la actividad?)Almacn (dimensin geogrfica: dnde se produce la actividad?)Cliente (dimensin quin es el destinatario de la actividad?)De cada dimensin se debe decidir los atributos (propiedades) relevantes para el anlisis de la actividad.Entre los atributos de una dimensin existen jerarquas naturales que deben ser identificadas (da-mes-ao)

  • Diseo de un Almacn de Datosid_dim1....

    tabla Dimensin 1(atributos)

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.definicin de grnulodimensiones bsicastiempoproductoestablecimientoNota: En las aplicaciones reales el nmero de dimensiones suele variar entre 3 y 15 dimensiones.

  • Diseo de un Almacn de DatosDimensin Tiempo:dimensin presente en todo AD porque el AD contiene informacin histrica sobre la organizacin.aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensin Tiempo permite representar otros atributos temporales no calculables en SQL.se puede calcular de antemanoatributos frecuentes: nro. de da, nro. de semana, nro. de ao: valores absolutos del calendario juliano que permiten hacer ciertos clculos aritmticos. da de la semana (lunes, martes, mircoles,...): permite hacer anlisis sobre das de la semana concretos (ej. ventas en sbado, ventas en lunes,..).

  • Diseo de un Almacn de DatosDimensin Tiempo: atributos frecuentes: da del mes (1..31): permite hacer comparaciones sobre el mismo da en meses distintos (ventas el 1 de mes).marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el ltimo da del mes o das de fin de semana en distintos meses.trimestre del ao (1..4): permite hacer anlisis sobre un trimestre concreto en distintos aos.marca de da festivo: permite hacer anlisis sobre los das contiguos a un da festivo.estacin (primavera, verano..)evento especial: permite marcar das de eventos especiales (final de futbol, elecciones...) jerarqua natural: da - mes - trimestre -ao

  • Diseo de un Almacn de DatosDimensin Producto:la dimensin Producto se define a partir del fichero maestro de productos del sistema OLTP.las actualizaciones del fichero maestro de productos deben reflejarse en la dimensin Producto (cmo?).la dimensin Producto debe contener el mayor nmero posible de atributos descriptivos que permitan un anlisis flexible. Un nmero frecuente es de 50 atributos.atributos frecuentes: identificador (cdigo estndar), descripcin, tamao del envase, marca, categora, departamento, tipo de envase, producto diettico, peso, unidades de peso, unidades por envase, frmula, ...jerarquas: producto-categora-departamento

  • Diseo de un Almacn de DatosDimensin Establecimiento (store) :la dimensin Almacn representa la informacin geogrfica bsica.esta dimensin suele ser creada explcitamente recopilando informacin externa que slo tiene sentido en el A.D y que no la tiene en un OLTP (nmero de habitantes de la ciudad del establecimiento, caracterizacin del tipo de poblacin del distrito, ...) atributos frecuentes: identificador (cdigo interno), nombre, direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo de almacn, superficie, fecha de apertura, fecha de la ltima remodelacin, superficie para congelados, superficie para productos frescos, datos de la poblacin del distrito, zona de ventas, ...jerarquas: establecimiento - distrito - ciudad - regin - pas (jerarqua geogrfica)establecimiento - zona_ventas - regin_ventas (jerarqua de ventas)

  • Diseo de un Almacn de Datosid_establecnro_establecnombredireccindistritociudadpastlfnofaxsuperficietipo_almacn...Establecimientoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempoid_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...Producto

  • Diseo de un Almacn de Datosid_fechaid_productoid_establec.........Ventasid_establecnro_establecnombredireccindistritociudadpastlfnofaxsuperficietipo_almacn...id_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...EstablecimientoProductoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempo

  • Diseo de un Almacn de DatosPaso 4. Decidir la informacin a almacenar sobre el proceso.Hechos: informacin (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que ser el objeto del anlisis.PrecioUnidadesImporte....Nota: algunos datos que en el OLTP coincidiran con valores de atributos de dimensiones, en el almacn de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada establecimiento de la cadena.importe total de las ventas del producto en el danmero total de unidades vendidas del producto en el danmero total de clientes distintos que han comprado el producto en el da.

  • Diseo de un Almacn de Datosid_fechaid_productoid_establecimporteunidadesnro_clientesVentasid_establecnro_establecnombredireccindistritociudadpastlfnofaxsuperficietipo_almacn...id_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...EstablecimientoProductoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempo

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:usar claves sin significado:evitar normalizar.incluir la dimensin Tiempo.dimensiones que cambian.definicin de agregados.

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:uso de claves sin significado.en un almacn de datos debe evitarse el uso de las claves del sistema operacional.las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamao (232 valores distintos).la dimensin TIEMPO debe tener tambin una clave artificial.Inconvenientes del uso de las claves del sistema operacional:en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.en el OLTP se puede decidir cambiar la codificacin de las claves.

  • Diseo de un Almacn de DatosOtras Orientaciones de diseo:evitar normalizar.Si se define una tabla de dimensin para cada dimensin identificada en el anlisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no est en 3 F.N.Evitar normalizar: el ahorro de espacio no es significativose multiplican los JOIN durante las consultas.

  • Diseo de un Almacn de DatosEn un almacn de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a periodos de tiempo (ltimo mes, este ao, ...).Otras Orientaciones de diseo:siempre introducir la dimensin Tiempo.

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:dimensiones que cambian.Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente un registro representa la informacin sobre el cliente Mara Garca cuyo estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del cliente es utilizado con frecuencia en el anlisis de la informacin.Se considera relevante el caso en que, en el mundo real, para un valor de una dimensin, cambia el valor de un atributo que es significativo para el anlisis sin cambiar el valor de su clave.Existen tres estrategias para el tratamiento de los cambios en las dimensiones:Tipo 1: Realizar la modificacin.Tipo 2: Crear un nuevo registro.Tipo 3: Crear un nuevo atributo.

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:definicin de agregados.En un almacn de datos es usual consultar informacin agregada!El almacenamiento de datos agregados por distintos criterios de agregacin en la tabla de hechos mejora la eficiencia del AD.Estrategias de almacenamiento de datos agregados:Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la informacin agregada (resp. la descripcin de los niveles de agregacin).Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la informacin agregada (resp. los niveles de agregacin).

  • Lneas de Investigacin AbiertasResmenes:Widom, J. Research problems in data warehousingActas de la International Conference on Information and Knowledge Management (CIKM95), ACM Press. 1995

    Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology.SIGMOD Records. 26(1), pp. 65-74, 1997.

    Wu, Ch., Buchmann, P. Research issues in data warehousingDatebanksysteme in Bro, Technik und Wissenchaft (BTW),Informatik Aktuell, pp. 61-62. Springer, 1997

  • Lneas de Investigacin AbiertasResmenes:Samtani, S., Kumar, V., Kambayashi, Y.Recent advances and research problems in data warehousing.Actas de la International Conference on Conceptual Modeling (ER)LNCS 1507,Springer, 1998

    Gardner, S.R.Building the data warehouse.Communications of the ACM 41(9), pp. 52-60, 1998.

    Dinter, B., Sapia, C. Hlfing, G., Blaschka, M.OLAP market and research: initiating the cooperation.Journal of Computer Science and Information Management, 2(3), 1999

  • Lneas de Investigacin AbiertasConferencias especializadas en DW:

    International Worshop on Data Warehousing and OLAP. (DOLAP)International Workshop on Data Warehouse and Data Mining. (DWDM)Interantional Workshop on Design and Management of Data Warehouses. (DMDW)International Conference on Data Warehousing and Knowledege Discovery. (DaWaK)

  • Lneas de Investigacin AbiertasConferencias especializadas en BD:

    International Conference of Very Large Databases. (VLDB)International Conference on Data Engineering. (ICDE)Interantional Conference on Conceptual Modeling. (ER)International Conference on Extending Database Technology (EDBT).International Conference on Database Theory (ICDT).

  • Lneas de Investigacin AbiertasDirecciones de inters:http://www.cs.toronto.edu/~mendel/dwbib.htmlhttp://www.olapcouncil.org/research/http://www.ceur-ws.org/http://www.cis.drexel.edu/faculty/song/dolap.htmlhttp://www-db.stanford.edu/warehousing/

  • Lneas de Investigacin AbiertasDiseo de Almacenes de Datos: modelos conceptuales, metodogas de diseo.Carga y ETL: recuperacin de fallos durante la carga. Planificacin de cargas y refrescos.Limpieza y TransformacinMantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas.Implementacin de Almacenes de Datos.Diseo Fsico, optimizaciones para ROLAP, estructuras para MOLAP.Reparticin de tareas OLAP entre el cliente y el servidor.