ciclo de vida metodologia kimball.ppt

download ciclo de vida metodologia kimball.ppt

of 59

Transcript of ciclo de vida metodologia kimball.ppt

  • Metodologas para el Data WareHousingMg. Samuel Oporto Daz

  • Mapa del Curso

  • Tabla de ContenidoAntecedentesMetodologa KimballPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • ObjetivosPresentar los enfoques para el desarrollo de DWHPresentar la metodologa de Kimball

  • ANTECEDENTES

  • Metodologas OLAP / OLTPDWH no es solamente crear un conjunto de reportes que corren peridicamente.Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

    Sistemas de InformacinData WarehouseLos procesos a automatizar son repetibles y previsibles.Modelado Entidad Relacin.Atencin en una rpida modificacin en lnea de los datos.El uso de los datos es exploratorio y menos predictible.Modelado multidimensional.Enfocado en la carga y la presentacin de los datos

  • Conceptos ClaveDatamart. Repositorio de datos especifico.Diseado para responder las preguntas especficas.Diseado para servir las necesidades de unidades de negocio (ventas, comercializacin, operaciones, contabilidad, etc.)Es construido usando modelado dimensional

    Data warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas.Es una coleccin empresarial de datamarts.Contiene data masiva e integrada

    Inteligencia de Negocios.Reportes y anlisis de datos almacenadas en el DWHData warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.

  • Metodologas para el DWH

    Top-DownBottom-UpHybridFederatedProfesionalBill InmonRodolfo KimballMuchos profesionalesDoug HackneynfasisDWHDataMartsDWH y DataMartsIntegrado a entornos BI heterogneosDiseoModelo normalizado basado en la empresaEl modelo dimensional de datamarts, usa esquema de estrellaModelos locales y uno o mas esquemas de estrellaUna arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacinArquitecturaCompuesto de varios niveles de reas de inters y datamarts dependientesrea de inters y datamartsModelo empresarial normalizado de alto nivel;datamarts inciales.Realidad del cambio en organizaciones y sistemasData setDWH datos a nivel atmico;datamarts datos sumarizadosContiene datos atmicos y sumarizadosCarga datamarts con datos atmicos y sumarizados va un rea de inters no persistenteUso de cualquiera significado posible para integrar las necesidades de negocio

  • Historia de DWHInmon.1990Publica Building the Data WarehouseMejora su libro y define una arquitectura como una coleccin de fuentes dispares en almacenes de datos detalles y variantes en el tiempo.

    Kimball1996Publica The Data Warehouse Toolkit2002Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.Top-DownBotton-Up

  • Enfoques acerca del DWHBill Inmon Normalizado.Building the Data WarehouseCorporate Information Factory

    Ralph Kimball -> Dimensional.The Data Warehouse Lifecycle ToolkitThe Data Warehouse Toolkit

  • Enfoques acerca del DWHBill Inmon Top-DownEl DWH usa modelo de datos de toda la empresaEl DWH es un depsito de datamartsMs tiempo para implementar.Fracasos por falta de paciencia y de compromiso

    Ralph Kimball -> Bottom-UpInicia con un datamart, luego otros datamarts.El flujo de datos:fuente datamart datamart DWHRpido de implementar, por etapasNecesita asegurar:La consistencia de la metadata.Estar seguro que cada cosa es llamado por su nombre.

  • ENFOQUE INMON

  • El modelo InmonConsiste de todas las bases y sistemas de informacin de una organizacinModelo CIF (Corporate Information Factory)Fabrica de Informacin corporativa.

    Define el medio ambiente de las bases de datos como:OperacionalDWH atmicoDepartamentalIndividual

    El DH es parte de un todo ms grande (CIF)

  • Modelado InmonTres niveles en el modelado de los datosEntidad RelacinRelaciones entre entidades, atributos y relaciones

    Modelo MID-Level (MID-Level Model o *DIS*)Conjunto de items de datosConjunto de datos por departamentoCuatro construcciones:Agrupamiento de datos primariosAgrupamiento de datos secundariosConectoresDatos de Tipo de

    Modelo de datos fsicoOptimizado para mejor rendimiento (de-normalizado

  • Modelado InmonRelacin entre los niveles Uno y Dos del modelo de datos de Inmon

  • ENFOQUE KIMBALL

  • Enfoque KimballEl modelo dimensional se inicia con tablas:De hechos De dimensionesLos hechos contienen metricasLas dimensiones contienen atributosPuede contener grupos de datos repetidosLos datos no estn normalizadosAccesible al usuario final

  • El ciclo de vida Kimball

  • El ciclo de vida KimballIlustra el flujo general de implementacin de un DWH.

    Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.

    Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.

    No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.

  • Ciclos de vida KLC, SDLC, y DBLCKimball LifeCycleSystem Development Life CycleData Base Life Cycle

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • Planificacin del programa/proyectoVisin de programas y proyectos de KimballProyecto, se refiere a una iteracin simple del KLC Desde el lanzamiento hasta el despliegue.

    Programa, se refiere a la amplia coordinacin progresiva de recursos, infraestructura, tiempos y comunicacin a travs de mltiples proyectos Un programa contiene proyectos mltiples

    En la realidad los programas no necesariamente inician antes del proyecto, aunque debera ser as.

  • Planificacin del programa/proyectoPlanificacin de proyecto.Definir el alcance Entender los requerimientos del negocio.Identificar tareasProgramacin de tareasPlanificar el uso de los recursos.Asignar la carga de trabajo a los recursosEl documento final representa un plan del proyecto.

  • Administracin del programa/proyectoRefuerza el plan del proyecto.

    Actividades:Monitoreo del estado de los procesos y actividades.Rastreo de problemasDesarrollo de un plan de comunicacin comprensiva que direccione la empresa y las reas de TI

  • Lnea de desarrolloLuego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas (tracks) concurrentes:TecnologaDatosAplicaciones de BIEl flujo de actividad de las lneas, se indican por las flechasLa dependencia entre tareas se indican por el alineamiento vertical de las tareas

  • Ejercicio 1Identifique roles para el equipo de desarrollo de un DWH

  • Ejercicio 1Identifique roles para el equipo de desarrollo de un DWH

    Front Office: Sponsor y Directores

    Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.

    Lnea regular: Equipo de proyecto principal.Analista del sistema de negocioModelador de datosDBADiseador ETL

    Desarrollador de aplicaciones para el usuario final.

    Equipos especiales: Seguridad, Calidad

  • Ejercicio 1

  • Ejercicio 2Identifique los recursos necesarios para el desarrollo del proyecto.

  • Ejercicio 2Identifique los recursos necesarios para el desarrollo del proyecto.

    Los recursos pueden ser:HumanosEquipamientoServicios de tercerosTiempo

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • Definicin de requerimientos del negocioEl xito del proyecto depende de una comprensin slida de las necesidades de negocio.

    Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseo

  • Requerimientos del NegocioRequerimientos de uso de informacinTipo de informacin que las personas necesitan.Tipo de anlisis.

    Requerimiento de datosFuente de datosCalidad de datos y limpieza de datosAlmacenamiento de datosCarga de datos

  • Proceso de definicin de requerimientos

  • Bus MatrixRelaciona los procesos organizacionales a las entidades u objetos que participan en el proceso.Cada fila es un proceso y cada columna una dimensin

  • Priorizacin de Procesos

  • Recoleccin de RequerimientosQuin va ha ir a recoger los requerimientos?.

    Los usuarios pueden ser clasificados como:Ejecutivos SeniorAdministradores de departamentos claveAnalistas de negocioDBA de sistemas operacionalesPersonal de TI

    Los ejecutivos senior le darn un sentido de direccin y alcance para su almacn de los datos.

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • Diseo de la arquitectura tecnolgicaMarco arquitectural completo del proyecto

    Consideraciones a tomarse en cuenta:Las necesidades de negocioMedio ambiente tecnolgico actualDireccin tcnica estratgica planeada.

  • Seleccin de producto e instalacinBasado en la arquitectura tcnica diseada.

    Evaluacin y seleccin dePlataforma de hardwareDBMS (base de datos)Herramienta ETLHerramientas de consultas (query tools)Herramienta de reportes.

    Instalacin de productos/componentes/herramientas.

    Prueba de productos instalados para garantizar la integracin de extremo a extremo con el entorno del DWH.

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • Lnea de datosDiseo del modelo dimensionalDiseo del modelo fsico ETL

  • Modelado dimensionalAnlisis de los datos de un proceso de negocio para:identificar la granularidad de las tablas de hechosdimensiones y atributos asociadoshechos numricos.

    Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente.

    Mejora el entendimiento y desempeo de consultas al DW

    Las construcciones primarias son:Tablas de hechosTablas de dimensiones

  • Modelado dimensional tabla de hechosContiene mtricas derivadas de un proceso de negocio o un evento.Ventas, contabilidad, logstica, etc.

    El MD debe ser estructurado alrededor de un proceso del negocio

    Se disea vistas similares y consistentes de los datos para toda la organizacin.

    La granularidad de la tabla de hechos, debe ser el ms atmico posibleEsto permite mayor flexibilidad y extensibilidad.

  • Modelado dimensional tabla de dimensionesContiene la descripcin de atributos y caractersticas asociadas con medidas de eventos tangibles y especficos, tales como clientes, productos, representantes de ventas.

    Los atributos de dimensin son usados por limitar, agrupar, o rotular una pregunta.

    Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensin simples.

  • Esquema de estrellaUna tabla de hechosVarias tablas de dimensiones.Ejemplo:Asuma este esquema para una cadena de venta al por menor.El hecho puede ser el ingreso de dinero.

  • Esquema de copo de nieveEs una variacin del esquema de estrella.Es un esquema ms complejo que el esquema de estrella porque las tablas que describen las dimensiones estn normalizadas.

  • Esquema de copo de nieveDesventajas:Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco).Normalizar las tablas de dimensin pueda deteriorar la ejecucin de un DWH.

    Ventajas:Es apropiado si se presenta alguna de las siguientes condiciones:Una dimensin es esparcidaUna dimensin tiene una lista muy larga de atributos

    En la prctica, muchos DWH normalizarn algunas dimensiones y otros no (usan una combinacin de copo de nieve y de estrella)

  • Diseo fsicoPreparando el entorno de base de datos.

    Preparando la seguridad apropiada.

    Estrategia preliminar de afinamiento (tuning) de indexacin y agregacin.

    Si son apropiadas las bases de datos OLAP que se disean durante este proceso.

  • ETL Diseo y desarrolloEs la fase ms importante.Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.Capacidades de sistema ETL:ExtraccinLimpieza y conformidadEntrega y administracin

  • ETLLos datos en bruto son extrados de los sistemas operacionales y transformados en informacin significativa para el negocio

    Los procesos ETL deben diseados mucho antes que cualquier datos sea extrada de la fuente

    Se verifica la calidad de los datos de entrada.Las condiciones de calidad de datos se controlan continuamente

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • Aplicacin del BIAplicaciones que consultan, analizan y presentan informacin desde el modelo dimensional.

    Las aplicaciones BI entregan valor al negocio desde la solucin DW/BI.

    La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones.Diseo de Aplicaciones BI.Desarrollo de aplicaciones BI.

  • Aplicacin del BIDiseo de Aplicaciones BI.Identifica las aplicaciones de BI candidatas y interfaces de navegacin apropiadasOrienta las necesidades de los usuarios.Produce la especificacin de las aplicaciones BI

    Desarrollo de aplicaciones BI.Configuracin de la metadata del negocio y de la infraestructura de herramientas.Construccin y validacin de aplicaciones BI analticas y operacionales y un portal de navegacin.

  • Ciclo de VidaPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento

  • DespliegueSi la planificacin se ha ejecutado se puede asegurar:Los resultados de las lneas de tecnologa, datos y aplicacin del BI.Disponibilidad de la infraestructura de capacitacin y apoyo.

    El despliegue debe ser bien sincronizado.

    El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentacin, y validacin de datos, no estn listos para la liberacin de produccin.

  • MantenimientoCuando el sistema esta en produccinIncluye:Tareas tcnico operacionales que son necesarias para mantener el sistema operando ptimamente.Monitorio del uso.Tuning del desempeo.Mantenimiento de la tabla de ndices.Backup del sistema.Apoyo permanente, capacitacin y comunicacin con los usuarios finales

  • CrecimientoLos DWH tienden a expandirse (si son exitosos)

    Es considerado como un signo de xito.

    Nuevos requerimientos deben ser priorizados.

    Empezar el ciclo de nuevoConstruir sobre las bases ya establecidas.Enfoque en los nuevos requerimientos

  • PREGUNTAS

    *