01 Conceptos Data Warehouse

download 01 Conceptos Data Warehouse

of 27

Transcript of 01 Conceptos Data Warehouse

  • 7/22/2019 01 Conceptos Data Warehouse

    1/27

    Mercosur

    Building

    Tomorrow

    Together

    Siemens Business ServicesInformation Technology

    Business Information Warehouse

  • 7/22/2019 01 Conceptos Data Warehouse

    2/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Horarios

    Inicio : 9:00 horas

    Coffee-break : 10:3010:45 horas

    Almuerzo : 11:4513:00 horas

    Coffee-break : 15:0015:15 horasFin : 17:00 horas

    Instructor

    Srgio Vieira

    Agenda

  • 7/22/2019 01 Conceptos Data Warehouse

    3/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Contenido

    Objetivos de un Data Warehouse

    Procesamiento de Transacciones On-Line versus

    Procesamiento Analtico On-Line

    Modelado Relacional x Dimensional

    Modelo Dimensional

    Jerarqua y Agregados

    Construyendo un Data Warehouse Dimensional

    Dimensionando un Data Warehouse Dimensional

    Rutina diaria : Cargando y Consultando

    DW en el proceso de implementacin de Business Intelligence

  • 7/22/2019 01 Conceptos Data Warehouse

    4/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Objetivos de un Data Warehousing

    Data Warehouse es una copia de los datos de transacciones, estructurada

    especficamente para consultas y anlisis con ptimo desempeo.

    Data Warehouse Dimensional es un conjunto de bases de datos para

    soporte de decisin definido como esquema estrella ( algunas personas

    lo llaman Modelo Dimensional en base de datos relacional )

    Temas que se repiten en todos los dilogos decorredores de una empresa :

    Tenemos montaas de datos en esta empresa, pero

    no conseguimos accederlos en forma eficiente.

    Nada enoja mas a mi jefe que dos personas

    presentando el mismo resultado de alguna forma correcto,

    pero con nmeros diferentes.

    Son preocupaciones que determinam las necesidades

    fundamentales de un Data Warehouse.

  • 7/22/2019 01 Conceptos Data Warehouse

    5/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Procesamiento de Transacciones On-Line (OLTP) xProcesamiento Analtico On-Line (OLAP)

    Sistema de Procesamento Operacional

    Infomaciones reflejan el momento actual.

    Los usuarios efectuan operaciones de lectura y escritura.

    Puede estar distribudo en varias aplicaciones.

    Aplicacin

    Operacional

    Aplicacin

    Operacional

  • 7/22/2019 01 Conceptos Data Warehouse

    6/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Sistema Analtico

    Informaciones reflejan un instante especfico en el tiempo.

    Los usuarios efectuan operaciones de lectura.

    Procura oferecer una visin nica de los datos de la empresa.

    Procesamiento de Transacciones On-Line (OLTP) xProcesamiento Analtico On-Line (OLAP)

    Aplicacin

    de anlisis

    Sistema de

    Data warehousing

  • 7/22/2019 01 Conceptos Data Warehouse

    7/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Modelado de Datos Relacional x Dimensional

    Tabla Producto

    Clave_producto Descrip. Marca Categoria Precio Compra Precio Venta

    Tabla Almacn

    Clave_almacen direccion nombre

    Tabla Venta

    Clave_venta Clave_producto facturacantidad fechaChave_almacen

    Representa los datos como una coleccin de

    tablas distintas, normalizadas a fin de evitar

    duplicidad de informacin y consecuentemente

    mayor tiempo en el registro de la informacin

    (tiempo de transaccin)

    Modelo Relacional

  • 7/22/2019 01 Conceptos Data Warehouse

    8/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Modelado de Datos Relacional x Dimensional

    Considere la siguiente afirmacin.

    Vendemos productos en varios mercados, y medimosnuestro desempeo a lo largo del tiempo.

    Agreguemos un nfasis:

    Vendemos Productos en varios Mercados, y medimosnuestro desempeo a lo largo del Tiempo.

    Vamos a representarlo mediante un cubo:

    PRODUCTO

    Cada punto del cubo representa una

    combinacin de Producto, Mercado y

    Tiempo almacenado.

    El modelo Dimensional nos permite

    visualizar datos.

    Modelo Dimensional

  • 7/22/2019 01 Conceptos Data Warehouse

    9/27

    Building

    Tomorrow

    Together

    Mercosur

    Information Technology

    Modelo Dimensional

    Cuando una base de datos puede ser visualizada como un cuboconteniendo tres, cuatro, cinco o mas dimensiones, las

    personas consiguen acceder al cubo en cualquiera de sus

    dimensiones.

    Otro nombre para ese modelo de datos es Modelo Estrella.

    Existe una tabla dominante en el centro del diagrama con mltiplesuniones conectandola a otras tablas.

    Cada una de las tablas secundarias posee apenas una unin con la

    tabla central.

    A tabla central se denomina Tabla de Datosy las otras Tablasde Dimensin.

  • 7/22/2019 01 Conceptos Data Warehouse

    10/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Modelo Dimensional

    Tabla Dato Ventas

    Dimensin Producto

    Dimensin Almacn

    Dimensin Tiempoclave_timpoclave_producto

    clave_almacenventas_en_pesos

    unidades_vendidas

    costos_en_pesos

    clave_produto

    descripcinmarca

    categoria

    c lave_almacnnombre_almacn

    direccin

    tipo_planta_almacen

    clave_tiempo

    dia_de_semana

    dia_de_mes

    mes

    trimestre

    ao

    indicador_feriado

    Ejemplo:

  • 7/22/2019 01 Conceptos Data Warehouse

    11/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Modelo Dimensional

    Un ejemplo de tabla de Datos contiene totales diarios de items de todoslos productos vendidos. Llamamos a eso granularidad de tabla.

    La tabla de Datos almacena mediciones numricas del negocio, siendo

    1 billn de registros un lmite aceptable.

    Cada una de las mediciones se obtiene en la interseccin de todas lasdimensiones.

    Los datos mejores y mas tiles son numricos, continuamente

    valorados(diferentes a cada medida) y

    aditivos (pueden ser adicionados a diversas dimensiones).

    Es muy importante que no intentemos completar la tabla de Datos

    con ceros, para representar que nada pas.

  • 7/22/2019 01 Conceptos Data Warehouse

    12/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Modelo Dimensional

    Cuando nos encontramos con una dimensin de modificacin

    lenta, temos tres opciones. Cada una de ellas resulta

    en un diferente nivel de rastreo de modificaciones a lo largo

    del tiempo :

    Substituir los valores antigos de los registros y,por lo tanto, perder la capacidad de rastrear el pasado.

    Agregar un registro conteniendo los nuevos valores del

    atributo al momento del cambio para segmentar el

    histrico entre descripcin antigua y nueva con precisin.

    Crear nuevos campos actuales al registro original para

    incluir los nuevos valores del atributo, manteniendo tambin

    sus valores originales.

    Tablas Dimensionales

  • 7/22/2019 01 Conceptos Data Warehouse

    13/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Jerarqua y Agregados

    Recurso utilizado para detallar y organizar mejor ciertos atributos.

    Papel

    Toallas Hojas

    Tollas de Papel

    Reciclable

    Papel

    Jerarquia

  • 7/22/2019 01 Conceptos Data Warehouse

    14/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Jerarqua y Agregados

    Agregados

    Tablas de Datos agregados son resmenes prealmacenados para

    mejorar el desempeo de las consultas.

    Dato Ventas Categoria Agregado

    Dato Ventas

    clave_tiempocave_productoclave_almacen

    clave_promo

    cantidad vendida

    recibo_en_pesos

    costo_en_pesoscuenta_clientes

    clave_tiempo

    Clave_categoria

    Clave_almacen

    clave_promo

    cantidad vendida

    recibo_en_pesoss

    costo_en_pesoscuenta_clientes

    Dimensin Categoria

    Clave-categoria

    categoria

    departamento

    Tabla de datos agregados ventas por categoria

    Las claves categoria son claves

    artificiales totalmente nuevas que no

    constan en la tabla de producto

  • 7/22/2019 01 Conceptos Data Warehouse

    15/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Construyendo un Data Warehouse Dimensional

    Construir un data warehouse es el proceso de combinar lasnecesidadesde informacin de una comunidad de usuarios con los

    datos que realmente estn disponibles.

    Debemos siempre preguntarnos si estamos atendiendo las

    necesidades mas importantes de la organizacin de forma eficientey siel data warehouse que estamos construyendo es suficientemente

    simple para ser utilizado por los usuarios y por el software.

    Lo importante es desarrollar una solucin Top-Down.

  • 7/22/2019 01 Conceptos Data Warehouse

    16/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Construyendo un Data Warehouse Dimensional

    Son 9 puntos de decisin de un proyecto de una base de datos

    completo para un data warehouse:

    Los procesos y, por lo tanto, la identidad de las tablas de datos.

    La granularidad (nivel de detalle) de cada tabla de datos.

    Las dimensiones de cada tabla de datos.

    Los datos, incluyendo datos precalculados.

    Los atributos de dimensin con descripciones completas y

    terminologa apropiada.

    Como rastrear dimensiones de modificacin lenta.

    Los agregados, dimensiones heterogneas,minidimensiones, modosde consulta y otras decisiones de almacenamento fsico.

    La amplitud de tiempo del histrico de la base de datos.

    Los intervalos en que los datos son extrados y cargados en el

    Data Warehouse.

    I f i T h l

  • 7/22/2019 01 Conceptos Data Warehouse

    17/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Construyendo un Data Warehouse Dimensional

    Las entrevistas crean una conexin entre los equipos de proyectistas de

    data warehouse y del negocio.

    Entender el negocioes la moneda de oro del equipo de proyectistas.

    Las entrevistas con el usuario final no deben ser dejadas de lado.

    El proceso de entrevistas debe alternar entre grupos de usuarios finalesy DBAs (Administradores de Bases de Datos) de sistemas heredados.

    Las entrevistas ideales consisten em sesiones de una hora en que dos

    o tres proyectistas se reunen con un gerente de rea y algunos de

    sus subordinados.

    El secreto para una entrevista exitosa es hacer al usuariodescribir su trabajo.

    Entrevistas no deben basarse en preguntas del tipo

    que datos desea incluir en el data warehouse?

    Entrevistando a los usuarios finales

    I f ti T h l

  • 7/22/2019 01 Conceptos Data Warehouse

    18/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Construyendo un Data Warehouse Dimensional

    Ejemplos de perguntas:

    Cada participante podria presentarse brevemente, por favor?

    Cual es la misin de su grupo/departamento/divisin?

    Cual es el cambio reciente en la conducin del negocio?

    Cuantos clientes tiene el negocio? Como se agrupan?

    En que segmentos de negocio se puede medir la rentabilidad?

    Que componentes de ingresos y costos se usan para calcular el

    beneficio?

    Como rastrea evaluaciones de calidad de los produtos entregados?

    Se hace en un sistema separado?

    Hace seguimiento desde proveedor o desde pedido de compra?

    Que hacen sus competidores que Ud. no hace?

    Entrevistando a los usuarios finales

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    19/27

    Building

    Tomorrow

    Together

    1Mercosur

    Information Technology

    Construyendo un Data Warehouse Dimensional

    Los DBAs son especialistas en sistemas heredados que pueden serusados como fuente de datos para el data warehouse.

    Las preguntas para los DBAs incluyen :

    Como se relacionan entre si los sistemas de produccin?

    Que sistema alimenta otro sistema? Cual origina los datos?

    Quien mantiene el archivo maestro de productos?Clientes?

    Deseamos recibir una descripcin de cada tabla importante de la

    base de datos, y tambin los campos utilizados.

    Que campos de las tablas importantes estn completos?

    Que significan los cdigos?

    Como son administradas las claves de esas tablas? Como son atribudos

    los nmeros a los clientes?Productos?

    Que hace produccin cuando hay una modificacin en la descripcin del

    producto?

    Entrevistando a los DBAs

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    20/27

    Building

    Tomorrow

    Together

    2Mercosur

    Information Technology

    Dimensionando un Data Warehouse Dimensional

    A ttulo ilustrativo, daremos abajo un ejemplo de dimensionamento

    de base de datos.

    Para eso, consideremos que el tamao de los campos sea 4 bytes,

    correspondiente a la media de los diferentes tamaos de los campos en

    bases de datos reales.

    Las claves, de modo general, tienen 4 bytes y aceptan valores de

    hasta 4 billones

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    21/27

    Building

    Tomorrow

    Together

    2Mercosur

    Information Technology

    Dimensionando un Data Warehouse Dimensional

    Dimensin tiempo: 2 aos x 365 dias = 730 dias

    Dimensin almacn: 300 almacenes notificando ventas diariamente

    Dimensin producto: 30 mil productos en cada almacn, de los cuales 3 mil

    son vendidos todos los dias en un determinado almacn

    Dimensin promocin: un item vendido aparece en apenas una condicin de

    promocin en un almacn en un dia

    Registros de datos bsicos = 730 * 300 x 3000 x 1 = 657 millones

    Campos-clave = 4; Campos de datos = 4; Total de 8 campos

    Tamao bsico da tabla de datos = 657 millones x 8 campos x 4 bytes = 21

    GB

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    22/27

    Building

    Tomorrow

    Together

    2Mercosur

    Information Technology

    Rutina Diaria: Cargando y Consultando

    El data warehouse tiene un uso praticamente bimodal. La mayora de losdata warehouses permanecen on-line de dieciseis a veintidos

    horas por da, parcialmente o exclusivamente en modo solamente

    lectura (read-only). Entonces quedan off-line de dos a ocho horas,

    generalmente de madrugada, para la carga, indexacin, control de

    calidad y liberacin de los datos.

    Dos categorias de profesionales son esenciales para que el data

    warehouse funcione eficientemente : DBAs y DA.

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    23/27

    Building

    Tomorrow

    Together

    2Mercosur

    Information Technology

    Rutina Diaria: Cargando y Consultando

    Atribuciones de los DBAs (Data Base Administrator):

    Crear y mantener agregados (observando el dia a dia de los

    usuarios).

    Crear y mantener metadados (datos respecto de datos, la descripcin

    da estructura, contenido, claves, ndices de datos, siendofrecuentemente externo a la base de dados relacional).

    Ejecutar un control de calidad diario.

    Monitorear y ajustar el desempeo del sistema.

    Hacer backup y recuperar el data warehouse.

    Comunicarse con la comunidad de usuarios.

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    24/27

    Building

    Tomorrow

    Together

    2Mercosur

    gy

    Rutina Diaria: Cargando y Consultando

    Atribuciones de los Das(Data Administrator):

    Construir modelos reutilizables de aplicativos

    Proyectar interfaces grficas

    Entrenar a los usuarios para usar los aplicativos y los dados

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    25/27

    Building

    Tomorrow

    Together

    2Mercosur

    gy

    DW en el Proceso de Implementacin deBusiness Intelligence

    Pasos para implementacin de BI:

    Relevamiento del negocio:entendimento de la necesidad ymodelado del negocio, identificacin de las informaciones de anlisis,

    evaluacin de los sistemas operativos y fuentes externas

    Construccin:modelado e implementacin del datawarehouse/datamarts (datos departamentales) y de procesos de

    distribucin y acceso a la informacin, abarcando:

    Extraccin:mapeo de los datos a partir de los orgenes eimplementacin de los procesos de carga

    Modelado:aplicacin de las tcnicas de modelado especficaspara datawarehouse

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    26/27

    Building

    Tomorrow

    Together

    2Mercosur

    DW en el Proceso de Implementacin deBusiness Intelligence

    Distribucin:definicin de los datamarts consistentes con la

    visin consolidada de la empresa

    Visualizacin:herramientas para OLAP y generacin de informes

    Deteccin: herramientas que trabajam con tcnicas estadsticas

    para establecer relaciones entre datos

    Proyeccin: manipulacin de escenarios

    Entrenamiento y soporte:capacitacin de los profesionales para el

    uso de las informaciones

    Almacenamiento:definicin del formato y sistema gerenciador de

    base de datos a ser utilizado en cada caso

    Information Technology

  • 7/22/2019 01 Conceptos Data Warehouse

    27/27

    Building

    Tomorrow

    Together

    2Mercosur

    Reflexin

    El retorno de un proyecto de Data Warehouse aparece

    cuando usuarios hacen cosas que nunca fueron capaces

    de hacer: tomar decisiones mejores, economizar dinero,

    aumentar el ingreso y operar com mas eficiencia.

    Simplicidad es sobre todo la posibilidad de que el usuario obtenga

    el resultado deseado con un click en un botn.

    Una negociacin entre facilidad de uso y recursos, facilidad de usodebe tener siempre prioridad.