PresentacionSobreAlmacenesDeDatos.pdf

49
 !"#$%&'&( *& *$+,(

Transcript of PresentacionSobreAlmacenesDeDatos.pdf

  • Almacenes de datos

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Introduccin

    Inicialmente, las tecnologas de la informacin han venido automa9zado procesos de carcter repe99vo o administra9vo, haciendo uso de los llamados Sistemas de Informacin Operacionales y BD Operacionales

    En este 9po de sistemas, los conceptos ms importantes son la actualizacin y el 9empo de respuesta.

  • Almacenes de datos Introduccin

    La proliferacin y alta disponibilidad de datos operacionales, dicultan el u9lizarlos para la toma de decisiones a nivel tc9co y estratgico.

    En general los sistemas operacionales no traen denidos informes de ges9n para los niveles ejecu9vos

    Nace el concepto de Datawarehouse o Almacn de datos.

  • Almacenes de datos Introduccin

    El Datawarehouse (o almacn de datos) es una coleccin de datos orientados al tema, integrados, no vol9les e historiados,

    organizados para el apoyar el proceso de toma de decisiones.

    Es un concepto, no un producto. Es un proceso para organizar los datos.

    Se integra a un concepto superior, llamado Business Intelligence o Inteligencia de negocios.

  • Almacenes de datos Propiedades

    Integrado: Recopila toda la informacin necesaria para resolver consultas.

    Tem;co: Se organiza por reas de conocimiento dentro de la empresa

    Histrico: La dimensin 9empo es esencial en un Datawarehouse, pues sirve para hacer anlisis de tendencias.

    No vol;l: Los datos slo se leen. No se modican.

  • Almacenes de datos Almacenes de Datos vs BD operacionales

    Base de datos Operacional Almacen de Datos (Data Warehouse) Datos Operacionales Datos del Negocio para Informacin La ac9vidad ms importantes es de 9po opera9vo

    La ac9vidad ms importante es el anlisis y la decisin estratgica

    Orientado a la Aplicacin Orientado al Sujeto Actual (Importancia del dato actual)

    Actual + Histrico (Importancia del dato histrico)

    Detallada (Datos en general desagregados)

    Detallada + Resumida (Datos en dis9ntos niveles de detalle y agregacin)

    Cambia Con9nuamente Estable

  • Almacenes de datos Almacenes de Datos vs BD operacionales

    Base de datos Operacional Almacen de Datos (Data Warehouse) Predomina el proceso puntual

    Predomina el proceso masivo

    Cientos de usuarios (por ejemplo, los usuarios de una organizacin)

    Decenas de usuarios (por ejemplo, los gerentes, los analistas)

    Muchas pequeas transacciones

    Las consultas son largas y complejas

    Una coleccin estructurada de registros o datos

    Una coleccin lgica de informacin, recogida de muchos diferentes bases de datos operacionales, que apoya las ac9vidades de anlisis organizacional y las tareas de toma de decisiones

  • Almacenes de datos Almacenes de Datos vs BD operacionales

    Base de datos Operacional Almacen de Datos (Data Warehouse) Diseo normalizado Diseo desnormalizado Predomina la actualizacin Predomina la consulta MB - GB de datos GB - TB de datos OLTP: OnLine Transac9on Processing (Procesamiento de Transacciones En Lnea)

    OLAP: OnLine Analy9cal Processing (Procesamiento Anal9co en Lnea)

  • Panormica OLTP -> OLAP

    Tomado de www.EasyBI.cl

  • Almacenes de datos Terminologa

    OLTP: OnLine Transac9on Processing (Procesamiento de Transacciones En Lnea).

    OLAP: OnLine Analy9cal Processing (Procesamiento Anal9co en Lnea).

    ETL: Extract, transform and load (Extraccin, Transformacin y Carga).

    Data Mart (Mercado de Datos): Pequeos data warehouse que pueden funcionar independientemente y que estn orientados a un rea especca del negocio.

  • Almacenes de datos Diferencias de diseo

  • Almacenes de datos Ventajas

    Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.

    Facilita la aplicacin de tcnicas estads9cas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio.

    Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.

    Simplica dentro de la empresa la implantacin de sistemas de ges9n integral de la relacin con el cliente.

    Supone una op9mizacin tecnolgica y econmica en entornos de Centro de Informacin, estads9ca o de generacin de informes con retornos de la inversin espectaculares.

  • Almacenes de datos Problemas

    Subes9macin de los recursos requeridos (9empo, personas, infraestructura).

    Inconsistencias en datos de origen Ausencia de datos requeridos Incremento de requerimientos de usuarios Seguridad de los datos Costos de mantenimiento Di`cil integracin de fuentes heterogneas

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Arquitectura mul9capa

    Par9mos de una BD operacional y se basa en 3 mdulos.

    GESTOR CARGA

    GESTOR ALMACENAMIENTO GESTOR CONSULTAS

    BD operacional

  • Gestor de carga

    Gestor de almacenamiento

    Gestor de consultas

    Almacenes de datos Arquitectura mul9capa

  • Tomado de Universidad del Valle

    Almacenes de datos Arquitectura mul9capa

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Arquitectura - GESTOR DE CARGA

    Permite hacer la extraccin transformacin y carga (ETL) desde las fuentes de datos operacionales.

    Implica: Estudio de los datos Extraccin de los datos Estacionamiento de los datos Transformacin de los datos Limpieza de los datos Carga de los datos

  • Almacenes de datos Arquitectura - GESTOR DE CARGA

    Estudio de los datos Datos fuera de los lmites. Violaciones a las dependencias. Datos redundantes. Datos hurfanos.

    Extraccin de los datos En qu formatos se encuentran los datos? Cul ser la frecuencia con la que se extraern los datos?

    En qu orden se cargarn los datos? Cmo se minimizar el 9empo requerido para cargar los datos?

  • Almacenes de datos Arquitectura - GESTOR DE CARGA

    Estacionamiento de los datos Almacn de datos temporal Evitar sobrecarga en las fuentes de datos

    Transformacin de los datos Ordenar Dividir Juntar Buscar y Anexar Agregar resmenes

  • Almacenes de datos Arquitectura - GESTOR DE CARGA

    Limpieza de los datos Ausencia de valores Valores inconsistentes Valores duplicados Violaciones a las reglas del negocio

    Carga de los datos Datos actuales e histricos

  • FUENTES DE DATOS Ambientes diferentes con Sistemas

    diferentes, incluyendo plataformas diferentes y Sistemas operativos diferentes.

    Sistemas de Base de Datos Diferentes. Esquemas, formatos de datos y

    convenciones de nombrado diferentes. Fuentes de Datos dispersas

    geogrficamente Propietarios de los datos. Impacto sobre el Sistema Fuente. Volatilidad de los datos. Volumen de los datos.

    Ambientes Diferentes

    Sistemas Diferentes

    Bases de Datos Diferentes

    Versiones de Bases de Datos Diferentes

    Esquemas Diferentes CO

    MPLEJIDAD

    Almacenes de datos Arquitectura - GESTOR DE CARGA

  • Almacenes de datos Arquitectura - GESTOR DE CARGA

    Retos: Vencer problemas de inconsistencias en la integracin de los datos

    Saber elegir del momento realizar de la carga de manera que se minimice el impacto a sistemas operaciones y de ges9n

    Que el 9empo de carga sea el mnimo posible Realizar un correcto mapeo de datos en fuentes origen con metadatos del Datawarehouse.

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

    Controla el da a da del almacn de datos Tareas

    Comprobacin de integridad y consistencia de datos Creacin de ndices, vistas y par9ciones Se encarga del almacenamiento, de la estructura. Generacin de desnormalizaciones Generacin de agregaciones y actualizacin de existentes

    Acumulacin de datos del almacn Respaldo y archivado de datos

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

    Para la representacin de la informacin se usa el anlisis mul9dimensional (CUBOS): Existe una tabla llamada FACT (HECHOS) y unas tablas llamadas DIMENSIONES o tablas dimensionales.

    Entre la tabla FACT y las tablas dimensionales suele haber relaciones 1:N

    Este modelo 9ene forma de estrella por eso se denomina ESQUEMA ESTRELLA.

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

    FACT (tabla de HECHOS) es la tabla central que con9ene los hechos que son objeto de anlisis. Cuyo nivel de detalle lo determina el problema a resolver (pueden ser datos detallados o datos resumidos).

    La tabla de HECHOS adems puede incluir atributos derivados, que cons9tuyen las medidas a ser analizadas

    Las tablas de DIMENSIONES establecen el contexto que permite analizar los hechos desde dis9ntas perspec9vas.

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

  • Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Arquitectura GESTOR DE CONSULTAS

    Las consultas se hacen sobre la tabla FACT. Tambin se encarga de los perles, pues las consultas (reportes) sern diferentes dependiendo del usuario y sus necesidades.

    Dos tcnicas de anlisis principales OLAP Minera de datos

  • Almacenes de datos Arquitectura GESTOR DE CONSULTAS

    OLAP Anlisis de las mtricas del negocio. Datos almacenados y pre-procesados a nivel de cubos.

    Datos resumidos rpidamente. Minera de Datos

    Basados en algoritmos complejos. Permiten hacer predicciones Genera conocimiento U9liza mtodos de inteligencia ar9cial

  • Tomado de Universidad del Valle

    Almacenes de datos Arquitectura Flujo de datos

  • Tomado de Universidad del Valle

    Almacenes de datos Arquitectura - Componentes

  • Tomado de Heinz 2014

    Almacenes de datos Arquitectura - Componentes

  • Agenda

    Introduccin Arquitectura

    Gestor de carga Gestor de almacenamiento Gestor de consultas

    Ejemplo diseo mul;dimensional (esquema en estrella) (cubos)

  • Almacenes de datos Ejemplo

    Mostrar Personajes Interpretados por un actor

    Transaccin de consulta:

    Ejemplo FILMES

  • Almacenes de datos Ejemplo

    Ejemplo FILMES (Diseo relacional) Esquema transaccional (OLTP)

  • Almacenes de datos Ejemplo

    Ejemplo FILMES (Operacin OLTP) Esquema transaccional (OLTP)

    SELECT x.apellidos, x.nombres, x.nacionalidad, act.nro_peliculas, per.personaje, pel.nombre_original, pai.nombre_pais, sum(pes.financiamiento)FROM personajes per, actores act, personas x, peliculas pel, paises pai, peliculas_estudios pesWHERE per.id_persona = act.id_personaand act.id_persona = x.id_personaand per.id_pelicula = pel.id_peliculaand pel.id_pais = pai.id_paisand pel.id_pelicula = pes.id_paisGROUP BY x.apellidos, x.nombres, x.nacionalidad, act.nro_peliculas, per.personaje, pel.nombre_originalORDER BY x.apellidos, x.nombres;

  • Almacenes de datos Ejemplo

    Ejemplo FILMES (Diseo mul;dimensional) Esquema estrella o Cubo (OLAP)

    FACT

    DIM1

    DIM2

    DIM3

  • Almacenes de datos Ejemplo

    Ejemplo FILMES (Operacin OLAP) Esquema estrella o Cubo (OLAP)

    SELECT x.apellidos, x.nombres, x.nacionalidad, x.nro_peliculas, per.personaje, pel.nombre_original, pai.nombre_pais, pel.financiamientoFROM personajes per, personas x, peliculas pel, paises paiWHERE per.id_persona = x.id_personaand per.id_pelicula = pel.id_peliculaand per.id_pais = pai.id_paisORDER BY x.apellidos, x.nombres;

  • Almacenes de datos Ejemplo2

    Mostrar can9dad de pelculas producidas cada ao por genero, pais,

    estudio y en total

    Transaccin de consulta:

    Ejemplo FILMES

  • Almacenes de datos Ejemplo2

    Ejemplo FILMES Esquema estrella o Cubo

    HECHOS DIM

    DIM

    DIM

    DIM

  • Almacenes de datos Tendencias Futuras

    Este tema ha tenido un gran desarrollo en los l9mos aos

    Las tecnologas internet han ayudado a que la informacin se fcil de visualizar para un ejecu9vo

    Se avanza notablemente en nuevos conceptos como Data Mining (minera de datos), para extraer informacin no obvia de los datos

    El avance del hardware permite manipular mayores can9dades de informacin en menores 9empos.

  • Almacenes de datos Referencias de consulta adicionales

    Captulos 31 y 32 del texto base. REA Almacenes de datos de la Universitat de Valncia (hjp://goo.gl/mDtVjm)

    REA Descubrimiento de Conocimiento en Bases de Datos de la Universidad del Valle (hjp://goo.gl/4IFgK)

    REA Data Warehousing: From OLTP to OLAP de la Universidade Nova de Lisboa (hjp://goo.gl/QACuAf)

    REA Diseo eciente de un cubo de www.EasyBI.cl (hjp://goo.gl/EbYyW2)