PresentacionSobreAlmacenesDeDatos.pdf
Transcript of PresentacionSobreAlmacenesDeDatos.pdf
-
Almacenes de datos
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Introduccin
Inicialmente, las tecnologas de la informacin han venido automa9zado procesos de carcter repe99vo o administra9vo, haciendo uso de los llamados Sistemas de Informacin Operacionales y BD Operacionales
En este 9po de sistemas, los conceptos ms importantes son la actualizacin y el 9empo de respuesta.
-
Almacenes de datos Introduccin
La proliferacin y alta disponibilidad de datos operacionales, dicultan el u9lizarlos para la toma de decisiones a nivel tc9co y estratgico.
En general los sistemas operacionales no traen denidos informes de ges9n para los niveles ejecu9vos
Nace el concepto de Datawarehouse o Almacn de datos.
-
Almacenes de datos Introduccin
El Datawarehouse (o almacn de datos) es una coleccin de datos orientados al tema, integrados, no vol9les e historiados,
organizados para el apoyar el proceso de toma de decisiones.
Es un concepto, no un producto. Es un proceso para organizar los datos.
Se integra a un concepto superior, llamado Business Intelligence o Inteligencia de negocios.
-
Almacenes de datos Propiedades
Integrado: Recopila toda la informacin necesaria para resolver consultas.
Tem;co: Se organiza por reas de conocimiento dentro de la empresa
Histrico: La dimensin 9empo es esencial en un Datawarehouse, pues sirve para hacer anlisis de tendencias.
No vol;l: Los datos slo se leen. No se modican.
-
Almacenes de datos Almacenes de Datos vs BD operacionales
Base de datos Operacional Almacen de Datos (Data Warehouse) Datos Operacionales Datos del Negocio para Informacin La ac9vidad ms importantes es de 9po opera9vo
La ac9vidad ms importante es el anlisis y la decisin estratgica
Orientado a la Aplicacin Orientado al Sujeto Actual (Importancia del dato actual)
Actual + Histrico (Importancia del dato histrico)
Detallada (Datos en general desagregados)
Detallada + Resumida (Datos en dis9ntos niveles de detalle y agregacin)
Cambia Con9nuamente Estable
-
Almacenes de datos Almacenes de Datos vs BD operacionales
Base de datos Operacional Almacen de Datos (Data Warehouse) Predomina el proceso puntual
Predomina el proceso masivo
Cientos de usuarios (por ejemplo, los usuarios de una organizacin)
Decenas de usuarios (por ejemplo, los gerentes, los analistas)
Muchas pequeas transacciones
Las consultas son largas y complejas
Una coleccin estructurada de registros o datos
Una coleccin lgica de informacin, recogida de muchos diferentes bases de datos operacionales, que apoya las ac9vidades de anlisis organizacional y las tareas de toma de decisiones
-
Almacenes de datos Almacenes de Datos vs BD operacionales
Base de datos Operacional Almacen de Datos (Data Warehouse) Diseo normalizado Diseo desnormalizado Predomina la actualizacin Predomina la consulta MB - GB de datos GB - TB de datos OLTP: OnLine Transac9on Processing (Procesamiento de Transacciones En Lnea)
OLAP: OnLine Analy9cal Processing (Procesamiento Anal9co en Lnea)
-
Panormica OLTP -> OLAP
Tomado de www.EasyBI.cl
-
Almacenes de datos Terminologa
OLTP: OnLine Transac9on Processing (Procesamiento de Transacciones En Lnea).
OLAP: OnLine Analy9cal Processing (Procesamiento Anal9co en Lnea).
ETL: Extract, transform and load (Extraccin, Transformacin y Carga).
Data Mart (Mercado de Datos): Pequeos data warehouse que pueden funcionar independientemente y que estn orientados a un rea especca del negocio.
-
Almacenes de datos Diferencias de diseo
-
Almacenes de datos Ventajas
Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.
Facilita la aplicacin de tcnicas estads9cas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
Simplica dentro de la empresa la implantacin de sistemas de ges9n integral de la relacin con el cliente.
Supone una op9mizacin tecnolgica y econmica en entornos de Centro de Informacin, estads9ca o de generacin de informes con retornos de la inversin espectaculares.
-
Almacenes de datos Problemas
Subes9macin de los recursos requeridos (9empo, personas, infraestructura).
Inconsistencias en datos de origen Ausencia de datos requeridos Incremento de requerimientos de usuarios Seguridad de los datos Costos de mantenimiento Di`cil integracin de fuentes heterogneas
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Arquitectura mul9capa
Par9mos de una BD operacional y se basa en 3 mdulos.
GESTOR CARGA
GESTOR ALMACENAMIENTO GESTOR CONSULTAS
BD operacional
-
Gestor de carga
Gestor de almacenamiento
Gestor de consultas
Almacenes de datos Arquitectura mul9capa
-
Tomado de Universidad del Valle
Almacenes de datos Arquitectura mul9capa
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Arquitectura - GESTOR DE CARGA
Permite hacer la extraccin transformacin y carga (ETL) desde las fuentes de datos operacionales.
Implica: Estudio de los datos Extraccin de los datos Estacionamiento de los datos Transformacin de los datos Limpieza de los datos Carga de los datos
-
Almacenes de datos Arquitectura - GESTOR DE CARGA
Estudio de los datos Datos fuera de los lmites. Violaciones a las dependencias. Datos redundantes. Datos hurfanos.
Extraccin de los datos En qu formatos se encuentran los datos? Cul ser la frecuencia con la que se extraern los datos?
En qu orden se cargarn los datos? Cmo se minimizar el 9empo requerido para cargar los datos?
-
Almacenes de datos Arquitectura - GESTOR DE CARGA
Estacionamiento de los datos Almacn de datos temporal Evitar sobrecarga en las fuentes de datos
Transformacin de los datos Ordenar Dividir Juntar Buscar y Anexar Agregar resmenes
-
Almacenes de datos Arquitectura - GESTOR DE CARGA
Limpieza de los datos Ausencia de valores Valores inconsistentes Valores duplicados Violaciones a las reglas del negocio
Carga de los datos Datos actuales e histricos
-
FUENTES DE DATOS Ambientes diferentes con Sistemas
diferentes, incluyendo plataformas diferentes y Sistemas operativos diferentes.
Sistemas de Base de Datos Diferentes. Esquemas, formatos de datos y
convenciones de nombrado diferentes. Fuentes de Datos dispersas
geogrficamente Propietarios de los datos. Impacto sobre el Sistema Fuente. Volatilidad de los datos. Volumen de los datos.
Ambientes Diferentes
Sistemas Diferentes
Bases de Datos Diferentes
Versiones de Bases de Datos Diferentes
Esquemas Diferentes CO
MPLEJIDAD
Almacenes de datos Arquitectura - GESTOR DE CARGA
-
Almacenes de datos Arquitectura - GESTOR DE CARGA
Retos: Vencer problemas de inconsistencias en la integracin de los datos
Saber elegir del momento realizar de la carga de manera que se minimice el impacto a sistemas operaciones y de ges9n
Que el 9empo de carga sea el mnimo posible Realizar un correcto mapeo de datos en fuentes origen con metadatos del Datawarehouse.
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
Controla el da a da del almacn de datos Tareas
Comprobacin de integridad y consistencia de datos Creacin de ndices, vistas y par9ciones Se encarga del almacenamiento, de la estructura. Generacin de desnormalizaciones Generacin de agregaciones y actualizacin de existentes
Acumulacin de datos del almacn Respaldo y archivado de datos
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
Para la representacin de la informacin se usa el anlisis mul9dimensional (CUBOS): Existe una tabla llamada FACT (HECHOS) y unas tablas llamadas DIMENSIONES o tablas dimensionales.
Entre la tabla FACT y las tablas dimensionales suele haber relaciones 1:N
Este modelo 9ene forma de estrella por eso se denomina ESQUEMA ESTRELLA.
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
FACT (tabla de HECHOS) es la tabla central que con9ene los hechos que son objeto de anlisis. Cuyo nivel de detalle lo determina el problema a resolver (pueden ser datos detallados o datos resumidos).
La tabla de HECHOS adems puede incluir atributos derivados, que cons9tuyen las medidas a ser analizadas
Las tablas de DIMENSIONES establecen el contexto que permite analizar los hechos desde dis9ntas perspec9vas.
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
-
Almacenes de datos Arquitectura GESTOR DE ALMACENAMIENTO
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul9dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Arquitectura GESTOR DE CONSULTAS
Las consultas se hacen sobre la tabla FACT. Tambin se encarga de los perles, pues las consultas (reportes) sern diferentes dependiendo del usuario y sus necesidades.
Dos tcnicas de anlisis principales OLAP Minera de datos
-
Almacenes de datos Arquitectura GESTOR DE CONSULTAS
OLAP Anlisis de las mtricas del negocio. Datos almacenados y pre-procesados a nivel de cubos.
Datos resumidos rpidamente. Minera de Datos
Basados en algoritmos complejos. Permiten hacer predicciones Genera conocimiento U9liza mtodos de inteligencia ar9cial
-
Tomado de Universidad del Valle
Almacenes de datos Arquitectura Flujo de datos
-
Tomado de Universidad del Valle
Almacenes de datos Arquitectura - Componentes
-
Tomado de Heinz 2014
Almacenes de datos Arquitectura - Componentes
-
Agenda
Introduccin Arquitectura
Gestor de carga Gestor de almacenamiento Gestor de consultas
Ejemplo diseo mul;dimensional (esquema en estrella) (cubos)
-
Almacenes de datos Ejemplo
Mostrar Personajes Interpretados por un actor
Transaccin de consulta:
Ejemplo FILMES
-
Almacenes de datos Ejemplo
Ejemplo FILMES (Diseo relacional) Esquema transaccional (OLTP)
-
Almacenes de datos Ejemplo
Ejemplo FILMES (Operacin OLTP) Esquema transaccional (OLTP)
SELECT x.apellidos, x.nombres, x.nacionalidad, act.nro_peliculas, per.personaje, pel.nombre_original, pai.nombre_pais, sum(pes.financiamiento)FROM personajes per, actores act, personas x, peliculas pel, paises pai, peliculas_estudios pesWHERE per.id_persona = act.id_personaand act.id_persona = x.id_personaand per.id_pelicula = pel.id_peliculaand pel.id_pais = pai.id_paisand pel.id_pelicula = pes.id_paisGROUP BY x.apellidos, x.nombres, x.nacionalidad, act.nro_peliculas, per.personaje, pel.nombre_originalORDER BY x.apellidos, x.nombres;
-
Almacenes de datos Ejemplo
Ejemplo FILMES (Diseo mul;dimensional) Esquema estrella o Cubo (OLAP)
FACT
DIM1
DIM2
DIM3
-
Almacenes de datos Ejemplo
Ejemplo FILMES (Operacin OLAP) Esquema estrella o Cubo (OLAP)
SELECT x.apellidos, x.nombres, x.nacionalidad, x.nro_peliculas, per.personaje, pel.nombre_original, pai.nombre_pais, pel.financiamientoFROM personajes per, personas x, peliculas pel, paises paiWHERE per.id_persona = x.id_personaand per.id_pelicula = pel.id_peliculaand per.id_pais = pai.id_paisORDER BY x.apellidos, x.nombres;
-
Almacenes de datos Ejemplo2
Mostrar can9dad de pelculas producidas cada ao por genero, pais,
estudio y en total
Transaccin de consulta:
Ejemplo FILMES
-
Almacenes de datos Ejemplo2
Ejemplo FILMES Esquema estrella o Cubo
HECHOS DIM
DIM
DIM
DIM
-
Almacenes de datos Tendencias Futuras
Este tema ha tenido un gran desarrollo en los l9mos aos
Las tecnologas internet han ayudado a que la informacin se fcil de visualizar para un ejecu9vo
Se avanza notablemente en nuevos conceptos como Data Mining (minera de datos), para extraer informacin no obvia de los datos
El avance del hardware permite manipular mayores can9dades de informacin en menores 9empos.
-
Almacenes de datos Referencias de consulta adicionales
Captulos 31 y 32 del texto base. REA Almacenes de datos de la Universitat de Valncia (hjp://goo.gl/mDtVjm)
REA Descubrimiento de Conocimiento en Bases de Datos de la Universidad del Valle (hjp://goo.gl/4IFgK)
REA Data Warehousing: From OLTP to OLAP de la Universidade Nova de Lisboa (hjp://goo.gl/QACuAf)
REA Diseo eciente de un cubo de www.EasyBI.cl (hjp://goo.gl/EbYyW2)