Fundamentos de OLAP
-
Upload
javier-villar -
Category
Documents
-
view
45 -
download
3
description
Transcript of Fundamentos de OLAP
-
INTELIGENCIA DE NEGOCIOS
Fundamentos de OLAP
UNIVERSIDAD LOS NGELES DE CHIMBOTE
FACULTAD DE INGENIERAESCUELA DE INGENIERIA DE SISTEMAS
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Tabla de Contenido
Arquitectura de un DWH OLTP
Load Manager
DW Manager
Query Manager
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Objetivos
1. Presentar la arquitectura de una DWH
2. Presentar los conceptos bsicos necesarios para entender la tecnologa OLTP
3. Presentar ejemplos sencillos de cada uno de los conceptos relacionados al OLTP
-
ARQUITECTURA DE UN DATA WAREHOUSING
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Arquitectura de un DWH
Datos
Warehouse
Consultas y anlisis de
datos
Fuentes externas
Integracin de Datos
OLAP Server
OLAP
Consultas/Reportes
Minera de datos
Metadata
SupervisinAdministracin
Fuentes internas
Adquisicin de datos
Extraccin de datos
Construccin y mantenimiento
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Arquitectura
Los datos son extrados desde aplicaciones, bases de datos, archivos, etc.
Los datos son integrados, transformados y limpiados, para ser cargados en el DW
La informacin del DW se estructura en cubos multidimensionales, los cuales preparan esta informacin para responder a consultas dinmicas con una buena performance.
Los usuarios acceden a los cubos multidimensionales del DW utilizando herramientas de consulta, exploracin, anlisis, reportes, etc.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
OLTP OLTP (On Line Transaction
Processing), informacin transaccional generada por la empresa en su operacin.
Diferentes formatos, procedencia, funcin, configuracin.
Archivos de textos.
Hipertextos.
Hojas de clculos.
Informes semanales, mensuales, anuales, etc.
Bases de datos transaccionales.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETLETL (Extraccin, Transformacin y Carga).
Extraccin. Desde los OLTP
Transformacin. Manipulacin, integracin, solucin de inconsistencias.
Carga. Carga en el DWH
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETL. Extraccin
Extrae los datos relevantes desde diversas
fuentes OLTP.
Procesamiento sin paralizar el OLTP, ni el DWH
Gestiona los metadatos del proceso ETL.
Facilita la integracin de fuentes internas y externas.
Tablas auxiliares y temporales para clculos intermedios.
El DWH se puebla desde estas tablas.
CRM ERP TXTAplicaciones a la medida Otras
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETL . Transformacin Convierte datos inconsistentes
en datos compatibles y congruentes, para ser cargados en el DW.
Codificacin.
Medida de atributos.
Convenciones de nombramiento.
Fuentes mltiples.
Limpieza de Datos (Data Cleaning).
Datos no existentes (missing values).
Datos extremos (outliers)
ETL
BD Temporal ETLETL
Sistema Objetivo
Evaluar Calidad de datos
Registros de excepcin
Correccin de datos
por el usuario
BDRArchivos planos CRMERP
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETL . TransformacinCodificacin. Medida de atributos.
Convenciones de nombramiento. Fuentes mltiples.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETL. TransformacinDatos no existentes
El dato no existe por que:
No fue registrado en el momento
En la integracin de BD una de
ellas no tiene esa columna
Datos extremos
Se presenta por que:
Caso excepcional
Error de digitacin.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
ETL. Carga
Carga el DWH con: Datos transformados que
residen en tablas temporales.
Datos de OLTP que tienen correspondencia directa.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
El proceso ETL
Extraccin. Se extraen datos relevantes desde los OLTP y se depositan en tablas temporales.
Transformacin. Se integran y transforman los datos en las tablas temporales para evitar inconsistencias.
Carga. Se carga desde las tablas temporales al DHW.Si existe correspondencia directa entre los datos del OLTP y del DWH, se procede a la carga.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Tareas del ETL Initial Load (Carga Inicial)
Primera carga.
Movimiento de gran cantidad de datos.
Fuerte consumo de tiempo.
Incremental Load (Carga Incremental o actualizacin)
Mantenimiento o refresco peridico (frecuencia de actualizacin)
Movimiento de pocos datos (nuevos o modificados).
Problema control de cambios (desde la fecha anterior)
Identificar las instancias de los OLTP involucradas.
Utilizar disparadores (triggers) en los OLTP.
Recurrir a marcas de tiempo (Time Stamp).
Comparar los datos existentes en los dos ambientes (OLTP y DW).
Full Load (Carga total)
Si el control de cambios es complejo, cargar desde cero.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Administracin del DWH Transforma los datos fuentes en un modelo
dimensional.
Gestiona los datos mediante tablas de hechos y de dimensiones (repositorio de datos)
Las tablas de hechos y dimensiones permiten crear cubos OLAP
Permite ejecutar sentencias MDX (Multidimensional Expressions).
Define las polticas de particionamiento de la tabla de hechos para mejorar la eficiencia de las consultas.
Ejecuta copias de respaldo.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Base de Datos Multidimensionales
Una BDMD se usa para crear aplicaciones OLAP.
Cada tabla almacena registros de la forma:
D1, D2, D3, M1, M2, M3.
Cada tabla se relaciona a un hipercubo (o un cubo OLAP)
DBR BMDM CUBO
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Base de Datos Multidimensionales
Cada tabla almacena registros de la forma:
D1, D2, D3, M1, M2, M3.
Di es una dimensin Describe un aspecto del negocio.
Define la organizacin lgica de los datos.
Provee un medio para analizar datos del negocio.
Permite filtrar y manipular los datos almacenados
Mi es una medida (hecho) Siempre son numricas
Cruzan todas las dimensiones en todos los niveles.
Son indicadores sumarizados (sumas, promedios,
Fact Table
TimeProductCustomerEmployeeTotalQuantityFreightDescount
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Modelos Multidimensionales
Esquema en Estrella
(Star Scheme).
Esquema Copo de Nieve
(Snowflake Scheme).
Esquema Constelacin
(Starflake Scheme).
Tablas de dimensiones
Tabla de hechos
Medidas
Dimensiones
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Esquema Estrella
Tablas de dimensiones
Tabla de hechos
Medidas o hechos
Dimensiones
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Esquema Copo de Nieve
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Esquema Constelacin
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Tabla de dimensiones
Definen la organizacin lgica de los datos.
Tiene una PK (nica) y columnas de referencia: Clave principal (PK) o identificador nico.
Clave forneas.
Datos de referencia primarios (identifican la dimensin)
Datos de referencia secundarios (complementan la descripcin).
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Las tablas de hechos contienen hechos.
Los hechos o medidas son los valores de datos que se analizan (son numricos).
La tabla de hechos tiene una clave primaria compuesta por las claves primarias de las tablas de dimensiones relacionadas a este.
Los hechos son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a travs de sumarizaciones
Tablas de Hechos
Medidas o hechos
Dimensiones
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Hechos o medidas
Las medidas representan los valores que son analizados: Cantidad de pacientes admitidos Llamadas efectuadas. ImporteTotal = precioProducto * cantidadVendida Rentabilidad = utilidad / PN CantidadVentas = cantidad PromedioGeneral = AVG(notasFinales)
Valores numricos porque estos valores son las bases de las cuales el usuario puede realizar clculos.
Si la medida es no numrica debemos codificarla
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Hechos o medidas
Caractersticas de las medidas: Deben ser numricas. Cruzan todas las dimensiones en todos los niveles.
Las medidas pueden clasificarse en:Naturales
Estas formas de agregacin pueden ser:
Suma: es la operacin que suma los valores de las columnas
Cuenta: realiza un conteo de los valores
Mnima: devuelve un valor mnimo
Mxima: proporciona el mayor de los valores
Cuenta de Distintos: cuenta los valores diferentesCalculadas
Clculos Matemticos
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de ChimboteCubos Multidimensionales o hipercubos Representa o convierte datos planos que se
encuentran en filas y columnas, en una matriz deN dimensiones.
Los atributos existen a lo largo de varios ejes odimensiones y la interseccin de ellas representael valor que tomar el indicador.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
La idea de multidimensionalidad
Sales
Year
Producttype
Region
Productcategory
Quarter
Product
3 dimensiones
granularity
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
29
El Cubo
1999
1998
1997
Mobiles Fax Standard
Vaud
Fribourg
Neuchatel
Regin
Ao
Tipo deProducto
Ventas de telefonos Standard en 1997 en la regin Vaud
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Indicadores, Atributos y Jerarquas
Los objetos a incluir en un cubo son:
Los indicadores, son sumarizaciones (suma,conteo, promedio, etc), efectuadas sobre algnhecho. Dependen de los atributos/jerarquas quese utilicen para analizarlos.
Los atributos, son criterios utilizados para analizarlos indicadores. Se basan, en los datos dereferencia de las tablas de dimensiones.
En un cubo, los atributos son los ejes del mismo.
Son campos o criterios de anlisis, pertenecientesa tablas de dimensiones.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Indicadores, Atributos y Jerarquas
Una jerarqua representa una relacin lgica entre dos o ms atributos; si poseen una relacin padre-ho.
Tienen las siguientes caractersticas: Existen varias en un mismo cubo.
Tienen dos o ms niveles.
Relacin 1-n o padre-ho entre atributos consecutivos de un nivel superior y uno inferior.
Se pueden identificar cuando existen relaciones 1-n o padre-ho entre los propios atributos de
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Granularidad
La granularidad es el nivel de detalle en que se almacena la informacin.
Por ejemplo: Datos de ventas o compras de una
empresa, pueden registrarse da a da
Datos pertinentes a pagos de sueldos o
cuotas de socios, podrn almacenarse
a nivel de mes.
A mayor nivel de detalle, mayor posibilidad analtica, ya que los mismos podrn ser resumidos o sumarizados.
Los datos con granularidad fina (nivel de detalle) podrn ser resumidos hasta obtener una granularidad media o gruesa. No sucede lo mismo
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Consultas
Ejecuta consultas relacionales, tales como Join y agregaciones, y de consultas propias del anlisis de datos, como drill-up y drill-down.
Una consulta consiste en obtener indicadoresdesde una tabla de hechos, restringidas por las propiedades o condiciones de los atributos.
Las operaciones pueden ser: Drill-down.
Drill-up.
Drill-across.
Roll-across.
Pivot.
Page.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Ejemplo
Sea el siguiente esquema estrella
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Drill-downD
ato
sori
gin
ale
sD
rill-
dow
nM
atr
icia
lmen
te
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Drill-upD
rill-
up
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Drill-acrossD
rill-
acr
oss
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s Se analiza a mayor detalle agregando un criterio ms
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Roll-acrossR
oll-
acro
ss
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Pivot
Selecciona el orden de visualizacin de atributos e indicadores
Roll-
acro
ss
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Page
Presenta el cubo dividido en secciones, mediante valores de un atributo, como si se tratase de pginas de un libro:
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
Page
Pivot permite realizar las siguientes acciones:1. Mover un atributo o indicador desde el encabezado
de fila al encabezado de columna.
2. Mover un atributo o indicador desde el encabezado de columna al encabezado de fila.
3. Cambiar el orden de los atributos o indicadores del encabezado de columna.
4. Cambiar el orden de los atributos o indicadores del encabezado de fila.
Es muy til cuando las consultas devuelven muchos registros y es necesario desplazarse por los datos para poder verlos en su totalidad.
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
PageP
g
ina 1
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
PageP
g
ina 1
Ma
tric
ialm
en
teD
ato
sori
gin
ale
s
-
Facultad de Ingeniera Escuela de Ingeniera de Sistemas
Universidad Los ngeles de Chimbote
PREGUNTAS