Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

16
Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015

Transcript of Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Page 1: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Almacenes de Datos(Data Warehouse)MC Beatriz Beltrán Martínez

Primavera 2015

Page 2: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Definición

• Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas, y cuya actividad se centra en la Toma de Decisiones en vez de en su captura.• Una vez reunidos los datos de los sistemas

fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

2

Page 3: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Diferencias

Base de Datos Operacional Almacén de Datos

Datos operacionales Datos del negocio para Información

Orientado a aplicación Orientado al sujetoActual Actual + Histórico

Detallada Detallada + Resumida

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

3

Page 4: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Funcionalidades

• Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)• Ejecución de consultas complejas no predefinidas

visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.• Agrupamiento y desagrupamiento de datos en

forma interactiva.• Análisis del problema en términos de dimensiones.• Control de calidad de datos.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

4

Page 5: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Características

• Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.• Integrado. Es el aspecto más importante. La

integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.• Dependiente del tiempo. Esta dependencia

aparece de tres formas:• La información representa los datos sobre un

horizonte largo de tiempo.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

5

Page 6: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Características

• Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).• La información, una vez registrada

correctamente, no puede ser actualizada.• No volátil. El Almacén de Datos sólo permite

cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

6

Page 7: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Arquitectura

Datos Metadatos

Limpieza

Reformateo

Almacén de Datos

OLAPDSSI/EIS

Minería de Datos

Otras entradasDe datos

ActualizacionesNuevos datos

Salvado de datos limpios

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

7

Page 8: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Arquitectura1. Datos operacionales. Origen de datos para el

componente de almacenamiento físico del Almacén de Datos.

2. Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos.

3. Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.

4. Carga de datos. Inserción de datos en el Almacén.5. Almacén. Almacenamiento físico de datos de al

arquitectura Data Warehouse.6. Herramienta de acceso. Para proveer acceso a los

datos.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

8

Page 9: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

• Una hoja de cálculo constituye una matriz.

Modelado de Datos

Región 1 Región 2 Región 3 …P120P121P122P124

Región

Prod

ucto

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

9

Page 10: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

• Añadiendo una dimensión se tendría una matriz tridimensional.

Modelado de Datos

Región

Prod

ucto

Trim

estr

e

Trim 3

Trim 1Trim 2

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

10

Page 11: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Modelado de Datos

• Las herramientas de explotación OLAP de los almacenes de datos han adoptado un modelo multidimensional de datos.

AlmacénPr

oduc

to

Tiempo

Cliente

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

11

Page 12: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

• Tres son los esquemas multidimensionales comunes:• Esquema en estrella: formado por una tabla de

hechos con una única tabla para cada dimensión.

Modelado de Datos

Hecho

Id_Dim1Id_Dim2Id_Dim3Id_Dim4Valor1valor2

Dim1

Id_Dim1…

Dim2

Id_Dim2…

Dim40

Id_Dim4…

Dim3

Id_Dim3…

Tabla de Hechos

Tablas de Dimensiones

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

12

Page 13: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

• Esquema en copos: es una variante del esquema de estrella en el que las tablas dimensionales de este último se organizan jerárquicamente mediante su normalización.

Modelado de Datos

Hecho

Id_Dim1Id_Dim2Id_Dim3Id_Dim4Valor1valor2

Dim1

Id_Dim1Id_t1Id_t2

Dim2

Id_Dim2…

Dim4

Id_Dim4Id_t4

Dim3

Id_Dim3id_t3

Tabla de Hechos

T1

Id_t1…

T2

Id_t2…

T3

Id_t3…

T4

Id_t4…

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

13

Page 14: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

• Constelación de hechos: es un conjunto de tablas de hechos que comparten algunas tablas de dimensiones.

Modelado de Datos

Hecho 1

Id_Dim1Id_Dim2Id_Dim3Valor1valor2

Dim1

Id_Dim1Id_t1Id_t2

Dim3

Id_Dim3…

Dim4

Id_Dim4Id_t4

Dim2

Id_Dim2id_t3

T1

Id_t1…

T2

Id_t2…

T3

Id_t3…

T4

Id_t4…

Hecho 2

Id_t2Id_t4Id_Dim3Id_Dim4Valor3

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

14

Page 15: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

EjemploProducto

Id_productoNum_producto

DescripciónMarca

subcategoríaCategoría

DepartamentoPeso

Tipo_envase…

Tiempo

Id_fechaDía

SemanaMesAño

Día_semanaTrimestre

Festivo…

Almacén

Id_almacénNum_almacén

NombreDirección

CiudadPaís

TeléfonoSuperficie

Tipo_almacén…

Ventas

Id_fechaId_almacénId_producto

ImporteUnidades

Num_clienteTabla de Hechos

Tablas de Dimensiones

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

15

Page 16: Almacenes de Datos (Data Warehouse) MC Beatriz Beltrán Martínez Primavera 2015.

Tarea

• Realizar un ejemplo que explique como sería la construcción de un almacén de datos, donde señale, como:• Extraer los datos.• Limpiar los datos.• Transformar de los datos.• Consolidar los datos.• Cargar los datos.• Actualizar los datos.

FCC

- BU

AP

Prim

aver

a 20

15M

C Be

atriz

Bel

trán

Mar

tínez

16