Data Warehouse Intel i Gencia de Negocios

41
DataWarehouse e Inteligencia de Negocios www.EasyBI.cl 1 Conceptos Generales

description

Presentación con la temática Datawharehouse e Inteligencia de negocios

Transcript of Data Warehouse Intel i Gencia de Negocios

Presentacin de PowerPoint

DataWarehouse e Inteligencia de Negocioswww.EasyBI.cl1Conceptos Generaleswww.EasyBI.cl2Conceptos GeneralesTransacciones

Fundamentos.Registrar y Controlar (OLTP)VentasInventariosContabilidadRecursos HumanosEtc-

Velocidad de TransaccinIntegridad de InformacinEvitar Redundancias3 Forma Normal

On-Line Transaction Processing

Analizar y Evaluar (OLAP)Velocidad de ConsultasApoyo Toma de DecisionesDesnormalizado

On-Line Analytical ProcessingOLAP vs. OLTPSistema Operacional (OLTP)Data Warehouse (Basado en Modelos Dimensionales: OLAP)Almacena datos actuales.Almacena datos histricos.Almacena datos de detalle.Amacena datos de detalle y datos agregados a distintos niveles.Los datos son dinmicos (actualizables).Los datos son estticos.Las transacciones son repetitivos.Los procesos no son previsibles.El nmero de transacciones es elevado.El nmero de transacciones es bajo o medio.Dedicado al procesamiento de transacciones.Dedicado al anlisis de datos.Orientado a los procesos de la organizacin.Orientado a la informacin relevante.Soporta decisiones diarias.Soporta decisiones estratgicas.Sirve a muchos usuarios administrativos.Sirve a tcnicos de direccin.www.EasyBI.cl4Conceptos GeneralesRecordando que una Data Warehouse es

Conjunto de herramientas y metodologas utilizadas para la administracin de informacin con fines de anlisis y gestin.Y sus objetivos:Automatizar los procesos de recopilacin y generacin de informacin usuarios utilizan la informacin, ya no la construyen.Entregar autonoma a los usuariosNormalizar el proceso de captura de informacinNormalizar el proceso de entrega de informacin.Fuente nica de Informacin del rea / Empresa.Informacin validada.y que la meta del almacenamiento de datos es generar un frente de anlisis que apoye a los ejecutivos de negocios y gerentes de operaciones.

Anlisis Front EndLas aplicaciones de front-end que los usuarios de negocio a utilizan para interactuar con los datos almacenados en los repositorios.Data Mining: es el descubrimiento de patrones tiles en los datos. Por ejemplo, Cul es la probabilidad de que un cliente migre a un competidor?OLAP, procesamiento analtico en lnea, se utiliza para analizar datos y a menudo son utilizados por los gerentes de marketing. Por ejemplo: Cuntos clientes entre los 24-45 aos de edad, que viven en la provincia del Guayas, compran ms de $1000 dlares en el supermercado en un mes?Las Herramientas de informes se utilizan para proporcionar informes sobre los datos. Las Herramientas de visualizacin de datos se usan para mostrar datos de un repositorio de datos. A menudo, la visualizacin de datos se combina con la minera de datos y herramientas OLAP. La Visualizacin de datos puede permitir al usuario manipular los datos para mostrar la relevancia y los patrones.

ConceptosDimensin: Es una categora de informacin, por ejemplo, la dimensin del tiempo.Atributo: Es un nivel nico dentro de una dimensin, por ejemplo Mes en la dimensin del tiempo.Jerarqua: La especificacin de niveles que representa la relacin entre los diferentes atributos en una dimensin, por ejemplo, Ao->Trimestre->Mes->Da

www.EasyBI.cl8Conceptos GeneralesModelo de Dato OLTPFacturaClienteDet. FacturaProductoCiudadSexoEst. CivilSucursalwww.EasyBI.cl9Conceptos GeneralesDefinicin DataWarehouse e Inteligencia de Negocios.Sistemas OrigenOLAPReporting ETL, ELTUsuarios AvanzadosMinera de Datoswww.EasyBI.cl10Conceptos GeneralesReporting DataWarehouse

DataWarehouseReportingwww.EasyBI.cl11Conceptos GeneralesCaractersticas de un DataWarehouse

Orientado a TemasIntegradoHistricoLos datos son organizados por temas para facilitar el entendimiento a los usuarios.Todos los datos relativos a una misma entidad quedarn en una tabla.

Debido a que la informacin procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos.

Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempoNo VoltilUna vez introducida la informacin, debe quedar almacenada y disponible en formato solo lectura.

Conceptos GeneralesComponentes del Cubo OLAP

Tabla de HechosTabla de DimensionesAlmacena los indicadores del negocio (datos numricos), tanto bsicos como elementos calculados.Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relacin a las tablas de Hechos, pero pueden contener muchas ms columnas.

Una correcta y completa definicin de campos en la tabla de dimensiones puede ayudar a realizar anlisis robusto sobre los datos.Granularidad: Se refiere al mnimo nivel de informacin que ser almacenada en la tabla de hechos. Es el nivel de detallewww.EasyBI.cl13Conceptos GeneralesTopologa

EstrellaCopo de NieveLas dimensiones se relacionan directamente con la tabla de hechos.

Por lo general esta estrategia es utilizada cuando hay grandes volmenes de informacin y/o cuando existe un proceso robusto de administracin de Informacin (por ejemplo EIAD).Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.

Esta estrategia es mejor para la administracin directa en el modelo de DW.www.EasyBI.cl14Conceptos GeneralesModelo de Datos OLAP Copo de NieveVentasClienteProductoCiudadSexoEst. CivilSucursalTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de Hechoswww.EasyBI.cl15Conceptos GeneralesModelo de Datos OLAP EstrellaVentasCliente, Ciudad, Sexo, Est. CivilProductoSucursalTabla de HechosTabla de DimensionesTabla de DimensionesTabla de Dimensioneswww.EasyBI.cl16Conceptos GeneralesTipos de Tablas de Hechos.

SnapShotIncrementalCada perodo se agrega un registro para la entidad, sin remplazar ni modificar la foto del perodo anterior. Ejemplo: Balances, Deudas en el sistema financiero.Un registro por cada ocurrencia, pero la fila contiene mltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.TransaccionalUn registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones.Ejemplo: Sistemas de Ventas.www.EasyBI.cl17Conceptos GeneralesTipos de Dimensiones: Slow Changing Dimension

SCD N 1SCD N2SCD N 3Sobre escribir la informacin de la dimensin.No existe referencia histrica de los datos.

La clave de la dimensin es compuesta, registra, por cada cambio en la fila de la dimensin (o los campos que sean relevantes), un nuevo registro.

Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia.www.EasyBI.cl18Conceptos GeneralesTipos de Dimensiones: Otros tipos de dimensiones

Dimensin CompuestaRolJunta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solucin. Ejemplo: Tabla de clientes del modelo ejemplo.Cuando hay mucha informacin repetida en una tabla de Hechos, es posible quitar esta informacin y Factorizarla en una tabla de dimensin. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el anlisis sobre los datos.

www.EasyBI.cl19Conceptos GeneralesTipos de Dimensiones: Dimensin como Tabla de Hechos

Es posible encontrar tablas que cumplen la condicin de ser Hechos en un modelo, y Dimensin en Otro.

Por ejemplo una tabla de hechos que agrupe informacin de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos.

Estas son construcciones poco comunes, que surgen cuando el N de iteraciones de revisin de los modelos de DW son mayores a 2.www.EasyBI.cl20Conceptos GeneralesModelos de datos complejos: Constelaciones

Hechos 1Dim 2Dim 3Dim 1Hechos 2Dim 5Dim 4Hechos 2Dim 7Dim 6www.EasyBI.cl21Conceptos GeneralesEstrategias de Almacenamiento OLAP

MOLAPROLAPHOLAPMultidimensional OLAP Almacenamiento Multidimensional.Requiere alta utilizacin de disco.Optimizado para consultas rpidas.

Relational OLAP Almacenamiento en Base Relacional.Alta escalabilidad.Rpida adaptabilidad a cambios en las definiciones

Hybrid OLAP Mezcla de ambas estrategias.www.EasyBI.cl22Conceptos GeneralesTecnologa Disponible.

Bases de Datos RelacionalesBases de Datos Columnares.Permite la implementacin de ROLAP, los proveedores de bases de datos estn haciendo esfuerzos por mejorar esta tecnologa para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimizacin para consultas de tipo Star Join).Diseadas especialmente para implementar soluciones de tipo analticas, a diferencia de la anterior, estas B.D. almacenan la informacin por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresin de datos. (Ej. SyBase IQ).www.EasyBI.cl23Conceptos GeneralesTecnologa Disponible.

Bases de Datos Dimensionales.Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harn los usuarios, por lo cual los tiempos de respuesta sern muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilizacin en ambientes muy dinmicos. Ej. SQL Server Analysis Services.Bases de datos NoSQLTodas las anteriores tienen la informacin estructurada. Estas bases de datos estn diseadas para buscar informacin sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de informacin que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus bsquedas).www.EasyBI.cl24Conceptos GeneralesOptimizacin.

ndicesCompresin de DatosParticionamientoAdministrar correctamente los ndices puede mejorar el rendimiento en forma importante.Estadsticas de utilizacin entregada por herramientas puede ayudar a definir la estrategia de indexacin.La compresin de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados.Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de accesoDiscosOptimizar los discos fsicos, por ejemplo de Estado Slido.www.EasyBI.cl25Conceptos GeneralesOptimizacin.

Diseo InicialSurrogate KeyUn buen diseo desde el inicio del proyecto ayudar a disminuir las tareas de administracin y correccin de datos.

Un buen diseo, segn Kimball, debe tener entre 5 a 15 dimensiones.Utilizar claves numricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en bsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas.www.EasyBI.cl26Conceptos GeneralesDefinicin Datamart

DatamartEs un almacn de datos con informacin referida a un rea de estudio especfica, algunas veces vinculada solamente a un rea de la empresa.Su estructura permite trabajar con millones de registrosEn teora, puede ser implementado en cualquier base de datos (incluso en Excel).www.EasyBI.cl27Conceptos GeneralesEstrategias para la Implementacin

InmonKimballPropone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organizacin, para luego desarrollar Datamart departamentales que resuelvan las problemticas locales de cada rea.Propone definir e implementar los datamart de cada rea, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo.www.EasyBI.cl28Business Intelligencewww.EasyBI.cl29DefinicionesBusiness IntelligenceDescribe a la coleccin, preparacin y distribucin de datos para informes, control de gestin, anlisis, supervisin y planificacin del rendimiento empresarial.Fuente: BI Survey.Conjunto de estrategias y herramientas enfocadas a la administracin y creacin deconocimientomediante el anlisis dedatosexistentes en unaorganizacinoempresa.Fuente: Wikipedia.www.EasyBI.cl30Administracin de Entornos Complejos

BICCSSBIBusiness Intelligence Competency CenterSelf-Service Business IntelligenceBusiness IntelligenceAnalytic at WorkMetodologa Thomas DavenportBICCBusiness IntelligenceProblema que Resuelve.Existen mltiples iniciativas de BI en una organizacin sin conexin alguna, lo que en ocasiones genera muchos problemas de coordinacin y de versin nica de la verdad.CaractersticasEs una solucin permanente, conformada interna y formalmente en una organizacin, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional.BeneficiosExplota de mejor forma la inversin existente de BICoordina y consolida las diversas iniciativas de BIPermite reaccionar rpidamente a cambios del negocio.Reduce los riesgos en la implementacin de nuevas iniciativas BIApoya a los usuarios en el entendimiento completo del negocio a travs de diversos anlisis.

BICC

Business IntelligenceBICCBusiness IntelligenceData StewardshipAdministracin de Metadata. Estndar, Calidad y Arquitectura de los datosSupportResolver dudas y problemas de usuarios tcnicos y de negocio.BI DeliveryDesarrolladores de interfaz de usuario, reporting, pruebas y mantencin de lgica de negocio en las aplicaciones.Data AcquisitionDesarrolladores de integracin y almacenamiento de datos, realizando pruebas y mantencin.Advanced AnalyticsMinera de Datos, modelos estadsticos, optimizacin, text mining y presupuestacin.TrainingEntrenamiento y capacitacin para miembros de proyectos y usuarios de negocios.Vendor Contracts managementAdministrador de licencias de aplicaciones y actualizaciones.BICCBusiness Intelligence

Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)Self-Service BISelf Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser ms independiente y menos dependiente de un rea de TI.

Problema: Tiempo de respuesta de reas de TI son un cuello de botella impide el desarrollo de BI como hoy lo conocemos.

La solucin:Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y anlisis por ellos mismos, con mnima intervencin de TIFuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWIBusiness IntelligenceSelf-Service BIEstas facilidades deben estar enfocadas en cuatro objetivos

Fcil acceso a fuentes de datos para reportes y anlisis.Herramientas de BI fciles de usar y soporte mejorado para anlisis de datos.Rpido de implementar.Datamart Fcil de administrar.Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWIBusiness IntelligenceSelf-Service BIBusiness IntelligenceAnalytic at WorksBusiness Intelligence

reas de BI: Administracin del Tiempo.Business IntelligenceLa prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las mejoras y proyectos internos del reaLas urgencias son parte importante del trabajo diarioBusiness IntelligenceModelos de ComparacinBI Maturity levels (IBM)Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)Business IntelligenceModelos de ComparacinThe BI Competency Center Organizing for SuccessFuente: Gartner ResearchEntender el NegocioMejorar el NegocioCambiar el NegocioEntenderRetener y ApalancarNuevas fuentes de IngresosMetaObjetivoAlinear el NegocioEficiencia, consistencia, Rentabilidad