UNIVERSIDAD TÉCNICA DE MACHALA
FACULTAD DE INGENIERÍA CIVIL
ESCUELA DE INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
POR:
ING. BERTHA MAZÓN, MG. SC.
EL ORO – ECUADOR
2012
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 2
ÍNDICE GENERAL
RESUMEN ............................................................................................................................................... 5
INTRODUCCIÓN ................................................................................................................................. 6
OBJETIVOS ................................................................................................................................................ 6
GENERAL ............................................................................................................................................... 6
ESPECÍFICOS: ..................................................................................................................................... 6
CAPÍTULO I .......................................................................................................................................... 7
INTRODUCCIÓN A SOLUCIONES DE INTELIGENCIA DE NEGOCIOS ......................... 7
1.1.INTRODUCCION .............................................................................................................................. 8
1.2. NECESIDAD DE INFORMACIÓN Y CONOCIMIENTO EN UNA EMPRESA ................... 8
1.2.1.Las empresas en la era de la información .................................................................... 8
1.2.2. El Valor de la Información ................................................................................................. 9
1.2.3. ¿Por qué las Organizaciones Requieren Distintos Sistemas deInformación?10
1.2.4. Información que las empresas necesitan según los niveles organizacionales
................................................................................................................................................................ 12
1.2.5. Objetivos de la información ............................................................................................ 13
1.2.6. Usuarios en los niveles de gestión una organización .......................................... 13
1.2.7. Tipos de preguntas en los niveles de gestión una organización ..................... 13
1.2.8. Cantidad de datos en los diferentes niveles de una organización ................... 14
1.3. INTELIGENCIA DE NEGOCIOS ................................................................................................ 14
1.3.1. Evolución de la Inteligencia de Negocios ................................................................... 14
1.3.2. Definiciones de Inteligencia de Negocios .................................................................. 15
1.3.3. Arquitectura de Inteligencia de Negocios .................................................................. 16
1.3.4. Sistemas de Información Ejecutiva y Sistemas de Soporte a lasDecisiones 18
1.3.4.1. Sistemas de Información Ejecutiva .................................................................... 18
1.3.4.2. Sistema de Soporte de Decisiones ..................................................................... 20
1.4. HERRAMIENTAS PARA INTELIGENCIA DE NEGOCIOS .................................................. 24
1.4.1 HERRAMIENTAS PROPIETARIAS ................................................................................... 24
1.4.2 HERRAMIENTAS OPEN SOURCE...................................................................................... 29
1.4.3. COMPARATIVA DE HERRAMIENTAS BI PROPIETARIAS VERSUS
OPENSOURCE .................................................................................................................................... 34
1.4.3.1. DETERMINACIÓN DE CATEGORÍAS Y CAPACIDADES DE COMPARACIÓN
DE HERRAMIENTAS BI ............................................................................................................... 34
1.4.3.2. CUADRO COMPARATIVO ENTRE HERRAMIENTAS DE BI PROPIETARIAS
VERSUS OPEN SOURCE ............................................................................................................. 37
1.4.3.3. RESULTADOS DE LA COMPARACIÓNENTREHERRAMIENTAS DE BI
PROPIETARIAS VERSUS OPEN SOURCE.............................................................................. 40
CAPÍTULO II ...................................................................................................................................... 42
DATA WAREHOUSE Y DATA MARTS ........................................................................................ 42
2.1. INTRODUCCIÓN ........................................................................................................................... 43
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 3
2.1.1 Concepto de data warehouse .......................................................................................... 43
2.1.2. Problemas que dan origen a un Data Warehouse .................................................. 44
2.1.3. Beneficios Asociados al Data Warehouse .................................................................. 45
2.2. Data warehouse versus Sistemas Transaccionales (OLTP) ......................................... 45
2.3. Introducción a Datamarts (Tienda de datos) ................................................................... 47
2.4. Arquitectura Datawarehouse (DW) ...................................................................................... 47
2.5. Metodologías de diseño y construcción de data warehouse ....................................... 48
2.6. El Proceso ETL .............................................................................................................................. 50
2.7. El Procesamiento Analítico en Línea (OLAP) ..................................................................... 50
CAPÍTULO III .................................................................................................................................... 60
DISEÑO Y CONSTRUCCIÓN DE UNA SOLUCIÓN DE INTELIGENCIA DE
NEGOCIOS .......................................................................................................................................... 60
3.1. INTRODUCCIÓN ........................................................................................................................... 61
3.2. METODOLOGÍA UTILIZADA PARA DISEÑAR DATA WAREHOUSE .............................. 61
3.3. METODOLOGÍA HEFESTO ......................................................................................................... 61
3.4. PASOS Y APLICACIÓN METODOLÓGICA HEFESTO ......................................................... 62
PASO 0.ESTUDIO PRELIMINAR ................................................................................................... 62
PASO1.ANÁLISIS DE REQUERIMIENTOS ................................................................................ 63
PASO 2. ANÁLISIS DE OLTP’S ..................................................................................................... 65
PASO 3. MODELO LÓGICO DEL DATA WARE HOUSE ......................................................... 68
PASO 4. DISEÑO DEL PROCESO ETL ........................................................................................ 68
3.5. CREACIÓN DE CUBOS MULTIDIMENSIONALES ............................................................... 70
3.6. DISEÑO DEL SSDPARA EL D. ACADÉMICO DE LA UTSAM (FRONTEND)................ 72
3.6.1. Diagrama de casos de uso del sistema ...................................................................... 72
3.6.2. Diagrama de componentes basado en capas del sistema Ginus BI ................ 72
3.7. IMPLEMENTACIÓN DEL SOFTWARE ..................................................................................... 73
3.8. INTERFACES DEL SOFTWARE ............................................................................................ 74
GLOSARIO ........................................................................................................................................... 80
ÍNDICE DE TABLAS
Tabla 1. Estudio Comparativo Entre Herramientas de BI Propietarias Versus Open Source .......................... 39
Tabla 2. Diferencias entre sistemas transaccionales y basados en data warehouse. .................................... 47
Tabla 32: Campos del MER GINUS y organizados por perspectivas .......................................................... 67
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 4
ÍNDICE DE FIGURAS
Figura 1.Arquitectura Típica de Soluciones Business Intelligence. ...................................... 16
Figura 2.Características de un EIS. ................................................................................................... 19
Figura 3. Características de un DSS. ................................................................................................ 20
Figura 4.Cuadrante mágico de las Plataformas BI. ..................................................................... 24
Figura 5.Arquitectura BI de IBM Cognos. ...................................................................................... 25
Figura 6.Arquitectura BI de Microsoft. ............................................................................................. 26
Figura 7.Arquitectura BI de OBIEE. ................................................................................................... 27
Figura 8.Arquitectura BI de SAP BusinessObjects XI 3.1. ........................................................ 27
Figura 9.Arquitectura BI de Microstrategy ...................................................................................... 28
Figura 10.Arquitectura BI de SAS ...................................................................................................... 29
Figura 11.Arquitectura BI de Pentaho .............................................................................................. 30
Figura 12.Arquitectura BI de JasperSoft.......................................................................................... 31
Figura 13.Arquitectura BI de Eclipse BIRT ...................................................................................... 31
Figura 14.Arquitectura BI de SpagoBI .............................................................................................. 32
Figura 15.Arquitectura BI de Palo ...................................................................................................... 33
Figura 16.Arquitectura BI de Openi ................................................................................................... 33
Figura 17. Estructura básica Data warehouse ............................................................................... 48
Figura 18.Arquitectura bottom-up de un DW ................................................................................ 49
Figura 19.Arquitectura top-down de un DW................................................................................... 49
Figura 20. Ejemplo de Cubo con tres dimensiones. .................................................................... 52
Figura 21. Arquitectura básica para OLAP. ..................................................................................... 53
Figura 22. Modelo estrella..................................................................................................................... 54
Figura 23. Modelo copo de nieve. ...................................................................................................... 55
Figura 24. Ejemplo de un almacén formado por 4 data marts. .............................................. 55
Figura 25. Un esquema de estrella.................................................................................................... 56
Figura 26. Un esquema copo de nieve. ............................................................................................ 57
Figura 29.Arquitectura de la Metodología HEFESTO ................................................................... 61
Figura 31.Modelo Conceptual ............................................................................................................... 65
Figura 32.Correspondencia en el Diagrama de Entidad Relación Base de datos GINUS66
Figura 32.Modelo Conceptual Ampliado del DW GINUS BI ....................................................... 67
Figura 33.Modelo Lógico del DW GINUS BI .................................................................................... 68
Figura 35.Proceso Extracción, Transformación y Carga (ETL) al DW del sistema GINUS
BI .................................................................................................................................................................... 70
Figura 35.Cubos del sistema GINUS BI ............................................................................................ 71
Figura 37.Estructura delos Cubosdel sistema Ginus BI ............................................................. 71
Figura 38.Diagrama de casos de uso del sistema Ginus BI ..................................................... 72
Figura 38.Diagrama de componentes basado en capas del sistema Ginus BI .................. 73
Figura 40. Pantalla de Inicio de sesión al GINUS BI ................................................................. 74
Figura 41. Pantalla Principal de GINUS BI .................................................................................... 74
Figura 42. Explorar jerarquía de una carrera .............................................................................. 75
Figura 43. Generar gráfico estadístico ........................................................................................... 75
Figura 44. Matriculados por años y gráfico estadístico ............................................................ 76
Figura 45.Matriculados por modalidad, año 2008 y clasificados por escuela en
formato PDF ................................................................................................................................................ 77
Figura 46.Matriculados por modalidad, año 2008 y clasificados por escuela en
formato EXCEL ........................................................................................................................................... 77
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 5
RESUMEN
El propósito de este módulo es el estudio de bases de datos avanzadas como los
almacenes de datos (Data warehouse) que faciliten, a su vez, el desarrollo de
Sistemas de Toma de Decisiones (SSD) aplicando herramientas de Inteligencia de
Negocios (BI. Business Intelligence). Hoy en día, existen herramientas BI propietarias
y open source, en cada caso poseen ventajas y desventajas; sin embargo los altos
costos de las herramientas propietarias las convierten de exclusividad de las grandes
empresas; en cambio, las herramientas BI opensource actuales proveen la
funcionalidad suficiente para implementar SSD en PYMES sin mucha inversión. La
mayoría de las herramientas BI, se componen de una infraestructura software de
análisis e informes, integrada a un motor de workflow, capaz de ejecutar reglas de
negocio, presentar y entregar la información adecuada en el momento adecuado,
mediante tecnología OLAP, cuadros de mando y otras funciones más.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 6
INTRODUCCIÓN
En el presente módulo se ha estructurado algunos capítulos los cuales se describen a
continuación:
Capítulo I. INTRODUCCIÓN A SOLUCIONES DE INTELIGENCIA DE NEGOCIOS.
Capítulo II. DATA WAREHOUSE Y DATA MARTS.
Capítulo III. DISEÑO Y CONSTRUCCIÓN UNA SOLUCIÓN DE INTELIGENCIA DE
NEGOCIOS.
OBJETIVOS
GENERAL
Desarrollar soluciones de inteligencia de negocios aplicando metodologías y
herramientas de diseño y construcción data warehouse, cubos OLAP, proceso
ETL y reporting con el propósito de proveer información estadística, resumida y
con una presentación dinámica y oportuna como soporte para la toma de
decisiones en los niveles directivo y gerencial de una organización..
ESPECÍFICOS:
Conceptualizar y caracterizar terminología de Inteligencia de Negocios
mediante la revisión de material de diferentes fuentes.
Diseñar data marts y data warehouse aplicando una metodología de estrella o
copos de nieve.
Diseño y construcción de una solución de inteligencia de negocios que incluya:
almacén de datos (data warehouse), cubos OLAP, proceso ETL y un sistema de
toma de decisiones (SSD) que provea la información adecuada según los
requerimientos de los mandos táctico y estratégico de una organización.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 7
CAPÍTULO I INTRODUCCIÓN A SOLUCIONES
DE INTELIGENCIA DE NEGOCIOS
OBJETIVO:
Realizar una introducción a la Inteligencia de Negocios mediante la
conceptualización y caracterización de términos propios del tema.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 8
1.1.INTRODUCCION
En el último decenio del siglo XX e inicios del siglo XXI, la humanidad ha asistido con
asombro a profundas transformaciones en las relaciones económicas nacionales e
internacionales, en el campo del conocimiento científico-tecnológico y en la
globalización de la economía que ha establecido y sigue determinando una nueva
estructura empresarial, con un avance vertiginoso por alcanzar altos estándares de
productividad y calidad en las operaciones cotidianas de sus empresas.
La Inteligencia de Negocios (Business Intelligence BI), es una alternativa tecnológica y
de administración de negocios, que permite manejar la información para la toma de
decisiones acertadas en todos los niveles de una organización, desde la extracción,
depuración y transformación de datos, hasta la explotación y distribución de la
información mediante herramientas de fácil uso para los usuarios. En el ámbito
empresarial, las decisiones se toman en alguno de los tres niveles organizacionales:
estratégico, táctico u operativo. Las decisiones estratégicas se centran en la
dirección del negocio a largo plazo siendo labor de los ejecutivos de alta gerencia. Las
decisiones tácticas corresponden a los gerentes de nivel medio y se enfocan en la
planeación, análisis y producción de proyectos; a nivel operativo los empleados toman
decisiones cotidianas que se requieren para convertir los planes en acción.
En esta sección se muestra los principios claves de los fundamentos teóricos para un
mejor entendimiento de la asignatura. Se comienza con una introducción de las
necesidades de información de las empresas actuales, se muestra la importancia de
una buena información para la toma de decisiones y el alcance de dicha información
en una empresa. Luego se presenta una visión general de la Inteligencia de Negocios,
Datawarehousing, OLAP y Data Mining.
1.2. NECESIDAD DE INFORMACIÓN Y CONOCIMIENTO EN UNA EMPRESA
Las empresas actualmente caracterizan a la información como uno de sus activos
(Bitam, 2002), es así, que se comienza a tratarla, especialmente aquella relacionada
con datos para tomar decisiones, de una manera más metodológica. A continuación se
exponen brevemente algunos conceptos relacionados con la información y su
importancia estratégica para la toma de decisiones en las empresas.
1.2.1. Las empresas en la era de la información
Desde que las organizaciones comenzaron a guardar los datos de sus operaciones en
medios de almacenamiento físico, con el fin de permitirles una mayor administración y
control de la información, ha existido una necesidad de utilizarla para atender las
necesidades propias del negocio.
La información y su importancia estratégica comenzó a surgir cuando la competencia
se hizo muy fuerte, y cada vez más y más productos similares, de diferentes
compañías, se ponían a la venta, en ese momento el consumidor tuvo la opción de
seleccionar aquello que más le conviniera o lo que más se adecuara a sus gustos y
preferencias. Surge entonces la necesidad de brindar servicios adicionales para
obtener la lealtad de los clientes, quienes poco a poco comenzaron a ver, no solo el
producto que compraban, sino cómo eran atendidos, qué garantías se ofrecían sobre
su compra, qué ventajas habría entre diferentes productos y, en general, evaluar todo
lo que genera la diferenciación entre las compras que realizan. Cuando las empresas
no tienen garantizada la venta de lo que producen, realizan un cambio paulatino hacia
obtener de los datos toda la información útil y estratégica para mantenerse en el
mercado, dándole un lugar preponderante al cliente.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 9
Actualmente, se le da un peso específico muy importante a la información como el
principal conocimiento que sostiene el negocio. Existen empresas que, de modo
predominante, ofrecen servicios y giran su negocio principal sobre el manejo de la
información (bancos, aseguradoras, casas de bolsa, internet, etc.), en ellas es fácil
identificar la importancia de la información, si no existiera ésta dejarían de existir. Sin
embargo, hay otras en las que su giro principal es alrededor de la producción, en ellas
la información debe identificarse para analizar y perfeccionar su producción
(porcentajes de desecho, líneas de producción, distribución de materias, suministro,
inventarios y almacenes, procesos internos, publicidad y mercadotecnia, preferencias
del cliente, etc.). De hecho, en cualquier empresa se está tratando de convertir, por
todos los medios posibles, esa información en conocimiento que mejore los procesos
y, a su vez, se traduzca en ventajas competitivas en los mercados.
La idea de las empresas ávidas de información no surge de súbito, en realidad desde
que se almacenan los datos debe entenderse que tendrían un fin utilitario en algún
momento, caso contrario, cualquier dato de control sería desechado
instantáneamente. Lo que si surge de súbito es la imprescindible necesidad de dar
respuesta rápida a los requerimientos de información para la toma de decisiones para
ayudar a mejorar de alguna manera los procesos internos de negocio (Bitam, 2002).
1.2.2. El Valor de la Información
En la época actual, que se caracteriza por un crecimiento exponencial de las nuevas
tecnologías de la información y las telecomunicaciones, los activos más valiosos de
una empresa ya no son activos tangibles o los depósitos en los bancos, sino los
conocimientos, habilidades, valores y actitudes de las personas que forman parte de
una empresa. De hecho, para generar riqueza es suficiente tener conocimiento sobre
un tema determinado y explotarlo de la mejor manera posible. Los factores de la
producción como capital, tierra y trabajo, han sido sustituidos por el capital
intelectual, que comprende todos aquellos conocimientos tácitos o explícitos que
generan valor económico para la empresa.
Prácticamente nadie cuestiona el hecho de que vivimos en la Era de la Información y
que la información tiene un valor económico, esto se evidencia porque existen
empresas cuyo único negocio es alrededor de la venta de información, como por
ejemplo Gartner Group, Empresas de Internet y Amazon, entre otras. En
mercadotecnia, el conocimiento es el único camino posible para sostener ventajas
competitivas. Es más, en la actualidad, la información y el conocimiento son
considerados como el capital intelectual que soporta la riqueza de una organización.
Para identificar el valor concreto de la información en la organización se pueden
realizar dos evaluaciones:
a. Todas las corporaciones tienen un modelo del mundo de negocios basado en la
información que poseen, por ejemplo: ¿qué influencia la compra y la demanda?,
¿en dónde hay oportunidades de negocio?, ¿qué es lo que mueve la calidad del
producto y la demanda de los clientes? A medida que esta información se vuelve
más exacta, la capacidad de la empresa para competir se incrementa. Visto así, la
información corporativa es claramente un activo de la empresa que genera valor y
su inexistencia genera "desvalor", o sea, pérdidas en caso de que existiera la
información y ésta desapareciera, o bien, "no ganancias" en caso de que no exista.
b. Otra forma de entender la información como dinero es mediante su transformación
en conocimiento tácito o explícito. El conocimiento tácito es el que tienen las
personas producto de la experiencia, los estudios y la educación; los conocimientos
explícitos son los que se almacenan en medios magnéticos como cintas y
disquetes.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 10
En el momento que una persona decide cambiar de empleo se está llevando consigo
información, conocimientos y está vendiendo su fuerza intelectual por un mayor
precio; el campo laboral nos indica que la fuerza de trabajo intelectual aumenta su
costo con dos factores básicos que generan conocimiento: la experiencia y la
educación. Por su parte, si un sistema que posee información eventualmente
desaparece o falla, generará pérdidas a la empresa, incluso porcada minuto que esté
detenido. En la actualidad las empresas están apostando mucho por la tecnología y los
individuos para que juntos tengan un conocimiento suficiente que acerque la visión
interna de ambos a la realidad exterior, en la medida que esa brecha disminuye, las
decisiones tomadas se acercan más a la realidad exterior, generando decisiones más
correctas y en menos tiempo; si la brecha o "gap de información" aumenta, puede
ocasionar grandes pérdidas para la organización.
Es fácil entenderlo, suponiendo una situación hipotética en la cual un nuevo auto es
diseñado con lujo, pero con algunos toques de un auto deportivo y, sin realizar ningún
tipo de estudio previo más que la intuición y el sentido común, se pretende lanzarlo
para que sea adquirido por adultos mayores de 30 años. Para ello, una vez que se
encuentra listo para la distribución, comienzan las campañas de publicidad y
presentaciones orientadas precisamente a ese mercado potencial.
Al cabo de cierto tiempo se dan cuenta que las campañas que lanzaron no han tenido
mucho impacto en ese segmento, pero curiosamente un porcentaje similar de las
ventas a la fecha se han dado en personas entre 25 y 30 años. La realidad indica que
ese auto tiene un impacto mayor en un segmento distinto al que suponía. En caso de
haber tenido información suficiente sobre las preferencias delos distintos segmentos,
la historia de las ventas y, sobre todo, un estudio previo de mercado se habría sabido
con anticipación hacia dónde dirigir los esfuerzos dela publicidad con dos resultados
benéficos: en primer lugar, la publicidad no habría sido inefectiva y el dinero utilizado
en las campañas no se habría desperdiciado; y en segundo lugar, se habría atendido a
los verdaderos clientes potenciales, con lo cual las ventas habrían sido mayores. El
ejemplo es hipotético, pero la situación es muy similar a la cotidianeidad, muchas
empresas utilizan el sentido común y la intuición para tomar decisiones, la información
que se traduce en conocimientos acerca la visión interna a la realidad y esa diferencia
existente es la que puede representar miles o millones de dólares. Lo que se pretende
es acercar el mundo real a la visión interna para generar ganancias, para convertir la
información en utilidades, para darle un valor a la información.
Si la información es un activo, debemos poder asignarle un valor económico. La
pregunta que surge inmediatamente es cómo podemos asignarle un valor económico a
la información. Dado un mercado libre, la primera respuesta es que el valor de la
información es lo que en el mercado se pague por ella. Este recurso simple, basado en
el valor percibido, muchas veces es suficiente para asignarle un valor a la información,
sin embargo, no es suficiente en otros casos, por ejemplo, en el caso de una pieza de
información que no vende y que es utilizada únicamente en procesos internos de toma
de decisiones.
La importancia de una buena información puede ser vista como la diferencia en valor
entre una decisión correcta y una decisión equivocada, en donde la decisión está
basada en esa información. Mientras más grande sea esa diferencia entre decisión
correcta y errónea, mayor será la importancia de contar con una buena información
(Bitam, 2002).
1.2.3. ¿Por qué las Organizaciones Requieren Distintos Sistemas de
Información?
Para tener completamente automatizada a la empresa es necesaria una gran
infraestructura en tecnología que soporta sistemas de información. Este crecimiento
tecnológico tiene distintos orígenes, que van desde la implementación, crecimiento,
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 11
ampliación, integración, etc. Las condiciones actuales de los mercados han provocado,
la necesidad de tecnología cada vez más avanzada para responder a las peticiones
muy particulares de información.
Sistemas de Procesamiento de Datos (SPD o OLTP), Sistemas de Manufactura,
Administración de Recursos Empresariales (ERP), Sistemas de Información Ejecutiva
(EIS), Sistemas de Soporte a las decisiones (DSS), Sistemas Gerenciales, Manejo de
Relación con Clientes (CRM), Suministro de la Cadena de Distribución (SCM), son
algunos de los sistemas que surgen, se ponen de moda y luego algunos desaparecen
acorde a la evolución de las empresas. Lo que es un hecho, independientemente del
enfoque que esté de moda o sea más útil en el momento, es que los datos siempre
serán almacenados en bases de datos y esos datos serán el soporte total a las
decisiones de la empresa.
Muchos negocios requieren información de su actividad específica, por ejemplo, los
ERP (Administración de Recursos Empresariales) son sistemas muy grandes y
complejos en donde gran parte de su contenido se dedica a la producción, sería ilógico
adquirir un sistema tan complejo y costoso si la empresa se dedica a los bienes raíces.
En ese mismo sentido existen desarrollos comercializados como productos que solo
son configurados en una organización en particular, pero tienen el funcionamiento
mínimo necesario para cierta industria. Hay software para la industria automotriz,
software para hoteles, comercio minorista, transporte, software educativo, entre
otros. El motivo por el cual son distintas las herramientas utilizadas obedece a que las
actividades demisión crítica, que soportan cada una de las industrias son diferentes y
como tal, también es distinto el tipo de información que puede solicitar un directivo en
cada una de las industrias, motivo por el cual hay muchos productos de software
dedicados a explotar la información de las bases de datos que no tienen características
estándares, sino más bien son adaptables a cada situación.
Considerando las distintas necesidades en cada actividad, es fácil extrapolar la misma
situación a cada empresa, incluso con actividades similares, pero lo importante es
entender el último nivel en cuanto a la diferenciación de la información solicitada.
La información que fluye en una empresa está destinada a responder a diversos tipos
de preguntas de sus usuarios, de ahí la necesidad que existan sistemas de información
para requerimientos muy específicos que permitan la recolección y el manejo de
datos.
En el interior de una empresa, los puestos son factores importantes para determinar la
información que comúnmente es requerida por la gente.
Los sistemas de procesamiento de datos (OLTP) hacen uso de medios de
almacenamiento y técnicas para poblarlos. La mayoría de las empresas, por la
cantidad de información que manejan, se basan en los OLTP para guardar muchos
datos y tener tiempos de respuesta cortos a los cientos de transacciones realizadas
cotidianamente, sin embargo, la eficiencia no es para la consulta masiva de grandes
cantidades de información y mucho menos para el análisis dela misma. La tecnología
ha tenido que adaptar los medios de que se vale para que sean eficientes en el ámbito
específico de aplicación, tanto para el diseño de estructuras de datos que ordenen la
información como se desea, como en las herramientas o software que permite
solucionar en tiempo y forma lo que el usuario demanda. Es importante resaltar que
todos los Sistemas de Información tienen un fin muy particular, y se complementan
para sostener, de la manera más eficiente, un negocio; sin embargo, no todos pueden
solucionar las distintas demandas de los usuarios, precisamente porque son diseñados
para alguna área de aplicación muy específica.
El motivo por el cual existen varios sistemas de información es porque los usuarios
tienen preguntas muy específicas que no cualquier sistema puede resolver. De hecho,
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 12
las bases de datos operacionales, que son las indispensables en cualquier
organización, no están organizadas para responder a preguntas globales sino a
pequeños grupos de datos. Preguntas que involucren consultas complejas podrían
resolverse en un lapso extenso, en el cual cabe la posibilidad de que la vigencia
desaparezca. Lo importante es destacar que una base de datos o sistema de
información no tienen la capacidad de resolver las necesidades informativas de toda la
organización (Bitam, 2002).
1.2.4. Información que las empresas necesitan según los niveles
organizacionales
La tendencia de las organizaciones actuales es demandar información en los niveles
donde antes la administración se basaba en la intuición y el sentido común para tomar
decisiones. A pesar de que en los niveles operativos siempre se ha demandado
información, históricamente no ha existido restricción alguna para brindarla al usuario.
Más bien los mercados dinámicos han obligado a las empresas para que la información
estratégica sea puesta en las computadoras de los directivos, este comportamiento se
ha generalizado principalmente motivado por la facilidad y utilidad de la información
compartida. En estos momentos la información fluye en todos los niveles de la
organización con diferentes fines (comunicación, control, administración, evaluación,
etc.) independientemente de los puestos. Las empresas están entendiendo que los
niveles directivos tienen una gran responsabilidad al tomar decisiones, pues el impacto
que generan recae sobre toda la organización, pero también existen más personas que
toman decisiones y, a pesar de que éstas no tienen un impacto global, deben ser
también correctas y oportunas, pues ciertos grupos dependen de las mismas.
Directores, gerentes, supervisores, jefes, todos aquellos que toman decisiones deben
tener suficiente información para apoyarse en su trabajo cotidiano, el lugar que
ocupen en la pirámide organizacional se vuelve secundario cuando el enfoque es hacia
el manejo de procesos y todos los puestos tienen cierta relación y dependencia entre
sí.
De modo general en una pirámide organizacional, los requerimientos informativos se
dividen en 3 partes:
Información Estratégica
Información Táctica
Información Técnico Operacional.
Información Estratégica
Está orientada principalmente a soportar la Toma de Decisiones de las áreas directivas
para alcanzar la misión empresarial. Se caracteriza porque son sistemas sin carga
periódica de trabajo y sin gran cantidad de datos, sin embargo, la información que
almacenan está relacionada a un aspecto cualitativo más que cuantitativo, que puede
indicar como operará la empresa ahora y en el futuro, el enfoque es distinto, pero
sobre todo es distinto su alcance. Se asocia este tipo de información a los ejecutivos
de primer nivel de las empresas.
Un punto importante es que la información estratégica toma grandes cantidades de
datos de áreas relacionadas y no se enfoca específicamente hacia una sola, de ahí que
las decisiones que puedan ser tomadas impactan directamente sobre toda la
organización.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 13
Información Táctica
Información que soporta la coordinación de actividades y el plano operativo de la
estrategia, es decir, se plantean opciones y caminos posibles para alcanzar la
estrategia indicada por la dirección de la empresa. Se facilita la gestión independiente
de la información por parte de los niveles intermedios de la organización. Este tipo de
información es extraída específicamente de un área o departamento de la
organización, por lo que su alcance es local y se asocia a gerencias o subdirecciones.
Información Técnico Operacional
Se refiere a las operaciones tradicionales que son efectuadas de modo rutinario en las
empresas mediante la captura masiva de datos y Sistemas de Procesamiento
Transaccional. Las tareas son cotidianas y soportan la actividad diaria de la empresa
(contabilidad, facturación, almacén, presupuesto y otros sistemas administrativos).
Tradicionalmente se asocian a las Jefaturas o Coordinaciones operativas o de tercer
nivel.
Si consideramos factores internos y externos de una organización podríamos concluir
que los requerimientos actuales se orientan a conocer y mejorar los costos de toda la
cadena económica. Estos requerimientos se reflejan en el interés por tener a la mano
los diagnósticos que arrojen información específica y clave para determinada área de
conocimiento, en el menor tiempo posible. La tendencia es que las áreas directivas
necesitan en su escritorio la información clave de su empresa; en todos los niveles el
requerimiento es similar aunque, evidentemente, tiene objetivos diferentes. El
paradigma de la información exclusiva en los niveles directivos para apoyar la toma de
decisiones no es obsoleto, simplemente se debe mejorar y complementar agregando
la información también en otros niveles medios y jefaturas, o sea, en cualquier
persona que tenga el poder de tomar decisiones (Bitam, 2002).
1.2.5. Objetivos de la información
El objetivo del usuario operativo es que se le facilite y automatice la operación de una
función específica de la empresa; el de un estratega es maximizar la función de la
empresa.
1.2.6. Usuarios en los niveles de gestión una organización
El usuario es distinto incluso en la misma pirámide organizacional. Mientras los
sistemas operativos tienen interfaces muy especializadas para un usuario que realiza
una operación rutinaria, los usuarios estratégicos realizan consultas variadas y no
previstas de la información, por lo que los sistemas deben ser sencillos y con toda la
información disponible que cubra cualquier consulta requerida, de este caso el
software final debe ser orientado a un usuario en particular y, por ende, deberá
adecuarse al conocimiento que tenga sobre el tema.
1.2.7. Tipos de preguntas en los niveles de gestión una organización
Las preguntas que responde un sistema operacional son referentes a las transacciones
que se realizan diariamente y a nivel registro o suma de registros de un solo tipo. Un
usuario operativo realiza frecuentemente preguntas sobre registros como pueden ser
el estado actual de una factura, movimientos de un cliente, cantidad surtida por un
proveedor, fecha del último movimiento de un distribuidor, etc. Las preguntas de un
ejecutivo pueden también ser específicas, pero se orientan más a agrupamientos de
datos como pueden ser totales por zona, promedios de clientes, tendencias de ventas
e incluso pronósticos. Toda esta información se encuentra de alguna forma en los
almacenes operativos, pero lanzar una consulta como las ventas totales del año
anterior puede implicar hasta días en resolverse y otro tiempo para publicar los datos.
Un sistema organizado para resolver preguntas de ambos tipos en el menor tiempo
posible es lo ideal.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 14
1.2.8. Cantidad de datos en los diferentes niveles de una organización
Si un usuario procesa la información de las transacciones se mueve en el nivel
registro. Si un usuario procesa información de entidades, se mueve en el nivel
agrupamientos de registros, obviamente la cantidad de datos que se necesitan es
distinta y debe ser un sistema diferente el que provea de esa información. Para que un
director o gerente, quien necesita conocer las transacciones de toda una zona para
tomar una decisión, pudiera analizar cierto comportamiento, serían necesarias muchas
hojas de reportes con cientos de datos. El usuario operativo que necesita pocos
registros no tiene mayor problema por recibir una hoja de reportes, pero el directivo si
tendría problemas con una cantidad exagerada de papeles. Se necesitan sistemas que
brinden no solo la cantidad ideal de información según el usuario, sino también que la
entreguen en tiempos óptimos.
Resumiendo, existe una gran necesidad de información en muchos niveles de las
organizaciones, pero hasta el momento no existe un sistema de información que esté
diseñado para dar respuesta cabal a todos ellos. Cada sistema da respuesta a una
parte de los requerimientos de toda la empresa para que, en conjunto, no quede un
espacio vacío de información ni en tiempo, ni en forma.
1.3. INTELIGENCIA DE NEGOCIOS
La Inteligencia de Negocios (Business Intelligence - BI) es un concepto que hace
referencia a las técnicas de análisis de datos destinados a encontrar información útil
para la toma de decisiones, incluido el conjunto del software que aportan las
interfaces y funciones necesarias que apoyan dicho proceso.
1.3.1. Evolución de la Inteligencia de Negocios
Los sistemas de información son bastante recientes si los comparamos con otras áreas
de conocimiento. Inicialmente, con la introducción de las computadoras en la década
del 60, las aplicaciones se corrían de forma individual en archivos maestros que
almacenaban los datos en medios magnéticos, con la limitante del acceso secuencial.
El problema del acceso secuencial es la necesidad de recorrer todos los registros antes
de encontrar el que se está buscando. Además, al almacenar operaciones individuales,
pronto existió una cantidad enorme de cintas y medios de almacenamiento con
redundancia, que hacía difícil su administración.
En la década del 70, cuando aparecen los dispositivos de almacenamiento de acceso
directo, se da un gran paso en cuanto a la velocidad para acceder a los datos, pues
con ellos las búsquedas ya no eran lineales, sino directas. Junto con ello también
aparecen sistemas de administración de bases de datos (DBMS), cuyo propósito era
facilitar al programador el acceso a la información al encargarse del almacenamiento e
índices. En ese entonces se definió a la base de datos como "una fuente única de
información para todo el procesamiento".
Tanto la implementación de las bases de datos para el procesamiento en línea como
las nuevas tecnologías y lenguajes de cuarta generación (4GL), proveyeron al usuario
la facilidad de tener el control directo de los sistemas y la información, dando origen a
los primeros Sistemas de Información formales. Pero también fueron el inicio del
paradigma de una sola base de datos que pudiera servir tanto al procesamiento
operativo como al procesamiento de alto nivel.
La información almacenada en las bases de datos mantiene el registro total de lo que
sucede en la organización. Cuando un usuario operativo desea consultar transacciones
unitarias o pequeños grupos de transacciones, se puede acceder directamente y
extraer la información en un lapso muy breve (milisegundos); si la base de datos no
es muy extensa, incluso un gerente puede también realizar una consulta (vía
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 15
asistentes) que traiga información resumida sobre muchos registros e, incluso, sobre
toda la base de datos, los tiempos para consultas de ese tipo son muy razonables
(segundos). ¿Pero qué pasa cuando los datos sobrepasan los límites permisibles para
tener la información disponible?
Algunos de los factores causales de que las bases de datos se volvieran poco
operativas para consultas extensas son las fusiones, la globalización, las alianzas, la
diversificación de productos, el crecimiento exponencial de las empresas y, en general,
todas las condiciones derivadas de la evolución natural de las empresas que trajo
consigo un aumento cuantitativo de los datos que se necesitaba almacenar. A esto hay
que agregar que las herramientas o software necesario para obtener la información
eran muy especializados y rara vez una persona que toma decisiones tenía el
background necesario para manipular información.
La información primitiva se volvió muy extensa y poco práctica para cierto tipo de
consultas, había que desarrollar nueva tecnología que permitiera derivar información
calculada o sumarizada para satisfacer las necesidades de la administración, además,
la información primitiva representa el valor actual, es utilizada y operada en procesos
repetitivos, por lo tanto, es posible su modificación. La información derivada no puede
ser actualizada porque, normalmente, contiene valores históricos, es operada y
utilizada por procesos que se ejecutan aleatoriamente. La información primitiva es
operacional apoyando las funciones de empleados de línea, la información derivada es
para el soporte de decisiones que normalmente apoya a administradores y ejecutivos.
Teniendo tantas diferencias es complicado entender que la misma información pueda
residir en una misma base de datos. De hecho así fue, la gente que toma decisiones
demandó respuesta a sus necesidades en los almacenes operativos encontrando
muchas limitantes en tiempo y forma, a fin de cuentas es posible satisfacer los
requerimientos, pero no como los necesita quien toma decisiones, la tecnología
intervino para desarrollar arquitecturas especializadas para que resida la información
según su tipo y que sea operada por el software adecuado para desempeñar sus
funciones.
Inteligencia de Negocios (BI) es un concepto que se asocia 100% con los niveles
directivos, surge de la necesidad de contar con información para dirigir el rumbo de la
empresa por los altos mandos, sin embargo, con el tiempo se ha ido ampliando el
alcance de este término hasta llegar prácticamente a toda la empresa.
A pesar de relacionar completamente el término con conceptos 100%
computacionales, sobre todo las herramientas utilizadas para lograr implementar un
desarrollo de este tipo, la verdad es que el concepto no se construye basándose en
herramientas computacionales, sino de la formulación de estrategias efectivas de
negocios que respondieran a los nuevos tiempos y sus demandas. El énfasis es en los
requerimientos y de ahí se desprenden las aplicaciones, es decir, los hombres de
negocio dictan las necesidades y la gente técnica investiga y adapta la tecnología para
resolver favorablemente esos requerimientos con todos los medios a su alcance. BI se
plantea una sinergia entre los Tomadores de Decisiones y las herramientas que
emplean, la tecnología está claramente vinculada al management de las empresas,
teniendo como resultado obtener ventajas competitivas, producto de decisiones mejor
informadas. En función de esta se puede entender a BI como una combinación de
tecnología y desarrollo de negocios (Bitam, 2002).
1.3.2. Definiciones de Inteligencia de Negocios
Como muchos otros conceptos o términos, el de Inteligencia de Negocios no escapa a
la diversidad de interpretaciones. Se justifica su uso y se entiende el que sea
considerado como una Tecnología de Información, pero no existe un acuerdo en
cuanto a su definición.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 16
Según la empresa Abits (2005, http), la “Inteligencia de Negocios, es una alternativa
tecnológica y de administración de negocios, que permite manejar la información para
la toma de decisiones acertadas en todos los niveles de la organización, desde la
extracción, depuración y transformación de datos, hasta la explotación y distribución
de la información mediante herramientas de fácil uso para los usuarios”.
Según Nader J. (2006), "Es el conjunto de tecnologías que permiten a las empresas
utilizar la información disponible en cualquier parte de la organización para hacer
mejores análisis, descubrir nuevas oportunidades y tomar decisiones más
informadas."
1.3.3. Arquitectura de Inteligencia de Negocios
Según Rodríguez I. La “Inteligencia de Negocios se compone de diferentes
tecnologías que se integran para formar una solución empresarial, los componentes se
orientan a transformar los datos en información oportuna y confiable para el usuario
final, por consiguiente, una arquitectura BI se divide en las siguientes capas: Sistemas
Fuentes, Capa DataWarehouse y la Capa BI”.
Figura 1. Arquitectura Típica de Soluciones Business Intelligence.
Fuente: Rodríguez I.
Sistemas Fuentes. Los datos administrados por los sistemas de aplicación
operacionales son la fuente principal de datos para el data warehouse. Estos sistemas
son los encargados de recolectar información diaria de las tareas operativas de la
organización. Estos datos operacionales constituyen la base de todo sistema business
Intelligence ya que de estos dependen la calidad de información que se entregue al
usuario final. En muchas ocasiones también se requiere de datos externos para
alimentar al sistema como hojas electrónicas, archivos de texto, debido a que algunas
áreas de la institución no se encuentran automatizadas por lo que no cuentan con un
sistema transaccional donde almacenar los datos.
Capa Data Warehouse. La capa data warehouse es el centro de la arquitectura en
un sistema business intelligence, que se encarga de organizar y almacenar los datos
para el análisis de los mismos.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 17
Capa Business Intelligence. Comprende un conjunto de herramientas necesarias
para comprender los datos y utilizarlos para tomar decisiones inteligentes.
Proporcionan toda la funcionalidad de análisis y creación de informes empresariales
dirigidos a una amplia gama de posibles usuarios. Algunas de estas herramientas son:
Query and Reporting, Cuadros de mando, OLAP y Datamining.
Analizando las definiciones, queda primeramente claro que BI no es una metodología,
software, sistema o herramienta específica, es más bien un conjunto de tecnologías
que van desde arquitecturas para almacenar datos, metodologías, técnicas para
analizar información y software entre otros, con un fin común para el apoyo a la toma
de decisiones. A partir de elementos comunes, podemos obtener una definición que
abarca BI en cuando a su utilidad y funcionalidad en las empresas.
A. Información
Es la esencia de BI. El fin último es proveer de información al usuario final para
apoyarlo en la toma de decisiones, y esta información puede provenir tanto de los
almacenes operacionales como de arquitecturas diseñadas específicamente para el
análisis como Data mart y Data warehouse. El usuario puede necesitar información de
cualquier fuente primitiva o derivada para apoyarse en su labor, para lo cual BI utiliza
o construye fuentes de datos o de información interna o externa, que son la principal
materia prima de esta Tecnología.
B. Apoyo a la toma de Decisiones
Un sistema que exclusivamente brinde información no representa lo que se busca con
BI, una segunda característica consiste en organizar y presentar los datos relevantes
para que puedan verdaderamente apoyar una Toma de Decisiones. Esto implica
tecnologías, técnicas de análisis y todo aquello que sea necesario para obtener de los
datos, solo aquella información relevante y útil a la labor del usuario. Recordando el
origen de BI, surge en la toma de decision espara obtener ventajas competitivas
producto de decisiones mejor informadas. Si su origen cae en el desarrollo de
negocios, es lógico entender que BI sea un apoyo para tal efecto. BI abarca cualquier
forma de organizar información, siempre y cuando sostenga la Toma de Decisiones.
C. Orientación al Usuario Final
Un factor que incidió en la tecnología BI para explotar información fue que el usuario
final no poseía conocimientos técnicos que le permitieran tener un acceso sencillo y
directo a los datos operacionales, pues esa área está reservada para informáticos. Por
tal motivo, el usuario final no tenía de primera mano la información que necesitaba y
las consultas no definidas, que son las que tradicionalmente realiza un ejecutivo, eran
realizadas por terceras personas (léase secretarios, asistentes técnicos o gente de
sistemas) con la dependencia consecuente. BI incluye herramientas de explotación de
información orientadas a usuario final, para eliminar la dependencia de terceras
personas. Se pretende brindar las facilidades necesarias para que, con la tecnología, el
usuario actúe solo. Las herramientas de BI son sencillas, intuitivas y fáciles de
entender y usar; pueden tener diversos fines, como son: Informar, reportar, permitir
análisis, identificar tendencias, proyectar, etc. Cualquiera que sea su función final, el
común es el mismo: orientación a usuario final. Considerando los elementos comunes
en cualquier definición, puede implementarse una definición más acabada.
Inteligencia de Negocios es una combinación de tecnologías de colección de datos y
manejo de información, que implementa soluciones orientadas al usuario final para
apoyar la toma de decisiones, aprovechando la información estratégica disponible en
cualquier parte de la organización.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 18
Para la colección de datos usa o construye almacenes de datos y los maneja con
técnicas de análisis y herramientas orientadas al usuario final. Los almacenes de datos
son las fuentes operacionales (bases de datos, archivos de texto, hojas de cálculo,
administradores de archivos, etc.), bases de datos operacionales, bases de datos
externas, data warehouse y data marts. Las técnicas de análisis principales son los
Sistemas de Información Ejecutiva (EIS), Sistemas de Soporte de Decisiones (DSS),
Data Mining y Herramientas de Reportes, estas últimas a veces forman parte de las
anteriores.BI es un término "agrupador". El que sea considerado como un conjunto de
conceptos le da un poder enorme, pues pueden integrarse funciones que
tradicionalmente estaban separadas, tales como el acceso de datos, reportes,
explotación, pronóstico y análisis. De ese modo, al menos en la actualidad en
empresas grandes, BI se ha convertido en un apoyo indispensable para la Toma de
Decisiones, en cualquier nivel de la organización y mucha gente está explotando el
potencial estratégico de los datos operativos. Bien utilizada, BI puede ser un arma
estratégica de la gente de negocios, sustentada en tecnología de sistemas (Bitam,
2002).
1.3.4. Sistemas de Información Ejecutiva y Sistemas de Soporte a las
Decisiones
A continuación se realiza una explicación de las características principales delos
Sistemas de Información Ejecutiva (Executive Informations System-EIS-) y delos
Sistemas de Soporte a las Decisiones (Decision Support System -DSS-) que por medio
de estos tipos de sistemas se brinda información de toma de decisiones a los usuarios
finales.
1.3.4.1. Sistemas de Información Ejecutiva
En la década del 90, desde que las grandes empresas iniciaron su camino para que
sus ejecutivos manipularan la información como deseaban para lograr una visión
completa del negocio, hubo muchos intentos y malas acogidas motivadas por razones
de tecnología, costos o simplemente cultura. El Data Warehouse fue un esquema de
información que mantenía datos para efectos exclusivamente de análisis y
estadísticos, con este avance en el almacén, los esfuerzos se centraron en utilizarlo y
proveer de la información que necesitaba el ejecutivo. Los primeros intentos se
centraron en la incursión al mercado de soluciones con alarmas, instrumentos de
consulta, sistemas expertos y mucho más, pero la evolución, incluso a la fecha, es
alcanzar a colocar en una pantalla la mayor cantidad posible de datos para realizar
análisis gráficos, visuales y rápidos basados en técnicas de consolidación,
agrupamiento y tendencia. Esto dio origen a los Sistemas de Información Ejecutiva
(Bitam, 2002).
¿Qué es un EIS?
EIS se refiere a cualquier sistema de software que muestre información ejecutiva de
las diferentes áreas del negocio en un solo sistema, facilitando el monitoreo de la
empresa. El EIS es una técnica de más alto nivel dentro de las herramientas de BI.
Tiene como objetivo primordial proveer de toda la información necesaria a la gente
que toma decisiones, de modo fácil y prácticamente con una mínima interacción con el
sistema. En términos formales, "un EIS es un sistema de información que permite a
los ejecutivos acceso rápido y efectivo a información compartida, crítica para el
negocio, utilizando interfaces gráficas". Las interfaces que son utilizadas en estos
sistemas deben ser más sofisticadas que los sistemas transaccionales y deben incluir,
en el menor número de páginas posible, la mayor cantidad de información que el
usuario necesita para monitorear su empresa.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 19
¿Qué debe contener un EIS?
Las partes importantes de un EIS son: la interfaz de usuario y la base de datos
multidimensional, esto montado en una arquitectura Cliente/Servidor. La figura 11
muestra las características principales de un EIS.
Figura 2.Características de un EIS.
Fuente: Nader, J.,2003
Interfaz Gráfica y fácil de usar. posean interfaces gráficas sencillas, que
tengan una curva de aprendizaje corta y, además, deberán ser vistosas e
intuitivas para facilitar la labor de monitoreo del tomador de decisiones.
Alarmas o semáforos. Un típico EIS cuenta con funciones que le permiten al
usuario notar rápidamente los errores y los valores destacables de la
información.
Tableros de Control. El Tablero de Control es una herramienta que en un
principio utilizaba indicadores financieros para permitir desarrollar diferentes
procesos de negocio. Su especialización ha tomado el camino hacia el CMI
(Cuadro de Mando Integral), que ya es una poderosa herramienta para
dirección, que no solo utiliza indicadores financieros, sino también los no
financieros para dirigir de forma proactiva a la empresa en la consecución de
objetivos a mediano y largo plazo.
Administración de una sola página. De la mano del Tablero de Control, la
Administración de una sola página significa colocar el mayor número posible de
indicadores destacables de la empresa en el menor número posible de páginas,
además, permitir la navegación hacia otras páginas con más información, ya
que, es prácticamente imposible colocar toda la información valiosa en un solo
lugar.
Integración de información proveniente de los cubos. El usuario tiene
muchas veces la necesidad de tener información proveniente de múltiples
sistemas o bases de datos. De hecho, para tomar una decisión estratégica es
necesario poseer información de toda la empresa, no solo de una parte de ella.
Un EIS debe permitir integrar información de cualquier aplicación y
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 20
presentársela al usuario final de una forma transparente para él. Esto es la
base para no moverse entre aplicaciones, al integrar la información de
múltiples fuentes de información es posible la Administración de una Sola
Página en un Tablero de Control, el no hacerlo representa una limitante al
usuario con la consecuencia de moverse hacia otras pantallas e, incluso, hacia
otras aplicaciones con información dispersa.
1.3.4.2. Sistema de Soporte de Decisiones
A continuación de define que es un DSS y se detallan las principales características de
este tipo de sistemas.
¿Qué es un DSS?
Los límites y el concepto de un DSS no han sido completamente precisados, a pesar
de que la utilidad ha sido justificada en las organizaciones. Su uso indiscriminado con
frecuencia lo lleva a rebasar límites de su aplicación y confundirse con términos como
OLAP, Data Warehouse o EIS, lo cierto es que, independientemente, del término que
llegue a utilizar, siempre se asocia al soporte a la toma de decisiones y, de alguna
forma, todos los conceptos señalados tienen en la toma de decisiones el punto de
encuentro (Bitam, 2002).
"DSS se refiere a cualquier sistema de software que permite análisis de las
diferentes variables del negocio para apoyar una decisión."
Características de un DSS
Figura 3. Características de un DSS.
Fuente: Nader, J.,2003
Análisis Multidimensional (OLAP)
El análisis multidimensional no es privativo de arquitecturas multidimensionales,
puede también llevarse a cabo en arquitectura relacional, diseñada para tal caso, lo
importante para poder hacer Análisis Multidimensional no son las bases de datos, sino
la estructura de la base de datos y las técnicas que se utilicen para su explotación.
Dentro de los niveles estratégicos organizacionales, la información se concibe como
una serie de hechos multidimensionales, jerárquicos y relacionados; como ejemplo,
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 21
los datos de inventarios, ventas y compras están interrelacionados y dependen entre
si. La idea del análisis multidimensional es facilitar la consulta y análisis al usuario al
presentar una visión muy sencilla de los datos, muy similar a la forma como él ve la
organización. La información puede ser accedida desde diferentes variables
organizacionales y mostrando diferentes las perspectivas(pivotear).
Herramientas de Reportes
En este apartado se presenta una introducción a uno de los componentes quedan
soporte a la Inteligencia de Negocios, que son los reportes y las herramientas para su
construcción. A continuación se explica el estado actual de los reportes, su necesidad
y las características principales que deben reunir las herramientas que los construyen
y administran.
Estado Actual de los Reportes
Tradicionalmente, los reportes han sido el medio principal para disponer de
información. Tanto reportes en papel como en el escritorio, el usuario depende de
ellos para comunicar a la gente lo que está ocurriendo en la empresa vía los
almacenes de información. Los reportes tienen en las bases de datos su principal
fuente de alimentación y han brindado al usuario final entendido éste como cualquier
persona que requiera un reporte, la posibilidad de consultar y publicar lo que las bases
de datos poseen, la limitante que siempre ha existido en este sentido es que el
generar un reporte implica manejar algunas habilidades técnicas relacionadas con las
bases de datos y las herramientas de software.
Los reportes o las consultas son requeridos por cualquier persona dentro de la
organización, de hecho, no es una labor que esté limitada a un nivel jerárquico
opuesto. Cuando un usuario con poca preparación técnica (secretarias, ejecutivos,
etc.) requiere de un reporte o consulta, lo hace vía terceros, el tradicional entorno es
hacer la solicitud de información a sistemas y obtenerla después de cierto tiempo, el
tiempo puede ser irrelevante o puede significar la pérdida de vigencia de la
información solicitada.
El usuario técnico realiza los reportes y para ello necesita conectarse a la base de
datos, posteriormente, diseñar el formato requerido y, al final, obtener los datos.
Tanto la conexión a la base de datos como la construcción del formato del reporte son
tareas de sistemas, la obtención de datos se comparte con el usuario final, con esta
lógica se entiende que el usuario final no puede manipular sus reportes en caso de
necesitar modificaciones o adecuaciones al mismo, por lo tanto continúa la
dependencia, incluso, para modificaciones mínimas.
Los usuarios con algunas habilidades computacionales pueden hacer uso delas
herramientas de reportes orientadas a los usuarios de sistemas, pero solo para
obtener reportes sencillos, no el tradicional reporte complejo que es el más útil,
además, la gente que toma decisiones no debe perder su tiempo en procesarla
información para después analizarla.
Algunas de las limitantes propias de la generación de reportes en la actualidad son:
Integración
Los reportes complejos que necesitan de más de una fuente de información se realizan
extrayendo los datos en un primer momento y, posteriormente, procesándolos en una
herramienta que los integre (hojas de cálculo, archivos de texto, Access, etc.). Esto
implica preparar la información antes de que se encuentre lista para ser enviada al
usuario y la preparación normalmente llevan horas o hasta días con la consecuente
pérdida de tiempo en funciones secundarias improductivas.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 22
Distribución
Los reportes se imprimen y posteriormente se distribuyen de forma manual o
mediante fax. También se generan en pantalla y, luego, se envían mediante fax o
correo electrónico, con lo que hay dos actividades involucradas que generan pérdida
de tiempo en su ejecución: la publicación y la distribución.
Dependencias de sistemas
Las bases de datos se construyen en general para ser eficaces al almacenar datos no
para consultarlos. Los lenguajes de consulta se adaptan a la estructura de las bases
de datos. En función del conocimiento necesario, tanto de las bases de datos a
consultar como de los lenguajes técnicos necesarios, el usuario final no está en
posibilidad real de obtener su propia información, por tal motivo la dependencia de
gente de sistemas es muy grande y provoca el que se tengan los reportes cuando la
gente de sistemas dispone de tiempo y recursos para hacerlo, visto de otro modo, si la
gente de sistemas no lo hace, el usuario final no los tendría a la mano.
Seguridad
Al dejar en manos de terceros la generación de reportes se puede incurrir en que la
información valiosa para la empresa pueda ser filtrada y utilizada por personas que no
son los directamente interesados en utilizarla. Un reporte de sueldos y prestaciones de
los empleados, solicitado por Recursos Humanos, puede ser un detonante de conflictos
en manos de inconformes.
Herramientas de consulta y reportes
Las herramientas de consulta y reportes (Query & Reporting Tools) son una categoría
de herramientas de BI. Con las herramientas de reportes orientadas al usuario final se
pretende mejorar la obtención de información mejorando el área de sistemas al
disminuir una capa intermedia entre complejidad técnica y usuario final.
Las herramientas de reportes orientadas al usuario final son software que aíslala
compleja capa técnica propia del lenguaje de sistemas, tal como lenguaje SQL,
uniones de tablas y nombres crípticos, al organizar los datos de la terminología de
negocios. El resultado es que el usuario final o intermedio tiene una vista mucho más
parecida a su concepción del negocio, o al menos lo suficiente como para poder
generar sus propios reportes y publicación de los mismos, sin depender delos usuarios
técnicos.
El usuario de sistemas continúa participando, pero básicamente en el control sobre el
acceso a bases de datos, administración, mantenimiento, seguridad, impacto en la red
e incluso, creación única de reportes complejos; el usuario final tiene solo un ambiente
amigable en el que es posible crear sus propias consultas y reportes. Una herramienta
de reportes puede también publicar los datos que se encuentran almacenados en un
Data Warehouse. Desde ese punto de vista, se brinda con la tecnología, la posibilidad
de que el usuario final no solo consulte y publique la información a detalle, sino
información concentrada y agrupada; de ahí que también sea considerada como el
soporte último para el máximo nivel de detalle de un DSS.
Cierta duda ha surgido en cuanto a la verdadera posibilidad para que el usuario final
realice sus reportes y posteriormente los explote. Definitivamente depende del nivel
en el cual ubiquemos al usuario final y, evidentemente, del nivel de conocimientos en
materia de computación que pueda tener. Un usuario final puede ser cualquier
persona que requiera hacer una consulta o reporte y éste puede ir desde una
secretaria, un asistente, un gerente o un director, cualquiera que necesite información
procesada de fuentes de datos es un usuario potencial.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 23
Sin embargo, a pesar de que el manejo de una herramienta como Excel se ha
considerado un estándar que pueda utilizar cualquier administrativo de cualquier nivel,
no todas las personas pueden decir que verdaderamente saben utilizar, para fines
prácticos, esa herramienta. Precisamente, para ese tipo de usuarios, las herramientas
de reportes no serán útiles más que para explotar los reportes que previamente se
hayan realizado, es decir, ejecutar reportes. Otro tipo de usuario, con algunos
conocimientos, si podrá construir sus propios reportes, que siguen siendo tarea de
gente de sistemas, pues requieren de un procesamiento de la información antes de
que sea "pintada" y, para ello, son necesarios procedimientos externos a los datos con
lenguajes de consulta altamente técnicos.
Dependiendo del nivel del usuario puede disminuirse o eliminarse la dependencia de
sistemas y pueden las herramientas de reportes mantener 3 niveles de dificultad:
Usuarios poco expertos (gerentes tácticos, directores ejecutivos) quienes
solicitan la ejecución de reportes o consultas predefinidas, según parámetros
predeterminados.
Usuarios con cierta experiencia (asistentes, gerentes operativos, secretarias
especializadas) pueden generar consultas o reportes flexibles, apoyándose en
una interfaz gráfica intuitiva.
Usuarios muy experimentados (sistemas) pueden crear e incluso escribir, total
o parcialmente, la consulta en un lenguaje de consulta.
Características de una herramienta de reportes
Una herramienta de reportes orientada al usuario final debe también poseer algunas
utilidades adicionales que faciliten la generación y publicación de reportes.
Intuitivo
Como cualquier herramienta de BI, la característica común es su facilidad de uso e
intuición. Con apoyo en interfaces gráficas y visuales, un usuario con una formación
estándar podrá hacer uso de una herramienta de este tipo.
Seguridad
Deben brindar seguridad para el acceso a los reportes, tanto a nivel usuario como por
grupos e, incluso, en el grado de profundidad de cada usuario a la información. Esto
con la idea de que la información privada no sea accesible por cualquier persona.
Publicación y distribución.
Una función importante de las herramientas es eliminar la doble actividad de ejecutar
y publicar primero un reporte y, posteriormente, distribuirlo a quien lo necesita. La
publicación de una consulta normalmente se realiza mediante fax, correo electrónico,
archivo e, incluso, de mano en mano. El objetivo con las nuevas herramientas es
facilitar estas actividades. En el momento que un usuario pueda ejecutar, desde
cualquier lugar, una consulta y mandarla imprimir on-site, se está eliminando la doble
función de publicación y distribución. Las herramientas de reportes deben permitir
realizar consultas desde su PC en modo Cliente / Servidor, Intranet o Internet e
imprimir cualquier consulta.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 24
Navegación
La interrelación de reportes es también frecuente para generar sistemas basados en
reportes y reportes auxiliares. La navegación entre ellos mediante ligas e hipervínculos
es una funcionalidad más.
Programación automática
Generación de instrucciones para que los reportes se ejecuten automáticamente e
incluso se distribuyan mediante correo electrónico.
Reportes dinámicos
Permitir el ingreso de parámetros de valor que hagan un reporte flexible y dinámico en
el momento de su ejecución. Con esto se economizan esfuerzos al ejecutar muchas
consultas a partir de un solo reporte.
Reportes por excepción
Para no consultar una cantidad muy grande de información debe existir la posibilidad
de brindar reportes por excepción, es decir, lo que no cumplan con las condiciones de
generalidad.
1.4. HERRAMIENTAS PARA INTELIGENCIA DE NEGOCIOS
1.4.1 HERRAMIENTAS PROPIETARIAS
EL CUADRANTE MÁGICO
Figura 4. Cuadrante mágico de las Plataformas BI. Fuente: Gartner, 2009. http://mediaproducts.gartner.com/reprints/oracle/article56/article56.html
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 25
Según el informe de investigación “Magic Quadrant for Business Intelligence
Platforms” presentado por la empresa Gartner en enero del 2009 (ver Figura 13), se
observa que las plataformas de BI predominantes siguen siendo propietarias,
destacándose Cognos de IBM, Microsoft, Oracle, SAP, SAS, Micro Strategy e
Information Builder.
A continuación se describen y se muestra la arquitectura de las plataformas BI
propietarias más relevantes:
COGNOS
COGNOS: Proveedor de tecnología y servicios para el
Business Intelligence (BI) y la Gestión del
Rendimiento, ofrece una plataforma basada en
estándares abiertos para generación reportes, análisis
y scorecards que se integran con los presupuestos,
planes, proyecciones e informes financieros
conducidos por finanzas.
Figura 5. Arquitectura BI de IBM Cognos. Fuente: IBM Cognos. http://www.cognos.com/nl/products/now/architecture.html
MICROSOFT
La plataforma Business Intelligence de Microsoft comprende
aplicaciones de servidor, cliente y programador. Está
basada en Microsoft SQL Server 2008, que incluye
administración de bases de datos relacionales, SQL Server
Integration Services, SQL Server Analysis Services, SQL
Server ReportingServices y las capacidades de análisis de
datos SQL Server Data Mining y está integrada con la
plataforma de desarrollo Microsoft Visual Studio 2010 y con
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 26
Microsoft Office 2010.
Figura 6. Arquitectura BI de Microsoft. Fuente: Microsoft. http://www.microsoft.com/bi/aboutbi/default.aspx
ORACLE
ORACLE BUSINESS INTELLIGENCE SUITE ENTERPRISE
EDITION (OBIEE):
Integra tecnología de Siebel con Oracle Fusion Middleware.
Incluye: consulta y análisis relacional y OLAP de entornos
Oracle y de otros proveedores, herramientas de análisis y
consulta ad-hoc, dashboards analíticos, creación de
informes y herramientas de publicación, alertas en tiempo
real, capacidades analíticas para dispositivos móviles e
integración con las herramientas de escritorio de Microsoft.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 27
Figura 7. Arquitectura BI de OBIEE. Fuente: Oracle. http://www.b-eye-network.com/blogs/mcknight/
BUSINESS OBJECT DE SAP
La empresa SAP compró en el 2008 a Business Object,
convirtiéndose en un fuerte competidor de tecnologías
de inteligencia de negocios. Suministra a los usuarios
el poder acceder de forma sencilla a los datos, analizar
la información almacenada y creación de informes.
Figura 8. Arquitectura BI de SAP Business Objects XI 3.1.
Fuente: SAP. http://www.businessobjects.com
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 28
MICROSTRATEGY
MICROSTRATEGY provee soluciones a clientes de
cualquier industria y/o área funcional con el fin de
ayudarlos en la obtención de un mayor conocimiento
sobre la información manejada en su empresa.
Figura 9. Arquitectura BI de Microstrategy Fuente: Microstrategy. http://www.microstrategy.com
SAS
SAS provee una Plataforma de Inteligencia abierta y
extensible que sirve de base para la creación y
entrega de inteligencia a la organización; incluye
herramientas: ETL para extracción, transformación y
carga independiente a la plataforma; Intelligence
Storage para distribuir información a aplicaciones de
BI y analíticas desde SAS o terceros; SAS Enterprise
BI Server brinda acceso a la información en diferentes
formatos; SAS Analytic Technologies para manejo y
modelación de información analítica, algorítmica y
matemática.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 29
Figura 10. Arquitectura BI de SAS
Fuente: SAS. http://support.sas.com/documentation/cdl/en/biov/60947/HTML/default/a003069226.htm
1.4.2 HERRAMIENTAS OPEN SOURCE
El software libre dispone al día de hoy de casi todas las herramientas necesarias para
el trabajo informático. Incluso hay campos en donde su supremacía no se discute y ni
siquiera se contempla la posibilidad de usar otro tipo de software.
En el informe de investigación “Magic Quadrant for Business Intelligence
Platforms” presentado por la empresa Gartner en enero del 2009, que trata de un
estudio de mercado de las plataformas de inteligencia de negocios a nivel mundial, dio
seria consideración a la inclusión de proveedores de código abierto de BI; pero aún no
generan los suficientes ingresos para su visualización en el Magic Quadrant; sin
embargo, destacan la presencia en el mercado a Jasper Soft y Pentaho.
A continuación se describen los productos open source más relevantes para BI:
PENTAHO
De todas las iniciativas, la más completa es la de
Pentaho, que abarca una serie de componentes Open
Source muy utilizados y fiables: Mondrian OLAP
server, JPivot, Firebird RDBMS, Enhrydra ETL, Shark
and JaWE, JBoss, Hibernate, JBoss Portal, Weka Data
Mining, Eclipse, BIRT, JOSSO, Mozilla Rhino.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 30
Figura 11. Arquitectura BI de Pentaho Fuente: http://www.pentaho.com
JASPERSOFT
JasperSoft a través de su plataforma de BI en código
abierto JasperIntelligence proporciona productos
propios actualizados como: JasperAnalysis,
JasperReports, iReports, JasperETL y JasperServer.
JasperAnalysis, diseñado para proporcionar a las
empresas medianas análisis online en tiempo real de
grandes volúmenes de datos. JasperServer, dirigido a
la integración de fuentes de datos y otros servicios,
aporta funciones como scheduling y control de la
seguridad de acceso de los usuarios. JasperReports e
iReport incluyen un plug-in para JasperServer.
JasperSoftofrece sus productos sin coste y licencias
comerciales que incluyen soporte y servicios.
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 31
Figura 12. Arquitectura BI de JasperSoft Fuente: http://www.jaspersoft.com
ECLIPSE BIRRT
Actuate es una empresa que figura en el cuadrante
mágico y es miembro del proyecto Eclipse “Business
Intelligence and Reporting Tools (BIRT)”ofrece un
conjunto de herramientas open source para
desarrollar cuadros de mando y gestor de informes
avanzados, entre sus módulos destacan: BIRT Report
Designer Prof, BIRT Chart Engine SDK, BIRT Report
Engine.
Figura 13. Arquitectura BI de Eclipse BIRT Fuente: http://www.eclipse.org/birt/phoenix/
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 32
SPAGOBI
SpagoBIofrece un conjunto de nuevas
funcionalidades para apoyar actividades de usuarios
de toma de decisiones y operacional. Consta de 5
módulos: SpagoBI Server que abarca SpagoBI
Studio, un entorno de desarrollo único eintegrado,
SpagoBI Meta entorno enfocado en metadatos;
SpagoBI SDK para integración con aplicaciones
externas y Spago BI Applications para mantener los
modelos verticales de análisis.
Figura 14. Arquitectura BI de SpagoBI Fuente: http://spagobi.eng.it/ecm/faces/public/guest/home/solutions/spagobi
PALO DE JEDOX
La firma alemana Jedox presenta Palo como una
plataforma de código abierto para soluciones BI
basado en la planificación, análisis y presentación de
informes. Las soluciones que provee PALO son:
Indicadores de rendimiento clave (KPI), Gestión de
liquidez y Previsión, Presupuesto y Planificación y
Balanced Scorecards, Cockpits, Dash boards. Las
herramientas que integran esta plataforma son: Palo
OLAP Server, Palo ETL Server, Palo Supervisión
Server, Palo WorkSheet Server y Open-API
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 33
Figura 15. Arquitectura BI de Palo
Fuente: http://www.jedox.com/en/products/palo_olap_server/Introduction.html
OPENI.ORG
Openi es una aplicación de Inteligencia de Negocios, diseñado
para el uso basado en la web. Basado en J2EE y sus
aplicaciones corren sobre Apache Tomcat, OpenI es una
solución para la construcción y publicación de informes de
XMLA compatible con fuentes de datos OLAP, como Microsoft
Analysis Services o Mondrian. Su objetivo es proporcionar
análisis consolidado de los principales componentes de datos de
una aplicación inteligente, incluyendo: fuentes de datos OLAP,
bases de datos relacionales, modelos de datos estadísticos y
modelos de minería de datos.
Figura 16. Arquitectura BI de Openi
Fuente: http://www.openi.org/
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 34
1.4.3. COMPARATIVA DE HERRAMIENTAS BI PROPIETARIAS VERSUS
OPENSOURCE
1.4.3.1. DETERMINACIÓN DE CATEGORÍAS Y CAPACIDADES DE
COMPARACIÓN DE HERRAMIENTAS BI
Para el establecimiento del proceso comparativo, se realizó un estudio las diferentes
plataformas de inteligencia de negocios (BI) tanto propietarias como open source; por
otra parte se buscaron fuentes científicas que caracterizaran a la tecnología BI, tal es
el caso de la empresa Gartner que define una plataforma de BI como una plataforma
de software que debe ofrecer 12 capacidades clasificadas en 3 categorías:
“Integración, presentación de la información y Análisis”. A continuación se
describen las categorías con sus respectivas capacidades.
A. INTEGRACIÓN
1. Infraestructura BI. Todas las herramientas en la plataforma deben utilizar las
mismas normas de seguridad, los metadatos, la administración, la integración
del portal, el modelo de objetos, el motor de consulta y deben poseer
consistencia en el interfaz.
2. Gestión de metadatos. Herramientas para buscar, capturar, almacenar,
publicar y reutilizar objetos de metadatos tales como dimensiones, jerarquías,
medidas, parámetros de rendimiento y plantillas de diseño de informes. En
esta capacidad se incluye ETL y construcción de data marts.
o ETL. Es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base
de datos, data mart, o data warehouse para analizar, o en otro sistema
operacional para apoyar un proceso de negocio.
o Cubos de información (Data marts). Son subconjuntos de datos con
el propósito de ayudar a que un área específica dentro del negocio
pueda tomar mejores decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados de múltiples formas
para que diversos grupos de usuarios realicen la explotación de los
mismos de la forma más conveniente según sus necesidades.
3. Herramientas de Desarrollo - Una plataforma BI debe proporcionar un
conjunto de herramientas de desarrollo de aplicaciones BI que pueden ser
integrados en un proceso de negocio y / o incrustados en otra aplicación. Una
plataforma de BI también debe permitir a los desarrolladores construir
aplicaciones BI sin codificación mediante el uso de asistentes. El entorno de
desarrollo debería utilizar servicios Web para controlar el desempeño de las
tareas comunes tales como la programación, la entrega, la administración y la
gestión.
4. Flujo de trabajo (Workflow) y colaboración - Esta capacidad permite a los
usuarios de BI compartir y discutir información a través de carpetas públicas y
foros de discusión y realizar seguimiento de eventos o tareas asignadas a
usuarios específicos. A menudo, esta capacidad ha sido controlada mediante un
portal o herramienta de trabajo.
B. PRESENTACIÓN DE LA INFORMACIÓN
5. Presentación de informes (Reporting) - Permitir la posibilidad de crear
informes formateados, interactivos y altamente escalables en su distribución y
capacidad de programación. Además, los proveedores de plataformas BI deben
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 35
manejar una amplia gama de estilos de presentación de informes (por ejemplo,
financieros, operativos y paneles de rendimiento).
6. Paneles de administración o tableros (Dashboards).Proporcionan una
representación gráfica del rendimiento empresarial incluyendo todas las áreas
de actividad. Incluyen la capacidad de publicar la información de forma gráfica
e intuitiva como tablas, gráficos, indicadores o medidores, semáforos y otros
controles. Estas pantallas indican el estado de las métricas de rendimiento, en
comparación con una meta o valor objetivo. Cada vez más, los paneles se
utilizan para difundir en tiempo real los datos de las aplicaciones operacionales.
7. Consultas específicas (Ad hoc query).Esto implica que el sistema permite al
usuario personalizar una consulta en la base de datos en tiempo real, en vez de
estar atado a las consultas prediseñadas para informes. En particular, las
herramientas deben tener una sólida capa semántica o GUI que permita a los
usuarios navegar por las fuentes de datos disponibles. Además, estas
herramientas de consulta deberían ofrecer la capacidad de gestión y auditoría
para asegurar que las consultas funcionen bien.
8. Integración a distribución. A Microsoft Office. En algunos casos, se utilizan
plataformas de BI como un nivel medio para gestionar, asegurar y ejecutar
tareas de BI, pero Microsoft Office (especialmente Excel) actúa como cliente de
la BI. En estos casos, es indispensable que el proveedor de BI proporcione
integración con herramientas de oficina, incluyendo soporte para formatos de
documentos, fórmulas, refrescamiento de datos y tablas de pivote.
C. ANÁLISIS
9. OLAP(On-Line Analytical Processing).Permite a los usuarios finales un uso
más eficaz de los data warehouse para el análisis de datos en línea, lo que
proporciona respuestas rápidas a consultas analíticas complejas e iterativas
utilizadas generalmente para sistemas de ayuda para la toma de decisiones;
ofrece la capacidad de consultar y estudiar las diferentes dimensiones de un
conjunto de datos relacionales, multidimensionales o híbridos.
10. Visualización avanzada (Advanced visualization). Proporcionar la
capacidad de mostrar numerosos aspectos de los datos de manera más
eficiente mediante el uso interactivo de imágenes y gráficos, en lugar de filas y
columnas.
11. Modelado predictivo y data mining. Esta capacidad permite a las
organizaciones clasificar por categorías a las variables y estimar su continuidad
utilizando avanzadas técnicas matemáticas e inteligencia artificial.
12. Tableros de Control (Scorecards).Proporcionan una representación visual
de los indicadores claves de rendimiento (KPI): métricas cuidadosamente
seleccionadas que permiten a las empresas medir y gestionar el rendimiento
alineado sus objetivos estratégicos (planificación). Además, debe permitir crear
un número ilimitado de KPI’s basándose en una metodología específica, como
Balanced Scorecard, Six Sigma, gestión basada en actividades o un diseño
empresarial concreto.
Debido a que las 3 categorías y 12 capacidades definidas por Gartner corresponden a
la Capa BI y Capa Data Warehouse(según Rodríguez I.) y teniendo en consideración
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 36
que la arquitectura de una solución de inteligencia de negocios abarca también las:
Fuente de Datos, entonces se ha visto conveniente incluir la categoría de
“Aprovisionamiento” y “Plataformas de soporte”.
D. APROVISIONAMIENTO
13. Fuentes de datos. Los datos administrados por los sistemas de aplicación
operacionales son la fuente principal de datos para el data warehouse. Estos
sistemas son los encargados de recolectar información diaria de las tareas
operativas de la organización. Es posible dividir las fuentes de información en
las siguientes: (1) Información generada por los sistemas transaccionales, (2)
Información externa, (3) Información generada por los departamentos de la
empresa que no corresponden a un sistema transaccional oficial, (4) Datos
tomados de bases de datos relacionales que forman parte de los sistemas
transaccionales. Estas fuentes pueden ser de varios tipos, dependiendo del
tamaño de la organización y de los niveles de tecnología y sistemas de
información que se utilicen en la empresa.
E. PLATAFORMAS DE SOPORTE
14. Sistemas operativos. Que soporta la plataforma BI
15. DBMS Servers para Data Warehouse. Sistemas manejadores de bases de
datos que brinde soporte a almacenes de datos.
16. Servidor web y/o aplicaciones web. Que las aplicaciones de BI corran en
servidores web o servidores de aplicaciones web.
Además de las categorías citadas se incluye el factor costo como un indicativo
preponderante a la hora de decidir por una u otra plataforma.
F. COSTO
17. Costo de Licencia. Involucra el precio de la Licencia(s) de la plataforma BI
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 37
1.4.3.2. CUADRO COMPARATIVO ENTRE HERRAMIENTAS DE BI PROPIETARIAS VERSUS OPEN SOURCE
Categorías y Capacidades de Comparación de soluciones BI
Plataformas de Business Intelligence Propietarias Plataformas de Business Intelligence Open Source
IBM
CO
GN
OS
Mic
roso
ft
OB
IEE
(Ora
cle
)
SAP
B
usi
ne
ss
Ob
ject
Mic
rost
ra-
tegy
SAS
Pe
nta
ho
Jasp
erS
oft
Eclip
se
BIR
T
Spag
oB
I
Jed
ox
Pal
o
Op
en
i
A. INTEGRACIÓN
1. Infraestructura BI COGNOS MS BI OBIEE Business Object
Microstra-tegy SAS Pentaho BI
Suite Jasper
Intelligence Eclipse BIRT SpagoBI Palo BI Suite Openi
2. Gestión de metadatos Data Manager Sql Server 2008 Oracle BI:
Server, Administration
SAP Business Objects
MicroStrategy: Desktop, Architect
SAS Metadata Server
Pentaho Data
Integration
i. ETL X Sql Server 2008 Enterprise ETL
Option Rapid Marts X
SAS Workspace Server
Kettle Spoon ETL
JasperETL SpagoBI Meta Palo ETL Server -
ii. Diseño de cubos(Data marts)
Cognos Power Cubes
Sql Server 2008 Warehouse
Builder Rapid Marts X
SAS OLAP Server, OLAP Cube Studio
Workbench, Pentaho
Cube Designer
- - SpagoBI Server Palo OLAP Server Workbench
3. Herramientas de Desarrollo Cognos SDK .NET 2008 DeveloperSuit J2EE SDK, .NET SDK
X JDK JDK o J2EE JDK o J2EE
Eclipse 3.2 y JDK, Web con
J2EE
SpagoBI Studio con Eclipse IDE,
SpagoBI SDK MS .NET J2EE, JDK
4. Flujo de trabajo (Workflow) y colaboración
X Office SharePoint
Server 2007 Workflow
SAP Workflow
X X - - - X - -
B. PRESENTACIÓN DE LA INFORMACIÓN
IBM Cognos BI
Office 2007, SharePoint Server
2007
Report Server, Presentation
Services
SAP B.O.: Xcelsius,
Web Intelligence
MicroStrategy Reporting Suite
Web application server
Pentaho BI Suite
JasperReports y JasperServer
BIRT Report Designer, BIRT Report Engine
SpagoBI Server, SpagoBI
Applications
Palo Worksheet Server
JFreeChart and
JasperReports
5. Presentación de informes (Reporting) en formatos Excel, PDF, XML, HTML y CSV y envío por correo electrónico
X Excel 2007,
Outlook X X X
SAS Web Report Studio, OLAP
Viewer for Java
Pentaho Reporting
iReport X X X X
6. Paneles de administración o tableros (Dashboards).
X Excel 2007 X X X SAS Dashboard Pentaho
Dashboards X X X X X
7. Consultas específicas (Ad hoc query).
X SQL Server
ReportingServices X X X
SAS Web Report Studio
X X X X - -
8. Integración y distribución a: SAS Data
Integration Studio
Palo Worksheet Server, Palo
Server Service
i. Microsoft Office(Excel) X X X X X SAS Add-In for X X X X Palo OLAP -
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 38
Microsoft Office Server, Palo Excel Add-in
ii. Dispositivos móviles X X X SAP
Netweaver Mobile
X - - - - - - -
iii. Portales web
IBM WebSphere,
SAP Enterprise
Portal, Plumtree
Office SharePoint Server 2007, .NET
2008
Oracle Application
Server Portal, WebSphere
X
MS SharePoint, IBM
WebSphere, SAP
NetWeaver, BEA WebLogic
SAS Information Delivery Portal
J2EE server IBM
WebSphere, BEA WebLogic
- - - J2EE server
iv. Navegadores web: IE, Firefox,
Opera, otros IE IE, Firefox
IE, Firefox, Netscape
IE, Firefox Mozilla, Safari,
Netscape
IE, Firefox Mozilla IE, Firefox
Mozilla IE, Firefox
Mozilla X X X
IE, Firefox Mozilla
C. ANÁLISIS IBM Cognos
BI
Performance-Point, SqlServer
Analysis Services(SSAS)
Oracle BI PresentationS
ervices
SAP Business Objects
MicroStrategyIntelligence
Server SAS BI
Pentaho BI Suite
JasperAnalysis SpagoBI Server, SpagoBIApplica
tions
Palo OLAP Server, Palo Worksheet
Server
Mondrian, SSAS
9. OLAP (On-Line Analytical Processing)
X Excel X Voyager X OLAP Viewer for
Java, Help Viewer
JPivot, servidor
Mondrian OLAP
X -
JPivot y servidor
Mondrian OLAP
X JPivot,
Mondrian OLAP
10. Visualización avanzada (Advanced visualization)
X X X X X SAS Information
Map Studio X X - X - X
11. Modelado predictivo y data mining
X X X PredictiveWo
rkbench X
SAS Enterprise Miner
Pentaho Data Mining con WeKa
- - X X X
12. Tableros de Control (Scorecards-KPI)
X X X Performance
Manager X X X - X X X -
D. APROVISIONAMIENTO
13. Fuentes de datos
i. Bases de datos
DB2, Informix, Oracle, SQL
Server, Sybase,
Teradata, ODBC
Sql Server, ORACLE, IBM,
ODBC
Oracle, SQL Server,
DB2, Teradata, ODBC
SQL Server,HP Neoview, Netezza, Teradata,
ODBC
SQL Server, DB2, Oracle,
Teradata, Sybase, Postgre,
MySQL, Otras
Oracle,DB2, Teradata, ODBC, MS SQL Server,
Sybase
JDBC, Oracle, IBM
DB2, MS SQL Server, MySQL,
PostgreSQL, EnterpriseD
B, otras
JDBC,Oracle, IBM DB2, MS SQL Server,
MySQL, PostgreSQL,
EnterpriseDB, otras
Apache Derby Data Base,
MySql, JDBC, otras
RDBM’s accedidos
mediante JDBC RDBM’s
RDBM’s accedidosmediante JDBC
ii. Multi-dimensional, ERP’s SAP BW, SAP R/3 y Siebel
CRM SAP, Siebel
XMLA, Oracle OLAP Option, MS Analysis
Services, SAP BW
SAP NetWeaver BI, SAP BW,
otros
X
SAP R/3, Siebel, Oracle
applications, PeopleSoft, SAS
OLAP cubes
OLAP databases via XML/A and MDX
standards,
X - - X -
Inteligencia de Negocios
Ing. Bertha Mazón, Mg. Sc. 39
ERP’s
iii. Otras fuentes Mainframes, Web services,
otras
Mainframe, Microsoft Dinamics
XML, Excel, Text
XML, CRM X
SAS data sets, SAS SPD Engine
tables, SAS SPD Server
X XML/A, EJB,
POJO, Hybernate
XML XML X XMLA
E. PLATAFORMAS DE SOPORTE
14. Sistemas operativos
Windows, IBM AIX
(UNIX), Sun Solaris, HP-UX
Windows
Windows, Debian,
Mandriva, Novell, Red Hat, Ubuntu
Windows XP, Server 2003,
Vista
IBM AIX, HP-UX, SuSE Linux, Redhat Linux, Oracle Linux, Sun Solaris
HP-UX,UNIX, Windows, z/OS
Windows, Linux
Windows, Linux, Novell SUSE Linux, Sun Solaris,
OpenSolaris, Mac OS X, HP-UX, FreeBSD,
IBM AIX
Windows, Linux, UNIX
Windows, Linux,
Windows Windows,
Linux,
15. DBMS Servers para Data Warehouse
DB2, Teradata, HP,
otros Sql Server 2008 Oracle DB
SQL Server, HP Neoview,
Netezza, Teradata,
ODBC
SQL Server, DB2, Oracle,
Teradata, Sybase, Postgre,
MySQL, Otras
Oracle,DB2, Teradata, ODBC,
SQL Server, Sybase, SAS SPD
Server
JDBC,Oracle, IBM DB2, MS SQL Server,
MySQL, PostgreSQL, Enterprise DB, otras
RDBM’S accedidos con
JDBC 2.0 -
RDBM’S accedidos con
JDBC 2.0
SQL Server, otros RDBM’s
MySQL, otras
16. Servidor web y/o aplicaciones web
IIS, iPlanet, IBM Http Server, Apache
Tomcat, BEA Weblogic
IIS IIS, Tomcat, Websphere,
iPlanet IIS, Tomcat
IIS, WebSphere,
Apache/Tomcat, Oracle App. Server, BEA WebLogic
JBoss, WebSphere,
BEA WebLogic Server
Apache Tomcat,
JBoss
Apache Tomcat, JBoss,
WebSphere, WebLogic, Sun
GlassFish
Apache Tomcat, JBoss
Apache Tomcat, JBoss
IIS Apache Tomcat,
JBoss
F. COSTO. 17. Costo de Licencia
Licencia por Usuario: Consumidor: $1100. BI Profesional:$4000
SQLServer 2008: $3900 x 5 clientes ó $12000 x CPU Office 2007 profesional: $1100 VS .NET 2008: $1700 Share Point: $500
OBIEE Plus: $ 2000 x user (min 5) ó $295.000 x CPU BI Server EE:$580 x user ó $86.500 x CPU
$350 x user No publica costos
$575 x CPU ó $220 x User min. 5
Versión Comunitaria: $0.00
$0.00 $0.00 $0.00 $0.00 $0.00
Notación: Si se observa una (X) significa que posee la capacidad pero integrada a una herramienta. (-) No posee la capacidad.
Tabla 1. Estudio Comparativo Entre Herramientas de BI Propietarias Versus Open Source Fuente: Elaboración propia
1.4.3.3. RESULTADOS DE LA COMPARACIÓNENTREHERRAMIENTAS DE BI
PROPIETARIAS VERSUS OPEN SOURCE
Del estudio realizado, se evidencia que las herramientas de Inteligencia de Negocios
propietarias cumplen en su mayoría las Capacidades definidas, se evidencia una fuerte
competencia entre las herramientas propietarias como: IBM COGNOS, Oracle,
Microsoft, Micro Strategy, SAP Business Object, SAS y otras. Las herramientas BI
propietarias por sus altos costos de licencias están dedicadas a grandes empresas; por
otra parte, los costos y el tiempo de implementación se ven reducidos por las
facilidades que brindan. SAP y SAS parecen ser las de menos costo.
En cambio, a las herramientas BI open source aún les falta desarrollarse para cumplir
con todas las capacidades planteadas en este estudio, lo que corrobora la
investigación realizada por la empresa Gartner, que aún no ubica a ninguna
herramienta BI open source en el cuadrante mágico; a pesar de ello, en su informe
destaca el esfuerzo realizado por Pentaho y Jaspersoft. A continuación se mencionan
algunas conclusiones en base al cuadro comparativo y a la revisión de fuentes
bibliográficas:
La mayoría de las herramientas BI open source son jóvenes, tienen máximo
unos 5 0 6 años de haber incursionado en el mercado, aún están en proceso de
desarrollo y fusión. Por ejemplo Pentaho apareció en el 2004.
De entre todas las herramientas BI open source la más importante es Pentaho,
debido a que cumple la mayoría de capacidades y sobre todo porque tiene
muchos seguidores que han formado comunidades de desarrollo y aprendizaje
a nivel mundial. Se observa en el cuadro comparativo de cumplimiento de
capacidades que es la plataforma más destacada entre sus homólogas open
source. Pentaho tiene un promedio de 3.8/4 de cumplimiento y la menor
desviación estándar (0.45); a este análisis incluimos el costo de licencia
comunitaria que es gratis lo que la convierte en una opción viable y
conveniente para implementar soluciones BI.
La mayoría de las herramientas BI open source se han desarrollado bajo
plataforma Java tal es el caso de Pentaho, JasperSoft, Eclipse BIRT, SpagoBI y
Openi. Sólo Jedox Palo se evidencia su desarrollo en plataforma .NET de
Microsoft.
Pentaho, SpagoBI y Openi utilizan algunas herramientas comunes, tal es el
caso de JPivot, el servidor OLAP Mondrian y WorkBench. Así también ciertos
componentes Jasper y Eclipse son igualmentecompartidos.
Tanto Pentaho como las otras herramientas BI opensource no son 100%
gratuitas; manejan versiones de costo y una versión comunitaria, en la cual se
limita sus capacidades y tanto el soporte técnico como el documental es
escaso.
Al proporcionarse escaso soporte técnico y documental de las versiones
comunitarias, se elevan los costos y el tiempo de aprendizaje, desarrollo e
implementación y esto puede ser un factor decisivo al momento de elegir.
Sin embargo las personas que deciden dedicar su tiempo al aprendizaje de
estas herramientas BI open source tienen grandes oportunidades debido a que
la mayoría de las empresas existentes son PYMES y es posible proporcionarles
soluciones parciales y de bajo costo; de bajo costo porque solo involucra el
servicio técnico, más no a las licencias del producto.
A pesar de las conclusiones no tanto favorables para las herramientas BI open
source se destaca su importancia y su incursión en el mercado debido a que
son una alternativa viable y quizá la única para las pequeñas y medianas
empresas (PYMES).
CAPÍTULO II
DATA WAREHOUSE Y DATA MARTS
OBJETIVO:
Diseñar data marts y data warehouse aplicando una metodología de estrella,
copos de nieve o constelación.
2.1. INTRODUCCIÓN
Los continuos cambios en los mercados crearán, y de hecho ya están creando, nuevas
oportunidades de negocio, así como una competencia implacable. A medida que esta
pugna se intensifica, las empresas se enfrentan con la necesidad de reducir los costos,
añadir valor a sus productos y servicios y asegurar la diferenciación como señal de
identidad. En un mercado en el que el cliente puede escoger entre distintas empresas,
la inteligencia de negocios se convierte en una función estratégica para la retención e
incremento del segmento de mercado de la empresa.
Todos estos cambios exigen de las empresas una infraestructura receptiva y flexible,
en una palabra: ágil. Ágil en su enfoque del mercado, en la manera en que responde a
sus clientes y en la puesta en marcha de los nuevos servicios o el desarrollo de los
nuevos productos. El desafío no es ser el más grande, sino el más ágil en adaptarse al
cambio.
Hacer accesible la información de ayuda a la toma de decisiones, de manera
instantánea a los responsables de la gestión de la empresa, constituye en definitiva el
objetivo intrínseco del Data Warehouse. Cuando se construye adecuadamente el Data
Warehouse, en unión con un conjunto de aplicaciones de ayuda a la toma de
decisiones, proporciona de manera natural un mejor conocimiento de la rentabilidad y
la orientación adecuada al esfuerzo de las metas empresariales.
El material básico necesario (los datos operacionales) para el desarrollo de un Data
Warehouse corporativo es abundante. La información sobre los clientes y los
productos, por ejemplo, son a la vez recursos disponibles en grandes cantidades e
infrautilizados. Por ende, los datos operacionales por sí solos no generan información
significativa y conocimiento, a menos que los objetivos empresariales de la compañía
y la tecnología de la información estén alineados.
Para que la tecnología se convierta en un elemento que facilite la creación de nuevas
estrategias, debe primero integrarse en las funciones de negocio de la empresa. El
futuro éxito o fracaso de las compañías dependerá en gran medida del conocimiento
de la propia empresa, el cual a su vez se basará en la construcción exitosa de
herramientas como el Data Warehouse.
Dada la gran importancia del Data Warehouse para el crecimiento de la empresa, se
hace necesario conocer los conceptos relacionados a su filosofía de trabajo, a su
proceso y la forma de utilizarlo. En este trabajo expondremos las características
principales, su estructura y su funcionamiento, así como los resultados que puede
esperar el usuario final al interactuar con las aplicaciones que utilizan esa
herramienta. Para ello, junto con el desarrollo teórico hemos tomado un caso práctico
de aplicación que permitirá ver la implementación de la tecnología de Data
Warehouse. Este caso se describe a continuación.
2.1.1 Concepto de data warehouse
El almacén de datos es el lugar donde se acumulan todos los datos de la empresa. El
creador del concepto de almacén de datos, Bill Inmon, lo define de la siguiente
manera:
"Un almacén de datos es una recopilación de datos temáticos, integrados, no volátiles
y con historial para la toma de decisiones".
A continuación describiremos las características distintivas de un Data Warehouse, las
cuales nos ayudarán a comprender mejor su concepto.
Almacena Información Histórica. El tiempo es parte implícita de la información
contenida en un data warehouse. A diferencia de los sistemas transaccionales, que
mantienen los datos actualizados a un instante determinado en el tiempo, un DW
puede mantener información de más de un instante. La bodega se carga con los
distintos valores que toma una variable en el tiempo y de esta manera los datos
pueden ser analizados y comparados, facilitando las labores gerenciales.
Contiene Información No volátil. La información de un DW existe para ser leída
y no modificada, por lo tanto, se carga una sola vez y permanece igual en
adelante. De esta manera la actualización del DW es la incorporación de los
últimos valores que tomaron las distintas variables, sin ningún tipo de acción sobre
lo que ya existía. Esto está en contraste con la información de un sistema
transaccional que está sujeta a permanentes inserciones, actualizaciones,
reemplazos o borrados.
Organiza la Información de forma Temática. El almacén de datos está
orientado a los principales temas o entidades de la organización lo cual está en
contraste con la mayoría de los sistemas de hoy en día cuya orientación se basa en
los procesos o funciones.
Administra grandes cantidades de información. La mayoría de los Data
Warehouse contienen información histórica que se retira con frecuencia de los
sistemas operacionales porque ya no es necesaria para las aplicaciones operativas
y de producción. Por el volumen de información que un Data Warehouse debe
manejar, también debe ofrecer opciones para la adición y la condensación que
clasifiquen esta inmensa cantidad de datos, es decir, un Data Warehouse maneja
información a diferentes niveles de detalle. Por lo tanto, el volumen de los datos
que debe almacenar es generalmente mayor al de los datos de las bases de datos
operacionales.
Gestiona múltiples versiones de un esquema de base de datos. Debido a
que el Data Warehouse tiene que guardar la información histórica y administrarla,
y como esta información histórica ha sido manejada en distintos momentos por
diferentes versiones de esquemas de bases de datos, en ocasiones el Data
Warehouse tiene que controlar información originada en organizaciones de bases
de datos diferentes.
Condensa y agrega información. Con frecuencia, es muy alto el nivel de detalle
de la información almacenada por bases de datos operacionales para cualquier
toma de decisiones sensata. Un Data Warehouse condensa y agrega información
para presentarla en forma comprensible a los usuarios finales.
2.1.2. Problemas que dan origen a un Data Warehouse
Los Data Warehouse surgen por los siguientes problemas:
Falta de integración de la información. Muchos de los datos de que disponen las
empresas se encuentra en diversos almacenes de datos porque han evolucionado
como sistemas independientes, en diferentes lenguajes, desarrollados por
diferentes personas y en diferentes momentos. Estos almacenes de datos son
incapaces de ofrecer a la empresa una visión consolidada ya que no poseen
vinculación entre ellos.
Sobrecarga de información. En las últimas décadas, los sistemas operacionales han
producido una gran cantidad de datos, los que son difíciles de analizar para tomar
decisiones de negocio. A pesar de las grandes sumas invertidas en tecnología de la
información, los distintos departamentos dentro de las empresas todavía carecen
de herramientas para explorar esos datos de una manera ágil y eficaz.
Exceso de información genérica y despersonalizada. Por lo general, los informes
producidos por un sistema operacional contienen una gran cantidad de datos. Sin
embargo, ofrecen muy poca información que ayude a la toma de decisiones. Estos
informes no tienen la capacidad de adaptarse a las necesidades actuales de los
usuarios, y carecen de información personalizada y/o relevante para los distintos
perfiles que existen en un negocio.
Falta de retroalimentación oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan haciéndose preguntas e imaginando
posibles situaciones futuras. Los resultados obtenidos de esa labor generarán a su
vez más preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta
conseguir los fundamentos para tomar una decisión. Con el uso de los sistemas
operacionales, este proceso se hace dificultoso, sino imposible, al no tener
posibilidad de generar informes adaptados a las necesidades del momento.
2.1.3. Beneficios Asociados al Data Warehouse
Un Data Warehouse puede dar lugar a una serie de importantes beneficios para la
organización. En cualquier caso, su utilización permitirá que la información de gestión
sea:
Accesible, correcta, uniforme y actualizada. Estas características asociadas a la
información contenida en un Data Warehouse, junto con otra serie de aspectos
inherentes al mismo dan lugar a la obtención de un conjunto de ventajas, que
podemos resumir del siguiente modo:
Menor costo en la toma de decisiones. Se suprime el desperdicio de tiempo que se
podía producir al intentar ejecutar consultas de datos largas y complejas con bases
de datos que estaban diseñadas específicamente para transacciones más cortas y
sencillas.
Posibilidad de encontrar relaciones ocultas. Facilita la aplicación de técnicas
estadísticas de análisis y modelización para encontrar relaciones ocultas entre los
datos, obteniendo un valor añadido para el negocio.
Aprendizaje del pasado. Proporciona la capacidad de aprender de los datos del
pasado y de predecir situaciones futuras en diversos escenarios.
Mayor flexibilidad ante el entorno. El Data Warehouse convierte los datos
operacionales en información relacionada y estructurada, que genera el
conocimiento necesario para la toma de decisiones. Esto permite establecer una
base única del modelo de información de la organización, que puede dar lugar a
una visión global de la información en base a los conceptos de negocio que tratan
los usuarios. Además, aporta una mejor calidad y flexibilidad en el análisis del
mercado, y del entorno en general. Esta visión global puede conllevar también la
obtención de otras ventajas competitivas, al permitir el desempeño de tareas que
en los sistemas tradicionales sufrirían un costo adicional, por ejemplo:
Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante
mejora en la calidad de gestión, lo que también repercute en la relación con el
cliente. De hecho, el que un Data Warehouse implique una mayor flexibilidad
ante el entorno tiene una consecuencia directa en una mayor capacidad para
responder a las necesidades de los clientes.
Rediseño de procesos. Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia
obtener una visión más profunda y clara de los procesos de negocio
propiamente dichos, lo que a su vez permite obtener ideas renovadoras para el
rediseño de los mismos.
2.2. Data warehouse versus Sistemas Transaccionales (OLTP)
Hoy en día las empresas cuentan en su mayoría con sus procesos automatizados,
manejando gran cantidad de datos en forma centralizada y manteniendo sus sistemas
en línea. En esta información descansa el conocimiento de la empresa, constituyendo
un recurso corporativo primario y parte importante de su patrimonio.
El nivel competitivo alcanzado en las empresas les ha exigido desarrollar nuevas
estrategias de gestión. En el pasado, las organizaciones fueron típicamente
estructuradas en forma piramidal con información generada en su base fluyendo hacia
lo alto; y era en el estrato de la pirámide más alto donde se tomaban decisiones a
partir de la información proporcionada por la base, con un bajo aprovechamiento del
potencial de esta información. Las empresas han reestructurado y eliminado estratos
de estas pirámides y han autorizado a los usuarios de todos los niveles a tomar
mayores decisiones y responsabilidades. Sin embargo, sin información sólida para
ayudar y apoyar las decisiones, la automatización no tiene sentido.
Esta necesidad de obtener información para una amplia variedad de individuos es la
principal razón de negocios que conduce al concepto de. El énfasis no está sólo en
llevar la información hacia lo alto sino a través de la organización, para que todos los
empleados que la necesiten la tengan a su disposición (Sperley, 1999).
El DW (de ahora en adelante los términos Data warehouse, Datawarehousing,
Warehouse, Almacén de Datos y DW son utilizados en forma indistinta) convierte
entonces los datos operacionales de una organización en una herramienta competitiva,
por hacerlos disponibles a los empleados que lo necesiten para el análisis y toma de
decisiones.
El objetivo del DW es el de satisfacer los requerimientos de información interna de la
empresa para una mejor gestión. El contenido de los datos, la organización y
estructura son dirigidos a satisfacer las necesidades de información de los analistas y
usuarios tomadores de decisiones. El DW es el lugar donde la gente puede acceder a
sus datos.
El DW puede verse como una bodega donde están almacenados todos los datos
necesarios para realizar las funciones de gestión de la empresa, de manera que
puedan utilizarse fácilmente según se necesiten. Los sistemas transaccionales son
dinámicos, constantemente se encuentran actualizando datos. Analizar esta
información puede presentar resultados distintos en cuestión de minutos, por lo que
se deben extraer y almacenar fotografías de datos (snapshots, en inglés), para estos
efectos, con la implicancia de un consumo adicional de recursos de cómputo. Llevar a
cabo un análisis complejo sobre un sistema transaccional, puede resultar en la
degradación del sistema, con el consiguiente impacto en la operación del negocio. Los
almacenes de datos (o Data warehouse) generan bases de datos tangibles con una
perspectiva histórica, utilizando datos de múltiples fuentes que se fusionan en forma
congruente. Estos datos se mantienen actualizados, pero no cambian al ritmo de los
sistemas transaccionales. Muchos data warehouse se diseñan para contener un nivel
de detalle hasta el nivel de transacción, con la intención de hacer disponible todo tipo
de datos y características, para reportar y analizar. Así un data warehouse resulta ser
un recipiente de datos transaccionales para proporcionar consultas operativas, y la
información para poder llevar a cabo análisis multidimensional. De esta forma, dentro
de un data warehouse existen dos tecnologías que se pueden ver como
complementarias, una relacional para consultas y una multidimensional para análisis
(Sperley, 1999).
Puede considerarse que el modelo relacional en el cual se basa OLTP - Procesamiento
Transaccional en Línea (OnLine Transational Procesing, en inglés), tiene como objetivo
mantener la integridad de la información (relaciones entre los datos) necesaria para
operar un negocio de la manera más eficiente. Sin embargo, este modelo no
corresponde a la forma como el usuario percibe la operación de un negocio.
DW está basado en un procesamiento distinto al utilizado por los sistemas
operacionales, es decir, este se basa en OLAP -Procesos de Análisis en Línea- (OnLine
Analysis Process, en inglés), usado en el análisis de negocios y otras aplicaciones que
requieren una visión flexible del negocio.
Para ampliar los conceptos anteriores, en la Tabla 2 se exponen las principales
diferencias entre los sistemas Transaccionales (OLTP) y los basados en Data
warehouse.
Transaccionales Basados en Data warehouse
Admiten el acceso simultáneo de muchos usuarios Admiten el acceso simultáneo de muchos usuarios
Transaccionales Basados en Data warehouse
-miles- que agregan y modifican datos. -cientos- que consultan y no modifican datos.
Representan el estado, en cambio constante, de una organización, pero no guardan su historial.
Guardan el historial de una organización.
Contienen grandes cantidades de datos, incluidos los datos extensivos utilizados para comprobar transacciones
Contienen grandes cantidades de datos, sumarizados, consolidados y transformados. También de detalle pero solo los necesarios para el análisis.
Tienen estructuras de base de datos complejas. Tienen estructuras de Base de datos simples.
Se ajustan para dar respuesta a la actividad transaccional.
Se ajustan para dar respuesta a la actividad de consultas.
Proporcionan la infraestructura tecnológica necesaria para admitir las operaciones diarias de la empresa.
Proporcionan la infraestructura tecnológica necesaria para admitir análisis de los datos de la empresa.
Los analistas carecen de la experiencia técnica necesaria para crear consultas "ad hoc" contra la compleja estructura de datos.
Pueden combinar datos de orígenes heterogéneos en una única estructura homogénea y simple, facilitando la creación de informes y consultas.
Las consultas analíticas que resumen grandes volúmenes de datos afectan negativamente a la capacidad del sistema para responder a las transacciones en línea.
Organizan los datos en estructuras simplificadas buscando la eficiencia de las consultas analíticas más que del proceso de transacciones.
El rendimiento del sistema cuando está respondiendo a consultas analíticas complejas puede ser lento o impredecible, lo que causa un servicio poco eficiente a los usuarios del proceso analítico en línea.
Contienen datos transformados que son válidos, coherentes, consolidados y con el formato adecuado para realizar el análisis sin interferir en la operatoria transaccional diaria.
Los datos que se modifican con frecuencia interfieren en la coherencia de la información analítica.
Proporcionan datos estables que representan el historial de la empresa. Se actualizan periódicamente con datos adicionales, no con transacciones frecuentes.
La seguridad se complica cuando se combina el análisis en línea con el proceso de transacciones en línea.
Simplifican los requisitos de seguridad.
Tabla 2. Diferencias entre sistemas transaccionales y basados en data warehouse. Fuente: Nader, Javier, 2006
A continuación se realiza una breve explicación de una especialización de los data
warehouses, denominada datamart.
2.3. Introducción a Datamarts (Tienda de datos)
El acceso a los datos de toda la empresa a veces no es conveniente (o necesario) para
determinados usuarios que solo necesitan un subconjunto de estos datos, en estos
casos se utilizan los Datamarts. El concepto Datamart es una especialización del data
warehouse, y está enfocado a un departamento o área específica, como por ejemplo
los departamentos de Finanzas o Marketing. Permitiendo así un mejor control de la
información que se está abarcando (Poe et al., 1998).
Los principales beneficios de utilizar Data marts son:
Acelerar las consultas reduciendo el volumen de datos a recorrer
Estructurar los datos para su adecuado acceso por una herramienta
Dividir los datos para imponer estrategias de control de acceso
Segmentar los datos en diferentes plataformas hardware
Permite el acceso a los datos por medio de un gran número de herramientas
del mercado, logrando independencia de estas.
2.4. Arquitectura Data warehouse (DW)
Antes de describir la arquitectura data warehouse se señala la siguiente consideración
ya generalizada, presente en la literatura: el término Data warehouse se utiliza
indistintamente para hablar de la arquitectura en sí como también para uno de los
componentes que la conforman, específicamente el que tiene relación con el
almacenamiento físico de los datos (Poe et al., 1998). Ahora, con el propósito de
facilitar el entendimiento por parte del lector, se hace especial énfasis en esta parte
del capítulo sobre el contexto del cual se estará hablando al hacer referencia al
término data warehouse.
La estructura básica de la arquitectura DW incluye:
1. Datos operacionales: un origen o fuente de datos para poblar el componente
de almacenamiento físico DW. El origen de los datos son los sistemas
transaccionales internos de la organización como también datos externos a
ésta.
2. Extracción de Datos: selección sistemática de datos operacionales usados
para poblar el componente de almacenamiento físico DW.
3. Transformación de datos: procesos para sumarizar y realizar otros cambios
en los datos operacionales para reunir los objetivos de orientación a temas e
integración principalmente.
4. Carga de Datos: inserción sistemática de datos en el componente de
almacenamiento físico data warehouse
5. Data warehouse: componente de almacenamiento físico.
6. Herramientas de acceso a los datos en el componente de almacenamiento
físico data warehouse. Estas herramientas pueden ser de visualización
multidimensional específicas para el acceso a un data mart que está contenido
en un data warehouse como también aplicaciones desarrolladas dentro de la
organización del tipo EIS/DSS.
Figura 17. Estructura básica Data warehouse
Fuente: Hernández J., 2003
Los pasos 2, 3 y 4 considerados en la figura anterior, conforman el proceso conocido
como ETL (Extracción, Transformación y Carga).
2.5. Metodologías de diseño y construcción de data warehouse
Correspondencia
Bases de datos
operacionales
Almacenamiento
intermedio
Almacén de
datos
Transformación
Extracción Carga o
Transporte
Aplicaciones
EIS/DSS
Acceso a
Datos
FuentesExternas
En los últimos años se han propuesto distintas metodologías para el diseño de
Almacenes de Datos (AD) o Data Warehouse (DW), aunque ninguna de ellas ha sido
aceptada plenamente.
En algunos casos, las metodologías son extensiones de las metodologías clásicas para
bases de datos, en otros casos se ha adoptado un enfoque completamente nuevo.
Intentando analizar el trabajo hecho hasta el momento en el área del diseño, las
propuestas metodológicas pueden clasificarse en tres grupos: metodologías dirigidas
por datos, metodologías dirigidas por procesos y metodologías compuestas (datos-
procesos). El objetivo de las metodologías dirigidas por datos es obtener el esquema
conceptual del DW a partir de la descripción de las bases de datos operacionales de la
organización, por el contrario, las metodologías dirigidas por procesos derivan el
esquema conceptual del DW a partir de los requisitos de usuario. Finalmente, las
metodologías compuestas realizan una combinación de las dos aproximaciones
anteriores, es decir, consideran los requisitos de usuario así como la descripción de la
base de datos operacional. A continuación se citan algunas:
Metodología de Kimball. Kimball fue quien determinó que un data warehouse
no era más que: "la unión de todos los Data marts de una entidad". Defiende
por tanto una metodología ascendente (bottom-up) a la hora de diseñar un
almacén de datos.
Figura 18. Arquitectura bottom-up de un DW Fuente: BERNABEU, Ricardo
Metodología de Inmon. Inmon defiende una metodología descendente (top-
down) a la hora de diseñar un almacén de datos, ya que de esta forma se
considerarán mejor todos los datos corporativos. En esta metodología los Data
marts se crearán después de haber terminado el data warehouse completo de
la organización.
Figura 19. Arquitectura top-down de un DW Fuente: BERNABEU, Ricardo
Model Driven Architecture 2.0 (MDA 2.0).Desarrollado por “The Object
Management Group” (OMG). Consiste en un conjunto de estándares que
asisten en la creación, implementación, evolución y desarrollo de sistemas
dirigido por modelos. Los estándares que constituyen MDA son: Lenguaje
Unificado de Modelado (UML), Meta-Object-Facility (MOF), Meta-Data
Interchange (XMI) y Common Warehouse Metamodel (CWM).
Multidimensional FactModel (DFM) propuesta por Golfarelly, M. y Dario.
Permite hacer una representación de los hechos y dimensiones con una
notación gráfica propia, además proponen una metodología semiautomática
para obtener un esquema multidimensional a partir de un diagrama Entidad
Relación (ER). Un esquema en DFM se define como una colección de esquemas
de hechos, cuyos elementos básicos son los hechos, los atributos, las
dimensiones y las jerarquías.
Modelo Multidimensional (MD).Cabibbo y Torlone proponen el método de
diseñoMD, que definen como un modelo lógico para sistemas OLAP, sin
embargo los autores mencionan que es independiente de cualquier
implementación, por lo que lo ubican en el nivel conceptual. El método de
diseño que proponen construye un es quema MD a partir de una base de datos
operacional existente, el esquema MD consiste de un conjunto finito de
Dimensiones y un conjunto finito de F-Tables (Hechos), donde las dimensiones
son categorías sintácticas que permiten especificar múltiples caminos para la
búsqueda de información y cada dimensión se organiza en una jerarquía de
niveles correspondientes.
Metodología HEFESTO. Propuesta por Bernabéu D. Es una metodología
fundamentada en metodologías existentes y experiencias propias del autor
respecto al proceso de confección de almacenes de datos. La construcción e
implementación de un DW puede adaptarse muy bien a cualquier ciclo de vida
de desarrollo de software, con la salvedad de que para algunas fases en
particular, las acciones que se han de realizar serán muy diferentes. Lo que se
debe tener muy en cuenta, es no entrar en la utilización de metodologías que
requieran fases extensas de reunión de requerimientos y análisis, fases de
desarrollo monolítico que conlleve demasiado tiempo y fases de despliegue
muy largas. Lo que se busca, es entregar una primera implementación que
satisfaga una parte de las necesidades, para demostrar las ventajas del DW y
motivar a los usuarios.
2.6. El Proceso ETL
falta
2.7. El Procesamiento Analítico en Línea (OLAP)
La tecnología de Procesamiento Analítico en Línea –OLAP- (Online
AnalyticalProcessing) permite un uso más eficaz de data warehouse para el análisis de
datos en línea, lo que proporciona respuestas rápidas a consultas analíticas complejas
e iterativas utilizada generalmente para sistemas de ayuda para la toma de
decisiones. Primero y más importante, el OLAP presenta los datos a los usuarios a
través de un modelo de datos intuitivo y natural. Con este estilo de navegación, los
usuarios finales pueden ver y entender más efectivamente la información de sus bases
de datos, permitiendo así a las organizaciones reconocer mejor el valor de sus datos.
En segundo lugar, el OLAP acelera la entrega de información a los usuarios finales que
ven estas estructuras de datos como cubos denominadas multidimensionales debido a
que la información es vista en varias dimensiones.
Esta entrega es optimizada ya que se prepararan algunos valores calculados en los
datos por adelantado, en vez de de realizar el cálculo al momento de la solicitud. La
combinación de navegación fácil y rápida le permite a los usuarios ver y analizar
información más rápida y eficientemente que lo que es posible con tecnologías de
bases de datos relacionales solamente. El resultado final: se pasa más tiempo
analizando los datos y menos tiempo analizando las bases de datos.
A pesar del proceso de almacenamiento de datos de preparar información para el
consumo del usuario final se debe facilitar la búsqueda de la información.
Generalmente, las estructuras de datos de las bases tienen cierta complejidad para el
usuario final, principalmente para responder a preguntas tales como:
"¿Quiénes fueron los mejores vendedores de cada región durante el año pasado,
mensualmente?" son complejas cuando se expresan en lenguaje SQL.
Estos retos son enfrentados con herramientas avanzadas de peticiones (queries), las
cuáles ocultan al usuario final la complejidad de las base de datos. Esta es la función
de las herramientas OLAP.
Todas las organizaciones tienen datos multidimensionales y la complejidad no es
necesariamente una función del tamaño de la compañía. Aún a las más pequeñas
compañías les gustaría poder rastrear sus ventas por producto, vendedor, geografía,
cliente y tiempo. Las organizaciones han buscado durante mucho tiempo herramientas
para acceder, navegar y analizar información multidimensional de una manera fácil y
natural.
Las aplicaciones OLAP deberían proporcionar análisis rápidos de información
multidimensional compartida. Las características principales del OLAP son
(Pence&Creeth, 2002):
Rápido: proporciona la información al usuario a una velocidad constante. La
mayoría de las peticiones se deben de responder al usuario en cinco segundos
o menos.
Análisis: realiza análisis estadísticos y numéricos básicos de los datos,
predefinidos por el desarrollador de la aplicación o definido “ad hoc” por el
usuario.
Compartida: implementa los requerimientos de seguridad necesarios para
compartir datos potencialmente confidenciales a través de una gran población
de usuarios.
Multidimensional: llena la característica esencial del OLAP, que es ver la
información en determinadas vistas o dimensiones.
Información: acceden a todos los datos y a la información necesaria y
relevante para la aplicación, donde sea que ésta resida y no esté limitada por el
volumen.
El OLAP es un componente clave en el proceso de almacenamiento de datos (data
warehousing) y los servicios OLAP proporcionan la funcionalidad esencial para una
gran variedad de aplicaciones que van desde reportes corporativos hasta soporte
avanzado de decisiones.
Vistas del Usuario.
En un modelo de datos OLAP, la información es vista como cubos, los cuáles consisten
de categorías descriptivas (dimensiones) y valores cuantitativos (medidas). El modelo
de datos multidimensional simplifica a los usuarios el formular peticiones complejas,
arreglar datos en un reporte, cambiar de datos de resumen a datos de detalle y filtrar
o seccionar los datos en subconjuntos significativos.
Por ejemplo, las dimensiones típicas de un cubo que contenga información de ventas,
incluiría tiempo, geografía, producto, canal, organización y escenario (planeado o
real). Las medidas típicas incluirían ventas en euros (u otra moneda), unidades
vendidas, número de personas, ingresos y gastos.
HECHO: “El primer trimestre de 2004 la empresa vendió en Valencia por un importe de 22.000 euros del producto tauritón 33 cl.”
Figura 20. Ejemplo de Cubo con tres dimensiones. Fuente: Hernández J., 2003
Dentro de cada dimensión de un modelo de datos OLAP, los datos se pueden organizar
en una jerarquía que represente niveles de detalle de los datos.
La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis
multidimensional de datos corporativos, que soportan los análisis del usuario y unas
posibilidades de navegación, seleccionando la información a obtener.
Normalmente este tipo de selecciones se ve reflejada en la visualización de la
estructura multidimensional, en unos campos de selección que permitan elegir el nivel
de agregación (jerarquía) de la dimensión, y/o la elección de un dato en concreto, la
visualización de los atributos del sujeto, frente a una(s) dimensiones en modo tabla,
pudiendo con ello realizar, entre otras las siguientes acciones (Pence&Creeth, 2002):
Rotar (Swap): alterar las filas por columnas (permutar dos dimensiones de
análisis)
Bajar (Down): bajar el nivel de visualización en las filas a una jerarquía
inferior
Detallar (Drilldown): informar para una fila en concreto de datos a un nivel
inferior
Expandir (Expand): ídem anterior sin perder la información a nivel superior
para éste y el resto de los valores
Arquitectura OLAP
Aunque en ocasiones se utilizan indistintamente, los términos data warehouse y
proceso analítico en línea (OLAP) se aplican a diferentes componentes de sistemas de
ayuda a la toma de decisiones o sistemas de inteligencia empresarial. Los datos
contenidos en undata warehouse se encuentran organizados para permitir el análisis
por medio de herramientas OLAP.
La tecnología OLAP permite un uso más eficaz de los almacenes de datos para el
análisis en línea, lo que proporciona respuestas rápidas a consultas analíticas
complejas e iterativas. Los modelos de datos multidimensionales de OLAP y las
técnicas de agregados de datos organizan y resumen grandes cantidades de datos
para que puedan ser evaluados con rapidez mediante el análisis en línea y las
herramientas gráficas. La respuesta a una consulta realizada sobre datos históricos a
Zumo Piña 1l. Cola 33cl.
LecheEnteraCabra 1l
Tauritón 33cl Cerveza Kiel 20 cl
JabónSalitre
1 2 3 4 1 2
TIEMPO:
trimestre
Madrid Barcelona
Valencia Zaragoza Alicante Murcia
17 57 93
5 12
Ventas en
miles de
Euros Jerarquía de dimensiones:
Categoría
\
Gama Prov.
\ /
Artículo
País
Ciudad
Supermercado
Año
/ \
Trimestre
/ \
Mes Semana
PRODUCTO:
artículo
LUGAR:
ciudad PRODUCTO LUGAR TIEMPO
2004 2005
22
menudo suele conducir a consultas posteriores en las que el analista busca respuestas
más concretas o explora posibilidades.
Los sistemas OLAP proporcionan la velocidad y la flexibilidad necesarias para dar
apoyo al analista en tiempo real. La figura 21 muestra la integración del data
warehouse y los procesos OLAP, que generalmente se implementan por medio de una
aplicación servidora que accede al data warehouse y realiza los procesos de análisis. A
través de este servicio OLAP, los usuarios acceden a la información residente en las
bases de datos (Microsoft Corp, 2002).
Figura 21. Arquitectura básica para OLAP. Fuente: http://cgmlab.cs.dal.ca/Members/obaltzer/SOLAP/
A continuación se explica el modelo de datos donde se sustenta esta tecnología.
El modelo de datos OLAP.
Un reto fundamental en la implementación del OLAP es mapear el esquema inicial de
la base de datos a un modelo multidimensional.
En la mayoría de las implementaciones de OLAP, se asume que los datos han sido
preparados para el análisis a través del almacenamiento de datos (data warehousing)
y que la información se ha extraído de sistemas operacionales, limpiado, validado y
resumido antes de incorporarse en una aplicación OLAP. Este es un paso vital en el
proceso, que asegura que los datos que son vistos por el usuario OLAP son correctos,
consistentes y que llenan las definiciones organizacionales para los datos.
Cada vez más, la información en un data warehouse se organiza en esquemas de
estrella o de copo de nieve. El esquema estrella, considerado como jerarquía de
dimensiones lineal (figura 22) se basa en una tabla de hechos central (las medidas)
que se enlaza a las tablas de dimensiones relacionadas (las categorías descriptivas de
las medidas), mientras que el esquema copo de nieve, considerado como estrella
jerárquica o modelo no lineal (figura 23), es una tabla de hechos central se enlaza a
las tablas de dimensiones relacionadas, pero estas a su vez se enlaza a otras tablas
dimensionales.
Con este tipo de esquemas simplifica el entendimiento de los datos por parte del
usuario, maximiza el desempeño de las peticiones (queries) de la base de datos para
aplicaciones de soporte de decisiones y requiere menor espacio de almacenamiento
para bases de datos grandes.
Ejemplo:
Figura 22. Modelo estrella. Fuente: Hernández J., 2003.
Tabla Dimensión
Tabla Hechos
Tabla Dimensión
Tabla Dimensión
Tabla Dimensión
Tabla Dimensión
Tabla Hechos
Tabla Dimensión
Tabla
Tabla Dimensión
Tabla
Tabla Dimensión
Ejemplo:
Figura 23. Modelo copo de nieve.
Fuente: Hernández J., 2003
Una tabla de hechos contiene generalmente los valores o medidas que se quiere
analizar, mientras las tablas de dimensiones contienen las vistas en que se quiere
analizar esas medidas.
Luego de analizar los dos tipos de esquemas, cabe una pregunta ¿Se puede recopilar
toda la información necesaria en un único esquema estrella o copo de nieve? La
respuesta es NO. Realmente se requiere de varios esquemas y cada uno de ellos se
denomina data mart como se ejemplifica en la figura 24.
Figura 24. Ejemplo de un almacén formado por 4 data marts.
Fuente: Hernández J., 2003
La figura 9 muestra un ejemplo de esquema de estrella. En este tipo de base de datos,
una tabla de hechos central se enlaza a las tablas de dimensiones relacionadas.
Figura 25. Un esquema de estrella.
Fuente: Nader, J.,2003
La figura 10 muestra un ejemplo de esquema copo de nieve. Este tipo de esquema se
caracteriza por tener tablas dimensionales relacionadas con otras tablas dimensionales
además de vincularse a la tabla de hechos. A continuación se enumeran algunas de las
principales ventajas del esquema estrella:
Crea una base de datos con tiempos de respuesta rápido.
Diseño fácil de modificar.
Simula como ven los datos los usuarios finales.
Simplifica la navegación.
Facilita la interacción con herramientas.
Figura 26. Un esquema copo de nieve.
Fuente: Nader, J., 2003
Los esquemas de estrella y copo de nieve son aproximaciones relacionales del modelo
de datos OLAP y son un punto de partida excelente para construir definiciones de cubo
OLAP. Pocos productos OLAP han tomado ventaja de este hecho. Generalmente no
han provisto herramientas sencillas para mapear un esquema de estrella a un modelo
OLAP y como resultado mantienen el costo de construir el modelo OLAP
extremadamente alto y el tiempo de desarrollo innecesariamente largo.
Debido a la explosión de datos, las aplicaciones OLAP pueden sufrir aún más cuando
los datos de detalle o fuente están distribuidos dispersamente en todo lo amplio del
cubo multidimensional. Los valores faltantes o inválidos crean dispersión en el modelo
de datos OLAP. En el peor caso, un producto OLAP podría almacenar un valor vacío.
Por ejemplo, una compañía podría no vender todos los productos en todas las
regiones, así que no aparecerían valores en la intersección donde los productos no se
venden en una región particular.
La dispersión de datos, un reto para las compañías de OLAP, se ha vencido con varios
grados de éxito. Las peores implementaciones resultan en bases de datos que
almacenan valores vacíos, por tanto teniendo baja densidad y desperdiciando espacio
y recursos. Los servicios OLAP no almacenan valores vacíos y como resultado, aún los
cubos dispersamente poblados no se inflarán de tamaño. Mientras que este asunto es
frecuentemente subrayado como un factor decisivo de arquitecturas OLAP, por
algunos vendedores de OLAP, las diferencias entre las implementaciones de las
compañías en el manejo de la dispersión son mínimas comparadas a las más
importantes explosiones de datos causadas por precalcular demasiados agregados.
Implementación del OLAP
Los cubos, las dimensiones y las jerarquías son la esencia de la navegación
multidimensional del OLAP. Al describir y representar la información en esta forma, los
usuarios pueden navegar intuitivamente en un conjunto complejo de datos. Sin
embargo, el solo describir el modelo de datos en una forma más intuitiva, hace muy
poco para ayudar a entregar la información al usuario más rápidamente.
El Almacén de Datos y las herramientas OLAP se pueden basar físicamente en varias
organizaciones:
Sistemas ROLAP
se implementan sobre tecnología relacional, pero disponen de algunas
facilidades para mejorar el rendimiento (índices de mapas de bits, índices
de JOIN).
Sistemas MOLAP
disponen de estructuras de almacenamiento específicas (arrays) y técnicas
de compactación de datos que favorecen el rendimiento del almacén.
Sistemas HOLAP
sistemas híbridos entre ambos.
CAPÍTULO III
DISEÑO Y CONSTRUCCIÓN DE UNA
SOLUCIÓN DE INTELIGENCIA DE
NEGOCIOS
OBJETIVO:
Diseñar y construir una solución de inteligencia de negocios que incluya: almacén de datos (data warehouse), cubos OLAP, proceso ETL y un sistema
de toma de decisiones (SSD) que provea la información adecuada según los requerimientos de los mandos táctico y estratégico de una organización.
3.1. INTRODUCCIÓN
El diseño de data warehouse es posible hacerlo aplicando el procedimiento de alguna
metodología.
3.2. METODOLOGÍA UTILIZADA PARA DISEÑAR DATA WAREHOUSE
Existen algunas metodologías para el diseño de Data Warehouse, sin embargo se ha
elegido la metodología HEFESTO, debido a que define claramente el ¿Qué? Y el
¿Cómo? de cada una de sus fases y actividades.
3.3. METODOLOGÍA HEFESTO
La Metodología HEFESTO, es una metodología para la construcción del almacén de
datos que servirá de soporte para la aplicación de inteligencia de negocios.
A continuación se presenta la arquitectura de la metodología y se la describe brevemente:
Figura 27.Arquitectura de la Metodología HEFESTO Fuente: BERNABEU, Ricardo
Como se puede apreciar, se comienza recolectando las necesidades de información de los usuarios y se obtienen las preguntas claves del negocio. Luego, se deben identificarlos indicadores resultantes de los interrogativos y sus respectivas perspectivas de análisis, mediante las cuales se construirá el modelo conceptual de datos del DW.
0) ESTUDIO PRELIMINAR
Después, se analizarán los OLTP para determinar cómo se construirán los indicadores, señalar las correspondencias con los datos fuentes y para seleccionar los campos de estudio de cada perspectiva.
Una vez hecho esto, se pasará a la construcción del modelo lógico del depósito, en donde se definirá cuál será el tipo de esquema que se implementará. Seguidamente, se confeccionarán las tablas de dimensiones y las tablas de hechos, para luego efectuar sus respectivas uniones.
Por último, se definirán los procesos de extracción, transformación y carga de los datos fuente, que poblarán y actualizarán el DW.
3.4. PASOS Y APLICACIÓN METODOLÓGICA HEFESTO
PASO 0.ESTUDIO PRELIMINAR
1. DATOS INFORMATIVOS DE LA EMPRESA Nombre: Dirección: Ciudad: Teléfono:
2. IDENTIFICACIÓN DE LA EMPRESA 2.1. DESCRIPCIÓN DE LA EMPRESA Describir brevemente el objeto de negocio de la empresa
2.2. ANTECEDENTES HISTÓRICOS
Describir los hechos históricos destacables de la empresa
3. MISIÓN, VISIÓN Y OBJETIVOS
3.1. VISIÓN La visión se conoce como el camino al cual se dirige la empresa a largo plazo y sirve de rumbo y aliciente para orientar decisiones estratégicas de crecimiento junto a las de competitividad.
3.2. MISIÓN La misión es el motivo, propósito, fin o razón de ser de la existencia de una empresa u organización.
3.3. OBJETIVOS Listar los objetivos de la empresa o institución 4. ORGANIGRAMA Gráfico que representa la estructura organizativa de la empresa.
5. RELACIÓN DE LAS METAS DE LA ORGANIZACIÓN CON LAS DEL DATA WAREHOUSE Se debe definir las metas que proporcionarán el data warehouse al negocio o la empresa. Por ejemplo: El Data Warehouse aportará un gran valor a la empresa, y su alcance es el siguiente:
- Permitirá a las autoridades y personal administrativo contar con una herramienta que brindará soporte en la toma de decisiones.
- Transformará datos operativos en información analítica, enfocada en las estrategias de la empresa.
- Se podrán generar reportes dinámicos y personalizados con información estadística, resumida (es decir sumarizados, promediados o contabilizados) y mediante gráficos representativos.
- Se podrá visualizar en los reportes información historial de la empresa y serán posibles presentarlos en diferentes formatos como PDF, HTML, EXCEL
- Será posible explorar y navegar de forma rápida en la información de los reportes
- El costo y el empleo de recursos materiales para la elaboración de reportes o informes necesarios para la toma de decisiones serán mínimos.
PASO1.ANÁLISIS DE REQUERIMIENTOS
Lo primero que se hará será identificar los requerimientos del usuario a través de
preguntas que expliciten los objetivos de la organización. Luego, se analizarán las
estas preguntas a fin de identificar cuáles serán los indicadores y perspectivas que
serán tomadas en cuenta para la construcción del DW. Finalmente se confeccionará un
modelo conceptual en donde se podrá visualizar el resultado obtenido en este primer
paso.
a)Identificar preguntas
El objetivo principal de esta fase, es la de obtener e identificar las necesidades de
información clave de alto nivel, que es esencial para llevar a cabo las metas y
estrategias de la empresa y que facilitará una eficaz y eficiente toma de decisiones.
Ejemplo Aplicativo. Para este ejemplo se considera una universidad como empresa o
institución de estudio.
Preguntas identificadas:
- ¿Se cuenta con estadísticas de crecimiento estudiantil de toda la Universidad?
- ¿Se cuenta con estadísticas de crecimiento estudiantil por carreras, destacando
la de mayor crecimiento?
- ¿Se cuenta con estadística de estudiantes matriculados por modalidad de
estudios?
- ¿Es posible detallar el crecimiento estudiantil por modalidad de estudio,
carrera y periodo lectivo?
- ¿Es posible presentar la información en gráficos estadísticos?
- ¿Es posible la generación de informes en formato PDF, Excel y HTML?
- Para el desarrollo el prototipo de este sistema, se ha considerado centrar el
estudio en el ámbito académico y específicamente en información de matrículas
de estudiantes.
b) Identificar indicadores y perspectivas de análisis
Una vez que se han establecido las preguntas claves, se debe proceder a su
descomposición para descubrir los indicadores que se utilizarán y las perspectivas de
análisis que intervendrán. Los indicadores deben ser realmente efectivos y por lo
general son valores numéricos. En cambio, las perspectivas se refieren a los objetos
mediante los cuales se quiere examinar los indicadores, con el fin de responder a las
preguntas planteadas.
Aplicando al caso de estudio. De entrevistas realizadas al personal administrativo se obtuvo un listado de los reportes que más prioridad tienen:
- Total de alumnos matriculados en la UTSAM desde su creación
- Total de alumnos matriculados por escuela
DESCRIPCIÓN DE PROCESOS PARA LA TOMA DE DECISIONES ACADÉMICAS EN
LA UNIVERSIDAD XYZ
La Universidad XYZ está estructurada en escuelas: Informática, Gestión, Derecho, Educación y
Salud. Cada escuela tiene un director y agrupa una o varias carreras. Las modalidades de estudio
son: presencial, semi-presencial y a distancia. Cada año académico comienza en enero y culmina
en diciembre y se divide en dos periodos lectivos: Enero-Junio y Julio-Diciembre. En cada periodo
lectivo los estudiantes deben matricularse en el semestre o nivel que le corresponde.
Cada director de escuela es el responsable de llevar las estadísticas de cada carrera pero de
modalidad presencial: matriculados por semestre, egresados y graduados, retirados, mejores
estudiantes y otros reportes.
Las modalidades de estudio semipresencial y a distancia tienen un director y dos coordinadores
que se encargan del control y planificación del desarrollo de cada módulo (asignatura) de cada
carrera.
Dependiendo del número de alumnos, las autoridades toman decisiones tales como: si se apertura
un nuevo paralelo o si se cierra un curso, planificación horarios de uso de los laboratorios,
construir nueva infraestructura física para aulas y/o laboratorios, adquirir nueva infraestructura
tecnológica, u otra decisión.
- Número de alumnos matriculados por escuela, carrera y por años
- Número de alumnos matriculados por escuela, carrera, años, periodo,
semestre y modalidad
- Número de alumnos matriculados por años, escuela, carrera, modalidad,
periodo, semestre y sección.
- Número de alumnos matriculados por modalidad, años, escuela, carrera,
periodo, semestre y sección.
Ejemplo de análisis de indicadores y perspectivas:
Indicadores:
- Número de alumnos matriculados
- Total de alumnos matriculados
Perspectiva de Análisis:
- Escuela
- Carrera
- Modalidad
- Tiempo
- Semestre
c) Modelo Conceptual
En esta etapa, se construirá un modelo conceptual a partir de los indicadores y
perspectivas obtenidas en el paso anterior. A través de este modelo, se podrá
observar con claridad cuáles son los alcances del proyecto, para luego poder trabajar
sobre ellos, además al poseer un alto nivel de definición de los datos, permite que
pueda ser presentado ante los usuarios y explicado con facilidad.
Aplicando al caso de estudio. La representación gráfica del modelo conceptual del caso de
estudio es la siguiente:
Figura 28. Modelo Conceptual Fuente: Elaboración propia
PASO 2. ANÁLISIS DE OLTP’S
Seguidamente, se analizarán las fuentes OLTP para determinar cómo serán calculados
los indicadores y para establecer las respectivas correspondencias entre el modelo
conceptual creado en el paso anterior y las fuentes de datos. Luego, se definirán qué
campos se incluirán en cada perspectiva. Finalmente, se ampliará el modelo
conceptual con la información obtenida en este paso.
a) Determinación de Indicadores
Número de alumnos matriculados porescuela, carrera y por años
Indicador Perspectivas
Tiempo
Escuela
Carrera
Modalidad
Semestre
Matrícula
Total de estudiantes
Número de Estudiantes
Escuela
Carrera
Modalidad
Semestre
Número de estudiantes
Total estudiantes
Tiempo
En este paso se deberán explicitar cómo se calcularán los indicadores, definiendo los
siguientes conceptos para cada uno de ellos:
- Hecho/s que lo componen, con su respectiva fórmula de cálculo. Por ejemplo:
Hecho1+ Hecho2.
- Función de sumarización que se utilizará para su agregación. Por ejemplo:
SUM,AVG, COUNT, etc.
Aplicando al caso de estudio, tenemos:
b) Establecer correspondencias
El objetivo de este paso, es el de examinar los OLTP disponibles que contengan la
información requerida, como así también sus características, para poder identificar las
correspondencias entre el modelo conceptual y las fuentes de datos.
Aplicando al caso de estudio, se tiene:
Figura 29.Correspondencia en el Diagrama de Entidad Relación Base de datos GINUS Fuente: GINUS
c) Nivel de granularidad
- Indicador1:
Número de alumnos matriculados= COUNT(Matriculados por semestre)
- Indicador2:
Total de alumnos matriculados=SUM(Indicador1)
Una vez que se han establecido las relaciones con los OLTP, se examinarán y
seleccionarán los campos que contendrá cada perspectiva, ya que será a través de
estos por los que se manipularán y filtrarán los indicadores.
De acuerdo a las correspondencias establecidas, se analizaron los campos residentes
en cada tabla a la que se hacía referencia, a través de dos métodos diferentes.
Primero se examinó la base de datos para intuir los significados de cada campo, y
luego se consultó con el encargado del sistema sobre algunos aspectos de los cuales
no se comprendía su sentido. De todas formas, y como puede apreciarse en el
diagrama de entidad relación antes expuesto, los nombres de los campos son bastante
explícitos y se deducen con facilidad.
Aplicando al caso de estudio. Se identifica el nivel de granularidad
Perspectiva Datos Descripción
Escuela Esc_cod Código de la escuela
Esc_nom Nombre de la escuela
Carrera Car_cod Código de carrera
Car_nom Nombre de carrera
Modalidad Mod_cod Código de Modalidad
Mod_desc Descripción de la modalidad de estudio
Tiempo Anio Corresponde al Año académico
Periodo En un año académico se pueden aperturar uno o
varios periodos de clases. Cada periodo de clase tiene
un mes y año de inicio y un mes y año de culminación.
Un semestre se desarrolla en un periodo de clases.
Semestre
Sem_cod Código del semestre
Sem_desc Descripción del Semestre
Sem_sec Sección de estudios
Matrícula Mat_cod Código de matrícula
Tabla 3: Campos del MER GINUS y organizados por perspectivas Fuente: GINUS UTSAM
d) Modelo Conceptual ampliado
En este paso, y con el fin de graficar los resultados obtenidos en los pasos anteriores,
se ampliará el modelo conceptual, colocando bajo cada perspectiva los campos
elegidos y bajo cada indicador su respectiva fórmula de cálculo. Aplicando al caso
de estudio se tiene la siguiente figura:
Figura 30. Modelo Conceptual Ampliado del DW GINUS BI
TIEMPO Anio
periodo
ESCUELA Esc_nom
CARRERA Car_nom
MODALIDAD Mod_desc
SEMESTRE Sem_desc Sem_sec
Matrícula
Total de estudiantes
SUM(Número de Estudiantes)
Número de Estudiantes
COUNT(mat_cod) por cada semestre
Fuente: Elaboración propia
PASO 3. MODELO LÓGICO DEL DATA WARE HOUSE
A continuación, se confeccionará el modelo lógico de la estructura del DW, teniendo
como base el modelo conceptual que ya ha sido creado. Para ello, primero se definirá
el tipo de modelo que se utilizará y luego se llevarán a cabo las acciones propias al
caso, para diseñar las tablas de dimensiones y de hechos. Finalmente, se realizarán
las uniones pertinentes entre estas tablas.
a) Tipo de Modelo Lógico del DW
Se debe seleccionar cuál será el tipo de esquema que se utilizará para contener la
estructura del DW, que se adapte mejor a los requerimientos y necesidades del
usuario. Es muy importante definir objetivamente si se empleará un esquema en
estrella, constelación o copo de nieve, ya que esta decisión afectará
considerablemente la elaboración del modelo lógico.
Aplicando al caso de estudio. El esquema que se utilizará será en estrella, debido
a sus características, ventajas y diferencias con los otros esquemas.
b) Diseño de tablas de dimensiones, hechos y uniones
En este paso se deben diseñar las tablas de dimensiones que formarán parte del DW.
Para los tres tipos de esquemas, cada perspectiva definida en el modelo conceptual
constituirá una tabla de dimensión. Para ello deberá tomarse cada perspectiva con sus
campos relacionados y realizarse el siguiente proceso:
- Se elegirá un nombre que identifique la tabla de dimensión.
- Se añadirá un campo que represente su clave principal.
- Se redefinirán los nombres de los campos si es que no son lo suficientemente
intuitivos.
Aplicando al caso de estudio:
Figura 31. Modelo Lógico del DW GINUS BI
Fuente: Elaboración propia
PASO 4. DISEÑO DEL PROCESO ETL
Una vez construido el modelo lógico, se deberá proceder a probarlo con datos, a
través de procesos ETL.
SENTENCIA SQL DE EXTRACCIÓN DE DATOS DEL SISTEMA GINUS TRANSACCIONAL
SELECT escuelas.Esc_Nom,
carreras.Car_Nom,
YEAR(Per_Fea) as Año,
CONCAT(IF(MONTH(periodos.Per_Fea) = 1, 'Enero', IF(MONTH(periodos.Per_Fea)
= 2, 'Febrero', IF(MONTH(periodos.Per_Fea) = 3, 'Marzo',
IF(MONTH(periodos.Per_Fea) = 4, 'Abril', IF(MONTH(periodos.Per_Fea) =
5, 'Mayo', IF(MONTH(periodos.Per_Fea) = 6, 'Junio',
IF(MONTH(periodos.Per_Fea) = 7, 'Julio', IF(MONTH(periodos.Per_Fea) =
8, 'Agosto', IF(MONTH(periodos.Per_Fea) = 9, 'Septiembre',
IF(MONTH(periodos.Per_Fea) = 10, 'Octubre', IF(MONTH(periodos.Per_Fea)
= 11, 'Noviembre', 'Diciembre'))))))))))), ' - ',
YEAR(periodos.Per_Fea), ' ',IF(MONTH(periodos.Per_Fef) = 1,
'Enero', IF(MONTH(periodos.Per_Fef) = 2, 'Febrero',
IF(MONTH(periodos.Per_Fef) = 3, 'Marzo', IF(MONTH(periodos.Per_Fef) =
4, 'Abril', IF(MONTH(periodos.Per_Fef) = 5, 'Mayo',
IF(MONTH(periodos.Per_Fef) = 6, 'Junio', IF(MONTH(periodos.Per_Fef) =
7, 'Julio', IF(MONTH(periodos.Per_Fef) = 8, 'Agosto',
IF(MONTH(periodos.Per_Fef) = 9, 'Septiembre',
IF(MONTH(periodos.Per_Fef) = 10, 'Octubre', IF(MONTH(periodos.Per_Fef)
= 11, 'Noviembre', 'Diciembre'))))))))))),' - ', YEAR(periodos.Per_Fef))
AS Periodo,niveles.Niv_Des,modalidad.Mod_Des,semestres.Sem_Sec,
count(matriculas.Mat_Int) AS Total
FROM matriculas
INNER JOIN semestres ON (matriculas.Sem_Cod = semestres.Sem_Cod)
INNER JOIN periodos ON (semestres.Per_Int = periodos.Per_Int)
INNER JOIN promocione ON (semestres.Pro_Cod = promocione.Pro_Cod)
INNER JOIN carreras ON (promocione.Car_Int = carreras.Car_Int)
INNER JOIN escuelas ON (carreras.Esc_Int = escuelas.Esc_Int)
INNER JOIN modalidad ON (periodos.Mod_Cod = modalidad.Mod_Cod)
INNER JOIN niveles ON (semestres.Niv_Cod = niveles.Niv_Cod)
WHERE matriculas.Mat_Est = 'A'
GROUP BY
Para realizar la compleja actividad de extraer datos de diferentes fuentes, para luego
integrarlos, filtrarlos y depurarlos; existen varios software que facilitan estas tareas,
por lo cual este paso se centrará solo en la generación de las sentencias SQL que
contendrán los datos que serán de interés.
Antes de realizar la carga de datos, es conveniente efectuar una limpieza de los
mismos, para evitar valores faltantes y anómalos. Se debe tener en cuenta cuál es la
información que se desea almacenaren el DW, para ello se pueden establecer
condiciones adicionales y restricciones.
Aplicando al caso de estudio:
En este proceso se ha diseñado una consulta que extrae los datos de la base de datos
del GINUS transaccional y carga a un archivo de Excel que posteriormente se importó
en una base de datos y tabla temporal. A continuación se explica el proceso:
Luego de extraer los datos de la base de datos transaccional se procedió a colocar en
un base de datos temporal para posterior cargar al data warehouse del sistema GINUS
BI.
Figura 32. Proceso Extracción, Transformación y Carga (ETL) al DW del sistema
GINUS BI Fuente: Elaboración propia
3.5. CREACIÓN DE CUBOS MULTIDIMENSIONALES
Un cubo multidimensional o hipercubo, representa o convierte los datos planos que se
encuentran en filas y columnas, en una matriz de N dimensiones. Los objetos más
importantes que se pueden incluir en un cubo multidimensional, son los siguientes:
- Indicadores: sumarizaciones que se efectúan sobre algún hecho,
perteneciente a una tabla de hechos.
- Atributos: campos o criterios de análisis, pertenecientes a tablas de
dimensiones.
BD GINUS
TRANSACCIONAL
SCRIPT SQL
HOJA DE
EXCEL BD
TEMPORAL DW GINUS
BI
SERVIDOR BD
MYSQL
EXTRACCIÓN TRANSFORMACIÓN CARGA
SERVIDOR BD
MYSQL
CÓDIGO XML DEL CUBO MATRICULAS_MOD
<Cube name="Matriculas_mod" cache="false" enabled="true">
<Table name="hechos"> </Table>
<Dimension type="StandardDimension" name="Modalidad">
<HierarchyhasAll="true"> <Level name="Modalidad" column="modalidad" type="String"
uniqueMembers="false" levelType="Regular" hideMemberIf="Never">
</Level>
<Level name="Anio" column="anio" type="String" uniqueMembers="false"
levelType="Regular" hideMemberIf="Never">
</Level>
- Jerarquías: representa una relación lógica entre dos o más atributos.
Aplicando al caso de estudio: Para diseñar los cubos se ha utilizado una
herramienta denominada Workbench, esta herramienta permite diseñar fácilmente
los cubos en formato XML estableciendo en primera instancia la conexión con el data
warehouse GINUS BI.
En la siguiente figura se muestra los 3 cubos creados: Matriculas_esc, Matricula_anio,
Matriculas_mod.
Figura 33.Cubos del sistema GINUS BI Fuente: Elaboración propia
Estructura de los cubos del sistema GINUS BI
Figura 34. Estructura delos Cubos del sistema Ginus BI Fuente: Elaboración propia
Para cada cubo se debe definir la tabla de hechos, las dimensiones, la jerarquía y las
medidas.
Ejemplo del cubo Matriculas_mod del sistema GINUS BI
- Tabla de hechos: hechos - Dimensiones: Modalidad - Jerarquía: Modalidad, Anio, Escuela, Carrera, Periodo, Semestre y Sección - Atributos: Modalidad, Anio, Escuela, Carrera, Periodo, Semestre y Sección - Medida: nro_matriculados
3.6. DISEÑO DEL SSDPARA EL D. ACADÉMICO DE LA UTSAM (FRONTEND)
3.6.1. Diagrama de casos de uso del sistema
Figura 35. Diagrama de casos de uso del sistema Ginus BI
Fuente: Elaboración propia
3.6.2. Diagrama de componentes basado en capas del sistema Ginus BI
Tomador de
decisiones
Iniciar sesión
Generar estadísticas
de matriculados
G. E. M. por
escuela y carrera
G. E. M. por
año
G. E. M. por
modalidad
<<extends>> <<extends>> <<extends>>
Presentar en
formatos XLS,
HTML y PDF
Generar Gráfico
estadístico
<<include>>
<<include>>
Figura 36. Diagrama de componentes basado en capas del sistema Ginus BI
Fuente: Elaboración propia
3.7. IMPLEMENTACIÓN DEL SOFTWARE
Herramientas utilizadas. La mayoría de herramientas utilizadas son open source. A
continuación se presenta y se describe cada herramienta utilizada.
- mysql-5.0.45-win32. Es el servidor de bases de datos donde se almacena
del Data warehouse del sistema Ginus BI.
- mysql_yog. Esta herramienta es un FrontEnd que permite la gestión del
servidor de bases de datos.
- apache-tomcat-6.0.18. Es el servidor web utilizado para aplicaciones JAVA.
- jdk-6u10-windows-i586-p.Es el Kit de desarrollo de JAVA. Sirve de soporte
para que el servidor web Apache Tomcat ejecute aplicaciones JAVA.
- jpivot-1.8.0. Es el visor de los cubos que son administrados por un servidor
OLAP.
- mondrian-3.0.4.11371. Servidor de cubos OLAP y se integra a Jpivot.
CUBOS XML
Interfaz de Usuario web
del Tomador de
Decisiones
Aplicación OLAP (JPivot)
Servidor OLAP (Mondrian)
Matriculas_esc, Matricula_anio, Matriculas_mod
SERVIDOR DE BD
MYSQL
DATA WAREHOUSE
GINUS BI
CAPA DE INFORMACIÓN
CAPA DE APLICACIÓN
CAPA DE PRESENTACIÓN
- mysql-connector-java-5.0.5-bin. Java Data Base Conectivity. Conector a
bases de datos Mysql desde aplicaciones Java.
- workbench-2.3.2.9247. Herramienta para el diseño de cubos OLAP.
3.8. INTERFACES DEL SOFTWARE
A continuación se muestran algunas pantallas del sistema GINUS BI:
Figura 37. Pantalla de Inicio de sesión al GINUS BI Fuente: GINUS BI
Figura 38. Pantalla Principal de GINUS BI Fuente: GINUS BI
Figura 39. Explorar jerarquía de una carrera Fuente: GINUS BI
Figura 40. Generar gráfico estadístico Fuente: GINUS BI
Figura 41. Matriculados por años y gráfico estadístico Fuente: GINUS BI
Figura 42. Matriculados por modalidad, año 2008 y clasificados por escuela en formato PDF
Fuente: GINUS BI
Figura 43. Matriculados por modalidad, año 2008 y clasificados por escuela en formato EXCEL Fuente: GINUS BI
REFERENCIAS BIBLIOGRÁFICAS
BUTTERWORTH, Heinemann. Oracle Database 10 g Data Warehousing. Ed. Digital
Pr.
CABENA, Peter; HADJINIAN, Pablo; STADLER, Rolf; VERHEES, Jaap; ZANASI,
Alessandro. Discovering Data Mining: From Concept to Implementation. Prentice
Hall. 1998. ISBN: 0-13-743980-6.
GROTH, Robert. Data Mining: A Hands On Approach for Business Professionals.
Prentice Hall. 1998. ISBN: 0-13-756412-0.
INMON, W. H.; Hackathorn; Richard D. 1994. Using the Data Warehouse. New
York: John Wiley & Sons. ISBN: 0-471-05966-8.
WILEY, John & SONS. Inmon W.H. Building the Data Warehouse., 3rd edition,
2002.
NADER, Javier. Sistema de Apoyo Gerencial. Tesis de Grado. 2006.
BALLARD, C. HERREMAN, D. SCHAU, D. BELL, R. KIM, E. VALNCIC, A.:Data
Modeling Techniques for Data Warehousing. SG24-2238-00. IBM Red Book. 1998.
CABIBBO, L. TORLONE, R.:"A Logical Approach to MultidimensionalDatabases",
EDBT, 1998.
CARPANI, F.: CMDM: A conceptual multidimensional model for Data Warehouse.
Master Thesis. Advisor: Ruggia. InCo - Pedeciba, UdelaR, Uruguay, 2000.
FRANCONI, E. SATTLER, U.:A Data Warehouse Conceptual Data Model for
Multidimensional Aggregation, DMDW’99, Germany, 1999.
GOLFARELLI, M. MAIO, D. RIZZI, S.:Conceptual Design of Data Warehouses from
E/R Schemes, HICSS’98, IEEE, Hawaii, 1998.
HÜSEMANN, B. LECHTENBÖRGER, J. VOSSEN, G.:Conceptual Data Warehouse
Design. DMDW’00, Sweden, 2000.
Kenan Technologies:An Introduction to Multidimensional Databases. White Paper,
Kenan Technologies, 1996.
KIMBALL, R.: The Data warehouse Toolkit. John Wiley & Son, Inc., 1996.
PICERNO, A. FONTAN, M.: Un editor para CMDM. Undergraduate Project. Advisor:
Carpani. InCo, UdelaR, Uruguay. 2000.
SAPIA, C. BLASCHKA, M. HÖFLING, G. DINTER, B.: Extending the E/R Model for
the Multidimensional Paradigm. DWDM’98, Singapure, 1998.
THOMSEN, E.:OLAP Solutions. Building Multidimensional Information. John Wiley &
Sons, Inc. 1997.
Gartner. Magic Quadrant for Business Intelligence Platforms. Enero 2009
(http://mediaproducts.gartner.com/reprints/oracle/article56/article56.html)
RODRÍGUEZ, Ivonne.Soluciones Tecnológicas Integrales para las Empresas.
Presentación electrónica .PPT.
HERNANDEZ, José. Análisis y Extracción de Conocimiento en Sistemas de
Información: Data warehouse y Datamining. Departamento de Sistemas
Informáticos y Computación, Universidad Politécnica de Valencia. (URL.
http://www.dsic.upv.es/~jorallo/cursoDWDM/).
CASARES, Claudio. Data Warehousing.Programación en Castellano.
(URL: http://www.programacion.com/bbdd/tutorial/warehouse/)
BITAM. Business Intelligence. Febrero 2002.
(URL: http://www.bitam.com/spanish/AcercaDeBI.htm)
CSI, I. Development Datawarehousing. Julio 2002.
(URL: http://www.data warehousecenter.com)
GUPTA, V. An introduction to Data Warehousing. Febrero 2002.
(URL:http://www.system-services.com/dwintro.htm)
Web Site Tic &Tac. (URL:http://tikitak.blogspot.com/)
MANZANO, Oscar. A Bit of an apple.
(URL:http://oscarmanzano.f2o.org/applebit/)
ARIAS, Emilio. Stratebi Business Solutions.
(URL: http://www.stratebi.com)
ARIAS, Emilio. El recurso en español sobre Business Intelligence.
(URL: http://www.TodoBI.com)
Abits Software de Colombia.
(URL: http://www.abits.com.co/productos/inteligencia.asp)
Fyc - Servicios - Información - Inteligencia de Negocios.
(URL: http://www.fyccorp.com/servicios-informacion-inteligencia-negocios.htm)
GopacBI. (URL: http://www.gopac.com.mx/bi/que.htm)
Revista pc-news.com. La importancia de la inteligencia de negocios (entrevista a
Raúl Roldán, gerente de Business InnovationServices de IBM Venezuela).
(URL: http://www.pc-news.com/detalle.asp?sid=&id=9&Ida=266)
Inteligencia de Negocios(URL: http://www.ibix.com.mx/Inteligencia.htm)
Business intelligence y proyectos Data warehouse - SOLUZIONA Consultoria
(http://www.soluziona.es/htdocs/areas/consultoria/servicios/bi/index_bi.shtml)
RAMÍREZ ROMERO, Luz María. Inteligencia de negocios para la toma de decisiones.
(URL:http://www.enterate.unam.mx/Articulos/2004/octubre/inteligen.htm)
SPSS. Reportes OLAP: Opciones Tecnológicas Para Quienes Toman
Decisiones(URL:http://www.spss.com/la)
MARTÍNEZ,Andrés. Curso gratis de SPSS para todos.
(URL: http://www.spssparatodos.com)
INEI,Instituto Nacional de Estadística e Informática - Perú.Data warehouse.
(URL: http://www.inei.gob.pe/web/metodologias/attach/lib619/index.htm)
BACH, Torben Pedersen & JENSEN, Christian. Multidimensional Database
Technology. AalborgUniversity& IEEE. (URL:http://computer.org/dsonline)
Gobierno Nacional de la República del Ecuador. Decreto 1014 respecto al uso del
software Libre. Abril 2008.
(URL: http://www.presidencia.gov.ec/noticias.asp?noid=13318)
CGMLAB. OLAP Spatial. Abril 2009.
(URL: http://cgmlab.cs.dal.ca/Members/obaltzer/SOLAP/)
IBM Cognos. Arquitectura BI de IBM Cognos. Mayo 2009.
(URL: http:// www.cognos.com/nl/products/now/architecture.html)
Microsoft. Arquitectura BI de Microsoft. Mayo 2009.
(URL: http://www.microsoft.com/bi/aboutbi/default.aspx)
ORACLE. Arquitectura BI de OBIEE. Mayo 2009.
(URL: http://www.b-eye-network.com/blogs/mcknight/)
SAP. Arquitectura BI de SAP BusinessObjects XI 3.1. Mayo 2009.
(URL: http://www.businessobjects.com)
Microstrategy. Arquitectura BI de Microstrategy. Mayo 2009.
(URL: http://www.microstrategy.com)
SAS. Arquitectura BI de SAS. Mayo 2009. (URL:http://support.sas.com/documentation/cdl/en/biov/60947/HTML/default/a003069226.htm)
Pentaho. Arquitectura BI de Pentaho. Mayo 2009.
(URL: http://www.pentaho.com)
JasperSoft. Arquitectura BI de JasperSoft. Mayo 2009.
(URL: http://www.jaspersoft.com)
Eclipse BIRT. Arquitectura BI de Eclipse BIRT. Mayo 2009.
(URL: http://www.eclipse.org/birt/phoenix/)
SpagoBI. Arquitectura BI de SpagoBI. Mayo 2009.
(URL: http://spagobi.eng.it/ecm/faces/public/guest/home/solutions/spagobi)
Palo. Arquitectura BI de Palo. Mayo 2009.
(URL: http://www.jedox.com/en/products/palo_olap_server/Introduction.html)
Openi. Arquitectura BI de Openi. Mayo 2009.
(URL: http://www.openi.org/)
GARCÍA, Mariano. Montar MySQL + Mondrian + OpenI + Tomcat6. Video
Tutoriales.(URL: http://www.youtube.com/view_play_list?p=73466B47EC452C82)
GOLFARELLI M., MAIO D., RIZZI S. The Dimensional Fact Model: A Conceptual
Model for Data Warehouses. International Journal of CooperativeInformation
System, 1998.
BERNABEU, Ricardo Darío. Metodología HEFESTO 1.1. Metodología propia para la
Construcción de un Data Warehouse. Abril 2009.
(URL: http://tgx-hefesto.blogspot.com).
CABIBBO L., TORLONE R. A Logical Approach to Multidimensional Databases. In
Proceedings of the 6th International Conference on Extending Database
Technology (EDBT’98), Volume 1377 of Lecture Notes in Computer Science,
Valencia, Spain, March 23 - 27 1998. Springer-Verlag
LIND, MARCHAL, MASON. Estadística para Administración y Economía. Ed.
Alfaomega, México 2004.
GLOSARIO
Bajar (Drill-Down): Es una operación de acceso a datos en cubos
multidimensionales que significa bajar el nivel de
visualización en las filas a una jerarquía inferior.
Balanced Scorecard:
Término utilizado para expresar un sistema de
medicióndel logro de objetivos de una empresa que
permite traducir la visión de la organización, expresada
a través de su estrategia, en términos y objetivos
específicos.
Colapsar (Collapse): Es una operación de acceso a datos en cubos
multidimensionales que significa ocultar los detalles
hacia un nivel superior mostrando los resúmenes
correspondientes.
Data mart: Conjunto de hechos y datos organizados para soporte
decisional basados en la necesidad de un área o
departamento específico. Los datos son orientados a
satisfacer las necesidades particulares de un
departamento dado teniendo sólo sentido para el
personal de ese departamento y sus datos no tienen
por qué tener las mismas fuentes que los de otro Data
mart.
Dataminig: Análisis de los datos para descubrir relaciones,
patrones, o asociaciones desconocidas.
Data warehouse: Base de datos que almacena una gran cantidad de
datos transaccionales integrados para ser usados para
análisis de gestión por usuarios especializados
(tomadores de decisión de la empresa).
Dimensión: Entidad independiente dentro del modelo
multidimensional de una organización, que sirve como
llave de búsqueda (actuando como índice), o como
mecanismo de selección de datos.
Drill-Down: Es una operación de acceso a datos en cubos
multidimensionales, que significa exponer
progresivamente más detalle (dentro de un reporte o
consulta), mediante selecciones de ítems
sucesivamente.
Drill-Up: Es una operación de accesos a datos en cubos
multidimensionales, es el efecto contrario a drill-down.
Significa ver menos nivel de detalle. Sobre la jerarquía
significa generalizar o sumarizar, es decir, subir en el
árbol jerárquico.
DSS
(Decisión Support
System- Sistema de
Soporte de Decisiones):
Sistema de aplicaciones automatizadas que asiste a la
organización en la toma de decisiones mediante un
análisis estratégico de la información histórica.
EIS (Executive
Information System –
Sistema de Información
Ejecutiva)
Sere fiere a cualquier sistema de software que muestre
información ejecutiva delas diferentes áreas del negocio
en un solo sistema, facilitando el monitoreo de la
empresa.
Esquema Constelación de
Hechos:
Es un esquema de base de datos en donde varias tablas
de hechos se enlazan a las tablas de dimensiones.
Esquema Copo de Nieve: Es un esquema de base de datos en donde una tabla de
hechos central se enlaza a las tablas de dimensiones
relacionadas, pero éstas a su vez se enlazan con otras
tablas dimensionales.
Esquema Estrella: Es un esquema de base de datos en donde una tabla de
hechos central se enlaza a las tablas de dimensiones
relacionadas.
PYME’S Pequeñas y Medianas Empresas
ETL (Extracción,
Transformación y
Transporte de datos):
Pasos por los que atraviesan los datos para ir desde el
sistema OLTP (o la fuente de datos utilizada) a la
bodega dimensional. Extracción, se refiere al
mecanismo por medio del cual los datos son leídos
desde su fuente original. Transformación (también
conocida como limpieza) es la etapa por la que puede
atravesar una base de datos para estandarizar los datos
de las distintas fuentes, normalizando y fijando una
estructura para los datos. El Transporte consiste
básicamente en llevar los datos leídos y estandarizados
a la bodega dimensional (puede ser remota o
localmente). Generalmente, para un Data Mart no es
necesario atravesar por todos estos pasos, pues al ser
información localizada, sus datos suelen estar
naturalmente estandarizados (hay una sola fuente).
Expandir (Expand): Es una operación de accesos a datos en cubos
multidimensionales que significa ampliar la información
hacia más detalle sin perder la información a nivel
superior.
Inteligencia de Negocios: Es el conjunto de tecnologías que permiten a las
empresas utilizar la información disponible en cualquier
parte de la organización para hacer mejores análisis,
descubrir nuevas oportunidades y tomar decisiones más
informadas.
MDDB: Base de datos multidimensional. Se utiliza para
almacenar la información de los cubos, pertenecientes a
un sistema OLAP.
MOLAP: La arquitectura MOLAP usa unas bases de datos
multidimensionales para proporcionar el análisis, su
principal premisa es que el OLAP está mejor implantado
almacenando los datos multidimensionalmente.
OLAP(On-line Analytical
Processing):
Conjunto de principios que proveen una ambiente de
trabajo dimensional para soporte decisional.
OLTP (On-line
Transaction Processing):
Sistema transaccional diario (o en detalle) que
mantiene los datos operacionales del negocio.
ROLAP: La arquitectura ROLAP, accede a los datos almacenados
en un Data Warehouse para proporcionar los análisis
OLAP. La premisa de los sistemas ROLAP es que las
capacidades OLAP se soportan mejor contra las bases
dedatos relacionales.
Rotar (Swap): Alterarlas filas por columnas (permutar dos
dimensiones de análisis).
Snapshot: Imagen instantánea de los datos en un tiempo dado.
Sumarización: Actividad de incremento de la granularidad de la
información en una base de datos. La sumarización
reduce el nivel de detalle, y es muy útil para presentar
los datos para apoyar al proceso de Toma de
Decisiones.
Tabla Dimensional: Dentro del esquema estrella, copo de nieve o
constelación de hechos, corresponde a las tablas que
están unidas a la tabla central a través de sus
respectivas llaves. La cantidad de estas tablas le
otorgan la característica de multidimensionalidad a esta
estrategia.
Tabla Hechos: Dentro del esquema estrella, copo de nieve o
constelación de hechos, contiene las medidas o valores
de las dimensiones de análisis. Está unida a las tablas
de dimensiones.
XML(eXtended Markup
Lenguaje – Lenguaje de
Denotación Extendido):
Es un lenguaje que consiste en una serie de reglas,
pautas, convenciones para planificar formatos texto
para datos, de manera que produzcan archivos que
sean fácilmente generados y leídos (por un ordenador)
que son inequívocos, y que evitan escollos comunes
como la falta de extensibilidad, falta de soporte para la
internacionalización o localismo, y la dependencia de
una determinada plataforma.
Top Related