s9- nuevas_tecnologias.pdf

F A C U L T A D D E C I E N C I A S Y T E C N O L O G Í A

U N I V E R S I D A D D E A Q U I N O B O L I V I A

1

RED NACIONAL UNIVERSITARIA

SYLLABUS

NUEVAS TECNOLOGÍAS

NOVENO SEMESTRE

Gestión Académica I/2011



2

UDABOL UNIVERSIDAD DE AQUINO BOLIVIA

Acreditada como PLENA mediante R. M. 288/01

VISION DE LA UNIVERSIDAD

Ser la Universidad líder en calidad educativa.

MISION DE LA UNIVERSIDAD

Desarrollar la Educación Superior Universitaria con calidad y competitividad al servicio de la sociedad.

Estimado(a) estudiante:

El syllabus que ponemos en tus manos es el fruto del trabajo intelectual de tus docentes, quienes han puesto sus mejores empeños en la planificación de los procesos de enseñanza para brindarte una educación de la más alta calidad. Este documento te servirá de guía para que organices mejor tus procesos de aprendizaje y los hagas mucho más productivos. Esperamos que sepas apreciarlo y cuidarlo.

I. SYLLABUS

Asignatura: NUEVAS TECNOLOGIAS Código: CMP 527

Requisito: CMP 517 Carga Horaria: 80 horas

Horas teóricas: 60 Horas

Horas Prácticas: 20 Horas Créditos: 8

II. OBJETIVOS GENERALES DE LA ASIGNATURA. Mostrar los adelantos tecnológicos y sus aplicaciones prácticas en situaciones reales, como instrumento para el

logro de ventajas competitivas en las organizaciones.

Dotar al estudiante de conocimientos actuales y modernos que le permitan ingresar al mercado laboral con mayores expectativas y conocimientos.

III. PROGRAMA ANALÍTICO DE LA ASIGNATURA. UNIDAD I: DATAWAREHOUSE 1. DATAWARE HOUSE Y DATA MARTS



3

1.1. Sistemas de Información 1.1.1. Sistemas Estratégicos 1.1.2. Sistemas Tácticos 1.1.3. Sistemas Técnico-Operativos 1.1.4. Sistemas Interinstitucionales

1.2. Objetivo de los Sistemas de Apoyo a las Decisiones 1.3. Características de un Data Warehouse 1.4. Estructura del Data Warehouse 1.5. Ciclo de vida de un Data Warehouse 1.6. Elementos Constituyentes de una Arquitectura Data Warehouse 1.7. Operaciones en un Data Warehouse 1.8. Transformación de Datos y Metadata 1.9. Tabla de Hechos

1.9.1. Hechos Semi-aditivos 1.9.2. Hechos no aditivos

1.10. Tabla de Dimensiones 1.11. Data Mart

2. HERRAMIENTAS DE BASES DE DATOS MULTIDIMENSIONALES 3. OLAP, MOLAP Y ROLAP

3.1. OLAP 3.2. ROLAP 3.3. MOLAP 3.4. Data Mining

3.4.1. Técnicas de Data Mining 3.4.2. Análisis estadistico 3.4.3. Métodos basados en árboles de decisión 3.4.4. Algoritmos Genéticos 3.4.5. Redes Neuronales 3.4.6. Lógica Difusa 3.4.7. Series Neuronales

3.5. Modelaje 3.5.1. Modelo Star Schema

3.5.1.1. Esquema Snowflake 3.5.1.2. Esquema MultiStar

UNIDAD II: DATAMINING 4. DATA MINING UNIDAD III: XML 5. XML PARA WWW

5.1. Introducción 5.2. Como escribir en XML

5.2.1. Elementos 5.2.2. Atributos 5.2.3. Valores 5.2.4. Reglas para escribir en XML

5.3. Creación de un DTD 5.4. Definiendo elementos e atributos en un DTD

5.4.1. Como declarar una DTD interna 5.4.2. Como declarar una DTD externa

5.5. Definir elementos e atributos en una DTD 5.5.1. Entidades y notaciones en DTDs 5.5.2. Como crear el elemento raiz

6. XML SCHEMA E NAMESPACES

6.1. XML Schema 6.1.1. Tipos simples y complejos 6.1.2. Declaraciones locales y globales

6.2. Como definir tipos simples 6.2.1. Como declarar un elemento de un tipo simple



4

6.2.2. Como utilizar tipo de fecha y hora 6.2.3. Como utilizar tipos de número 6.2.4. Como crear tipos de lista

6.3. Como definir tipos complejos 6.3.1. Como definir elementos para contener apenas elementos 6.3.2. Como exigir que elementos aparecen en secuencia 6.3.3. Como crear un conjunto de opciones

6.4. Uso del NAMESPACES en XML 6.4.1. Como crear un nombre de NAMESPACES 6.4.2. Como crear namespaces por default 6.4.3. Como afectan los namespaces a los atributos 6.4.4. DTDs y documentos válidos

6.5. NAMESPACES, Esquemas y Validación 6.5.1. Esquemas y namespaces 6.5.2. Como llenar un namespaces 6.5.3. Como adiciones todos los elementos declarados localmente.

6.5.4. Namespaces y la validación de XML 6.5.5. Esquemas en diversos Archivos

7. TECNOLOGÍA .NET IV. SISTEMA DE EVALUACIÓN DE APRENDIZAJES El seguimiento y evaluación a los estudiantes de la asignatura se regirá en las metodologías de diagnóstica, procesual y de resultados; cada una de las cuales se regirá en normas y reglamentos establecidos por la Universidad a fin de garantizar al aprendizaje de los estudiantes. V. BIBLIOGRAFÍA. KENT, P. , “World Wide Web fácil”

DIAZ, J., “World Wide Web paso a paso”, 1997

BREEDLOVE, B., “Web desarrollo de aplicaciones”, 1995

ABBEY COREY, SLOLTZ KEVIN, “Oracle Guía del Aprendizaje, Redes de Computación, Todo acerca”

Hinricsd , “Intranets usos y Aplicaciones”

SYAN, “Internet y seguridad en redes”

YOURDON, “ISO 9000 Liderazgo Virtual”

VI. CONTROL DE EVALUACIONES

1° evaluación parcial Fecha Nota 2° evaluación parcial Fecha Nota Examen final Fecha Nota APUNTES



5

VII. PLAN CALENDARIO

UNIVERSIDAD DE AQUINO-BOLIVIA

UNIDAD ACADÉMICA DE ORURO

CALENDARIO ACADÉMICO GESTIÓN I/2011

TURNOS REGULAR-TRABAJO ESTUDIANTES NUEVOS-ANTIGUOS

SEMANA DEL AL ACTIVIDADES OBSERVACIONES

1ra. 09-mar 12-mar Avance de materia 2da. 14-mar 19-mar Avance de materia 3ra. 21-mar 26-mar Avance de materia 4ta. 28-mar 02-abr Avance de materia 5ta. 04-abr 09-abr Avance de materia 6ta. 11-abr 16-abr Avance de materia Inicio Primera Evaluación Parcial Presentación de Notas

7ma. 18-abr 23-abr Avance de materia Conclusión Primera Evaluación Parcial Presentación de Notas

8va. 25-abr 30-abr Avance de materia 9na. 02-may 07-may Avance de materia

10ma. 09-may 14-may Avance de materia 11ra. 16-may 21-may Avance de materia 12da. 23-may 28-may Avance de materia Inicio Segunda Evaluación Parcial Presentación de Notas 13ra. 30-may 04-jun Avance de materia Conclusión Segunda Evaluación Parcial Presentación de Notas 14ta. 06-jun 11-jun Avance de materia 15ta. 13-jun 18-jun Avance de materia 16ta. 20-jun 25-jun Avance de materia

17ma. 27-jun 02-jul Avance de materia 18va. 04-jul 09-jul Inicio Evaluación Final Presentación de Notas 19na. 11-jul 16-jul Conclusión Evaluación Final Transcripción de Notas 20va. 18-jul 23-jul Evaluación del segundo turno Transcripción de Notas 21ra. 25-jul 26-jul Cierre de Gestión



6

PLANIFICACIÓN DE ACTIVIDADES

CONTENIDO MÍNIMO CONTENIDO ANALÍTICO ACTIVIDAD PERIODOS ACADÉMICOS RECURSOS DIDÁCTICOS

Sistemas de Apoyo a las Decisiones

Tema 2: Herramientas de Bases de Datos Multidimensionales

Visita a ENTEL Área de Sistemas e Informática

4 Periodos Data Display Cámaras fotográficas, Filmadoras

Sistemas de Apoyo a las Decisiones

Tema 1: Data warehouse y Data Marts Herramientas de Bases de Datos Multidimensionales

Visita SFIDA 4 Periodos Data Display

Software de Monitoreo de Procesos Instrumentación

Nuevas Tecnologías Tema 4: Data Mining - eCommerce Seminario ARCVIEW

6 Periodos Data Display Equipo de Computación Pápelografo Software

Nuevas Tecnologías Tema 5: XML para WWW Tema 6: XML Schema e Namespaces Visita INSEROR

6 Periodos Data Display Software Pizarras Presentaciones

Nuevas Tecnologías Tema 5: XML para WWW Tema 6: XML Schema e Namespaces Tema 7: Tecnología .NET

Visita E.M.V.

8 Periodos Data Display Software Pizarras Presentaciones Soporte CDs



7

WORK PAPER # 1

PROGRAMA DE CONTROL DE CALIDAD

Nro DE PROCEDIMIENTO: APRO 07 Nro. DE HOJAS: 20

ELABORO: ING. MILTON ZURITA BENITO

CÓDIGO: CMP 527

TITULO WORK PAPER: DATA WAREHOUSE DPTO:

UDABOL – ORURO

DESTINADO A: DOCENTE ALUMNOS x ADMINISTRATIVOS OTROS OBSERVACIONES: INGENIERIA DE SISTEMAS –NUEVAS TECNOLGIAS- UNIDAD I FECHA DE DIFUSIÓN: FECHA DE ENTREGA:



8

WORKPAPER #1

NUEVAS TECNOLOGIAS

Data Warehouse

1. Introducción

Hoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones requerimos hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo.

Por ese motivo se requieren herramientas que nos ayuden a minimizar el tiempo para analizar mucha información con mayor velocidad y precisión; utilizando dichas herramientas logramos mantenernos competitivos, ya que nuestros negocios deben reaccionar al cambio del mercado. De otro modo el mercado globalizado, la presión inmensa de la competencia, los arranques tecnológicos, etc. Debilitaran nuestra empresa. Esto nos muestra que las empresas invierten en tecnología y soluciones con las cuales se mantienen en este mundo cambiante, ahora las empresas no dependen tan solo de factores como ubicación, productos, etc. Sino también del conocimiento. Tal conocimiento basado en información comprensible, detallada y relevante es crucial para lograr y sostener ventaja competitiva. El poseer conocimientos correctos significa tener respuestas correctas y realizar decisiones estratégicas para la ejecución de la empresa. Pero las tareas de recolectar, procesar, limpiar y transformar la información necesaria para la toma de decisiones no es una tarea sencilla mas si consideramos que una empresa tiene distintas áreas que a veces se encuentran alejadas de los ejecutivos de negocios.

El Componente de Bussines Intelligence que resuelve este caos de los datos es el Data Warehouse.

El Data Warehouse es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso de toma de decisiones de la gerencia.

Los Alumnos.

2. Data Warehouse

¿Qué es Data Warehousing?

En la actualidad hay una importante cantidad de confusión respecto a lo que es un Data Warehouse que, afortunadamente, está comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnología informática tiene su definición y, lo que es peor, en su propia jerga no siempre comprensible.

Algunos llaman a Datawahouse Business Intelligence or Decision Support en realidad es considerada la solución integral y oportuna para desarrollar negocio el Datawarehouse se caracteriza por ser:

Integrado - Temático - Histórico - No volatil

Definición :

Es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.

Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data Warehousing los agruparemos dentro del proceso de Transformación de Datos.

http://www.monografias.com/trabajos6/dawa/dawa.shtml�




9

Manejar grandes volúmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios los agruparemos en Procesamiento y Administración de Datos.

Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías que serán explicadas más adelante: Acceso a los Datos y Descubrimiento o Data Mining.

Estos desarrollos tecnológicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. Veamos un poco más en detalle los grupos mencionados.

Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales". En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".

Data Mining

En este sentido un sistema Datamining es una tecnología de soporte para usuario final, cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.

Los objetivos de un sistema Datamining nos permitiría analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos.

Los sistemas Datamining se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como:

• Redes Neuronales • Introducción de reglas • Arboles de decisión • Conjunto de reglas por clase

Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de detección de fraude.

Data Marts

Es un pequeños Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica de la compañía. También podemos definir que un Data Martes es un subconjunto de una bodega de datos para un propósito especifico.

Su función es apoyar a otros sistemas para la toma de decisiones.

Los procesos que conforma el DATAWAREHOUSE son:

1-Extraccion 2 Elaboración 3-Carga 4-Explotacion

http://www.monografias.com/trabajos7/coad/coad.shtml#costo�

http://www.monografias.com/trabajos11/metods/metods.shtml�

http://www.monografias.com/trabajos11/fraer/fraer.shtml#fra�



10

Componentes del Data Warehouse

Impactos DW

El éxito de DW no está en su construcción, sino en usarlo para mejorar procesos empresariales, operaciones y decisiones. Posesionar un DW para que sea usado efectivamente, requiere entender los impactos de implementación en los siguientes ámbitos:

Impactos Humanos.

Efectos sobre la gente de la empresa:

Construcción del DW: Construir un DW requiere la participación activa de quienes usarán el DW. A diferencia del desarrollo de aplicaciones, donde los requerimientos de la empresa logran ser relativamente bien definidos producto de la estabilidad de las reglas de negocio a través del tiempo, construir un DW depende de la realidad de la empresa como de las condiciones que en ese momento existan, las cuales determinan qué debe contener el DW. La gente de negocios debe participar activamente durante el desarrollo del DW, desde una perspectiva de construcción y creación. •Accesando el DW: El DW intenta proveer los datos que posibilitan a los usuarios accesar su propia información cuando ellos la necesitan. Esta aproximación para entregar información tiene varias implicancias:

a) La gente de la empresa puede necesitar aprender nuevas destrezas. b) Análisis extensos y demoras de programación para obtener información será eliminada. Como la información estará lista para ser accesada, las expectativas probablemente aumentarán. c) Nuevas oportunidades pueden existir en la comunidad empresarial para los especialistas de información. d) La gran cantidad de reportes en papel serán reducidas o eliminadas. e) La madurez del DW dependerá del uso activo y retroalimentación de sus usuarios.

Usando aplicaciones DSS/EIS: usuarios de aplicaciones DSS y EIS necesitarán menos experiencia para construir su propia información y desarrollar nuevas destrezas.

3. Impactos Empresariales.

Procesos Empresariales Y Decisiones Empresariales.

Se deben considerar los beneficios empresariales potenciales de los siguientes impactos:

a) Los Procesos de Toma de Decisiones pueden ser mejorados mediante la disponibilidad de información. Decisiones empresariales se hacen más rápidas por gente más informada. b) Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por información que finalmente es incorrecta o no encontrada, es eliminada.

http://www.monografias.com/trabajos5/recicla/recicla.shtml#papel�



11

c) Conexiones y dependencias entre procesos empresariales se vuelven más claros y entendibles. Secuencias de procesos empresariales pueden ser optimizados para ganar eficiencia y reducir costos.

d) Procesos y datos de los sistemas operacionales, así como los datos en el DW, son usados y examinados. Cuando los datos son organizados y estructurados para tener significado empresarial, la gente aprende mucho de los sistemas de información. Pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible entonces mejorar la calidad de nuevas aplicaciones. Comunicación e Impactos Organizacionales.

Apenas el DW comienza a ser fuente primaria de información empresarial consistente, los siguientes impactos pueden comenzar a presentarse:

a) La gente tiene mayor confianza en las decisiones empresariales que se toman. Ambos, quienes toman las decisiones como los afectados conocen que está basada en buena información. b) Las organizaciones empresariales y la gente de la cual ella se compone queda determinada por el acceso a la información. De esta manera, la gente queda mejor habilitada para entender su propio rol y responsabilidades como también los efectos de sus contribuciones; a la vez, desarrollan un mejor entendimiento y apreciación con las contribuciones de otros. c) La información compartida conduce a un lenguaje común, conocimiento común, y mejoramiento de la comunicación en la empresa. Se mejora la confianza y cooperación entre distintos sectores de la empresa , viéndose reducida la sectorización de funciones. d) Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los sistemas operacionales.

Impactos Técnicos De DW.

Considerando las etapas de construcción, soporte del DW y soporte de sistemas operacionales, se tienen los siguientes impactos técnicos:

Nuevas destrezas de desarrollo: cuando se construye el DW, el impacto más grande sobre la gente técnica está dada por la curva de aprendizaje, muchas destrezas nuevas se deben aprender, incluyendo:

a) Conceptos y estructura DW.

b) El DW introduce muchas tecnologías nuevas (ETT, Carga, Acceso de Datos, Catálogo de Metadatos, Implementación de DSS/EIS ), y cambia la manera que nosotros usamos la tecnología existente. Nuevas responsabilidades de soporte, nuevas demandas de recursos y nuevas expectativas, son los efectos de estos cambios.

c) Destrezas de diseño y análisis donde los requerimientos empresariales no son posibles de definir de una forma estable a través del tiempo.

d) Técnicas de desarrollo incrementa y evolutivo.

e) Trabajo en equipo cooperativo con gente de negocios como participantes activos en el desarrollo del proyecto. • Nuevas responsabilidades de operación: Cambios sobre los sistemas y datos operacionales deben ser examinados más cuidadosamente para determinar el impacto que estos cambios tienen sobre ellos, y sobre el DW.

4. ¿Quiénes y para qué lo usan?

Dadas las características de un sistema de Data Warehousing, su aplicación puede tener variados fines, en una diversidad de industrias. No obstante, en términos generales, podemos decir que su aplicación más rica corresponde a entornos de empresas en los que se identifican grandes volúmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de transacciones. A continuación veremos ejemplos de aplicaciones típicas y algunos casos puntuales en distintas industrias.



12

Comercio Minorista

Utilizan grandes sistemas de Procesamiento Paralelo Masivo para acceder a meses o años de historia transaccional tomada directamente en los puntos de venta de cientos, o miles, de sucursales. Con esta información detallada pueden efectuar en forma más precisa y eficiente actividades de compra, fijación de precios, manejo de inventarios, configuración de góndolas, etc.

Las promociones y las ofertas de cupones son seguidas, analizadas y corregidas. Modas y tendencias son cuidadosamente administradas a efectos de maximizar utilidades y reducir costos de inventario. El stock es reasignado por sucursales o regiones según ventas y tendencias. Estos sistemas con capacidad de procesar gran cantidad de datos detallados permiten implementar eficientemente prácticas de mercadería "en consignación", en esta modalidad la cadena minorista paga al proveedor recién cuando los productos son vendidos y pasados por el lector de códigos de barras (scanner) del punto de venta.

Esta información detallada permite ejercer mayor poder de negociación sobre los proveedores, dado que el comercio minorista puede llegar a saber más que el fabricante sobre sus productos: quién lo compra, dónde, cuándo, con que otros productos, etc.

En su libro "Made in América: My Story" el fundador de Wal*Mart, Sam Walton, escribe: "...me dicen que es la base de datos comercial más grande del mundo. Lo que me gusta es la clase de información que puedo obtener de ella al instante ¡todos esos números!, llevamos 65 semanas de historia de cada artículo que vendemos. Esto significa que puedo elegir cualquiera y decir exactamente cuantos vendimos... no en promedio, sino en cualquier región, distrito o sucursal. Es difícil que un proveedor sepa más acerca de su producto de lo que sabemos nosotros. Nos da el poder de la ventaja competitiva." Para poner esto en perspectiva debemos considerar que las sucursales a las que hace referencia Sam Walton son unas 2500 y que cada una de ellas tiene una variedad de entre 50.000 y 80.000 artículos, todas las noches 20 millones de actualizaciones se realizan en el Data Warehouse. Wal*Mart es un excelente ejemplo práctico del concepto planteado por A. Tofler en su libro "Powershift": el poder se desplaza del fabricante al minorista por el manejo de la información.

Otras instalaciones de Data Warehousing de magnitud en la industria minorista son las de Kmart, Sears, Meijer, Kohl's Department Stores, American Stores (Jewel/OSCO/Lucky/Savon/ACME/SuperSaver), Mervyn's, Buttrey Food & Drug, QVC Home Shopping, Canadian Tyre, WH Smith Books (Gran Bretaña), Great Universal (GB), Supermercados Casino (Francia), Migrosgenossenschaftsbund (Suiza), Otto Versand (Alemania).

Manufactura de Bienes de Consumo Masivo

Las empresas de este sector necesitan hacer un manejo cada vez más ágil de la información para mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la cantidad de producto que se venderá a un determinado precio y, por consiguiente, producir la cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las grandes cadenas minoristas con inmensas cantidades de productos "en consignación", que no son pagados hasta que estos productos son vendidos al consumidor final.

Las cadenas minoristas y sus proveedores utilizan sus Data Warehouses para compartir información, permitiéndole a las empresas de manufactura conocer el nivel de stock en las góndolas y eventualmente hacerse responsables de la reposición de inventario de la cadena minorista. Como es de esperar esto reduce fuertemente la intermediación. También se utilizan para campañas de marketing, planificación de publicidad y promociones y se coordinan las ofertas de cupones y promociones con las cadenas minoristas.

Un ejemplo interesante es el de Whirlpool. Este fabricante global de electrodomésticos con base en Benton Harbor, Michigan, utiliza su Data Warehouse para hacer un seguimiento directo de sus casi 15 millones de clientes y de sus más de 20 millones de aparatos instalados. Las mayores aplicaciones del sistema son para marketing, ventas, mantenimiento, garantía y diseño de productos. Permite mantener stock de partes más ajustados y mejorar las condiciones de negociación con los proveedores de las mismas. Si, por ejemplo, un determinado motor se identifica como poseedor de una tasa de falla superior, Whirlpool puede utilizar la información para hacer renegociaciones de garantía con el proveedor.

Como anécdota interesante se puede mencionar que durante el verano de 1993 los ingenieros de Whirlpool detectaron una tasa de falla muy alta en una manguera de conexión en una serie de lavarropas que se estaba vendiendo. A partir de allí se detuvo la producción, se identificaron los clientes y se enviaron técnicos a reemplazar la parte defectuosa antes de que entrara en falla. Esto no solo tuvo un impacto muy importante en satisfacción de

http://www.monografias.com/trabajos16/fijacion-precios/fijacion-precios.shtml#ANTECED�

http://www.monografias.com/trabajos12/foucuno/foucuno.shtml#CONCEP�

http://www.monografias.com/trabajos10/teca/teca.shtml�

http://www.monografias.com/trabajos13/librylec/librylec.shtml�

http://www.monografias.com/trabajos4/revolfrancesa/revolfrancesa.shtml�

http://www.monografias.com/trabajos6/laerac/laerac.shtml#unificacion�



13

clientes sino que se redujeron los costos de garantía por el reemplazo planificado y, especialmente, ¡se evitaron costosos reclamos por daño a la propiedad debidos a pérdidas de agua!

Otras empresas del sector que cuentan con Data Warehouses de importancia son: Coca Cola, Nike, Procter & Gamble, Hallmark, Maybelline, Helene Curtis, 3M, Owens Corning Glass, Karsten Ping Golf Clubs, Walt Disney.

Transporte de Cargas y Pasajeros

Se utilizan Data Warehouses para almacenar y acceder a meses o años de datos de clientes y sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad, monitoreo de ganancias, proyecciones y análisis de ventas y costos, programas de calidad y servicio a clientes.

Las empresas de transporte de cargas llevan datos históricos de años, de millones de cargamentos, capacidades, tiempos de entrega, costos, ventas, márgenes, equipamiento, etc..

Las aerolíneas utilizan sus Data Warehouses para sus programas de viajeros frecuentes, para compartir información con los fabricantes de naves, para la administración del transporte de cargas, para compras y administración de inventarios, etc. Hacen un seguimiento de partes de repuesto, cumplimiento con las regulaciones aeronáuticas, desempeño de los proveedores, seguimiento de equipaje, historia de reservas, ventas y devoluciones de tickets, reservas telefónicas, desempeño de las agencias de viajes, estadísticas de vuelo, contratos de mantenimiento, etc.

Algunas empresas que cuentan con Data Warehouses de magnitud: Cornrail, Union Pacific, Norfolk Southern, American President Lines, Delta, Lufthansa, QANTAS, British Airways, American Airlines, Canadian Airlines, SNFC.

Telecomunicaciones

Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente competitivo, desregulado y global que, a su vez, atraviesa profundos cambios tecnológicos. Se almacenan datos de millones de clientes: sus circuitos, facturas mensuales, volúmenes de llamados, servicios utilizados, equipamiento vendido, configuraciones de redes, etc. así como también información de facturación, utilidades, y costos son utilizadas con propósitos de marketing, contabilidad, reportes gubernamentales, inventarios, compras y administración de redes. Otras Industrias

Muchas otras industrias y actividades utilizan actualmente, o están comenzando a instalar, Data Warehouses: entidades gubernamentales, especialmente para el control impositivo, empresas de servicios públicos, de entretenimiento, editoriales, fabricantes de automóviles, empresas de petroleo y gas, laboratorios farmacéuticos, droguerías, etc.

En la industria informática NCR dispone de los Data Warehouses de mayor magnitud y antigüedad. Sus mayores instalaciones se encuentran en distintos centros de la compañía en Estados Unidos. La de NCR El Segundo, California, es una de las más antiguas del mundo, su primera aplicación fue el seguimiento histórico y detallado de la base de clientes: llamados de servicios, productos instalados, performances, etc. Esta instalación es herencia de Teradata, compañía fundada en 1979 para la producción de sistemas de procesamiento paralelo masivo destinados a aplicaciones de soporte a la toma de decisiones y posteriormente adquirida por NCR.

En NCR San Diego, California, se encuentra el centro de desarrollo de los computadores WorldMark. Sobre los mismos se realizó la demostración del Data Warehouse más grande del mundo: 10 Terabytes de información (=10.000 Gigabytes=10.000.000 Megabytes), para poner esto en términos manejables debemos considerar que toda la información escrita de la Biblioteca del Congreso de los Estados Unidos se podría almacenar en unos 20 Terabytes.

En NCR Dayton, Ohio, la compañía dispone de un Data Warehouse de 1 Terabyte (=1000 Gigabytes) destinado fundamentalmente a tareas de marketing, producción y finanzas. A la fecha tiene almacenados 281.154 documentos, agrupados en 36 grupos de interés temático, que pueden ser accedidos 24 Hs. al día, los siete días de la semana, por 16.100 usuarios distribuidos en 46 países. A principios del año 1996 el sistema estaba respondiendo un promedio de 242.707 consultas mensuales.

Diagrama de Funcionamiento

http://www.monografias.com/trabajos/transporte/transporte.shtml�

http://www.monografias.com/trabajos10/gase/gase.shtml�

http://www.monografias.com/trabajos10/ponency/ponency.shtml�



14

¿Cómo trabaja el Data Warehouse?

• Extrae la información operacional. • Transforma la operación a formatos consistentes. • Automatiza las tareas de la información para prepararla a un análisis eficiente.

¿En quê podemos usarlo?

• Manejo de relaciones de marketing. • Análisis de rentabilidad. • Reducción de costos.

Busines Intelligence se ha vuelto una necesidad en el vertiginoso ritmo del ambiente de negocios actual. Los negocios necesitan aprovechar las posibilidades que les ofrece la actual tecnología para permanecer competitivos y rentables.

OLAP

Es un sinónimo de base de datos multidimensional mediante las cuales se proveen una tecnología para el cálculo y análisis requerido por las aplicaciones analíticas para el "Bussines Intellingence", las bases de datos relacionadas están formadas por un conjunto de registros Cada registro contiene la información organizada en campos.

El OLAP describe la tecnología asociada al acceso y análisis de datos en líneas.

http://www.monografias.com/trabajos15/medio-ambiente-venezuela/medio-ambiente-venezuela.shtml�



15

5. Sistemas De Data Warehouse Y Oltp

Una base de datos para soportar procesos transaccionales en línea (OLTP), puede no ser adecuada para el Data Warehouse ya que ha sido diseñada para maximizar la capacidad transaccional de sus datos y tipicamente tiene cientos de tablas la gran mayoría normalizadas. Su diseño también ha sido condicionado por los procesos operacionales que deberá soportar para la óptima actualización de sus datos, normalmente muchas de sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse están orientados a procesos de consultas en contraposición con los procesos transaccionales.

OLTP Data Warehouse Propósito Ejecuta operaciones transaccionales diariamente Consultas y análisis para la obtención de información Estructura Sistemas de bases de datos relacionales Normalmente sistemas de bases de datos relacionales Modelo de datos Normalizado Muchas de sus tablas pueden no estar normalizadas se admite redundancia en los datos. Bases de datos multidimensionales. Acceso SQL SQL más extensiones especiales dependientes de las herramientas de explotación de datos (Data Mining)

No obstante, el SQL estándar puede ser suficiente en manos de personal experto.Tipo de datos Los datos están orientados a la gestión de los negocios Los datos están orientados al análisis de los negocios.

Transforman los datos en información para su análisis. Perdurabilidad Los datos cambian constantemente, vistos globalmente en procesos de reporting sofisticados pueden perder consistencia, o bien, para no perder consistencia deben imponerse mecanismos de bloqueo de datos con un elevado consumo de recursos globales del sistema.Datos históricos con referencias temporales no sujetos a modificaciones.

Características

De acuerdo con Bill Inmon, autor de Building the Data Warehouse Construyendo el almacén de datos, ampliamante reconocido como el gurú creador del concepto data warehousing, existen generalmente cuatro características que describen un almacen de datos:

1.orientado al sujeto:

Los datos se organizan de acuerdo al sujeto en vez de la aplicación, por ejemplo, una compañia de seguros usando un almacén de datos podría organizar sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos (automóviles, vida, etc.). Los datos organizados por sujetos contienen solo la información necesaria para los procesos de soporte para la toma de decisiones.

2.integrados:

Cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificación de los datos es a menudo inconsistente. Por ejemplo, en una aplicación, la palabra gender podría codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno operacional a un entorno de almaceén de datos o de data warehouse, ellos asumen una codificación consistente, por ejemplo gender siempre se transformaría a "m" y "f".

3.variación-temporal:

El almaceén de datos contiene un lugar para guardar datos con una antiguedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán.

4. No son inestables:

Los datos no serán modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados, leidos y/o accedidos.

Soluciones Deister

El sistema DEISTER ERP/1 integra datos del sistema OLTP y permite producir DataMarts. Estos DataMarts constituyen los sillares sobre los que la empresa puede construir su sistema de Data Warehouse.

http://www.monografias.com/trabajos14/enfoque-gestion/enfoque-gestion.shtml�



16

El sistema DEISTER ERP/1 puede ser conectado a productos Data Warehouse de diversos fabricantes como por ejemplo Informix-MetaCube. La familia de productos INFORMIX-MetaCube permitirá gestionar y explorar los Data Warehouse de su organización:

INFORMIX-MetaCube Warehouse Manager

Ofrece a los administradores de las bases de datos una herramienta gráfica para manejar los metadata que describen el almacén de datos de una manera lógica y amigable. Simplemente con puntera y clikar mediante el ratón, puede verse y modificarse el modelo de los DataMarts sobre los cuales los usuarios dependerán para acceder a los datos que componen el Data Warehouse.

INFORMIX-MetaCube Aggregator

En la medida que el Data Warehouse o almacén de datos madure, se irán incorporando volúmenes de datos los cuales alcanzarán a terabytes de datos. Y es por esto que se requiere una utilidad de optimización y agregación de datos. Con INFORMIX-MetaCube Aggregator podemos fácilmente adminstrar y afinar el Data Warehouse según las necesidades de soporte a la toma de decisiones creando y manteniendo datos pre-calculados y sumarizados, conocidos como datos agregados. ¿ El resultado ? Se obtendrán mejoras de órdenes de magnitud en el rendimiento de los sistemas de soporte a la toma de decisiones DSS.

INFORMIX-MetaCube Explorer

Convertir un Data Warehouse en un sistema de soporte a la toma de decisiones significa no solamente gestionar enormes volúmenes de datos, también debe proveer métodos efectivos y fáciles para acceder y analizar los datos. INFORMIX-MetaCube Explorer provee un entorno de gestión integrando el acceso al Data Warehouse, análisis, reporting, y gráficos en un simple aplicativo. INFORMIX-MetaCube Explorer ofrece acceso completo a todas las utilidades del Motor de Análisis MetaCube, incluye el entorno extensible de análisis, consistente en un rico juego de funciones analíticas.

Beneficios

Optimización

Las estructuras de datos operacionales están orientadas a una explotación mediante procesos transaccionales en línea (OLTP), las características de sus tablas y registros.

Datos versus información

El Data Warehouse con las herramientas adecuadas nos permitirá obtener o realizar análisis, reporting, extracción y exploración de los datos para, en suma, transformar los datos en información útil para nuestra organización.

Beneficios económicos

Normalmente los beneficios económicos que podemos obtener de un Data Warehouse no tienen la inmediatez de los que pueden obtenerse mediante un eficiente sistema de información operacional, por lo general mediante los Data Warehouse o Almacenes de datos hemos de esperar el ahorro de gastos motivados por los cambios que puedan sugerirse en la gestión de nuestra empresa en el medio y largo plazo.

¿Por quê usar un Data Ware House?

• La información sumarizada es almanezada en el D.W. • Obtiene respuestas en tiempos razonables. • Analiza desde una perspectiva en el tiempo con la información histórica que se brinde.

http://www.monografias.com/trabajos14/enfoque-gestion/enfoque-gestion.shtml�

http://www.monografias.com/trabajos4/costo/costo.shtml�



17

• Nos permite tener fuentes externas para ayudar a nuestra información. • La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.

6. Diferencias: Data Warehouse vs. OLTP

Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en cuanto a sus requerimientos de diseño y sus características de operación. Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseño de un Data Warehouse como si fuera una aplicación de transacciones en línea (OLTP).

Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro lado, un Data Warehouse está organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc.

Otra diferencia radica en el número de usuarios. Normalmente, el número de usuarios de un Data Warehouse es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accesados por cientos de usuarios simultáneamente, mientras que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a los Data Warehouses, esto es debido a que un Data Warehouse puede estar formado por información de varios OLTP´s.

Existen también diferencia en el diseño, mientras que el de un OLPT es extremadamente normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el número de tablas es menor, pero cada una de éstas tiende a ser mayor en número de columnas.

Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los Data Warehouse son actualizados en batch de manera periódica.



18

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están sujetos son muy variados y es imposible preverlos todos de antemano.

Costos De Un DW Costos De Construcción

Los costos de construir un DW son similares para cualquier proyecto de tecnología de información. Estos pueden ser clasificados en tres categorías:

RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los procesos empresariales. Además es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participación de la gente de negocios como de los especialistas tecnológicos; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimiento y destrezas en un espíritu de equipo de trabajo, para enfrentar los desafíos de desarrollo del DW.

Tiempo: Se debe establecer el tiempo no tan solo para la construcción y entrega de resultados del DW, sino también para la planeación del proyecto y la definición de la arquitectura. La planeación y la arquitectura, establecen un marco de referencia y un conjunto de estándares que son críticos para la eficacia del DW.

Tecnología: Muchas tecnologías nuevas son introducidas por el DW. El costo de la nueva tecnología puede ser tan sólo la inversión inicial del proyecto.

Costos De Operación

Una vez que está construido y entregado un DW debe ser soportado para que tenga valor empresarial. Son justamente estas actividades de soporte, la fuente de continuos costos operacionales para un DW. Se pueden distinguir tres tipos de costos de operación:



19

Evolutivos: ajustes continuos del DW a través del tiempo, como cambios de expectativas y, cambios producto del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW.

Crecimiento: Incrementos en el tiempo en volúmenes de datos, del número de usuarios del DW, lo cual conllevará a un incremento de los recursos necesarios como a la demanda de monitoreo, administración y sintonización del DW (evitando así, un incremento en los tiempos de respuesta y de recuperación de datos, principalmente).

Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que éste usa, como en las necesidades de la información que éste soporta.

Los dos primeros tipos de costos de operación, son básicos en la mantención de cualquier sistema de información, por lo cual no nos resultan ajenos; sin embargo, se debe tener especial cuidado con los costos de operación por cambios, ya que ellos consideran el impacto producto de la relación del OLTP y del Ambiente Empresarial, con el DW.

Resulta esencial para llevar a cabo un proyecto DW, tener claridad en la forma que éste se ve afectado por medio de cambios a nivel de OLTP como del Ambiente Empresarial; por ello entonces, a continuación se analiza más en detalle este tipo de costos de operación.

Cambios y el DW.

Cuando se implementa un DW, el impacto de cambios es compuesto. Dos orígenes primarios de cambios existen: Cambios en el ambiente empresarial: Un cambio en el ambiente empresarial puede cambiar las necesidades de información de los usuarios. Así, el contenido del DW se puede ver afectado y las aplicaciones DSS y EIS pueden requerir cambios.

Cambios en la tecnología: Un cambio en la tecnología puede afectar la manera que los datos operacionales son almacenados, lo cual implicaría un ajuste en los procesos de Extracción, Transporte y Carga para adaptar las variaciones presentadas.

Un cambio de cualquiera de ellos impacta los sistemas operacionales. Un cambio en el ambiente operacional puede cambiar el formato, estructura o significado de los datos operacionales usados como origen para el DW. De esta forma serían impactados los procesos de Extracción, Transformación y Carga de datos.

Valor Del DW

El valor de un DW queda descrito en tres dimensiones:

1. Mejorar la Entrega de Información: información completa, correcta, consistente, oportuna y accesible. Información que la gente necesita, en el tiempo que la necesita y en el formato que la necesita.

2. Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de información se obtienen decisiones más rápidas; así también, la gente de negocios adquiere mayor confianza en sus propias decisiones y las del resto, y logra un mayor entendimiento de los impactos de sus decisiones.

3. Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor calidad de información, la empresa puede lograr por sí sola:

• Eliminar los retardos de los procesos empresariales que resultan de información incorrecta, inconsistente y/o no existente.

• Integrar y optimizar procesos empresariales a través del uso compartido e integrado de las fuentes de información.

• Eliminar la producción y el procesamiento de datos que no son usados ni necesarios, producto de aplicaciones mal diseñados o ya no utilizados.

Costos v/s Valor De DW

En todo proyecto es importante e inevitable realizar un análisis desde la perspectiva Costo/Valor. A grandes rasgos, los costos asociados a un proyecto DW incluyen el costo de construcción y, la mantención y operación una vez que está construido. En cuanto al valor, éste considera, el valor de mejorar la entrega de



20

información, el valor de mejorar el proceso de toma de decisiones y el valor agregado para los procesos empresariales.

CUESTIONARIO

1. Explique el alcance del DW

2. ¿Cuál es el origen del DW?

3. ¿Qué tipo de empresas incorporan el DW?

4. ¿Cuál es la empresa que tiene mayor cantidad de información?

5. ¿Cuál es la importancia del DW?

6. ¿Qué es Olap?

7. Exprese su criterio respecto a costos del DW



21

INGENIERIA DE SISTEMAS

FACULTAD DE INGENIERIA

WORK PAPER # 2



ELABORO: ING. ROSMERY LUIZAGA SALINAS

CÓDIGO: CMP 527

TITULO WORK PAPER: DATA MINING

DPTO:

UDABOL – ORURO

DESTINADO A: DOCENTE ALUMNOS x ADMINISTRATIVOS OTROS

OBSERVACIONES: INGENIERIA DE SISTEMAS-NUEVAS TECNOLOGIAS- UNIDAD II

FECHA DE DIFUSIÓN:

FECHA DE ENTREGA:



22

WORKPAPER #2

• Recolección masiva de datos

NUEVAS TECNOLOGIAS

DATAMINING

Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

• Potentes computadoras con multiprocesadores • Algoritmos de Data Mining

Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos.

En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining.

Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse actuales.

Qué es Data Mining?

Data Mining, la extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología nueva con gran potencial que ayuda a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse).

Un Sistema Datamining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.

Cómo se desarrollan los sistemas Data Mining?

Los sistemas Datamining se desarrollan bajo lenguajes de última generación basados en la inteligencia artificial y utilizan modelos matemáticos tales como:




23

Redes neuronales artificiales:modelos predecible no-lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.

Arboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Arboles de Clasificación y Regresión (CART: Classification And Regression Tree) y Detección de Interacción Automática de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection)

Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.

Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k ? 1). Algunas veces se llama la técnica del vecino k-más cercano.

Regla de inducción: la extracción de reglas if-then de datos basados en significado estadístico.

Muchas de estas tecnologías han estado en uso por más de una década en herramientas de análisis especializadas que trabajan con volúmenes de datos relativamente pequeños. Estas capacidades están ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing.

Qué son capaces de hacer las herramientas del Data Mining?

Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión.

Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas.

Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc.

Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas pues son traídas en línea (on-line).

El Alcance del Data Mining

Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:

Predicción automatizada de tendencias y comportamientos.

Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversión en futuros mailing. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos.

http://www.monografias.com/trabajos14/mocom/mocom.shtml�

http://www.monografias.com/trabajos15/composicion-follaje/composicion-follaje.shtml�

http://www.monografias.com/trabajos12/elproduc/elproduc.shtml�

http://www.monografias.com/trabajos11/conge/conge.shtml�

http://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtml�



24

Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

Las técnicas de Data Mining pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones.

Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

Más columnas. Los analistas muchas veces deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables.

Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población.

¿Cómo Trabaja el Data Mining?

¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar? La técnica usada para realizar estas hazañas en Data Mining se llama Modelado. Modelado es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. Por ejemplo, si busca un galeón español hundido en los mares lo primero que podría hacer es investigar otros tesoros españoles que ya fueron encontrados en el pasado. Notaría que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas características respecto de las corrientes oceánicas y ciertas rutas que probablemente tomara el capitán del barco en esa época. Usted nota esas similitudes y arma un modelo que incluye las características comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo más probabilidad de darse una situación similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrará el tesoro.

Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado en situaciones similares donde usted no conoce la respuesta.

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, ¿Cómo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso está completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos.

Arquitectura para Data Mining

Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

http://www.monografias.com/trabajos6/arma/arma.shtml�



25

El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.

Un server multidimensional OLAP permite que un modelo de negocios más sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por línea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados específicos tales como manejos de campaña, prospecting, y optimización de promociones. La integración con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organización puede "minar" las mejores prácticas y aplicarlas en futuras decisiones.

Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes, el server de Análisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.

1. ¿Qué es Datamining?

CUESTIONARIO

2. ¿Cuál es su arquitectura? 3. liste las aplicaciones para el Dataminig. 4. Prepare una simulación de un proyecto de Datamining, aplicando hacia empresas de nuestro medio

http://www.monografias.com/trabajos13/mercado/mercado.shtml�



26



WORK PAPER # 3



ELABORO: CEBS

CÓDIGO: CMP 527

TITULO WORK PAPER: XML

DPTO:

UDABOL – ORURO


OBSERVACIONES: INGENIERIA DE SISTEMAS -NUEVAS TECNOLOGIAS- UNIDAD III

FECHA DE DIFUSIÓN:

FECHA DE ENTREGA:



27

XML (Extensible Markup Language)

1. Introducción.

HTML (Hypertex Markup Language) se ha convertido en un lenguaje de marcas de inmensa popularidad durante estos últimos años. También debemos anotar que nos hemos encontrado con sus propias limitaciones, que algunas de ellas se han querido subsanar con la incrustación de scripts, javascripts, Active X, HTML dinámico, hojas de estilo en cascada (CSS). Todo esto es insuficiente para crear una arquitectura abierta de tipo cliente/servidor, con lo que el W3C (Word Wide Web Consortium), organismo que vela por el desarrollo de la Word Wide Web, se ha replanteado crear un nuevo estándar llamado XML (eXtensible Markup Language), que parte de las amplias especificaciones del SGML (Standard Generalized Markup Language). XML fue desarrollándose por el Grupo de Trabajo XML desde 1996 (en estos primeros años llamado SGML Editorial Review Board). La especificación XML 1.0 ha sido ratificada por la W3C el 10 de febrero de 1998, e interpretado como "un sistema para definir, validar y compartir formatos de documentos en la Web".

2. ¿Qué es XML?.

Concepto:

XML es un lenguaje de metamarcado que ofrece un formato para la descripción de datos estructurados. Esto facilita unas declaraciones de contenido más precisas y unos resultados de búsquedas más significativos en varias plataformas. Además, XML habilitará una nueva generación de aplicaciones para ver y manipular datos basadas en el Web.

Representación estructural de los datos:

XML ofrece una representación estructural de los datos que se puede implementar ampliamente y es fácil de distribuir. XML es un subconjunto de SGML optimizado para el Web. Definido por el World Wide Web Consortium (W3C) (en inglés), XML garantiza que los datos estructurados sean uniformes e independientes de aplicaciones o fabricantes. La interoperabilidad resultante está creando rápidamente una nueva generación de aplicaciones de comercio electrónico en la Web.

XML, que proporciona un estándar de datos que puede codificar el contenido, la semántica y los esquemas de una gran variedad de casos, desde los más simples a los más complejos, sirve para marcar lo siguiente:

• Un documento normal. • Un registro estructurado, como un registro de citas o un pedido de compra. • Un objeto con datos y métodos, como el formulario permanente de un objeto Java o de un control ActiveX. • Un registro de datos, como el conjunto de resultados de una consulta. • Metacontenido sobre un sitio Web, como el formato de definición de canal (CDF). • Representaciones gráficas, como la interfaz de usuario de una aplicación. • Entidades y tipos de esquema estándar. • Todos los vínculos entre datos y personas que hay en el Web.

Cuando los datos llegan al escritorio del cliente, se pueden manipular, editar y presentar en varias vistas, sin tener que regresar al servidor. Ahora los servidores pueden ser más escalables, gracias a la reducción de las cargas de ancho de banda y computación. Además, dado que los datos se intercambian en el formato XML, se pueden combinar fácilmente desde distintas fuentes.

XML es muy valioso para Internet, así como para los entornos de intranets corporativas de gran tamaño, pues proporciona interoperabilidad mediante un formato basado en estándares flexible y abierto, con formas nuevas de acceso a las bases de datos existentes y de entregar datos a clientes de Web. Las aplicaciones se pueden generar más rápidamente, su mantenimiento es más sencillo y pueden ofrecer fácilmente varias vistas de los datos estructurados.

http://www.monografias.com/trabajos16/java/java.shtml�

28

En un principio, no rivalizarán HTML y XML, estos se complementarán el uno al otro, anudándose ambas gramáticas. Este Lenguaje de marcas extensible (XML) es una versión abreviada del SGML (Standard Generalized Markup Language).

Algunos de los objetivos planteados por el Grupo de Trabajo XML y el W3C son:

• XML debe ser directamente utilizable sobre Internet. • XML debe soportar una amplia variedad de aplicaciones. • XML debe ser compatible con SGML. • Debe ser fácil la escritura de programas que procesen documentos XML. • El número de características opcionales en XML debe ser absolutamente mínimo, idealmente cero. • Los documentos XML deben ser legibles por los usuarios de este lenguaje y razonablemente claros. • El diseño de XML debe ser formal, conciso y preparado rápidamente. • Los documentos XML deben ser fácilmente creables. • La brevedad en las marcas XML es de mínima importancia.

A estos fines se le une unos estándares como el Unicode e ISO/IEC 10646 para caracteres, el Internet RCF 1766 para identificación de lenguajes, ISO 639 para códigos de nombres de lenguajes y también el ISO 3166 para códigos de nombres de países, para la normal comprensión de esta versión de XML.

3. Estructura de XML.

Un documento XML tiene dos estructuras, una lógica y otra física. Físicamente, el documento está compuesto por unidades llamadas entidades. Una entidad puede hacer referencia a otra entidad, causando que esta se incluya en el documento. Cada documento comienza con una entidad documento, también llamada raíz. Lógicamente, el documento está compuesto de declaraciones, elementos, comentarios, referencias a caracteres e instrucciones de procesamiento, todos los cuales están indicados por una marca explícita. Las estructuras lógica y física deben encajar de manera adecuada:

Los documentos XML se dividen en dos grupos, documentos bien formados y documentos válidos.

Un objeto textual o documento XML se dice que está bien formado si, considerándolo como conjunto, encaja con las especificaciones XML de producción, lo que implica:

• Contiene uno o más elementos. • Hay exactamente un elemento, llamado raíz o elemento documento, de forma que ninguna parte del mismo

aparece en el contenido de ningún otro elemento. Para todos los demás elementos, si la etiqueta inicial está en el contenido de otro elemento, la etiqueta final forma parte del contenido del mismo elemento. Dicho de forma más clara, los elementos, delimitados por una etiqueta de inicio y otra de final, se encuentran anidados correctamente.

• Cumple todas las restricciones que proporciona su especificación a través del DTD. Si no se utiliza DTD, el documento debe comenzar con un Declaración de Documento único (SDD, Standalone Document Declaration) que indique:

<?XML version="1.0" standalone="yes"?>

• Cada una de sus partes procesadas esta bien formada. • Todas las etiquetas deben estar balanceadas: esto es, todos los elementos que contengan datos de tipo

carácter deben tener etiquetas de principio y fin (no está permitida la omisión excepto para los elementos vacíos.);

• Todos los valores de los atributos deben ir entrecomillados (el carácter comilla simple [el apóstrofe] puede utilizarse si el valor contiene caracteres comillas dobles, y viceversa): si necesitas ambos, utiliza ' y "

• Cualquier elemento VACÍO (p.e. aquellos que no tienen etiqueta final como <IMG>, <HR>, y y otros de HTML) deben terminar con '/>' o debes hacerlos no VACÍOS añadiéndoles una etiqueta de fin; Ejemplo: se convertirá en o en .

29

• No debe haber etiquetas aisladas (< ó &) en el texto (p.e. debe darse como < y &), y la secuencia ]]> debe darse como ]]> si no ocurre esto como final de una sección marcada como CDATA;

• Los elementos deben anidar dentro de sí sus propiedades (no se deben sobreponer etiquetas, como en el resto de SGML);

• Los Archivos bien-formados sin-DTD pueden utilizar atributos en sus elementos, pero éstos deben ser todos del tipo CDATA, por defecto.

De un documento bien formado, se dice además que es válido, si tiene DTD como el resto de aplicaciones SGML. Un archivo XML válido comienza como cualquier otro archivo SGML, con una Declaración de Tipo de Documento:

Dado que XML está diseñado para ser un subconjunto de SGML, cualquier documento XML válido debe ser también un documento SGML válido.

4. Estructuras lógicas.

Cada documento XML contiene uno o más elementos, cuyos limites están delimitados por etiquetas de comienzo y de final o, en el caso de elementos vacíos, por una etiqueta de elemento vacío.

Cada elemento tiene un tipo, identificado por un nombre, denominado identificador genérico, y puede tener un conjunto de especificaciones de atributos.

Cada especificación de atributo tiene un nombre y un valor. Estas especificaciones no restringen la semántica, el uso o (mas allá de la sintaxis) los nombres de los tipos de los elementos y los atributos, excepto de los nombres que comienzan por XML, que se reservan para estandarizar etiquetas o atributos en versiones posteriores del estándar.

Estructuras físicas.

Un documento XML puede consistir en una o más unidades de almacenamiento virtual, llamadas entidades. Todas estas unidades tienen contenido y todas ellas (excepto la entidad documento y el subconjunto externo del DTD) están identificadas por un nombre. Cada documento XML contiene una entidad, llamada entidad documento, que sirve como punto de comienzo para el procesador XML y puede contener el documento completo.

Como hemos comentado, las entidades pueden ser analizadas o sin analizar (también llamadas procesadas o sin procesar). El contenido de una entidad analizada se conoce también como texto de reemplazo, y es parte integrante del documento. Las entidades no analizadas son recursos (tales como enlaces) cuyo contenido puede o no ser texto, o en caso de que sea texto que no sea XML. Cada entidad no asociada tiene una notación asociada, identificada por un nombre. Aparte de obligar al procesador XML a haga accesible a la aplicación el nombre de esta notación y sus identificadores asociados, XML no proporciona ninguna otra restricción sobre el contenido de estas entidades. La forma de invocar ambos tipos de entidades es a través de su nombre, en el caso de las analizadas a través de su referencia a entidad y en el de las no analizadas a través de sus atributos de entidad.

Las entidades generales, son entidades analizadas que se usan en el interior del documento. Las entidades parametrizadas son entidades analizadas que se usan en el ámbito del DTD. Estos dos tipos de entidades usan distintos tipos de referencias y se reconocen en contextos distintos.

XML consta de cuatro especificaciones (el propio XML sienta las bases sintácticas y el alcance de su implementación):

• DTD (Document Type Definition): Definición del tipo de documento. Es, en general, un archivo(s) que encierra una definición formal de un tipo de documento y, a la vez, especifica la estructura lógica de cada documento. Define tanto los elementos de una página como sus atributos. El DTD del XML es opcional. En tareas sencillas no es necesario construir una DTD, entonces se trataría de un documento "bien formado" (well-formed) y si lleva DTD será un documento "validado" (valid).

• XSL (eXtensible Stylesheet Language): Define o implementa el lenguaje de estilo de los documentos escritos para XML. Desde el verano de 1997 varias empresas informáticas como Arbortext, Microsoft e Inso vienen trabajando en una propuesta de XSL (antes llamado "xml-style") que presentaron a W3C. Permite modificar el aspecto de un documento. Se puede lograr múltiple columnas, texto girado, orden de visualización de los datos de una tabla, múltiples tipos de letra con amplia variedad en los tamaños. Este estándar está basado en el lenguaje de semántica y especificación de estilo de documento (DSSSL,

http://www.monografias.com/trabajos6/lide/lide.shtml�



30

Document Style Semantics and Specification Language, ISO/IEC 10179) y, por otro lado, se considera más potente que las hojas de estilo en cascada (CSS, Cascading Style Sheets), usado en un principio con el lenguaje DHTML. "Se espera que el CSS sea usado para visualizar simples estructuras de documentos XML (actualmente se ha conseguido mayor integración en XML con el protocolo CSS2 (Cascading Style Sheets, level 2) ofreciendo nuevas formas de composición y una más rápida visualización) y, por otra parte, XSL pueda ser utilizado donde se requiera más potencia de diseño como documentos XML que encierran datos estructurados (tablas, organigramas, etc.)(2)".

• XLL (eXtensible Linking Language): Define el modo de enlace entre diferentes enlaces. Se considera que es un subconjunto de HyTime (Hipermedia/Timed-based structuring Language o Lenguaje de estructuración Hipermedia/basado en el tiempo, ISO 10744) y sigue algunas especificaciones del TEI (Text Encoding Initiative o Iniciativa de codificación de texto). Desde marzo de 1998 el W3C trabajo en los enlaces y direccionamientos del XML. Provisionalmente se le renombró como Xlink y a partir de junio se le nombra como XLL. Este lenguaje de enlaces extensible tiene dos importantes componentes: Xlink y el Xpointer. Va más allá de los enlaces simples que sólo soporta el HTML. Se podrá implementar con enlaces extendidos. Jon Bosak establece los siguientes mecanismos hipertextuales que soportará esta especificación:

• Denominación independiente de la ubicación. • Enlaces que pueden ser también bidirecccionales. • Enlaces que pueden especificarse y gestionarse desde fuera del documento a los que se apliquen (Esto

permitirá crear en un entorno intranet/extranet un banco de datos de enlaces en los que se puede gestionar y actualizar automáticamente. No habrá más errores del tipo "404 Not Found").

• Hiperenlaces múltiples (anillos, múltiples ventanas, etc.). • Enlaces agrupados (múltiples orígenes). • Transclusión (el documento destino al que apunta el enlace aparece como parte integrante del documento

origen del enlace). • Se pueden aplicar atributos a los enlaces (tipos de enlaces). • XUA (XML User Agent): Estandarización de navegadores XML. Todavía está en proceso de creación de

borradores de trabajo. Se aplicará a los navegadores para que compartan todos las especificaciones XML.

5. Aplicaciones de XML.

Algunas de las aplicaciones de XML son:

• Ofrecer mecanismos más versátiles de mostrar datos. Actualmente, bajo el nombre de DOM (Document Object Model) se está desarrollando una API que sea soportada por todos los procesadores de XML y HTML. La idea detrás de esta API es que podamos representar (a través de javascripts o JavaApplets) documentos XML en los navegadores Web, pero de una forma más sofisticada que los documentos HTML, ya que XML no solo proporciona una sintaxis, sino también una semántica.

• Buscadores inteligentes. Debido a que la información en los documentos XML está etiquetada por su significado de forma precisa, podemos localizarla de forma mucho más clara que en documentos HTML. Con DTDs estandarizados para distintas aplicaciones (librerías, tiendas de deporte, catálogos de componentes,…) podríamos programar buscadores Web que recuperasen información sobre un producto de cualquier website en el mundo sabiendo que todos tendrán el mismo formato de datos (gracias al DTD), aunque no tengan necesariamente la misma representación gráfica (gracias al XML/XSL).

• Intercambio de información entre sistemas heterogéneos. El fundamento es el mismo que para los buscadores inteligentes. Debido a que el DTD proporciona un formato estándar para representar la información de un tema específico, puede usarse para simplificar el intercambio de información entre distintas fuentes (actualmente existen ya dos DTD estandarizados uno para fabricantes de chips y otro para industrias químicas, llamado CML).

Ventajas de XML.

• Los autores y proveedores pueden diseñar sus propios tipos de documentos usando XML, en vez de limitarse a HTML. Los tipos de documentos pueden ser explícitamente 'hechos a la medida de una audiencia', por lo que las difíciles manipulaciones que debes hacer con HTML para conseguir efectos especiales serán cosa del pasado: autores y diseñadores serán libres de inventar sus propias etiquetas;

• La información contenida puede ser más 'rica' y fácil de usar, porque las habilidades hipertextuales de XML son mayores que las de HTML.

• XML puede dar más y mejores facilidades para la representación en los visualizadores.

http://www.monografias.com/trabajos12/intrants/intrants.shtml�

http://www.monografias.com/trabajos14/mundo-negocios/mundo-negocios.shtml#ex�



31

• Elimina muchas de las complejidades de SGML, en favor de la flexibilidad del modelo, con lo que la escritura de programas para manejar XML será más sencilla que haciendo el mismo trabajo en SGML.

• La información será más accesible y reutilizable, porque la flexibilidad de las etiquetas de XML pueden utilizarse sin tener que amoldarse a reglas específicas de un fabricante, como es el caso de HTML.

• Los archivos XML válidos son válidos también en SGML, luego pueden utilizarse también fuera de la Web, en un entorno SGML (una vez la especificación sea estable y el software SGML la adopte).

6. Utilidades de XML.

Especificaremos algunas de las implementaciones/aplicaciones que se han desarrollado con XML. Suponemos que se establezca alguna implementación propia para Bibliotecas y Centros de Documentación; y con ello se pueda extraer la información desde la misma red (no por métodos de infranet).

CDF (Channel Definition Format): Los canales creado por Microsoft en el explorador IE4 con tecnología push.

RDF (Resource Description Framework): Esquema de descripción de recursos. Una de las aplicaciones más importantes que permitirá describir los datos de cada documento y definir las relaciones que hay entre los datos XML. Tratará de los metadatos (metadata). Se les podría considerar como "los META del XML". Muchas compañías en Internet se están adhiriendo a esta aplicación. RDF Posee las siguientes virtudes:

• Mejores motores de búsqueda. Se han adherido a esta especificación Yahoo!, Altavista, Excite, Lycos, WebCrawler, Amazon, etc.

• La capacidad de describir los contenidos y sus relaciones en una biblioteca digital o sede Web. Permitirá el acceso a una parte concreta del documento y se facilitará el intercambio de los datos.

• Se pueden calificar los contenidos para establecer la protección infantil y de la propia intimidad, desarrollado a través de las marcas (tags) de PICS (Platform for Internet Content Selection).

• Establece los derechos de propiedad intelectual en las propias páginas Web.

OSD (Open Software Description Format): Formato abierto de descripción de software. Desarrollo de software en múltiples plataformas. Describe el reparto de software a través de la Red. Las etiquetas XML con las que está descrito definen los componentes, la versión que es, la plataforma en la que ha sido creado, la relación con otros componentes, etc. Esto hará que se simplifique el proceso de instalación para el usuario y permitir también un fácil uso de las actualizaciones.

CML (Chemical Markup Language): Lenguaje de marcas para química. Describe, entre otras formulas, las estructuras moleculares y cristalinas, los análisis de espectros y otros objetos de interés para los químicos.

MathML (Mathematical Markup Language): Lenguaje de marcas para matemáticas. Apto para codificar signos matemáticos, símbolos científicos, etc. El MathML es un lenguaje de bajo nivel que tiene en cuenta la comunicación maquina a maquina de datos estructurados como información de bases de datos. El lenguaje MathML utiliza dos series de códigos progresivos: el primero presenta los signos matemáticos en series crecientes, y el segundo transmite el significado semántico de las expresiones matemáticas, lo que posibilita la codificación de símbolos y signos tanto matemáticos como científicos.

EDI (Electronic Document Interchange): Intercambio electrónico de datos. Lleva un tiempo en proceso de estudio, pero finalmente dará un espaldarazo con el estándar XML. InfoVía Plus lo integra en uno de sus servicios (InfoEDI).

OFX (Open Financial Exchange): Intercambio financiero abierto. Marco de trabajo enunciado actualmente en SGML, aunque Microsoft dice que pronto será enunciado en XML. A través de software de gestión financiera (Quicken, Microsoft Money, etc.) se podrá conectar con el banco para gestionar las cuentas y extraer información de la cuenta bancaria. Esto se hará a través de unos protocolos seguros.

TEI (Text Encoding Initiative): Iniciativa que partió de diversas asociaciones profesionales en los campos de humanidades. Trata de establecer etiquetas que propicien la descripción de textos científicos y literarios. En principio solo está disponible para SGML(6).

http://www.monografias.com/trabajos6/meti/meti.shtml�

http://www.monografias.com/trabajos11/bancs/bancs.shtml�



32

1. ¿QUÉ TIPO DE LENGUAJE ES XML?

CUESTIONARIO

2. ¿CÓMO ES LA ESTRUCTURA DE XML? 3. ¿CUÁLES SON SUS UTILIDADES?



33



WORK PAPER # 4



ELABORO: CEBS

CÓDIGO: CMP 527

TITULO WORK PAPER: XML

DPTO:

UDABOL – ORURO


OBSERVACIONES: INGENIERIA DE SISTEMAS -NUEVAS TECNOLOGIAS- UNIDAD III

FECHA DE DIFUSIÓN:

FECHA DE ENTREGA:

Definición arquitectura cliente servidor INTRODUCCIÒN En vista del aprendizaje que tenemos diariamente en el aula de clases, nos vemos desafiados por un mundo lleno de conocimientos que invoca a la investigación.



34

Este trabajo fue realizado precisamente para llenar las expectativas y ansias de intelectualidad que nos brinda la carrera, desde bases de datos, vemos la importancia de la arquitectura cliente servidor. Es exactamente lo que se plasmara en el siguiente trabajo, la forma de Conocer una arquitectura que en este momento es una de las más importantes y utilizadas en el ámbito de enviar y recibir información, también es una herramienta potente para guardar los datos en una base de datos como servidor. ------------------------------------- Con respecto a la definición de arquitectura cliente/servidor se encuentran las siguientes definiciones:

Cualquier combinación de sistemas que pueden colaborar entre si para dar a los usuarios toda la información que ellos necesiten sin que tengan que saber donde esta ubicada.

Es una arquitectura de procesamientos cooperativo donde uno de los componentes pide servicios a otro.

Es un procesamiento de datos de índole colaborativo entre dos o más computadoras conectadas a una red.

El término cliente/servidor es originalmente aplicado a la arquitectura de software que describe el procesamiento entre dos o más programas: una aplicación y un servicio soportante.

IBM define al modelo Cliente/Servidor. “Es la tecnología que proporciona al usuario final el acceso transparente a las aplicaciones, datos, servicios de cómputo o cualquier otro recurso del grupo de trabajo y/o, a través de la organización, en múltiples plataformas. El modelo soporta un medio ambiente distribuido en el cual los requerimientos de servicio hechos por estaciones de trabajo inteligentes o "clientes'', resultan en un trabajo realizado por otros computadores llamados servidores".

“Es un modelo para construir sistemas de información, que se sustenta en la idea de repartir el tratamiento de la información y los datos por todo el sistema informático, permitiendo mejorar el rendimiento del sistema global de información”

EN RESUMEN C/S es una relación entre procesos corriendo en máquinas separadas El servidor (S) es un proveedor de servicios. El cliente (C) es un consumidor de servicios. C y S Interactúan por un mecanismo de pasaje de mensajes: Pedido de servicio. Respuesta

ELEMENTOS PRINCIPALES “Los elementos principales de la arquitectura cliente servidor son justamente el elemento llamado cliente y el otro elemento llamado servidor”. Por ejemplo dentro de un ambiente multimedia, el elemento cliente seria el dispositivo que puede observar el vídeo, cuadros y texto, o reproduce el audio distribuido por el elemento servidor. Por otro lado el cliente también puede ser una computadora personal o una televisión inteligente que posea la capacidad de entender datos digitales. Dentro de este caso el elemento servidor es el depositario del vídeo digital, audio, fotografías digitales y texto y los distribuye bajo demanda de ser una maquina que cuenta con la capacidad de almacenar los datos y ejecutar todo el software que brinda éstos al cliente.

ALGUNOS ANTECEDENTES, ¿PORQUE FUE CREADO? Existen diversos puntos de vista sobre la manera en que debería efectuarse el procesamiento de datos, aunque la mayoría que opina, coincide en que nos encontramos en medio de un proceso de evolución que se prolongará todavía por algunos años y que cambiará la forma en que obtenemos y utilizamos la información almacenada electrónicamente. El principal motivo detrás de esta evolución es la necesidad que tienen las organizaciones (empresas o instituciones públicas o privadas), de realizar sus operaciones más ágil y eficientemente, debido a la creciente presión competitiva a la que están sometidas, lo cual se traduce en la necesidad de que su personal sea mas productivo, que se reduzcan los costos y gastos de operación, al mismo tiempo que se generan productos y servicios más rápidamente y con mejor calidad.



35

En este contexto, es necesario establecer una infraestructura de procesamiento de información, que cuente con los elementos requeridos para proveer información adecuada, exacta y oportuna en la toma de decisiones y para proporcionar un mejor servicio a los clientes. El modelo Cliente/Servidor reúne las características necesarias para proveer esta infraestructura, independientemente del tamaño y complejidad de las operaciones de las organizaciones públicas o privadas y, consecuentemente desempeña un papel importante en este proceso de evolución. EVOLUCIÓN DE LA ARQUITECTURA CLIENTE SERVIDOR La era de la computadora central “Desde sus inicios el modelo de administración de datos a través de computadoras se basaba en el uso de terminales remotas, que se conectaban de manera directa a una computadora central”. Dicha computadora central se encargaba de prestar servicios caracterizados por que cada servicio se prestaba solo a un grupo exclusivo de usuarios.

La era de las computadoras dedicadas

Esta es la era en la que cada servicio empleaba su propia computadora que permitía que los usuarios de ese servicio se conectaran directamente. Esto es consecuencia de la aparición de computadoras pequeñas, de fácil uso, más baratas y más poderosas de las convencionales.

La era de la conexión libre

Hace mas de 10 años que la computadoras escritorio aparecieron de manera masiva. Esto permitió que parte apreciable de la carga de trabajo de cómputo tanto en el ámbito de cálculo como en el ámbito de la presentación se lleven a cabo desde el escritorio del usuario. En muchos de los casos el usuario obtiene la información que necesita de alguna computadora de servicio. Estas computadoras de escritorio se conectan a las computadoras de servicio empleando software que permite la emulación de algún tipo de terminal. En otros de los casos se les transfiere la información haciendo uso de recursos magnéticos o por trascripción. La era del cómputo a través de redes Esta es la era que esta basada en el concepto de redes de computadoras, en la que la información reside en una o varias computadoras, los usuarios de esta información hacen uso de computadoras para laborar y todas ellas se encuentran conectadas entre si. Esto brinda la posibilidad de que todos los usuarios puedan acceder a la información de todas las computadoras y a la vez que los diversos sistemas intercambien información.

“En esta arquitectura la computadora de cada uno de los usuarios, llamada cliente, produce una demanda de información a cualquiera de las computadoras que proporcionan información, conocidas como servidores”estos últimos responden a la demanda del cliente que la produjo. Los clientes y los servidores pueden estar conectados a una red local o una red amplia, como la que se puede implementar en una empresa o a una red mundial como lo es la Internet. Bajo este modelo cada usuario tiene la libertad de obtener la información que requiera en un momento dado proveniente de una o varias fuentes locales o distantes y de procesarla como según le convenga. Los distintos servidores también pueden intercambiar información dentro de esta arquitectura.

La era de la arquitectura cliente servidor

QUE ES UNA ARQUITECTURA Una arquitectura es un entramado de componentes funcionales que aprovechando diferentes estándares, convenciones, reglas y procesos, permite integrar una amplia gama de productos y servicios informáticos, de manera que pueden ser utilizados eficazmente dentro de la organización. Debemos señalar que para seleccionar el modelo de una arquitectura, hay que partir del contexto tecnológico y organizativo del momento y, que la arquitectura Cliente/Servidor requiere una determinada especialización de cada uno de los diferentes componentes que la integran. QUE ES UN CLIENTE



36

Es el que inicia un requerimiento de servicio. El requerimiento inicial puede convertirse en múltiples requerimientos de trabajo a través de redes LAN o WAN. La ubicación de los datos o de las aplicaciones es totalmente transparente para el cliente. QUE ES UN SERVIDOR Es cualquier recurso de cómputo dedicado a responder a los requerimientos del cliente. Los servidores pueden estar conectados a los clientes a través de redes LANs o WANs, para proveer de múltiples servicios a los clientes y ciudadanos tales como impresión, acceso a bases de datos, fax, procesamiento de imágenes, etc.

Este es el ejemplo grafico de la arquitectura cliente servidor.

ELEMENTOS DE LA ARQUITECTURA CLIENTE/SERVIDOR En esta aproximación, y con el objetivo de definir y delimitar el modelo de referencia de una arquitectura Cliente/Servidor, debemos identificar los componentes que permitan articular dicha arquitectura, considerando que toda aplicación de un sistema de información está caracterizada por tres componentes básicos:

• Presentación/Captación de Información • Procesos • Almacenamiento de la Información

Los cuales se suelen distribuir tal como se presenta en la figura:

Aplicaciones Cliente/Servidor

Y se integran en una arquitectura Cliente/Servidor en base a los elementos que caracterizan dicha arquitectura, es decir:



37

• Puestos de Trabajo • Comunicaciones • Servidores

Tal como se presenta en la figura: Arquitectura Cliente/Servidor

De estos elementos debemos destacar: El Puesto de Trabajo o Cliente Una Estación de trabajo o microcomputador (PC: Computador Personal) conectado a una red, que le permite acceder y gestionar una serie de recursos» el cual se perfila como un puesto de trabajo universal. Nos referimos a un microcomputador conectado al sistema de información y en el que se realiza una parte mayoritaria de los procesos. Se trata de un fenómeno en el sector informático. Aquellos responsables informáticos que se oponen a la utilización de los terminales no programables, acaban siendo marginados por la presión de los usuarios. Debemos destacar que el puesto de trabajo basado en un microcomputador conectado a una red, favorece la flexibilidad y el dinamismo en las organizaciones. Entre otras razones, porque permite modificar la ubicación de los puestos de trabajo, dadas las ventajas de la red. Los Servidores o Back-end Una máquina que suministra una serie de servicios como Bases de Datos, Archivos, Comunicaciones,...). Los Servidores, según la especialización y los requerimientos de los servicios que debe suministrar pueden ser:

• Mainframes • Miniordenadores • Especializados (Dispositivos de Red, Imagen, etc.)

Una característica a considerar es que los diferentes servicios, según el caso, pueden ser suministrados por un único Servidor o por varios Servidores especializados. Las Comunicaciones En sus dos vertientes:

• Infraestructura de redes • Infraestructura de comunicaciones

Infraestructura de redes Componentes Hardware y Software que garantizan la conexión física y la transferencia de datos entre los distintos equipos de la red.



38

Infraestructura de comunicaciones Componentes Hardware y Software que permiten la comunicación y su gestión, entre los clientes y los servidores. La arquitectura Cliente/Servidor es el resultado de la integración de dos culturas. Por un lado, la del Mainframe que aporta capacidad de almacenamiento, integridad y acceso a la información y, por el otro, la del computador que aporta facilidad de uso (cultura de PC), bajo costo, presentación atractiva (aspecto lúdico) y una amplia oferta en productos y aplicaciones. CARACTERISTICAS DEL MODELO CLIENTE/SERVIDOR En el modelo CLIENTE/SERVIDOR podemos encontrar las siguientes características: 1. El Cliente y el Servidor pueden actuar como una sola entidad y también pueden actuar como entidades separadas, realizando actividades o tareas independientes. 2. Las funciones de Cliente y Servidor pueden estar en plataformas separadas, o en la misma plataforma.

3. Un servidor da servicio a múltiples clientes en forma concurrente. 4. Cada plataforma puede ser escalable independientemente. Los cambios realizados en las plataformas de los Clientes o de los Servidores, ya sean por actualización o por reemplazo tecnológico, se realizan de una manera transparente para el usuario final. 5. La interrelación entre el hardware y el software están basados en una infraestructura poderosa, de tal forma que el acceso a los recursos de la red no muestra la complejidad de los diferentes tipos de formatos de datos y de los protocolos. 6. Un sistema de servidores realiza múltiples funciones al mismo tiempo que presenta una imagen de un solo sistema a las estaciones Clientes. Esto se logra combinando los recursos de cómputo que se encuentran físicamente separados en un solo sistema lógico, proporcionando de esta manera el servicio más efectivo para el usuario final. También es importante hacer notar que las funciones Cliente/Servidor pueden ser dinámicas. Ejemplo, un servidor puede convertirse en cliente cuando realiza la solicitud de servicios a otras plataformas dentro de la red. Su capacidad para permitir integrar los equipos ya existentes en una organización, dentro de una arquitectura informática descentralizada y heterogénea. 7. Además se constituye como el nexo de unión mas adecuado para reconciliar los sistemas de información basados en mainframes o minicomputadores, con aquellos otros sustentados en entornos informáticos pequeños y estaciones de trabajo.



39

8. Designa un modelo de construcción de sistemas informáticos de carácter distribuido. 1. Su representación típica es un centro de trabajo (PC), en donde el usuario dispone de sus

propias aplicaciones de oficina y sus propias bases de datos, sin dependencia directa del sistema central de información de la organización, al tiempo que puede acceder a los

2. recursos de este host central y otros sistemas de la organización ponen a su servicio. En conclusión, Cliente/Servidor puede incluir múltiples plataformas, bases de datos, redes y sistemas operativos. Estos pueden ser de distintos proveedores, en arquitecturas propietarias y no propietarias y funcionando todos al mismo tiempo. Por lo tanto, su implantación involucra diferentes tipos de estándares: APPC, TCP/IP, OSI, NFS, DRDA corriendo sobre DOS, OS/2, Windows o PC UNIX, en TokenRing, Ethernet, FDDI o medio coaxial, sólo por mencionar algunas de las posibilidades. TIPOS DE CLIENTES

1. “cliente flaco”: Servidor rápidamente saturado. Gran circulación de datos de interfase en la red.

2. “cliente gordo”: Casi todo el trabajo en el cliente. No hay centralización de la gestión de la BD. Gran circulación de datos inútiles en la red.

TIPOS DE SERVIDOR Servidores de archivos Servidor donde se almacena archivos y aplicaciones de productividad como por ejemplo procesadores de texto, hojas de cálculo, etc. Servidores de bases de datos Servidor donde se almacenan las bases de datos, tablas, índices. Es uno de los servidores que más carga tiene. Servidores de transacciones Servidor que cumple o procesa todas las transacciones. Valida primero y recién genera un pedido al servidor de bases de datos. Servidores de Groupware Servidor utilizado para el seguimiento de operaciones dentro de la red. Servidores de objetos Contienen objetos que deben estar fuera del servidor de base de datos. Estos objetos pueden ser videos, imágenes, objetos multimedia en general. Servidores Web Se usan como una forma inteligente para comunicación entre empresas a través de Internet. Este servidor permite transacciones con el acondicionamiento de un browser específico.



40

ESTILOS DEL MODELO CLIENTE SERVIDOR

1. Se distribuye la interfaz entre el cliente y la plataforma servidora. PRESENTACIÓN DISTRIBUIDA

2. La aplicación y los datos están ambos en el servidor. 3. Similar a la arquitectura tradicional de un Host y Terminales. 4. El PC se aprovecha solo para mejorar la interfaz gráfica del usuario. Ventajas

Revitaliza los sistemas antiguos. Bajo costo de desarrollo. No hay cambios en los sistemas existentes.

Desventajas El sistema sigue en el Host. No se aprovecha la GUI y/o LAN. La interfaz del usuario se mantiene en muchas plataformas.

1. La interfaz para el usuario esta completamente en el cliente. PRESENTACIÓN REMOTA

2. La aplicación y los datos están en el servidor. Ventajas

La interfaz del usuario aprovecha bien la GUI y la LAN. La aplicación aprovecha el Host. Adecuado para algunos tipos de aplicaciones de apoyo a la toma de decisiones.

Desventajas Las aplicaciones pueden ser complejas de desarrollar. Los programas de la aplicación siguen en el Host. El alto volumen de tráfico en la red puede hacer difícil la operación de aplicaciones muy pesadas.

LÓGICA DISTRIBUIDA 1. La interfaz esta en el cliente. 2. La base de datos esta en el servidor. 3. La lógica de la aplicación esta distribuida entre el cliente y el servidor. Ventajas

Arquitectura mas corriente que puede manejar todo tipo de aplicaciones. Los programas del sistema pueden distribuirse al nodo mas apropiado. Pueden utilizarse con sistemas existentes.

Desventajas Es difícil de diseñar. Difícil prueba y mantenimiento si los programas del cliente y el servidor están hechos en distintos

lenguajes de programación. No son manejados por la GUI 4GL.

ADMINISTRACIÓN DE DATOS REMOTA1. En el cliente residen tanto la interfaz como los procesos de la aplicación.

2. Las bases de datos están en el servidor. 3. Es lo que comúnmente imaginamos como aplicación cliente servidor Ventajas

Configuración típica de la herramienta GUI 4GL. Muy adecuada para las aplicaciones de apoyo a las decisiones del usuario final. Fácil de desarrollar ya que los programas de aplicación no están distribuidos. Se descargan los programas del Host.

Desventajas No maneja aplicaciones pesadas eficientemente. La totalidad de los datos viaja por la red, ya que no hay procesamiento que realice el Host.

BASE DE DATOS DISTRIBUIDA



41

1. La interfaz, los procesos de la aplicación, y , parte de los datos de la base de datos están en cliente. 2. El resto de los datos están en el servidor. Ventajas

Configuración soportada por herramientas GUI 4GL. Adecuada para las aplicaciones de apoyo al usuario final. Apoya acceso a datos almacenados en ambientes heterogéneos. Ubicación de los datos es transparente para la aplicación.

Desventajas No maneja aplicaciones grandes eficientemente. El acceso a la base de datos distribuida es dependiente del proveedor del software administrador

de bases de datos.

1.

DEFINICIÓN DE MIDDLEWARE “Es un termino que abarca a todo el software distribuido necesario para el soporte de interacciones entre Clientes y Servidores”. Es el enlace que permite que un cliente obtenga un servicio de un servidor. Este se inicia en el modulo de API de la parte del cliente que se emplea para invocar un servicio real; esto pertenece a los dominios del servidor. Tampoco a la interfaz del usuario ni la a la lógica de la aplicación en los dominios del cliente. Tipos de Middleware Existen dos tipos de middleware:

Este tipo permite la impresión de documentos remotos, manejos de transacciones, autenticación de usuarios, etc.

Middleware general

2. Generalmente trabajan orientados a mensajes. Trabaja uno sola transacción a la vez. Middleware de servicios específicos

FUNCIONES DE UN PROGRAMA SERVIDOR1. Espera las solicitudes de los clientes.

2. Ejecuta muchas solicitudes al mismo tiempo. 3. Atiende primero a los clientes VIP. 4. Emprende y opera actividades de tareas en segundo plano. 5. Se mantiene activa en forma permanente.

CUESTIONARIO

1. ¿Introducción 2. ¿Cuáles son los elementos principales3.

de la arquitectura Cliente Servidor? Algunos antecedentes, ¿Por qué fue creado?

4. ¿Cuál es la evolución de la arquitectura cliente servidor5. ¿

? Qué es una arquitectura?

6. ¿Qué es un cliente? 7. ¿Qué es un servidor? 8. Indique los elementos de la arquitectura cliente/servidor 9. Características del modelo cliente/servidor 10. Tipos de clientes, de servidor 11. Estilos del modelo cliente servidor12.

¿qué es la presentación remota

13. ¿Qué es la l?

ógica distribuida? 14. ¿Cómo es la administración de datos remota15.

? ¿Qué es una base de datos distribuida

16. ?

Definición de Middleware17.

Funciones de un programa servidor



42

DDIIFF ##11

NNUUEEVVAASS TTEECCNNOOLLOOGGIIAASS

Las tecnologías de la información experimentan fundamentales y profundos impactos en la forma en que los productos y servicios son ofertados, distribuidos, vendidos y consumidos, porque el negocio real detrás de ellos es simple y llanamente información.

Las megatendencias están rigiendo el futuro de los negocios hoy en día, así tenemos:

Internet / WWW Datawarehousing Computación móvil Comercio electrónico Año 2000

Pero las megatendencias también afectan el mercado, puesto que cada vez más empresas están ingresando al WWW. Además se evidencia la necesidad de invertir en tecnologías muchas veces de alto costo.

El temor de la globalización, la apertura de mercados y la alta competitividad están haciendo que las organizaciones vean con mayor frecuencia a la tecnología como un aliado estratégico. La necesidad de información en las organizaciones crece geométricamente.

Para toda empresa, obtener información cada día es más importante, puesto que la información (y con ella la técnica informática) ya es un factor de la producción y es determinante para el éxito que una empresa pueda tener en su mercado.

Ordenadores cada vez más rápidos y capacidades han llevado consigo una ola de información, cuya evaluación se hace cada vez más dificultosa. Las empresas poseen multitud de datos, pero muy pocas son capaces de aprovecharlos con eficacia.

Hoy en día las empresas cuentan en su mayoría con la automatización de sus procesos, manejando gran cantidad de datos en forma centralizada y manteniendo sus sistemas en línea. Esta información es el pilar primordial de la empresa, constituyendo un recurso corporativo primario y parte importante de su patrimonio.

El nivel competitivo alcanzado en las empresas les ha exigido desarrollar nuevas estrategias de gestión. En el pasado, las organizaciones fueron típicamente estructuradas en forma piramidal con información generada en su base fluyendo hacia lo alto; y era en el estrato de la pirámide más alto donde se tomaban decisiones a partir de la información proporcionada por la base, con un bajo aprovechamiento del potencial de esta información.

Estas empresas, han reestructurado y eliminado estratos de estas pirámides y han autorizado a los usuarios de todos los niveles a tomar mayores decisiones y responsabilidades. Sin embargo, sin información sólida para influenciar y apoyar las decisiones, la autorización no tiene sentido.

Esta necesidad de obtener información para una amplia variedad de individuos es la principal razón de negocios que conduce al concepto de DATAWAREHOUSE.

En el DATAWAREHOUSE el énfasis no está sólo en llevar la información hacia lo alto, sino que a través de la organización, para que todos los empleados que la necesiten la tengan a su disposición.

La revolución del DATA WAREHOUSE (DW) está impulsada por la esperanza de que esta aproximación será capaz de ofrecer a las personas que toman decisiones en la organización un acceso integrado, consistente, fiable y rápido a los datos, que les permite tomar decisiones basadas en una mejor información.



43

II ..

1. Definición de DATA WAREHOUSE

DDAATTAA WWAARREEHHOOUUSSEE

DATA WAREHOUSE es un concepto relativamente nuevo en Panamá y para muchos desconocido, que viene a resolver problemas de manejo y uso adecuado de grandes fuentes de datos y de diversos tipos, para apoyar tomas de decisiones oportunas.

El ambiente competitivo en las empresas de los 90s así como el avance tecnológico en materia de sistemas de información, han provocado un nuevo enfoque en el tratamiento y proceso de la información ejecutiva, la cual es un elemento vital hoy en día como soporte en el proceso de toma de decisiones.

El concepto DATA WAREHOUSING, o el proceso de contar con la información más importante de la empresa (incluyendo la histórica), en un solo lugar, ha logrado convertirse en una valiosa herramienta y clave desde el punto de vista tecnológico.

La explotación del DATA WAREHOUSING mediante información de gestión, se fundamenta básicamente en los niveles agrupados o calculados de información.

Este tipo de sistemas ha existido desde hace tiempo, en el mundo de la informática bajo distintas denominaciones como: cuadros de mando, MIS, EIS, etc.

Su realización fuera del entorno del DATA WAREHOUSE, puede repercutir sobre estos sistemas en una mayor rigidez, dificultad de actualización y mantenimiento, malos tiempos de respuestas, incoherencias de la información, falta del dato agregado, etc.

En un mundo cada vez más acelerado y competitivo, el acceso a la información operacional es una necesidad esencial en el proceso decisivo de los negocios. Una estructura adecuada de almacenamiento de datos va a satisfacer esta necesidad. También le va a proporcionar el acceso a la información actual y los datos históricos a través de diversas bases de datos corporativas y va a permitir una mejor toma de decisiones basadas en la información. Sustentada a menudo con información externa, tal como datos económicos y demográficos, las soluciones de almacenamiento de datos se convierten en el depósito central de los datos. Le da a los usuarios a través de toda la organización la capacidad de repasar, analizar, modificar e imprimir información.

Hoy en día se puede mencionar que prácticamente no existe negocio el cual implícitamente tenga asociado un Sistema de Información y que un sistema de información de una u otra forma termina siempre relacionado a un negocio.



44

La definición de DATA WAREHOUSE tiene múltiples vertientes, según W.H. Inmon, uno de los precursores del concepto de DATA WAREHOUSE:

“ Data Warehouse es un sistema orientado al usuario final, integrado, con variaciones de tiempo y sobre todo una colección de datos como soporte al proceso de toma de decisiones”.

De acuerdo con algunas otras organizaciones, DATA WAREHOUSE, es una arquitectura. Para otros, es simplemente un almacén de datos ( separados y que no interfiere con los sistemas operativos actuales de una empresa ) , para satisfacer las diversas consultas y requerimientos de información. Para algunos otros, DW es un proceso que agrupa datos desde múltiples fuentes heterogéneas, incluyendo datos históricos para soportar la continua necesidad de consultas, reportes analíticos y soporte de decisiones.

En definitiva DATA WAREHOUSE no es ni un producto de software ni una máquina, o tecnología de bases de datos en particular, sino una serie de componentes y procesos que en conjunto forman la arquitectura llamada DATA WAREHOUSE.

John Edwarts en un artículo reciente de CIO Magazine, define DATA WAREHOUSE como:

“ un DW toma información de múltiples sistemas y bases de datos y la almacena de una manera que está diseñada para dar a los usuarios acceso más rápido, más fácil y más flexible a los aspectos claves”

DATA WAREHOUSE, difiere de las bases de datos operacionales que soportan aplicaciones con el Proceso Transaccional en Línea ( OLTP ) de diversas formas. DATA WAREHOUSE incluye:

Una orientación al usuario final. Administra y maneja un gran volumen de información Información somatizada y agregada Integra y asocia información desde múltiples fuentes y orígenes

Algunos consideran a DATA WAREHOUSE como un sistema de misión crítica. Debido a que las empresas actualmente demandan mayor información que sea oportuna, confiable y completa, desde un acceso directo y rápido a la información más importante, esto hace considerar a este tipo de sistemas como de Misión Crítica.

Los requerimientos principales de un sistema de Misión Crítica a considerar son:

Disponibilidad Confiabilidad y consistencia Robustez Estándar Basado en los requerimientos del negocio Compatibilidad con tecnología actual y una infraestructura sólida Utilizado sobre bases diarias, es decir, para el proceso día a día Amigable Auditable Seguro

2. Propósito del DATA WAREHOUSE

El propósito del DATA WAREHOUSE es asistir al ejecutivo en el entendimiento del pasado y contar con los elementos para la planeación del futuro de corto, mediano y largo plazo.

Los ejecutivos y administradores buscan respuestas a preguntas como:

¿ Qué están comprando nuestros clientes? ¿Qué no están comprando? ¿ Qué está haciendo la competencia? ¿ Cómo están los costos por cada línea de producto, comparados con los últimos tres años? ¿ Qué factores causan incrementos en los costos?



45

Los ejecutivos quieren tener respuestas a preguntas cruciales para poder tomar decisiones.

Un DATA WAREHOUSE ayuda a resolver estas preguntas de forma eficiente y aporta elementos valiosos de toma de decisiones al personal encargado de las mismas, los cuales pueden ser analistas, ejecutivos o directores, y en forma inmediata, estos es, consultas en línea, sin necesidad de que el usuario final ( el analista ) solicite que se elaboren y ejecuten procesos especiales. Por lo tanto, es importante asegurar que los datos de la bodega sean adecuados, suficientes y seleccionados de acuerdo a las necesidades de decisión del negocio que se pretende soportar.

El objetivo principal de DATA WAREHOUSE es el uso adecuado de datos para obtener información útil para el soporte a la toma de decisiones, lo que es difícil de lograr con los sistemas operacionales ( 1,2,3 ) o sistema en línea.

El DW es el lugar donde la gente puede accesar sus datos.

Con DATA WAREHOUSE se puede lograr:

Consultas más fáciles

Facilita la toma de decisiones

Práctica de negocios inteligentes

Obtener información valiosa y oportuna

Impacto positivo sobre los procesos empresariales

Ejecutivos mejor informados

Mediante las aplicaciones de DW se concentra e integra la información más importante de las organizaciones a través del tiempo, logrando hacer consultas de la información más fáciles y mucho más accesibles. DW convierte la información en UTILIDADES.

En primer lugar DW, no es un producto que pueda ser comprado en el mercado, sino más bien construido. DW es una combinación de conceptos y tecnología que cambian significativamente la manera en que es entregada la información a la gente de negocios. El objetivo principal satisfacer los requerimientos de la información interna de la empresa para una mejor gestión, con eficiencia y facilidad de accesos.

El DW puede verse como una bodega donde están almacenados todos los datos necesarios para realizar funciones de gestión de la empresa, de manera que puedan utilizarse fácilmente según se necesiten.

Los almacenes de datos ( o DATA WAREHOUSE ) generan bases de datos tangibles con una perspectiva histórica, utilizando datos de múltiples fuentes que se fusionan en forma congruente. Estos datos se mantienen actualizados, pero no cambian el ritmo de los sistemas transaccionales.

Muchos DW se diseñan para contener un nivel de detalle hasta el nivel de transacción, con la intención de hacer disponible todo tipo de datos y características, para reportar y analizar. Así un DW resulta ser un recipiente de datos transaccionales para realizar consultas operacionales. De esta forma, dentro de un almacén de datos existen dos tecnologías complementarias, una relacional para consultas y una multidimensional para análisis.

Si queremos extraer información de los datos estos deben ser:

• accesibles • el acceso debe ser simple • La información debe ser consistente

Si se desea que los datos tengan un significado, se deben hacer preguntas básicas como:



46

• ¿Cuál es la situación actual? • ¿Cómo llegue aquí? • ¿Cómo predecir el futuro? • ¿Qué implica esta tendencia?

IIII..

1. Beneficios

VVEENNTTAAJJAASS DDEELL DDAATTAA WWAARREEHHOOUUSSEE

Para los usuarios:

Confianza en el uso de sistemas: El incremento en la rapidez de las consultas afianzará el uso de los sistemas operativos de la empresa.

Reducción en tiempos de consultas: Se adquiere una solución que reduce tiempos de espera por parte de los usuarios.

Apoyo a la toma de decisiones: Los empresarios tendrán a la mano los resúmenes de información para armar reportes comparativos, utilizando los indicadores más comunes de la empresa, para apoyarse en la toma de decisiones.

Capacidad para explorar e identificar relaciones de datos a través de múltiples bases de datos.

Para el Area de Sistemas:

Facilidad de uso: La facilidad de uso de esta herramienta le permitirá tener un DW en minutos.

Acceso a cualquier base de datos: el soporte para accesar múltiples bases de datos amplia las áreas de aplicación de esta herramienta, para generar resúmenes operativos de su información.

Mayor rendimiento: el rendimiento de los servidores de su empresa se verá altamente beneficiado, debido a que el tiempo de consulta se verá disminuído.

Además DATA WAREHOUSE permite:

Incluso durante la tramitación de un incidente comercial el administrativo puede sacar siempre informaciones de clientes, artículos y condiciones.

Permite información en línea (online) para la tramitación del negocio diario sin papeles.

La información está disponible rápidamente y pulsando una simple tecla.

Acceso directo, fácil y económico a todos los datos de la empresa.

Poseer una base de datos consistente en toda la empresa.

Visualizar en varias formas los resultados de sus consultas.

Redactar informes con la ayuda de módulos de textos e informes prefabricados.

Navegar rápida e intuitivamente por los datos de la empresa.

Identificar y analizar las tendencias en el tiempo más breve.

Capacidad para utilizar una variedad de herramientas para procesar y resumir los datos, así finalmente reagrupar toda la información.



47

Los datos históricos aumentan su valor a lo largo del tiempo.

Crecimiento escalable.

Los logros son evidentes: mayor productividad por decisiones correctas en un tiempo más corto.

III.

Antes de describir la arquitectura DW vamos a señalar la siguiente consideración ya generalizada, presente en la literatura: el término DW se utiliza indistintamente para hablar de la arquitectura en sí como también para uno de los componentes que la conforman, específicamente el que tiene relación con el almacenamiento físico de datos.

CCOOMMPPOONNEENNTTEESS YY EESSTTRRUUCCTTUURRAA BBAASSIICCAA DDEELL DDAATTAA WWAARREEHHOOUUSSEE

Arquitectura DATA WAREHOUSE:

3.1. Componentes y estructura

La estructura básica de la arquitectura DW incluye:

a. Datos Operacionales: un origen de datos para el componente de almacenamiento físico DW. b. Extracción de Datos: selección sistemática de datos operacionales usados para poblar el componente

de almacenamiento físico DW. c. Transformación de Datos: procesos para sumar y realizar otros cambios en los datos operacionales

para reunir los objetivos de orientación a temas e integración principalmente. d. Carga de Datos: inserción sistemática de datos en el componente de almacenamiento físico DW. e. Herramienta de Acceso al componente de almacenamiento físico DW: herramienta que proveen

acceso a datos.



48

ESTRUCTURA BASICA DEL DATA WAREHOUSE

IIVV..

FFAASSEESS DDEE IIMMPPLLEEMMEENNTTAACCIIOONN DDEE UUNN DDAATTAA WWAARREEHHOOUUSSEE::

Tal y como aparecía en un artículo en ComputerWorld. “ un DATA WAREHOUSE no se puede comprar, se tiene que construir” Como hemos mencionado con anterioridad, la construcción e implantación de un DW es un proceso evolutivo.

El proceso debe apoyarse en una metodología específica para este tipo de procesos. Si bien es importante la elección de la mejor de las metodologías, también es importante el realizar un control para asegurar el seguimiento de las mismas.

Las fases que se establezcan en el alcance de este proyecto son fundamentales. El seguir los pasos de la metodología y comenzar el DW por un área específica de la empresa, permitirá obtener resultados tangibles en un corto espacio de tiempo.

A continuación una metodología interactiva distribuída en cinco fases:

Definición de los objetivos: los objetivos que se establezcan para el desarrollo de DW, juegan un papel preponderante. Una vez establecidos los objetivos, todo proyecto debe desarrollarse de



49

forma clara y directa. El esclarecimiento de los objetivos son los pilares básicos para el desarrollo de todo proyecto.

Definición de los requerimientos de información: tal como sucede en todo proyecto , sobre todo si involucra técnicas novedosas como son las relativas al DW, se deben analizar todas las necesidades y hacer comprender las ventajas que este sistema puede reportar. Es en este punto donde se debe detallar los pasos a seguir en proyectos de este tipo, donde el usuario juega un papel preponderante.

Diseño y Modelización: los requerimientos de información identificados durante la anterior fase proporcionarán las bases para realizar el diseño y la modelización del DW. En esta fase se identificarán las fuentes de los datos ( sistema operacional, fuentes externas. ) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lógico de datos del DW. Este modelo estará formado por entidades y relaciones que permitirán resolver necesidades de negocio de la organización.

El modelo lógico se traducirá posteriormente en el modelo físico de datos que se almacenarán en el DW y que definirá la arquitectura de almacenamiento del DW adaptándose al tipo de explotación que se realice del mismo.

Implementación: la implantación de un DW lleva implícito los siguientes pasos:

• Extracción de los datos del sistema operacional y transformación de los mismos. • Carga de los datos validados en el DW. Esta carga deberá ser planificada con una

periocidad que se adaptará a las necesidades de refresco detectadas durante la fase de diseño del nuevo sistema.

• Explotación del DW mediante diversas técnicas dependiendo del tipo de aplicación que se de a los datos:

o On-Line analytical processing ( OLAP ) o Decisión Support Systems ó Información de Gestión o Visualización de la información o Data Mining o minería de datos

La información necesaria para mantener el control sobre los datos se almacena en los metadatos técnicos ( cuando describen las características físicas de los datos ) y de negocios ( cuando describen como usan esos datos ). Dichos metadatos deberán ser accesibles por los usuarios finales que permitirán en todo momento tanto al usuario, como al administrador que deberá además tener la facultad de modificarlos según varíen las necesidades de información.

Con la finalización de esta fase se obtendrá un DW disponible para su uso por parte de los usuarios finales y el departamento de informática.

Revisión: la construcción del DW no finaliza con la implantación del mismo, si no que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores.

Después de implantarse, debería realizarse una revisión del DW planteando preguntas que permitan, después de los seis o nueve meses posteriores a su puesta en marcha, definir cuáles serán los aspectos a mejorar o potenciar en función de la utilización que se haga del nuevo sistema.

Diseño de la estructura de cursos de información: con la información obtenida de reuniones con los distintos usuarios se diseñaran una serie de cursos a medida, que tendrán como objetivo proporcionar la formación estadística necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicación. Se realizarán prácticas sobre el desarrollo realizado, las cuales permitirán fijar conceptos adquiridos y servirán como formación a los usuarios.

44..11 .. EESSTTRRAATTEEGGIIAASS DDEE IIMMPPLLEEMMEENNTTAACCIIOONN

En esta guía resaltaremos algunas consideraciones que recomendamos deben seguirse a la hora de querer implementar un proyecto de este tipo:



50

a. La base de datos de riesgos debe estar separada de la base de datos operacionales con el propósito de no interferir en la actividad del día a día, disponiendo de está manera de la información necesaria y un entorno orientado hacia la consulta y el análisis de los datos.

b. Concepción del sistema como un conjunto de herramientas de análisis; esto es, porque las actividades de Análisis de Riesgo no se pueden automatizar, porque ellas requieren del análisis y decisión del usuario.

c. Diseñar el sistema no orientado a procesos porque se debe disponer de un conjunto abierto de herramientas que se utilizan con propósitos determinados no relacionadas con las necesidades operativas del día a día.

d. Abordar el sistema con un enfoque de desarrollo gradual, que debe comenzar con un esqueleto básico de funcionalidad y datos que produzcan resultados a corto plazo y permita aprender en la práctica y luego ir configurando progresivamente nuevas funcionalidades conforme la experiencia lo vaya requiriendo.

Una vez en marcha estas estrategias de implementación el esquema de Gestión y Explotación de nuestro DATA WAREHOUSE queda como se muestra en la siguiente figura que nos muestra un sistema DW ya implementado y listo para explotarlo.

VV.. DDAATTAA MMIINNIINNGG YY DDAATTAA MMAARRTT

1. Definición de DATA MART:

Pero, ¿ qué ocurre cuando DW crece y se hace más complejos ?

El rendimiento de las consultas vuelve a sufrir y el modelo centralizado deja de ser el más eficiente. En estos casos, la solución propuesta es crear almacenes de datos especializados por áreas como Ventas o Compras, que reciben los datos desde un almacén centralizado ( DW ) y que pueden residir en diferentes máquinas... estos almacenes se conocen como DATA MARTS (DM).



51

Un DATA MART es una aplicación de un DATA WAREHOUSE construida rápidamente para soportar una línea de negocio simple. Los DATA MARTS, tienen las mismas características de integración, no volatilidad y orientación temática que el DW. Representan una estrategia de “ divide y vencerás” para ámbitos muy genéricos de un DATA WAREHOUSE.

Esta estrategia es particularmente apropiada cuando el DW central crece muy rápido y los distintos departamentos requieren sólo una pequeña porción de los datos contenidos en él. La creación de los DATA MART requiere de algo más que una simple réplica de datos: se necesitarán tanto la segmentación como algunos métodos adicionales de consolidación.

La aproximación a una arquitectura descentralizada de DATA MART, podría ser originada de una situación como la descrita a continuación:

Un ejemplo de cuando aplicar DATA MART, se da en áreas específicas como el departamento de marketing o finanzas; el departamento de marketing, emprende el primer proyecto de DATA WAREHOUSE, como una solución departamental, creando el primer DATA MART de la empresa.

Visto el éxito del proyecto, otros departamentos como el de Riesgos, o el Financiero se lanzan a crear sus DATA MARTS. Marketing, comienza a usar otros datos que también los usan los DATA MARTS de Riesgos y Financieros, y estos hacen lo propio.

Esto parece ser una decisión normal, puesto que las necesidades de información de todos los DATA MART crecen conforme el tiempo avanza. Cuando esta situación evoluciona, el esquema general de integración entre DATA MARTS pasa ser, la del gráfico anterior.

En esta situación, es fácil observar cómo este esquema de integración de información de los DATA MARTS, pasa a convertirse en un rompecabezas en el que la gestión para obtener la información se ha complicado. No obstante, lo que ha fallado no es la integración de DATA MARTS, sino su forma de integración.



52

En efecto, un enfoque más adecuado sería la coordinación de la gestión de información de todos los DATA MART en un DATA WAREHOUSE centralizado, como lo muestra la figura anterior.

En esta situación los DATA MARTS obtendrían la información necesaria, ya previamente cargada y depurada en el DW corporativo, simplificando el crecimiento de una base de conocimientos a nivel de toda la empresa.

Esta simplificación proveería la descentralización de las labores de gestión de los DATA MARTS y el DW corporativo, generando economías de escala en la gestión de los DATA MARTS implicados.

Toda empresa puede ser vista en base al proceso productivo que la sustenta. El resultado de los costos y beneficios de este proceso productivo forman una cadena de valor, donde cada eslabón ( proceso de negocios ) adiciona valor a la empresa. De esta forma es claro que las empresas deben buscar optimizar cada uno de sus eslabones sin perder de vista la cadena total.

Dado que un DATA MART soporta menos usuarios que un DATA WAREHOSUE se puede optimizar para recuperar más rápidamente los datos que necesitan los usuarios. La arquitectura de un DATA MART es aconsejable porque:

Menores cantidades de datos implican que se procesan antes, tanto las cargas de datos como las consultas. Las peticiones pueden acotarse al área o red que sirve esos datos, sin afectar al resto de los usuarios. La aplicación cliente, que pide la consulta es independiente del servidor que la procesa y del servidor de bases

de datos que almacenan la información.

2. Definición de DATA MINING:

El análisis y procesamiento de datos en la bodega se puede apoyar y complementar con varias técnicas de análisis, entre las que se destaca la minería de datos (data mining), técnica de inteligencia artificial que permite “buscar” condiciones anormales o fuera de rango, ya sea de manera programada o automática, en los datos contenidos en la bodega, facilitando así el análisis que de otra manera sería difícil obtener con otros métodos. Un ejemplo claro de esto se puede aplicar en un banco y el sistema de tarjetas de crédito, fácilmente se puede programar un minero para que automáticamente avise y busque dentro de la cartera de clientes todos los tarjeta habientes que hayan vencido; y proyecte al siguiente mes el crecimiento de la cartera vencida y avisara en caso de sobrepasar el monto de cartera vencida definida como crítica.

Las herramientas de DATA MINING recorren los datos detallados de transacciones para desenterrar patrones. Por lo general, los resultados generan extensos reportes o se les analiza con herramientas de visualización de datos descubiertos.

El procesamiento informático es excelente y rentable para el despliegue masivo de consultas, análisis y reportes de datos de dos o tres dimensiones. Las herramientas de procesamiento analítico permiten diversas visualizaciones con



53

los datos, como ventas por marca, tienda, temporada y períodos de tiempo, las cuales se pueden definir, consultar y analizar. Las herramientas del DATA MINING son esenciales para comprender el comportamiento de los clientes.

Los usuarios clave en perspectiva del Data Mining son los analistas empresariales y los profesionales en tecnología de la información que auxilian a los usuarios empresariales. Quienes obtienen beneficios de los resultados del data Mining son los gerentes empresariales y los ejecutivos que desean entender los factores de éxito del negocio con base en datos completos del cliente y, utilizar luego, este conocimiento para afinar las estrategias de producción, precios y comercialización, mejorar el nivel de éxito y las estrategias, e impulsar el balance.

VVII..

11.. SSiisstteemmaa OOLLTTPP

Históricamente, los datos de la corporación suelen residir en bases de datos ( BD ) que se diseñaron principalmente para introducir y almacenar datos, mediante el llamado Proceso de Transacciones On Line ( OLTP ). Este método es idóneo para insertar, modificar o borrar registros, pero no lo es tanto para responder a complejas consultas. La relación entre los datos responde a las técnicas llamadas de Entidad-Relación.

Un sistema operacional o de procesamiento en línea es un sistema tal como el de administración de recursos humanos, de asignación de bancarios de recuperación y control de cartera o de control de seguros, y su función principal es dar el soporte a las necesidades del día; son sistemas normalmente optimizados para el manejo de un conjunto predefinido de transacciones.

Los sistemas operacionales de los cuales se transferirá la información seleccionada, pueden haber sido construidos utilizando manejadores de datos relacionados, manejadores de archivos jerárquicos, de archivos planos u otro tipo de manejadores. Por ello, es necesario analizar y definir cuidadosamente de los sistemas operacionales aquellos datos que representen la esencia o filosofía del negocio que se pretenda manejar, para que al transferir los datos a la bodega, ese conocimiento primordial se capture en lo que se conoce como metadatos, que son precisamente, los que describen a los datos provenientes de los sistemas operacionales.

OOTTRROOSS SSIISSTTEEMMAASS::

2. Diferencias: OLTP vs. DATA WAREHOUSE:



54

Fig. ESQUEMA DE RELACION ENTRE OLTP Y DW

Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseño de un DW como si fuera una aplicación de transacción en línea ( OLTP ).

Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechas, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro lado, un DW está organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc.

Otra diferencia radica en el número de usuarios. Normalmente el número de usuarios de un DW es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accesados por cientos de usuarios simultáneamente, mientras que los DW sólo por decenas. Los sistemas OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un DW puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a lo DW, esto es debido a que un DW puede estar formado por información de varios OLTP.

Existe también diferencia en el diseño, mientras que un OLTP es extremadamente normalizado, un DW tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor de tablas, cada una con pocas columnas, mientras que un DW el número de tablas es menor, pero cada una de estas tiende a ser mayor en número de columnas.

Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los DW son actualizados en batch (back up) de manera periódica.

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras que los DW sufren cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están sujetos, son muy variados y es imposible preverlos todos de antemano.

OLTP DATA WAREHOUSE Orientada a transacciones Orientada a conceptos Detallada Sumarizada Actualizada en línea Representa valores a un tiempo Usuarios a nivel operativo Usuarios a nivel gerencial Corre en base a repeticiones Corre heurísticamente Muy sensitivo al desempeño Poco sensitivo al desempeño Accesa unidades a la vez Accesa conjuntos de unidades a la vez Orientado a una operación Orientado a análisis Estructura estática Estructura flexible Sin redundancia Con mucha redundancia Alta probabilidad de acceso Modesta probabilidad de acceso Administrada como un todo Administrada por partes Información bruta ( datos) Información procesada ( información ) Actualizada en línea Actualizada en batch Muchas tablas con pocas columnas Pocas tablas con muchas columnas

Normalmente los sistemas operacionales de los cuales se extraen datos son muy diversos y cada uno de ellos aporta varios gigabytes, por lo que es normal que las bodegas de datos contengan del orden de 20, 50, 100, 200 o más gigabytes, aunque es posible, y en algunos casos puede ser deseable, construir un DW tan pequeño como en 200 o 500 megabytes.

Los DW surgen precisamente en respuesta a los problemas asociados a realizar análisis de datos sobre Bases de Datos del tipo OLTP. La solución propuestas por el DW es extraer los datos de una ( o más ) bases operacionales y moverlos a una Base de Datos independiente y orientada a consultas.

Los objetivos de los sistemas OLTP y DATA WAREHOSUE para toma de decisiones son muy diferentes: tratar de diseñar un DATA WAREHOUSE “ pensando” en un sistema operacional es un fracaso. El éxito en la implementación de una arquitectura de DW en las empresas radica en parte en el éxito del diseño de los sistemas operacionales, ya



55

que estos son los proveedores de los datos y los que se deben de adaptar rápida y flexiblemente a los cambios del negocio. Se deben tener ideas muy claras de lo siguiente: Qué datos utilizar?, ¿cómo se deben transformar?, ¿cómo se deben transferir?, almacenar y organizar; y finalmente, cómo se deben acceder y analizar?.

Actualmente es innegable que los sistemas de información OLTP, construidos utilizando manejadores de bases de datos relacionados son la norma. Es una tecnología madura que provee las facilidades necesarias. Cuando los usuarios de negocios empujados por las necesidades del mercado iniciaron con sus demandas de información actualizada, de proyecciones en el tiempo, de análisis comparativos entre regiones en diferentes períodos de tiempo, los desarrolladores utilizaban herramientas y manejadores de bases de datos que tenían el alcance.

3. Una máquina o dos?

Es mucho más habitual encontrar separado el DW del OLTP, debido a factores bien específicos y de considerable relevancia para su desempeño. Los argumentos que favorecen el tener máquinas separadas el OLTP y el DW son:

• El DW tiene una significante y altamente variable demanda de recursos, por lo tanto puede entorpecer considerablemente el desempeño de OLTP.

• Los sistemas en cuestión son configurados de manera muy diferente • A veces, los datos del DW son integrados de múltiples sistemas OLTP remotos, y por lo tanto el DW

puede verse como un conjunto de recursos centralizados. Es obvio entonces que estén físicamente separados ambos sistemas.

La razón para tenerlos en las misma máquina está en el hecho de que al ser la estructura básica del DW distinta a la del OLTP, el dato tiene que ser copiado y reestructurado por el DW. Para ahorrar envíos de datos entre máquinas, es mejor realizar este proceso dentro de una sola.

VVIIII..

CCUUAANNDDOO IIMMPPLLEEMMEENNTTAARR DDAATTAA WWAARREEHHOOUUSSEE

77..11.. ¿¿ QQuuiiéénn nneecceessiittaa uunn DDaattaa WWaarreehhoouussee yy ppoorrqquuéé ??

El DW implica el concepto de valor de la información. Datos sobre el negocio son útiles cuando el tiempo es un factor en contra. Las personas que toman las decisiones claves necesitan un acceso rápido a los datos actuales aportados por diferentes sistemas de producción y bases de datos que operan tanto de forma interna como externa para tomar decisiones claves sobre la dirección y operaciones del negocio.



56

• Los usuarios de la información corporativa: Normalmente el usuario de la información provista por un DW es un trabajador especializado en una concreta línea el negocio de un departamento. Este departamento normalmente trata con una gran cantidad de transacciones y clientes. Estas actividades se reflejan en la infraestructura como bases de datos que llegan a cientos de gigabytes y continúa creciendo.

La mayoría de las aplicaciones de DW se utilizan para alimentar proyectos de marketing que se dirigen a los clientes potenciales más adecuados con el menor costo de venta. Estos proyectos de crecimiento o supervivencia se llevan a cabo normalmente cuando:

1. Los mercados son muy dinámicos y requieren una rápida respuesta ante el cambio en la demanda, regulaciones y costos.

2. Hablamos de clientes que demandan más productos individualizados o servicios, que requieren gradualmente más conocimiento de:

¿Quiénes son?

¿Cómo compran?

¿Qué piensan de mi compañía?

3. El liderazgo competitivo requiere mejoras aceleradas en desarrollo de productos, claro entendimiento de las necesidades de los clientes para un ajuste del producto óptimo y un aumento de la habilidad para articular diferencias competitivas en las necesidades de los clientes.

Pero... ¿cuáles son las necesidades más comunes de los clientes?

• Aumentar el acceso de datos • Aumentar la productividad del usuario • Soportar decisiones complejas • Mantener los datos como un recurso del negocio • Integrar información en la empresa • Mejorar los servicios al consumidor • Reducir tiempo de venta • Reducir los costes operativos •• Reducir los costes de las ventas

77..22 TTiippooss ddee aapplliiccaacciioonneess eenn llaass qquuee uuttiilliizzaarr llaass ttééccnniiccaass ddiissppoonniibblleess ssoobbrree DDAATTAA WWAARREEHHOOUUSSEE..

7.2.1 DDWW yy SSiisstteemmaass ddee MMaarrkkeettiinngg:: La aplicación de tecnologías de DW supone un nuevo enfoque en marketing, haciendo uso del marketing de base de datos. En efecto, un sistema de marketing Warehouse implica un marketing científico, analítico y experto, basado en el conocimiento exhaustivo de clientes, productos, canales y mercado.

Este conocimiento se deriva de la disposición de toda la información necesaria, tanto interna como externa, en un entorno DW, persiguiendo con toda esta información, la optimización de las variables controladas del Marketing Mix y el soporte a la predicción de las variables no controlables ( mediante técnicas de Data Mining ) Basándose en el conocimiento exhaustivo de los clientes se consigue un tratamiento personalizado de los mismos tanto en el día a día ( atención comercial ) como en acciones de promoción específica.



57

Las áreas en las que se puede aplicar las tecnologías de DW a marketing son, entre otras:

• Investigación comercial • Segmentación de mercados • Identificación de necesidades no cubiertas y generación de nuevos productos, o modificación de

productos existentes • Fijación de precios y descuentos • Definición de la estrategia de canales de comercialización y distribución • Definición de la estrategia de promoción y atención al cliente • Relación con el cliente • Lanzamiento de nuevos productos • Campañas de ventas cruzadas, vinculación, fidelización, etc. • Apoyo al canal de venta con información cualificada.

7.2.2. DDWW yy AAnnáálliissiiss ddee RRiieessggoo FFiinnaanncciieerroo:: El DW aplicado al análisis de riesgos financieros ofrece capacidades avanzadas de desarrollo de aplicaciones para dar soporte a las diversas actividades de gestión de riesgos. Es posible desarrollar cualquier herramienta utilizando las funciones que incorpora la plataforma, gracias a la potencialidad estadística aplicada al riesgo de crédito.

Así se puede usar para llevar a cabo las siguientes funcionalidades:

• Para la gestión de la posición: determinación de la posición, cálculo de sensibilidades, simulaciones, monitorización riesgos contra límites, etc.

• Para la medición de riesgos: simulación de escenarios históricos, simulación de Montecarlo, modelos de valoración, análisis de rentabilidad, establecimiento y seguimiento de límites, etc.



58

El uso del DW ofrece una gran flexibilidad para creación y modificación de modelos propios de valoración y medición de riesgos, tanto motivados por cambios en la regulación como en avances en la modelización de estos instrumentos financieros.

Ello por cuanto se puede almacenar y poner a disposición información histórica de mercado y el uso de técnicas de Data Mining nos simplifica la implantación de cualquier método estadístico.

77..22..33.. DDWW yy AAnnáálliissiiss ddee RRiieessggoo ddee CCrrééddiittoo :: La información relativa a clientes y su entorno se ha convertido en fuente de prevención de Riesgos de Créditos. En efecto, existe una tendencia general en todos los sectores a recoger, almacenar y analizar información crediticia como soporte a la toma de decisiones de análisis de riesgo de créditos.

7.2.4. DDWW:: OOttrraass áárreeaass ddee aapplliiccaacciióónn :: Otras áreas de la empresa han aplicado las soluciones que proporciona la tecnología Data Warehouse para mejorar gran parte de sus procesos actuales, entre ellos:

• Control de gestión: sistema de presupuestación, análisis de desviaciones, etc. • Logística: mejora de la relación con los proveedores, racionalización de los procesos de control de

inventarios, optimización de los niveles de producción, previsión de la demanda en infraestructura. •• Recursos humanos: planificación de incorporaciones, gestión de carreras profesionales, asignación de

recursos a proyectos alternativos, etc.

77..22..55.. QQuuiiéénneess hhaann aapplliiccaaddoo DDaattaa WWaarreehhoouussee??::

España es uno de los países que ha implementado DATA WAREHOUSE, dando así como resultados casos de éxito: como la empresa BANKINTER quienes aplicaron DW en el mercado alternativo financiero.



59

Otro caso de éxito ha sido el implementado por UNION FENOSA, empresa dedicada al negocio de sistemas eléctricos y no eléctricos, cuyo negocio enfrenta un mercado muy competitivo.

También el METRO DE MADRID ha puesto en práctica el sistema DW obteniendo óptimos resultados en el transporte de viajeros. DW fue implementado con planes de expansión para ofrecer a sus usuarios un mayor servicio. ( VER ANEXO ).

VVIIIIII.. CCOOSSTTOOSS DDEE UUNN DDAATTAA WWAARREEHHOOUUSSEE::

a. Costos de Construcción b. Costos de Operación

a. CCoossttooss ddee ccoonnssttrruucccciióónn:: Los costos de construir un DW son similares para cualquier proyecto de tecnología de información. Estos pueden ser clasificados en tres categorías:

1. RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los procesos empresariales. Además es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participación de la gente de negocios como de los especialistas tecnológicos ; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimientos y destrezas en un espíritu de equipo de trabajo, para enfrentar los desafíos de desarrollo del DW.

2. TIEMPO: se debe establecer el tiempo no tan solo para la construcción y entrega de resultados de DW, si no también para la planeación del proyecto y la definición de la arquitectura. La planeación y la arquitectura establecen un marco de referencia y un conjunto de estándares que son básicos para la eficacia de DW.

3. TECNOLOGIA: muchas tecnologías nuevas son introducidas por el DW. El costo de esta nueva tecnología puede ser tan sólo la inversión inicial del proyecto.

b. Costos de Operación: Una vez que está construido y entregado un DW debe ser soportado para que tenga un valor empresarial, son estas actividades de soporte, las fuentes de continuos costos operacionales para un DW. Se pueden distinguir tres costos de operación:

1. EVOLUTIVOS: Ajustes continuos del DW a través del tiempo, como cambios de expectativas y, productos del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW.

22.. CRECIMIENTO:: incrementos en el tiempo en volúmenes de datos, del número de usuario del DW, lo cual con llevará a un incremento de los recursos necesarias como a la demanda de monitoreo, administración y sintonización del DW(evitando así, un incremento en los tiempos de respuesta y de recuperación de datos, principalmente).

3. CAMBIOS:: El DW requiere soportar cambios que ocurren tanto en el origen de los datos que éste usa, como en las necesidades de la información que éste soporta.

Los dos primeros tipos de costo de operación, son básicos en la mantención de cualquier sistema de información; sin embargo, se debe tener esencial cuidado en los costos ,de operación por cambio, ya que ellos consideran el impacto producto de la relación del OLTP y del Ambiente Empresarial, con el DW.

CCOONNCCLLUUSSIIOONNEESS

Día a día aparecen en el mercado nuevos productos de software de ayuda a la implementación de cada una de las etapas que conforman la arquitectura DATA WAREHOUSE, la tecnología de apoyo, adicional a que aún no es madura, involucra tecnologías y conceptos nuevos y pretender ser experto de la noche a la mañana, es difícil, por lo que tratar de implementar DW pensando que ha de resolver los problemas de información podría llegar a ser contraproducente.

Una recomendación para quienes decidan iniciar un modelo DW en sus empresas: deben apoyarse en consultores conocedores, serios y responsables que ayuden con bases sólidas a construir y mantener cada una de las etapas del proyecto.

DATA WAREHOUSE es una colección de datos relacionados al oficio o a la actividad profesional, integrada y relacionada a la fecha en que se produjeron para poder analizarlos periódicamente. El enfoque está en la disposición eficiente de estos datos así como la ejecución de evaluaciones y análisis.

DATA WAREHOUSE apoya a todos los ejecutivos que tienen que tomar decisiones con informaciones rápidas.



60

Los logros son evidentes: “MAYOR PRODUCTIVIDAD POR DECISIONES CORRECTAS EN UN TIEMPO MAS CORTO”.

DATA WAREHOUSE te permite desarrollar aplicaciones creando un resumen de tu base de datos operativa con sólo la información realmente importante, logrando obtener consultas más eficientes y productivas.



61

DIF #2/

NUEVAS TECNOLOGIAS

El Data Mining

Algoritmos genéticos: Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.

Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos.

Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos históricos.

Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como descriptivas para aprender acerca de la estructura de un conjunto de datos.

Análisis retrospectivo de datos: Análisis de datos que provee una visión de las tendencias, comportamientos o eventos basado en datos históricos.

Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Ver CART y CHAID.

Base de datos multidimensional: Base de datos diseñada para procesamiento analítico on-line (OLAP). Estructurada como un hipercubo con un eje por dimensión.

CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID .

CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de decisión usada para la clasificación de un conjunto de datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones. Antecede, y requiere más preparación de datos, que CART.

Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a variable(s) específica(s) las cuales se están tratando de predecir. Por ejemplo, un problema típico de clasificación es el de dividir una base de datos de compañías en grupos que son lo más homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales como "Bueno" y "Malo".

Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles.

Computadoras con multiprocesadores: Una computadora que incluye múltiples procesadores conectados por una red. Ver procesamiento paralelo.

Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados.

Data Mining: La extracción de información predecible escondida en grandes bases de datos.



62

Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas de datos

Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que representan eventos inusuales.

Dimensión: En una base de datos relacional o plana, cada campo en un registro representa una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podría incluir las dimensiones Producto, Tiempo y Ciudad.

Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos

Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes).

Modelo no lineal: Un modelo analítico que no asume una relación lineal en los coeficientes de las variables que son estudiadas.

Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos.

Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP.

OLAP Procesamiento analítico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.

Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían ser examinados detenidamente; pueden dar importante información.

Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con múltiples procesadores o en una red de estaciones de trabajo o PCs.

RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks). Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento.

Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes).

CONCLUSIONES

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………



63

DIF #3

Desarrollo de aplicaciones con XML

Existen cuatro tipos de aplicaciones que impulsarán el desarrollo del XML:

Aplicaciones que exijan que el cliente Web medie entre dos o más bases de datos. Se hará posible la integración de bases de datos distribuidas en los navegadores que admitan XML, pudiéndose modificar el contenido y la estructura de esta. Actualmente implantado en amplias redes nacionales, sin embargo, se limitan las posibilidades al establecerse una intranet/extranet y con amplias bases de datos que sólo permiten la visualización de los datos en el navegador. XML establecerá una arquitectura de 3 niveles (three-tier) que está representada de la siguiente manera:

• Se irá pareciendo cada vez más a una arquitectura cliente-servidor. • Aplicaciones que intentan transferir una parte significativa de la carga del proceso del servidor al cliente

Web. Funcionará con un subprograma Java que se insertará en el PC del cliente. Esta carga hará que muchas de las funciones de modificación puedan desarrollarse desde el mismo navegador Web del cliente. Por ejemplo, dentro de una intranet con una aplicación de gestión bibliotecaria sobre los documentos disponibles en el centro bibliotecario. Se establecerán categorías específicas como los datos de la ficha catalográfica, fecha de préstamo, fecha de devolución, nombre del usuario, número de registro, etc. Todos estos ítems se pueden agrupar por categorías y estarán descritos externamente desde los "esquemas" (schemas) o los RDF del XML. Permite actualizarse en el acto y con la posibilidad interactiva por parte del usuario en el pedido, gestión y modificación de documentos desde su lejano navegador. El lado más negativo es que se necesitará mayor ancho de banda y mayor potencia del procesador del equipo para poder soportar esta arquitectura de tres-niveles.

• Aplicaciones que precisen que el cliente Web presente diferentes versiones de los mismos datos a diferentes usuarios. Se podría aplicar un manual de diferentes grados (iniciación, intermedio y avanzado) con sus diferentes idiomas, etcétera. Esto hará que este manual se pueda personalizar por los usuarios y extraer la información requerida de un capítulo determinado, con una ordenación y formatos concretos.

• Aplicaciones en las que agentes Web inteligentes intentan adaptar la búsqueda de información a las necesidades de los usuarios individuales. Habrá una interacción entre la información requerida y las preferencias del usuario de la aplicación. Con el XML vendrá una segunda generación de robots que permitirá una mayor precisión de la búsqueda requerida. Actualmente podemos encontrar aplicaciones de medios de comunicación como los periódicos personalizados. Por otro lado, el impulso de los motores de búsqueda con XML y la creación de buscadores de lenguaje natural.

• Otras aplicaciones que se desarrollarán son las operaciones para comercio electrónico con la normativa EDI. Se puede hacer ya comparación de precios entre los distintos tiendas virtuales.

Además de esto es importante destacar que XML aporta mucha potencia y flexibilidad a las aplicaciones basadas en la Web, proporcionando numerosas ventajas a los programadores y usuarios, como lo son:

• Búsquedas con más significado: Los datos se pueden etiquetar de forma exclusiva con XML, lo que permite que un cliente especifique libros escritos por Winston Churchill, en lugar de sobre Winston Churchill. Las búsquedas que utilizan los métodos actuales, por el contrario, probablemente mezclarían ambos tipos de libros. Sin XML, es necesario que la aplicación de búsqueda comprenda el esquema de cada base de datos, en el que se describe cómo se ha generado. Esto es prácticamente imposible, pues cada base de datos describe sus datos de una forma distinta. Sin embargo, con XML los libros se pueden clasificar fácilmente en categorías estándar por autor, título, ISBN u otros criterios. De esta forma, los agentes podrían buscar libros sobre Winston Churchill en estos sitios de librerías de una forma coherente.

• Programación de aplicaciones Web flexibles: Una vez encontrados los datos, el XML se puede distribuir a otras aplicaciones, objetos y servidores de nivel medio para continuar su procesamiento, o bien se puede entregar al escritorio para su visualización en un explorador. XML, junto con HTML para la presentación, las secuencias de comandos para la lógica y un modelo de objeto común para la interacción con los datos y la presentación, ofrece todas las tecnologías necesarias para el desarrollo de flexibles aplicaciones Web de tres niveles.

• Integración de datos procedentes de fuentes dispares: La capacidad de buscar en varias bases de datos no compatibles entre sí es, hoy en día, prácticamente imposible. XML permite combinar fácilmente los datos estructurados procedentes de fuentes distintas. Se pueden utilizar agentes de software para integrar los datos en un servidor de nivel medio desde bases de datos de fondo y otras aplicaciones. A continuación, dichos datos se pueden entregar a clientes u otros servidores para su agregación, procesamiento y distribución. La capacidad de ampliación y la flexibilidad de XML le permiten describir los datos contenidos

http://www.monografias.com/trabajos12/intrants/intrants.shtml�

http://www.monografias.com/trabajos14/mundo-negocios/mundo-negocios.shtml#ex�

http://www.monografias.com/trabajos16/java/java.shtml�

http://www.monografias.com/trabajos7/mafu/mafu.shtml�

http://www.monografias.com/trabajos15/sistemas-control/sistemas-control.shtml�

http://www.monografias.com/trabajos14/trmnpot/trmnpot.shtml�

http://www.monografias.com/trabajos12/foucuno/foucuno.shtml#CONCEP�

http://www.monografias.com/trabajos13/mapro/mapro.shtml�

http://www.monografias.com/trabajos13/mapro/mapro.shtml�

http://www.monografias.com/trabajos7/coman/coman.shtml�

http://www.monografias.com/trabajos11/sercli/sercli.shtml�



64

en una gran variedad de aplicaciones muy diversas, desde las recopilaciones descriptivas de páginas Web hasta los registros de datos. Además, dado que los datos basados en XML son autodescriptivos, se pueden intercambiar y procesar sin necesidad de una descripción incorporada de los datos entrantes.

• Computación y manipulación locales: Después de entregarlos al cliente, los datos en formato XML se pueden analizar, editar y manipular de forma local, siendo las aplicaciones clientes quienes realizan los cálculos. Los usuarios pueden manipular los datos de diversas formas, y no limitarse a presentarlos. El Modelo de objeto de documento (DOM) de XML también permite manipular datos con secuencias de comandos u otros lenguajes de programación. Los cálculos relativos a los datos se pueden realizar sin volver al servidor. La separación entre la interfaz de usuario que ve los datos y los propios datos permite crear, de forma natural, potentes aplicaciones para el Web que antes sólo se encontraban en bases de datos avanzadas, todo con un formato simple, flexible y abierto.

• Varias vistas de los datos: Una vez entregados los datos al escritorio, se pueden ver de varias formas. Al describir los datos estructurados de una forma simple, abierta y extensible, XML sirve de complemento para el HTML, que se utiliza ampliamente para describir las interfaces de usuario. Una vez más, mientras que el lenguaje HTML describe el aspecto de los datos, XML describe los propios datos. Dado que la presentación está separada de los datos, la definición de dichos datos en XML permite especificar varias vistas, lo que significa que los datos se pueden representar de la forma adecuada. Los datos locales se pueden presentar de una forma dinámica determinada por la configuración del cliente, las preferencias del usuario u otros criterios. CSS y XSL proporcionan mecanismos declarativos para describir una vista de los datos en particular.

• Actualizaciones granulares: Los datos se pueden actualizar de forma granular con XML, por lo que no es necesario volver a enviar un conjunto completo de datos estructurados cada vez que cambia parte de dichos datos. Sólo es preciso enviar el elemento modificado del servidor al cliente, y los datos modificados se pueden presentar sin necesidad de actualizar toda la interfaz de usuario. En la actualidad, aunque sólo cambie un elemento de los datos, es preciso volver a construir toda la página, incluso si la vista permanece igual, lo que reduce drásticamente la escalabilidad del servidor.

Asimismo, XML permite agregar otros datos, como las temperaturas máximas y mínimas previstas, la pluviosidad prevista y su probabilidad (expresada en porcentaje). Esta información adicional se puede trasladar a la vista del usuario sin que el explorador tenga que enviar una vista nueva. Si se solicitan datos adicionales, como la presión atmosférica, se pueden enviar sin volver a generar la vista.

Utilidades Futuras:

En su calidad de estándar del sector para expresar datos estructurados, XML ofrece muchas ventajas a las organizaciones, desarrolladores de software, sitios Web y usuarios finales. Las oportunidades aumentarán cuantos más formatos de datos de mercado vertical se creen para mercados claves, como el mercado de búsqueda avanzada en bases de datos, banca en línea, médico, legal, comercio electrónico, etc. Cuando los sitios ofrezcan datos, en lugar de limitarse a las vistas de datos, las oportunidades serán extraordinarias.

Hoy en día, los servicios de atención al cliente están migrando de centros de llamadas y sedes físicas a sitios Web, por lo que se beneficiarán de la sólida funcionalidad de XML. Dado que la mayoría de estas aplicaciones empresariales implican la manipulación o la transferencia de datos y registros de base de datos, como pedidos de compra, facturas, información del cliente, citas, mapas, etc., XML va a revolucionar las posibilidades de los usuarios finales en Internet, permitiendo la implementación de un amplio abanico de aplicaciones empresariales. Además, la información que ya esté almacenada en sitios Web, tanto si está guardada en documentos como en bases de datos, puede marcarse con vocabularios basados en XML y orientados a intranets. Dichos vocabularios también ayudan a las pequeñas y medianas empresas que necesiten intercambiar información entre clientes y proveedores.

Un mercado vital y todavía por descubrir es el de las herramientas de desarrollo que simplifican a los usuarios finales la creación de sus propios sitios Web cooperativos, lo que incluye las herramientas para generar datos XML heredados de información de bases de datos e interfaces de usuario ya existentes. Además, se pueden desarrollar esquemas estándar para describir portafolios u otros datos que podrían utilizar, por ejemplo, el diseño, los gráficos y otras funciones de Excel o de otras hojas de cálculo existentes. Las herramientas declarativas y visuales para describir XML generadas a partir de bases de datos heredadas constituyen una oportunidad muy potente. Las herramientas personalizadas para ver datos XML se pueden escribir en el sistema de programación de Visual Basic®, en Java y en C++.

XML va a necesitar herramientas nuevas y potentes para la presentación de datos XML ricos y complejos dentro de un documento. Esto se consigue asignando una capa de presentación fácil de usar por encima de un conjunto complejo de datos jerárquicos que pueden cambiar de forma dinámica. Entre los diseños que se podrán utilizar para

http://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtml�

http://www.monografias.com/trabajos7/caes/caes.shtml�

http://www.monografias.com/trabajos11/teosis/teosis.shtml�

http://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtml�



65

los datos XML se incluyen los esquemas contraíbles, las vistas dinámicas de tablas dinámicas y una sencilla hoja para cada portafolio.

Los sitios Web pueden ofrecer cotizaciones de bolsa, artículos de prensa o datos sobre el tráfico en tiempo real, los cuales se pueden conseguir a través de un filtro de difusiones del Web o mediante un sondeo inteligente de un árbol de servidores que repliquen dichos sitios. Con XML se puede evitar la sobrecarga de información con sólo redactar normas personalizadas sobre el envejecimiento de la información, igual que en el correo electrónico. Las herramientas basadas en XML para que los usuarios creen dichas normas, así como el software de cliente y servidor para ejecutarlas, constituyen una gran oportunidad. Un modelo de objeto estándar no podría habilitar dichas funciones, normalmente escritas en secuencias de comandos, para filtrar los mensajes entrantes, examinar los mensajes almacenados, crear mensajes salientes, obtener acceso a bases de datos, etc. Dichos agentes se pueden redactar de forma que se ejecuten en cualquier lugar de forma automática.

8. Instalación (Requerimientos de Hardware y Software).

Software:

Para desarrollar aplicaciones basadas en XML es suficiente Con un editor de textos ASCII (el Bloc de notas, por ejemplo) y con un visualizador que incluya un parser adaptado a XML (Microsoft Internet Explorer 5, por ejemplo), se pueden crear y ver documentos XML.

No obstante, existen muchas nuevas herramientas que facilitan un poco la labor del diseñador, algunas de ellas gratuitas, como el "Microsoft XML Notepad", que aprovecha los motores internos del Explorer para trabajar.

La versión 4.x del Netscape Navigator no soporta XML, y aunque se supone que la versión 5 sí lo permitirá, la política comercial actual de Netscape no permite asegurar cuándo ni cómo será.

Existen otros varios visualizadores/navegadores que admiten XML, como Amaya, HotMetal o HyBrick, aunque casi cada día están saliendo nuevos productos (analizadores, visualizadores, motores, editores, DTDs, etc.).

Aunque la versión 1.0 de XML es ya definitiva, no pasa lo mismo con las demás normativas que le acompañan, que poco a poco van pasando del estado de "borrador de trabajo" al de "recomendación" (http://www.w3c.org). Este es otro de los motivos por los que XML no termina de generalizarse, ya que las empresas se piensan mucho invertir en productos que no están soportados por estándares definitivos.

Hardware:

Ya están empezando a aparecer servidores de Internet especialmente diseñados para satisfacer los requerimientos de XML. Entre sus funciones destacan el almacenamiento y manipulación de datos XML, características mejoradas en la búsqueda de datos, integración de fuentes diversas de información en bases de datos XML unificadas. Un ejemplo de este tipo de servidor será el BizTalk Server de Microsoft, especialmente diseñado para el comercio electrónico. Empresas como Bluestone Software (www.bluestone.com), Object Design Inc (www.objectdesign.com) , o webMethods (www.webmethods.com ), disponen ya de soluciones XML Server.

Microsoft pretende establecer por medio de BizTalk un marco para el comercio electrónico de empresa a consumidor. El objetivo de BizTalk es el de desarrollar una red dentro de su portal Microsoft Network, que permita poner en contacto

CONCLUSIONES

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

……………………………..

http://www.monografias.com/trabajos10/prens/prens.shtml�

http://www.monografias.com/trabajos12/elproduc/elproduc.shtml�

http://www.monografias.com/trabajos12/elorigest/elorigest.shtml�



66

DIF #4

Desarrollo de Data Warehouse en diferentes empresas

Caso Monsanto MONSANTO - Integrando con calidad

En 2001, Monsanto Argentina decidió incorporar una herramienta para Extracción, Transformación y Carga de datos, como instancia imprescindible para la integración de un Data Warehouse con información de buena calidad. Hoy, Ascential DataStage es el corazón y el motor de la aplicación de Business Intelligence de Monsanto, a través del cual pasa hoy el 100% de los datos que ingresan a su Data Warehouse. Monsanto es una compañía mundial de provisión de insumos para el agro. Presente en Argentina desde 1956, tiene como líneas de negocio principales la producción y distribución de Agroquímicos y el desarrollo y producción de Semillas y Tecnología Agropecuaria. Dado el peso que tiene en la economía argentina la actividad agrícola, la filial argentina tiene una posición muy destacada dentro de Monsanto. En 2001, Monsanto Argentina decidió desarrollar un data warehouse corporativo que le permitiera unificar la información de la empresa, como punto de partida para la implementación de un nuevo sistema de Business Intelligence. El proceso se inició, con toda lógica, con la evaluación y adquisición de una herramienta de Extracción, Transformación y Carga de datos, una instancia obligada para poder alimentar el data warehouse con información de buena calidad. Con el objetivo de optimizar la relación con sus clientes, los distribuidores de productos agroquímicos y semillas, Monsanto necesitaba organizar sus datos en un Data Warehouse integral, para luego poder explotarlos convenientemente mediante un software de Business Intelligence. Monsanto Argentina seleccionó el ETL DataStage de Ascential, la única oferta de proveedor único para evaluación, cleansing, consolidación e integración de datos, por entender que era la herramienta más adecuada para ordenar, integrar y ofrecer un entorno de seguridad óptimo para su Data Warehouse. Una herramienta de Extracción, Transformación y Carga de datos es un marco necesario, un entorno que permite organizar y basar todo el trabajo posterior, comenta Lucas



67

Martínez Díaz, Gerente de Business Intelligence de Monsanto. Para proyectos integrales, complejos y de gran magnitud como el armado y mantenimiento de nuestro Data Warehouse es muy importante contar con DataStage. Es importante destacar que Monsanto alimenta su DataWarehouse con Ascential DataStage accediendo en forma practica, veloz y segura a todas las fuentes de datos que utilizan: Información de mercado, planillas Excel, Aplicaciones transaccionales como SAP R/3 sobre Oracle, Pivotal con Microsoft SQL , My Factory Pro y también acceden a las aplicaciones desarrolladas in-house que corren en Sybase. El objetivo final del proyecto se materializó con la explotación de esos datos mediante herramientas de Business Intelligence, para lo cual Monsanto seleccionó el software de MicroStrategy. Ascential DataStage es empleado por Monsanto para poblar y unificar con datos su DataWarehouse sobre el que desarrollan los distintos modelos analíticos orientados a la toma de decisión en distintas áreas. En el área de Ventas y Marketing, estos modelos se utilizan para realizar análisis de distribuidores y de atención al cliente, lo cual les permite determinar cual es el valor de cada uno de ellos, qué tipo de productos venden más y mejor, así como también logran conocer qué productos compran sus clientes, sean estos de la línea de agroquímicos o de semillas. También analizan información a partir de los modelos de Inventario y Cobranzas, los cuales son cargados con datos desde los diversos sistemas y fuentes de información, utilizando DataStage. Focus Business Solutions, empresa que desarrolla los negocios de Ascential Software en el sur de Latinoamérica, acompañó a Monsanto Argentina en todo el proyecto. Focus estuvo a cargo de la implementación de DataStage, y de los servicios que le permitieron a la empresa de insumos agropecuarios desarrollar y explotar su Data Warehouse de forma tal de tomar decisiones rápidas en un mercado con escenarios tan cambiantes, partiendo de información valiosa, que estaba oculta detrás de los datos.

Caso TGS

TRANSPORTADORA GAS DEL SUR: Integrando los datos de diferentes sistemas para tomar mejores decisiones Transportadora de Gas del Sur S.A. (TGS) opera el sistema de gasoductos más extenso de Latinoamérica. Transporta el 60% de gas consumido en Argentina y abastece en forma directa a distribuidoras, generadoras eléctricas e industrias, a través de un sistema de gasoductos de 7.419 Km de extensión. Dentro del proceso de optimización de la gestión de la empresa, en el año 1999 se diseñó un tablero de comando para uso de la dirección. El objetivo de ese tablero era permitir a los niveles directivos de la empresa contar con la información adecuada para tomar



68

decisiones mejor fundamentadas. Los datos necesarios para alimentar el tablero estaban en muchos casos disponibles, pero no era posible procesarlos y acceder a ellos en forma unificada. Se inició entonces la búsqueda de una herramienta que fuera confiable y manuable, que permitiera alimentar el tablero de comando desde los múltiples sistemas que se operaban en la empresa. Una solución que le permitiera abstraerse de la tecnológica subyacente y lograr una consolidación de la información de manera tal que pudieran tomar decisiones basándose en información cierta, válida y entregada a tiempo. TGS eligió como herramienta de extracción, transformación y carga de datos (ETL) a DataStage versión 3.2, que en aquel momento era provista por la empresa Ardent (derivada en lo que es hoy Ascential, luego de procesos de fusión y adquisición). DataStage es un sistema muy sólido, y muy amigable para administrar, señala Jorge Barallobre, Administrador de Sistemas de Transportadora de Gas del Sur. Como demostración de ello está la primera migración que hicimos del sistema, a la versión 4.0, que fue conducida y realizada integralmente por nosotros. Para integrar la información al tablero se tomaron todos los datos en crudo, es decir, tal como estaban y sin trabajo previo. Se procesaron en DataStage, donde se acomodaron y extrajeron y se hicieron los controles de validación, para evitar inconsistencias. El tablero definido inicialmente, que es en buena parte el que se utiliza hoy en día, permitió la generación de informes valiosos basados en datos sólidos provenientes de distintas fuentes. La mayor parte de ellos vienen de sistemas de uso interno; el sistema corporativo de gestión de la empresa es SAP-, y también incorpora y procesa información financiera y económica de Bloomberg, fundamental para combinar con los datos disponibles en la compañía para tomar decisiones. El tablero ha permitido también integrar información entre distintos sistemas y aplicaciones de la empresa. Por ejemplo, Ascential DataStage hace posible tomar datos desde tablas del sistema de Recursos Humanos, que está tercerizado, y alimentar otros sistemas de la empresa. Soporte a la migración de la base de datos corporativa Con la crisis de 2001/2002 hubo una fuerte modificación en los indicadores de negocio, que requirió de una replanificación del tablero. Otras urgencias operativas y la indefinición de los escenarios han ido postergando esa planificación, pero no ha mermado el empleo del tablero existente. Más allá de esa actualización pendiente, otra necesidad paralela es la que ha motivado recientemente la migración a la versión 7.5 de Ascential DataStage. TGS está migrando sus bases de datos a Oracle, y la nueva versión soporta esa funcionalidad. Confiamos en el aporte fundamental que nos dará DataStage en el proceso de migración. Es una



69

herramienta que nos ha dado siempre satisfacciones y jamás un problema; comenta Barallobre. Si bien TGS contaba con el know-how suficiente para realizar migraciones de versiones de DataStage, en este caso por tratarse de una migración de largo alcance; recordemos que TGS estaba en versión 4 e instalaron la 7.5, desde Focus recomendamos la asistencia de nuestros Especialistas de Producto, quienes ayudaron a TGS a llevar adelante la migración, agrega Alejandro Stecconi, Gerente de Cuentas de FOCUS para TGS. DataStage 7.5 corre hoy en TGS en un servidor con un procesador Intel de 2.4 Mhz y 1 Gigabyte de memoria, bajo sistema operativo Windows 2000 Server Edition. Dentro del proceso de optimización de la gestión de la empresa, en el año 1999 se diseñó un tablero de comando para uso de la dirección. El objetivo de ese tablero era permitir a los niveles directivos de la empresa contar con la información adecuada para tomar decisiones mejor fundamentadas. Los datos necesarios para alimentar el tablero estaban en muchos casos disponibles, pero no era posible procesarlos y acceder a ellos en forma unificada. Se inició entonces la búsqueda de una herramienta que fuera confiable y manuable, que permitiera alimentar el tablero de comando desde los múltiples sistemas que se operaban en la empresa. Una solución que le permitiera abstraerse de la tecnológica subyacente y lograr una consolidación de la información de manera tal que pudieran tomar decisiones basándose en información cierta, válida y entregada a tiempo. TGS eligió como herramienta de extracción, transformación y carga de datos (ETL) a DataStage versión 3.2, que en aquel momento era provista por la empresa Ardent (derivada en lo que es hoy Ascential, luego de procesos de fusión y adquisición). DataStage es un sistema muy sólido, y muy amigable para administrar, señala Jorge Barallobre, Administrador de Sistemas de Transportadora de Gas del Sur. Como demostración de ello está la primera migración que hicimos del sistema, a la versión 4.0, que fue conducida y realizada integralmente por nosotros. Para integrar la información al tablero se tomaron todos los datos en crudo, es decir, tal como estaban y sin trabajo previo. Se procesaron en DataStage, donde se acomodaron y extrajeron y se hicieron los controles de validación, para evitar inconsistencias. El tablero definido inicialmente, que es en buena parte el que se utiliza hoy en día, permitió la generación de informes valiosos basados en datos sólidos provenientes de distintas fuentes. La mayor parte de ellos vienen de sistemas de uso interno; el sistema corporativo de gestión de la empresa es SAP-, y también incorpora y procesa información financiera y económica de Bloomberg, fundamental para combinar con los datos disponibles en la compañía para tomar decisiones. El tablero ha permitido también integrar información entre distintos sistemas y aplicaciones de la empresa. Por ejemplo, Ascential DataStage hace posible tomar datos



70

desde tablas del sistema de Recursos Humanos, que está tercerizado, y alimentar otros sistemas de la empresa. Soporte a la migración de la base de datos corporativa Con la crisis de 2001/2002 hubo una fuerte modificación en los indicadores de negocio, que requirió de una replanificación del tablero. Otras urgencias operativas y la indefinición de los escenarios han ido postergando esa planificación, pero no ha mermado el empleo del tablero existente. Más allá de esa actualización pendiente, otra necesidad paralela es la que ha motivado recientemente la migración a la versión 7.5 de Ascential DataStage. TGS está migrando sus bases de datos a Oracle, y la nueva versión soporta esa funcionalidad. Confiamos en el aporte fundamental que nos dará DataStage en el proceso de migración. Es una herramienta que nos ha dado siempre satisfacciones y jamás un problema; comenta Barallobre. Si bien TGS contaba con el know-how suficiente para realizar migraciones de versiones de DataStage, en este caso por tratarse de una migración de largo alcance; recordemos que TGS estaba en versión 4 e instalaron la 7.5, desde Focus recomendamos la asistencia de nuestros Especialistas de Producto, quienes ayudaron a TGS a llevar adelante la migración, agrega Alejandro Stecconi, Gerente de Cuentas de FOCUS para TGS. DataStage 7.5 corre hoy en TGS en un servidor con un procesador Intel de 2.4 Mhz y 1 Gigabyte de memoria, bajo sistema operativo Windows 2000 Server Edition.

Faladesa comenzó a trabajar con AS Software en 1997 tras adquirir el software de gestión FAS-IV. Posteriormente migró a FAS-5 consiguiendo estupendas mejoras en todas las áreas de la empresa (compras, ventas, contabilidad, etc.). Ahora, la posesión de una tienda ubicada en su propia fábrica de Barcelona ha llevado a la compañía a implantar la aplicación para Terminal Punto de Venta de AS Software con el fin de gestionar la venta al público en mostrador e integrarla dentro de la gestión global de la empresa. Gracias a su implementación ha conseguido un gran avance obteniendo información on line y en tiempo real para poder realizar consultas de stock desde la misma tienda, así como hacer traspasos y demás gestiones on-line con la central directamente. Igualmente para facilitar la toma de decisiones empresariales Faladesa no ha dudado en implantar el Data Warehouse desarrollado por AS Software con escenarios predefinidos de ventas, compras, contabilidad…, etc. Con ello, ha conseguido explotar al máximo la información y aportar un mayor nivel de análisis a sus directivos a la hora de tomar decisiones basadas en simulaciones de escenarios, experiencias pasadas y proyecciones futuras. Dicha implantación ha sido extremadamente rápida al integrarse con FAS-5. Ahora con la integración de las nuevas soluciones de TPV y Data Warehouse con el ERP, Faladesa ha obtenido un mayor flujo de información y datos entre los distintos usuarios agilizando el trabajo cotidiano, evitando las tareas repetitivas e incrementando la comunicación entre los distintos órganos de la empresa. Además la compañía disfruta ya de la versión 2.0 de FAS-5 que ofrece un diseño más atractivo, alertas configurables y programables por el propio usuario y ayudas con animación y voz incorporadas además de mensajería y chat integrados. Asimismo la versión 2.0 integra un gran número de tareas automatizadas como la posibilidad de poder enviar e-mailings masivos a



71

clientes, entre otras. Acerca de FALADESA El grupo Faladesa está formado por empresas con más de 40 años de experiencia en el desarrollo de productos de iluminación decorativa. Actualmente, los catálogos de sus 3 marcas FALADESA, Luces 7D y Spots 7D están compuestos por más de 1500 artículos exclusivos entre lámparas, colgantes, plafones, apliques, pies de salón, sobremesas y focos que se incrementan año tras año. Su política de Calidad responde también a un reconocido compromiso del grupo con sus clientes y a un continuo espíritu de superación, que ha llevado a las empresas del grupo a crear una extensa red comercial, a estar presente en los más prestigiosos certámenes feriales del sector y a vender una extensa gama de productos de iluminación decorativa en establecimientos de 58 países. www.faladesa.com Información corporativa AS SOFTWARE, fundada en 1985, es líder en el desarrollo de software de gestión empresarial y en la prestación de servicios de Data Center. Ubicada en Madrid, Barcelona y Castelldefels (Barcelona) se ha posicionado como uno de los más antiguos desarrolladores de ERPs de ámbito nacional, habiendo informatizado multitud de empresas con cinco generaciones de su conocido ERP, FAS. Asimismo la compañía comercializa y desarrolla soluciones Business Intelligence, Portales Corporativos, Data Warehouse, informática móvil, TPV, etc. As Software es además la única empresa de capital español que siendo desarrolladora de software de gestión empresarial ofrece servicios de Data Center propio a sus clientes como hosting, housing, etc. www.assoftware.es

CONCLUSIONES

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

……………………………..

s9- nuevas_tecnologias.pdf

Documents

Transcript of s9- nuevas_tecnologias.pdf