Revisar Hoy

1

Autorizada la entrega del proyecto del alumno/a:

Mara Aldehuela Lucena

En Madrid a 10 de junio de 2005

EL DIRECTOR DEL PROYECTO

Juan Paredes Lozano

Fdo.: Fecha: / /

V B del Coordinador de Proyectos

Miguel ngel Sanz Bobi

Fdo.: Fecha: / /

2

PROYECTO FIN DE CARRERA

ANLISIS COMPARATIVO ENTRE MTODOS ESTADSTICOS Y DE

MINERA DE DATOS

MARA ALDEHUELA LUCENA

MADRID, Junio 2005

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TCNICA SUPERIOR DE INGENIERA (ICAI)

INGENIERO INFORMTICO

3

RESUMEN

El presente proyecto trata de un estudio en profundidad de las tcnicas existentes para

extraer de los datos un conocimiento no implcito en los mismos y que puede ser de

gran utilidad para la toma de decisiones de negocio.

De esta forma se analizan las distintas tcnicas estadsticas y de minera, su utilidad, en

qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn

los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse

los resultados obtenidos.

La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un

acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan

demandado en la actualidad y, en gran parte, an desconocido.

Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o

minera de datos que permite obtener a partir de los datos disponibles un conocimiento

oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,

evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de

negocio...

Existen dos enfoques o reas dentro del Data Mining: las tcnicas clsicas de Estadstica

y las de minera de datos propiamente dicha que derivan, en su mayora, de las

aportaciones de la Inteligencia Artificial como las redes neuronales, lgica borrosa,

mecanismos de aprendizaje automtico...

Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la

toma de decisiones empresariales. Aunque no son propias de minera de datos (se

utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la

hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para

obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms

acertadas cuando se apliquen los procesos de minera. Algunos ejemplos de estas

tcnicas son la regresin lineal, el Anlisis Factorial, el Anlisis de Componentes

Principales... Mientras que entre las tcnicas de minera destacan el Clustering, la

Clasificacin, la Prediccin...

4

Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito

de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:

datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas

se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).

Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms

robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren

por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

En el presente proyecto se pretende por tanto demostrar cmo la estadstica clsica se

integra con la minera para ofrecer resultados ms completos y precisos.

Para comprender mejor el funcionamiento de cada una de estas tcnicas, se aplican a un

caso prctico orientado al rea de climatologa, permitiendo analizar resultados reales y

ver ejemplos concretos, que muestren su utilidad.

Los datos a utilizar son varias tablas estadsticas de climatologa obtenidas del INE

(Instituto Nacional de Estadstica), que contienen informacin mensual referida a las

temperaturas, precipitaciones, humedad relativa, horas de sol...de las distintas regiones

de Espaa durante varios aos.

Como aplicacin del conocimiento adquirido, se combinarn tcnicas estadsticas y de

minera a un caso concreto de estudio: la prediccin de los efectos del calentamiento

global sobre las precipitaciones y, como consecuencia, sobre la ocupacin de los

embalses de Espaa.

Por su conocimiento, y disponibilidad del Software necesario, se ha optado por la

utilizacin de DB2 Intelligent Miner for Data. Esta herramienta es muy completa,

puesto que integra varias tcnicas estadsticas con las de minera por lo que resulta muy

apropiada para el anlisis comparativo a realizar.

5

PROJECT ABSTRACT

The current project is an in depth study on the available methods for extracting

knowledge from data to support critical business decisions.

Statistical and data mining techniques are analyzed, making recommendations based on

best use and original requirements, as well as suitability depending on case studies and

data available. Additionally, guidelines are provided to help interpret the output data.

The projects main goal is to conduct a comprehensive approach among Business

Intelligence, Data Warehousing and Data Mining, so much in demand and yet unknown.

Data Mining, one of the most potential areas in Business Intelligence, extracts hidden

knowledge from the available data which can help obtain behavior patterns, trends,

support decision making, market research, new business opportunities

Data Mining has two building blocks: traditional statistical methods and data mining

itself originated from Artificial Intelligence such as neural networks, fuzzy logic, self

automated learning methods...

Statistics provide several forecasting techniques that support corporate management

decisions. Not being inherent to data mining (used well before this concept arrived) it

has been considerably useful to discover patterns and develop predictive modeling.

These algorithms can also be used to obtain more information on the data which will

allow better decision taking after data mining processes are implemented. Some of these

techniques are linear regression, factorial analysis, main components analysis ...

Outstanding among mining techniques : clustering, classification, prediction .

If we question about the difference between them, the answer is not simple; as the

success in data mining and statistics depend on the same factors: refined data, reliable,

well defined and validated. Furthermore, most of the techniques are used for solving the

same type of problems (prediction, classification )

6

We can also consider as differentiating facts the robustness and easy implementation of

mining techniques by non skilled users. On the other hand they require much more

computing power, not being a problem with todays technologies.

This project intends to describe how traditional statistics integrate into data mining to

offer more accurate and complete results.

To better understand each of these techniques we describe a case study of climate,

showing real analytical results and specific samples which test its usefulness.

Data used come from climate statistical tables provided by INE (National Institute of

Statistics), with monthly information on temperatures, rainfall, relative humidity,

daylight sun from the different regions of Spain during several years

As an acquired knowledge application, both statistical and mining techniques were used

in the case study: prediction of global warming effect based on the rainfalls and dam

water levels.

Based on knowledge and product availability, DB2 Intelligent Miner for Data was

chosen. This tool is quite complete as it integrates statistical and mining techniques

being most suitable for the required comparative analysis..

7

NDICE DE CONTENIDOS

MEMORIA ........................................................................................................ 10

Objetivos ............................................................................................................ 11

Consideraciones.................................................................................................. 14

PRESUPUESTO................................................................................................. 15

1- INTRODUCCIN A BUSINESS INTELLIGENCE ...................................... 16

Principales conceptos utilizados.......................................................................... 17

Evolucin de los sistemas de informacin ........................................................... 21

Utilidad de los sistemas de Business Intelligence ................................................ 24

Sistemas Data Warehouse ................................................................................... 24

Historia............................................................................................................... 24

Diferencia con las bases de datos operacionales .................................................. 26

Modelos de datos empleados............................................................................... 27

Arquitectura........................................................................................................ 30

Herramientas Business Intelligence..................................................................... 31

Minera de datos ................................................................................................. 32

Intelligent Miner for Data ................................................................................... 36

2- TCNICAS DE ANLISIS............................................................................ 41

2.1- Tcnicas estadsticas .................................................................................... 42

Consideraciones ...................................................................................... 42

Categorizacin de datos........................................................................... 43

2.1.1- Regresin lineal ............................................................................. 44

2.1.2- Ajuste de curva univariable ........................................................... 46

2.1.3- Anlisis de componentes principales.............................................. 46

2.1.4- Anlisis Factorial........................................................................... 47

2.1.5- Estadsticas Bivariables ................................................................. 48

2.2- Tcnicas de minera ..................................................................................... 49

2.2.1- Asociaciones .................................................................................. 49

2.2.2- Clustering....................................................................................... 49

2.2.2.1- Clustering neuronal......................................................... 51

8

2.2.2.2- Clustering demogrfico................................................... 54

2.2.3- Patrones secuenciales .................................................................... 55

2.2.4- Secuencias semejantes ................................................................... 55

2.2.5- Clasificacin ................................................................................. 56

2.2.5.1- Clasificacin en rbol ..................................................... 56

2.2.5.2- Clasificacin neuronal .................................................... 58

2.2.6- Prediccin ..................................................................................... 60

2.2.6.1- Funcin de base radial FBR ............................................ 60

2.2.6.2- Prediccin neuronal ........................................................ 61

3- IMPLEMENTACIN PRCTICA: CLIMATOLOGA................................. 62

3.1- Datos disponibles......................................................................................... 62

3.2- Base de datos............................................................................................... 65

3.3- Base de minera ........................................................................................... 69

3.3.1- Tcnicas de estadstica .................................................................. 69

A) Regresin lineal ...................................................................... 69

B) Ajuste de curva univariable ..................................................... 82

C) Anlisis de Componentes Principales ...................................... 95

D) Anlisis Factorial .................................................................... 101

E) Estadsticas Bivariables ........................................................... 106

3.3.2- Tcnicas de minera........................................................................ 120

A) Asociaciones ........................................................................... 120

B) Clustering Demogrfico .......................................................... 139

C) Clustering Neuronal ................................................................ 146

D) Patrones secuenciales .............................................................. 149

E) Secuencias semejantes ............................................................. 150

F) Clasificacin en rbol .............................................................. 158

G) Clasificacin neuronal............................................................. 162

H) Prediccin ............................................................................... 164

4- CASO DE ESTUDIO ..................................................................................... 171

4.1- Efecto invernadero....................................................................................... 171

4.2- Embalses espaoles ..................................................................................... 173

9

4.3- Anlisis ....................................................................................................... 175

4.3.1- Evolucin temporal de cada cuenca hidrogrfica ........................... 175

4.3.2- Relacin entre precipitaciones y ocupacin de embalses................ 182

4.3.3- Evolucin temporal de las precipitaciones ..................................... 184

4.3.4- Prediccin de la ocupacin de embalses a 5 aos ........................... 187

5- COMPARATIVA ESTADSTICA MINERA............................................. 190

Recursos ............................................................................................................. 196

Planificacin temporal de actividades ................................................................. 196

Conclusiones ...................................................................................................... 199

APNDICE A - Glosario de trminos................................................................. 201

APNDICE B - Tablas estadsticas..................................................................... 213

Bibliografa ........................................................................................................ 231

10

MEMORIA

El presente proyecto trata de un anlisis en profundidad de las distintas tcnicas

existentes para extraer de los datos un conocimiento oculto en los mismos y que puede

ser de gran utilidad para la toma de decisiones de negocio.

De este modo se estudian las distintas tcnicas estadsticas y de minera, su utilidad, en

qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn

los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse

los resultados obtenidos.

La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un

acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan

demandado en la actualidad y, en gran parte, an desconocido.

Cabe destacar adems la utilidad de las estrategias de Business Intelligence, que

permiten tener a mano la informacin ms relevante de operacin de una forma rpida,

flexible y oportuna. De esta forma se promueve una gestin y una toma de decisiones

proactiva, necesaria para aprovechar oportunidades de negocio futuras.

Debido al incremento de la competitividad en los negocios es vital para las empresas

conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de

negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de

la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de

tecnologas y productos para proveer a los usuarios de la informacin demandada en la

toma de decisiones de negocio de carcter estratgico o tctico.

Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o

minera de datos que permite obtener a partir de los datos disponibles un conocimiento

oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,

evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de

negocio...

11

Objetivos

Por tanto el principal objetivo de este proyecto es describir cada una de las tcnicas

estadsticas y de minera existentes para descubrir toda su potencia y utilidad y ver

cmo se complementan entre s.




hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para

obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms

acertadas cuando se apliquen los procesos de minera.

Para comprender mejor el funcionamiento de estas tcnicas, se aplican a un caso

prctico orientado al rea de climatologa, permitiendo analizar resultados reales y ver

ejemplos concretos, que muestren su funcionamiento.

Se pretenden por tanto cubrir los siguientes objetivos:

?? Construir un modelo de minera en el que:

o analizar los procesos de preparacin de datos previos a la aplicacin de

las tcnicas de minera.

12

o mostrar la sensibilidad de los cada mtodo estadstico y de minera con

casos ejemplo.

o probar distintas alternativas de solucin de un mismo problema,

comparando los resultados obtenidos en cada caso

o comparar distintos algoritmos para un mismo mtodo (por ejemplo

clasificacin en rbol y mediante redes neuronales).

La temtica elegida es la climatologa.

?? Aplicar el conocimiento adquirido a un caso de estudio sobre la prediccin de

los efectos del calentamiento global sobre las precipitaciones y, como

consecuencia, sobre la ocupacin de los embalses de Espaa.

?? Conocer el uso de una herramienta Software de Data Mining.

?? Extraer una serie de conclusiones sobre qu tcnicas deben aplicarse en cada

caso, cmo hacerlo y cmo interpretar los resultados obtenidos para optimizar

las decisiones de negocio.

Se seguirn las siguientes etapas en el desarrollo del proyecto:

1. Documentacin y recoleccin de informacin.

Para familiarizarse con los conceptos principales de las reas de Business

Intelligence, Data Warehousing y Data Mining.

2. Anlisis.

Se partir de un anlisis previo de las siguientes tcnicas estadsticas:

?? Regresin lineal

?? Ajuste de curva univariable

?? Anlisis de componentes principales (ACP)

?? Anlisis Factorial (AF)

?? Estadsticas Bivariables

y de minera de datos:

13

?? Asociaciones

?? Clustering

o Neuronal

o Demogrfico

?? Patrones Secuenciales

?? Secuencias Semejantes

?? Clasificacin

o En rbol

o Neuronal

?? Prediccin

o Funcin de Base Radial (FBR)

o Neuronal

3. Construccin del modelo de datos.

Se disear una base de datos que contenga la informacin de climatologa a

utilizar.

4. Construccin del modelo de minera.

Se crear una base de minera que tendr como entrada la base de datos de

climatologa definida anteriormente. Sobre ella se aplicarn cada una de las

tcnicas estadsticas y de minera descritas, y se extraern conclusiones sobre los

resultados obtenidos.

5. Caso de estudio: Efecto invernadero.

Como aplicacin del conocimiento adquirido, se combinarn tcnicas

estadsticas y de minera a un caso concreto de estudio: la prediccin de los

efectos del calentamiento global sobre las precipitaciones y, como consecuencia,

sobre la ocupacin de los embalses de Espaa.

6. Conclusiones.

14

Por ltimo se extraer una serie de conclusiones prcticas sobre el uso y

aplicabilidad de las distintas tcnicas, sealando cul resulta ms ptima en cada

caso y analizando como la estadstica complementa a la minera.

Consideraciones

La dimensin temporal de los datos disponibles no resulta en ocasiones los

suficientemente amplia para extraer concusiones a largo plazo, puesto que de la mayora

de las variables climatolgicas en anlisis slo se disponen de datos de 6 aos.

Por ello no habr que olvidar que el objetivo de este proyecto no es otro que construir

los modelos de minera que, aplicados sobre datos ms numerosos (simplemente

cambiando la entrada de informacin) ofreceran unos resultados mucho ms completos

y extensibles en el tiempo.

15

PRESUPUESTO

El presupuesto necesario para la realizacin de este proyecto es el que sigue: Mano de obra Das de trabajo 201 Horas de trabajo 4 Total Horas 804 Coste Hora 10 Coste Total 8040 Recursos HW ThinkPad T22 Pentium III 512 RAM 1200

DB2 UDB v 7.1 468 SW DB2 Intelligent Miner for Data v.8.1 76.018 Total 77686

Por lo tanto el presupuesto necesario es de 85.726 .

16

1-INTRODUCCIN A BUSINESS INTELLIGENCE

En la lucha por tener xito en el competitivo mercado de hoy en da, la capacidad de

acceder a la informacin y analizarla ha cobrado ms importancia que nunca. Con el fin

de mejorar los procesos empresariales, medir el xito y tomar decisiones de negocio

acertadas, las organizaciones requieren un fcil acceso a sus bases de informacin.

Satisfacer esta demanda se ha convertido en un reto continuo.

El anlisis de la informacin ofrece a los empleados la posibilidad de utilizar los datos

decisivos para tener xito. Sin embargo, los tipos de acceso y anlisis de la informacin

requeridos pueden variar en gran medida entre los diferentes tipos de usuarios. Por

ejemplo, los ejecutivos de la alta direccin, los analistas empresariales, profesionales de

la informtica y otros no solamente accedern a grupos de datos distintos, sino que

analizarn esta informacin para diferentes propsitos. Por esta razn, las empresas

necesitan un conjunto integrado de productos que pueda ofrecer una gama completa de

capacidades y funcionalidad de inteligencia empresarial.

Una solucin completa de anlisis de la informacin debe hacer ms que slo

proporcionar acceso a los datos. Tambin debe permitir a los usuarios analizar los datos

de diversas formas, permitindoles anticipar las tendencias comerciales y evaluar

hiptesis. Este tipo de anlisis promueve una gestin y una toma de decisiones

proactiva, necesaria para aprovechar oportunidades futuras.

Las estrategias de Business Intelligence permiten tener a mano la informacin ms

relevante de operacin de una forma rpida, flexible y oportuna. Las herramientas que

integra consolidan la informacin de las distintas reas, mejorando el proceso de

decisin.

Business Intelligence es una alternativa tecnolgica y de administracin de negocios,

que cubre los aspectos del manejo de informacin para la toma de decisiones, desde su

extraccin en los sistemas, depuracin, transformacin, el diseo de estructuras de datos

o modelos especiales para el almacenamiento de datos hasta la explotacin de la

informacin mediante herramientas comerciales de fcil uso para los usuarios. A partir

de los datos disponibles obtiene un conocimiento no implcito en los mismos que puede

17

ayudar a descubrir patrones de comportamiento, evitar errores de gestin, segmentar

mercados, descubrir nuevas oportunidades de negocio...

Muchos de los conceptos de Business Intelligence no son nuevos pero han evolucionado

y han sido redefinidos a partir de la experiencia adquirida con los sistemas de

informacin y, ms recientemente, con las aplicaciones de Data Warehouse.

Debido al incremento de la competitividad en los negocios es vital para las empresas

conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de

negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de

la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de

tecnologas y productos para proveer a los usuarios de la informacin demandada en la

toma de decisiones de negocio de carcter estratgico o tctico.

Principales conceptos utilizados

Antes de entrar en ms detalle en las tcnicas de Business Intelligence, conviene tener

clara la terminologa empleada:

?? Bases de Datos Operacionales: Bases de datos detalladas definidas para

satisfacer las necesidades de informacin de procesos de negocio en ocasiones

muy complejos.

El modelo de datos est normalizado para evitar redundancias y un doble

mantenimiento.

?? OLTP: On-line Transaction Processing describe a los sistemas que trabajan con

datos operacionales La informacin es detallada y est en continua

actualizacin.

?? Data Warehouse: Base de datos orientada a temas, con datos integrados, no

voltiles (la informacin no cambia continuamente), y que perduran en el tiempo

(lo que permite seguir la evolucin del sistema). Contiene adems informacin

de negocio (datos informacionales: histricos, totales, medias, porcentajes...)

que le permiten a la alta direccin seguir el progreso de su empresa.

?? Data Mart: Contiene los datos de negocio de especial inters para un

determinado departamento, unidad de negocio o grupo de usuarios con las

18

mismas necesidades de informacin. Al igual que un Data Warehouse, almacena

informacin histrica y operaciones precalculadas para optimizar el acceso. Un

Data Mart es en efecto un Data Warehouse departamental.

?? Fuente de datos externa: Proporciona aquellos datos que son necesarios para

garantizar la calidad de la informacin en el Data Warehouse y que no se

encuentran en los sistemas OLTP.

?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los

analistas, directivos y ejecutivos comprender la informacin de negocio de una

forma rpida e interactiva. Para ello se sirve de diversas vistas que presentan los

datos desde diferentes dimensiones, lo que permite realizar comparaciones,

simular escenarios futuros y entender mejor las relaciones entre los datos.

En el caso de bases de datos relacionales hablaremos de ROLAP (Relational On-

line Analytical Processing), para multidimensionales de MOLAP

(Multidimensional On-line Analytical Processing) y de HOLAP (Hybrid On-line

Analytical Processing) en caso de modelos mixtos.

??Metadata: Informacin sobre los propios datos almacenados como una

descripcin de tablas y campos, tipos de datos, rango de valores permitidos,

procesos de transformacin...

19

?? Drill Down: Capacidad para navegar a travs de la informacin siguiendo una

estructura jerrquica.

En la siguiente figura se muestra un pequeo ejemplo:

?? Drill Across: Capacidad para navegar a travs de la informacin saltando por

las distintas dimensiones en modelos multidimensionales.

20

?? Diferencia entre bases de datos operacionales e informacionales: La mayor

diferencia entre estos dos modelos de bases de datos reside en la frecuencia de

actualizacin de la informacin:

o En los sistemas operacionales se llevan a cabo un gran nmero de

transacciones cada hora por lo que los datos estn siempre actualizados y

reflejan la situacin de la empresa en ese momento del tiempo.

o Los sistemas informacionales permanecen estables durante un periodo de

tiempo, finalizado el cual se realiza un proceso de carga (en horario que

no afecte a produccin) que extrae los cambios y los nuevos registros de

los sistemas operacionales, actualizando la base de datos informacional.

??Minera de datos: Proceso de extraer de los datos un conocimiento vlido, de

utilidad y antes desconocido para mejorar la toma de decisiones de negocio.

21

Evolucin de los sistemas de informacin

Algunas de las primeras cuestiones que nos pueden surgir al describir los objetivos de

un sistema de Business Intelligence son Proporciona un Data Warehouse las mismas

funcionalidades que un sistema de Business Intelligence? un Data Warehouse es

similar a los clsicos sistemas de informacin implementados en la mayora de las

empresas? Aunque en un primer momento podemos responder de forma afirmativa a

ambas cuestiones, un anlisis detallado nos muestra que existen importantes diferencias

entre estos sistemas.

Siguiendo la evolucin de los sistemas de informacin podemos distinguir tres

generaciones:

?? Primera Generacin Sistemas Host: Los primeros sistemas de informacin

empleaban programas batch para proporcionar a los usuarios la informacin

demandada en forma de consultas e informes. La salida de estas aplicaciones

tpicamente consista en grandes volmenes de hojas que los usuarios tenan que

analizar para responder a cuestiones de negocio.

Con la llegada de las aplicaciones de tiempo compartido, estos sistemas ganaron

rapidez en el acceso a la informacin, pero continuaban siendo incmodos de

utilizar y requeran acceso a bases de datos operacionales muy complejas.

Por tanto esta primera generacin de sistemas slo poda ser utilizada por

usuarios avanzados con un amplio conocimiento en el manejo de los datos (por

ejemplo, analistas de negocio). Los ejecutivos de la direccin dependan por

tanto del anlisis suministrado por terceros con el consiguiente retraso en el

tiempo.

?? Segunda Generacin Data Warehouse: La segunda generacin de los

sistemas de informacin lleg con el Data Warehouse que supuso un gran

avance en las prestaciones puesto que permite almacenar la totalidad de la

informacin de una empresa en un repositorio nico con un formato de datos

comn.

22

El uso de la arquitectura cliente-servidor proporciona a los usuarios una mejora

en los interfaces y unas herramientas de soporte a la toma de decisiones ms

potentes.

Este tipo de sistemas se ver a continuacin con ms detalle.

?? Tercera Generacin Business Intelligence: Un Data Warehouse no es an

una solucin completa para satisfacer la necesidades de los usuarios de negocio.

Una debilidad de muchos de estos sistemas es que los proveedores con

frecuencia se centran nicamente en la tecnologa en vez de en las soluciones de

negocio. Hay que tener en cuenta adems el gran esfuerzo necesario para la

implantacin completa de un Data Warehouse as como de las herramientas de

acceso al mismo. A esto hay que sumarle el hecho de que los productos de Data

WareHouse rara vez vienen agrupados en paquetes predefinidos para industrias

determinadas o reas de aplicacin especficas.

Otro error que suele cometerse al implantar un Data Warehouse es centrase en la

construccin del almacn de datos, olvidndose del acceso al mismo. Si la

informacin contenida en el Data Warehouse no est bien documentada y es

comprensible y fcil de acceder por los usuarios, stos no sacarn del sistema el

rendimiento esperado.

Los sistemas de Business Intelligence se centran en mejorar el acceso a la

informacin de negocio. Para ello se sirven de herramientas grficas, OLAP

(online analytical processing) y de minera de datos.

Previsiblemente, necesitarn procesar y analizar grandes volmenes de

informacin, por lo que parmetros como la escalabilidad e integracin de

productos de distintos fabricantes no deben ser olvidados.

La informacin almacenada en un Data Warehouse procede con frecuencia de

bases de datos operacionales (y en algunos casos de fuentes externas). Sin

embargo una parte importante de la informacin est contenida en la oficina,

sistemas de trabajo, servidores web de las intranets corporativas, Internet, en

papel...Para resolver este problema, los sistemas de Business Intelligence estn

diseados para soportar el acceso a todos los formatos de informacin de

negocio, no slo a los datos almacenados en el propio Data Warehouse.

23

El hecho de tener un sistema de Business Intelligence no descarta la necesidad

de un Data Warehouse central un Data Warehouse es simplemente una de las

fuentes de datos manejada por un sistema de Business Intelligence.

Como vemos, un sistema de Business Intelliegence constituye una tercera

generacin en los sistemas de informacin y presenta principalmente tres

ventajas:

o Oferta de soluciones especficas en paquetes predefinidos.

o Sistemas centrados en optimizar el acceso de los usuarios finales a la

informacin de negocio

o Soporte de todos los formatos de informacin, no slo de la

almacenada en un Data Warehouse.

La siguiente figura muestra la estructura global de un sistema de Business

Intelligence:

24

Utilidad de los sistemas de Business Intelligence

Las operaciones diarias de cualquier empresa generan gran cantidad de datos a

almacenar: pedidos, inventarios, facturacin, transacciones...Sin olvidar los datos

procedentes de fuentes externas como las listas de distribucin por mail.

El hecho de ser capaces de consolidar y analizar toda esta informacin para optimizar

las decisiones de negocio puede ser el factor que diferencie a la empresa de sus

competidoras.

Para que esto sea posible ser necesario disponer de las aplicaciones y herramientas

necesarias para el anlisis y, ms importante todava, de unos datos consistentes y en el

formato adecuado.

Sistemas Data Warehouse

Data Warehouse es el centro de la arquitectura para los sistemas de informacin en la

dcada de los 90. Soporta el procesamiento informtico al proveer una plataforma

slida, a partir de los datos histricos para hacer el anlisis. Facilita la integracin de

sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan

para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.

Un Data Warehouse es una coleccin de datos orientado a temas, integrado, no voltil,

de tiempo variante, que se usa para el soporte del proceso de toma de decisiones

empresariales.

Historia

El concepto de Data Warehouse surgi a partir de los sistemas expertos y las tcnicas de

Inteligencia Artificial que alcanzaron mayor auge en la dcada de los 80. El objetivo de

los sistemas expertos era el de emular el comportamiento humano, automatizando en lo

posible la toma de decisiones. Para ello era necesario crear una base de conocimiento

que contuviera todas las reglas que rigen el comportamiento de un experto.

La Inteligencia Artificial desarroll una serie de tcnicas que permitan que los sistemas

expertos desarrollados aprendiesen con la experiencia y fueran capaces de modificar las

reglas de actuacin segn el nuevo conocimiento adquirido.

25

A pesar de todo fueron muy poco los sistemas expertos desarrollados con xito debido a

varias razones:

?? Ausencia de la tecnologa necesaria.

?? Carencia de una metodologa estndar de desarrollo.

?? No existencia de un repositorio central de datos.

En la misma poca surgi el concepto de Ingeniera de la Informacin (Information

Engineering IE) que consista en una metodologa que ayudaba a las empresas a

entender el significado de los datos de negocio y las relaciones entre los mismos. A

diferencia de los sistemas expertos, la Ingeniera de la Informacin era ms fcil de

entender y constaba de una metodologa estndar, adems de ofrecer buenos resultados,

por lo que durante varios aos alcanz gran xito y difusin.

Con las redes locales (LANs) apareci la posibilidad de distribuir la capacidad de

proceso, por lo que los sistemas Data Warehouse entraron en escena como una solucin

viable de almacenar la informacin, unificando conceptos de Ingeniera de la

Informacin, Sistemas Expertos e Inteligencia Artificial. Del primero hered el modelo

de arquitectura de datos y de los otros dos la toma de decisiones.

Objetivo

El principal objetivo de un Data Warehouse es almacenar grandes volmenes de datos

previamente transformados a unos valores y formato fcilmente comprensibles.

Un Data Warehouse constituye un repositorio central para una empresa, proporcionando

informacin consistente y de alta calidad para la toma de decisiones estratgicas o

tcticas. Su fuente de informacin suele ser un sistema operacional clsico del que toma

los datos de negocio, les aplica unos procesos de transformacin y carga para conseguir

una informacin consistente y con valores estndar y realiza operaciones con ellos

almacenando los resultados como un dato ms. De esta forma medidas como totales,

medias y porcentajes se obtienen de forma casi inmediata puesto que ya han sido

precalculados.

26

Necesidad

Los sistemas de ingreso de transacciones se ven afectados por las consultas a sus bases

de datos. Generalmente poseen informes predefinidos, y cualquier modificacin a los

mismos debe ser solicitado al departamento de sistemas, que ser en definitiva quien

evaluar si tiene los recursos humanos disponibles como para realizarlos. El Data

Warehouse est separado de los sistemas transaccionales, por lo tanto las consultas no

afectan la velocidad de registro de las operaciones. Se actualiza peridicamente,

capturando datos de los distintos sistemas transaccionales. Una vez implementado, es

importante elegir las herramientas de consulta al Data Warehouse, que permitan un alto

grado de autonoma a los usuarios.

Diferencia con las bases de datos operacionales

En la siguiente tabla puede verse un contraste de cmo los datos de negocio

almacenados en un Data Warehouse, difieren de los datos operacionales usados por las

aplicaciones de produccin

Base de Datos Operacional Data Warehouse

Datos Operacionales Datos del negocio para Informacin

Orientado a la aplicacin Orientado al sujeto

Actual Actual + histrico

Detallada Detallada + ms resumida

Cambia continuamente Estable

Asimismo, ambos modelos de sistemas de almacenamiento de datos difieren en el uso

que se hace de ellos:

27

Uso de Base de Datos

Operacionales

Uso de

Data Warehouse

Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y

actualizables

Consultas complejas, frecuentemente

no anticipadas.

Cantidades pequeas de datos

detallados

Cantidades grandes de datos

detallados

Requerimientos de respuesta

inmediata

Requerimientos de respuesta no

crticos

Los usuarios de un Data Warehouse necesitan acceder a datos complejos,

frecuentemente desde fuentes mltiples y de formas no predecibles.

Por el contrario, los usuarios que accedan a los datos operacionales, comnmente

efectan tareas predefinidas que, generalmente requieren acceso a una sola base de

datos de una aplicacin.

Modelos de datos empleados

Por las caractersticas especiales de un Data Warehouse, no resulta apropiado emplear el

clsico modelo de datos relacional. Se optar por diseos que preparen la informacin

de acuerdo a la necesidad de tomar decisiones y no a los argumentos tcnicos de espacio

de almacenamiento. Los ms comunes son:

??Modelo en estrella: se basa en la creacin de tablas de hechos, es decir, tablas

que contengan la informacin numrica de los indicadores a analizar, o sea la

informacin cuantitativa de la informacin para la toma de decisiones. Las tablas

anteriores se relacionan con tablas de dimensiones, las cuales contienen la

informacin cualitativa, de los indicadores, es decir, toda aquella informacin

que clasifique la informacin requerida. Es el modelo de datos ms utilizado en

Data Warehouse.

En las siguientes imgenes puede verse un ejemplo de implementacin de

modelo en estrella:

28

??Modelo copo de nieve: modelo en estrella que se obtiene desglosando todas las

dimensiones.

??Modelo multidimensional (en cubo): Cada cara del cubo representa una

dimensin y la interseccin de todas las dimensiones (una celda del cubo)

almacena datos relevantes o medidas precalculadas. Es adecuado nicamente

para tres o incluso cuatro dimensiones, con un nmero mayor se complica

demasiado. No se utiliza de forma frecuente debido a que se desaprovecha

mucho espacio, son complejos y difcil de mantener.

En la siguiente figura puede verse un ejemplo de modelo en cubo con tres

dimensiones: tiempo, producto y cliente:

29

Ventajas

Las principales ventajas de este nuevo modelo frente a los sistemas clsicos son:

?? Acceder a un Data Warehouse es relativamente fcil y rpido.

?? Los informes generados son consistentes y no es necesario realizar cruces o

reconciliaciones entre ellos.

?? Un Data Warehouse est diseado especficamente para satisfacer las

necesidades de negocio de los usuarios y no para la aplicaciones operacionales

del da a da.

?? La informacin almacenada en un Data Warehouse es limpia, consistente y en

un formato comprensible para los usuarios.

?? Adems de la informacin actual, un Data Warehouse suele contener registros

histricos, as como el resultado de diversas operaciones realizadas con los datos

(totales, medias...).

??Mejora en el seguimiento de los resultados de negocio y rapidez y eficacia en la

toma de decisiones, lo que supone una clara diferenciacin de las empresas

competidoras.

Estructura

Una de las razones por las que el desarrollo de un Data Warehouse crece rpidamente,

es que realmente es una tecnologa muy entendible. De hecho, puede representar mejor

la estructura amplia de una empresa para administrar los datos informacionales dentro

de la organizacin.

La siguiente figura muestra la estructura bsica de un sistema Data Warehouse:

30

Arquitectura

A la hora de implementar un sistema Data Warehouse puede optarse por una de las

siguientes arquitecturas (de menor a mayor complejidad):

?? Virtual Data Warehouse: El Data Warehouse no existe realmente,

simplemente se simula una funcionalidad similar a la que proporcionara ste a

base de extraer de los sistemas operacionales la informacin necesaria para un

propsito determinado.

?? One-tier Data Warehouse: Diseado para un departamento concreto, sin

englobar la informacin del resto de la organizacin. Suele corresponder a un

Data Mart.

?? Data Marts: Se construyen varios Data Marts para los departamentos ms

importantes de la empresa. Luego es posible su integracin en un Data

Warehouse central.

La diferencia entre tener un Data Warehouse Central y varios Data Marts

independientes es que en el primer caso se pueden aprovechar procesos

automticos que actualizan los datos en cadena, adems de ganar consistencia en

la informacin al estar los datos relacionados entre s.

?? Two-tier Data Warehouse: Arquitectura Data Warehouse ms completa que

optimiza al mximo la extraccin de los datos al disponer, adems de un Data

Warehouse central, de un Data Mart que es con el que trabajan directamente los

usuarios.

31

Herramientas Business Intelligence

Existen numerosas herramientas en el mercado que ayudan a realizar las diferentes

tareas necesarias para construir, mantener y trabajar con un sistema de Business

Intelligence.

En la figura pueden verse algunas de ellas:

Las herramientas de anlisis, es decir, las posteriores al proceso de construccin del

Data Warehouse que sirven para trabajar con la informacin almacenada, pueden

clasificarse en funcin de su complejidad segn muestra la siguiente pirmide:

32

DATOS

QUERY & REPORTING

AN LISIS

MINERA

DSS

?? Query y Reporting: nicamente ofrecen la posibilidad al usuario de realizar

consultas avanzadas y extraer informes.

?? Anlisis (OLAP): Permiten adems jugar con la informacin, simulando

escenarios futuros, analizando distintas dimensiones y puntos de vista,

descubriendo relaciones entre variables...

??Minera: implica el descubrimiento de informacin anteriormente desconocida,

comprensible, novedosa y vlida, a partir de grandes almacenamientos de datos.

La informacin resultante puede constituir una ayuda para tomar decisiones.

Para este proyecto utilizaremos el Intelligent Miner for Data de IBM que es

una de las herramientas de minera ms completa que hay actualmente en el

mercado.

?? DSS: Decisin Support System. Aplicaciones que extraen y representan la

informacin de negocio de forma concreta, grfica y fcilmente comprensible

para ayudar a la toma de decisiones empresariales.

A continuacin analizaremos con ms detalle en qu consiste la minera de datos.

33

Minera de datos

La tecnologa de la informacin ha evolucionado de forma muy rpida en las tres

ltimas dcadas. Cada vez ms, muchas empresas almacenan grandes volmenes de

datos en sus sistemas informticos. Puede ser que informaciones tiles se encuentren

ocultas en los datos con el formato de patrones y conexiones implcitas que no son

fciles de distinguir mediante las consultas de datos convencionales y los clculos de

estadsticas.

La minera de datos es el proceso que implica el descubrimiento de informacin

anteriormente desconocida, comprensible, novedosa y vlida, a partir de grandes

almacenamientos de datos. La informacin extrada puede utilizarse para realizar una

prediccin o un modelo de clasificacin o bien para identificar las semejanzas existentes

entre los registros de la base de datos. La informacin resultante puede constituir una

ayuda para tomar decisiones con ms conocimiento.

Por ejemplo, en una tienda se puede utilizar la minera de datos para identificar los

grupos de clientes que probablemente respondern a los nuevos productos y servicios o

para identificar nuevas oportunidades de venta cruzada. Una compaa de seguros puede

utilizarla con los datos de reclamaciones para identificar posibles indicadores de fraude.

Algunos ejemplos de las preguntas que se pueden responder con las herramientas de

Data Mining son:

?? Qu caractersticas tienen los mejores clientes?

?? Qu caractersticas tienen los clientes que estoy pierde la empresa?

?? A quines debera dirigir una campaa publicitaria?

?? Cules son los factores que inciden en que algunas mquinas tengan mayores

tasas de fallos que otras?

?? Es efectiva la aplicacin de una droga medicinal? Cuales fueron los cinco grupos

que obtuvieron los mejores resultados?

?? A quines no se deben venderles seguros contra todo riesgo?

?? Qu factores inciden en el aumento de la tasa de fallas?

La minera de datos es un proceso iterativo que implica generalmente la seleccin y

transformacin de datos de entrada, la ejecucin de una funcin de minera y la

34

interpretacin de los resultados. Las funciones de minera utilizan tcnicas matemticas

elaboradas para descubrir patrones ocultos en los datos.

La siguiente figura muestra el modelo bsico de minera de datos:

Seleccin de los datos de entrada

El primer paso de la minera de datos consiste en especificar los datos de entrada que se

deseen explorar y analizar. Puede que una fuente de datos no contenga todos los datos

que se quieran utilizar para un objetivo concreto de minera de datos, o bien puede que

contenga datos irrelevantes. As, estos datos pueden estar en una o ms tablas de base de

datos, vistas o archivos planos.

Exploracin de los datos

En cualquier momento del proceso se pueden utilizar funciones estadsticas para

explorar y analizar los datos. Puede que se desee aplicar un anlisis de estadsticas al

considerar los datos de entrada como variables para una funcin de minera. Las

funciones estadsticas tambin se pueden utilizar para transformar datos creando campos

de entrada para su exploracin. Adems, estas funciones sirven para evaluar los datos de

salida de las funciones de minera.

35

Transformacin de los datos

Cuando se han especificado los datos de entrada, se pueden transformar mediante

funciones de preproceso. Las funciones de proceso como discretizacin, filtro y unin le

permiten organizar los datos para que se puedan explorar con eficacia.

Por ejemplo, si los datos contienen los campos Sueldo y Comisin, puede sumar los

valores de estos dos campos y crear un campo de datos denominado Sueldo_total.

Minera de datos

Los datos transformados se extraen consecutivamente mediante una o ms funciones de

minera. Algunos ejemplos de funciones de minera son:

?? Asociaciones

?? Clasificacin neuronal

?? Clasificacin en rbol

?? Clustering demogrfico

?? Clustering neuronal

?? Patrones secuenciales

?? Secuencias semejantes

?? Prediccin neuronal

?? Prediccin-Funcin base radial (RBF)

Interpretacin de los resultados

Puede analizar los resultados del proceso de minera de datos en base a los objetivos de

apoyo a las decisiones que tome. Las herramientas de visualizacin permiten ver los

resultados e identificar la informacin importante que queda al descubierto mediante el

proceso de minera. Los resultados pueden exportarse a una estacin de trabajo remota

de manera que puedan visualizarse en una ubicacin diferente. Tambin se pueden

copiar determinados resultados al portapapeles haciendo as que estn disponibles para

otras herramientas, como hojas de clculo o aplicaciones estadsticas.

La minera de datos puede ser un proceso iterativo. Si se observa un resultado anterior,

podra querer ajustarse la formulacin de la minera para una ejecucin de minera que

mejore la calidad del resultado.

36

Intelligent Miner for Data

IBM DB2 Intelligent Miner for Data Versin 8 es un conjunto de funciones estadsticas,

de preproceso y de minera que se pueden utilizar para analizar grandes bases de datos.

Tambin ofrece herramientas de visualizacin para ver e interpretar los resultados de

minera.

Algunas de sus principales caractersticas son las siguientes:

?? Proporciona un conjunto de herramientas que forman un marco de trabajo

nico para la extraccin de datos.

?? Admite el proceso iterativo y permite el procesamiento de datos, el anlisis

estadstico y la visualizacin de resultados como suplemento de su amplia

variedad de mtodos de extraccin.

?? Utiliza algoritmos de extraccin garantizados, ya sea individualmente o

combinados, para resolver numerosos problemas de negocios y obtener

resultados comerciales mensurables.

?? Proporciona una solucin ampliable, centrada en las reas clave de la

extraccin a gran escala, como por ejemplo, los grandes volmenes de datos,

la extraccin paralela de datos, las operaciones de extraccin a largo plazo y

la mejora de los algoritmos de extraccin.

?? Incluye un interfaz de programacin de aplicaciones que permite el

desarrollo de aplicaciones de extraccin personalizadas adaptadas a cada

sector especfico.

?? Proporciona una sofisticada extensin SQL de la base de datos DB2 y activa

la incrustacin de funciones de modelado en las aplicaciones empresariales.

?? Admite el desarrollo de modelos de extraccin de datos en un formato

compatible con el lenguaje PMML (del ingls Predictive Model Markup

Language, lenguaje de marcado para modelos predictivos) V2.0, la nueva

norma estndar del sector para modelos analticos.

?? Los usuarios pueden aplicar las nuevas relaciones entre los datos a nuevos

datos en tiempo real.

?? Permite el anlisis de modelos de extraccin de datos a travs de DB2

Intelligent Miner Visualizer, un navegador de resultados basado en Java.

37

Permite consultar y evaluar los resultados del proceso de modelado de

extraccin de datos incluso a los usuarios menos expertos.

La siguiente figura muestra un esquema tpico de arquitectura cliente-servidor del

Intelligent Miner:

Como vemos en la imagen, sus principales componentes son:

38

?? Interfaz de usuario: Programa que permite definir las funciones de minera de

datos en un entorno grfico. Pueden definirse las preferencias de la interfaz de

usuario, que estn almacenadas en el cliente.

La pantalla principal de este interfaz se muestra en la siguiente imagen:

?? API de capa de entorno: Conjunto de funciones API que controlan la ejecucin

de procesos y resultados de minera. Las secuencias de funciones y operaciones

de minera se pueden definir y ejecutar mediante la interfaz de usuario a travs

de la API de capa de entorno. La API de capa de entorno est disponible en

todos los sistemas operativos servidores.

?? Visualizador: Herramienta que visualiza el resultado generado por una funcin

estadstica o de minera. Intelligent Miner ofrece un amplio conjunto de

herramientas de visualizacin.

En la siguiente pantalla puede verse como ejemplo la visualizacin del resultado

de ejecutar una funcin de minera:

40

Se pueden utilizar, adems, otras herramientas de visualizacin.

?? Acceso a datos: Acceso a datos de archivos planos, tablas y vistas de bases de

datos.

?? Tablas de bases de datos y archivos planos: Tipos de datos que se pueden

procesar. Los componentes de Intelligent Miner trabajan directamente con datos

almacenados en una base de datos relacional o en archivos planos. Los datos no

han de copiarse en un formato especial. Los objetos de datos de entrada y salida

que defina son objetos que constituyen descripciones lgicas de los datos fsicos.

Esta descripcin lgica permite que se modifique la ubicacin fsica de los datos

sin que ello afecte a los objetos que utilizan dichos datos. Slo se pueden

cambiar las descripciones lgicas. El cambio puede ser tan simple como

modificar el nombre de una tabla de base de datos.

?? Biblioteca de proceso: Biblioteca que proporciona acceso a funciones de bases

de datos.

?? Bases de minera: Coleccin de objetos de minera de datos que se utilizan para

un objetivo de minera o un problema de gestin. Las bases de minera se

almacenan en el servidor, que permite el acceso desde distintos clientes.

??Kernels de minera: Algoritmos que comienzan a operar cuando se ejecuta una

minera de datos o una funcin estadstica.

?? Resultados de minera, API de resultado y herramientas para exportacin:

Datos extrados por la ejecucin de minera o la funcin estadstica. Estos

componentes le permiten visualizar los resultados en el cliente. Los resultados se

pueden exportar para proceso posterior o para utilizarlos con herramientas de

visualizacin.

El proceso para trabajar con el Intelligent Miner es el siguiente:

?? Buscar entre los datos hechos significativos.

?? Determinar qu variables intervienen.

?? Definir las variables al Intelligent Miner.

?? Lanzar el estudio.

?? Internamente se realizan comparaciones entre las distintas rebanadas del cubo.

?? Como salida ofrece una lista de aquello que le llama especialmente la atencin:

patrones, diferencias significativas...

?? Interpretar los resultados por parte del analista, lo que constituye sin duda la

tarea ms difcil y laboriosa.

41

2-TCNICAS DE ANLISIS

Las herramientas de minera de datos se apoyan en dos tipos de tcnicas para la

obtencin de resultados que ayuden a la toma de decisiones empresariales:

?? Tcnicas estadsticas

?? Tcnicas de minera (con frecuencia heredadas del rea de Inteligencia

Artificial)

Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito

de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:

datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas

se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).

Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms

robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren

por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

Una de las principales diferencias entre los modelos estadsticos y los modelos de

inteligencia artificial, es cmo miden su error. Los primeros miden el error relativo tal

como el modelo "adapta" los datos, mientras que los segundos, miden el error relativo a

los datos an invisibles (Error predictivo).

Segundo, los modelos estadsticos tienen dificultades al dar datos contradictorios o

desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones

consistentes. Viceversa, las herramientas de inteligencia artificial buscan "generalizar"

relaciones para proporcionar el resultado ms probable.

Vamos a ver con ms detalle cada una de estas tcnicas.

42

2.1-Tcnicas estadsticas




hora de descubrir patrones o elaborar modelos de prediccin.

Pueden emplearse para obtener ms informacin sobre los datos, lo que permitir tomar

decisiones ms acertadas cuando se apliquen los procesos de minera. Las funciones

estadsticas se aplican a los datos de entrada y producen datos de salida y resultados.

Mediante la aplicacin de distintos clculos y teoras estadsticas a los datos de entrada

se pueden descubrir en ellos patrones ocultos. Estas funciones se pueden utilizar en los

pasos de transformacin y minera del proceso. Algunos ejemplos de aplicacin de las

funciones estadsticas son los siguientes:

?? Con la tcnica de Regresin lineal se pueden predecir valores mediante un

modelo de ajuste lineal.

??Mediante el Anlisis de componentes principales pueden verse los atributos

ms dominantes en los datos.

?? Con Anlisis de factores se puede reducir el nmero de variables de los datos

de entrada.

Consideraciones

Mediante las funciones estadsticas se pueden analizar fcilmente los datos utilizando

varios mtodos de estadstica diferentes. Se puede tener la tentacin de probar con

diferentes mtodos sin considerar la naturaleza de los datos. Utilizando distintos

mtodos sobre un conjunto de datos se pueden conseguir hallazgos estadsticamente

significativos por casualidad. No obstante, lo mejor es elegir un mtodo de estadstica

basado en la naturaleza de los datos y en la informacin que puede utilizarse.

Se dispone de muchos mtodos de estadstica complejos. En cualquier caso, conviene

utilizarlos e interpretarlos correctamente. Tambin debe prestarse especial atencin a las

limitaciones y presunciones de cada mtodo.

43

Categorizacin de datos

Para poder seleccionar la funcin estadstica apropiada se deben concretar las

necesidades a cubrir y conocer el tipo de datos que se van a analizar.

Se puede probar una hiptesis, buscar posibles tendencias, recopilar informacin

preliminar o depurar un problema de investigacin.

Los datos pueden categorizarse atendiendo al nmero de variables, la escala de medida

y el nmero de casos. Dependiendo de estos criterios, podr seleccionar la funcin

estadstica apropiada:

?? Nmero de variables: Una variable es una caracterstica mensurable de una

poblacin determinada. Cada una de las funciones estadsticas requiere un cierto

nmero de variables.

?? Escala de medida: Los mtodos de estadsticas requieren escalas de medida

aplicables a los datos. Una vez se saben las escalas de medida aplicables a los

datos, se pueden delimitar los mtodos utilizables.

Los datos pueden medirse mediante una de las siguientes escalas de medida:

o Escala de medida Nominal (la ms bsica) no asume nada sobre los

valores asignados a los datos. Cada valor no es ms que una etiqueta o

nombre para cada categora. El orden o diferencia entre los distintos

valores no tiene significado alguno. Por ejemplo, podra utilizarse un

cdigo numrico para designar ciudades en los datos: 1 podra ser Pars,

2, Londres y 3, Nueva York.

o Escala de medida Ordinal asume que se puede asignar un orden a los

datos, aunque no se pueda medir la distancia entre nmeros. Por ejemplo,

un profesor puede jerarquizar los exmenes de los estudiantes: 1 es el

mejor, 2 es intermedio, 3 es malo. Esta escala indica que 1 es mejor que

2 pero no cunto mejor es.

o Escala de medida de Intervalo mide la distancia entre los valores y los

rangos de los datos. Sin embargo, no se pueden sacar conclusiones de

proporcionalidad dentro de la escala, porque no hay un punto cero

verdadero. Por ejemplo, al comparar las escalas Celsius y Fahrenheit se

hace evidente que 20 grados Celsius no es el doble de caliente que 10

grados Celsius. 10 grados Celsius corresponden a 50 grados Fahrenheit.

20 grados Celsius corresponden a 86 grados Fahrenheit. 86 grados

44

Fahrenheit no es el doble de 50 grados. Las razones no son iguales

porque ambas escalas tienen un punto cero arbitrario.

o Medida de Razn (la ms alta) tiene un punto cero verdadero. Todas las

dems propiedades son las mismas que en la medida de intervalo. Por

ejemplo, debido a que tiempo y distancia son medidas de razn, es cierto

que un automvil circulando a 50 km. por hora va el doble de rpido que

otro automvil que circula a 25 km. por hora.

Los mtodos desarrollados para una escala de medida ms bsica pueden

utilizarse con datos de una escala de medida ms alta.

?? Nmero de observaciones: Algunas funciones estadsticas requieren un nmero

mnimo de observaciones para realizar clculos vlidos.

La siguiente tabla puede ayudar a seleccionar la funcin estadstica apropiada. I

representa una escala de intervalo, R representa una escala de razn y O

representa una escala ordinal.

Funcin Estadstica Escala de medida Nmero de variables

Regresin I R 2 o ms

Ajuste de curva univariable I R 1

Anlisis de componentes

principales

I R 2 o ms

Anlisis factorial I R 2 o ms

A continuacin analizaremos con ms detalle cada una de estas tcnicas estadsticas.

2.1.1-Regresin lineal

La tcnica de Regresin lineal se utiliza para determinar la mejor relacin lineal entre la

variable dependiente y una o ms variables independientes. La variable dependiente es

aquella que se desea predecir y las variables independientes son aquellas en las que se

basa la prediccin.

45

Mejor significa que se produzcan el menor nmero de errores si se basa la prediccin

en la funcin lineal generada por el programa.

La frmula general de regresin es:

y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?

donde y indica la variable dependiente, de ? a ? indican los coeficientes desconocidos,

de x1 a xn indican las variables independientes y ? denota el margen de error.

La relacin entre los valores conocidos y los predichos puede representarse en un plano

bidimensional, situando las variables en las que se basa la prediccin en el eje Y y la

variable dependiente en el eje X.

El modelo de regresin lineal sera la lnea que minimiza la tasa de error entre el valor

rela y el punto de la lnea (valor predicho). La forma ms comn de calcular este error

es el cuadrado de la diferencia entre el valor real y el predicho.

En la siguiente figura puede verse un ejemplo de representacin grfica:

Se puede determinar un umbral de significancia para que las variables independientes

cuyo valor de probabilidad est por encima de dicho umbral no se tengan en cuenta al

construir el modelo de regresin. De este modo, slo pasan a formar parte del modelo

las variables independientes que contribuyen del modo ms significativo en el resultado.

46

Un valor de probabilidad cercano a 0 marca una variable como muy significativa; un

valor de probabilidad cercano a 1 marca una variable como insignificante. ste es el

motivo por el cual no se tienen en cuenta las variables que estn por encima del umbral.

Si no se especifica ningn valor para nivel de significancia, se utiliza el valor por

omisin 0,5.

2.1.2-Ajuste de curva univariable

El Ajuste de curva univariable descubre una funcin matemtica que describe

exactamente la distribucin de los datos a travs del tiempo. Pueden seleccionarse los

siguientes tipos de curvas:

??Mejor ajuste

?? Exponencial

?? Hiprbola

?? Lineal

?? Potencia

?? Racional

?? Recproca

2.1.3-Anlisis de componentes principales

El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de

la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un

banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero

perdiendo la menor cantidad de informacin posible.

Los nuevos componentes principales o factores sern una combinacin lineal de las

variables originales, y adems sern independientes entre s.

Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada

a priori, sino que ser deducida tras observar la relacin de los factores con las variables

iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las

correlaciones).

Existen dos tipos de Anlisis de Componentes Principales:

47

?? Normalizado: se basa en la correlacin de los datos de entrada.

La correlacin indica la relacin lineal entre dos variables (Correlacin de

Pearson). Su valor puede estar entre +1 y 1. Una correlacin de +1 significar

que existe una relacin lineal positiva perfecta entre las dos variables.

?? Centrado: se basa en la covarianza de los datos de entrada.

La covarianza mide la tendencia de dos variables a variar juntas. La varianza es

el promedio de la desviacin al cuadrado de una variable respecto de su media.

La covarianza es el promedio de los productos de las desviaciones de los valores

de las variables de sus medias.

2.1.4-Anlisis Factorial

El Anlisis factorial descubre las relaciones entre mltiples variables en base a unas

cantidades aleatorias subyacentes, pero no observables, que se denominan factores.

Se trata de una tcnica adecuada para el caso de variables continuas altamente

correlacionadas, que es cuando podemos suponer que se explican por factores comunes.

El nmero de factores puede determinarse mediante uno de los siguientes mtodos:

?? Dejar que el sistema determine el nmero de factores.

?? Especificar el porcentaje de varianza a explicar por los factores calculados.

?? Especificar un determinado nmero de factores. Este nmero debe ser menor o

igual que el nmero de variables de entrada.

El modelo matemtico del Anlisis Factorial supone que cada una de las p variables

observadas es funcin de un nmero m factores comunes (m

48

correlacin alta con un conjunto menor de variables de entrada y pequea o

ninguna correlacin con otro conjunto de variables de entrada.

2.1.5-Estadsticas Bivariables

Se puede utilizar la funcin Estadsticas bivariables para realizar las siguientes tareas:

?? Calcular estadsticas bsicas para campos numricos, tales como el mximo,

mnimo, media, varianza y frecuencias.

Las frecuencias para campos numricos continuos se calculan sobre valores

comprendidos entre los lmites de un compartimento.

?? Calcular frecuencias para campos categricos y campos discretos numricos.

?? Realizar la prueba Chi cuadrado de un campo seleccionado. Si se selecciona un

campo, el valor de Chi cuadrado se calcula en todas las combinaciones

existentes de este campo con otros campos.

?? Realizar la prueba-F. La prueba-F se aplica a todas las parejas de campos

numricos.

?? Calcular cuantiles de campos numricos seleccionados.

?? Extraer muestras de datos de entrada.

?? Copiar datos de entrada en una tabla de salida, posiblemente como una muestra.

49

2.2-Tcnicas de minera

Veamos a continuacin algunas de las tcnicas de minera ms utilizadas:

2.2.1-Asociaciones

El propsito de esta tcnica es encontrar elementos de una transaccin que impliquen la

presencia de otros elementos en la misma transaccin.

Si tomamos como ejemplo una base de datos con operaciones de compra y

consideremos que cada transaccin consiste en un conjunto de elementos que el cliente

ha adquirido, la funcin de minera Asociaciones detecta relaciones entre los elementos

del conjunto. Puede detectar que el 60% de los clientes que adquieren tarjetas de

felicitacin tambin compran productos de cosmtica.

2.2.2-Clustering

El objetivo de descubrir clusters es agrupar registros que tengan caractersticas

similares.

El resultado de la funcin clustering muestra el nmero de clusters detectados y las

caractersticas que los constituyen. Adems, es conveniente mostrar la forma en que

estas caractersticas estn distribuidas en los clusters.

En el mejor de los casos, cada cluster generado contendr nicamente registros que

tengan valores idnticos en los parmetros definidos. De esta forma al conocer los datos

de un miembro del cluster, se conocen los del resto de integrantes. Es muy difcil que se

d esta situacin (sobre todo si disponemos de muchos elementos a clasificar), por ello

en ocasiones es necesario dividir clusters heterogneos en grupos ms pequeos que

constituyan clusters homogneos.

Otro punto a tener en cuenta es que el nmero de clusters generados sea razonable. Por

ejemplo no tendra sentido intentar agrupar 30 elementos y obtener 30 clusters distintos.

Algunas herramientas de minera permiten que el usuario defina una limitacin en el

nmero de clusters generados.

50

Existen dos tipos de clustering:

?? Clustering Jerrquico

?? Clustering no Jerrquico

El primero ordena los clusters de mayor a menor. El motivo de esto es que el Clustering

es una tcnica de aprendizaje no supervisado, por lo que no hay una respuesta

totalmente correcta. De este modo, al presentarlos ordenados resulta ms fcil

seleccionar el nmero de clusters adecuado. Los clusters con menor nmero de

elementos podrn unirse para formar clusters mayores.

En la siguiente figura puede verse un modelo de jerarqua:

Tomando como ejemplo una base de datos de un supermercado que incluye la

identificacin de los clientes e informacin acerca de la fecha y la hora en que de las

compras, la funcin de minera clustering agrupa estos datos en clusters para permitir la

identificacin de diferentes tipos de compradores.

Podra ponerse de manifiesto, por ejemplo, que los clientes compran mucho los viernes

y que normalmente pagan con tarjeta de crdito.

51

2.2.2.1-Clustering Neuronal

Aclaremos en primer lugar el concepto de Red Neuronal.

Una red neuronal artificial es un algoritmo matemtico con algoritmo matemtico con

capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar

experiencias y hacerlas disponibles para su uso.

Recuerda al cerebro humano en dos aspectos:

?? El conocimiento es adquirido por la red a travs de un proceso de aprendizaje

?? La fuerza de la conexin entre neuronas (pesos sinpticos) es usada para

almacenar el conocimiento.

Una red neuronal aprende mediante la modificacin de sus pesos sinpticos.

Algunas de las ventajas que ofrecen son:

??Modela relaciones no lineales

??Modela relaciones entrada-salida

?? Capacidad de adaptacin

?? Tiene en cuenta el contexto de trabajo

?? Posibilidad de desarrollo de dispositivos VLSI

?? Uniformidad de anlisis y diseo

?? Analoga neurobiolgica

Una neurona artificial es la unidad de procesado bsica de una red neuronal artificial.

Sus elementos bsicos son:

?? Sinapsis o conexiones cada una de ellas con un peso

?? Un sumador capaz de sumar entradas pesadas

?? Una funcin de activacin que limita la amplitud de la salida

52

El Clustering Neuronal utiliza una Red neuronal de mapa de caractersticas de Kohonen.

Los mapas de Kohonen son redes autoorganizadas capaces de codificar y luego

reconocer modelos de rasgos caractersticos de un entorno.

Algunas de sus caractersticas son:

?? Reconocen patrones

?? Son uni o bi-dimensionales lattice de neuronas que calculan simples funciones

discriminantes sobre las entradas recibidas.

?? Seleccin de unidad neuronal ganadora en funcin del mayor valor

discriminante.

Una arquitectura lattice es aquella en la que cada entrada va a todas las neuronas. En la

imagen se muestra un ejemplo de arquitectura lattice 3x1:

53

Un ejemplo de Mapa de Kohonen podra ser el siguiente:

Los Mapas de caractersticas de Kohonen utilizan un proceso denominado organizacin

automtica para agrupar los registros de entrada similares. El usuario especifica el

54

nmero de clusters y el nmero mximo de pasadas sobre los datos. Estos parmetros

controlan el tiempo de proceso y el grado de granularidad que se utiliza al asignar los

registros de datos a los clusters.

La funcin principal del clustering neuronal es buscar un centro para cada cluster. Este

centro se denomina tambin prototipo de cluster. Para cada registro de los datos de

entrada, la funcin de minera Clustering neuronal calcula el prototipo de cluster ms

cercano al registro.

La puntuacin de cada registro de datos se representa mediante la distancia eucldea que

lo separa del prototipo de cluster. Las puntuaciones que se acercan a cero indican un

grado de similitud al prototipo ms alto. Cuanto ms alta sea la puntuacin, ms se

diferencia el registro del prototipo de cluster.

Con cada pasada sobre los datos de entrada, los centros se ajustan de forma que se logra

una calidad mejor en el modelo de clustering global: el sistema aprende. El indicador de

progreso muestra la mejora en la calidad en cada pasada durante la ejecucin de la

funcin de minera.

2.2.2.2-Clustering Demogrfico

De igual forma que el Clustering Neuronal, el objetivo de esta funcin de minera es

agrupar registros que tengan caractersticas similares.

El Clustering Demogrfico proporciona la agrupacin en clusters rpida y de forma

natural de bases de datos de gran tamao. Determina automticamente el nmero de

clusters que se generarn.

Las semejanzas entre registros se determinan comparando los valores de los campos.

Los clusters se definen para maximizar el criterio de Condorcet. El criterio de

Condorcet es la suma de todas las semejanzas de registros de pares dentro del mismo

cluster menos la suma de todas las semejanzas de registros de pares en diferentes

cluster.

55

2.2.3-Patrones secuenciales

El objeto de buscar patrones secuenciales es encontrar patrones de comportamiento

predecibles en cierto periodo de tiempo. Esto significa que comportamientos concretos

producidos en un cierto momento probablemente tendrn otro comportamiento o una

secuencia de comportamientos en un cierto espacio de tiempo.

Por ejemplo, se puede observar que el 42% de los clientes que solicitan una cuenta

corriente nueva y una tarjeta de crdito, solicitan tambin un crdito en un perodo de 90

das.

Un ejemplo de aplicacin de esta tcnica de minera puede ser la deteccin de fraudes

en seguros o bien la planificacin de la colocacin de los productos o las ventas

promocionales.

2.2.4-Secuencias semejantes

El objetivo de esta tcnica es encontrar todas las apariciones de subsecuencias

semejantes en una base de datos de secuencias.

Por ejemplo, supongamos que tenemos una base de datos de un comerciante que desea

optimizar sus compras y el sistema de almacenamiento de la tienda. Si realiza una

ejecucin de minera en esta base de datos obtendr los nombres de parejas de

secuencias con el grado de semejanza y el numero de subsecuencias. Cuando interprete

este resultado, el comerciante podr saber los grupos de productos cuyas previsiones de

ventas para el prximo ao son similares en cada temporada. En base a esta

informacin, el comerciante podr combinar las compras y la reposicin de las

existencias.

Esta tcnica tambin se puede utilizar para identificar empresas con patrones de

crecimiento similares, determinar productos con patrones de ventas similares o

determinar acciones con movimientos de precios similares. Otro uso puede ser la

deteccin de ondas ssmicas que no sean similares o la localizacin de irregularidades

geolgicas.

56

2.2.5-Clasificacin

Se hacen predicciones de las clasificaciones para crear modelos basados en datos

conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha

hecho una clasificacin o para calcular la clasificacin de nuevos datos.

Los datos histricos se componen con frecuencia de un conjunto de valores y de una

clasificacin de estos valores. Si se analizan los datos que ya se han clasificado se

descubrirn las caractersticas que han contribuido a realizar la clasificacin anterior. El

modelo de clasificacin resultante podr utilizarse despus para predecir las clases de

registros que contienen nuevos valores de atributos.

Por ejemplo, una compaa aseguradora posee datos acerca de los clientes actuales que

han perdido su pliza de seguros por no pagar. En base a los atributos comunes a estos

clientes, es posible crear un perfil de grupo de riesgo que se puede utilizar como modelo

para clasificar los nuevos clientes. El modelo se aplica a cada nuevo cliente y se

clasifica segn pertenezca o no al grupo de riesgo.

?? Una ejecucin de minera en la modalidad de preparacin con esta base de datos

aprende los atributos de cada una de las clases de clientes de riesgo definidas.

?? En modalidad de comprobacin, la aseguradora puede comprobar la exactitud

del modelo creado en modalidad de preparacin aplicando este modelo para

probar los datos con clases de riesgo de clientes conocidos.

?? En la modalidad de aplicacin, la aseguradora puede utilizar el modelo creado

durante la modalidad de preparacin para predecir qu clientes dejarn de pagar

en el futuro.

Esta tcnica podra emplearse, por ejemplo, para aprobar o denegar reclamaciones de

seguros, detectar fraudes en las tarjetas de crdito, identificar defectos en imgenes de

componentes manufacturados y diagnosticar condiciones de error. Tambin las puede

aplicar para determinar unos objetivos de mrketing, en el diagnstico mdico, para

determinar la eficacia de los tratamientos mdicos, para la reposicin del inventario o en

la planificacin de la ubicacin de una tienda.

2.2.5.1-Clasificacin en rbol

El Algoritmo de induccin con rbol ofrece una descripcin de fcil comprensin sobre

la distribucin subyacente de los datos. Este algoritmo realiza un ajuste proporcional

57

con respecto al nmero de ejemplos de preparacin y al nmero de atributos que se

encuentran en bases de datos extensas.

La clave para la construccin de un rbol de decisin es seleccionar la pregunta ms

adecuada (el mejor separador) para cada rama del rbol, es decir, aqulla que clasifique

de forma errnea el menor nmero de ejemplos o aqulla que delimite clases puras de

datos.

Su flexibilidad y fcil interpretacin la convierten en una de las tcnicas de minera ms

utilizadas.

En la siguiente pantalla puede verse un ejemplo de representacin grfica de un rbol de

clasificacin:

Algunas de las caractersticas de los rboles de clasificacin son las siguientes:

?? Estructura jerrquica: cada una de las hojas del rbol puede describirse en

funcin de la jerarqua de bifurcaciones que la preceden desde la raz.

?? Flexibilidad: capacidad de reajustar el modelo de clasificacin segn los

cambios que la prediccin de variables sea capaz de anticipar.

?? Su principal objetivo es obtener una clasificacin lo ms precisa posible. Para

medir esta precisin entra en juego el concepto de coste, que viene a ser el

58

nmero de ejemplos mal clasificados. Se tratar por tanto de evaluar la relacin

coste-complejidad para determinar hasta qu punto (hasta que nivel del rbol) es

conveniente descender. A este anlisis se le conoce como criterio de poda.

2.2.5.2-Clasificacin neuronal

Al igual que con la Clasificacin en rbol, el objetivo es crear modelos basados en datos

conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha

hecho una clasificacin o para calcular la clasificacin de nuevos datos.

La arquitectura de red neuronal empleada ser con frecuencia un Perceptrn multicapa:

La funcin de minera Prediccin neuronal utiliza una red neuronal de retropropagacin

(Back Propagation) para predecir valores.

59

Tomando como ejemplo la neurona de la figura, el algoritmo de Back Propagation

consistir en estimular la red neuronal con una entrada cuya respuesta sea conocida. A

continuacin deber calcularse el error cometido (diferencia entre la respuesta real y la

esperada). Conforme a este error debern reajustarse los pesos de todas las neuronas

comenzando por las de salida, siguiendo por las de las capas ocultas y acabando en las

neuronas de entrada.

La clasificacin se basa en el valor de clase y las relaciones de los atributos descubiertos

mediante un proceso de minera realizado en unos datos clasificados anteriormente. El

aprendizaje de red significa desarrollar un modelo que represente dichas relaciones. Una

red que ha realizado un aprendizaje es una salida de la ejecucin de minera. El anlisis

de sensibilidad, otro tipo de salida, se utiliza para comprender la contribucin relativa

de los campos de atributos en la decisin de clasificacin.

La retropropagacin es un algoritmo con objetivos generales y de aprendizaje

supervisado. En el aprendizaje supervisado, la base de datos contiene un nmero de

campos de atributos y uno o ms campos que contienen los resultados deseados.

Cuando se utiliza la retropropagacin para la aplicacin de clasificacin neuronal, el

resultado deseado se encuentra en un campo nico denominado campo de clase.

Una red neuronal con aprendizaje puede generalizar a partir de su experiencia pasada, y

calcular una clasificacin razonable incluso tomando como punto de partida

combinaciones de atributos que no haya visto nunca.

60

2.2.6-Prediccin

La finalidad de la prediccin de valores es descubrir la dependencia y la variacin de un

valor de un campo en relacin a los valores de otros campos que se encuentren en el

mismo registro. Se genera un modelo que puede predecir un valor para ese campo

particular en un registro nuevo con el mismo formato, en base a otros valores de campo.

Por ejemplo, un comerciante desea utilizar datos histricos para calcular los ingresos

por ventas que puede suponer un cliente nuevo. Una ejecucin de minera sobre esos

da

Revisar Hoy

Documents

Transcript of Revisar Hoy