Post on 14-Jan-2016
description
1
Autorizada la entrega del proyecto del alumno/a:
Mara Aldehuela Lucena
En Madrid a 10 de junio de 2005
EL DIRECTOR DEL PROYECTO
Juan Paredes Lozano
Fdo.: Fecha: / /
V B del Coordinador de Proyectos
Miguel ngel Sanz Bobi
Fdo.: Fecha: / /
2
PROYECTO FIN DE CARRERA
ANLISIS COMPARATIVO ENTRE MTODOS ESTADSTICOS Y DE
MINERA DE DATOS
MARA ALDEHUELA LUCENA
MADRID, Junio 2005
UNIVERSIDAD PONTIFICIA COMILLAS
ESCUELA TCNICA SUPERIOR DE INGENIERA (ICAI)
INGENIERO INFORMTICO
3
RESUMEN
El presente proyecto trata de un estudio en profundidad de las tcnicas existentes para
extraer de los datos un conocimiento no implcito en los mismos y que puede ser de
gran utilidad para la toma de decisiones de negocio.
De esta forma se analizan las distintas tcnicas estadsticas y de minera, su utilidad, en
qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn
los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse
los resultados obtenidos.
La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un
acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan
demandado en la actualidad y, en gran parte, an desconocido.
Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o
minera de datos que permite obtener a partir de los datos disponibles un conocimiento
oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,
evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de
negocio...
Existen dos enfoques o reas dentro del Data Mining: las tcnicas clsicas de Estadstica
y las de minera de datos propiamente dicha que derivan, en su mayora, de las
aportaciones de la Inteligencia Artificial como las redes neuronales, lgica borrosa,
mecanismos de aprendizaje automtico...
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms
acertadas cuando se apliquen los procesos de minera. Algunos ejemplos de estas
tcnicas son la regresin lineal, el Anlisis Factorial, el Anlisis de Componentes
Principales... Mientras que entre las tcnicas de minera destacan el Clustering, la
Clasificacin, la Prediccin...
4
Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito
de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:
datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas
se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).
Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms
robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren
por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.
En el presente proyecto se pretende por tanto demostrar cmo la estadstica clsica se
integra con la minera para ofrecer resultados ms completos y precisos.
Para comprender mejor el funcionamiento de cada una de estas tcnicas, se aplican a un
caso prctico orientado al rea de climatologa, permitiendo analizar resultados reales y
ver ejemplos concretos, que muestren su utilidad.
Los datos a utilizar son varias tablas estadsticas de climatologa obtenidas del INE
(Instituto Nacional de Estadstica), que contienen informacin mensual referida a las
temperaturas, precipitaciones, humedad relativa, horas de sol...de las distintas regiones
de Espaa durante varios aos.
Como aplicacin del conocimiento adquirido, se combinarn tcnicas estadsticas y de
minera a un caso concreto de estudio: la prediccin de los efectos del calentamiento
global sobre las precipitaciones y, como consecuencia, sobre la ocupacin de los
embalses de Espaa.
Por su conocimiento, y disponibilidad del Software necesario, se ha optado por la
utilizacin de DB2 Intelligent Miner for Data. Esta herramienta es muy completa,
puesto que integra varias tcnicas estadsticas con las de minera por lo que resulta muy
apropiada para el anlisis comparativo a realizar.
5
PROJECT ABSTRACT
The current project is an in depth study on the available methods for extracting
knowledge from data to support critical business decisions.
Statistical and data mining techniques are analyzed, making recommendations based on
best use and original requirements, as well as suitability depending on case studies and
data available. Additionally, guidelines are provided to help interpret the output data.
The projects main goal is to conduct a comprehensive approach among Business
Intelligence, Data Warehousing and Data Mining, so much in demand and yet unknown.
Data Mining, one of the most potential areas in Business Intelligence, extracts hidden
knowledge from the available data which can help obtain behavior patterns, trends,
support decision making, market research, new business opportunities
Data Mining has two building blocks: traditional statistical methods and data mining
itself originated from Artificial Intelligence such as neural networks, fuzzy logic, self
automated learning methods...
Statistics provide several forecasting techniques that support corporate management
decisions. Not being inherent to data mining (used well before this concept arrived) it
has been considerably useful to discover patterns and develop predictive modeling.
These algorithms can also be used to obtain more information on the data which will
allow better decision taking after data mining processes are implemented. Some of these
techniques are linear regression, factorial analysis, main components analysis ...
Outstanding among mining techniques : clustering, classification, prediction .
If we question about the difference between them, the answer is not simple; as the
success in data mining and statistics depend on the same factors: refined data, reliable,
well defined and validated. Furthermore, most of the techniques are used for solving the
same type of problems (prediction, classification )
6
We can also consider as differentiating facts the robustness and easy implementation of
mining techniques by non skilled users. On the other hand they require much more
computing power, not being a problem with todays technologies.
This project intends to describe how traditional statistics integrate into data mining to
offer more accurate and complete results.
To better understand each of these techniques we describe a case study of climate,
showing real analytical results and specific samples which test its usefulness.
Data used come from climate statistical tables provided by INE (National Institute of
Statistics), with monthly information on temperatures, rainfall, relative humidity,
daylight sun from the different regions of Spain during several years
As an acquired knowledge application, both statistical and mining techniques were used
in the case study: prediction of global warming effect based on the rainfalls and dam
water levels.
Based on knowledge and product availability, DB2 Intelligent Miner for Data was
chosen. This tool is quite complete as it integrates statistical and mining techniques
being most suitable for the required comparative analysis..
7
NDICE DE CONTENIDOS
MEMORIA ........................................................................................................ 10
Objetivos ............................................................................................................ 11
Consideraciones.................................................................................................. 14
PRESUPUESTO................................................................................................. 15
1- INTRODUCCIN A BUSINESS INTELLIGENCE ...................................... 16
Principales conceptos utilizados.......................................................................... 17
Evolucin de los sistemas de informacin ........................................................... 21
Utilidad de los sistemas de Business Intelligence ................................................ 24
Sistemas Data Warehouse ................................................................................... 24
Historia............................................................................................................... 24
Diferencia con las bases de datos operacionales .................................................. 26
Modelos de datos empleados............................................................................... 27
Arquitectura........................................................................................................ 30
Herramientas Business Intelligence..................................................................... 31
Minera de datos ................................................................................................. 32
Intelligent Miner for Data ................................................................................... 36
2- TCNICAS DE ANLISIS............................................................................ 41
2.1- Tcnicas estadsticas .................................................................................... 42
Consideraciones ...................................................................................... 42
Categorizacin de datos........................................................................... 43
2.1.1- Regresin lineal ............................................................................. 44
2.1.2- Ajuste de curva univariable ........................................................... 46
2.1.3- Anlisis de componentes principales.............................................. 46
2.1.4- Anlisis Factorial........................................................................... 47
2.1.5- Estadsticas Bivariables ................................................................. 48
2.2- Tcnicas de minera ..................................................................................... 49
2.2.1- Asociaciones .................................................................................. 49
2.2.2- Clustering....................................................................................... 49
2.2.2.1- Clustering neuronal......................................................... 51
8
2.2.2.2- Clustering demogrfico................................................... 54
2.2.3- Patrones secuenciales .................................................................... 55
2.2.4- Secuencias semejantes ................................................................... 55
2.2.5- Clasificacin ................................................................................. 56
2.2.5.1- Clasificacin en rbol ..................................................... 56
2.2.5.2- Clasificacin neuronal .................................................... 58
2.2.6- Prediccin ..................................................................................... 60
2.2.6.1- Funcin de base radial FBR ............................................ 60
2.2.6.2- Prediccin neuronal ........................................................ 61
3- IMPLEMENTACIN PRCTICA: CLIMATOLOGA................................. 62
3.1- Datos disponibles......................................................................................... 62
3.2- Base de datos............................................................................................... 65
3.3- Base de minera ........................................................................................... 69
3.3.1- Tcnicas de estadstica .................................................................. 69
A) Regresin lineal ...................................................................... 69
B) Ajuste de curva univariable ..................................................... 82
C) Anlisis de Componentes Principales ...................................... 95
D) Anlisis Factorial .................................................................... 101
E) Estadsticas Bivariables ........................................................... 106
3.3.2- Tcnicas de minera........................................................................ 120
A) Asociaciones ........................................................................... 120
B) Clustering Demogrfico .......................................................... 139
C) Clustering Neuronal ................................................................ 146
D) Patrones secuenciales .............................................................. 149
E) Secuencias semejantes ............................................................. 150
F) Clasificacin en rbol .............................................................. 158
G) Clasificacin neuronal............................................................. 162
H) Prediccin ............................................................................... 164
4- CASO DE ESTUDIO ..................................................................................... 171
4.1- Efecto invernadero....................................................................................... 171
4.2- Embalses espaoles ..................................................................................... 173
9
4.3- Anlisis ....................................................................................................... 175
4.3.1- Evolucin temporal de cada cuenca hidrogrfica ........................... 175
4.3.2- Relacin entre precipitaciones y ocupacin de embalses................ 182
4.3.3- Evolucin temporal de las precipitaciones ..................................... 184
4.3.4- Prediccin de la ocupacin de embalses a 5 aos ........................... 187
5- COMPARATIVA ESTADSTICA MINERA............................................. 190
Recursos ............................................................................................................. 196
Planificacin temporal de actividades ................................................................. 196
Conclusiones ...................................................................................................... 199
APNDICE A - Glosario de trminos................................................................. 201
APNDICE B - Tablas estadsticas..................................................................... 213
Bibliografa ........................................................................................................ 231
10
MEMORIA
El presente proyecto trata de un anlisis en profundidad de las distintas tcnicas
existentes para extraer de los datos un conocimiento oculto en los mismos y que puede
ser de gran utilidad para la toma de decisiones de negocio.
De este modo se estudian las distintas tcnicas estadsticas y de minera, su utilidad, en
qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn
los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse
los resultados obtenidos.
La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un
acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan
demandado en la actualidad y, en gran parte, an desconocido.
Cabe destacar adems la utilidad de las estrategias de Business Intelligence, que
permiten tener a mano la informacin ms relevante de operacin de una forma rpida,
flexible y oportuna. De esta forma se promueve una gestin y una toma de decisiones
proactiva, necesaria para aprovechar oportunidades de negocio futuras.
Debido al incremento de la competitividad en los negocios es vital para las empresas
conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de
negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de
la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de
tecnologas y productos para proveer a los usuarios de la informacin demandada en la
toma de decisiones de negocio de carcter estratgico o tctico.
Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o
minera de datos que permite obtener a partir de los datos disponibles un conocimiento
oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,
evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de
negocio...
11
Objetivos
Por tanto el principal objetivo de este proyecto es describir cada una de las tcnicas
estadsticas y de minera existentes para descubrir toda su potencia y utilidad y ver
cmo se complementan entre s.
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para
obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms
acertadas cuando se apliquen los procesos de minera.
Para comprender mejor el funcionamiento de estas tcnicas, se aplican a un caso
prctico orientado al rea de climatologa, permitiendo analizar resultados reales y ver
ejemplos concretos, que muestren su funcionamiento.
Se pretenden por tanto cubrir los siguientes objetivos:
?? Construir un modelo de minera en el que:
o analizar los procesos de preparacin de datos previos a la aplicacin de
las tcnicas de minera.
12
o mostrar la sensibilidad de los cada mtodo estadstico y de minera con
casos ejemplo.
o probar distintas alternativas de solucin de un mismo problema,
comparando los resultados obtenidos en cada caso
o comparar distintos algoritmos para un mismo mtodo (por ejemplo
clasificacin en rbol y mediante redes neuronales).
La temtica elegida es la climatologa.
?? Aplicar el conocimiento adquirido a un caso de estudio sobre la prediccin de
los efectos del calentamiento global sobre las precipitaciones y, como
consecuencia, sobre la ocupacin de los embalses de Espaa.
?? Conocer el uso de una herramienta Software de Data Mining.
?? Extraer una serie de conclusiones sobre qu tcnicas deben aplicarse en cada
caso, cmo hacerlo y cmo interpretar los resultados obtenidos para optimizar
las decisiones de negocio.
Se seguirn las siguientes etapas en el desarrollo del proyecto:
1. Documentacin y recoleccin de informacin.
Para familiarizarse con los conceptos principales de las reas de Business
Intelligence, Data Warehousing y Data Mining.
2. Anlisis.
Se partir de un anlisis previo de las siguientes tcnicas estadsticas:
?? Regresin lineal
?? Ajuste de curva univariable
?? Anlisis de componentes principales (ACP)
?? Anlisis Factorial (AF)
?? Estadsticas Bivariables
y de minera de datos:
13
?? Asociaciones
?? Clustering
o Neuronal
o Demogrfico
?? Patrones Secuenciales
?? Secuencias Semejantes
?? Clasificacin
o En rbol
o Neuronal
?? Prediccin
o Funcin de Base Radial (FBR)
o Neuronal
3. Construccin del modelo de datos.
Se disear una base de datos que contenga la informacin de climatologa a
utilizar.
4. Construccin del modelo de minera.
Se crear una base de minera que tendr como entrada la base de datos de
climatologa definida anteriormente. Sobre ella se aplicarn cada una de las
tcnicas estadsticas y de minera descritas, y se extraern conclusiones sobre los
resultados obtenidos.
5. Caso de estudio: Efecto invernadero.
Como aplicacin del conocimiento adquirido, se combinarn tcnicas
estadsticas y de minera a un caso concreto de estudio: la prediccin de los
efectos del calentamiento global sobre las precipitaciones y, como consecuencia,
sobre la ocupacin de los embalses de Espaa.
6. Conclusiones.
14
Por ltimo se extraer una serie de conclusiones prcticas sobre el uso y
aplicabilidad de las distintas tcnicas, sealando cul resulta ms ptima en cada
caso y analizando como la estadstica complementa a la minera.
Consideraciones
La dimensin temporal de los datos disponibles no resulta en ocasiones los
suficientemente amplia para extraer concusiones a largo plazo, puesto que de la mayora
de las variables climatolgicas en anlisis slo se disponen de datos de 6 aos.
Por ello no habr que olvidar que el objetivo de este proyecto no es otro que construir
los modelos de minera que, aplicados sobre datos ms numerosos (simplemente
cambiando la entrada de informacin) ofreceran unos resultados mucho ms completos
y extensibles en el tiempo.
15
PRESUPUESTO
El presupuesto necesario para la realizacin de este proyecto es el que sigue: Mano de obra Das de trabajo 201 Horas de trabajo 4 Total Horas 804 Coste Hora 10 Coste Total 8040 Recursos HW ThinkPad T22 Pentium III 512 RAM 1200
DB2 UDB v 7.1 468 SW DB2 Intelligent Miner for Data v.8.1 76.018 Total 77686
Por lo tanto el presupuesto necesario es de 85.726 .
16
1-INTRODUCCIN A BUSINESS INTELLIGENCE
En la lucha por tener xito en el competitivo mercado de hoy en da, la capacidad de
acceder a la informacin y analizarla ha cobrado ms importancia que nunca. Con el fin
de mejorar los procesos empresariales, medir el xito y tomar decisiones de negocio
acertadas, las organizaciones requieren un fcil acceso a sus bases de informacin.
Satisfacer esta demanda se ha convertido en un reto continuo.
El anlisis de la informacin ofrece a los empleados la posibilidad de utilizar los datos
decisivos para tener xito. Sin embargo, los tipos de acceso y anlisis de la informacin
requeridos pueden variar en gran medida entre los diferentes tipos de usuarios. Por
ejemplo, los ejecutivos de la alta direccin, los analistas empresariales, profesionales de
la informtica y otros no solamente accedern a grupos de datos distintos, sino que
analizarn esta informacin para diferentes propsitos. Por esta razn, las empresas
necesitan un conjunto integrado de productos que pueda ofrecer una gama completa de
capacidades y funcionalidad de inteligencia empresarial.
Una solucin completa de anlisis de la informacin debe hacer ms que slo
proporcionar acceso a los datos. Tambin debe permitir a los usuarios analizar los datos
de diversas formas, permitindoles anticipar las tendencias comerciales y evaluar
hiptesis. Este tipo de anlisis promueve una gestin y una toma de decisiones
proactiva, necesaria para aprovechar oportunidades futuras.
Las estrategias de Business Intelligence permiten tener a mano la informacin ms
relevante de operacin de una forma rpida, flexible y oportuna. Las herramientas que
integra consolidan la informacin de las distintas reas, mejorando el proceso de
decisin.
Business Intelligence es una alternativa tecnolgica y de administracin de negocios,
que cubre los aspectos del manejo de informacin para la toma de decisiones, desde su
extraccin en los sistemas, depuracin, transformacin, el diseo de estructuras de datos
o modelos especiales para el almacenamiento de datos hasta la explotacin de la
informacin mediante herramientas comerciales de fcil uso para los usuarios. A partir
de los datos disponibles obtiene un conocimiento no implcito en los mismos que puede
17
ayudar a descubrir patrones de comportamiento, evitar errores de gestin, segmentar
mercados, descubrir nuevas oportunidades de negocio...
Muchos de los conceptos de Business Intelligence no son nuevos pero han evolucionado
y han sido redefinidos a partir de la experiencia adquirida con los sistemas de
informacin y, ms recientemente, con las aplicaciones de Data Warehouse.
Debido al incremento de la competitividad en los negocios es vital para las empresas
conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de
negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de
la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de
tecnologas y productos para proveer a los usuarios de la informacin demandada en la
toma de decisiones de negocio de carcter estratgico o tctico.
Principales conceptos utilizados
Antes de entrar en ms detalle en las tcnicas de Business Intelligence, conviene tener
clara la terminologa empleada:
?? Bases de Datos Operacionales: Bases de datos detalladas definidas para
satisfacer las necesidades de informacin de procesos de negocio en ocasiones
muy complejos.
El modelo de datos est normalizado para evitar redundancias y un doble
mantenimiento.
?? OLTP: On-line Transaction Processing describe a los sistemas que trabajan con
datos operacionales La informacin es detallada y est en continua
actualizacin.
?? Data Warehouse: Base de datos orientada a temas, con datos integrados, no
voltiles (la informacin no cambia continuamente), y que perduran en el tiempo
(lo que permite seguir la evolucin del sistema). Contiene adems informacin
de negocio (datos informacionales: histricos, totales, medias, porcentajes...)
que le permiten a la alta direccin seguir el progreso de su empresa.
?? Data Mart: Contiene los datos de negocio de especial inters para un
determinado departamento, unidad de negocio o grupo de usuarios con las
18
mismas necesidades de informacin. Al igual que un Data Warehouse, almacena
informacin histrica y operaciones precalculadas para optimizar el acceso. Un
Data Mart es en efecto un Data Warehouse departamental.
?? Fuente de datos externa: Proporciona aquellos datos que son necesarios para
garantizar la calidad de la informacin en el Data Warehouse y que no se
encuentran en los sistemas OLTP.
?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los
analistas, directivos y ejecutivos comprender la informacin de negocio de una
forma rpida e interactiva. Para ello se sirve de diversas vistas que presentan los
datos desde diferentes dimensiones, lo que permite realizar comparaciones,
simular escenarios futuros y entender mejor las relaciones entre los datos.
En el caso de bases de datos relacionales hablaremos de ROLAP (Relational On-
line Analytical Processing), para multidimensionales de MOLAP
(Multidimensional On-line Analytical Processing) y de HOLAP (Hybrid On-line
Analytical Processing) en caso de modelos mixtos.
??Metadata: Informacin sobre los propios datos almacenados como una
descripcin de tablas y campos, tipos de datos, rango de valores permitidos,
procesos de transformacin...
19
?? Drill Down: Capacidad para navegar a travs de la informacin siguiendo una
estructura jerrquica.
En la siguiente figura se muestra un pequeo ejemplo:
?? Drill Across: Capacidad para navegar a travs de la informacin saltando por
las distintas dimensiones en modelos multidimensionales.
20
?? Diferencia entre bases de datos operacionales e informacionales: La mayor
diferencia entre estos dos modelos de bases de datos reside en la frecuencia de
actualizacin de la informacin:
o En los sistemas operacionales se llevan a cabo un gran nmero de
transacciones cada hora por lo que los datos estn siempre actualizados y
reflejan la situacin de la empresa en ese momento del tiempo.
o Los sistemas informacionales permanecen estables durante un periodo de
tiempo, finalizado el cual se realiza un proceso de carga (en horario que
no afecte a produccin) que extrae los cambios y los nuevos registros de
los sistemas operacionales, actualizando la base de datos informacional.
??Minera de datos: Proceso de extraer de los datos un conocimiento vlido, de
utilidad y antes desconocido para mejorar la toma de decisiones de negocio.
21
Evolucin de los sistemas de informacin
Algunas de las primeras cuestiones que nos pueden surgir al describir los objetivos de
un sistema de Business Intelligence son Proporciona un Data Warehouse las mismas
funcionalidades que un sistema de Business Intelligence? un Data Warehouse es
similar a los clsicos sistemas de informacin implementados en la mayora de las
empresas? Aunque en un primer momento podemos responder de forma afirmativa a
ambas cuestiones, un anlisis detallado nos muestra que existen importantes diferencias
entre estos sistemas.
Siguiendo la evolucin de los sistemas de informacin podemos distinguir tres
generaciones:
?? Primera Generacin Sistemas Host: Los primeros sistemas de informacin
empleaban programas batch para proporcionar a los usuarios la informacin
demandada en forma de consultas e informes. La salida de estas aplicaciones
tpicamente consista en grandes volmenes de hojas que los usuarios tenan que
analizar para responder a cuestiones de negocio.
Con la llegada de las aplicaciones de tiempo compartido, estos sistemas ganaron
rapidez en el acceso a la informacin, pero continuaban siendo incmodos de
utilizar y requeran acceso a bases de datos operacionales muy complejas.
Por tanto esta primera generacin de sistemas slo poda ser utilizada por
usuarios avanzados con un amplio conocimiento en el manejo de los datos (por
ejemplo, analistas de negocio). Los ejecutivos de la direccin dependan por
tanto del anlisis suministrado por terceros con el consiguiente retraso en el
tiempo.
?? Segunda Generacin Data Warehouse: La segunda generacin de los
sistemas de informacin lleg con el Data Warehouse que supuso un gran
avance en las prestaciones puesto que permite almacenar la totalidad de la
informacin de una empresa en un repositorio nico con un formato de datos
comn.
22
El uso de la arquitectura cliente-servidor proporciona a los usuarios una mejora
en los interfaces y unas herramientas de soporte a la toma de decisiones ms
potentes.
Este tipo de sistemas se ver a continuacin con ms detalle.
?? Tercera Generacin Business Intelligence: Un Data Warehouse no es an
una solucin completa para satisfacer la necesidades de los usuarios de negocio.
Una debilidad de muchos de estos sistemas es que los proveedores con
frecuencia se centran nicamente en la tecnologa en vez de en las soluciones de
negocio. Hay que tener en cuenta adems el gran esfuerzo necesario para la
implantacin completa de un Data Warehouse as como de las herramientas de
acceso al mismo. A esto hay que sumarle el hecho de que los productos de Data
WareHouse rara vez vienen agrupados en paquetes predefinidos para industrias
determinadas o reas de aplicacin especficas.
Otro error que suele cometerse al implantar un Data Warehouse es centrase en la
construccin del almacn de datos, olvidndose del acceso al mismo. Si la
informacin contenida en el Data Warehouse no est bien documentada y es
comprensible y fcil de acceder por los usuarios, stos no sacarn del sistema el
rendimiento esperado.
Los sistemas de Business Intelligence se centran en mejorar el acceso a la
informacin de negocio. Para ello se sirven de herramientas grficas, OLAP
(online analytical processing) y de minera de datos.
Previsiblemente, necesitarn procesar y analizar grandes volmenes de
informacin, por lo que parmetros como la escalabilidad e integracin de
productos de distintos fabricantes no deben ser olvidados.
La informacin almacenada en un Data Warehouse procede con frecuencia de
bases de datos operacionales (y en algunos casos de fuentes externas). Sin
embargo una parte importante de la informacin est contenida en la oficina,
sistemas de trabajo, servidores web de las intranets corporativas, Internet, en
papel...Para resolver este problema, los sistemas de Business Intelligence estn
diseados para soportar el acceso a todos los formatos de informacin de
negocio, no slo a los datos almacenados en el propio Data Warehouse.
23
El hecho de tener un sistema de Business Intelligence no descarta la necesidad
de un Data Warehouse central un Data Warehouse es simplemente una de las
fuentes de datos manejada por un sistema de Business Intelligence.
Como vemos, un sistema de Business Intelliegence constituye una tercera
generacin en los sistemas de informacin y presenta principalmente tres
ventajas:
o Oferta de soluciones especficas en paquetes predefinidos.
o Sistemas centrados en optimizar el acceso de los usuarios finales a la
informacin de negocio
o Soporte de todos los formatos de informacin, no slo de la
almacenada en un Data Warehouse.
La siguiente figura muestra la estructura global de un sistema de Business
Intelligence:
24
Utilidad de los sistemas de Business Intelligence
Las operaciones diarias de cualquier empresa generan gran cantidad de datos a
almacenar: pedidos, inventarios, facturacin, transacciones...Sin olvidar los datos
procedentes de fuentes externas como las listas de distribucin por mail.
El hecho de ser capaces de consolidar y analizar toda esta informacin para optimizar
las decisiones de negocio puede ser el factor que diferencie a la empresa de sus
competidoras.
Para que esto sea posible ser necesario disponer de las aplicaciones y herramientas
necesarias para el anlisis y, ms importante todava, de unos datos consistentes y en el
formato adecuado.
Sistemas Data Warehouse
Data Warehouse es el centro de la arquitectura para los sistemas de informacin en la
dcada de los 90. Soporta el procesamiento informtico al proveer una plataforma
slida, a partir de los datos histricos para hacer el anlisis. Facilita la integracin de
sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan
para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.
Un Data Warehouse es una coleccin de datos orientado a temas, integrado, no voltil,
de tiempo variante, que se usa para el soporte del proceso de toma de decisiones
empresariales.
Historia
El concepto de Data Warehouse surgi a partir de los sistemas expertos y las tcnicas de
Inteligencia Artificial que alcanzaron mayor auge en la dcada de los 80. El objetivo de
los sistemas expertos era el de emular el comportamiento humano, automatizando en lo
posible la toma de decisiones. Para ello era necesario crear una base de conocimiento
que contuviera todas las reglas que rigen el comportamiento de un experto.
La Inteligencia Artificial desarroll una serie de tcnicas que permitan que los sistemas
expertos desarrollados aprendiesen con la experiencia y fueran capaces de modificar las
reglas de actuacin segn el nuevo conocimiento adquirido.
25
A pesar de todo fueron muy poco los sistemas expertos desarrollados con xito debido a
varias razones:
?? Ausencia de la tecnologa necesaria.
?? Carencia de una metodologa estndar de desarrollo.
?? No existencia de un repositorio central de datos.
En la misma poca surgi el concepto de Ingeniera de la Informacin (Information
Engineering IE) que consista en una metodologa que ayudaba a las empresas a
entender el significado de los datos de negocio y las relaciones entre los mismos. A
diferencia de los sistemas expertos, la Ingeniera de la Informacin era ms fcil de
entender y constaba de una metodologa estndar, adems de ofrecer buenos resultados,
por lo que durante varios aos alcanz gran xito y difusin.
Con las redes locales (LANs) apareci la posibilidad de distribuir la capacidad de
proceso, por lo que los sistemas Data Warehouse entraron en escena como una solucin
viable de almacenar la informacin, unificando conceptos de Ingeniera de la
Informacin, Sistemas Expertos e Inteligencia Artificial. Del primero hered el modelo
de arquitectura de datos y de los otros dos la toma de decisiones.
Objetivo
El principal objetivo de un Data Warehouse es almacenar grandes volmenes de datos
previamente transformados a unos valores y formato fcilmente comprensibles.
Un Data Warehouse constituye un repositorio central para una empresa, proporcionando
informacin consistente y de alta calidad para la toma de decisiones estratgicas o
tcticas. Su fuente de informacin suele ser un sistema operacional clsico del que toma
los datos de negocio, les aplica unos procesos de transformacin y carga para conseguir
una informacin consistente y con valores estndar y realiza operaciones con ellos
almacenando los resultados como un dato ms. De esta forma medidas como totales,
medias y porcentajes se obtienen de forma casi inmediata puesto que ya han sido
precalculados.
26
Necesidad
Los sistemas de ingreso de transacciones se ven afectados por las consultas a sus bases
de datos. Generalmente poseen informes predefinidos, y cualquier modificacin a los
mismos debe ser solicitado al departamento de sistemas, que ser en definitiva quien
evaluar si tiene los recursos humanos disponibles como para realizarlos. El Data
Warehouse est separado de los sistemas transaccionales, por lo tanto las consultas no
afectan la velocidad de registro de las operaciones. Se actualiza peridicamente,
capturando datos de los distintos sistemas transaccionales. Una vez implementado, es
importante elegir las herramientas de consulta al Data Warehouse, que permitan un alto
grado de autonoma a los usuarios.
Diferencia con las bases de datos operacionales
En la siguiente tabla puede verse un contraste de cmo los datos de negocio
almacenados en un Data Warehouse, difieren de los datos operacionales usados por las
aplicaciones de produccin
Base de Datos Operacional Data Warehouse
Datos Operacionales Datos del negocio para Informacin
Orientado a la aplicacin Orientado al sujeto
Actual Actual + histrico
Detallada Detallada + ms resumida
Cambia continuamente Estable
Asimismo, ambos modelos de sistemas de almacenamiento de datos difieren en el uso
que se hace de ellos:
27
Uso de Base de Datos
Operacionales
Uso de
Data Warehouse
Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas predefinidas y
actualizables
Consultas complejas, frecuentemente
no anticipadas.
Cantidades pequeas de datos
detallados
Cantidades grandes de datos
detallados
Requerimientos de respuesta
inmediata
Requerimientos de respuesta no
crticos
Los usuarios de un Data Warehouse necesitan acceder a datos complejos,
frecuentemente desde fuentes mltiples y de formas no predecibles.
Por el contrario, los usuarios que accedan a los datos operacionales, comnmente
efectan tareas predefinidas que, generalmente requieren acceso a una sola base de
datos de una aplicacin.
Modelos de datos empleados
Por las caractersticas especiales de un Data Warehouse, no resulta apropiado emplear el
clsico modelo de datos relacional. Se optar por diseos que preparen la informacin
de acuerdo a la necesidad de tomar decisiones y no a los argumentos tcnicos de espacio
de almacenamiento. Los ms comunes son:
??Modelo en estrella: se basa en la creacin de tablas de hechos, es decir, tablas
que contengan la informacin numrica de los indicadores a analizar, o sea la
informacin cuantitativa de la informacin para la toma de decisiones. Las tablas
anteriores se relacionan con tablas de dimensiones, las cuales contienen la
informacin cualitativa, de los indicadores, es decir, toda aquella informacin
que clasifique la informacin requerida. Es el modelo de datos ms utilizado en
Data Warehouse.
En las siguientes imgenes puede verse un ejemplo de implementacin de
modelo en estrella:
28
??Modelo copo de nieve: modelo en estrella que se obtiene desglosando todas las
dimensiones.
??Modelo multidimensional (en cubo): Cada cara del cubo representa una
dimensin y la interseccin de todas las dimensiones (una celda del cubo)
almacena datos relevantes o medidas precalculadas. Es adecuado nicamente
para tres o incluso cuatro dimensiones, con un nmero mayor se complica
demasiado. No se utiliza de forma frecuente debido a que se desaprovecha
mucho espacio, son complejos y difcil de mantener.
En la siguiente figura puede verse un ejemplo de modelo en cubo con tres
dimensiones: tiempo, producto y cliente:
29
Ventajas
Las principales ventajas de este nuevo modelo frente a los sistemas clsicos son:
?? Acceder a un Data Warehouse es relativamente fcil y rpido.
?? Los informes generados son consistentes y no es necesario realizar cruces o
reconciliaciones entre ellos.
?? Un Data Warehouse est diseado especficamente para satisfacer las
necesidades de negocio de los usuarios y no para la aplicaciones operacionales
del da a da.
?? La informacin almacenada en un Data Warehouse es limpia, consistente y en
un formato comprensible para los usuarios.
?? Adems de la informacin actual, un Data Warehouse suele contener registros
histricos, as como el resultado de diversas operaciones realizadas con los datos
(totales, medias...).
??Mejora en el seguimiento de los resultados de negocio y rapidez y eficacia en la
toma de decisiones, lo que supone una clara diferenciacin de las empresas
competidoras.
Estructura
Una de las razones por las que el desarrollo de un Data Warehouse crece rpidamente,
es que realmente es una tecnologa muy entendible. De hecho, puede representar mejor
la estructura amplia de una empresa para administrar los datos informacionales dentro
de la organizacin.
La siguiente figura muestra la estructura bsica de un sistema Data Warehouse:
30
Arquitectura
A la hora de implementar un sistema Data Warehouse puede optarse por una de las
siguientes arquitecturas (de menor a mayor complejidad):
?? Virtual Data Warehouse: El Data Warehouse no existe realmente,
simplemente se simula una funcionalidad similar a la que proporcionara ste a
base de extraer de los sistemas operacionales la informacin necesaria para un
propsito determinado.
?? One-tier Data Warehouse: Diseado para un departamento concreto, sin
englobar la informacin del resto de la organizacin. Suele corresponder a un
Data Mart.
?? Data Marts: Se construyen varios Data Marts para los departamentos ms
importantes de la empresa. Luego es posible su integracin en un Data
Warehouse central.
La diferencia entre tener un Data Warehouse Central y varios Data Marts
independientes es que en el primer caso se pueden aprovechar procesos
automticos que actualizan los datos en cadena, adems de ganar consistencia en
la informacin al estar los datos relacionados entre s.
?? Two-tier Data Warehouse: Arquitectura Data Warehouse ms completa que
optimiza al mximo la extraccin de los datos al disponer, adems de un Data
Warehouse central, de un Data Mart que es con el que trabajan directamente los
usuarios.
31
Herramientas Business Intelligence
Existen numerosas herramientas en el mercado que ayudan a realizar las diferentes
tareas necesarias para construir, mantener y trabajar con un sistema de Business
Intelligence.
En la figura pueden verse algunas de ellas:
Las herramientas de anlisis, es decir, las posteriores al proceso de construccin del
Data Warehouse que sirven para trabajar con la informacin almacenada, pueden
clasificarse en funcin de su complejidad segn muestra la siguiente pirmide:
32
DATOS
QUERY & REPORTING
AN LISIS
MINERA
DSS
?? Query y Reporting: nicamente ofrecen la posibilidad al usuario de realizar
consultas avanzadas y extraer informes.
?? Anlisis (OLAP): Permiten adems jugar con la informacin, simulando
escenarios futuros, analizando distintas dimensiones y puntos de vista,
descubriendo relaciones entre variables...
??Minera: implica el descubrimiento de informacin anteriormente desconocida,
comprensible, novedosa y vlida, a partir de grandes almacenamientos de datos.
La informacin resultante puede constituir una ayuda para tomar decisiones.
Para este proyecto utilizaremos el Intelligent Miner for Data de IBM que es
una de las herramientas de minera ms completa que hay actualmente en el
mercado.
?? DSS: Decisin Support System. Aplicaciones que extraen y representan la
informacin de negocio de forma concreta, grfica y fcilmente comprensible
para ayudar a la toma de decisiones empresariales.
A continuacin analizaremos con ms detalle en qu consiste la minera de datos.
33
Minera de datos
La tecnologa de la informacin ha evolucionado de forma muy rpida en las tres
ltimas dcadas. Cada vez ms, muchas empresas almacenan grandes volmenes de
datos en sus sistemas informticos. Puede ser que informaciones tiles se encuentren
ocultas en los datos con el formato de patrones y conexiones implcitas que no son
fciles de distinguir mediante las consultas de datos convencionales y los clculos de
estadsticas.
La minera de datos es el proceso que implica el descubrimiento de informacin
anteriormente desconocida, comprensible, novedosa y vlida, a partir de grandes
almacenamientos de datos. La informacin extrada puede utilizarse para realizar una
prediccin o un modelo de clasificacin o bien para identificar las semejanzas existentes
entre los registros de la base de datos. La informacin resultante puede constituir una
ayuda para tomar decisiones con ms conocimiento.
Por ejemplo, en una tienda se puede utilizar la minera de datos para identificar los
grupos de clientes que probablemente respondern a los nuevos productos y servicios o
para identificar nuevas oportunidades de venta cruzada. Una compaa de seguros puede
utilizarla con los datos de reclamaciones para identificar posibles indicadores de fraude.
Algunos ejemplos de las preguntas que se pueden responder con las herramientas de
Data Mining son:
?? Qu caractersticas tienen los mejores clientes?
?? Qu caractersticas tienen los clientes que estoy pierde la empresa?
?? A quines debera dirigir una campaa publicitaria?
?? Cules son los factores que inciden en que algunas mquinas tengan mayores
tasas de fallos que otras?
?? Es efectiva la aplicacin de una droga medicinal? Cuales fueron los cinco grupos
que obtuvieron los mejores resultados?
?? A quines no se deben venderles seguros contra todo riesgo?
?? Qu factores inciden en el aumento de la tasa de fallas?
La minera de datos es un proceso iterativo que implica generalmente la seleccin y
transformacin de datos de entrada, la ejecucin de una funcin de minera y la
34
interpretacin de los resultados. Las funciones de minera utilizan tcnicas matemticas
elaboradas para descubrir patrones ocultos en los datos.
La siguiente figura muestra el modelo bsico de minera de datos:
Seleccin de los datos de entrada
El primer paso de la minera de datos consiste en especificar los datos de entrada que se
deseen explorar y analizar. Puede que una fuente de datos no contenga todos los datos
que se quieran utilizar para un objetivo concreto de minera de datos, o bien puede que
contenga datos irrelevantes. As, estos datos pueden estar en una o ms tablas de base de
datos, vistas o archivos planos.
Exploracin de los datos
En cualquier momento del proceso se pueden utilizar funciones estadsticas para
explorar y analizar los datos. Puede que se desee aplicar un anlisis de estadsticas al
considerar los datos de entrada como variables para una funcin de minera. Las
funciones estadsticas tambin se pueden utilizar para transformar datos creando campos
de entrada para su exploracin. Adems, estas funciones sirven para evaluar los datos de
salida de las funciones de minera.
35
Transformacin de los datos
Cuando se han especificado los datos de entrada, se pueden transformar mediante
funciones de preproceso. Las funciones de proceso como discretizacin, filtro y unin le
permiten organizar los datos para que se puedan explorar con eficacia.
Por ejemplo, si los datos contienen los campos Sueldo y Comisin, puede sumar los
valores de estos dos campos y crear un campo de datos denominado Sueldo_total.
Minera de datos
Los datos transformados se extraen consecutivamente mediante una o ms funciones de
minera. Algunos ejemplos de funciones de minera son:
?? Asociaciones
?? Clasificacin neuronal
?? Clasificacin en rbol
?? Clustering demogrfico
?? Clustering neuronal
?? Patrones secuenciales
?? Secuencias semejantes
?? Prediccin neuronal
?? Prediccin-Funcin base radial (RBF)
Interpretacin de los resultados
Puede analizar los resultados del proceso de minera de datos en base a los objetivos de
apoyo a las decisiones que tome. Las herramientas de visualizacin permiten ver los
resultados e identificar la informacin importante que queda al descubierto mediante el
proceso de minera. Los resultados pueden exportarse a una estacin de trabajo remota
de manera que puedan visualizarse en una ubicacin diferente. Tambin se pueden
copiar determinados resultados al portapapeles haciendo as que estn disponibles para
otras herramientas, como hojas de clculo o aplicaciones estadsticas.
La minera de datos puede ser un proceso iterativo. Si se observa un resultado anterior,
podra querer ajustarse la formulacin de la minera para una ejecucin de minera que
mejore la calidad del resultado.
36
Intelligent Miner for Data
IBM DB2 Intelligent Miner for Data Versin 8 es un conjunto de funciones estadsticas,
de preproceso y de minera que se pueden utilizar para analizar grandes bases de datos.
Tambin ofrece herramientas de visualizacin para ver e interpretar los resultados de
minera.
Algunas de sus principales caractersticas son las siguientes:
?? Proporciona un conjunto de herramientas que forman un marco de trabajo
nico para la extraccin de datos.
?? Admite el proceso iterativo y permite el procesamiento de datos, el anlisis
estadstico y la visualizacin de resultados como suplemento de su amplia
variedad de mtodos de extraccin.
?? Utiliza algoritmos de extraccin garantizados, ya sea individualmente o
combinados, para resolver numerosos problemas de negocios y obtener
resultados comerciales mensurables.
?? Proporciona una solucin ampliable, centrada en las reas clave de la
extraccin a gran escala, como por ejemplo, los grandes volmenes de datos,
la extraccin paralela de datos, las operaciones de extraccin a largo plazo y
la mejora de los algoritmos de extraccin.
?? Incluye un interfaz de programacin de aplicaciones que permite el
desarrollo de aplicaciones de extraccin personalizadas adaptadas a cada
sector especfico.
?? Proporciona una sofisticada extensin SQL de la base de datos DB2 y activa
la incrustacin de funciones de modelado en las aplicaciones empresariales.
?? Admite el desarrollo de modelos de extraccin de datos en un formato
compatible con el lenguaje PMML (del ingls Predictive Model Markup
Language, lenguaje de marcado para modelos predictivos) V2.0, la nueva
norma estndar del sector para modelos analticos.
?? Los usuarios pueden aplicar las nuevas relaciones entre los datos a nuevos
datos en tiempo real.
?? Permite el anlisis de modelos de extraccin de datos a travs de DB2
Intelligent Miner Visualizer, un navegador de resultados basado en Java.
37
Permite consultar y evaluar los resultados del proceso de modelado de
extraccin de datos incluso a los usuarios menos expertos.
La siguiente figura muestra un esquema tpico de arquitectura cliente-servidor del
Intelligent Miner:
Como vemos en la imagen, sus principales componentes son:
38
?? Interfaz de usuario: Programa que permite definir las funciones de minera de
datos en un entorno grfico. Pueden definirse las preferencias de la interfaz de
usuario, que estn almacenadas en el cliente.
La pantalla principal de este interfaz se muestra en la siguiente imagen:
?? API de capa de entorno: Conjunto de funciones API que controlan la ejecucin
de procesos y resultados de minera. Las secuencias de funciones y operaciones
de minera se pueden definir y ejecutar mediante la interfaz de usuario a travs
de la API de capa de entorno. La API de capa de entorno est disponible en
todos los sistemas operativos servidores.
?? Visualizador: Herramienta que visualiza el resultado generado por una funcin
estadstica o de minera. Intelligent Miner ofrece un amplio conjunto de
herramientas de visualizacin.
En la siguiente pantalla puede verse como ejemplo la visualizacin del resultado
de ejecutar una funcin de minera:
39
40
Se pueden utilizar, adems, otras herramientas de visualizacin.
?? Acceso a datos: Acceso a datos de archivos planos, tablas y vistas de bases de
datos.
?? Tablas de bases de datos y archivos planos: Tipos de datos que se pueden
procesar. Los componentes de Intelligent Miner trabajan directamente con datos
almacenados en una base de datos relacional o en archivos planos. Los datos no
han de copiarse en un formato especial. Los objetos de datos de entrada y salida
que defina son objetos que constituyen descripciones lgicas de los datos fsicos.
Esta descripcin lgica permite que se modifique la ubicacin fsica de los datos
sin que ello afecte a los objetos que utilizan dichos datos. Slo se pueden
cambiar las descripciones lgicas. El cambio puede ser tan simple como
modificar el nombre de una tabla de base de datos.
?? Biblioteca de proceso: Biblioteca que proporciona acceso a funciones de bases
de datos.
?? Bases de minera: Coleccin de objetos de minera de datos que se utilizan para
un objetivo de minera o un problema de gestin. Las bases de minera se
almacenan en el servidor, que permite el acceso desde distintos clientes.
??Kernels de minera: Algoritmos que comienzan a operar cuando se ejecuta una
minera de datos o una funcin estadstica.
?? Resultados de minera, API de resultado y herramientas para exportacin:
Datos extrados por la ejecucin de minera o la funcin estadstica. Estos
componentes le permiten visualizar los resultados en el cliente. Los resultados se
pueden exportar para proceso posterior o para utilizarlos con herramientas de
visualizacin.
El proceso para trabajar con el Intelligent Miner es el siguiente:
?? Buscar entre los datos hechos significativos.
?? Determinar qu variables intervienen.
?? Definir las variables al Intelligent Miner.
?? Lanzar el estudio.
?? Internamente se realizan comparaciones entre las distintas rebanadas del cubo.
?? Como salida ofrece una lista de aquello que le llama especialmente la atencin:
patrones, diferencias significativas...
?? Interpretar los resultados por parte del analista, lo que constituye sin duda la
tarea ms difcil y laboriosa.
41
2-TCNICAS DE ANLISIS
Las herramientas de minera de datos se apoyan en dos tipos de tcnicas para la
obtencin de resultados que ayuden a la toma de decisiones empresariales:
?? Tcnicas estadsticas
?? Tcnicas de minera (con frecuencia heredadas del rea de Inteligencia
Artificial)
Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito
de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:
datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas
se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).
Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms
robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren
por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.
Una de las principales diferencias entre los modelos estadsticos y los modelos de
inteligencia artificial, es cmo miden su error. Los primeros miden el error relativo tal
como el modelo "adapta" los datos, mientras que los segundos, miden el error relativo a
los datos an invisibles (Error predictivo).
Segundo, los modelos estadsticos tienen dificultades al dar datos contradictorios o
desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones
consistentes. Viceversa, las herramientas de inteligencia artificial buscan "generalizar"
relaciones para proporcionar el resultado ms probable.
Vamos a ver con ms detalle cada una de estas tcnicas.
42
2.1-Tcnicas estadsticas
Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la
toma de decisiones empresariales. Aunque no son propias de minera de datos (se
utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la
hora de descubrir patrones o elaborar modelos de prediccin.
Pueden emplearse para obtener ms informacin sobre los datos, lo que permitir tomar
decisiones ms acertadas cuando se apliquen los procesos de minera. Las funciones
estadsticas se aplican a los datos de entrada y producen datos de salida y resultados.
Mediante la aplicacin de distintos clculos y teoras estadsticas a los datos de entrada
se pueden descubrir en ellos patrones ocultos. Estas funciones se pueden utilizar en los
pasos de transformacin y minera del proceso. Algunos ejemplos de aplicacin de las
funciones estadsticas son los siguientes:
?? Con la tcnica de Regresin lineal se pueden predecir valores mediante un
modelo de ajuste lineal.
??Mediante el Anlisis de componentes principales pueden verse los atributos
ms dominantes en los datos.
?? Con Anlisis de factores se puede reducir el nmero de variables de los datos
de entrada.
Consideraciones
Mediante las funciones estadsticas se pueden analizar fcilmente los datos utilizando
varios mtodos de estadstica diferentes. Se puede tener la tentacin de probar con
diferentes mtodos sin considerar la naturaleza de los datos. Utilizando distintos
mtodos sobre un conjunto de datos se pueden conseguir hallazgos estadsticamente
significativos por casualidad. No obstante, lo mejor es elegir un mtodo de estadstica
basado en la naturaleza de los datos y en la informacin que puede utilizarse.
Se dispone de muchos mtodos de estadstica complejos. En cualquier caso, conviene
utilizarlos e interpretarlos correctamente. Tambin debe prestarse especial atencin a las
limitaciones y presunciones de cada mtodo.
43
Categorizacin de datos
Para poder seleccionar la funcin estadstica apropiada se deben concretar las
necesidades a cubrir y conocer el tipo de datos que se van a analizar.
Se puede probar una hiptesis, buscar posibles tendencias, recopilar informacin
preliminar o depurar un problema de investigacin.
Los datos pueden categorizarse atendiendo al nmero de variables, la escala de medida
y el nmero de casos. Dependiendo de estos criterios, podr seleccionar la funcin
estadstica apropiada:
?? Nmero de variables: Una variable es una caracterstica mensurable de una
poblacin determinada. Cada una de las funciones estadsticas requiere un cierto
nmero de variables.
?? Escala de medida: Los mtodos de estadsticas requieren escalas de medida
aplicables a los datos. Una vez se saben las escalas de medida aplicables a los
datos, se pueden delimitar los mtodos utilizables.
Los datos pueden medirse mediante una de las siguientes escalas de medida:
o Escala de medida Nominal (la ms bsica) no asume nada sobre los
valores asignados a los datos. Cada valor no es ms que una etiqueta o
nombre para cada categora. El orden o diferencia entre los distintos
valores no tiene significado alguno. Por ejemplo, podra utilizarse un
cdigo numrico para designar ciudades en los datos: 1 podra ser Pars,
2, Londres y 3, Nueva York.
o Escala de medida Ordinal asume que se puede asignar un orden a los
datos, aunque no se pueda medir la distancia entre nmeros. Por ejemplo,
un profesor puede jerarquizar los exmenes de los estudiantes: 1 es el
mejor, 2 es intermedio, 3 es malo. Esta escala indica que 1 es mejor que
2 pero no cunto mejor es.
o Escala de medida de Intervalo mide la distancia entre los valores y los
rangos de los datos. Sin embargo, no se pueden sacar conclusiones de
proporcionalidad dentro de la escala, porque no hay un punto cero
verdadero. Por ejemplo, al comparar las escalas Celsius y Fahrenheit se
hace evidente que 20 grados Celsius no es el doble de caliente que 10
grados Celsius. 10 grados Celsius corresponden a 50 grados Fahrenheit.
20 grados Celsius corresponden a 86 grados Fahrenheit. 86 grados
44
Fahrenheit no es el doble de 50 grados. Las razones no son iguales
porque ambas escalas tienen un punto cero arbitrario.
o Medida de Razn (la ms alta) tiene un punto cero verdadero. Todas las
dems propiedades son las mismas que en la medida de intervalo. Por
ejemplo, debido a que tiempo y distancia son medidas de razn, es cierto
que un automvil circulando a 50 km. por hora va el doble de rpido que
otro automvil que circula a 25 km. por hora.
Los mtodos desarrollados para una escala de medida ms bsica pueden
utilizarse con datos de una escala de medida ms alta.
?? Nmero de observaciones: Algunas funciones estadsticas requieren un nmero
mnimo de observaciones para realizar clculos vlidos.
La siguiente tabla puede ayudar a seleccionar la funcin estadstica apropiada. I
representa una escala de intervalo, R representa una escala de razn y O
representa una escala ordinal.
Funcin Estadstica Escala de medida Nmero de variables
Regresin I R 2 o ms
Ajuste de curva univariable I R 1
Anlisis de componentes
principales
I R 2 o ms
Anlisis factorial I R 2 o ms
A continuacin analizaremos con ms detalle cada una de estas tcnicas estadsticas.
2.1.1-Regresin lineal
La tcnica de Regresin lineal se utiliza para determinar la mejor relacin lineal entre la
variable dependiente y una o ms variables independientes. La variable dependiente es
aquella que se desea predecir y las variables independientes son aquellas en las que se
basa la prediccin.
45
Mejor significa que se produzcan el menor nmero de errores si se basa la prediccin
en la funcin lineal generada por el programa.
La frmula general de regresin es:
y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?
donde y indica la variable dependiente, de ? a ? indican los coeficientes desconocidos,
de x1 a xn indican las variables independientes y ? denota el margen de error.
La relacin entre los valores conocidos y los predichos puede representarse en un plano
bidimensional, situando las variables en las que se basa la prediccin en el eje Y y la
variable dependiente en el eje X.
El modelo de regresin lineal sera la lnea que minimiza la tasa de error entre el valor
rela y el punto de la lnea (valor predicho). La forma ms comn de calcular este error
es el cuadrado de la diferencia entre el valor real y el predicho.
En la siguiente figura puede verse un ejemplo de representacin grfica:
Se puede determinar un umbral de significancia para que las variables independientes
cuyo valor de probabilidad est por encima de dicho umbral no se tengan en cuenta al
construir el modelo de regresin. De este modo, slo pasan a formar parte del modelo
las variables independientes que contribuyen del modo ms significativo en el resultado.
46
Un valor de probabilidad cercano a 0 marca una variable como muy significativa; un
valor de probabilidad cercano a 1 marca una variable como insignificante. ste es el
motivo por el cual no se tienen en cuenta las variables que estn por encima del umbral.
Si no se especifica ningn valor para nivel de significancia, se utiliza el valor por
omisin 0,5.
2.1.2-Ajuste de curva univariable
El Ajuste de curva univariable descubre una funcin matemtica que describe
exactamente la distribucin de los datos a travs del tiempo. Pueden seleccionarse los
siguientes tipos de curvas:
??Mejor ajuste
?? Exponencial
?? Hiprbola
?? Lineal
?? Potencia
?? Racional
?? Recproca
2.1.3-Anlisis de componentes principales
El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de
la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un
banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero
perdiendo la menor cantidad de informacin posible.
Los nuevos componentes principales o factores sern una combinacin lineal de las
variables originales, y adems sern independientes entre s.
Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada
a priori, sino que ser deducida tras observar la relacin de los factores con las variables
iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las
correlaciones).
Existen dos tipos de Anlisis de Componentes Principales:
47
?? Normalizado: se basa en la correlacin de los datos de entrada.
La correlacin indica la relacin lineal entre dos variables (Correlacin de
Pearson). Su valor puede estar entre +1 y 1. Una correlacin de +1 significar
que existe una relacin lineal positiva perfecta entre las dos variables.
?? Centrado: se basa en la covarianza de los datos de entrada.
La covarianza mide la tendencia de dos variables a variar juntas. La varianza es
el promedio de la desviacin al cuadrado de una variable respecto de su media.
La covarianza es el promedio de los productos de las desviaciones de los valores
de las variables de sus medias.
2.1.4-Anlisis Factorial
El Anlisis factorial descubre las relaciones entre mltiples variables en base a unas
cantidades aleatorias subyacentes, pero no observables, que se denominan factores.
Se trata de una tcnica adecuada para el caso de variables continuas altamente
correlacionadas, que es cuando podemos suponer que se explican por factores comunes.
El nmero de factores puede determinarse mediante uno de los siguientes mtodos:
?? Dejar que el sistema determine el nmero de factores.
?? Especificar el porcentaje de varianza a explicar por los factores calculados.
?? Especificar un determinado nmero de factores. Este nmero debe ser menor o
igual que el nmero de variables de entrada.
El modelo matemtico del Anlisis Factorial supone que cada una de las p variables
observadas es funcin de un nmero m factores comunes (m
48
correlacin alta con un conjunto menor de variables de entrada y pequea o
ninguna correlacin con otro conjunto de variables de entrada.
2.1.5-Estadsticas Bivariables
Se puede utilizar la funcin Estadsticas bivariables para realizar las siguientes tareas:
?? Calcular estadsticas bsicas para campos numricos, tales como el mximo,
mnimo, media, varianza y frecuencias.
Las frecuencias para campos numricos continuos se calculan sobre valores
comprendidos entre los lmites de un compartimento.
?? Calcular frecuencias para campos categricos y campos discretos numricos.
?? Realizar la prueba Chi cuadrado de un campo seleccionado. Si se selecciona un
campo, el valor de Chi cuadrado se calcula en todas las combinaciones
existentes de este campo con otros campos.
?? Realizar la prueba-F. La prueba-F se aplica a todas las parejas de campos
numricos.
?? Calcular cuantiles de campos numricos seleccionados.
?? Extraer muestras de datos de entrada.
?? Copiar datos de entrada en una tabla de salida, posiblemente como una muestra.
49
2.2-Tcnicas de minera
Veamos a continuacin algunas de las tcnicas de minera ms utilizadas:
2.2.1-Asociaciones
El propsito de esta tcnica es encontrar elementos de una transaccin que impliquen la
presencia de otros elementos en la misma transaccin.
Si tomamos como ejemplo una base de datos con operaciones de compra y
consideremos que cada transaccin consiste en un conjunto de elementos que el cliente
ha adquirido, la funcin de minera Asociaciones detecta relaciones entre los elementos
del conjunto. Puede detectar que el 60% de los clientes que adquieren tarjetas de
felicitacin tambin compran productos de cosmtica.
2.2.2-Clustering
El objetivo de descubrir clusters es agrupar registros que tengan caractersticas
similares.
El resultado de la funcin clustering muestra el nmero de clusters detectados y las
caractersticas que los constituyen. Adems, es conveniente mostrar la forma en que
estas caractersticas estn distribuidas en los clusters.
En el mejor de los casos, cada cluster generado contendr nicamente registros que
tengan valores idnticos en los parmetros definidos. De esta forma al conocer los datos
de un miembro del cluster, se conocen los del resto de integrantes. Es muy difcil que se
d esta situacin (sobre todo si disponemos de muchos elementos a clasificar), por ello
en ocasiones es necesario dividir clusters heterogneos en grupos ms pequeos que
constituyan clusters homogneos.
Otro punto a tener en cuenta es que el nmero de clusters generados sea razonable. Por
ejemplo no tendra sentido intentar agrupar 30 elementos y obtener 30 clusters distintos.
Algunas herramientas de minera permiten que el usuario defina una limitacin en el
nmero de clusters generados.
50
Existen dos tipos de clustering:
?? Clustering Jerrquico
?? Clustering no Jerrquico
El primero ordena los clusters de mayor a menor. El motivo de esto es que el Clustering
es una tcnica de aprendizaje no supervisado, por lo que no hay una respuesta
totalmente correcta. De este modo, al presentarlos ordenados resulta ms fcil
seleccionar el nmero de clusters adecuado. Los clusters con menor nmero de
elementos podrn unirse para formar clusters mayores.
En la siguiente figura puede verse un modelo de jerarqua:
Tomando como ejemplo una base de datos de un supermercado que incluye la
identificacin de los clientes e informacin acerca de la fecha y la hora en que de las
compras, la funcin de minera clustering agrupa estos datos en clusters para permitir la
identificacin de diferentes tipos de compradores.
Podra ponerse de manifiesto, por ejemplo, que los clientes compran mucho los viernes
y que normalmente pagan con tarjeta de crdito.
51
2.2.2.1-Clustering Neuronal
Aclaremos en primer lugar el concepto de Red Neuronal.
Una red neuronal artificial es un algoritmo matemtico con algoritmo matemtico con
capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar
experiencias y hacerlas disponibles para su uso.
Recuerda al cerebro humano en dos aspectos:
?? El conocimiento es adquirido por la red a travs de un proceso de aprendizaje
?? La fuerza de la conexin entre neuronas (pesos sinpticos) es usada para
almacenar el conocimiento.
Una red neuronal aprende mediante la modificacin de sus pesos sinpticos.
Algunas de las ventajas que ofrecen son:
??Modela relaciones no lineales
??Modela relaciones entrada-salida
?? Capacidad de adaptacin
?? Tiene en cuenta el contexto de trabajo
?? Posibilidad de desarrollo de dispositivos VLSI
?? Uniformidad de anlisis y diseo
?? Analoga neurobiolgica
Una neurona artificial es la unidad de procesado bsica de una red neuronal artificial.
Sus elementos bsicos son:
?? Sinapsis o conexiones cada una de ellas con un peso
?? Un sumador capaz de sumar entradas pesadas
?? Una funcin de activacin que limita la amplitud de la salida
52
El Clustering Neuronal utiliza una Red neuronal de mapa de caractersticas de Kohonen.
Los mapas de Kohonen son redes autoorganizadas capaces de codificar y luego
reconocer modelos de rasgos caractersticos de un entorno.
Algunas de sus caractersticas son:
?? Reconocen patrones
?? Son uni o bi-dimensionales lattice de neuronas que calculan simples funciones
discriminantes sobre las entradas recibidas.
?? Seleccin de unidad neuronal ganadora en funcin del mayor valor
discriminante.
Una arquitectura lattice es aquella en la que cada entrada va a todas las neuronas. En la
imagen se muestra un ejemplo de arquitectura lattice 3x1:
53
Un ejemplo de Mapa de Kohonen podra ser el siguiente:
Los Mapas de caractersticas de Kohonen utilizan un proceso denominado organizacin
automtica para agrupar los registros de entrada similares. El usuario especifica el
54
nmero de clusters y el nmero mximo de pasadas sobre los datos. Estos parmetros
controlan el tiempo de proceso y el grado de granularidad que se utiliza al asignar los
registros de datos a los clusters.
La funcin principal del clustering neuronal es buscar un centro para cada cluster. Este
centro se denomina tambin prototipo de cluster. Para cada registro de los datos de
entrada, la funcin de minera Clustering neuronal calcula el prototipo de cluster ms
cercano al registro.
La puntuacin de cada registro de datos se representa mediante la distancia eucldea que
lo separa del prototipo de cluster. Las puntuaciones que se acercan a cero indican un
grado de similitud al prototipo ms alto. Cuanto ms alta sea la puntuacin, ms se
diferencia el registro del prototipo de cluster.
Con cada pasada sobre los datos de entrada, los centros se ajustan de forma que se logra
una calidad mejor en el modelo de clustering global: el sistema aprende. El indicador de
progreso muestra la mejora en la calidad en cada pasada durante la ejecucin de la
funcin de minera.
2.2.2.2-Clustering Demogrfico
De igual forma que el Clustering Neuronal, el objetivo de esta funcin de minera es
agrupar registros que tengan caractersticas similares.
El Clustering Demogrfico proporciona la agrupacin en clusters rpida y de forma
natural de bases de datos de gran tamao. Determina automticamente el nmero de
clusters que se generarn.
Las semejanzas entre registros se determinan comparando los valores de los campos.
Los clusters se definen para maximizar el criterio de Condorcet. El criterio de
Condorcet es la suma de todas las semejanzas de registros de pares dentro del mismo
cluster menos la suma de todas las semejanzas de registros de pares en diferentes
cluster.
55
2.2.3-Patrones secuenciales
El objeto de buscar patrones secuenciales es encontrar patrones de comportamiento
predecibles en cierto periodo de tiempo. Esto significa que comportamientos concretos
producidos en un cierto momento probablemente tendrn otro comportamiento o una
secuencia de comportamientos en un cierto espacio de tiempo.
Por ejemplo, se puede observar que el 42% de los clientes que solicitan una cuenta
corriente nueva y una tarjeta de crdito, solicitan tambin un crdito en un perodo de 90
das.
Un ejemplo de aplicacin de esta tcnica de minera puede ser la deteccin de fraudes
en seguros o bien la planificacin de la colocacin de los productos o las ventas
promocionales.
2.2.4-Secuencias semejantes
El objetivo de esta tcnica es encontrar todas las apariciones de subsecuencias
semejantes en una base de datos de secuencias.
Por ejemplo, supongamos que tenemos una base de datos de un comerciante que desea
optimizar sus compras y el sistema de almacenamiento de la tienda. Si realiza una
ejecucin de minera en esta base de datos obtendr los nombres de parejas de
secuencias con el grado de semejanza y el numero de subsecuencias. Cuando interprete
este resultado, el comerciante podr saber los grupos de productos cuyas previsiones de
ventas para el prximo ao son similares en cada temporada. En base a esta
informacin, el comerciante podr combinar las compras y la reposicin de las
existencias.
Esta tcnica tambin se puede utilizar para identificar empresas con patrones de
crecimiento similares, determinar productos con patrones de ventas similares o
determinar acciones con movimientos de precios similares. Otro uso puede ser la
deteccin de ondas ssmicas que no sean similares o la localizacin de irregularidades
geolgicas.
56
2.2.5-Clasificacin
Se hacen predicciones de las clasificaciones para crear modelos basados en datos
conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha
hecho una clasificacin o para calcular la clasificacin de nuevos datos.
Los datos histricos se componen con frecuencia de un conjunto de valores y de una
clasificacin de estos valores. Si se analizan los datos que ya se han clasificado se
descubrirn las caractersticas que han contribuido a realizar la clasificacin anterior. El
modelo de clasificacin resultante podr utilizarse despus para predecir las clases de
registros que contienen nuevos valores de atributos.
Por ejemplo, una compaa aseguradora posee datos acerca de los clientes actuales que
han perdido su pliza de seguros por no pagar. En base a los atributos comunes a estos
clientes, es posible crear un perfil de grupo de riesgo que se puede utilizar como modelo
para clasificar los nuevos clientes. El modelo se aplica a cada nuevo cliente y se
clasifica segn pertenezca o no al grupo de riesgo.
?? Una ejecucin de minera en la modalidad de preparacin con esta base de datos
aprende los atributos de cada una de las clases de clientes de riesgo definidas.
?? En modalidad de comprobacin, la aseguradora puede comprobar la exactitud
del modelo creado en modalidad de preparacin aplicando este modelo para
probar los datos con clases de riesgo de clientes conocidos.
?? En la modalidad de aplicacin, la aseguradora puede utilizar el modelo creado
durante la modalidad de preparacin para predecir qu clientes dejarn de pagar
en el futuro.
Esta tcnica podra emplearse, por ejemplo, para aprobar o denegar reclamaciones de
seguros, detectar fraudes en las tarjetas de crdito, identificar defectos en imgenes de
componentes manufacturados y diagnosticar condiciones de error. Tambin las puede
aplicar para determinar unos objetivos de mrketing, en el diagnstico mdico, para
determinar la eficacia de los tratamientos mdicos, para la reposicin del inventario o en
la planificacin de la ubicacin de una tienda.
2.2.5.1-Clasificacin en rbol
El Algoritmo de induccin con rbol ofrece una descripcin de fcil comprensin sobre
la distribucin subyacente de los datos. Este algoritmo realiza un ajuste proporcional
57
con respecto al nmero de ejemplos de preparacin y al nmero de atributos que se
encuentran en bases de datos extensas.
La clave para la construccin de un rbol de decisin es seleccionar la pregunta ms
adecuada (el mejor separador) para cada rama del rbol, es decir, aqulla que clasifique
de forma errnea el menor nmero de ejemplos o aqulla que delimite clases puras de
datos.
Su flexibilidad y fcil interpretacin la convierten en una de las tcnicas de minera ms
utilizadas.
En la siguiente pantalla puede verse un ejemplo de representacin grfica de un rbol de
clasificacin:
Algunas de las caractersticas de los rboles de clasificacin son las siguientes:
?? Estructura jerrquica: cada una de las hojas del rbol puede describirse en
funcin de la jerarqua de bifurcaciones que la preceden desde la raz.
?? Flexibilidad: capacidad de reajustar el modelo de clasificacin segn los
cambios que la prediccin de variables sea capaz de anticipar.
?? Su principal objetivo es obtener una clasificacin lo ms precisa posible. Para
medir esta precisin entra en juego el concepto de coste, que viene a ser el
58
nmero de ejemplos mal clasificados. Se tratar por tanto de evaluar la relacin
coste-complejidad para determinar hasta qu punto (hasta que nivel del rbol) es
conveniente descender. A este anlisis se le conoce como criterio de poda.
2.2.5.2-Clasificacin neuronal
Al igual que con la Clasificacin en rbol, el objetivo es crear modelos basados en datos
conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha
hecho una clasificacin o para calcular la clasificacin de nuevos datos.
La arquitectura de red neuronal empleada ser con frecuencia un Perceptrn multicapa:
La funcin de minera Prediccin neuronal utiliza una red neuronal de retropropagacin
(Back Propagation) para predecir valores.
59
Tomando como ejemplo la neurona de la figura, el algoritmo de Back Propagation
consistir en estimular la red neuronal con una entrada cuya respuesta sea conocida. A
continuacin deber calcularse el error cometido (diferencia entre la respuesta real y la
esperada). Conforme a este error debern reajustarse los pesos de todas las neuronas
comenzando por las de salida, siguiendo por las de las capas ocultas y acabando en las
neuronas de entrada.
La clasificacin se basa en el valor de clase y las relaciones de los atributos descubiertos
mediante un proceso de minera realizado en unos datos clasificados anteriormente. El
aprendizaje de red significa desarrollar un modelo que represente dichas relaciones. Una
red que ha realizado un aprendizaje es una salida de la ejecucin de minera. El anlisis
de sensibilidad, otro tipo de salida, se utiliza para comprender la contribucin relativa
de los campos de atributos en la decisin de clasificacin.
La retropropagacin es un algoritmo con objetivos generales y de aprendizaje
supervisado. En el aprendizaje supervisado, la base de datos contiene un nmero de
campos de atributos y uno o ms campos que contienen los resultados deseados.
Cuando se utiliza la retropropagacin para la aplicacin de clasificacin neuronal, el
resultado deseado se encuentra en un campo nico denominado campo de clase.
Una red neuronal con aprendizaje puede generalizar a partir de su experiencia pasada, y
calcular una clasificacin razonable incluso tomando como punto de partida
combinaciones de atributos que no haya visto nunca.
60
2.2.6-Prediccin
La finalidad de la prediccin de valores es descubrir la dependencia y la variacin de un
valor de un campo en relacin a los valores de otros campos que se encuentren en el
mismo registro. Se genera un modelo que puede predecir un valor para ese campo
particular en un registro nuevo con el mismo formato, en base a otros valores de campo.
Por ejemplo, un comerciante desea utilizar datos histricos para calcular los ingresos
por ventas que puede suponer un cliente nuevo. Una ejecucin de minera sobre esos
da