Revisar Hoy

download Revisar Hoy

of 231

description

data mining 2015

Transcript of Revisar Hoy

  • 1

    Autorizada la entrega del proyecto del alumno/a:

    Mara Aldehuela Lucena

    En Madrid a 10 de junio de 2005

    EL DIRECTOR DEL PROYECTO

    Juan Paredes Lozano

    Fdo.: Fecha: / /

    V B del Coordinador de Proyectos

    Miguel ngel Sanz Bobi

    Fdo.: Fecha: / /

  • 2

    PROYECTO FIN DE CARRERA

    ANLISIS COMPARATIVO ENTRE MTODOS ESTADSTICOS Y DE

    MINERA DE DATOS

    MARA ALDEHUELA LUCENA

    MADRID, Junio 2005

    UNIVERSIDAD PONTIFICIA COMILLAS

    ESCUELA TCNICA SUPERIOR DE INGENIERA (ICAI)

    INGENIERO INFORMTICO

  • 3

    RESUMEN

    El presente proyecto trata de un estudio en profundidad de las tcnicas existentes para

    extraer de los datos un conocimiento no implcito en los mismos y que puede ser de

    gran utilidad para la toma de decisiones de negocio.

    De esta forma se analizan las distintas tcnicas estadsticas y de minera, su utilidad, en

    qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn

    los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse

    los resultados obtenidos.

    La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un

    acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan

    demandado en la actualidad y, en gran parte, an desconocido.

    Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o

    minera de datos que permite obtener a partir de los datos disponibles un conocimiento

    oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,

    evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de

    negocio...

    Existen dos enfoques o reas dentro del Data Mining: las tcnicas clsicas de Estadstica

    y las de minera de datos propiamente dicha que derivan, en su mayora, de las

    aportaciones de la Inteligencia Artificial como las redes neuronales, lgica borrosa,

    mecanismos de aprendizaje automtico...

    Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la

    toma de decisiones empresariales. Aunque no son propias de minera de datos (se

    utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la

    hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para

    obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms

    acertadas cuando se apliquen los procesos de minera. Algunos ejemplos de estas

    tcnicas son la regresin lineal, el Anlisis Factorial, el Anlisis de Componentes

    Principales... Mientras que entre las tcnicas de minera destacan el Clustering, la

    Clasificacin, la Prediccin...

  • 4

    Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito

    de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:

    datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas

    se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).

    Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms

    robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren

    por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

    En el presente proyecto se pretende por tanto demostrar cmo la estadstica clsica se

    integra con la minera para ofrecer resultados ms completos y precisos.

    Para comprender mejor el funcionamiento de cada una de estas tcnicas, se aplican a un

    caso prctico orientado al rea de climatologa, permitiendo analizar resultados reales y

    ver ejemplos concretos, que muestren su utilidad.

    Los datos a utilizar son varias tablas estadsticas de climatologa obtenidas del INE

    (Instituto Nacional de Estadstica), que contienen informacin mensual referida a las

    temperaturas, precipitaciones, humedad relativa, horas de sol...de las distintas regiones

    de Espaa durante varios aos.

    Como aplicacin del conocimiento adquirido, se combinarn tcnicas estadsticas y de

    minera a un caso concreto de estudio: la prediccin de los efectos del calentamiento

    global sobre las precipitaciones y, como consecuencia, sobre la ocupacin de los

    embalses de Espaa.

    Por su conocimiento, y disponibilidad del Software necesario, se ha optado por la

    utilizacin de DB2 Intelligent Miner for Data. Esta herramienta es muy completa,

    puesto que integra varias tcnicas estadsticas con las de minera por lo que resulta muy

    apropiada para el anlisis comparativo a realizar.

  • 5

    PROJECT ABSTRACT

    The current project is an in depth study on the available methods for extracting

    knowledge from data to support critical business decisions.

    Statistical and data mining techniques are analyzed, making recommendations based on

    best use and original requirements, as well as suitability depending on case studies and

    data available. Additionally, guidelines are provided to help interpret the output data.

    The projects main goal is to conduct a comprehensive approach among Business

    Intelligence, Data Warehousing and Data Mining, so much in demand and yet unknown.

    Data Mining, one of the most potential areas in Business Intelligence, extracts hidden

    knowledge from the available data which can help obtain behavior patterns, trends,

    support decision making, market research, new business opportunities

    Data Mining has two building blocks: traditional statistical methods and data mining

    itself originated from Artificial Intelligence such as neural networks, fuzzy logic, self

    automated learning methods...

    Statistics provide several forecasting techniques that support corporate management

    decisions. Not being inherent to data mining (used well before this concept arrived) it

    has been considerably useful to discover patterns and develop predictive modeling.

    These algorithms can also be used to obtain more information on the data which will

    allow better decision taking after data mining processes are implemented. Some of these

    techniques are linear regression, factorial analysis, main components analysis ...

    Outstanding among mining techniques : clustering, classification, prediction .

    If we question about the difference between them, the answer is not simple; as the

    success in data mining and statistics depend on the same factors: refined data, reliable,

    well defined and validated. Furthermore, most of the techniques are used for solving the

    same type of problems (prediction, classification )

  • 6

    We can also consider as differentiating facts the robustness and easy implementation of

    mining techniques by non skilled users. On the other hand they require much more

    computing power, not being a problem with todays technologies.

    This project intends to describe how traditional statistics integrate into data mining to

    offer more accurate and complete results.

    To better understand each of these techniques we describe a case study of climate,

    showing real analytical results and specific samples which test its usefulness.

    Data used come from climate statistical tables provided by INE (National Institute of

    Statistics), with monthly information on temperatures, rainfall, relative humidity,

    daylight sun from the different regions of Spain during several years

    As an acquired knowledge application, both statistical and mining techniques were used

    in the case study: prediction of global warming effect based on the rainfalls and dam

    water levels.

    Based on knowledge and product availability, DB2 Intelligent Miner for Data was

    chosen. This tool is quite complete as it integrates statistical and mining techniques

    being most suitable for the required comparative analysis..

  • 7

    NDICE DE CONTENIDOS

    MEMORIA ........................................................................................................ 10

    Objetivos ............................................................................................................ 11

    Consideraciones.................................................................................................. 14

    PRESUPUESTO................................................................................................. 15

    1- INTRODUCCIN A BUSINESS INTELLIGENCE ...................................... 16

    Principales conceptos utilizados.......................................................................... 17

    Evolucin de los sistemas de informacin ........................................................... 21

    Utilidad de los sistemas de Business Intelligence ................................................ 24

    Sistemas Data Warehouse ................................................................................... 24

    Historia............................................................................................................... 24

    Diferencia con las bases de datos operacionales .................................................. 26

    Modelos de datos empleados............................................................................... 27

    Arquitectura........................................................................................................ 30

    Herramientas Business Intelligence..................................................................... 31

    Minera de datos ................................................................................................. 32

    Intelligent Miner for Data ................................................................................... 36

    2- TCNICAS DE ANLISIS............................................................................ 41

    2.1- Tcnicas estadsticas .................................................................................... 42

    Consideraciones ...................................................................................... 42

    Categorizacin de datos........................................................................... 43

    2.1.1- Regresin lineal ............................................................................. 44

    2.1.2- Ajuste de curva univariable ........................................................... 46

    2.1.3- Anlisis de componentes principales.............................................. 46

    2.1.4- Anlisis Factorial........................................................................... 47

    2.1.5- Estadsticas Bivariables ................................................................. 48

    2.2- Tcnicas de minera ..................................................................................... 49

    2.2.1- Asociaciones .................................................................................. 49

    2.2.2- Clustering....................................................................................... 49

    2.2.2.1- Clustering neuronal......................................................... 51

  • 8

    2.2.2.2- Clustering demogrfico................................................... 54

    2.2.3- Patrones secuenciales .................................................................... 55

    2.2.4- Secuencias semejantes ................................................................... 55

    2.2.5- Clasificacin ................................................................................. 56

    2.2.5.1- Clasificacin en rbol ..................................................... 56

    2.2.5.2- Clasificacin neuronal .................................................... 58

    2.2.6- Prediccin ..................................................................................... 60

    2.2.6.1- Funcin de base radial FBR ............................................ 60

    2.2.6.2- Prediccin neuronal ........................................................ 61

    3- IMPLEMENTACIN PRCTICA: CLIMATOLOGA................................. 62

    3.1- Datos disponibles......................................................................................... 62

    3.2- Base de datos............................................................................................... 65

    3.3- Base de minera ........................................................................................... 69

    3.3.1- Tcnicas de estadstica .................................................................. 69

    A) Regresin lineal ...................................................................... 69

    B) Ajuste de curva univariable ..................................................... 82

    C) Anlisis de Componentes Principales ...................................... 95

    D) Anlisis Factorial .................................................................... 101

    E) Estadsticas Bivariables ........................................................... 106

    3.3.2- Tcnicas de minera........................................................................ 120

    A) Asociaciones ........................................................................... 120

    B) Clustering Demogrfico .......................................................... 139

    C) Clustering Neuronal ................................................................ 146

    D) Patrones secuenciales .............................................................. 149

    E) Secuencias semejantes ............................................................. 150

    F) Clasificacin en rbol .............................................................. 158

    G) Clasificacin neuronal............................................................. 162

    H) Prediccin ............................................................................... 164

    4- CASO DE ESTUDIO ..................................................................................... 171

    4.1- Efecto invernadero....................................................................................... 171

    4.2- Embalses espaoles ..................................................................................... 173

  • 9

    4.3- Anlisis ....................................................................................................... 175

    4.3.1- Evolucin temporal de cada cuenca hidrogrfica ........................... 175

    4.3.2- Relacin entre precipitaciones y ocupacin de embalses................ 182

    4.3.3- Evolucin temporal de las precipitaciones ..................................... 184

    4.3.4- Prediccin de la ocupacin de embalses a 5 aos ........................... 187

    5- COMPARATIVA ESTADSTICA MINERA............................................. 190

    Recursos ............................................................................................................. 196

    Planificacin temporal de actividades ................................................................. 196

    Conclusiones ...................................................................................................... 199

    APNDICE A - Glosario de trminos................................................................. 201

    APNDICE B - Tablas estadsticas..................................................................... 213

    Bibliografa ........................................................................................................ 231

  • 10

    MEMORIA

    El presente proyecto trata de un anlisis en profundidad de las distintas tcnicas

    existentes para extraer de los datos un conocimiento oculto en los mismos y que puede

    ser de gran utilidad para la toma de decisiones de negocio.

    De este modo se estudian las distintas tcnicas estadsticas y de minera, su utilidad, en

    qu casos puede aplicarse cada una de ellas, cules pueden resultar ms ptimas segn

    los datos de los que se disponga y los requisitos de partida y cmo deben interpretarse

    los resultados obtenidos.

    La motivacin principal para desarrollar este proyecto ha sido llevar a cabo un

    acercamiento al mundo de Business Intelligence, Data Warehousing y Data Mining tan

    demandado en la actualidad y, en gran parte, an desconocido.

    Cabe destacar adems la utilidad de las estrategias de Business Intelligence, que

    permiten tener a mano la informacin ms relevante de operacin de una forma rpida,

    flexible y oportuna. De esta forma se promueve una gestin y una toma de decisiones

    proactiva, necesaria para aprovechar oportunidades de negocio futuras.

    Debido al incremento de la competitividad en los negocios es vital para las empresas

    conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de

    negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de

    la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de

    tecnologas y productos para proveer a los usuarios de la informacin demandada en la

    toma de decisiones de negocio de carcter estratgico o tctico.

    Una de las reas ms potentes dentro de Business Intelligence es el Data Mining o

    minera de datos que permite obtener a partir de los datos disponibles un conocimiento

    oculto en los mismos que puede ayudar a descubrir patrones de comportamiento,

    evitar errores de gestin, segmentar mercados, descubrir nuevas oportunidades de

    negocio...

  • 11

    Objetivos

    Por tanto el principal objetivo de este proyecto es describir cada una de las tcnicas

    estadsticas y de minera existentes para descubrir toda su potencia y utilidad y ver

    cmo se complementan entre s.

    Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la

    toma de decisiones empresariales. Aunque no son propias de minera de datos (se

    utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la

    hora de descubrir patrones o elaborar modelos de prediccin. Pueden emplearse para

    obtener ms informacin sobre los datos, lo que permitir tomar decisiones ms

    acertadas cuando se apliquen los procesos de minera.

    Para comprender mejor el funcionamiento de estas tcnicas, se aplican a un caso

    prctico orientado al rea de climatologa, permitiendo analizar resultados reales y ver

    ejemplos concretos, que muestren su funcionamiento.

    Se pretenden por tanto cubrir los siguientes objetivos:

    ?? Construir un modelo de minera en el que:

    o analizar los procesos de preparacin de datos previos a la aplicacin de

    las tcnicas de minera.

  • 12

    o mostrar la sensibilidad de los cada mtodo estadstico y de minera con

    casos ejemplo.

    o probar distintas alternativas de solucin de un mismo problema,

    comparando los resultados obtenidos en cada caso

    o comparar distintos algoritmos para un mismo mtodo (por ejemplo

    clasificacin en rbol y mediante redes neuronales).

    La temtica elegida es la climatologa.

    ?? Aplicar el conocimiento adquirido a un caso de estudio sobre la prediccin de

    los efectos del calentamiento global sobre las precipitaciones y, como

    consecuencia, sobre la ocupacin de los embalses de Espaa.

    ?? Conocer el uso de una herramienta Software de Data Mining.

    ?? Extraer una serie de conclusiones sobre qu tcnicas deben aplicarse en cada

    caso, cmo hacerlo y cmo interpretar los resultados obtenidos para optimizar

    las decisiones de negocio.

    Se seguirn las siguientes etapas en el desarrollo del proyecto:

    1. Documentacin y recoleccin de informacin.

    Para familiarizarse con los conceptos principales de las reas de Business

    Intelligence, Data Warehousing y Data Mining.

    2. Anlisis.

    Se partir de un anlisis previo de las siguientes tcnicas estadsticas:

    ?? Regresin lineal

    ?? Ajuste de curva univariable

    ?? Anlisis de componentes principales (ACP)

    ?? Anlisis Factorial (AF)

    ?? Estadsticas Bivariables

    y de minera de datos:

  • 13

    ?? Asociaciones

    ?? Clustering

    o Neuronal

    o Demogrfico

    ?? Patrones Secuenciales

    ?? Secuencias Semejantes

    ?? Clasificacin

    o En rbol

    o Neuronal

    ?? Prediccin

    o Funcin de Base Radial (FBR)

    o Neuronal

    3. Construccin del modelo de datos.

    Se disear una base de datos que contenga la informacin de climatologa a

    utilizar.

    4. Construccin del modelo de minera.

    Se crear una base de minera que tendr como entrada la base de datos de

    climatologa definida anteriormente. Sobre ella se aplicarn cada una de las

    tcnicas estadsticas y de minera descritas, y se extraern conclusiones sobre los

    resultados obtenidos.

    5. Caso de estudio: Efecto invernadero.

    Como aplicacin del conocimiento adquirido, se combinarn tcnicas

    estadsticas y de minera a un caso concreto de estudio: la prediccin de los

    efectos del calentamiento global sobre las precipitaciones y, como consecuencia,

    sobre la ocupacin de los embalses de Espaa.

    6. Conclusiones.

  • 14

    Por ltimo se extraer una serie de conclusiones prcticas sobre el uso y

    aplicabilidad de las distintas tcnicas, sealando cul resulta ms ptima en cada

    caso y analizando como la estadstica complementa a la minera.

    Consideraciones

    La dimensin temporal de los datos disponibles no resulta en ocasiones los

    suficientemente amplia para extraer concusiones a largo plazo, puesto que de la mayora

    de las variables climatolgicas en anlisis slo se disponen de datos de 6 aos.

    Por ello no habr que olvidar que el objetivo de este proyecto no es otro que construir

    los modelos de minera que, aplicados sobre datos ms numerosos (simplemente

    cambiando la entrada de informacin) ofreceran unos resultados mucho ms completos

    y extensibles en el tiempo.

  • 15

    PRESUPUESTO

    El presupuesto necesario para la realizacin de este proyecto es el que sigue: Mano de obra Das de trabajo 201 Horas de trabajo 4 Total Horas 804 Coste Hora 10 Coste Total 8040 Recursos HW ThinkPad T22 Pentium III 512 RAM 1200

    DB2 UDB v 7.1 468 SW DB2 Intelligent Miner for Data v.8.1 76.018 Total 77686

    Por lo tanto el presupuesto necesario es de 85.726 .

  • 16

    1-INTRODUCCIN A BUSINESS INTELLIGENCE

    En la lucha por tener xito en el competitivo mercado de hoy en da, la capacidad de

    acceder a la informacin y analizarla ha cobrado ms importancia que nunca. Con el fin

    de mejorar los procesos empresariales, medir el xito y tomar decisiones de negocio

    acertadas, las organizaciones requieren un fcil acceso a sus bases de informacin.

    Satisfacer esta demanda se ha convertido en un reto continuo.

    El anlisis de la informacin ofrece a los empleados la posibilidad de utilizar los datos

    decisivos para tener xito. Sin embargo, los tipos de acceso y anlisis de la informacin

    requeridos pueden variar en gran medida entre los diferentes tipos de usuarios. Por

    ejemplo, los ejecutivos de la alta direccin, los analistas empresariales, profesionales de

    la informtica y otros no solamente accedern a grupos de datos distintos, sino que

    analizarn esta informacin para diferentes propsitos. Por esta razn, las empresas

    necesitan un conjunto integrado de productos que pueda ofrecer una gama completa de

    capacidades y funcionalidad de inteligencia empresarial.

    Una solucin completa de anlisis de la informacin debe hacer ms que slo

    proporcionar acceso a los datos. Tambin debe permitir a los usuarios analizar los datos

    de diversas formas, permitindoles anticipar las tendencias comerciales y evaluar

    hiptesis. Este tipo de anlisis promueve una gestin y una toma de decisiones

    proactiva, necesaria para aprovechar oportunidades futuras.

    Las estrategias de Business Intelligence permiten tener a mano la informacin ms

    relevante de operacin de una forma rpida, flexible y oportuna. Las herramientas que

    integra consolidan la informacin de las distintas reas, mejorando el proceso de

    decisin.

    Business Intelligence es una alternativa tecnolgica y de administracin de negocios,

    que cubre los aspectos del manejo de informacin para la toma de decisiones, desde su

    extraccin en los sistemas, depuracin, transformacin, el diseo de estructuras de datos

    o modelos especiales para el almacenamiento de datos hasta la explotacin de la

    informacin mediante herramientas comerciales de fcil uso para los usuarios. A partir

    de los datos disponibles obtiene un conocimiento no implcito en los mismos que puede

  • 17

    ayudar a descubrir patrones de comportamiento, evitar errores de gestin, segmentar

    mercados, descubrir nuevas oportunidades de negocio...

    Muchos de los conceptos de Business Intelligence no son nuevos pero han evolucionado

    y han sido redefinidos a partir de la experiencia adquirida con los sistemas de

    informacin y, ms recientemente, con las aplicaciones de Data Warehouse.

    Debido al incremento de la competitividad en los negocios es vital para las empresas

    conseguir tanto una efectividad en los costes como un rpido acceso a la informacin de

    negocio para la totalidad de los usuarios. Estas cuestiones quedan resueltas a travs de

    la implantacin de un sistema de Business Intelligence, que proporciona un conjunto de

    tecnologas y productos para proveer a los usuarios de la informacin demandada en la

    toma de decisiones de negocio de carcter estratgico o tctico.

    Principales conceptos utilizados

    Antes de entrar en ms detalle en las tcnicas de Business Intelligence, conviene tener

    clara la terminologa empleada:

    ?? Bases de Datos Operacionales: Bases de datos detalladas definidas para

    satisfacer las necesidades de informacin de procesos de negocio en ocasiones

    muy complejos.

    El modelo de datos est normalizado para evitar redundancias y un doble

    mantenimiento.

    ?? OLTP: On-line Transaction Processing describe a los sistemas que trabajan con

    datos operacionales La informacin es detallada y est en continua

    actualizacin.

    ?? Data Warehouse: Base de datos orientada a temas, con datos integrados, no

    voltiles (la informacin no cambia continuamente), y que perduran en el tiempo

    (lo que permite seguir la evolucin del sistema). Contiene adems informacin

    de negocio (datos informacionales: histricos, totales, medias, porcentajes...)

    que le permiten a la alta direccin seguir el progreso de su empresa.

    ?? Data Mart: Contiene los datos de negocio de especial inters para un

    determinado departamento, unidad de negocio o grupo de usuarios con las

  • 18

    mismas necesidades de informacin. Al igual que un Data Warehouse, almacena

    informacin histrica y operaciones precalculadas para optimizar el acceso. Un

    Data Mart es en efecto un Data Warehouse departamental.

    ?? Fuente de datos externa: Proporciona aquellos datos que son necesarios para

    garantizar la calidad de la informacin en el Data Warehouse y que no se

    encuentran en los sistemas OLTP.

    ?? OLAP: On-line Analytical Processing es una tecnologa SW que permite a los

    analistas, directivos y ejecutivos comprender la informacin de negocio de una

    forma rpida e interactiva. Para ello se sirve de diversas vistas que presentan los

    datos desde diferentes dimensiones, lo que permite realizar comparaciones,

    simular escenarios futuros y entender mejor las relaciones entre los datos.

    En el caso de bases de datos relacionales hablaremos de ROLAP (Relational On-

    line Analytical Processing), para multidimensionales de MOLAP

    (Multidimensional On-line Analytical Processing) y de HOLAP (Hybrid On-line

    Analytical Processing) en caso de modelos mixtos.

    ??Metadata: Informacin sobre los propios datos almacenados como una

    descripcin de tablas y campos, tipos de datos, rango de valores permitidos,

    procesos de transformacin...

  • 19

    ?? Drill Down: Capacidad para navegar a travs de la informacin siguiendo una

    estructura jerrquica.

    En la siguiente figura se muestra un pequeo ejemplo:

    ?? Drill Across: Capacidad para navegar a travs de la informacin saltando por

    las distintas dimensiones en modelos multidimensionales.

  • 20

    ?? Diferencia entre bases de datos operacionales e informacionales: La mayor

    diferencia entre estos dos modelos de bases de datos reside en la frecuencia de

    actualizacin de la informacin:

    o En los sistemas operacionales se llevan a cabo un gran nmero de

    transacciones cada hora por lo que los datos estn siempre actualizados y

    reflejan la situacin de la empresa en ese momento del tiempo.

    o Los sistemas informacionales permanecen estables durante un periodo de

    tiempo, finalizado el cual se realiza un proceso de carga (en horario que

    no afecte a produccin) que extrae los cambios y los nuevos registros de

    los sistemas operacionales, actualizando la base de datos informacional.

    ??Minera de datos: Proceso de extraer de los datos un conocimiento vlido, de

    utilidad y antes desconocido para mejorar la toma de decisiones de negocio.

  • 21

    Evolucin de los sistemas de informacin

    Algunas de las primeras cuestiones que nos pueden surgir al describir los objetivos de

    un sistema de Business Intelligence son Proporciona un Data Warehouse las mismas

    funcionalidades que un sistema de Business Intelligence? un Data Warehouse es

    similar a los clsicos sistemas de informacin implementados en la mayora de las

    empresas? Aunque en un primer momento podemos responder de forma afirmativa a

    ambas cuestiones, un anlisis detallado nos muestra que existen importantes diferencias

    entre estos sistemas.

    Siguiendo la evolucin de los sistemas de informacin podemos distinguir tres

    generaciones:

    ?? Primera Generacin Sistemas Host: Los primeros sistemas de informacin

    empleaban programas batch para proporcionar a los usuarios la informacin

    demandada en forma de consultas e informes. La salida de estas aplicaciones

    tpicamente consista en grandes volmenes de hojas que los usuarios tenan que

    analizar para responder a cuestiones de negocio.

    Con la llegada de las aplicaciones de tiempo compartido, estos sistemas ganaron

    rapidez en el acceso a la informacin, pero continuaban siendo incmodos de

    utilizar y requeran acceso a bases de datos operacionales muy complejas.

    Por tanto esta primera generacin de sistemas slo poda ser utilizada por

    usuarios avanzados con un amplio conocimiento en el manejo de los datos (por

    ejemplo, analistas de negocio). Los ejecutivos de la direccin dependan por

    tanto del anlisis suministrado por terceros con el consiguiente retraso en el

    tiempo.

    ?? Segunda Generacin Data Warehouse: La segunda generacin de los

    sistemas de informacin lleg con el Data Warehouse que supuso un gran

    avance en las prestaciones puesto que permite almacenar la totalidad de la

    informacin de una empresa en un repositorio nico con un formato de datos

    comn.

  • 22

    El uso de la arquitectura cliente-servidor proporciona a los usuarios una mejora

    en los interfaces y unas herramientas de soporte a la toma de decisiones ms

    potentes.

    Este tipo de sistemas se ver a continuacin con ms detalle.

    ?? Tercera Generacin Business Intelligence: Un Data Warehouse no es an

    una solucin completa para satisfacer la necesidades de los usuarios de negocio.

    Una debilidad de muchos de estos sistemas es que los proveedores con

    frecuencia se centran nicamente en la tecnologa en vez de en las soluciones de

    negocio. Hay que tener en cuenta adems el gran esfuerzo necesario para la

    implantacin completa de un Data Warehouse as como de las herramientas de

    acceso al mismo. A esto hay que sumarle el hecho de que los productos de Data

    WareHouse rara vez vienen agrupados en paquetes predefinidos para industrias

    determinadas o reas de aplicacin especficas.

    Otro error que suele cometerse al implantar un Data Warehouse es centrase en la

    construccin del almacn de datos, olvidndose del acceso al mismo. Si la

    informacin contenida en el Data Warehouse no est bien documentada y es

    comprensible y fcil de acceder por los usuarios, stos no sacarn del sistema el

    rendimiento esperado.

    Los sistemas de Business Intelligence se centran en mejorar el acceso a la

    informacin de negocio. Para ello se sirven de herramientas grficas, OLAP

    (online analytical processing) y de minera de datos.

    Previsiblemente, necesitarn procesar y analizar grandes volmenes de

    informacin, por lo que parmetros como la escalabilidad e integracin de

    productos de distintos fabricantes no deben ser olvidados.

    La informacin almacenada en un Data Warehouse procede con frecuencia de

    bases de datos operacionales (y en algunos casos de fuentes externas). Sin

    embargo una parte importante de la informacin est contenida en la oficina,

    sistemas de trabajo, servidores web de las intranets corporativas, Internet, en

    papel...Para resolver este problema, los sistemas de Business Intelligence estn

    diseados para soportar el acceso a todos los formatos de informacin de

    negocio, no slo a los datos almacenados en el propio Data Warehouse.

  • 23

    El hecho de tener un sistema de Business Intelligence no descarta la necesidad

    de un Data Warehouse central un Data Warehouse es simplemente una de las

    fuentes de datos manejada por un sistema de Business Intelligence.

    Como vemos, un sistema de Business Intelliegence constituye una tercera

    generacin en los sistemas de informacin y presenta principalmente tres

    ventajas:

    o Oferta de soluciones especficas en paquetes predefinidos.

    o Sistemas centrados en optimizar el acceso de los usuarios finales a la

    informacin de negocio

    o Soporte de todos los formatos de informacin, no slo de la

    almacenada en un Data Warehouse.

    La siguiente figura muestra la estructura global de un sistema de Business

    Intelligence:

  • 24

    Utilidad de los sistemas de Business Intelligence

    Las operaciones diarias de cualquier empresa generan gran cantidad de datos a

    almacenar: pedidos, inventarios, facturacin, transacciones...Sin olvidar los datos

    procedentes de fuentes externas como las listas de distribucin por mail.

    El hecho de ser capaces de consolidar y analizar toda esta informacin para optimizar

    las decisiones de negocio puede ser el factor que diferencie a la empresa de sus

    competidoras.

    Para que esto sea posible ser necesario disponer de las aplicaciones y herramientas

    necesarias para el anlisis y, ms importante todava, de unos datos consistentes y en el

    formato adecuado.

    Sistemas Data Warehouse

    Data Warehouse es el centro de la arquitectura para los sistemas de informacin en la

    dcada de los 90. Soporta el procesamiento informtico al proveer una plataforma

    slida, a partir de los datos histricos para hacer el anlisis. Facilita la integracin de

    sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan

    para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.

    Un Data Warehouse es una coleccin de datos orientado a temas, integrado, no voltil,

    de tiempo variante, que se usa para el soporte del proceso de toma de decisiones

    empresariales.

    Historia

    El concepto de Data Warehouse surgi a partir de los sistemas expertos y las tcnicas de

    Inteligencia Artificial que alcanzaron mayor auge en la dcada de los 80. El objetivo de

    los sistemas expertos era el de emular el comportamiento humano, automatizando en lo

    posible la toma de decisiones. Para ello era necesario crear una base de conocimiento

    que contuviera todas las reglas que rigen el comportamiento de un experto.

    La Inteligencia Artificial desarroll una serie de tcnicas que permitan que los sistemas

    expertos desarrollados aprendiesen con la experiencia y fueran capaces de modificar las

    reglas de actuacin segn el nuevo conocimiento adquirido.

  • 25

    A pesar de todo fueron muy poco los sistemas expertos desarrollados con xito debido a

    varias razones:

    ?? Ausencia de la tecnologa necesaria.

    ?? Carencia de una metodologa estndar de desarrollo.

    ?? No existencia de un repositorio central de datos.

    En la misma poca surgi el concepto de Ingeniera de la Informacin (Information

    Engineering IE) que consista en una metodologa que ayudaba a las empresas a

    entender el significado de los datos de negocio y las relaciones entre los mismos. A

    diferencia de los sistemas expertos, la Ingeniera de la Informacin era ms fcil de

    entender y constaba de una metodologa estndar, adems de ofrecer buenos resultados,

    por lo que durante varios aos alcanz gran xito y difusin.

    Con las redes locales (LANs) apareci la posibilidad de distribuir la capacidad de

    proceso, por lo que los sistemas Data Warehouse entraron en escena como una solucin

    viable de almacenar la informacin, unificando conceptos de Ingeniera de la

    Informacin, Sistemas Expertos e Inteligencia Artificial. Del primero hered el modelo

    de arquitectura de datos y de los otros dos la toma de decisiones.

    Objetivo

    El principal objetivo de un Data Warehouse es almacenar grandes volmenes de datos

    previamente transformados a unos valores y formato fcilmente comprensibles.

    Un Data Warehouse constituye un repositorio central para una empresa, proporcionando

    informacin consistente y de alta calidad para la toma de decisiones estratgicas o

    tcticas. Su fuente de informacin suele ser un sistema operacional clsico del que toma

    los datos de negocio, les aplica unos procesos de transformacin y carga para conseguir

    una informacin consistente y con valores estndar y realiza operaciones con ellos

    almacenando los resultados como un dato ms. De esta forma medidas como totales,

    medias y porcentajes se obtienen de forma casi inmediata puesto que ya han sido

    precalculados.

  • 26

    Necesidad

    Los sistemas de ingreso de transacciones se ven afectados por las consultas a sus bases

    de datos. Generalmente poseen informes predefinidos, y cualquier modificacin a los

    mismos debe ser solicitado al departamento de sistemas, que ser en definitiva quien

    evaluar si tiene los recursos humanos disponibles como para realizarlos. El Data

    Warehouse est separado de los sistemas transaccionales, por lo tanto las consultas no

    afectan la velocidad de registro de las operaciones. Se actualiza peridicamente,

    capturando datos de los distintos sistemas transaccionales. Una vez implementado, es

    importante elegir las herramientas de consulta al Data Warehouse, que permitan un alto

    grado de autonoma a los usuarios.

    Diferencia con las bases de datos operacionales

    En la siguiente tabla puede verse un contraste de cmo los datos de negocio

    almacenados en un Data Warehouse, difieren de los datos operacionales usados por las

    aplicaciones de produccin

    Base de Datos Operacional Data Warehouse

    Datos Operacionales Datos del negocio para Informacin

    Orientado a la aplicacin Orientado al sujeto

    Actual Actual + histrico

    Detallada Detallada + ms resumida

    Cambia continuamente Estable

    Asimismo, ambos modelos de sistemas de almacenamiento de datos difieren en el uso

    que se hace de ellos:

  • 27

    Uso de Base de Datos

    Operacionales

    Uso de

    Data Warehouse

    Muchos usuarios concurrentes Pocos usuarios concurrentes

    Consultas predefinidas y

    actualizables

    Consultas complejas, frecuentemente

    no anticipadas.

    Cantidades pequeas de datos

    detallados

    Cantidades grandes de datos

    detallados

    Requerimientos de respuesta

    inmediata

    Requerimientos de respuesta no

    crticos

    Los usuarios de un Data Warehouse necesitan acceder a datos complejos,

    frecuentemente desde fuentes mltiples y de formas no predecibles.

    Por el contrario, los usuarios que accedan a los datos operacionales, comnmente

    efectan tareas predefinidas que, generalmente requieren acceso a una sola base de

    datos de una aplicacin.

    Modelos de datos empleados

    Por las caractersticas especiales de un Data Warehouse, no resulta apropiado emplear el

    clsico modelo de datos relacional. Se optar por diseos que preparen la informacin

    de acuerdo a la necesidad de tomar decisiones y no a los argumentos tcnicos de espacio

    de almacenamiento. Los ms comunes son:

    ??Modelo en estrella: se basa en la creacin de tablas de hechos, es decir, tablas

    que contengan la informacin numrica de los indicadores a analizar, o sea la

    informacin cuantitativa de la informacin para la toma de decisiones. Las tablas

    anteriores se relacionan con tablas de dimensiones, las cuales contienen la

    informacin cualitativa, de los indicadores, es decir, toda aquella informacin

    que clasifique la informacin requerida. Es el modelo de datos ms utilizado en

    Data Warehouse.

    En las siguientes imgenes puede verse un ejemplo de implementacin de

    modelo en estrella:

  • 28

    ??Modelo copo de nieve: modelo en estrella que se obtiene desglosando todas las

    dimensiones.

    ??Modelo multidimensional (en cubo): Cada cara del cubo representa una

    dimensin y la interseccin de todas las dimensiones (una celda del cubo)

    almacena datos relevantes o medidas precalculadas. Es adecuado nicamente

    para tres o incluso cuatro dimensiones, con un nmero mayor se complica

    demasiado. No se utiliza de forma frecuente debido a que se desaprovecha

    mucho espacio, son complejos y difcil de mantener.

    En la siguiente figura puede verse un ejemplo de modelo en cubo con tres

    dimensiones: tiempo, producto y cliente:

  • 29

    Ventajas

    Las principales ventajas de este nuevo modelo frente a los sistemas clsicos son:

    ?? Acceder a un Data Warehouse es relativamente fcil y rpido.

    ?? Los informes generados son consistentes y no es necesario realizar cruces o

    reconciliaciones entre ellos.

    ?? Un Data Warehouse est diseado especficamente para satisfacer las

    necesidades de negocio de los usuarios y no para la aplicaciones operacionales

    del da a da.

    ?? La informacin almacenada en un Data Warehouse es limpia, consistente y en

    un formato comprensible para los usuarios.

    ?? Adems de la informacin actual, un Data Warehouse suele contener registros

    histricos, as como el resultado de diversas operaciones realizadas con los datos

    (totales, medias...).

    ??Mejora en el seguimiento de los resultados de negocio y rapidez y eficacia en la

    toma de decisiones, lo que supone una clara diferenciacin de las empresas

    competidoras.

    Estructura

    Una de las razones por las que el desarrollo de un Data Warehouse crece rpidamente,

    es que realmente es una tecnologa muy entendible. De hecho, puede representar mejor

    la estructura amplia de una empresa para administrar los datos informacionales dentro

    de la organizacin.

    La siguiente figura muestra la estructura bsica de un sistema Data Warehouse:

  • 30

    Arquitectura

    A la hora de implementar un sistema Data Warehouse puede optarse por una de las

    siguientes arquitecturas (de menor a mayor complejidad):

    ?? Virtual Data Warehouse: El Data Warehouse no existe realmente,

    simplemente se simula una funcionalidad similar a la que proporcionara ste a

    base de extraer de los sistemas operacionales la informacin necesaria para un

    propsito determinado.

    ?? One-tier Data Warehouse: Diseado para un departamento concreto, sin

    englobar la informacin del resto de la organizacin. Suele corresponder a un

    Data Mart.

    ?? Data Marts: Se construyen varios Data Marts para los departamentos ms

    importantes de la empresa. Luego es posible su integracin en un Data

    Warehouse central.

    La diferencia entre tener un Data Warehouse Central y varios Data Marts

    independientes es que en el primer caso se pueden aprovechar procesos

    automticos que actualizan los datos en cadena, adems de ganar consistencia en

    la informacin al estar los datos relacionados entre s.

    ?? Two-tier Data Warehouse: Arquitectura Data Warehouse ms completa que

    optimiza al mximo la extraccin de los datos al disponer, adems de un Data

    Warehouse central, de un Data Mart que es con el que trabajan directamente los

    usuarios.

  • 31

    Herramientas Business Intelligence

    Existen numerosas herramientas en el mercado que ayudan a realizar las diferentes

    tareas necesarias para construir, mantener y trabajar con un sistema de Business

    Intelligence.

    En la figura pueden verse algunas de ellas:

    Las herramientas de anlisis, es decir, las posteriores al proceso de construccin del

    Data Warehouse que sirven para trabajar con la informacin almacenada, pueden

    clasificarse en funcin de su complejidad segn muestra la siguiente pirmide:

  • 32

    DATOS

    QUERY & REPORTING

    AN LISIS

    MINERA

    DSS

    ?? Query y Reporting: nicamente ofrecen la posibilidad al usuario de realizar

    consultas avanzadas y extraer informes.

    ?? Anlisis (OLAP): Permiten adems jugar con la informacin, simulando

    escenarios futuros, analizando distintas dimensiones y puntos de vista,

    descubriendo relaciones entre variables...

    ??Minera: implica el descubrimiento de informacin anteriormente desconocida,

    comprensible, novedosa y vlida, a partir de grandes almacenamientos de datos.

    La informacin resultante puede constituir una ayuda para tomar decisiones.

    Para este proyecto utilizaremos el Intelligent Miner for Data de IBM que es

    una de las herramientas de minera ms completa que hay actualmente en el

    mercado.

    ?? DSS: Decisin Support System. Aplicaciones que extraen y representan la

    informacin de negocio de forma concreta, grfica y fcilmente comprensible

    para ayudar a la toma de decisiones empresariales.

    A continuacin analizaremos con ms detalle en qu consiste la minera de datos.

  • 33

    Minera de datos

    La tecnologa de la informacin ha evolucionado de forma muy rpida en las tres

    ltimas dcadas. Cada vez ms, muchas empresas almacenan grandes volmenes de

    datos en sus sistemas informticos. Puede ser que informaciones tiles se encuentren

    ocultas en los datos con el formato de patrones y conexiones implcitas que no son

    fciles de distinguir mediante las consultas de datos convencionales y los clculos de

    estadsticas.

    La minera de datos es el proceso que implica el descubrimiento de informacin

    anteriormente desconocida, comprensible, novedosa y vlida, a partir de grandes

    almacenamientos de datos. La informacin extrada puede utilizarse para realizar una

    prediccin o un modelo de clasificacin o bien para identificar las semejanzas existentes

    entre los registros de la base de datos. La informacin resultante puede constituir una

    ayuda para tomar decisiones con ms conocimiento.

    Por ejemplo, en una tienda se puede utilizar la minera de datos para identificar los

    grupos de clientes que probablemente respondern a los nuevos productos y servicios o

    para identificar nuevas oportunidades de venta cruzada. Una compaa de seguros puede

    utilizarla con los datos de reclamaciones para identificar posibles indicadores de fraude.

    Algunos ejemplos de las preguntas que se pueden responder con las herramientas de

    Data Mining son:

    ?? Qu caractersticas tienen los mejores clientes?

    ?? Qu caractersticas tienen los clientes que estoy pierde la empresa?

    ?? A quines debera dirigir una campaa publicitaria?

    ?? Cules son los factores que inciden en que algunas mquinas tengan mayores

    tasas de fallos que otras?

    ?? Es efectiva la aplicacin de una droga medicinal? Cuales fueron los cinco grupos

    que obtuvieron los mejores resultados?

    ?? A quines no se deben venderles seguros contra todo riesgo?

    ?? Qu factores inciden en el aumento de la tasa de fallas?

    La minera de datos es un proceso iterativo que implica generalmente la seleccin y

    transformacin de datos de entrada, la ejecucin de una funcin de minera y la

  • 34

    interpretacin de los resultados. Las funciones de minera utilizan tcnicas matemticas

    elaboradas para descubrir patrones ocultos en los datos.

    La siguiente figura muestra el modelo bsico de minera de datos:

    Seleccin de los datos de entrada

    El primer paso de la minera de datos consiste en especificar los datos de entrada que se

    deseen explorar y analizar. Puede que una fuente de datos no contenga todos los datos

    que se quieran utilizar para un objetivo concreto de minera de datos, o bien puede que

    contenga datos irrelevantes. As, estos datos pueden estar en una o ms tablas de base de

    datos, vistas o archivos planos.

    Exploracin de los datos

    En cualquier momento del proceso se pueden utilizar funciones estadsticas para

    explorar y analizar los datos. Puede que se desee aplicar un anlisis de estadsticas al

    considerar los datos de entrada como variables para una funcin de minera. Las

    funciones estadsticas tambin se pueden utilizar para transformar datos creando campos

    de entrada para su exploracin. Adems, estas funciones sirven para evaluar los datos de

    salida de las funciones de minera.

  • 35

    Transformacin de los datos

    Cuando se han especificado los datos de entrada, se pueden transformar mediante

    funciones de preproceso. Las funciones de proceso como discretizacin, filtro y unin le

    permiten organizar los datos para que se puedan explorar con eficacia.

    Por ejemplo, si los datos contienen los campos Sueldo y Comisin, puede sumar los

    valores de estos dos campos y crear un campo de datos denominado Sueldo_total.

    Minera de datos

    Los datos transformados se extraen consecutivamente mediante una o ms funciones de

    minera. Algunos ejemplos de funciones de minera son:

    ?? Asociaciones

    ?? Clasificacin neuronal

    ?? Clasificacin en rbol

    ?? Clustering demogrfico

    ?? Clustering neuronal

    ?? Patrones secuenciales

    ?? Secuencias semejantes

    ?? Prediccin neuronal

    ?? Prediccin-Funcin base radial (RBF)

    Interpretacin de los resultados

    Puede analizar los resultados del proceso de minera de datos en base a los objetivos de

    apoyo a las decisiones que tome. Las herramientas de visualizacin permiten ver los

    resultados e identificar la informacin importante que queda al descubierto mediante el

    proceso de minera. Los resultados pueden exportarse a una estacin de trabajo remota

    de manera que puedan visualizarse en una ubicacin diferente. Tambin se pueden

    copiar determinados resultados al portapapeles haciendo as que estn disponibles para

    otras herramientas, como hojas de clculo o aplicaciones estadsticas.

    La minera de datos puede ser un proceso iterativo. Si se observa un resultado anterior,

    podra querer ajustarse la formulacin de la minera para una ejecucin de minera que

    mejore la calidad del resultado.

  • 36

    Intelligent Miner for Data

    IBM DB2 Intelligent Miner for Data Versin 8 es un conjunto de funciones estadsticas,

    de preproceso y de minera que se pueden utilizar para analizar grandes bases de datos.

    Tambin ofrece herramientas de visualizacin para ver e interpretar los resultados de

    minera.

    Algunas de sus principales caractersticas son las siguientes:

    ?? Proporciona un conjunto de herramientas que forman un marco de trabajo

    nico para la extraccin de datos.

    ?? Admite el proceso iterativo y permite el procesamiento de datos, el anlisis

    estadstico y la visualizacin de resultados como suplemento de su amplia

    variedad de mtodos de extraccin.

    ?? Utiliza algoritmos de extraccin garantizados, ya sea individualmente o

    combinados, para resolver numerosos problemas de negocios y obtener

    resultados comerciales mensurables.

    ?? Proporciona una solucin ampliable, centrada en las reas clave de la

    extraccin a gran escala, como por ejemplo, los grandes volmenes de datos,

    la extraccin paralela de datos, las operaciones de extraccin a largo plazo y

    la mejora de los algoritmos de extraccin.

    ?? Incluye un interfaz de programacin de aplicaciones que permite el

    desarrollo de aplicaciones de extraccin personalizadas adaptadas a cada

    sector especfico.

    ?? Proporciona una sofisticada extensin SQL de la base de datos DB2 y activa

    la incrustacin de funciones de modelado en las aplicaciones empresariales.

    ?? Admite el desarrollo de modelos de extraccin de datos en un formato

    compatible con el lenguaje PMML (del ingls Predictive Model Markup

    Language, lenguaje de marcado para modelos predictivos) V2.0, la nueva

    norma estndar del sector para modelos analticos.

    ?? Los usuarios pueden aplicar las nuevas relaciones entre los datos a nuevos

    datos en tiempo real.

    ?? Permite el anlisis de modelos de extraccin de datos a travs de DB2

    Intelligent Miner Visualizer, un navegador de resultados basado en Java.

  • 37

    Permite consultar y evaluar los resultados del proceso de modelado de

    extraccin de datos incluso a los usuarios menos expertos.

    La siguiente figura muestra un esquema tpico de arquitectura cliente-servidor del

    Intelligent Miner:

    Como vemos en la imagen, sus principales componentes son:

  • 38

    ?? Interfaz de usuario: Programa que permite definir las funciones de minera de

    datos en un entorno grfico. Pueden definirse las preferencias de la interfaz de

    usuario, que estn almacenadas en el cliente.

    La pantalla principal de este interfaz se muestra en la siguiente imagen:

    ?? API de capa de entorno: Conjunto de funciones API que controlan la ejecucin

    de procesos y resultados de minera. Las secuencias de funciones y operaciones

    de minera se pueden definir y ejecutar mediante la interfaz de usuario a travs

    de la API de capa de entorno. La API de capa de entorno est disponible en

    todos los sistemas operativos servidores.

    ?? Visualizador: Herramienta que visualiza el resultado generado por una funcin

    estadstica o de minera. Intelligent Miner ofrece un amplio conjunto de

    herramientas de visualizacin.

    En la siguiente pantalla puede verse como ejemplo la visualizacin del resultado

    de ejecutar una funcin de minera:

  • 39

  • 40

    Se pueden utilizar, adems, otras herramientas de visualizacin.

    ?? Acceso a datos: Acceso a datos de archivos planos, tablas y vistas de bases de

    datos.

    ?? Tablas de bases de datos y archivos planos: Tipos de datos que se pueden

    procesar. Los componentes de Intelligent Miner trabajan directamente con datos

    almacenados en una base de datos relacional o en archivos planos. Los datos no

    han de copiarse en un formato especial. Los objetos de datos de entrada y salida

    que defina son objetos que constituyen descripciones lgicas de los datos fsicos.

    Esta descripcin lgica permite que se modifique la ubicacin fsica de los datos

    sin que ello afecte a los objetos que utilizan dichos datos. Slo se pueden

    cambiar las descripciones lgicas. El cambio puede ser tan simple como

    modificar el nombre de una tabla de base de datos.

    ?? Biblioteca de proceso: Biblioteca que proporciona acceso a funciones de bases

    de datos.

    ?? Bases de minera: Coleccin de objetos de minera de datos que se utilizan para

    un objetivo de minera o un problema de gestin. Las bases de minera se

    almacenan en el servidor, que permite el acceso desde distintos clientes.

    ??Kernels de minera: Algoritmos que comienzan a operar cuando se ejecuta una

    minera de datos o una funcin estadstica.

    ?? Resultados de minera, API de resultado y herramientas para exportacin:

    Datos extrados por la ejecucin de minera o la funcin estadstica. Estos

    componentes le permiten visualizar los resultados en el cliente. Los resultados se

    pueden exportar para proceso posterior o para utilizarlos con herramientas de

    visualizacin.

    El proceso para trabajar con el Intelligent Miner es el siguiente:

    ?? Buscar entre los datos hechos significativos.

    ?? Determinar qu variables intervienen.

    ?? Definir las variables al Intelligent Miner.

    ?? Lanzar el estudio.

    ?? Internamente se realizan comparaciones entre las distintas rebanadas del cubo.

    ?? Como salida ofrece una lista de aquello que le llama especialmente la atencin:

    patrones, diferencias significativas...

    ?? Interpretar los resultados por parte del analista, lo que constituye sin duda la

    tarea ms difcil y laboriosa.

  • 41

    2-TCNICAS DE ANLISIS

    Las herramientas de minera de datos se apoyan en dos tipos de tcnicas para la

    obtencin de resultados que ayuden a la toma de decisiones empresariales:

    ?? Tcnicas estadsticas

    ?? Tcnicas de minera (con frecuencia heredadas del rea de Inteligencia

    Artificial)

    Cul es la diferencia entre ambas? No es una pregunta fcil de responder; tanto el xito

    de las tcnicas de minera como el de las estadsticas dependen de los mismos factores:

    datos depurados, fiables, bien definidos y validados. Adems la mayora de las tcnicas

    se aplican para la resolucin del mismo tipo de problemas (prediccin, clasificacin...).

    Podramos quizs sealar como diferencia que las tcnicas de minera tienden a ser ms

    robustas y fciles de aplicar para usuarios poco experimentados. Por otra parte requieren

    por lo general mayor potencia de clculo, lo que hoy en da ya no supone un problema.

    Una de las principales diferencias entre los modelos estadsticos y los modelos de

    inteligencia artificial, es cmo miden su error. Los primeros miden el error relativo tal

    como el modelo "adapta" los datos, mientras que los segundos, miden el error relativo a

    los datos an invisibles (Error predictivo).

    Segundo, los modelos estadsticos tienen dificultades al dar datos contradictorios o

    desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones

    consistentes. Viceversa, las herramientas de inteligencia artificial buscan "generalizar"

    relaciones para proporcionar el resultado ms probable.

    Vamos a ver con ms detalle cada una de estas tcnicas.

  • 42

    2.1-Tcnicas estadsticas

    Las funciones estadsticas ofrecen diversos mtodos de pronstico para dar apoyo a la

    toma de decisiones empresariales. Aunque no son propias de minera de datos (se

    utilizaban mucho antes de que surgiera este concepto), resultan de gran utilidad a la

    hora de descubrir patrones o elaborar modelos de prediccin.

    Pueden emplearse para obtener ms informacin sobre los datos, lo que permitir tomar

    decisiones ms acertadas cuando se apliquen los procesos de minera. Las funciones

    estadsticas se aplican a los datos de entrada y producen datos de salida y resultados.

    Mediante la aplicacin de distintos clculos y teoras estadsticas a los datos de entrada

    se pueden descubrir en ellos patrones ocultos. Estas funciones se pueden utilizar en los

    pasos de transformacin y minera del proceso. Algunos ejemplos de aplicacin de las

    funciones estadsticas son los siguientes:

    ?? Con la tcnica de Regresin lineal se pueden predecir valores mediante un

    modelo de ajuste lineal.

    ??Mediante el Anlisis de componentes principales pueden verse los atributos

    ms dominantes en los datos.

    ?? Con Anlisis de factores se puede reducir el nmero de variables de los datos

    de entrada.

    Consideraciones

    Mediante las funciones estadsticas se pueden analizar fcilmente los datos utilizando

    varios mtodos de estadstica diferentes. Se puede tener la tentacin de probar con

    diferentes mtodos sin considerar la naturaleza de los datos. Utilizando distintos

    mtodos sobre un conjunto de datos se pueden conseguir hallazgos estadsticamente

    significativos por casualidad. No obstante, lo mejor es elegir un mtodo de estadstica

    basado en la naturaleza de los datos y en la informacin que puede utilizarse.

    Se dispone de muchos mtodos de estadstica complejos. En cualquier caso, conviene

    utilizarlos e interpretarlos correctamente. Tambin debe prestarse especial atencin a las

    limitaciones y presunciones de cada mtodo.

  • 43

    Categorizacin de datos

    Para poder seleccionar la funcin estadstica apropiada se deben concretar las

    necesidades a cubrir y conocer el tipo de datos que se van a analizar.

    Se puede probar una hiptesis, buscar posibles tendencias, recopilar informacin

    preliminar o depurar un problema de investigacin.

    Los datos pueden categorizarse atendiendo al nmero de variables, la escala de medida

    y el nmero de casos. Dependiendo de estos criterios, podr seleccionar la funcin

    estadstica apropiada:

    ?? Nmero de variables: Una variable es una caracterstica mensurable de una

    poblacin determinada. Cada una de las funciones estadsticas requiere un cierto

    nmero de variables.

    ?? Escala de medida: Los mtodos de estadsticas requieren escalas de medida

    aplicables a los datos. Una vez se saben las escalas de medida aplicables a los

    datos, se pueden delimitar los mtodos utilizables.

    Los datos pueden medirse mediante una de las siguientes escalas de medida:

    o Escala de medida Nominal (la ms bsica) no asume nada sobre los

    valores asignados a los datos. Cada valor no es ms que una etiqueta o

    nombre para cada categora. El orden o diferencia entre los distintos

    valores no tiene significado alguno. Por ejemplo, podra utilizarse un

    cdigo numrico para designar ciudades en los datos: 1 podra ser Pars,

    2, Londres y 3, Nueva York.

    o Escala de medida Ordinal asume que se puede asignar un orden a los

    datos, aunque no se pueda medir la distancia entre nmeros. Por ejemplo,

    un profesor puede jerarquizar los exmenes de los estudiantes: 1 es el

    mejor, 2 es intermedio, 3 es malo. Esta escala indica que 1 es mejor que

    2 pero no cunto mejor es.

    o Escala de medida de Intervalo mide la distancia entre los valores y los

    rangos de los datos. Sin embargo, no se pueden sacar conclusiones de

    proporcionalidad dentro de la escala, porque no hay un punto cero

    verdadero. Por ejemplo, al comparar las escalas Celsius y Fahrenheit se

    hace evidente que 20 grados Celsius no es el doble de caliente que 10

    grados Celsius. 10 grados Celsius corresponden a 50 grados Fahrenheit.

    20 grados Celsius corresponden a 86 grados Fahrenheit. 86 grados

  • 44

    Fahrenheit no es el doble de 50 grados. Las razones no son iguales

    porque ambas escalas tienen un punto cero arbitrario.

    o Medida de Razn (la ms alta) tiene un punto cero verdadero. Todas las

    dems propiedades son las mismas que en la medida de intervalo. Por

    ejemplo, debido a que tiempo y distancia son medidas de razn, es cierto

    que un automvil circulando a 50 km. por hora va el doble de rpido que

    otro automvil que circula a 25 km. por hora.

    Los mtodos desarrollados para una escala de medida ms bsica pueden

    utilizarse con datos de una escala de medida ms alta.

    ?? Nmero de observaciones: Algunas funciones estadsticas requieren un nmero

    mnimo de observaciones para realizar clculos vlidos.

    La siguiente tabla puede ayudar a seleccionar la funcin estadstica apropiada. I

    representa una escala de intervalo, R representa una escala de razn y O

    representa una escala ordinal.

    Funcin Estadstica Escala de medida Nmero de variables

    Regresin I R 2 o ms

    Ajuste de curva univariable I R 1

    Anlisis de componentes

    principales

    I R 2 o ms

    Anlisis factorial I R 2 o ms

    A continuacin analizaremos con ms detalle cada una de estas tcnicas estadsticas.

    2.1.1-Regresin lineal

    La tcnica de Regresin lineal se utiliza para determinar la mejor relacin lineal entre la

    variable dependiente y una o ms variables independientes. La variable dependiente es

    aquella que se desea predecir y las variables independientes son aquellas en las que se

    basa la prediccin.

  • 45

    Mejor significa que se produzcan el menor nmero de errores si se basa la prediccin

    en la funcin lineal generada por el programa.

    La frmula general de regresin es:

    y = ? 0 + ? 1x1 + ? 2x2 ... ? nxn + ?

    donde y indica la variable dependiente, de ? a ? indican los coeficientes desconocidos,

    de x1 a xn indican las variables independientes y ? denota el margen de error.

    La relacin entre los valores conocidos y los predichos puede representarse en un plano

    bidimensional, situando las variables en las que se basa la prediccin en el eje Y y la

    variable dependiente en el eje X.

    El modelo de regresin lineal sera la lnea que minimiza la tasa de error entre el valor

    rela y el punto de la lnea (valor predicho). La forma ms comn de calcular este error

    es el cuadrado de la diferencia entre el valor real y el predicho.

    En la siguiente figura puede verse un ejemplo de representacin grfica:

    Se puede determinar un umbral de significancia para que las variables independientes

    cuyo valor de probabilidad est por encima de dicho umbral no se tengan en cuenta al

    construir el modelo de regresin. De este modo, slo pasan a formar parte del modelo

    las variables independientes que contribuyen del modo ms significativo en el resultado.

  • 46

    Un valor de probabilidad cercano a 0 marca una variable como muy significativa; un

    valor de probabilidad cercano a 1 marca una variable como insignificante. ste es el

    motivo por el cual no se tienen en cuenta las variables que estn por encima del umbral.

    Si no se especifica ningn valor para nivel de significancia, se utiliza el valor por

    omisin 0,5.

    2.1.2-Ajuste de curva univariable

    El Ajuste de curva univariable descubre una funcin matemtica que describe

    exactamente la distribucin de los datos a travs del tiempo. Pueden seleccionarse los

    siguientes tipos de curvas:

    ??Mejor ajuste

    ?? Exponencial

    ?? Hiprbola

    ?? Lineal

    ?? Potencia

    ?? Racional

    ?? Recproca

    2.1.3-Anlisis de componentes principales

    El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de

    la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un

    banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero

    perdiendo la menor cantidad de informacin posible.

    Los nuevos componentes principales o factores sern una combinacin lineal de las

    variables originales, y adems sern independientes entre s.

    Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada

    a priori, sino que ser deducida tras observar la relacin de los factores con las variables

    iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las

    correlaciones).

    Existen dos tipos de Anlisis de Componentes Principales:

  • 47

    ?? Normalizado: se basa en la correlacin de los datos de entrada.

    La correlacin indica la relacin lineal entre dos variables (Correlacin de

    Pearson). Su valor puede estar entre +1 y 1. Una correlacin de +1 significar

    que existe una relacin lineal positiva perfecta entre las dos variables.

    ?? Centrado: se basa en la covarianza de los datos de entrada.

    La covarianza mide la tendencia de dos variables a variar juntas. La varianza es

    el promedio de la desviacin al cuadrado de una variable respecto de su media.

    La covarianza es el promedio de los productos de las desviaciones de los valores

    de las variables de sus medias.

    2.1.4-Anlisis Factorial

    El Anlisis factorial descubre las relaciones entre mltiples variables en base a unas

    cantidades aleatorias subyacentes, pero no observables, que se denominan factores.

    Se trata de una tcnica adecuada para el caso de variables continuas altamente

    correlacionadas, que es cuando podemos suponer que se explican por factores comunes.

    El nmero de factores puede determinarse mediante uno de los siguientes mtodos:

    ?? Dejar que el sistema determine el nmero de factores.

    ?? Especificar el porcentaje de varianza a explicar por los factores calculados.

    ?? Especificar un determinado nmero de factores. Este nmero debe ser menor o

    igual que el nmero de variables de entrada.

    El modelo matemtico del Anlisis Factorial supone que cada una de las p variables

    observadas es funcin de un nmero m factores comunes (m

  • 48

    correlacin alta con un conjunto menor de variables de entrada y pequea o

    ninguna correlacin con otro conjunto de variables de entrada.

    2.1.5-Estadsticas Bivariables

    Se puede utilizar la funcin Estadsticas bivariables para realizar las siguientes tareas:

    ?? Calcular estadsticas bsicas para campos numricos, tales como el mximo,

    mnimo, media, varianza y frecuencias.

    Las frecuencias para campos numricos continuos se calculan sobre valores

    comprendidos entre los lmites de un compartimento.

    ?? Calcular frecuencias para campos categricos y campos discretos numricos.

    ?? Realizar la prueba Chi cuadrado de un campo seleccionado. Si se selecciona un

    campo, el valor de Chi cuadrado se calcula en todas las combinaciones

    existentes de este campo con otros campos.

    ?? Realizar la prueba-F. La prueba-F se aplica a todas las parejas de campos

    numricos.

    ?? Calcular cuantiles de campos numricos seleccionados.

    ?? Extraer muestras de datos de entrada.

    ?? Copiar datos de entrada en una tabla de salida, posiblemente como una muestra.

  • 49

    2.2-Tcnicas de minera

    Veamos a continuacin algunas de las tcnicas de minera ms utilizadas:

    2.2.1-Asociaciones

    El propsito de esta tcnica es encontrar elementos de una transaccin que impliquen la

    presencia de otros elementos en la misma transaccin.

    Si tomamos como ejemplo una base de datos con operaciones de compra y

    consideremos que cada transaccin consiste en un conjunto de elementos que el cliente

    ha adquirido, la funcin de minera Asociaciones detecta relaciones entre los elementos

    del conjunto. Puede detectar que el 60% de los clientes que adquieren tarjetas de

    felicitacin tambin compran productos de cosmtica.

    2.2.2-Clustering

    El objetivo de descubrir clusters es agrupar registros que tengan caractersticas

    similares.

    El resultado de la funcin clustering muestra el nmero de clusters detectados y las

    caractersticas que los constituyen. Adems, es conveniente mostrar la forma en que

    estas caractersticas estn distribuidas en los clusters.

    En el mejor de los casos, cada cluster generado contendr nicamente registros que

    tengan valores idnticos en los parmetros definidos. De esta forma al conocer los datos

    de un miembro del cluster, se conocen los del resto de integrantes. Es muy difcil que se

    d esta situacin (sobre todo si disponemos de muchos elementos a clasificar), por ello

    en ocasiones es necesario dividir clusters heterogneos en grupos ms pequeos que

    constituyan clusters homogneos.

    Otro punto a tener en cuenta es que el nmero de clusters generados sea razonable. Por

    ejemplo no tendra sentido intentar agrupar 30 elementos y obtener 30 clusters distintos.

    Algunas herramientas de minera permiten que el usuario defina una limitacin en el

    nmero de clusters generados.

  • 50

    Existen dos tipos de clustering:

    ?? Clustering Jerrquico

    ?? Clustering no Jerrquico

    El primero ordena los clusters de mayor a menor. El motivo de esto es que el Clustering

    es una tcnica de aprendizaje no supervisado, por lo que no hay una respuesta

    totalmente correcta. De este modo, al presentarlos ordenados resulta ms fcil

    seleccionar el nmero de clusters adecuado. Los clusters con menor nmero de

    elementos podrn unirse para formar clusters mayores.

    En la siguiente figura puede verse un modelo de jerarqua:

    Tomando como ejemplo una base de datos de un supermercado que incluye la

    identificacin de los clientes e informacin acerca de la fecha y la hora en que de las

    compras, la funcin de minera clustering agrupa estos datos en clusters para permitir la

    identificacin de diferentes tipos de compradores.

    Podra ponerse de manifiesto, por ejemplo, que los clientes compran mucho los viernes

    y que normalmente pagan con tarjeta de crdito.

  • 51

    2.2.2.1-Clustering Neuronal

    Aclaremos en primer lugar el concepto de Red Neuronal.

    Una red neuronal artificial es un algoritmo matemtico con algoritmo matemtico con

    capacidad para recordar experiencias y hacerlas disponibles capacidad para recordar

    experiencias y hacerlas disponibles para su uso.

    Recuerda al cerebro humano en dos aspectos:

    ?? El conocimiento es adquirido por la red a travs de un proceso de aprendizaje

    ?? La fuerza de la conexin entre neuronas (pesos sinpticos) es usada para

    almacenar el conocimiento.

    Una red neuronal aprende mediante la modificacin de sus pesos sinpticos.

    Algunas de las ventajas que ofrecen son:

    ??Modela relaciones no lineales

    ??Modela relaciones entrada-salida

    ?? Capacidad de adaptacin

    ?? Tiene en cuenta el contexto de trabajo

    ?? Posibilidad de desarrollo de dispositivos VLSI

    ?? Uniformidad de anlisis y diseo

    ?? Analoga neurobiolgica

    Una neurona artificial es la unidad de procesado bsica de una red neuronal artificial.

    Sus elementos bsicos son:

    ?? Sinapsis o conexiones cada una de ellas con un peso

    ?? Un sumador capaz de sumar entradas pesadas

    ?? Una funcin de activacin que limita la amplitud de la salida

  • 52

    El Clustering Neuronal utiliza una Red neuronal de mapa de caractersticas de Kohonen.

    Los mapas de Kohonen son redes autoorganizadas capaces de codificar y luego

    reconocer modelos de rasgos caractersticos de un entorno.

    Algunas de sus caractersticas son:

    ?? Reconocen patrones

    ?? Son uni o bi-dimensionales lattice de neuronas que calculan simples funciones

    discriminantes sobre las entradas recibidas.

    ?? Seleccin de unidad neuronal ganadora en funcin del mayor valor

    discriminante.

    Una arquitectura lattice es aquella en la que cada entrada va a todas las neuronas. En la

    imagen se muestra un ejemplo de arquitectura lattice 3x1:

  • 53

    Un ejemplo de Mapa de Kohonen podra ser el siguiente:

    Los Mapas de caractersticas de Kohonen utilizan un proceso denominado organizacin

    automtica para agrupar los registros de entrada similares. El usuario especifica el

  • 54

    nmero de clusters y el nmero mximo de pasadas sobre los datos. Estos parmetros

    controlan el tiempo de proceso y el grado de granularidad que se utiliza al asignar los

    registros de datos a los clusters.

    La funcin principal del clustering neuronal es buscar un centro para cada cluster. Este

    centro se denomina tambin prototipo de cluster. Para cada registro de los datos de

    entrada, la funcin de minera Clustering neuronal calcula el prototipo de cluster ms

    cercano al registro.

    La puntuacin de cada registro de datos se representa mediante la distancia eucldea que

    lo separa del prototipo de cluster. Las puntuaciones que se acercan a cero indican un

    grado de similitud al prototipo ms alto. Cuanto ms alta sea la puntuacin, ms se

    diferencia el registro del prototipo de cluster.

    Con cada pasada sobre los datos de entrada, los centros se ajustan de forma que se logra

    una calidad mejor en el modelo de clustering global: el sistema aprende. El indicador de

    progreso muestra la mejora en la calidad en cada pasada durante la ejecucin de la

    funcin de minera.

    2.2.2.2-Clustering Demogrfico

    De igual forma que el Clustering Neuronal, el objetivo de esta funcin de minera es

    agrupar registros que tengan caractersticas similares.

    El Clustering Demogrfico proporciona la agrupacin en clusters rpida y de forma

    natural de bases de datos de gran tamao. Determina automticamente el nmero de

    clusters que se generarn.

    Las semejanzas entre registros se determinan comparando los valores de los campos.

    Los clusters se definen para maximizar el criterio de Condorcet. El criterio de

    Condorcet es la suma de todas las semejanzas de registros de pares dentro del mismo

    cluster menos la suma de todas las semejanzas de registros de pares en diferentes

    cluster.

  • 55

    2.2.3-Patrones secuenciales

    El objeto de buscar patrones secuenciales es encontrar patrones de comportamiento

    predecibles en cierto periodo de tiempo. Esto significa que comportamientos concretos

    producidos en un cierto momento probablemente tendrn otro comportamiento o una

    secuencia de comportamientos en un cierto espacio de tiempo.

    Por ejemplo, se puede observar que el 42% de los clientes que solicitan una cuenta

    corriente nueva y una tarjeta de crdito, solicitan tambin un crdito en un perodo de 90

    das.

    Un ejemplo de aplicacin de esta tcnica de minera puede ser la deteccin de fraudes

    en seguros o bien la planificacin de la colocacin de los productos o las ventas

    promocionales.

    2.2.4-Secuencias semejantes

    El objetivo de esta tcnica es encontrar todas las apariciones de subsecuencias

    semejantes en una base de datos de secuencias.

    Por ejemplo, supongamos que tenemos una base de datos de un comerciante que desea

    optimizar sus compras y el sistema de almacenamiento de la tienda. Si realiza una

    ejecucin de minera en esta base de datos obtendr los nombres de parejas de

    secuencias con el grado de semejanza y el numero de subsecuencias. Cuando interprete

    este resultado, el comerciante podr saber los grupos de productos cuyas previsiones de

    ventas para el prximo ao son similares en cada temporada. En base a esta

    informacin, el comerciante podr combinar las compras y la reposicin de las

    existencias.

    Esta tcnica tambin se puede utilizar para identificar empresas con patrones de

    crecimiento similares, determinar productos con patrones de ventas similares o

    determinar acciones con movimientos de precios similares. Otro uso puede ser la

    deteccin de ondas ssmicas que no sean similares o la localizacin de irregularidades

    geolgicas.

  • 56

    2.2.5-Clasificacin

    Se hacen predicciones de las clasificaciones para crear modelos basados en datos

    conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha

    hecho una clasificacin o para calcular la clasificacin de nuevos datos.

    Los datos histricos se componen con frecuencia de un conjunto de valores y de una

    clasificacin de estos valores. Si se analizan los datos que ya se han clasificado se

    descubrirn las caractersticas que han contribuido a realizar la clasificacin anterior. El

    modelo de clasificacin resultante podr utilizarse despus para predecir las clases de

    registros que contienen nuevos valores de atributos.

    Por ejemplo, una compaa aseguradora posee datos acerca de los clientes actuales que

    han perdido su pliza de seguros por no pagar. En base a los atributos comunes a estos

    clientes, es posible crear un perfil de grupo de riesgo que se puede utilizar como modelo

    para clasificar los nuevos clientes. El modelo se aplica a cada nuevo cliente y se

    clasifica segn pertenezca o no al grupo de riesgo.

    ?? Una ejecucin de minera en la modalidad de preparacin con esta base de datos

    aprende los atributos de cada una de las clases de clientes de riesgo definidas.

    ?? En modalidad de comprobacin, la aseguradora puede comprobar la exactitud

    del modelo creado en modalidad de preparacin aplicando este modelo para

    probar los datos con clases de riesgo de clientes conocidos.

    ?? En la modalidad de aplicacin, la aseguradora puede utilizar el modelo creado

    durante la modalidad de preparacin para predecir qu clientes dejarn de pagar

    en el futuro.

    Esta tcnica podra emplearse, por ejemplo, para aprobar o denegar reclamaciones de

    seguros, detectar fraudes en las tarjetas de crdito, identificar defectos en imgenes de

    componentes manufacturados y diagnosticar condiciones de error. Tambin las puede

    aplicar para determinar unos objetivos de mrketing, en el diagnstico mdico, para

    determinar la eficacia de los tratamientos mdicos, para la reposicin del inventario o en

    la planificacin de la ubicacin de una tienda.

    2.2.5.1-Clasificacin en rbol

    El Algoritmo de induccin con rbol ofrece una descripcin de fcil comprensin sobre

    la distribucin subyacente de los datos. Este algoritmo realiza un ajuste proporcional

  • 57

    con respecto al nmero de ejemplos de preparacin y al nmero de atributos que se

    encuentran en bases de datos extensas.

    La clave para la construccin de un rbol de decisin es seleccionar la pregunta ms

    adecuada (el mejor separador) para cada rama del rbol, es decir, aqulla que clasifique

    de forma errnea el menor nmero de ejemplos o aqulla que delimite clases puras de

    datos.

    Su flexibilidad y fcil interpretacin la convierten en una de las tcnicas de minera ms

    utilizadas.

    En la siguiente pantalla puede verse un ejemplo de representacin grfica de un rbol de

    clasificacin:

    Algunas de las caractersticas de los rboles de clasificacin son las siguientes:

    ?? Estructura jerrquica: cada una de las hojas del rbol puede describirse en

    funcin de la jerarqua de bifurcaciones que la preceden desde la raz.

    ?? Flexibilidad: capacidad de reajustar el modelo de clasificacin segn los

    cambios que la prediccin de variables sea capaz de anticipar.

    ?? Su principal objetivo es obtener una clasificacin lo ms precisa posible. Para

    medir esta precisin entra en juego el concepto de coste, que viene a ser el

  • 58

    nmero de ejemplos mal clasificados. Se tratar por tanto de evaluar la relacin

    coste-complejidad para determinar hasta qu punto (hasta que nivel del rbol) es

    conveniente descender. A este anlisis se le conoce como criterio de poda.

    2.2.5.2-Clasificacin neuronal

    Al igual que con la Clasificacin en rbol, el objetivo es crear modelos basados en datos

    conocidos. Estos modelos se pueden utilizar para analizar la razn por la cual se ha

    hecho una clasificacin o para calcular la clasificacin de nuevos datos.

    La arquitectura de red neuronal empleada ser con frecuencia un Perceptrn multicapa:

    La funcin de minera Prediccin neuronal utiliza una red neuronal de retropropagacin

    (Back Propagation) para predecir valores.

  • 59

    Tomando como ejemplo la neurona de la figura, el algoritmo de Back Propagation

    consistir en estimular la red neuronal con una entrada cuya respuesta sea conocida. A

    continuacin deber calcularse el error cometido (diferencia entre la respuesta real y la

    esperada). Conforme a este error debern reajustarse los pesos de todas las neuronas

    comenzando por las de salida, siguiendo por las de las capas ocultas y acabando en las

    neuronas de entrada.

    La clasificacin se basa en el valor de clase y las relaciones de los atributos descubiertos

    mediante un proceso de minera realizado en unos datos clasificados anteriormente. El

    aprendizaje de red significa desarrollar un modelo que represente dichas relaciones. Una

    red que ha realizado un aprendizaje es una salida de la ejecucin de minera. El anlisis

    de sensibilidad, otro tipo de salida, se utiliza para comprender la contribucin relativa

    de los campos de atributos en la decisin de clasificacin.

    La retropropagacin es un algoritmo con objetivos generales y de aprendizaje

    supervisado. En el aprendizaje supervisado, la base de datos contiene un nmero de

    campos de atributos y uno o ms campos que contienen los resultados deseados.

    Cuando se utiliza la retropropagacin para la aplicacin de clasificacin neuronal, el

    resultado deseado se encuentra en un campo nico denominado campo de clase.

    Una red neuronal con aprendizaje puede generalizar a partir de su experiencia pasada, y

    calcular una clasificacin razonable incluso tomando como punto de partida

    combinaciones de atributos que no haya visto nunca.

  • 60

    2.2.6-Prediccin

    La finalidad de la prediccin de valores es descubrir la dependencia y la variacin de un

    valor de un campo en relacin a los valores de otros campos que se encuentren en el

    mismo registro. Se genera un modelo que puede predecir un valor para ese campo

    particular en un registro nuevo con el mismo formato, en base a otros valores de campo.

    Por ejemplo, un comerciante desea utilizar datos histricos para calcular los ingresos

    por ventas que puede suponer un cliente nuevo. Una ejecucin de minera sobre esos

    da