Modeler Users Guide Book

198
Manual de usuario de IBM SPSS Modeler 16

description

guia del usuario de modeler

Transcript of Modeler Users Guide Book

  • Manual de usuario de IBM SPSSModeler 16

  • NotaAntes de utilizar esta informacin y el producto al que da soporte, lea la informacin incluida en el Avisos en la pgina181.

    Informacin del producto

    Esta edicin se aplica a la versin 16, release 0, modificacin 0 de IBM(r) SPSS(r) Modeler y a todos los releases ylas modificaciones posteriores, hasta que se indique lo contrario en nuevas ediciones.

  • Contenido

    Captulo 1. Acerca de IBM SPSS Modeler 1Productos IBM SPSS Modeler . . . . . . . . . 1

    IBM SPSS Modeler . . . . . . . . . . . 1IBM SPSS Modeler Server . . . . . . . . . 1IBM SPSS Modeler Administration Console . . . 2IBM SPSS Modeler Batch . . . . . . . . . 2IBM SPSS Modeler Solution Publisher . . . . . 2IBM SPSS Modeler ServerAdaptadores paraIBMSPSS Collaboration and Deployment Services . . 2

    Ediciones de IBM SPSS Modeler . . . . . . . . 2Documentacin de IBM SPSS Modeler . . . . . . 3

    Documentacin de SPSS Modeler Professional . . 3Documentacin de SPSS Modeler Premium . . . 4

    Ejemplos de aplicaciones . . . . . . . . . . 5Carpeta Demos . . . . . . . . . . . . . 5

    Captulo 2. Nuevas caractersticas enIBM SPSS Modeler 16 . . . . . . . . . 7

    Captulo 3. IBM SPSS Modeler Visingeneral. . . . . . . . . . . . . . . 11Primeros pasos . . . . . . . . . . . . . 11Inicio de IBM SPSS Modeler . . . . . . . . . 11

    Ejecucin desde la lnea de comandos . . . . 11Conexin con IBM SPSS Modeler Server . . . . 12Modificacin del directorio temporal . . . . . 14Inicio de varias sesiones de IBM SPSS Modeler 14

    Conceptos bsicos sobre la interfaz de IBM SPSSModeler . . . . . . . . . . . . . . . 15

    Lienzo de rutas de IBM SPSS Modeler . . . . 15Paleta de nodos . . . . . . . . . . . . 16Gestores de IBM SPSS Modeler . . . . . . . 17Proyectos de IBM SPSS Modeler . . . . . . 19Barra de herramientas de IBM SPSS Modeler . . 19Personalizacin de la barra de herramientas . . 20Personalizacin de la ventana de IBM SPSSModeler . . . . . . . . . . . . . . 21Cambio del tamao de icono de una ruta . . . 22Utilizacin del ratn en IBM SPSS Modeler . . . 22Uso de teclas de acceso directo . . . . . . . 22

    Impresin . . . . . . . . . . . . . . . 23Automatizacin de IBM SPSS Modeler . . . . . 24

    Captulo 4. Comprensin de la minerade datos . . . . . . . . . . . . . . 25Conceptos bsicos de la minera de datos . . . . 25Evaluacin de los datos . . . . . . . . . . 26Una estrategia para la minera de datos . . . . . 27El modelo del proceso CRISP-DM . . . . . . . 28Tipos de modelos . . . . . . . . . . . . 29Ejemplos de minera de datos . . . . . . . . 34

    Captulo 5. Generacin de rutas . . . . 35Conceptos bsicos de la generacin de rutas . . . 35

    Generacin de rutas de datos . . . . . . . . 35Cmo trabajar con nodos . . . . . . . . . 36Cmo trabajar con rutas . . . . . . . . . 41Descripciones de ruta . . . . . . . . . . 53Ejecucin de rutas . . . . . . . . . . . 54Trabajo con modelos . . . . . . . . . . 55Adicin de comentarios y anotaciones a nodos yrutas. . . . . . . . . . . . . . . . 55Almacenamiento de rutas de datos . . . . . 61Carga de archivos . . . . . . . . . . . 62Correlacionar rutas de datos . . . . . . . . 63

    Sugerencias y atajos . . . . . . . . . . . 65

    Captulo 6. Cmo gestionar valoresperdidos . . . . . . . . . . . . . . 67Conceptos bsicos de valores perdidos . . . . . 67Cmo gestionar valores perdidos . . . . . . . 68

    Gestin de registros con valores perdidos . . . 68Gestin de campos con valores perdidos . . . 68

    Imputacin o relleno de valores perdidos . . . . 69Funciones CLEM para valores perdidos . . . . . 69

    Captulo 7. Generacin de expresionesCLEM . . . . . . . . . . . . . . . 71Acerca de CLEM . . . . . . . . . . . . 71CLEMEjemplos . . . . . . . . . . . . . 71Valores y tipos de datos . . . . . . . . . . 73Expresiones y condiciones . . . . . . . . . 74Parmetros de ruta, sesin y Supernodo . . . . . 74Cmo trabajar con cadenas . . . . . . . . . 75Gestin de elementos vacos y valores perdidos . . 76Cmo trabajar con nmeros . . . . . . . . . 76Cmo trabajar con fechas y horas . . . . . . . 76Resumen de varios campos . . . . . . . . . 77Trabajo con datos de respuestas mltiples . . . . 78Generador de expresiones . . . . . . . . . 79

    Acceso al generador de expresiones . . . . . 79Creacin de expresiones . . . . . . . . . 79Seleccin de funciones . . . . . . . . . . 79Seleccin de campos, parmetros y variablesglobales . . . . . . . . . . . . . . 80Presentacin o seleccin de valores . . . . . 80Comprobacin de expresiones CLEM . . . . . 81

    Buscar y reemplazar . . . . . . . . . . . 81

    Captulo 8. CLEM Referencia dellenguaje . . . . . . . . . . . . . . 85Conceptos bsicos de la referencia de CLEM . . . 85Tipos de datos de CLEM . . . . . . . . . . 85

    Enteros . . . . . . . . . . . . . . . 85Reales . . . . . . . . . . . . . . . 86Caracteres . . . . . . . . . . . . . . 86Cadenas . . . . . . . . . . . . . . 86Listas . . . . . . . . . . . . . . . 86

    iii

  • Fields . . . . . . . . . . . . . . . 87Fechas . . . . . . . . . . . . . . . 87Hora . . . . . . . . . . . . . . . 88

    Operadores de CLEM . . . . . . . . . . . 88Referencia de funciones . . . . . . . . . . 90

    Convenciones en las descripciones de lasfunciones . . . . . . . . . . . . . . 91Funciones de informacin . . . . . . . . 92Funciones de conversin . . . . . . . . . 92Funciones de comparacin . . . . . . . . 93Funciones lgicas . . . . . . . . . . . 96Funciones numricas . . . . . . . . . . 97Funciones trigonomtricas . . . . . . . . 98Funciones de probabilidad . . . . . . . . 98Operaciones de enteros a nivel de bit . . . . . 99Funciones aleatorias . . . . . . . . . . 100Funciones de cadena . . . . . . . . . . 100Funciones SoundEx . . . . . . . . . . 105Funciones de fecha y hora . . . . . . . . 105Funciones de secuencia . . . . . . . . . 109Funciones globales . . . . . . . . . . 114Funciones para gestionar los valores vacos ynulos . . . . . . . . . . . . . . . 115Campos especiales. . . . . . . . . . . 115

    Captulo 9. Uso de IBM SPSS Modelercon un repositorio . . . . . . . . . 119Acerca de IBM SPSS Collaboration andDeployment Services Repository . . . . . . . 119Almacenamiento y despliegue de objetos derepositorio . . . . . . . . . . . . . . 120Conexin con el repositorio. . . . . . . . . 121

    Introduccin de credenciales para el repositorio 121Exploracin del contenido del repositorio . . . . 121Almacenamiento de objetos en el repositorio . . . 122

    Configuracin de propiedades de objeto . . . 122Almacenamiento de rutas . . . . . . . . 124Almacenamiento de proyectos . . . . . . . 124Almacenamiento de nodos . . . . . . . . 125Almacenamiento de objetos de resultado . . . 125Almacenamiento de modelos y paletas demodelos . . . . . . . . . . . . . . 126

    Recuperacin de objetos desde el repositorio . . . 126Eleccin de un objeto que recuperar . . . . . 127Seleccin de una versin de objeto . . . . . 127

    Bsqueda de objetos en el repositorio . . . . . 127Modificacin de objetos del repositorio . . . . . 129

    Creacin, cambio de nombre y eliminacin decarpetas . . . . . . . . . . . . . . 129Bloqueo y desbloqueo de objetos y repositorio 129Eliminacin de objetos del repositorio . . . . 129

    Gestin de las propiedades de objetos delrepositorio . . . . . . . . . . . . . . 130

    Visualizacin de propiedades de carpeta . . . 130Visualizacin y edicin de propiedades deobjetos . . . . . . . . . . . . . . 131Gestin de etiquetas de versin de objetos. . . 132

    Despliegue de rutas . . . . . . . . . . . 132Opciones de despliegue de rutas . . . . . . 133La rama de puntuacin . . . . . . . . . 135

    Captulo 10. Exportacin aaplicaciones externas . . . . . . . . 139Acerca de Exportacin a aplicaciones externas . . 139Apertura de una ruta en IBM SPSS ModelerAdvantage . . . . . . . . . . . . . . 139Cmo importar y exportar modelos como PMML 140

    Tipos de modelos que admiten PMML . . . . 140

    Captulo 11. Proyectos e informes . . 143Introduccin a los proyectos . . . . . . . . 143

    Vista CRISP-DM . . . . . . . . . . . 143Vista Clases . . . . . . . . . . . . . 144

    Generacin de un proyecto . . . . . . . . . 144Creacin de un nuevo proyecto . . . . . . 144Adicin a un proyecto . . . . . . . . . 144Transferencia de proyectos a IBM SPSSCollaboration and Deployment ServicesRepository . . . . . . . . . . . . . 145Configuracin de las propiedades de unproyecto . . . . . . . . . . . . . . 146Anotaciones de un proyecto . . . . . . . 146Propiedades de objeto . . . . . . . . . 147Cierre de un proyecto . . . . . . . . . 147

    Generacin de un informe . . . . . . . . . 147Almacenamiento y exportacin de informesgenerados . . . . . . . . . . . . . 149

    Captulo 12. Personalizacin de IBMSPSS Modeler . . . . . . . . . . . 151Personalizacin de opciones de IBM SPSS Modeler 151Configuracin de las opciones de IBM SPSSModeler . . . . . . . . . . . . . . . 151

    Opciones de sistema . . . . . . . . . . 151Configuracin de directorios predeterminados 152Opciones de configuracin de usuario . . . . 152

    Personalizacin de la paleta de nodos . . . . . 156Personalizacin del gestor de paletas . . . . 156Modificacin de la vista de la pestaa de paleta 158

    Gestin de nodos CEMI . . . . . . . . . . 159

    Captulo 13. Consideraciones derendimiento para rutas y nodos . . . 161Orden de los nodos . . . . . . . . . . . 161Almacenamiento en cach de los nodos . . . . 162Rendimiento: nodos de proceso . . . . . . . 163Rendimiento: nodos de modelado . . . . . . 164Rendimiento: expresiones CLEM . . . . . . . 165

    Captulo 14. Accesibilidad en IBMSPSS Modeler . . . . . . . . . . . 167Conceptos bsicos sobre la accesibilidad de IBMSPSS Modeler . . . . . . . . . . . . . 167Tipos de soporte de accesibilidad. . . . . . . 167

    Accesibilidad para personas con problemas devisin . . . . . . . . . . . . . . . 167Accesibilidad para usuarios invidentes . . . . 168Accesibilidad desde el teclado . . . . . . . 168Utilizacin de un lector de pantallas. . . . . 175

    Sugerencias de utilizacin . . . . . . . . . 176

    iv Manual de usuario de IBM SPSS Modeler 16

  • Interferencias con otro software . . . . . . 177JAWS y Java. . . . . . . . . . . . . 177Utilizacin de grficos en IBM SPSS Modeler 177

    Captulo 15. Compatibilidad conUnicode. . . . . . . . . . . . . . 179Compatibilidad con Unicode en IBM SPSS Modeler 179

    Avisos . . . . . . . . . . . . . . 181Marcas comerciales . . . . . . . . . . . 182

    ndice. . . . . . . . . . . . . . . 185

    Contenido v

  • vi Manual de usuario de IBM SPSS Modeler 16

  • Captulo 1. Acerca de IBM SPSS Modeler

    IBM SPSS Modeler es un conjunto de herramientas de minera de datos que permite desarrollarrpidamente modelos predictivos mediante tcnicas empresariales y desplegarlos en operacionesempresariales para mejorar la toma de decisiones. Con un diseo que sigue el modelo CRISP-DM,estndar del sector, IBM SPSS Modeler admite el proceso completo de minera de datos, desde lospropios datos hasta obtener los mejores resultados empresariales.

    IBM SPSS Modeler ofrece una gran variedad de mtodos de modelado procedentes del aprendizajeautomtico, la inteligencia artificial y el estadstico. Los mtodos disponibles en la paleta de modeladopermiten derivar nueva informacin procedente de los datos y desarrollar modelos predictivos. Cadamtodo tiene ciertos puntos fuertes y es ms adecuado para determinados tipos de problemas.

    SPSS Modeler puede adquirirse como producto independiente o utilizarse como cliente junto con SPSSModeler Server. Tambin hay disponible cierto nmero de opciones adicionales que se resumen en lassiguientes secciones. Si desea obtener ms informacin, consulte http://www.ibm.com/software/analytics/spss/products/modeler/.

    Productos IBM SPSS ModelerLa familia de productos IBM SPSS Modeler y su software asociado se componen de lo siguiente:v IBM SPSS Modelerv IBM SPSS Modeler Serverv IBM SPSS Modeler Administration Consolev IBM SPSS Modeler Batchv IBM SPSS Modeler Solution Publisherv IBM SPSS Modeler Serveradaptadores paraIBM SPSS Collaboration and Deployment Services

    IBM SPSS ModelerSPSS Modeler es una versin con todas las funcionalidades del producto que puede instalar y ejecutar ensu ordenador personal. Puede ejecutar SPSS Modeler en modo local como un producto independiente outilizarla en modo distribuido junto con IBM SPSS Modeler Server para mejorar el rendimiento a la horade trabajar con grandes conjuntos de datos.

    Con SPSS Modeler, puede crear modelos predictivos precisos de forma rpida e intuitiva sin necesidad deprogramacin. Mediante su exclusiva interfaz visual, podr visualizar fcilmente el proceso de minera dedatos. Con ayuda del anlisis avanzado incrustado en el producto podr detectar patrones y tendenciasen sus datos que anteriormente estaban ocultos. Podr modelar los resultados y comprender los factoresque influyen en ellos, lo que le permitir aprovechar oportunidades comerciales y mitigar los riesgos.

    SPSS Modeler est disponible en dos ediciones: SPSS Modeler Professional y SPSS Modeler Premium.Consulte el tema Ediciones de IBM SPSS Modeler en la pgina 2 para obtener ms informacin.

    IBM SPSS Modeler ServerSPSS Modeler utiliza una arquitectura de cliente/servidor para distribuir peticiones de cliente paraoperaciones que requieren un uso intensivo de los recursos a un software de servidor de gran potencia, loque proporciona un rendimiento ms rpido con conjuntos de datos de mayor volumen.

    SPSS Modeler Server es un producto con licencia independiente que se ejecuta de manera continua enmodo de anlisis distribuido en un host de servidor junto con una o ms instalaciones de IBM SPSS

    Copyright IBM Corp. 1994, 2013 1

    http://www.ibm.com/software/analytics/spss/products/modeler/http://www.ibm.com/software/analytics/spss/products/modeler/

  • Modeler. De este modo, SPSS Modeler Server ofrece un mejor rendimiento cuando se trabaja con grandesconjuntos de datos, ya que las operaciones que requieren un uso intensivo de memoria se pueden realizaren el servidor sin tener que descargar datos al equipo cliente. IBM SPSS Modeler Server tambin ofreceasistencia para las capacidades de optimizacin de SQL y modelado interno de bases de datos, lo queproporciona mayores ventajas en cuanto al rendimiento y la automatizacin.

    IBM SPSS Modeler Administration ConsoleModeler Administration Console es una aplicacin grfica para administrar muchas de las opciones deconfiguracin de SPSS Modeler Server, las cuales tambin pueden configurarse a travs de un archivo deopciones. La aplicacin proporciona una interfaz de usuario de la consola para supervisar y configurarlas instalaciones de SPSS Modeler Server y est disponible de forma completamente gratuita para losclientes actuales de SPSS Modeler Server. La aplicacin solamente se puede instalar en los ordenadorescon Windows; sin embargo, puede administrar un servidor que est instalado en cualquier plataformacompatible.

    IBM SPSS Modeler BatchAunque la minera de datos suele ser un proceso interactivo, tambin es posible ejecutar SPSS Modelerdesde una lnea de comandos, sin necesidad de la interfaz grfica del usuario. Por ejemplo, puede quetenga tareas repetitivas o cuya ejecucin sea de larga duracin que quiera realizar sin intervencin porparte del usuario. SPSS Modeler Batch es una versin especial del producto que ofrece asistencia paratodas las capacidades analticas de SPSS Modeler sin acceder a la interfaz de usuario habitual. Esnecesario disponer de una licencia de SPSS Modeler Server para utilizar SPSS Modeler Batch.

    IBM SPSS Modeler Solution PublisherSPSS Modeler Solution Publisher es una herramienta que le permite crear una versin empaquetada deuna ruta de SPSS Modeler que se puede ejecutar en un motor de tiempo de ejecucin externo oincrustado en una aplicacin externa. De este modo, podr publicar y desplegar rutas completas de SPSSModeler para utilizarlas en entornos que no tengan SPSS Modeler instalado. SPSS Modeler SolutionPublisher se distribuye como parte del servicio IBM SPSS Collaboration and Deployment Services -Puntuacin, para el que se necesita una licencia independiente. Con esta licencia, recibir SPSS ModelerSolution Publisher Runtime, que le permite ejecutar las rutas publicadas.

    IBM SPSS Modeler ServerAdaptadores paraIBM SPSS Collaborationand Deployment ServicesTiene a su disposicin un determinado nmero de adaptadores para IBM SPSS Collaboration andDeployment Services que permiten que SPSS Modeler y SPSS Modeler Server interacten con unrepositorio de IBM SPSS Collaboration and Deployment Services. De este modo, varios usuarios podrncompartir una ruta de SPSS Modeler desplegada en el repositorio, o bien se podr acceder a ella desde laaplicacin cliente de baja intensidad IBM SPSS Modeler Advantage. Debe instalar el adaptador en elsistema donde se aloje el repositorio.

    Ediciones de IBM SPSS ModelerSPSS Modeler est disponible en las siguientes ediciones.

    SPSS Modeler Professional

    SPSS Modeler Professional proporciona todas las herramientas que necesita para trabajar con la mayorade los tipos de datos estructurados, como los comportamientos e interacciones registrados en los sistemasde CRM, datos demogrficos, comportamientos de compra y datos de ventas.

    SPSS Modeler Premium

    2 Manual de usuario de IBM SPSS Modeler 16

  • SPSS Modeler Premium es un producto con licencia independiente que ampla SPSS Modeler Professionalpara poder trabajar con datos especializados, como los utilizados para el anlisis de entidades o las redessociales, as como con datos de texto no estructurados. SPSS Modeler Premium est formado por lossiguientes componentes:

    IBM SPSS Modeler Entity Analytics incorpora una dimensin adicional al anlisis predictivo de IBMSPSS Modeler predictive analytics. Mientras que el anlisis predictivo trata de predecir comportamientosfuturos a partir de datos del pasado, el anlisis de entidades se centra en mejorar la coherencia de losdatos actuales mediante la resolucin de conflictos de identidades dentro de los propios registros. Laidentidad de un individuo, una organizacin, un objeto o cualquier otra entidad puede estar expuesta aambigedades. La resolucin de identidades puede ser vital en diversos campos, entre los que seincluyen la gestin de la relacin con el cliente, la deteccin de fraudes, la lucha contra el blanqueo dedinero y la seguridad nacional e internacional.

    IBM SPSS Modeler Social Network Analysis transforma la informacin sobre relaciones en campos quecaracterizan el comportamiento social de individuos y grupos. Mediante el uso de datos que describen lasrelaciones subyacentes de las redes sociales, IBM SPSS Modeler Social Network Analysis identifica a loslderes sociales que influyen en el comportamiento de otros en la red. Adems, puede determinar qupersonas se ven ms afectadas por otros participantes de la red. Al combinar estos resultados con otrasmedidas, puede crear perfiles completos de individuos en los que basar sus modelos predictivos. Losmodelos que incluyan esta informacin social tendrn un mejor rendimiento que los modelos que no laincluyan.

    IBM SPSS Modeler Text Analytics utiliza tecnologas de lingstica avanzada y Procesamiento dellenguaje natural (PLN) para procesar con rapidez una gran variedad de datos de texto sin estructurar,extraer y organizar los conceptos clave y agruparlos en categoras. Las categoras y conceptos extrados sepueden combinar con los datos estructurados existentes, como pueden ser datos demogrficos, y sepueden aplicar para modelar utilizando el conjunto completo de herramientas de minera de datos deIBM SPSS Modeler para tomar decisiones mejores y ms certeras.

    Documentacin de IBM SPSS ModelerTiene a su disposicin documentacin en formato de ayuda en lnea desde el men Ayuda de SPSSModeler. Se incluye documentacin para SPSS Modeler, SPSS Modeler Server y SPSS Modeler SolutionPublisher, as como el Manual de aplicaciones y otros materiales de apoyo.

    La documentacin completa de cada producto (incluidas las instrucciones de instalacin) en formato PDFest disponible en la carpeta \Documentation en cada DVD del producto. Tambin es posible descargar losdocumentos de instalacin en Internet en http://www-01.ibm.com/support/docview.wss?uid=swg27038316.

    La documentacin en ambos formatos tambin est disponible desde el centro de informacin de SPSSModeler en http://publib.boulder.ibm.com/infocenter/spssmodl/v16r0m0/.

    Documentacin de SPSS Modeler ProfessionalEl conjunto de documentacin de SPSS Modeler Professional (excluidas las instrucciones de instalacin)es el siguiente.v IBM SPSS ModelerManual del usuario. Introduccin general sobre cmo usar SPSS Modeler,

    incluyendo cmo crear rutas de datos, tratar valores perdidos, crear expresiones CLEM, trabajar conproyectos e informes y empaquetas rutas para su despliegue en IBM SPSS Collaboration andDeployment Services, Predictive Applications o IBM SPSS Modeler Advantage.

    v Nodos de origen, proceso y resultado de IBM SPSS Modeler. Descripciones de todos los nodosutilizados para leer, procesar y dar salida a datos en diferentes formatos. En la prctica, esto implicatodos los nodos que no sean nodos de modelado.

    Captulo 1. Acerca de IBM SPSS Modeler 3

    http://www-01.ibm.com/support/docview.wss?uid=swg27038316http://www-01.ibm.com/support/docview.wss?uid=swg27038316http://publib.boulder.ibm.com/infocenter/spssmodl/v16r0m0/

  • v Nodos de Modelado de IBM SPSS Modeler. Descripciones de todos los nodos utilizados para crearmodelos de minera de datos. IBM SPSS Modeler ofrece una gran variedad de mtodos de modeladoprocedentes del aprendizaje automtico, la inteligencia artificial y el estadstico.

    v Manual de algoritmos de IBM SPSS Modeler. Descripciones de los fundamentos matemticos de losmtodos de modelado que se utilizan en IBM SPSS Modeler. Esta gua est disponible nicamente enformato PDF.

    v Manual de aplicaciones de IBM SPSS Modeler. Los ejemplos de esta gua ofrecen introduccionesbreves y concisas a mtodos y tcnicas de modelado especficos. Tambin tiene a su disposicin unaversin en lnea de este manual en el men Ayuda. Consulte el tema Ejemplos de aplicaciones en lapgina 5 para obtener ms informacin.

    v Scripts y automatizacin de IBM SPSS Modeler. Informacin sobre la automatizacin del sistema atravs de scripts, incluidas las propiedades que se pueden utilizar para manipular nodos y rutas.

    v IBM SPSS ModelerManual de despliegue. Informacin sobre la ejecucin de rutas y escenarios deIBM SPSS Modeler como pasos en trabajos de procesamiento en IBM SPSS Collaboration andDeployment Services Deployment Manager.

    v Gua del desarrollador de IBM SPSS Modeler CLEF. CLEF ofrece la capacidad de integrarprogramas de otros fabricantes, como rutinas de procesamiento de datos o algoritmos de modeladocomo nodos en IBM SPSS Modeler.

    v Manual de minera interna de bases de datos de IBM SPSS Modeler. Este manual incluyeinformacin sobre cmo utilizar la potencia de su base de datos, tanto para mejorar su rendimientocomo para ampliar su oferta de capacidades analticas a travs de algoritmos de terceros.

    v Gua de administracin de IBM SPSS Modeler Server y su rendimiento. Informacin sobre laconfiguracin y administracin de IBM SPSS Modeler Server.

    v Manual del usuario de IBM SPSS Modeler Administration Console. Informacin sobre cmo instalary utilizar la interfaz de usuario de la consola para supervisar y configurar IBM SPSS Modeler Server.La consola se implementa como complemento de la aplicacin Gestor de despliegue.

    v Manual CRISP-DM de IBM SPSS Modeler. Manual que explica paso a paso cmo utilizar lametodologa de CRISP-DM en la minera de datos con SPSS Modeler.

    v IBM SPSS Modeler BatchManual del usuario. Gua completa de cmo utilizar IBM SPSS Modeler enmodo por lotes, incluida informacin detallada sobre la ejecucin del modo por lotes y argumentos delnea de comandos. Esta gua est disponible nicamente en formato PDF.

    Documentacin de SPSS Modeler PremiumEl conjunto de documentacin de SPSS Modeler Premium (excluidas las instrucciones de instalacin) es elsiguiente.v IBM SPSS Modeler Entity AnalyticsManual del usuario. Informacin sobre cmo utilizar el anlisis

    de entidades con SPSS Modeler, que cubre la instalacin y configuracin de repositorios, nodos deanlisis de entidades y tareas administrativas.

    v IBM SPSS Modeler Social Network AnalysisManual del usuario. Una gua para realizar anlisis deredes sociales con SPSS Modeler, incluido el anlisis de grupos y el anlisis de difusin.

    v SPSS Modeler Text Analytics Manual del usuario. Informacin sobre cmo utilizar el anlisis de textocon SPSS Modeler, que cubre los nodos de minera de texto, programa interactivo, plantillas y otrosrecursos.

    v Manual del usuario de IBM SPSS Modeler Text Analytics Administration Console. Informacinsobre cmo instalar y utilizar la interfaz de usuario de la consola para supervisar y configurar IBMSPSS Modeler Server para su uso con SPSS Modeler Text Analytics . La consola se implementa comocomplemento de la aplicacin Gestor de despliegue.

    4 Manual de usuario de IBM SPSS Modeler 16

  • Ejemplos de aplicacionesMientras que las herramientas de minera de datos de SPSS Modeler pueden ayudar a resolver unaamplia variedad de problemas organizativos y empresariales, los ejemplos de la aplicacin ofrecenintroducciones breves y adaptadas de tcnicas y mtodos de modelado especficos. Los conjuntos dedatos utilizados aqu son mucho ms pequeos que los enormes almacenes de datos gestionados poralgunos analizadores de datos, pero los conceptos y mtodos implicados deberan ser escalables a lasaplicaciones reales.

    Para acceder a los ejemplos pulsando Ejemplos de aplicacin en el men Ayuda de SPSS Modeler. Losarchivos de datos y rutas de ejemplo se instalan en la carpeta Demos en el directorio de instalacin delproducto. Consulte el tema Carpeta Demos para obtener ms informacin.

    Ejemplos de modelado de bases de datos. Consulte los ejemplos que figuran en el Manual de minerainterna de bases de datos de IBM SPSS Modeler.

    Ejemplos de scripts. Consulte los ejemplos que figuran en la Gua de scripts y automatizacin de IBM SPSSModeler.

    Carpeta DemosLos archivos de datos y rutas de ejemplo utilizados con los ejemplos de la aplicacin se instalan en lacarpeta Demos en el directorio de instalacin del producto. Tambin puede acceder a esta carpeta desde elgrupo de programas IBM SPSS Modeler en el men Inicio de Windows o pulsando Demos de la lista dedirectorios recientes en el cuadro de dilogo Abrir archivo.

    Captulo 1. Acerca de IBM SPSS Modeler 5

  • 6 Manual de usuario de IBM SPSS Modeler 16

  • Captulo 2. Nuevas caractersticas en IBM SPSS Modeler 16

    IBM SPSS Modeler aada las caractersticas siguientes en este release.

    Simulacin Monte Carlo. Un nuevo nodo de origen de simulacin proporciona una forma fcil degenerar datos sintticos de cero utilizando una amplia seleccin de distribuciones estadsticas. De formaalternativa, el nuevo nodo de ajuste puede crear automticamente un nodo de origen configuradopreviamente que refleja las distribuciones de y las relaciones entre variables histricas. El nodo deevaluacin de simulacin es un nodo terminal diseado para evaluar campos que se originan de una rutade anlisis simulado y proporciona una distribucin prctica y grficos de correlacin.

    Scripts Python. Los scripts en IBM SPSS Modeler, utilizados para automatizar procesos en la interfaz deusuario, ahora pueden utilizar el lenguaje Python, as como seguir soportando la modalidad de scripts delegado. Python es un lenguaje popular y bien conocido que proporciona un conjunto avanzado decaractersticas que incluye una sintaxis avanzada y concisa, manejo de errores y potentes mdulosadicionales. Nota: La pestaa Script en Herramientas > Propiedades de ruta ahora se llama Ejecucin.

    Ejecucin de bucles y condicional. Estas nuevas opciones permiten la ejecucin de bucles y condicionalde rutas sin tener que codificar los scripts. Encuentre estas nuevas opciones en Herramientas >Propiedades de ruta > Ejecucin o pulsando con el botn derecho del ratn en un nodo de una ruta yeligiendo la opcin de ejecucin Bucles/Condicional.

    Nodo STB (cuadros de espacio tiempo). Cree rectngulos de ubicacin y datos de indicacin de fecha yhora para dar soporte a anlisis ms sofisticados. En el modo de desconexin, este nodo tambinidentifica los tiempos y lugares donde residen las entidades. Las funciones del creador de expresionesadicionales soportan la extraccin de los centroides STB, as como los cdigos geogrficos.

    Mejoras de anlisis de entidades. As como resolver entidades individuales, esto ahora puede identificarrelaciones de n-grado entre entidades. El soporte adicional se proporciona para la actualizacin en tiemporeal a travs del nodo de ruta, aplanando entidades resueltas (nodo Distinto) y para hacer que los datossean annimos cuando llenan un repositorio de entidad. Nota: DB2 ha sustituido la base de datosSolidDB local anterior.

    Nuevo tipo de grfico de nodo de evaluacin de caracterstica operativa del receptor (ROC) y medidasde rea debajo de la curva (AUC) y Gini en el nodo de anlisis. Soporta los objetivos binarios.

    Nueva opcin de nodo distinto para crear un registro compuesto. Le permite especificar un mtodo deagregacin para cada campo que se agrupe (primer valor, ltimo valor, valores de concatenacin, etc.) enlugar de descartar grupos duplicados. Mientras que el nodo de agregacin normalmente se utiliza pararesumir los datos en un nivel superior, esta nueva opcin se utiliza para aplanar duplicados; por ejemplo,los duplicados identificados a travs de la resolucin de entidad.

    Nodos de exportacin y origen TM1. Le permite acceder a vistas de cubo de TM1 a travs del nodo deorigen TM1 y volver a puntuar los datos en un cubo TM1 existente utilizando el nodo de exportacinTM1.

    Expresin de agregacin y funciones de agregacin de ventana. Puede crear expresiones de agregacinpersonalizadas en el nodo de agregacin, incorporando funciones de agregacin integradas (MEAN,SUM, y etc.) y/o funciones definidas por el usuario de agregacin de base de datos. En las expresionesderivadas, puede derivar campos que requieren funciones de agregacin con ventanas (como, porejemplo, medias mviles). Estn disponibles funciones de agregacin de ventana proporcionadas con lasbase de datos e incorporadas.

    Copyright IBM Corp. 1994, 2013 7

  • Mejoras de minera interna de la base de datos de IBM Netezza Analytics. Nuevo algoritmo de dospasos de Netezza, opcin adicional de aplicacin de ayuda para gestionar (suprimir, renombrar, etc.)modelos de anlisis de Netezza, soporte para visores de Modelos para rboles de regresin, rboles dedecisiones, K-medias y TwoStep. Nota: Las nuevas caracterstica requieren INZA 3.0.

    Nuevos nodos R y generador de cuadros de dilogo personalizados para R. Adems del nodo degenerador de modelos R y el nugget de modelo introducidos en SPSS Modeler 15 fixpack 2, este releaseaade 2 nodos nuevos: proceso R y salida R. Con el nodo de proceso R, puede tomar datos de una rutade SPSS Modeler y aplicar transformaciones en los datos utilizando scripts R. Con el nodo de salida R,puede utilizar sus propios scripts R personalizados para realizar anlisis de datos y para resumir losresultados de las puntuaciones de modelos.

    Puede generar resultados grficos y de texto de los anlisis. Esta salida se puede direccionar a un archivo,o visualizar en el explorador de la salida del nodo de salida R. El generador de cuadros de dilogopersonalizados proporciona la capacidad para crear tipos de nodo de creacin, proceso y salidapersonalizados y nuggets de modelo, incluyendo un seleccionador de campo, texto, nmeros, botones deseleccin y controles de subdilogo para permitir la abstraccin y parametrizacin de programas R.Puede elegir el tipo de nodo, la paleta de destino y el icono de nodo antes de instalar el nodo ocompartirlo para que lo utilicen otros usuarios de SPSS Modeler. El generador de cuadros de dilogopersonalizados se inicia desde el men Herramientas. Nota: Para utilizar esta caracterstica, debe haberinstalado SPSS Modeler - Essentials para R.

    R en base de datos. Soporte de retrotraccin SQL para nodos R; para Netezza, SAP Hana y Oracleutilizando su soporte para R. Nota: Las bases de datos deben tener instaladas las ampliaciones Rcorrectas proporcionadas por el proveedor.

    Nodo de proceso de serie temporal de rutas. Cree y punte los modelos de serie temporal en un nicopaso para proporcionar despliegue en tiempo real a travs de IBM InfoSphere Streams, el servicio depuntuacin de IBM SPSS Collaboration and Deployment Services o IBM SPSS Modeler Solution Publisher.

    Botn Presentacin preliminar. Cuando se utiliza junto con un origen de base de datos, la vista previapermite que se visualice la retrotraccin SQL. Cuando se utiliza junto con un origen de datos de AnalyticServer, utilice el botn Vista previa para recibir informacin sobre posibles grandes movimientos dedatos.

    Nuevas opciones de Analytic Server en los nodos de clasificador automtico, numrico automtico yclster automtico. Al ejecutar una ruta en IBM SPSS Analytic Server, puede elegir entre realizar laejecucin con las divisiones habilitadas (si est utilizando la caracterstica de modelo de divisin, utiliceesta opcin) o las opciones de datos muy grandes (se ignoran las divisiones, y los objetivos de creacinde modelos se definen para datos grandes). Ahora la puntuacin est soportada para los modelos declasificador automtico, numrico automtico y clster automtico que se pueden generar en SPSSModeler Server.

    Soporte mejorado del adaptador de puntuacin. Soporte para puntuar modelos de minera de texto atravs de adaptadores de puntuacin de base de datos. Asimismo, nuevos adaptadores de puntuacin debase de datos para DB2 LUW y Oracle.

    Nodo de origen de vista de datos. El nodo de vista de datos le permite leer datos de una vista de datosde anlisis en una ruta de SPSS Modeler. La vista de datos de anlisis es una nueva forma para crear unavista de datos unificada en IBM SPSS Collaboration and Deployment Services 6.

    Miscelnea de otras mejoras

    v Bandas de consultas Teradata en valores preestablecidos de conexin de base de datos.v Opciones de nodo GLMM actualizadas.v Soporte para archivos .sav cifrados y comprimidos.

    8 Manual de usuario de IBM SPSS Modeler 16

  • v Soporte el inicio de sesin nico (SSO) de SPSS Modeler Server sin necesitar IBM SPSS Collaborationand Deployment Services.

    v Soporte de capa de base de datos para el inicio de sesin nico.v Retrotraccin SQL para el nodo de muestra para zDB2.v Los nodos R ahora se instalan como parte de la instalacin base de SPSS Modeler.v Los adaptadores para modelador de IBM SPSS Collaboration and Deployment Services se instalan

    mediante IBM Installation Manager.v Actualizacin de modelo de divisin.v Soporte la la localizacin en ruso.

    Captulo 2. Nuevas caractersticas en IBM SPSS Modeler 16 9

  • 10 Manual de usuario de IBM SPSS Modeler 16

  • Captulo 3. IBM SPSS Modeler Visin general

    Primeros pasosComo aplicacin de minera de datos, IBM SPSS Modeler ofrece un mtodo estratgico para encontrarrelaciones tiles entre grandes conjuntos de datos. Al contrario que los mtodos estadsticos mstradicionales, no es necesario saber lo que se est buscando al comenzar. Puede explorar los datos,mediante el ajuste de diferentes modelos y la investigacin de diferentes relaciones, hasta que encuentrela informacin que resulte til.

    Inicio de IBM SPSS ModelerPara iniciar la aplicacin, pulse en:

    Inicio > [Todos los] Programas > IBM SPSS Modeler 16 > IBM SPSS Modeler 16

    La ventana principal se mostrar transcurridos unos segundos.

    Ejecucin desde la lnea de comandosPuede utilizar la lnea de comandos del sistema operativo para iniciar IBM SPSS Modeler de la siguientemanera:

    Figura 1. Ventana principal de la aplicacin IBM SPSS Modeler

    11

  • 1. En un ordenador en el que se haya instalado IBM SPSS Modeler, abra una ventana de DOS o delindicador de comandos.

    2. Para iniciar la interfaz de IBM SPSS Modeler en modo interactivo, escriba el comando clementineseguido de los argumentos necesarios; por ejemplo:

    modelerclient -stream report.str -execute

    Los argumentos disponibles (modificadores) permiten conectar con un servidor, cargar rutas, ejecutarscripts o especificar otros parmetros, segn sea necesario.

    Conexin con IBM SPSS Modeler ServerIBM SPSS Modeler puede ejecutarse como una aplicacin independiente o como un cliente conectado aIBM SPSS Modeler Server directamente o a IBM SPSS Modeler Server o un clster de servidores a travsdel complemento Coordinator of Processes de IBM SPSS Collaboration and Deployment Services. Elestado de la conexin actual se muestra en la parte inferior izquierda de la ventana de IBM SPSSModeler.

    Siempre que desee conectarse a un servidor, puede introducir manualmente el nombre de servidor al quedesee conectarse o seleccione un nombre que haya definido anteriormente. Sin embargo, si tiene IBMSPSS Collaboration and Deployment Services, puede buscar en una lista de servidores o clsteres deservidores del cuadro de dilogo Inicio de sesin del servidor. La capacidad de buscar entre los serviciosde Estadsticas que se ejecutan en una red est disponible a travs de Coordinator of Processes.

    Para conectar con un servidor1. En el men Herramientas, pulse en Inicio de sesin del servidor. Se abre el cuadro de dilogo Inicio

    de sesin del servidor. Si lo prefiere, pulse dos veces con el ratn en el rea de estado de la conexinde la ventana de IBM SPSS Modeler.

    2. En el cuadro de dilogo, especifique las opciones para conectarse al equipo servidor local o seleccioneuna conexin de la tabla.v Pulse en Aadir o Edicin para aadir o editar una conexin. Consulte el tema Adicin y edicin

    de la conexin de IBM SPSS Modeler Server en la pgina 13 para obtener ms informacin.v Pulse en Buscar para acceder a un servidor o clster de servidores en Coordinator of Processes.

    Consulte el tema Bsqueda de servidores en IBM SPSS Collaboration and Deployment Servicesen la pgina 13 para obtener ms informacin.

    Tabla Servidor. Esta tabla contiene el conjunto de conexiones de servidor definidas. La tabla muestrala conexin predeterminada, el nombre de servidor, la descripcin y el nmero de puerto. Puedeaadir manualmente una nueva conexin, as como seleccionar o buscar una conexin existente. Paraestablecer un servidor especfico como la conexin predeterminada, seleccione la casilla de verificacinen la columna Valor predeterminado de la tabla para la conexin.Ruta predeterminada de acceso a los datos. Especifique la ruta utilizada para los datos del equiposervidor. Pulse en el botn de puntos suspensivos (...) para examinar la ubicacin deseada.Establecer credenciales. Deje esta casilla sin seleccionar para activar la caracterstica de inicio desesin nico, que tratar de iniciar la sesin del usuario en el servidor con los detalles de nombre deusuario y contrasea del equipo local. Si no es posible el inicio de sesin nico o si selecciona estacasilla para desactivar el inicio de sesin nico (por ejemplo, para iniciar la sesin en una cuenta deadministrador), tendr activados los siguientes campos para que introduzca las credenciales.ID de usuario. Introduzca el nombre de usuario con el que se inicia sesin en el servidor.Contrasea. Introduzca la contrasea asociada al nombre de usuario especificado.Dominio. Especifique el dominio utilizado para iniciar sesin en el servidor. El nombre de dominio esobligatorio cuando el equipo servidor est en un dominio de Windows distinto que el equipo cliente.

    3. Pulse en Aceptar para completar la conexin.

    Desconexin de un servidor

    12 Manual de usuario de IBM SPSS Modeler 16

  • 1. En el men Herramientas, pulse en Inicio de sesin del servidor. Se abre el cuadro de dilogo Iniciode sesin del servidor. Si lo prefiere, pulse dos veces con el ratn en el rea de estado de la conexinde la ventana de IBM SPSS Modeler.

    2. En el cuadro de dilogo, seleccione el Servidor local y pulse en Aceptar.

    Adicin y edicin de la conexin de IBM SPSS Modeler ServerPuede editar o aadir manualmente una conexin de servidor en el cuadro de dilogo Inicio de sesindel servidor. Si pulsa en Aadir, puede acceder al cuadro de dilogo Aadir/editar servidor vaco en elque puede introducir los detalles de conexin de servidor. Al seleccionar una conexin existente y pulsaren Editar en el cuadro de dilogo Inicio de sesin del servidor, se abre el cuadro de dilogoAadir/editar servidor con los detalles de dicha conexin de modo que puede realizar cualquier cambio.

    Note: No puede editar una conexin de servidor que se haya aadido desde IBM SPSS Collaboration andDeployment Services, ya que el nombre, puerto y otros detalles se definen en IBM SPSS Collaborationand Deployment Services.

    Adicin de conexiones de servidor1. En el men Herramientas, pulse en Inicio de sesin del servidor. Se abre el cuadro de dilogo Inicio

    de sesin del servidor.2. En este cuadro de dilogo, pulse en Aadir. Se abre el cuadro de dilogo Inicio de sesin del

    servidor: Aadir/editar servidor.3. Introduzca los detalles de conexin de servidor y pulse en Aceptar para guardar la conexin y volver

    al cuadro de dilogo Inicio de sesin del servidor.v Servidor. Especifique un servidor disponible o seleccione uno de la lista. El equipo servidor se puede

    identificar por un nombre alfanumrico (por ejemplo, miservidor) o por una direccin IP asignada alequipo servidor (por ejemplo, 202.123.456.78).

    v Puerto. Especifique el nmero de puerto en el que el servidor escucha. Si no funciona el nmero depuerto predeterminado, solicite el nmero de puerto correcto al administrador del sistema.

    v Descripcin. Introduzca una descripcin opcional para esta conexin de servidor.v Asegurar conexin segura (utilizar SSL). Especifica si se debe usar una conexin SSL (del ingls

    Secure Sockets Layer, capa de sockets seguros). SSL es un protocolo normalmente utilizado paraasegurar el conjunto de datos que se enva a travs de una red. Para utilizar esta caracterstica, SSLdebe estar activado en el servidor que aloja IBM SPSS Modeler Server. Si es preciso, pngase encontacto con el administrador local para obtener ms detalles.

    Edicin de conexiones de servidor1. En el men Herramientas, pulse en Inicio de sesin del servidor. Se abre el cuadro de dilogo Inicio

    de sesin del servidor.2. En este cuadro de dilogo, seleccione la conexin que desee editar y, a continuacin, pulse en Editar.

    Se abre el cuadro de dilogo Inicio de sesin del servidor: Aadir/editar servidor.3. Cambie los detalles de conexin de servidor y pulse en Aceptar para guardar los cambios y volver al

    cuadro de dilogo Inicio de sesin del servidor.

    Bsqueda de servidores en IBM SPSS Collaboration and Deployment ServicesEn lugar de introducir una conexin de servidor manualmente, puede seleccionar un servidor o clsterde servidores disponible en la red a travs de Coordinator of Processes, disponible en IBM SPSSCollaboration and Deployment Services. Un clster de servidores es un grupo de servidores entre los queCoordinator of Processes determina el servidor ms adecuado para responder a una solicitud deprocesamiento.

    Aunque puede aadir servidores manualmente al cuadro de dilogo Inicio de sesin del servidor, labsqueda de servidores disponibles le permite conectarse a servidores sin que sea necesario que conozca

    Captulo 3. IBM SPSS Modeler Visin general 13

  • el nombre de servidor y nmero de puerto correctos. Esta informacin se proporciona automticamente.Sin embargo, todava necesita la informacin de inicio de sesin correcta, como el nombre de usuario,dominio y contrasea.

    Note: Si no tiene acceso a la capacidad Coordinator of Processes, todava puede introducir manualmenteel nombre de servidor al que desee conectarse o seleccionar un nombre que haya definido anteriormente.Consulte el tema Adicin y edicin de la conexin de IBM SPSS Modeler Server en la pgina 13 paraobtener ms informacin.

    Bsqueda de servidores y clsteres1. En el men Herramientas, pulse en Inicio de sesin del servidor. Se abre el cuadro de dilogo Inicio

    de sesin del servidor.2. En este cuadro de dilogo, pulse en Buscar para abrir el cuadro de dilogo Buscar servidores. Si no

    ha iniciado sesin en IBM SPSS Collaboration and Deployment Services cuando intente buscar enCoordinator of Processes, se le pedir que lo haga.

    3. Seleccione el servidor o el clster de servidores de la lista.4. Pulse en Aceptar para cerrar el cuadro de dilogo y aadir esta conexin a la tabla en el cuadro de

    dilogo Inicio de sesin del servidor.

    Modificacin del directorio temporalIBM SPSS Modeler Server realiza algunas operaciones que requieren la creacin de archivos temporales.De forma predeterminada, IBM SPSS Modeler utiliza el directorio temporal del sistema para creararchivos temporales. Se puede modificar la ubicacin del directorio temporal con los pasos siguientes.1. Cree un nuevo directorio denominado spss y un subdirectorio denominado servertemp.2. Edite options.cfg, que se encuentra en el directorio /config del directorio de instalacin de IBM SPSS

    Modeler. Edite el parmetro temp_directory de este archivo, para que indique: temp_directory,"C:/spss/servertemp".

    3. A continuacin, es necesario reiniciar el servicio IBM SPSS Modeler Server. Esta operacin se puederealizar pulsando en la pestaa Servicios del Panel de control de Windows. Es necesario detener elservicio e iniciarlo de nuevo para activar los cambios realizados. Cuando se reinicie el equipo tambinse reiniciar el servicio.

    Todos los archivos temporales se escribirn a partir de este momento en este directorio.

    Nota: el error ms habitual cuando se intenta realizar esta accin es el uso de un tipo de barras incorrecto;se utilizan las barras inclinadas.

    Inicio de varias sesiones de IBM SPSS ModelerSi necesita iniciar ms de una sesin de IBM SPSS Modeler a la vez, deber realizar algunos cambios enla configuracin de IBM SPSS Modeler y Windows. Por ejemplo, puede que necesite hacerlo si tiene doslicencias de servidor independientes y desee ejecutar dos rutas frente a dos servidores diferentes delmismo equipo cliente.

    Para activar varias sesiones de IBM SPSS Modeler:1. Pulse en:

    Inicio > [Todos los] Programas > IBM SPSS Modeler 162. En el acceso directo de IBM SPSS Modeler 16 (el que tiene un icono), pulse con el botn derecho del

    ratn y seleccione Propiedades.3. En el cuadro de texto Objetivo, aada -noshare al final de la cadena.4. En Windows Explorer, seleccione:

    Herramientas > Opciones de carpeta...

    14 Manual de usuario de IBM SPSS Modeler 16

  • 5. En la pestaa Tipos de archivo, seleccione la opcin Ruta de IBM SPSS Modeler y pulse en Opcionesavanzadas.

    6. En el cuadro de dilogo Editar tipo de archivo, seleccione Abrir con IBM SPSS Modeler y pulse enEditar.

    7. En el cuadro de texto Aplicacin utilizada para realizar la accin, aada -noshare delante delargumento -stream.

    Conceptos bsicos sobre la interfaz de IBM SPSS ModelerEn cada punto del proceso de minera de datos, la interfaz de IBM SPSS Modeler fcil de usar implica eluso de tcnicas empresariales. Los algoritmos de modelado, tales como prediccin, clasificacin,segmentacin y deteccin de asociaciones, garantizan la obtencin de modelos exactos y potentes. Losresultados del modelo se pueden desplegar y leer fcilmente en bases de datos, IBM SPSS Statistics y enuna amplia variedad de aplicaciones.

    El trabajo con IBM SPSS Modeler es un proceso de tres pasos para trabajar con datos.v En primer lugar, lee los datos en IBM SPSS Modeler.v A continuacin, ejecuta los datos mediante una serie de manipulaciones.v Por ltimo, enva los datos a un destino.

    Esta secuencia de operaciones se denomina ruta de datos porque los datos fluyen registro por registrodesde el origen pasando por cada manipulacin y, finalmente, llega al destino, que puede ser un modeloo un tipo de datos de resultados.

    Lienzo de rutas de IBM SPSS ModelerEl lienzo de rutas es el rea ms grande de la ventana de IBM SPSS Modeler y en ste se generan ymanipulan rutas de datos.

    Figura 2. Una ruta simple

    Captulo 3. IBM SPSS Modeler Visin general 15

  • Las rutas se crean dibujando diagramas de operaciones de datos relevantes para su negocio en el lienzoprincipal de la interfaz. Cada operacin se representa con un icono o un nodo y los nodos estnvinculados entre s en una ruta que representa el flujo de datos en cada operacin.

    Se puede trabajar con varias rutas al mismo tiempo en IBM SPSS Modeler, en el mismo lienzo de rutas oabriendo uno nuevo. Durante una sesin, las rutas se almacenan en el gestor de rutas, en la partesuperior derecha de la ventana de IBM SPSS Modeler.

    Paleta de nodosLa mayora de los datos y las herramientas de modelado de IBM SPSS Modeler se encuentran en laPaleta de nodos, situadas por la parte inferior de la ventana bajo el lienzo de rutas.

    Por ejemplo, la pestaa Paleta Oper. con registros contiene nodos que puede utilizar para realizaroperaciones en los registros de datos, como la seleccin, la fusin y la adicin.

    Para aadir nodos al lienzo, pulse dos veces en los iconos de la Paleta de nodos o arrstrelos y sultelosen el lienzo. A continuacin, conctelos para crear una ruta, que represente el flujo de datos.

    Figura 3. Espacio de trabajo de IBM SPSS Modeler (vista predeterminada)

    16 Manual de usuario de IBM SPSS Modeler 16

  • Cada pestaa de paleta contiene una coleccin de nodos relacionados entre s que se utilizan en distintasfases de las operaciones de rutas, tales como:v Orgenes. Los nodos introducen datos en IBM SPSS Modeler.v Operaciones con registros Los nodos realizan operaciones en los registros de datos como la seleccin,

    la fusin y la adicin.v Operaciones con campos Los nodos realizan operaciones en los campos de datos como el filtrado, la

    derivacin de campos nuevos y la determinacin del nivel de medicin de campos dados.v Grficos. Los nodos muestran grficamente los datos antes y despus del modelado. Entre ellos se

    incluyen grficos, histogramas, nodos de malla y diagramas de evaluacin.v Modelado. Los nodos utilizan los algoritmos de modelado disponibles en IBM SPSS Modeler, tales

    como las redes neuronales, los rboles de decisin, los algoritmos de agrupacin en clsteres y lassecuencias de datos.

    v Modelado de bases de datos. Los nodos utilizan los algoritmos de modelado disponibles en las basesde datos Microsoft SQL Server, IBM DB2, Netezza y Oracle.

    v Resultados. Los nodos generan una diversidad de resultados para los datos, grficos y resultados demodelos que pueden visualizarse en IBM SPSS Modeler.

    v Exportar. Los nodos generan una diversidad de resultados que pueden visualizarse en aplicacionesexternas, como IBM SPSS Data Collection o Excel.

    v IBM SPSS Statistics. Los nodos importan datos y exportan datos a IBM SPSS Statistics, ejecutandotambin procedimientos de IBM SPSS Statistics.

    Una vez que se familiarice ms con IBM SPSS Modeler, podr personalizar el contenido de la paleta parasu propio uso.

    Debajo de la Paleta de nodos, hay un panel de informe que proporciona informacin sobre el progreso dedistintas operaciones, como la lectura de datos en la ruta de datos. Situado tambin debajo de la Paletade nodos, hay un panel de estado que proporciona informacin acerca de la operacin que estrealizando la aplicacin e indica cundo son necesarios los comentarios del usuario.

    Gestores de IBM SPSS ModelerEn la parte superior derecha de la ventana se encuentra el panel de gestores. Este panel cuenta con trespestaas que se utilizan para administrar rutas, resultados y modelos.

    Se puede utilizar la pestaa Rutas para abrir, cambiar nombres, guardar o eliminar las rutas creadas enuna sesin.

    Figura 4. Pestaa Operaciones con registros de la paleta de nodos

    Captulo 3. IBM SPSS Modeler Visin general 17

  • La pestaa Resultados contiene una serie de archivos, como grficos y tablas, generados medianteoperaciones de rutas en IBM SPSS Modeler. Puede mostrar, guardar, cambiar el nombre y cerrar lastablas, grficos e informes que se enumeran en esta pestaa.

    La pestaa Modelos es la pestaa de gestor ms potente. Esta pestaa contiene todos los nugget demodelo, que son modelos generados en IBM SPSS Modeler, para la sesin actual. Estos modelos sepueden examinar directamente en la pestaa Modelos o aadirlos a la ruta en el lienzo.

    Figura 5. Pestaa Rutas

    Figura 6. Pestaa Resultados

    Figura 7. Pestaa Modelos que contiene nuggets de modelo

    18 Manual de usuario de IBM SPSS Modeler 16

  • Proyectos de IBM SPSS ModelerEn la parte inferior derecha de la ventana se encuentra el panel de proyectos, que se utiliza para crear yadministrar los proyectos de minera de datos (grupo de archivos relacionados con una tarea de minerade datos). Existen dos formas de ver los proyectos que se crean en IBM SPSS Modeler: en la vista Clasesy la vista CRISP-DM.

    La pestaa CRISP-DM permite organizar los proyectos segn el proceso CRISP-DM (Cross-IndustryStandard Process for Data Mining), una metodologa independiente y probada en el sector. Losanalizadores de datos con o sin experiencia pueden utilizar la herramienta CRISP-DM para mejorar laorganizacin y la comunicacin de los esfuerzos.

    La pestaa Clases permite organizar el trabajo en IBM SPSS Modeler de forma categrica, por los tipos delos objetos que se hayan creado. Esta vista resulta til al realizar un inventario de datos, rutas y modelos.

    Barra de herramientas de IBM SPSS ModelerEn la parte superior de la ventana de IBM SPSS Modeler hay una barra de herramientas con iconos queproporciona una serie de funciones muy tiles. A continuacin se detallan los botones de la barra deherramientas y sus funciones.

    Crear una nueva ruta Abrir una ruta existente

    Figura 8. vista CRISP-DM

    Figura 9. Vista Clases

    Captulo 3. IBM SPSS Modeler Visin general 19

  • Guardar la ruta actual Imprimir la ruta actual

    Cortar & mover la seleccin alPortapapeles

    Copiar al Portapapeles

    Pegar el contenido del Portapapelesen la seleccin

    Deshacer la ltima accin

    Rehacer Buscar nodos

    Editar las propiedades de la rutaPresentacin preliminar de generacin deSQL

    Ejecutar ruta actual Ejecutar seleccin de ruta

    Detener ruta (slo se activa durantela ejecucin de la ruta)

    Aadir Supernodo

    Acercar Supernodo (slo conSupernodos)

    Alejar Supernodo (slo con Supernodos)

    Sin marcacin en la ruta Insertar comentario

    Ocultar marcacin de ruta (si la hay) Mostrar marcacin de ruta oculta

    Abrir una ruta existente en IBMSPSS Modeler Advantage

    La marcacin de ruta consta de comentarios, enlaces de modelos e indicaciones de las ramas depuntuacin.

    Los enlaces de modelos se describen en el manual Nodos de modelado de IBM SPSS.

    Personalizacin de la barra de herramientasPuede cambiar varios aspectos de la barra de herramientas, como:v Si se visualizav Si los iconos tienen informacin sobre herramientasv Si utiliza iconos grandes o pequeos

    20 Manual de usuario de IBM SPSS Modeler 16

  • Para activar o desactivar la barra de herramientas:1. En el men principal, pulse en:

    Ver > Barra de herramientas > Visualizacin

    Para cambiar la informacin sobre herramientas o la configuracin del tamao de iconos:1. En el men principal, pulse en:

    Ver > Barra de herramientas > Personalizar

    Pulse Mostrar informacin sobre herramientas o Botones grandes, segn sea necesario.

    Personalizacin de la ventana de IBM SPSS ModelerSe puede cambiar el tamao de las herramientas o cerrarlas con los separadores de las distintas partes dela interfaz de IBM SPSS Modeler. Por ejemplo, si trabaja con una ruta larga, puede utilizar las flechaspequeas situadas en cada separador para cerrar la paleta de nodos, el panel de gestores y el deproyectos. De esta forma se maximiza el lienzo de rutas y se proporciona espacio de trabajo suficientepara varias rutas o para rutas grandes.

    Tambin puede pulsar desde el men Ver en Paleta de nodos, Gestores o Proyecto para activar odesactivar la visualizacin de estos elementos.

    En lugar de cerrar la paleta de nodos o los paneles de gestores y de proyectos, tambin se puede utilizarel lienzo de rutas como una pgina desplazable movindolo vertical y horizontalmente con las barras dedesplazamiento situadas en el lateral y en la parte inferior de la ventana de IBM SPSS Modeler.

    Figura 10. Lienzo de rutas maximizado

    Captulo 3. IBM SPSS Modeler Visin general 21

  • Tambin puede controlar la visualizacin de la marcacin de pantalla, que consta de los comentarios derutas, los enlaces de modelos y las indicaciones de las ramas de puntuacin. Para activar o desactivar estavisualizacin, pulse:

    Ver > Marcacin de rutas

    Cambio del tamao de icono de una rutaPuede cambiar el tamao de los iconos de ruta de las maneras siguientes.v Mediante un ajuste de propiedades de rutav Mediante un men emergente en la rutav Mediante el teclado

    Puede adaptar la totalidad de la vista de ruta a uno de los tamaos disponibles entre el 8% y el 200% deltamao de icono estndar.

    Para adaptar toda la ruta (mtodo de propiedades de ruta)1. En el men principal, elija:

    Herramientas > Propiedades de ruta > Opciones > Diseo.2. Seleccione el tamao que quiera en el men Tamao de icono.3. Pulse en Aplicar para ver el resultado.4. Pulse en Aceptar para guardar el cambio.

    Para adaptar toda la ruta (mtodo de men)1. Pulse dos veces en el fondo de la ruta en el lienzo.2. Elija Tamao de icono y seleccione el tamao que quiera.

    Para adaptar toda la ruta (mtodo de teclado)1. Pulse Ctrl + [-] en el teclado principal para alejarse hasta el siguiente tamao ms pequeo.2. Pulse Ctrl + Mays + [+] en el teclado principal para acercarse hasta el siguiente tamao ms grande.

    Esta caracterstica es especialmente til para obtener una vista general de una ruta compleja. Tambinpuede utilizarla para reducir el nmero de pginas necesarias para imprimir una ruta.

    Utilizacin del ratn en IBM SPSS ModelerLos usos ms comunes del ratn en IBM SPSS Modeler incluyen los siguientes:v Pulsar una vez. Utilice el botn derecho o el izquierdo del ratn para seleccionar las opciones de los

    mens, abrir mens emergentes y acceder a otros controles y opciones estndar. Pulsar y mantenerpulsado el botn para mover y arrastrar nodos.

    v Pulsar dos veces. Pulse dos veces con el botn izquierdo del ratn para colocar nodos en el lienzo derutas y editar nodos existentes.

    v Pulsar con el botn central. Pulse con el botn central del ratn y arrastre el cursor para conectarnodos en el lienzo de rutas. Pulse dos veces con el botn central del ratn para desconectar un nodo. Siel ratn no tiene un botn central, se puede simular esta caracterstica pulsando la tecla Alt a la vezque pulsa con el ratn y se arrastra.

    Uso de teclas de acceso directoMuchas operaciones de programacin visual de IBM SPSS Modeler poseen teclas de acceso rpidoasociadas. Por ejemplo, se puede eliminar un nodo pulsando en el nodo y en la tecla Supr del teclado.Del mismo modo, se puede guardar una ruta de forma rpida manteniendo pulsada la tecla Ctrl ypulsando la tecla S. Comandos de control como ste se indican con una combinacin de Ctrl con otratecla; por ejemplo, Ctrl+S.

    22 Manual de usuario de IBM SPSS Modeler 16

  • En las operaciones estndar de Windows se utilizan varias teclas de acceso directo, tales como Ctrl+Xpara cortar. Estos atajos son compatibles con IBM SPSS Modeler junto con los siguientes atajos deaplicaciones especficas.

    Note: En algunos casos, las teclas de acceso directo antiguas de IBM SPSS Modeler entran en conflicto conlas de Windows. Estos atajos antiguos son compatibles si adems se pulsa la tecla Alt. Por ejemplo, sepuede utilizar Ctrl+Alt+C para activar y desactivar la cach.

    Tabla 1. Teclas de acceso directo compatibles

    Tecla de accesodirecto Funcin

    Ctrl+A Seleccionar todo

    Ctrl+X Cortar

    Ctrl+N Nueva ruta

    Ctrl+O Abrir una ruta existente

    Ctrl+P Imprimir

    Ctrl+C Copiar

    Ctrl+V Pegar

    Ctrl + Z Deshacer

    Ctrl+Q Selecciona todos los nodos que se encuentren por debajo del nodo seleccionado

    Ctrl+W Anule la seleccin de todos los nodos posteriores en la ruta (se conmuta con Ctrl+Q)

    Ctrl+E Ejecutar desde el nodo seleccionado

    Ctrl+S Guarda la ruta actual

    Alt+Teclas de flecha Mueve los nodos seleccionados en el lienzo de rutas en la direccin de la flecha utilizada.

    Mays+F10 Abre el men emergente del nodo seleccionado

    Tabla 2. Atajos compatibles para teclas de acceso rpido anteriores

    Tecla de accesodirecto Funcin

    Ctrl+Alt+D Duplica el nodo

    Ctrl+Alt+L Carga el nodo

    Ctrl+Alt+R Cambia el nombre del nodo

    Ctrl+Alt+U Crea un nodo Datos Usuario

    Ctrl+Alt+C Conmutar cach activada/desactivada

    Ctrl+Alt+F Vaca la cach

    Ctrl+Alt+X Expandir Supernodo

    Ctrl+Alt+Z Acercar/alejar

    Suprimir Elimina el nodo o la conexin

    ImpresinSe pueden imprimir los siguientes objetos en IBM SPSS Modeler:v Diagramas de rutav Grficosv Tablasv Informes (del nodo Informe y de los informes de proyectos)

    Captulo 3. IBM SPSS Modeler Visin general 23

  • v Scripts (desde los cuadros de dilogo de propiedades de la ruta, Script autnomo o Script deSupernodo)

    v Modelos (exploradores de modelos, pestaas de cuadros de dilogo con la vista actual, visores derboles)

    v Anotaciones (mediante la pestaa Anotaciones de resultados)

    Para imprimir un objeto:v Para imprimir sin presentacin preliminar, pulse en el botn Imprimir de la barra de herramientas.v Para configurar la pgina antes de imprimir, seleccione Configurar pgina en el men Archivo.v Para mostrar la representacin preliminar, seleccione Presentacin preliminar en el men Archivo.v Para que se muestre el cuadro de dilogo de impresin estndar con las opciones para seleccionar las

    impresoras y especificar las opciones de aspecto, seleccione Imprimir en el men Archivo.

    Automatizacin de IBM SPSS ModelerDebido a que la minera de datos avanzada puede ser un proceso complejo y a menudo largo, IBM SPSSModeler incluye varios tipos de soporte de codificacin y automatizacin.v Control Language for Expression Manipulation (CLEM) es un lenguaje para analizar y manipular los

    datos que fluyen en las rutas de IBM SPSS Modeler. Los analistas de datos suelen utilizar CLEM en lasoperaciones de rutas para realizar tareas tan simples como derivar beneficios de datos de costes eingresos, o tan complejas como transformar datos del registro Web en un conjunto de campos yregistros con informacin til.

    v El procesamiento en es una herramienta potente para automatizar procesos en la interfaz de usuario.Los scripts pueden realizar las mismas acciones que los usuarios llevan a cabo con un ratn o unteclado. Tambin pueden especificar los resultados y manipular los modelos generados.

    24 Manual de usuario de IBM SPSS Modeler 16

  • Captulo 4. Comprensin de la minera de datos

    Conceptos bsicos de la minera de datosA travs de variadas tcnicas, la minera de datos identifica los nugget de informacin en los cuerpos dedatos. La minera de datos extrae informacin de manera que pueda ser utilizada en reas como la tomade decisiones, las predicciones, las previsiones y las estimaciones. Los datos suelen ocupar muchoespacio, aunque tengan un valor bajo y con poca utilidad directa en su forma sin procesar. Es lainformacin oculta la que dispone del valor.

    En la minera de datos, los mejores resultados se obtienen de la combinacin de sus conocimientos sobrelos datos (o los del experto) con las avanzadas tcnicas activas de anlisis, donde el equipo identifica lasrelaciones subyacentes y las caractersticas de los datos. El proceso de minera de datos genera modelosde datos histricos que se utilizan ms tarde en las predicciones, la deteccin de los patrones y otrasfunciones. La tcnica de construccin de estos modelos se llama aprendizaje de las mquinas omodelado.

    Tcnicas de modelado

    IBM SPSS Modeler contiene varias tecnologas de aprendizaje de las mquinas y de modelado, quepueden ms o menos agruparse segn los tipos de problemas que pretenden resolver.v Los mtodos de modelado predictivo contienen rboles de decisin, redes neuronales y modelos

    estadsticos.v Los modelos de agrupacin en clsteres se centran en la identificacin de grupos de registros similares

    y en el etiquetado de registros segn el grupo al que pertenecen. Los mtodos de clster incluyenKohonen, K-Medias y Bietpico.

    v Las reglas de asociacin asocian una conclusin concreta (como, por ejemplo, la compra de unproducto en especial) con un conjunto de condiciones (la compra de varios productos).

    v Los modelos de cribado se pueden utilizar para cribar datos para ubicar campos y registros con msprobabilidad de ser de inters para el modelado e identificar valores atpicos que pueden no ajustarse alos patrones conocidos. Los mtodos disponibles incluyen la seleccin de caractersticas y la deteccinde anomalas.

    Manipulacin y descubrimiento de datos

    IBM SPSS Modeler tambin contiene diversos recursos que le permiten aplicar sus conocimientos a losdatos:v Manipulacin de datos. Construye nuevos elementos de datos derivados de los ya existentes y

    desglosa los datos en subconjuntos significativos. Es posible fusionar y filtrar los datos procedentes deuna serie de orgenes.

    v Exploracin y visualizacin. Muestra aspectos de los datos mediante el nodo Auditora de datos a finde desarrollar una auditora inicial incluidos los grficos y los estadsticos. La visualizacin avanzadacontiene grficos interactivos, que pueden exportarse para ser incluidos en informes de proyectos.

    v Estadsticos. Confirma las relaciones sospechosas entre las variables de los datos. Los estadsticos deIBM SPSS Statistics tambin pueden utilizarse en IBM SPSS Modeler.

    v Comprobacin de la hiptesis. Construye modelos que muestran la forma en que se comportan losdatos, y verifica estos modelos.

    Normalmente, utilizar estos recursos para identificar un conjunto halageo de atributos en los datos. Acontinuacin, estos atributos pueden cargarse en las tcnicas de modelado, que intentarn identificar lasreglas y las relaciones subyacentes.

    25

  • Aplicaciones tpicas

    stas son algunas de las aplicaciones tpicas de tcnicas de minera de datos:

    Correo directo. Determina qu grupos demogrficos tienen la tasa de respuesta ms alta. Utilice estainformacin para maximizar la respuesta de correos futuros.

    Puntuacin del crdito. Utilice un historial de crdito individual para realizar las decisiones de crdito.

    Recursos humanos. Comprender los procedimientos de contratacin anteriores y crear reglas de decisina fin de hacer ms eficiente el proceso de contratacin.

    Investigacin mdica. Cree reglas de decisin que sugieran procedimientos adecuados basados encomprobaciones mdicas.

    Anlisis de mercado. Determine qu variables (como, por ejemplo, geografa, precio y caractersticas delos clientes) estn asociadas con las ventas.

    Control de calidad. Analice los datos procedentes de la manufactura del producto e identifique lasvariables que determinan los defectos de ste.

    Estudio de la poltica. Utilice los datos de la encuesta para formular la poltica mediante la aplicacin dereglas de decisin a fin de seleccionar las variables ms importantes.

    Atencin mdica. Puede combinar las encuestas al usuario con los datos clnicos a fin de descubrir lasvariables que contribuyen a la salud.

    Terminologa

    Los trminos atributo, campo y variable se refieren a un elemento de datos nico comn en todos loscasos que se tienen en cuenta. Se denomina registro, ejemplo o caso a una coleccin de valores deatributo referida a un caso especfico.

    Evaluacin de los datosNo es probable que la minera de datos sea provechosa a menos que los datos que desee utilizar renanciertos criterios. Las siguientes secciones presentan algunos de los aspectos de los datos y su aplicacinque debe tener en cuenta.

    Asegrese de que los datos estn disponibles

    sto puede parecer obvio, pero debe ser consciente de que, a pesar de que los datos puedan estardisponibles, es posible que no se encuentren en una forma en la que sea fcil operar. IBM SPSS Modelerpuede importar los datos de bases de datos (mediante ODBC) o de archivos. Sin embargo, los datospueden estar guardados con otra forma en una mquina a la que no se pueda acceder directamente. Esnecesario descargarlo o depositarlo en una forma apropiada antes de que se pueda utilizar. Es posibleque se hayan dispersado entre diferentes bases de datos y orgenes, y que necesiten agruparse. Es posibleque ni siquiera se encuentren en lnea. Si slo existe en papel, deber introducir los datos antes decomenzar con la minera de datos.

    Compruebe si los datos cubren los atributos relevantes

    El objeto de la minera de datos es identificar los atributos relevantes, por lo que puede parecer extraoincluir esta comprobacin en primer lugar. Sin embargo, es muy til consultar qu datos estndisponibles e intentar identificar los factores relevantes de probabilidad que no estn registrados. A lahora de predecir, por ejemplo, las ventas de helados, es posible que disponga de mucha informacin

    26 Manual de usuario de IBM SPSS Modeler 16

  • acerca del perfil de ventas, pero puede que no disponga de informacin acerca de la temperatura o elclima, la cual es probable que juegue un rol importante. Los atributos perdidos no implicannecesariamente que la minera de datos no generar resultados tiles, aunque pueden limitar la precisinde las predicciones resultantes.

    Una forma rpida de evaluar la situacin es desarrollar una auditora detallada de los datos. Antes decontinuar, contemple la opcin de conectar un nodo Auditora de datos al origen de los datos y ejecutarlopara que genere un informe completo.

    Preste atencin a los datos con ruido

    Los datos normalmente contienen errores o pueden contener juicios subjetivos y, por lo tanto, variables.El conjunto de estos fenmenos se conoce por el nombre de ruido. En ocasiones, el ruido en los datos esnormal. Es posible que tambin existan reglas subyacentes, pero no sern vlidas para el 100% de loscasos.

    Por lo general, cuanto ms ruido haya en los datos, ms difcil es obtener resultados exactos. Sinembargo, los mtodos de aprendizaje de las mquinas de IBM SPSS Modeler pueden gestionar los datoscon ruido y se han utilizado adecuadamente en conjunto de datos que contenan hasta un 50% de ruido.

    Asegrese de que hay datos suficientes

    En la minera de datos, el tamao de un conjunto de stos no es necesariamente lo ms importante. Lasusceptibilidad de ser representado de un conjunto de datos es mucho ms significativa, junto con lacobertura de posibles resultados y las combinaciones de las variables.

    Generalmente, cuantos ms atributos se tengan en cuenta, ms registros se necesitarn para lograr unacobertura representativa.

    Si los datos son representativos y existen reglas subyacentes generales, es probable que una muestra dedatos de unos pocos miles (o incluso cientos) de registros produzcan resultados igual de buenos que sicontuviera un milln de registros y, adems, se conseguirn resultados ms rpidamente.

    Busque a los expertos en datos

    En muchos casos, trabajar con sus propios datos, por lo que, tanto el contenido como el significado destos le sern muy familiares. Sin embargo, si trabaja con datos de otro departamento de la organizacin,o para un cliente, se recomienda que disponga de acceso a expertos que conozcan los datos. stos puedenayudarle a identificar los atributos relevantes, interpretar los resultados de la minera de datos, distinguirlos nugget de informacin verdaderos de los falsos, y a reconocer los artefactos causados por anomalasen los conjuntos de datos.

    Una estrategia para la minera de datosAl igual que ocurre con la mayora de los trabajos comerciales, la minera de datos es mucho ms eficazsi se realiza de manera planificada y sistemtica. Incluso con las herramientas de minera de datos deltima generacin, como IBM SPSS Modeler, la mayora del trabajo de la minera de datos necesita unanalista empresarial conocedor del sistema para que el proceso se realice correctamente. Estas preguntasle servirn de pauta para la planificacin:v Cul es el problema fundamental que desea resolver?v Qu orgenes de datos estn disponibles y qu partes de los datos son relevantes para el problema

    actual?v Qu tipo de procesamiento previo y limpieza de datos son necesarios antes de comenzar con la

    minera de datos?v Qu tcnica/s de minera de datos utilizar?

    Captulo 4. Comprensin de la minera de datos 27

  • v Cmo piensa evaluar los resultados de la minera de datos?v Cmo obtendr el mximo beneficio de la informacin obtenida de la minera de datos?

    El proceso tpico de minera de datos puede complicarse muy rpidamente. Existe una gran cantidad deelementos a los que realizar el seguimiento: complejos problemas comerciales, orgenes de datosmltiples, la variacin de la calidad de los datos, una matriz de tcnicas de minera de datos, las formasdiferentes de medir la correccin de la minera de datos, etctera.

    Para realizar un seguimiento adecuado, es aconsejable disponer de un modelo de proceso definido demanera explcita para la minera de datos. El modelo del proceso le ayuda a responder las preguntascitadas previamente en esta seccin, y garantiza el tratamiento de los puntos importantes. Sirve comomapa de carreteras de minera de datos para que no se sienta perdido mientras se sumerge en lascomplejidades de los datos.

    El proceso de minera de datos que se recomienda utilizar con SPSS Modeler es el CRISP-DM(Cross-Industry Standard Process for Data Mining). Como se deduce de su propio nombre, este modeloha sido diseado como un modelo general que puede aplicarse a una amplia variedad de problemasindustriales y comerciales.

    El modelo del proceso CRISP-DMEl modelo del proceso general CRISP-DM contiene seis frases clave dirigidas a cubrir los aspectosprincipales de la minera de datos. Las seis frases se encuadran en un proceso cclico diseado paraincorporar la minera de datos a los procedimientos comerciales ms grandes.

    Las seis frases son:v Comprensin del negocio. Probablemente la frase ms importante del proceso de minera de datos.

    La comprensin del negocio contiene la determinacin de objetivos comerciales, la evaluacin de lasituacin, la determinacin de los objetivos de la minera de datos y la produccin de un plan delproyecto.

    v Comprensin de los datos. Los datos proporcionan el "material sin procesar" de la minera de datos.Esta fase est dirigida a cubrir la necesidad de comprender cules son los orgenes de los datos y lascaractersticas de dichos orgenes. Incluye la recopilacin de los datos iniciales, la descripcin,exploracin y verificacin de la calidad de datos. El nodo Auditora de datos, situado en la paleta delos nodos de resultado es una herramienta indispensable para la comprensin de los datos.

    v Preparacin de datos. Despus de catalogar los orgenes de los datos, ser necesario que los preparepara su anlisis. La preparacin incluye la seleccin, limpieza, construccin, integracin y asignacin deformato de los datos.

    v Modelado. Se trata, obviamente, de la parte ms llamativa de la minera de datos, en la que seutilizan sofisticados mtodos de anlisis para extraer la informacin de los datos. Esta fase implica laseleccin de las tcnicas de modelado, la generacin de diseos de comprobacin y la generacin demodelos de evaluacin.

    v Evaluacin. Una vez elegidos los modelos, ya est preparado para evaluar la forma en que losresultados del anlisis pueden ayudarle a lograr los objetivos comerciales. Los elementos principales deesta fase son la evaluacin de los resultados, la revisin del proceso de minera de datos y ladeterminacin de los siguientes pasos.

    v Despliegue. Una vez realizado todo este trabajo, es hora de recoger los frutos. Esta fase se centra en laintegracin de sus nuevos conocimientos en el proceso comercial diario a fin de resolver el problemaoriginal comercial. Esta fase incluye el despliegue, el control y el mantenimiento del plan, laproduccin de un informe final, as como la revisin del proyecto.

    Existen algunos puntos clave en este modelo del proceso. En primer lugar, si bien es cierto que existe unatendencia general para que el proceso siga los pasos destacados en orden de los prrafos anteriores, existeun nmero de casos en los que las fases influyen entre s de manera no lineal. Por ejemplo, la

    28 Manual de usuario de IBM SPSS Modeler 16

  • preparacin de datos suele preceder al modelado. Sin embargo, tanto las decisiones realizadas como lainformacin recogida durante la fase de modelado generalmente pueden hacer que el usuario deseeconfigurar de nuevo ciertas partes de la fase de preparacin de datos, los cuales podrn, acto seguido,presentar nuevos problemas de modelado. Ambas fases se retroalimentan hasta que ambas se resuelvande manera adecuada. De igual manera, la fase de evaluacin puede hacer que el usuario desee evaluar denuevo la comprensin comercial original y puede hacerle caer en la cuenta de que ha estado intentandoresponder a la pregunta equivocada. En este punto, puede revisar, ya con un mejor objetivo en mente, lacomprensin del negocio e iniciar de nuevo el resto del proceso.

    El segundo punto clave es la naturaleza iterativa de la minera de datos. Es muy extrao, si es quesucede alguna vez, que el usuario simplemente planifique un proyecto de minera de datos, lo finalice y,acto seguido, empaquete los datos y se vaya a casa. La utilizacin de la minera de datos de manera queabarque las necesidades del cliente es una tarea continuada. El conocimiento que se obtiene de un ciclode minera de datos originar siempre nuevas preguntas, nuevos problemas y nuevas oportunidades deidentificar y cumplir las necesidades del cliente. Estas nuevas preguntas, problemas y oportunidadessuelen poder tratarse analizando de nuevo los datos. Este proceso de anlisis e identificacin de nuevasoportunidades debera convertirse en parte del proceso de anlisis de la empresa, y en piedra angular dela estrategia comercial general.

    Esta introduccin slo detalla brevemente los conceptos bsicos del modelo de proceso CRISP-DM. Paraobtener informacin detallada acerca del modelo, consulte los siguientes recursos:v La Gua de CRISP-DM, a la que se puede acceder junto con otra documentacin en la carpeta

    \Documentation del disco de instalacin del producto.v El sistema de ayuda de CRISP-DM, disponible desde el men Inicio o pulsando Ayuda de CRISP-DM

    desde el men Ayuda de IBM SPSS Modeler.

    Tipos de modelosIBM SPSS Modeler ofrece una gran variedad de mtodos de modelado procedentes del aprendizajeautomtico, la inteligencia artificial y el estadstico. Los mtodos disponibles en la paleta de modeladopermiten derivar nueva informacin procedente de los datos y desarrollar modelos predictivos. Cadamtodo tiene ciertos puntos fuertes y es ms adecuado para determinados tipos de problemas.

    El Manual de aplicaciones de IBM SPSS Modeler ofrece ejemplos para muchos de estos mtodos, junto conuna introduccin general al proceso de modelado. Este manual est disponible como tutorial en lnea ytambin en formato PDF. Consulte el tema Ejemplos de aplicaciones en la pgina 5 para obtener msinformacin.

    Los mtodos de modelado se dividen en tres categoras:v Clasificacinv Asociacinv Segmentacin.

    Modelos de clasificacin

    Los modelos de clasificacin usan el valor de uno o ms campos de entrada para predecir el valor de uno oms resultados o campos de destino. Algunos ejemplos de estas tcnicas son: rboles de decisiones (rbolC&R, QUEST, CHAID y algoritmos C5.0), regresin (lineal, logstica, lineal generalizada y algoritmos deregresin de Cox), redes neuronales, mquinas de vectores de soporte y redes bayesianas.

    Los modelos de clasificacin ayudan a las organizaciones a predecir un resultado conocido, como saber siun cliente comprar o se ir, o si una transaccin se ajusta a un patrn conocido de fraude. Las tcnicasde modelado incluyen aprendizaje automtico de las mquinas, induccin de reglas, identificacin desubgrupos, mtodos estadsticos y generacin de varios modelos.

    Captulo 4. Comprensin de la minera de datos 29

  • Nodos de clasificacin

    El nodo Clasificador automtico crea y compara varios modelos diferentes para obtenerresultados binarios (s o no, abandono o no de clientes, etc.), lo que le permite seleccionar elmejor enfoque para un anlisis determinado. Son compatibles varios algoritmos de modelado,por lo que es posible seleccionar los mtodos que desee utilizar, las opciones especficas paracada uno y los criterios para comparar los resultados. El nodo genera un conjunto de modelosbasado en las opciones especificadas y clasifica los mejores candidatos en funcin de loscriterios que especifique.

    El nodo Autonumrico calcula y compara modelos para resultados de rango numricocontinuo utilizando cierto nmero de mtodos diferentes. El nodo funciona de la mismamanera que el nodo Clasificador automtico, lo que le permite seleccionar los algoritmos quedesee utilizar y experimentar con varias combinaciones de opciones en una nica pasada demodelado. Los algoritmos admitidos incluyen redes neuronales, C&RT, CHAID, regresinlineal, regresin lineal generalizada y mquinas de vectores de soporte (SVM). Los modelos sepueden comparar basndose en la correlacin, el error relativo o el nmero de variablesutilizado.

    El nodo de rbol de clasificacin y regresin (C&R) genera un rbol de decisin que permitepredecir o clasificar observaciones futuras. El mtodo utiliza la particin reiterada para dividirlos registros de entrenamiento en segmentos minimizando las impurezas en cada paso, dondeun nodo se considera puro si el 100% de los casos del nodo corresponden a una categoraespecfica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rangonumrico) o categricos (nominal, ordinal o marca). Todas las divisiones son binarias (slo secrean dos subgrupos).

    El nodo QUEST proporciona un mtodo de clasificacin binario para generar rboles dedecisin; est diseado para reducir el tiempo de procesamiento necesario para realizar losanlisis de C&RT y reducir la tendencia de los mtodos de clasificacin de rboles parafavorecer a las entradas que permitan realizar ms divisiones. Los campos de entrada puedenser continuos (rango numrico), sin embargo el campo objetivo debe ser categrico. Todas lasdivisiones son binarias.

    El nodo CHAID genera rboles de decisin utilizando estadsticos de chi-cuadrado paraidentificar las divisiones ptimas. A diferencia de los nodos C&RT y QUEST, CHAID puedegenerar rboles no binarios, lo que significa que algunas divisiones generarn ms de dosramas. Los campos de entrada y objetivo pueden ser continuos (rango numrico) ocategricos. CHAID exhaustivo es una modificacin de CHAID que examina con mayorprecisin todas las divisiones posibles, aunque necesita ms tiempo para realizar los clculos.

    El nodo C5.0 genera un rbol de decisin o un conjunto de reglas. El modelo divide lamuestra basndose en el campo que ofrece la mxima ganancia de informacin en cada nivel.El campo objetivo debe ser categrico. Se permiten varias divisiones en ms de dossubgrupos.

    El nodo Lista de decisiones identifica subgrupos, o segmentos, que muestran una mayor omenor posibilidad de proporcionar un resultado binario relacionado con la poblacin global.Por ejemplo, puede buscar clientes que tengan menos posibilidades de abandonar o msposibilidades de responder favorablemente a una campaa. Puede incorporar su conocimientoempresarial al modelo aadiendo sus propios segmentos personalizados y previsualizandomodelos alternativos uno junto a otro para comparar los resultados. Los modelos de listas dedecisiones constan de una lista de reglas en las que cada regla tiene una condicin y unresultado. Las reglas se aplican en orden, y la primera regla que coincide determina elresultado.

    30 Manual de usuario de IBM SPSS Modeler 16

  • Los modelos de regresin lineal predicen un objetivo continuo tomando como base lasrelaciones lineales entre el destino y uno o ms predictores.

    El nodo PCA/Factorial proporciona tcnicas eficaces de reduccin de datos para reducir lacomplejidad de los datos. Anlisis de componentes principales (PCA) busca combinacioneslineales de los campos de entrada que realizan el mejor trabajo a la hora de capturar lavarianza en todo el conjunto de campos, en el que los componentes son ortogonales(perpendiculares) entre ellos. Anlisis factorial intenta identificar factores subyacentes queexpliquen el patrn de correlaciones dentro de un conjunto de campos observados. Para losdos mtodos, el objetivo es encontrar un nmero pequeo de campos derivados que resumade forma eficaz la informacin del conjunto original de campos.

    El nodo Seleccin de caractersticas filtra los campos de entrada para su eliminacin enfuncin de un conjunto de criterios (como el porcentaje de valores perdidos); a continuacin,clasifica el grado de importancia del resto de entradas de acuerdo con un objetivo especfico.Por ejemplo, a partir de un conjunto de datos dado con cientos de entradas potenciales,cules tienen mayor probabilidad de ser tiles para el modelado de resultados de pacientes?

    El anlisis discriminante realiza ms supuestos rigurosos que regresiones logsticas, peropuede ser una alternativa o un suplemento valioso al anlisis de regresin logstica si secumplen dichos supuestos.

    La regresin logstica es una tcnica de estadstico para clasificar los registros en funcin losvalores de los campos de entrada. Es anloga a la regresin lineal pero toma un campoobjetivo categrico en lugar de uno numrico.

    El modelo lineal generalizado ampla el modelo lineal general, de manera que la variabledependiente est relacionada linealmente con los factores y las covariables mediante unadeterminada funcin de enlace. Adems, el modelo permite que la variable dependiente tengauna distribucin no normal. Cubre la funcionalidad de un amplio nmero de modeloestadsticos, incluyendo regresin lineal, regresin logstica, modelos log lineales pararecuento de datos y modelos de supervivencia censurados por intervalos.

    Un modelo lineal mixto generalizado (GLMM) ampla el modelo lineal de modo que elobjetivo pueda tener una distribucin no normal, est linealmente relacionado con los factoresy covariables mediante una funcin de enlace especificada y las observaciones se puedancorrelacionar. Los modelos lineales mixtos generalizados cubren una amplia variedad demodelos, desde modelos de regresin lineal simple hasta modelos multinivel complejos paradatos longitudinales no normales.

    El nodo Regresin de Cox le permite crear un modelo de supervivencia para datos de tiempohasta el evento en presencia de registros censurados. El modelo produce una funcin desupervivencia que predice la probabilidad de que el evento de inters se haya producido enel momento dado (t) para valores determinados de las variables de entrada.

    El nodo Mquina de vectores de soporte (SVM) le permite clasificar datos en uno o dosgrupos sin que haya un ajuste por exceso. SVM funciona bien con conjuntos de datosgrandes, como aquellos con un gran nmero de campos de entrada.

    Captulo 4. Comprensin de la minera de datos 31

  • El nodo Red bayesiana le permite crear un modelo de probabilidad combinando pruebasobservadas y registradas con conocimiento del mundo real para establecer la probabilidad deinstancias. El nodo se centra en las redes Nave Bayes aumentado a rbol (TAN) y de mantode Markov que se utilizan principalmente para la clasificacin.

    El nodo Modelo de respuesta de autoaprendizaje (SLRM) permite crear un modelo en el queun solo caso nuevo o un pequeo nmero de casos nuevos se pueden utilizar para volver acalcular el modelo sin tener que entrenar de nuevo el modelo utilizando todos los datos.

    El nodo Serie temporal estima modelos de suavizado exponencial, modelos autorregresivosintegrados de media mvil (ARIMA) univariados y modelos ARIMA (o de funcin detransferencia) multivariados para series temporales y genera previsiones. Un nodo Serietemporal debe ir siempre precedido por un nodo Intervalos de tiempo.

    El nodo k de modelado de vecino (KNN) asocia el nuevo caso con la categora o valor de losobjetos k junto a l en el espacio de predictores, donde k es un entero. Los casos parecidosestn prximos y los que no lo son estn alejados entre s.

    Modelos de asociacin

    L