Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

6

Click here to load reader

description

El RapidMiner es un programa informático para la minería de datos, minería de textos y otras tareas para el análisis de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación educación, capacitación, creación rápida de prototipos y en aplicaciones empresariales, debido a su facilidad de instalación, de uso y su amplia librería de operadores, proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, preprocesamiento de datos y visualización, funciones para el intercambio de datos con base de datos. También permite utilizar los algoritmos incluidos en Weka y en R. En una encuesta realizada por KDnuggets, una web de minería de datos, RapidMiner ocupó el segundo lugar en herramientas de analítica y de minería de datos utilizadas para proyectos reales en el 2009, primero en el 2010, primero en el 2011 y tercero en el 2012 luego del R y del excel. La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en SourceForge desde el 2004.

Transcript of Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Page 1: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

1

Taller de Inducción al RapidMiner 5.1

Minería de Datos y Minería de Textos (DM047)

SUMILLA

El RapidMiner es un programa informático para la minería de datos, minería de textos y otras

tareas para el análisis de datos. Permite el desarrollo de procesos de análisis de datos mediante

el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación educación, capacitación, creación rápida de prototipos y en aplicaciones empresariales, debido

a su facilidad de instalación, de uso y su amplia librería de operadores, proporciona más de 500

operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones

de entrada y salida, preprocesamiento de datos y visualización, funciones para el intercambio

de datos con base de datos. También permite utilizar los algoritmos incluidos en Weka y en R.

En una encuesta realizada por KDnuggets, una web de minería de datos, RapidMiner ocupó el

segundo lugar en herramientas de analítica y de minería de datos utilizadas para proyectos

reales en el 2009, primero en el 2010, primero en el 2011 y tercero en el 2012 luego del R y del excel. La versión inicial fue desarrollada por el departamento de inteligencia artificial de la

Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en

SourceForge desde el 2004.

OBJETIVOS

Al final del taller los alumnos estarán en capacidad de: Conocer las perspectivas de diseño y de resultados, conocer la arquitectura de los

operadores y los repositorios de procesos.

Conocer los tipos de datos y tipos de atributos usados por el RapidMiner y su relación con

otras herramientas.

Creación, modificación y eliminación de definiciones de procesos (conjunto de operadores), visualización de la ventana de parámetros.

Ejecutar operadores para la lectura de datos, exportación de datos, ejecución de sentencias

SQL.

Implementar definiciones de procesos para la transformación de datos. Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos

basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE.

Implementar definiciones de procesos para la creación de modelos de clasificación.

Implementar definiciones de procesos para la creación de modelos de agrupamiento. Implementar definiciones de procesos para la creación de modelos de reglas se asociación.

Implementar definiciones de procesos para la creación de modelos de minería de datos.

Comprender, usar y entender los resultados entregados en la perspectiva de resultados.

Page 2: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

2

CONTENIDO

El contenido está conformado por los siguientes temas:

Uso básico Preparación de datos

Modelos predictivos

Evaluación de modelos

Ejemplos de aplicación

Minería de Textos

Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basada en la

exposición de las acciones y los pasos necesarios para implementar modelos de minería de

datos y minería de textos en el RapidMiner.

METODOLOGÍA

Aprendizaje basado en la solución de problemas y casos.

Desarrollo de conceptos básicos para explicar los conceptos necesarios.

Desarrollo de ejercicios, donde se aplica la herramienta para abordar problemas prácticos.

Uso de medios audiovisuales (proyectores). Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIÓN

Riesgos Financieros

Riesgos de Fraudes

Riesgos de Accidentes de Trabajo

Deserción de clientes Detección de fraudes

Segmentación de Clientes

Ventas Cruzadas

Patrones Secuenciales

Análisis de opiniones subjetivas

Similaridad de documentos

Búsqueda e indexación de documentos

Análisis de mensajes en redes sociales Análisis de encuestas abiertas.

Análisis de post en blogs.

Análisis de correos electrónicos (spam).

Estructuración de base de datos.

REQUISITOS

Es deseable que los alumnos tengan experiencia en (no indispensable):

Conocimientos básicos de minería de datos.

Base de datos (MS SQL, mySQL, Oracle, Sybase, etc.)

Estadística y probabilidades

Hoja de cálculo. Disponer de una computadora para el desarrollo de las clases

QUIENES PUEDEN ASISTIR Analistas de riesgos.

Analistas de marketing en la web.

Analistas de marketing, mercadeo o de pronóstico.

Investigadores de mercado que desean analizar encuestas abiertas. Personal involucrado en proyectos de Business Intelligence.

Personal involucrado en proyectos de pronóstico y predicción.

Profesionales de estadísticos y economía.

Profesionales en estadística interesados en analizar el contenido de textos no estructurados

(formularios, encuestas, etc.). Administradores de Bases de Datos.

Page 3: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

3

HERRAMIENTAS

Para el desarrollo del taller se hace uso del software libre RapidMiner.

MATERIALES

El alumno recibe como parte de su capacitación:

Un CD conteniendo el material del taller, ejercicios prácticos, software libre y documentos relacionados.

Material impreso.

Break de cortesía.

CONSTANCIA

Para recibir la constancia de asistencia al taller, el alumno debe de asistir al 100% de la sesión. La constancia de asistencia se entrega solo al finalizar la sesión, si esta estudiante no se

encuentra en el aula en el momento de la entrega no recibirá la constancia de asistencia.

INSTRUCTOR

Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos

predictivos. Magíster en Inteligencia Artificial – ITESM-México.

Ingeniero de Sistemas – UNI-Perú. Estudios de Especialización en robótica aplicada-CNAD-México DF. Política Educativa Virtual-UAH-

Chile. Docente del curso de Inteligencia Artificial en la UNI, UPAO,

USMP y UPC. Docente del Curso de Minería de Datos en el IIFIIS,

CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigación de la FIIS (IIFIIS).

Especialista en Visión Artificial, Reconocimiento de Patrones y Redes

Neuronales. Investigador en Ciencias de Computación con

publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005,

CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autónomos. Consultor del programa de Modernización del Estado

Peruano. Consultor de la Secretaría de Planificación Estratégica del

Ministerio de Educación del Perú.

Page 4: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

4

TEMARIO

Nombre de los temas a tratar Duración

USO BÁSICO DEL RAPIDMINER

Interface de usuario, repositorios, proyectos, operaciones y procesos, carga de datos de archivos planos y base de datos. Perspectivas de diseño y de

resultados, conocer la arquitectura de los operadores y los repositorios de

procesos. Creación, modificación y eliminación de definiciones de procesos

(conjunto de operadores), visualización de la ventana de parámetros.

2 horas

PREPARACIÓN DE DATOS Tipos de datos y tipos de atributos usados por el RapidMiner, normalización y

estandarización, discretización, valores null, valores extremos, muestreo

absoluto, relativo y probable, balanceo de datos.

1 horas

SELECCIÓN DE ATRIBUTOS Reducción de la dimensionalidad. Identificación de atributos con mayor

relevancia, calculo de pesos, generación del ranking, tipos de ranking, filtro

por ranking, eliminación de atributos con menor ranking.

1 horas

MODELOS PREDICTIVOS CON RAPIDMINER Exploración de datos y visualización de datos, correlaciones, regresión lineal,

naive bayes, árbol de decisión, redes neuronales, SVM, regresión logística.

1 horas

EVALUACIÓN DE MODELOS Partición de datos, métodos de evaluación, grafico de elevación, curva ROC,

matriz de confusión.

1 horas

MINERÍA DE TEXTOS (TEXT MINING) Lectura y escritura de documentos, Preparación de datos: tokenizacion,

stopwords, stemming, filtros, n-grams, Creación del vector de índices,

Clasificación de documentos.

2 horas

Total de horas a dictar 8 horas

Page 5: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

5

EX ALUMNOS DE NUESTROS CURSOS O TALLERES

EDELNOR

SUNAT

Pacifico Vida

Profuturo AFP

Caja Municipal de Trujillo

FondeSurco

SCI

Nextel del Perú

Telefónica del Perú

ATENTO

Corporación Radial del Perú

RPP

TECSUP

UPCH

UPC

BSH Electrodomésticos

LAN Perú

Visanet Perú

Corporación Lindley

Citibank del Perú S.A.

Aceros Arequipa

Financiera Efectiva S.A.

Red Científica Peruana

Page 6: Brochure Taller de Inducción al RapidMiner 5.1 Minería de Datos y Minería de Textos (DM047)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

6

KASPeru Av. José Pardo 138, Oficina 1402

Miraflores

Lima – Perú

(51-1) 697-8227 (51-1) 725-7209

www.kasperu.com [email protected] Todos los derechos reservados.

Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación

únicamente, ellos son registrados por sus respectivos dueños.