Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

6

Click here to load reader

description

El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar el conocimiento del negocio tal como el comportamiento de los clientes, empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicación pueden estar en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc. La minería de datos es el proceso de descubrir conocimiento desde bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de comportamiento aún no conocidos en los datos. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias, etc. La minería de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados). Comprende las siguientes actividades fundamentales: Clasificación de documentos para la asignación automática a clases pre-definidas; Agrupamiento de documentos para la identificación de documentos similares; Recuperación de información (similar a un buscador); Extracción de la información incluida en esos textos (hechos); y Extracción de asociaciones entre los hechos extraídos.

Transcript of Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Page 1: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

1

Curso Básico de Análisis Predictivo

Minería de Datos y Minería de Textos (DM051)

SUMILLA

El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones

tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar

el conocimiento del negocio tal como el comportamiento de los clientes, empleados, pacientes,

estudiantes y ciudadanos. Los dominios de aplicación pueden estar en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc.

La minería de datos es el proceso de descubrir conocimiento desde bases de datos, mediante

un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de comportamiento aún no

conocidos en los datos. El conocimiento se puede manifestar como: patrones, reglas de

conocimiento, asociaciones, grupos, restricciones, tendencias, etc.

La minería de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados). Comprende las siguientes actividades fundamentales: Clasificación de

documentos para la asignación automática a clases pre-definidas; Agrupamiento de

documentos para la identificación de documentos similares; Recuperación de información

(similar a un buscador); Extracción de la información incluida en esos textos (hechos); y Extracción de asociaciones entre los hechos extraídos.

OBJETIVOS

Al final del curso los alumnos estarán en capacidad de:

Comprender y usar las técnicas para el muestreo, descripción, limpieza y transformación de

datos mediante la identificación y eliminación de datos extremos, valores nulos y datos mal clasificados, la selección de características y el balanceo de datos.

Comprender el proceso de la minería de datos para extraer patrones de comportamiento

haciendo uso de la metodología CRISP-DM.

Diseñar, desarrollar, evaluar y comprender los modelo descriptivos – reglas de asociación y

agrupamiento y los modelos predictivos – clasificación y regresión, con la finalidad de identificar patrones de comportamiento (conocimiento oculto).

Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos

basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE

Comprender, usar y entender los resultados entregados por los programas de software. Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo naive

bayes, regresión logística, k-means, maximización de expectativas y algoritmo a priori.

Conocer y entender los fundamentos y problemáticas actuales de Minería de Textos en

comparación a Data Mining tradicional. Comprender y usar las técnicas para el análisis y la preparación de documentos.

Page 2: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

2

CONTENIDO

El curso está conformado por los siguientes temas.

Fundamentos de Análisis Predictivo

Entendimiento y Preparación

de datos

Modelo de Clasificación

Modelos de Regresión

Modelos de Agrupamiento

Modelos de Asociación

Minería de Textos

Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basados en la

exposición conceptual de nociones fundamentales de la minería de datos y en el desarrollo de

ejercicios prácticos para consolidar los conocimientos impartidos.

METODOLOGÍA

Desarrollo de clases teóricas para explicar los conceptos necesarios.

Desarrollo de talleres, donde se aplica lo aprendido en clase.

Uso de medios audiovisuales (proyectores)

Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIÓN

Riesgos Financieros Riesgos de Fraudes

Riesgos de Accidentes de Trabajo

Deserción de clientes

Detección de fraudes Segmentación de Clientes

Ventas Cruzadas

Patrones Secuenciales

Análisis de opiniones subjetivas Similaridad de documentos

Búsqueda e indexación de documentos

Análisis de mensajes en redes sociales

Análisis de encuestas abiertas. Análisis de post en blogs.

Análisis de correos electrónicos (spam).

Estructuración de base de datos.

REQUISITOS

Es deseable que los alumnos tengan experiencia en (no indispensable):

Base de datos (MS SQL, mySQL, Oracle, Sybase, etc.) Estadística y probabilidades

Hoja de cálculo.

Disponer de una computadora para el desarrollo de las clases

QUIENES PUEDEN ASISTIR

Analistas de riesgos.

Analistas de marketing en la web. Analistas de marketing, mercadeo o de pronóstico.

Investigadores de mercado que desean analizar encuestas abiertas.

Personal involucrado en proyectos de Business Intelligence.

Personal involucrado en proyectos de pronóstico y predicción.

Profesionales de estadísticos y economía. Profesionales en estadística interesados en analizar el contenido de textos no estructurados

(formularios, encuestas, etc.).

Administradores de Bases de Datos.

Page 3: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

3

HERRAMIENTAS

Para el desarrollo del curso se hace uso del software libre Rapidminer.

MATERIALES

El alumno recibe como parte de su capacitación

Un CD conteniendo el material del curso, ejercicios prácticos, software libre y documentos

relacionados. Material impreso

CERTIFICADO

Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las

sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje.

Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 24 horas.

INSTRUCTOR

Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos

predictivos. Magíster en Inteligencia Artificial – ITESM-México.

Ingeniero de Sistemas – UNI-Perú. Estudios de Especialización en

robótica aplicada-CNAD-México DF. Política Educativa Virtual-UAH-Chile. Docente del curso de Inteligencia Artificial en la UNI, UPAO,

USMP y UPC. Docente del Curso de Minería de Datos en el IIFIIS,

CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador

Principal del Instituto de Investigación de la FIIS (IIFIIS). Especialista en Visión Artificial, Reconocimiento de Patrones y Redes

Neuronales. Investigador en Ciencias de Computación con

publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005,

CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas

Autónomos. Consultor del programa de Modernización del Estado Peruano. Consultor de la Secretaría de Planificación Estratégica del

Ministerio de Educación del Perú.

Page 4: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

4

TEMARIO

Nombre de los temas a tratar Duración

INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS

Fundamentos de análisis de datos. Conceptos y conocimientos previos. Definición de la Minería de Datos. Herramientas de software disponibles. Modelo

de minería de datos. Evaluación del desempeño. Matriz de confusión. Lift

charts. Curva ROC. El proceso de la minería de datos. Metodologías para la

minería de datos. CRISP-DM. SEMMA. El proceso de la minería de datos (CRISP).

4 h

ENTENDIMIENTO Y PREPARACIÓN DE DATOS

Entendimiento de los datos. Recolección de datos iníciales. Descripción de los

datos. Estadísticas descriptiva univariada y multivariada. Relaciones entre

series de datos. Exploración de los datos. Verificación de la calidad de los datos. Preparación de datos. Limpieza de datos. Datos perdidos. Valores extremos.

Datos con ruido. Datos mal clasificados. Datos inconsistentes. Integración de

datos. Transformación de datos. Reducción de datos. Reducción de datos.

Reducción de instancias.

4 h

MODELOS DE CLASIFICACIÓN – ARBOLES DE DECISION

Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de modelos de clasificación. Probabilidad de una clasificación. Clasificador Naive Bayes.

Probabilidades. Clasificador Naive Bayes. Arboles de Decisión. Árbol de decisión.

Información y entropía. Generación del árbol de decisión. Poda del árbol.

Regresión Logística. Discretización y numerización.

4 h

MODELOS DE REGRESIÓN – REDES NEURONALES Modelos de Regresión. Evaluación de modelos de regresión. MAPE. Neuronas

naturales y artificiales. Épocas, función de transferencia. Aprendizaje de la red

neuronal. Preparación de datos. Red Perceptrón. Red de retro propagación.

Análisis de las Redes Neuronales. Sub-ajuste y sobre-ajuste. Normalización de datos. Neuronas de la capa intermedia.

4 h

MODELOS DE AGRUPAMIENTO – K-MEANS Y ALGORITMO EM Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de

agrupamiento. Medidas de distancias. Tipos de agrupamiento. Componentes

Principales. Modelos de Agrupamiento. K-means. Jerárquico. Modelos de

agrupamiento y modelos de clasificación.

2 h

MODELOS DE ASOCIACIÓN – ALGORITMO A PRIORI Conceptos acerca de modelos de asociación, entendiendo conceptos como:

soporte, confianza, itemset. Buscando itemsets frecuentes. Graficando las

reglas de asociación. Generando reglas de asociación. Predicción. Ventas

cruzadas, Canasta de mercado.

2 h

INTRODUCCIÓN A LA MINERIA DE TEXTOS (TEXT MINING) ¿Qué es la minería de textos?. Colecciones de documentos corpus. Datos semi-

estructurados y datos no estructurados. Técnicas de minería de textos. El

proceso de la minería de textos. Herramientas.

Lingüística, Morfología, Sintaxis, Semántica. Conceptos básicos, Gramática,

Léxico, Sintaxis. Tokenización. Stop words. Stemming. Vector de Indices.

4

Total de horas a dictar 24 h

Page 5: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

5

EX ALUMNOS

EDELNOR

SUNAT

Pacifico Vida

Profuturo AFP

Caja Municipal de Trujillo

FondeSurco

SCI

Nextel del Perú

Telefónica del Perú

ATENTO

Corporación Radial del Perú

RPP

TECSUP

UPCH

UPC

BSH Electrodomésticos

LAN Perú

Visanet Perú

Corporación Lindley

Citibank del Perú S.A.

Aceros Arequipa

Financiera Efectiva S.A.

Red Científica Peruana

Page 6: Brochure Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

6

KASPeru Av. José Pardo 138, Oficina 1402

Miraflores

Lima – Perú

(51-1) 697-8227 (51-1) 725-7209

www.kasperu.com [email protected] Todos los derechos reservados.

Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación

únicamente, ellos son registrados por sus respectivos dueños.