Mineria de datos

Área de la Energía, las Industrias y Recursos Naturales no Renovables

CARRERA DE INGENIERIA EN SISTEMAS

MODULO X

ALUMNA:

Mayra Elizabeth Ávila Rosales

TEMA:

“Practica de Minería de Datos.”

DOCENTE:

Ing.: Luis Antonio Chamba Eras.

PERIODO ACADEMICO:

Marzo- Julio del 2012

LOJA-ECUADOR

“INTELIGENCIA ARTIFICIAL”

Practica de Minería de Datos

1. Objetivos

Extraer información interesante/útil a partir de datos.

Estudiar los fundamentos de la minería de datos incluyendo: el aprendizaje de

máquina, el reconocimiento de patrones y la estadística, así como sus

aplicaciones a la solución de diferentes problemas prácticos.

Extracción de conocimiento, mediante una técnica de minería de datos, obtener

un modelo de conocimiento representado por patrones.

2. Contenido Teórico

Minería de Datos

o Introducción

Los avances tecnológicos en las últimas décadas nos han facilitado

enormemente el acceso a grandes volúmenes de datos. La cantidad de

información que manejamos hoy en día nos obliga a abordar el estudio de los

datos/información desde una perspectiva global y no fragmentada.

En los anos 90 apareció el concepto DATA MINING. Esta técnica se vinculo

estrecha-mente con la dirección de empresas y en concreto al marketing.

o Definición

La Minería de Datos busca el procesamiento de información de forma clara para

el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a

parámetros inicialmente establecidos y de acuerdo a las necesidades que se

buscan, es decir por medio de la minería de datos se dan acercamientos claros a

resultados estadísticamente factibles a entendimiento y razón de una persona.

o Tipos de minería de Datos

Minería de Datos Predictivas (MDP)

Usa primordialmente técnicas estadísticas

Minería de Datos para Descubrimiento de Conocimiento (MDDC)

Usa primordialmente técnicas de Inteligencia Artificial

o Características principales

Explorar los datos se encuentran en las profundidades de las bases de

datos, como los almacenes de datos, que algunas veces contienen

información almacenada durante varios anos.

En algunos casos, los datos se consolidan en un almacén de datos y en

mercados de datos; en otros, se mantienen en servidores de Internet e

Intranet.

El entorno de la minería de datos suele tener una arquitectura cliente-

servidor.

Las herramientas de la minería de datos ayudan a extraer el mineral de

la información enterrado en archivos corporativos o en registros públicos,

archivados

Hurgar y sacudir a menudo implica el descubrimiento de resultados

valiosos e inesperados.

o Fases de la Minería de Datos

Figura 1: Fases de la Minería de Datos

o Técnicas para la Minería de Datos

Agrupación de Datos

La agrupación o clustering consiste en agrupar un conjunto de datos

basándose en la similitud de los valores de sus atributos. El clustering

identifica regiones densamente pobladas, denominadas clúster, de acuerdo

a alguna medida de distancia establecida.

Clasificación de datos

La clasificación se utiliza para clasificar un conjunto de datos basado

en los valores de sus atributos.

La clasificación encuentra las propiedades comunes entre un conjunto de

objetos y los clasifica en diferentes clases, de acuerdo a un modelo de

clasificación.

Reglas de Asociación

La minería de reglas de asociación consiste en encontrar reglas de la

forma (A1yA2y...yAm) entonces (B1yB2y...yBn), donde Ai y Bj son valores de

atributos del conjunto de datos

o Extensiones de la Minería de Datos

Web Mining

Consiste en aplicar las técnicas de MD a documentos y servicios de

la Web. Todos los que visitan un sitio en Internet dejan huellas digitales

(direcciones de IP, navegador, galletas, etc.) que los servidores

automáticamente almacenan en una bitácora de accesos (log).

Las herramientas de Web Mining analizan y procesan los logs para producir

información significativa.

Text Mining

Se refiere a examinar una colección de documentos y descubrir

información no contenida en ningún documento individual de la colección.

Dado que el 80 por ciento de la información de una compañía se almacena en

forma de documentos, existen técnicas que apoyan al TM

o Mapa conceptual de la Minería de Datos

Figura 2: Mapa Conceptual de la Mineria 1

3. Desarrollo

o Enunciado del problema

La empresa de software para Internet “Memolum Web” quiere extraer tipologías

de empleados, con el objetivo de hacer una política de personal más fundamentada

y seleccionar a qué grupos incentivar.

Las variables que se recogen de las fichas de los 15 empleados de la empresa son:

• Sueldo: sueldo anual en euros.

• Casado: si está casado o no.

• Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la

empresa).

• Hijos: si tiene hijos.

• Alq/Prop: si vive en una casa alquilada o propia.

• Sindic.: si pertenece al sindicato revolucionario de Internet

• Bajas/Año: media del nº de bajas por año

• Antigüedad: antigüedad en la empresa

• Sexo: H: hombre, M: mujer.

Los datos de los 15 empleados se encuentran en el fichero “Empleados.arff”. Para

acceder a este fichero se debe ingresar a la siguiente dirección

www.dsic.upv.es/~cferri/weka. A continuación clic en la palabra “datos” e

inmediatamente empezara la descarga del archivo comprimido “Datasets.rar” en

http://www.dsic.upv.es/~cferri/weka

donde se encuentra “Empleados.arff”. Se intenta extraer grupos de entre estos

quince empleados

o Proceso de resolución del Problema

Se utilizará el método de Clúster para ello acudimos a la ventana Clúster, luego

seleccionaremos Choose para seleccionar el algoritmo SimpleKmeans, finalmente

definimos 3 el número de clúster

(En este apartado se agregará la ventana con los resultados que arroja el

software weka al aplicar el algoritmo y el diagrama de dispersión)

Ingreso a weka

En la primera parte del Software WEKA, se muestra la interfaz del software WEKA

que permite visualizar el pre-procesamiento de los datos contenidos en el archivo

“empleados.arff”, donde se puede identificar si los datos son reconocidos con la

verificación de las 15 instancias y 9 atributos generados, tal como se muestra en la

Figura 3.

Fig. 3: Pre-procesamiento del archivo “empleados.arff”

En la figura 3, nos muestra los resultados arrojados por el programa WEKA aplicando

la técnica de Clúster y el algoritmo SimpleKMeans, para esta práctica se trabaja en 3

clúster, los mismos que definen los siguientes resultados:

Clúster 0: Podemos visualizar que este clúster agrupa a 6 empleados con las

características como: un sueldo anual de 29166.6667 euros, no está casado

pero si tiene hijos, no va en coche a trabajar, vive en una casa alquilada, si

pertenece al sindicato revolucionario de Internet, bajas por año de 6.1667,

tiene 8.3 años de antigüedad y finalmente es del sexo femenino.

Clúster 1: En este clúster agrupa a 5 empleados con características en común

como un de un sueldo anual de 16600 euros, está casado y tiene hijos, viene en

coche a trabajar, vive en una casa propia, no pertenece al sindicato

revolucionario de Internet, tiene bajas por año un total de 3.4, tiene 8.4 años

de antigüedad y finalmente es del sexo masculino.

Clúster 2: Finalmente el ultimo clúster agrupa a 4 empleados tales como: un

sueldo anual de 14500 euros, está casado por lo tanto tiene hijos, va en coche

a trabajar, vive en una casa alquilada, no pertenece al sindicato revolucionario

de Internet, tiene un promedio de bajas por año de 6.25, tiene 7.75 años de

antigüedad y finalmente es del sexo masculino

Además podemos visualizar los resultados de los clúster en porcentaje:

Cluster 0 con 6 instancias: 40%



Fig.4: Aplicación de la Técnica Clúster y el Algoritmo SimpleKMeans

Por otra parte en el Software Weka podemos visualizar los datos de los

empleados a través del diagrama de correlación-dispersión, donde nos muestra

las 15 instancias distribuidas en el diagrama divididas por los 3 clusters:

clusters 0 (color azul), clusters 1 (color rojo) y clusters 0 (color verde), tal

como se muestra en la Figura 5.

Fig. 5: Diagrama de correlación-dispersión

o Análisis de los Resultados

Una vez que hemos analizados los datos sobre el caso de estudio de extraer tipologías

de empleados, se concluye que los empleados agrupados en el clúster 3, se les debe

incentivar y mejorar las políticas para el mejoramiento personal y obtener ganancias.

4. Conclusiones

o la minería de datos permite ahorrar grandes cantidades de dinero a una

empresa y abre nuevas oportunidades de negocios.

o Contribuye con la toma de decisiones.

o La MD proporciona poder de decisión y resultados de la mejor forma.

o Genera modelos descriptivos: permite a empresas explorar y comprender los

datos e identificar patrones relacionados y dependencias que impactan en los

resultados finales.

o Genera Modelos Predictivos: permite que las relaciones no descubiertas través

del proceso de la Minería de Datos sean expresado como reglas de negocio.

5. Bibliografía

o [1] S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes -

Argentina, 2006, pp. 11 – 14.

o [2] Cursos, investigación y recursos en inteligencia artificial. “Introducción a

técnicas de Minería de Datos”. Disponible:

http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classific

ation/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008]

o [3] IEspaña. “Árboles y reglas de decisión”. Disponible:

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.htm

l [citado en 23 de Febrero de 2008]

o [4] Proz.” Árbol de decisión (óptima)”. Disponible:

http://www.proz.com/kudoz/2311529[citado en 28 de Febrero de 2008]

6. Licencia

Práctica de Minería Datos De por Mayra Elizabeth Ávila Rosales está bajo una licencia Creative

Commons Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Unported .

http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classification/class_61_decision_trees.ppt

http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classification/class_61_decision_trees.ppt

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html

http://creativecommons.org/licenses/by-nc-sa/3.0/



Mineria de datos

Documents

Transcript of Mineria de datos