Mineria de datos
-
Upload
departamento-de-redes-unl -
Category
Documents
-
view
1.555 -
download
1
description
Transcript of Mineria de datos
Área de la Energía, las Industrias y Recursos Naturales no Renovables
CARRERA DE INGENIERIA EN SISTEMAS
MODULO X
ALUMNA:
Mayra Elizabeth Ávila Rosales
TEMA:
“Practica de Minería de Datos.”
DOCENTE:
Ing.: Luis Antonio Chamba Eras.
PERIODO ACADEMICO:
Marzo- Julio del 2012
LOJA-ECUADOR
“INTELIGENCIA ARTIFICIAL”
Practica de Minería de Datos
1. Objetivos
Extraer información interesante/útil a partir de datos.
Estudiar los fundamentos de la minería de datos incluyendo: el aprendizaje de
máquina, el reconocimiento de patrones y la estadística, así como sus
aplicaciones a la solución de diferentes problemas prácticos.
Extracción de conocimiento, mediante una técnica de minería de datos, obtener
un modelo de conocimiento representado por patrones.
2. Contenido Teórico
Minería de Datos
o Introducción
Los avances tecnológicos en las últimas décadas nos han facilitado
enormemente el acceso a grandes volúmenes de datos. La cantidad de
información que manejamos hoy en día nos obliga a abordar el estudio de los
datos/información desde una perspectiva global y no fragmentada.
En los anos 90 apareció el concepto DATA MINING. Esta técnica se vinculo
estrecha-mente con la dirección de empresas y en concreto al marketing.
o Definición
La Minería de Datos busca el procesamiento de información de forma clara para
el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a
parámetros inicialmente establecidos y de acuerdo a las necesidades que se
buscan, es decir por medio de la minería de datos se dan acercamientos claros a
resultados estadísticamente factibles a entendimiento y razón de una persona.
o Tipos de minería de Datos
Minería de Datos Predictivas (MDP)
Usa primordialmente técnicas estadísticas
Minería de Datos para Descubrimiento de Conocimiento (MDDC)
Usa primordialmente técnicas de Inteligencia Artificial
o Características principales
Explorar los datos se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen
información almacenada durante varios anos.
En algunos casos, los datos se consolidan en un almacén de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e
Intranet.
El entorno de la minería de datos suele tener una arquitectura cliente-
servidor.
Las herramientas de la minería de datos ayudan a extraer el mineral de
la información enterrado en archivos corporativos o en registros públicos,
archivados
Hurgar y sacudir a menudo implica el descubrimiento de resultados
valiosos e inesperados.
o Fases de la Minería de Datos
Figura 1: Fases de la Minería de Datos
o Técnicas para la Minería de Datos
Agrupación de Datos
La agrupación o clustering consiste en agrupar un conjunto de datos
basándose en la similitud de los valores de sus atributos. El clustering
identifica regiones densamente pobladas, denominadas clúster, de acuerdo
a alguna medida de distancia establecida.
Clasificación de datos
La clasificación se utiliza para clasificar un conjunto de datos basado
en los valores de sus atributos.
La clasificación encuentra las propiedades comunes entre un conjunto de
objetos y los clasifica en diferentes clases, de acuerdo a un modelo de
clasificación.
Reglas de Asociación
La minería de reglas de asociación consiste en encontrar reglas de la
forma (A1yA2y...yAm) entonces (B1yB2y...yBn), donde Ai y Bj son valores de
atributos del conjunto de datos
o Extensiones de la Minería de Datos
Web Mining
Consiste en aplicar las técnicas de MD a documentos y servicios de
la Web. Todos los que visitan un sitio en Internet dejan huellas digitales
(direcciones de IP, navegador, galletas, etc.) que los servidores
automáticamente almacenan en una bitácora de accesos (log).
Las herramientas de Web Mining analizan y procesan los logs para producir
información significativa.
Text Mining
Se refiere a examinar una colección de documentos y descubrir
información no contenida en ningún documento individual de la colección.
Dado que el 80 por ciento de la información de una compañía se almacena en
forma de documentos, existen técnicas que apoyan al TM
o Mapa conceptual de la Minería de Datos
Figura 2: Mapa Conceptual de la Mineria 1
3. Desarrollo
o Enunciado del problema
La empresa de software para Internet “Memolum Web” quiere extraer tipologías
de empleados, con el objetivo de hacer una política de personal más fundamentada
y seleccionar a qué grupos incentivar.
Las variables que se recogen de las fichas de los 15 empleados de la empresa son:
• Sueldo: sueldo anual en euros.
• Casado: si está casado o no.
• Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la
empresa).
• Hijos: si tiene hijos.
• Alq/Prop: si vive en una casa alquilada o propia.
• Sindic.: si pertenece al sindicato revolucionario de Internet
• Bajas/Año: media del nº de bajas por año
• Antigüedad: antigüedad en la empresa
• Sexo: H: hombre, M: mujer.
Los datos de los 15 empleados se encuentran en el fichero “Empleados.arff”. Para
acceder a este fichero se debe ingresar a la siguiente dirección
www.dsic.upv.es/~cferri/weka. A continuación clic en la palabra “datos” e
inmediatamente empezara la descarga del archivo comprimido “Datasets.rar” en
donde se encuentra “Empleados.arff”. Se intenta extraer grupos de entre estos
quince empleados
o Proceso de resolución del Problema
Se utilizará el método de Clúster para ello acudimos a la ventana Clúster, luego
seleccionaremos Choose para seleccionar el algoritmo SimpleKmeans, finalmente
definimos 3 el número de clúster
(En este apartado se agregará la ventana con los resultados que arroja el
software weka al aplicar el algoritmo y el diagrama de dispersión)
Ingreso a weka
En la primera parte del Software WEKA, se muestra la interfaz del software WEKA
que permite visualizar el pre-procesamiento de los datos contenidos en el archivo
“empleados.arff”, donde se puede identificar si los datos son reconocidos con la
verificación de las 15 instancias y 9 atributos generados, tal como se muestra en la
Figura 3.
Fig. 3: Pre-procesamiento del archivo “empleados.arff”
En la figura 3, nos muestra los resultados arrojados por el programa WEKA aplicando
la técnica de Clúster y el algoritmo SimpleKMeans, para esta práctica se trabaja en 3
clúster, los mismos que definen los siguientes resultados:
Clúster 0: Podemos visualizar que este clúster agrupa a 6 empleados con las
características como: un sueldo anual de 29166.6667 euros, no está casado
pero si tiene hijos, no va en coche a trabajar, vive en una casa alquilada, si
pertenece al sindicato revolucionario de Internet, bajas por año de 6.1667,
tiene 8.3 años de antigüedad y finalmente es del sexo femenino.
Clúster 1: En este clúster agrupa a 5 empleados con características en común
como un de un sueldo anual de 16600 euros, está casado y tiene hijos, viene en
coche a trabajar, vive en una casa propia, no pertenece al sindicato
revolucionario de Internet, tiene bajas por año un total de 3.4, tiene 8.4 años
de antigüedad y finalmente es del sexo masculino.
Clúster 2: Finalmente el ultimo clúster agrupa a 4 empleados tales como: un
sueldo anual de 14500 euros, está casado por lo tanto tiene hijos, va en coche
a trabajar, vive en una casa alquilada, no pertenece al sindicato revolucionario
de Internet, tiene un promedio de bajas por año de 6.25, tiene 7.75 años de
antigüedad y finalmente es del sexo masculino
Además podemos visualizar los resultados de los clúster en porcentaje:
Cluster 0 con 6 instancias: 40%
Cluster 1 con 5 instancias: 33%
Cluster 2 con 4 instancias: 27%
Fig.4: Aplicación de la Técnica Clúster y el Algoritmo SimpleKMeans
Por otra parte en el Software Weka podemos visualizar los datos de los
empleados a través del diagrama de correlación-dispersión, donde nos muestra
las 15 instancias distribuidas en el diagrama divididas por los 3 clusters:
clusters 0 (color azul), clusters 1 (color rojo) y clusters 0 (color verde), tal
como se muestra en la Figura 5.
Fig. 5: Diagrama de correlación-dispersión
o Análisis de los Resultados
Una vez que hemos analizados los datos sobre el caso de estudio de extraer tipologías
de empleados, se concluye que los empleados agrupados en el clúster 3, se les debe
incentivar y mejorar las políticas para el mejoramiento personal y obtener ganancias.
4. Conclusiones
o la minería de datos permite ahorrar grandes cantidades de dinero a una
empresa y abre nuevas oportunidades de negocios.
o Contribuye con la toma de decisiones.
o La MD proporciona poder de decisión y resultados de la mejor forma.
o Genera modelos descriptivos: permite a empresas explorar y comprender los
datos e identificar patrones relacionados y dependencias que impactan en los
resultados finales.
o Genera Modelos Predictivos: permite que las relaciones no descubiertas través
del proceso de la Minería de Datos sean expresado como reglas de negocio.
5. Bibliografía
o [1] S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes -
Argentina, 2006, pp. 11 – 14.
o [2] Cursos, investigación y recursos en inteligencia artificial. “Introducción a
técnicas de Minería de Datos”. Disponible:
http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classific
ation/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008]
o [3] IEspaña. “Árboles y reglas de decisión”. Disponible:
http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.htm
l [citado en 23 de Febrero de 2008]
o [4] Proz.” Árbol de decisión (óptima)”. Disponible:
http://www.proz.com/kudoz/2311529[citado en 28 de Febrero de 2008]
6. Licencia
Práctica de Minería Datos De por Mayra Elizabeth Ávila Rosales está bajo una licencia Creative
Commons Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Unported .