Post on 16-Dec-2015
UNIVERSIDAD AUTNOMA DE CHILE INGENIERA CIVIL INDUSTRIAL
AGRUPACIN DE DATOS INTELIGENCIA DE NEGOCIOS
18 DE JUNIO DE 2015 CLAUDIA PARRA
TERESA VSQUEZ
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Introduccin
En esta segunda tarea, nos han pedido que clasifiquemos todas las Carreras que se
dictan en Chile por Universidades, para luego aplicar distintas reformas en cuanto a la
educacin.
El gobierno necesita perfilar las carreras para poder aplicar distintas medidas. Por la
misma razn deberemos segmentar las universidades en un total de segmentos
determinado por nosotros. Luego deberemos dar las caractersticas especficas de cada
segmento encontrado. Para esto trabajaremos con una base de datos entregados por el
ministerio de educacin, la cual posee distintas caractersticas de las carreras.
Realizaremos los anlisis y posterior segmentacin de la base de dato de 3846 carreras
del ao 2014.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Limpieza de datos
El mtodo de seleccin de atributos utilizada en este trabajo fue por medio del programa
Rapidminer. A travs de este programa se evaluaron los valores faltantes de cada
variable, se decidi eliminar las variables que tuvieran ms del 30% de sus datos
perdidos.
Variables Valores perdidos porcentaje
Mencin o especialidad 3234 84,09
Mximo puntaje NEM 2267 58,94
Promedio puntaje NEM (1) 2267 58,94
Mnimo puntaje NEM 2267 58,94
Mximo puntaje ranking (1) 2267 58,94
Promedio puntaje Ranking (1) 2267 58,94
Mnimo puntaje ranking (1) 2267 58,94
Nmero Alumnos Ingreso otra va (1) 2061 53,59
Puntaje de corte (primer seleccionado) (1) 1976 51,38
Puntaje de corte (promedio de la carrera) (1) 1976 51,38
Puntaje de corte (ltimo seleccionado) (1) 1976 51,38
Mximo puntaje PSU (Promedio mat y leng) (1) 1958 50,91
Promedio puntaje PSU (promedio mat y leng) (1) 1958 50,91
Mnimo Puntaje PSU (promedio mat y leng) (1) 1958 50,91
N Alumnos ingreso PSU (1) 1945 50,57
Vacantes (1) 1208 31,41
Matrcula 1 ao extranjeros 1087 28,26
Matrcula total extranjeros 907 23,58
Valor del ttulo (1) 706 18,36
Valor del arancel (1) 580 15,08
Valor de matrcula (1) 524 13,62
Matrcula 1 ao hombres 489 12,71
Matrcula 1 ao mujeres 473 12,30
Duracin (en semestres) 70 1,82
Matrcula total Hombres 40 1,04
Matrcula Total Mujeres 35 0,91
Tabla1.- Variables con valores faltantes
Se eliminan 16 variables de un total de 41 variables contando la ID.
Para trabajar con los datos faltantes de las variables restantes, se hizo un anlisis de sus
respectivos grficos. Con esto se decidi revalorar estos datos por los valores mnimos,
mximos o por su media.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Para llenar los valores faltantes de nuestra base de datos se utiliz la funcin Replace
Missing Value:
Imagen 1.- Vista del programa Rapidminer.
A continuacin se muestra los grficos de las variables a las cuales se le asignaron valor
a sus datos faltantes:
Variable: Duracin (en semestre)
Grfico 1 y 2.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
Variable: Valor de matrcula
Grfico 3 y 4.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en promedio de los datos.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Variable: Valor del Arancel
Grfico 5 y 6.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en promedio de los datos.
Variable: Valor Ttulo
Grfico 7 y 8.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
Variable: Matrcula primer ao Hombres
Grfico 9 y 10.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Variable: Valor matrcula primer ao Mujeres
Grfico 11 y 12.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
Variable: Valor matricula primer ao extranjeros
Grfico 13 y 14.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
Variable: Matrcula total hombres
Grfico 15 y 16.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Variable: Matrcula Total Mujeres
Grfico 17 y 18.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
Variable: Matrcula Total extranjeros
Grfico 19 y 20.- A la derecha histograma con valores faltantes, a la izquierda
histograma sin datos faltantes valorados en mnimo.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Como resumen del trabajo realizado en los datos faltantes:
Variables
Valores
perdidos porcentaje
Reemplazo valores
faltantes
Matrcula 1 ao extranjeros 1087 28,3 Mnimo
Matrcula total extranjeros 907 23,6 Mnimo
Valor del ttulo (1) 706 18,4 Mnimo
Valor del arancel (1) 580 15,1 Promedio
Valor de matrcula (1) 524 13,6 Promedio
Matrcula 1 ao hombres 489 12,7 Mnimo
Matrcula 1 ao mujeres 473 12,3 Mnimo
Duracin (en semestres) 70 1,8 Mnimo
Matrcula total Hombres 40 1,0 Mnimo
Matrcula Total Mujeres 35 0,9 Mnimo
Normalizacin de datos
Se decide trabajar con los datos normalizados, es decir a cada una de las entradas de la
base de datos debe restarse su media y dividir sobre su desviacin estndar, con el fin de
que la media de estos nuevos datos sea cero y la varianza sea igual a 1. Esto, con el fin
de reducir el sesgo asociado con las escalas de medida de las variables y de trabajar con
los datos cuando estos tienen diferentes unidades de medida.
Para normalizar una base de datos en RapidMiner, se usa el operador Normalize. Este
operador efecta el proceso de estandarizar una variable rpidamente.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Eliminacin de datos por correlacin
Despus, aplicamos un anlisis de correlacin para identificar que variables o
indicadores son los que tienen mayor relevancia en el modelo de datos de origen, de esta
forma, anulamos las variables que se repiten muchas veces, que son poco
representativas (tienen muchos valores nicos), aquellas que tienen datos nulos, y
dejamos el grupo de datos listo para el proceso de clasificacin.
Luego de filtrar nuestra base de datos contamos con las siguientes variables:
Correlacin
ID
Nombre Institucin
Descripcin Tipo Sistema
Comuna donde se imparte la carrera o programa
Nombre Regin
Cd. Carrera
Carrera Genrica
Horario
rea Conocimiento
Tipo Carrera
Duracin (en semestres)
Cd. Sede
Valor de matrcula (1)
Valor de arancel (1)
Valor del Ttulo (1)
Matrcula primer ao hombres
Matrcula primer ao extranjeros
Matrcula total mujeres
Tabla3. Variables que siguen en el modelo
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Las variables que fueron eliminadas luego de la eliminacin por correlacin, son las
siguientes:
Correlacin
Ao Inicio Actividades
Matrcula primer ao mujeres
Matrcula Primer Ao
Matrcula total hombres
Matrcula total extranjeros
Matrcula Total
Tabla 4.-Variables eliminadas por mtodo de correlacin
Se ha decidido eliminar la variable Orden Geogrfico de la Regin (Norte a Sur) ya
que es una variable repetitiva y no aporta mayor informacin.
Luego de limpiar la base de datos necesitamos segmentar la informacin, esto con el
mtodo Agglomerative clustering. Lo que hace este mtodo es ir formando grupos, de
forma ascendente, hasta que al final del proceso todos los casos tratados estn
englobados en un mismo conglomerado.
Permite la construccin de un rbol de clasificacin, que recibe el nombre de
dendrograma, en el cual se puede seguir de forma grfica el procedimiento de unin,
mostrando que grupos se van uniendo, en qu nivel concreto lo hacen, as como el valor
de la medida de asociacin entre los grupos cuando estos se agrupan.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Como resultado nos dividi los datos en dos segmentos, como se puede ver a
continuacin:
Figura 1.- Dendrograma de base de datos
Una de las primeras cosas que podemos hacer es segmentar los productos en familias o
grupos. Cuando empezamos a extraer los datos, es mejor dejar a un lado las variables
clasificatorias y dejar que los datos determinan las clasificaciones o grupos naturales. La
tcnica de agrupamiento que utilizamos anteriormente mencionada nos arrojo un
nmero de segmentos a utilizar k=2.
Luego de conocer previamente el nmero de conglomerados, utilizamos el mtodo K-
Means (Kernel), este nos permite procesar un nmero ilimitado de casos. Su funcin es
agrupar la informacin hasta formar grupos conglomerado de datos.
Al Segmentar en dos grupos la base de datos obtenemos Cluster 0 y Cluster 1.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Cluster 0: 1450 Datos
Cluster 1: 2396 Datos
Nmero total de datos: 3846
Para poder acceder a la tabla centroide, se transformaron todos los datos nominales a
numricos.
Luego se utiliz el mtodo clustering K-Mean junto con Perfomance para poder acceder
a la tabla centroide.
Cada vez que hablemos de una carrera o universidad podemos identificar rpidamente el
cluster al cual pertenece.
Debemos prestar mayor atencin en que atributos son las principales separaciones o
mayores distancias de los cluster.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Rapidminer nos arrojo la tabla centroide, donde podemos identificar la divergencia entre
los cluster en cada una de sus variables:
Tabla 4. Tabla centroide
Al utilizar k - means clustering , entonces tal identificacin es posible mediante el
trazado de los centroides de cada atributos para los distintos grupos en un grfico
paralelo.
INGENIERA CIVIL INDUSTRIAL
INTELIGENCIA DE NEGOCIOS
Grfico 21.- Aqu podemos ver como los grupos se separan en la variable Carrera
genrica
En el grfico podemos observar que por encima del atributo carreras genricas tiene
centroide divergente, lo cual es bastante probable que esta variable sea el controlador de
las agrupaciones.