Inteligencia de Negocios

14
UNIVERSIDAD AUTÓNOMA DE CHILE INGENIERÍA CIVIL INDUSTRIAL AGRUPACIÓN DE DATOS INTELIGENCIA DE NEGOCIOS 18 DE JUNIO DE 2015 CLAUDIA PARRA TERESA VÁSQUEZ

Transcript of Inteligencia de Negocios

  • UNIVERSIDAD AUTNOMA DE CHILE INGENIERA CIVIL INDUSTRIAL

    AGRUPACIN DE DATOS INTELIGENCIA DE NEGOCIOS

    18 DE JUNIO DE 2015 CLAUDIA PARRA

    TERESA VSQUEZ

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Introduccin

    En esta segunda tarea, nos han pedido que clasifiquemos todas las Carreras que se

    dictan en Chile por Universidades, para luego aplicar distintas reformas en cuanto a la

    educacin.

    El gobierno necesita perfilar las carreras para poder aplicar distintas medidas. Por la

    misma razn deberemos segmentar las universidades en un total de segmentos

    determinado por nosotros. Luego deberemos dar las caractersticas especficas de cada

    segmento encontrado. Para esto trabajaremos con una base de datos entregados por el

    ministerio de educacin, la cual posee distintas caractersticas de las carreras.

    Realizaremos los anlisis y posterior segmentacin de la base de dato de 3846 carreras

    del ao 2014.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Limpieza de datos

    El mtodo de seleccin de atributos utilizada en este trabajo fue por medio del programa

    Rapidminer. A travs de este programa se evaluaron los valores faltantes de cada

    variable, se decidi eliminar las variables que tuvieran ms del 30% de sus datos

    perdidos.

    Variables Valores perdidos porcentaje

    Mencin o especialidad 3234 84,09

    Mximo puntaje NEM 2267 58,94

    Promedio puntaje NEM (1) 2267 58,94

    Mnimo puntaje NEM 2267 58,94

    Mximo puntaje ranking (1) 2267 58,94

    Promedio puntaje Ranking (1) 2267 58,94

    Mnimo puntaje ranking (1) 2267 58,94

    Nmero Alumnos Ingreso otra va (1) 2061 53,59

    Puntaje de corte (primer seleccionado) (1) 1976 51,38

    Puntaje de corte (promedio de la carrera) (1) 1976 51,38

    Puntaje de corte (ltimo seleccionado) (1) 1976 51,38

    Mximo puntaje PSU (Promedio mat y leng) (1) 1958 50,91

    Promedio puntaje PSU (promedio mat y leng) (1) 1958 50,91

    Mnimo Puntaje PSU (promedio mat y leng) (1) 1958 50,91

    N Alumnos ingreso PSU (1) 1945 50,57

    Vacantes (1) 1208 31,41

    Matrcula 1 ao extranjeros 1087 28,26

    Matrcula total extranjeros 907 23,58

    Valor del ttulo (1) 706 18,36

    Valor del arancel (1) 580 15,08

    Valor de matrcula (1) 524 13,62

    Matrcula 1 ao hombres 489 12,71

    Matrcula 1 ao mujeres 473 12,30

    Duracin (en semestres) 70 1,82

    Matrcula total Hombres 40 1,04

    Matrcula Total Mujeres 35 0,91

    Tabla1.- Variables con valores faltantes

    Se eliminan 16 variables de un total de 41 variables contando la ID.

    Para trabajar con los datos faltantes de las variables restantes, se hizo un anlisis de sus

    respectivos grficos. Con esto se decidi revalorar estos datos por los valores mnimos,

    mximos o por su media.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Para llenar los valores faltantes de nuestra base de datos se utiliz la funcin Replace

    Missing Value:

    Imagen 1.- Vista del programa Rapidminer.

    A continuacin se muestra los grficos de las variables a las cuales se le asignaron valor

    a sus datos faltantes:

    Variable: Duracin (en semestre)

    Grfico 1 y 2.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

    Variable: Valor de matrcula

    Grfico 3 y 4.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en promedio de los datos.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Variable: Valor del Arancel

    Grfico 5 y 6.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en promedio de los datos.

    Variable: Valor Ttulo

    Grfico 7 y 8.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

    Variable: Matrcula primer ao Hombres

    Grfico 9 y 10.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Variable: Valor matrcula primer ao Mujeres

    Grfico 11 y 12.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

    Variable: Valor matricula primer ao extranjeros

    Grfico 13 y 14.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

    Variable: Matrcula total hombres

    Grfico 15 y 16.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Variable: Matrcula Total Mujeres

    Grfico 17 y 18.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

    Variable: Matrcula Total extranjeros

    Grfico 19 y 20.- A la derecha histograma con valores faltantes, a la izquierda

    histograma sin datos faltantes valorados en mnimo.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Como resumen del trabajo realizado en los datos faltantes:

    Variables

    Valores

    perdidos porcentaje

    Reemplazo valores

    faltantes

    Matrcula 1 ao extranjeros 1087 28,3 Mnimo

    Matrcula total extranjeros 907 23,6 Mnimo

    Valor del ttulo (1) 706 18,4 Mnimo

    Valor del arancel (1) 580 15,1 Promedio

    Valor de matrcula (1) 524 13,6 Promedio

    Matrcula 1 ao hombres 489 12,7 Mnimo

    Matrcula 1 ao mujeres 473 12,3 Mnimo

    Duracin (en semestres) 70 1,8 Mnimo

    Matrcula total Hombres 40 1,0 Mnimo

    Matrcula Total Mujeres 35 0,9 Mnimo

    Normalizacin de datos

    Se decide trabajar con los datos normalizados, es decir a cada una de las entradas de la

    base de datos debe restarse su media y dividir sobre su desviacin estndar, con el fin de

    que la media de estos nuevos datos sea cero y la varianza sea igual a 1. Esto, con el fin

    de reducir el sesgo asociado con las escalas de medida de las variables y de trabajar con

    los datos cuando estos tienen diferentes unidades de medida.

    Para normalizar una base de datos en RapidMiner, se usa el operador Normalize. Este

    operador efecta el proceso de estandarizar una variable rpidamente.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Eliminacin de datos por correlacin

    Despus, aplicamos un anlisis de correlacin para identificar que variables o

    indicadores son los que tienen mayor relevancia en el modelo de datos de origen, de esta

    forma, anulamos las variables que se repiten muchas veces, que son poco

    representativas (tienen muchos valores nicos), aquellas que tienen datos nulos, y

    dejamos el grupo de datos listo para el proceso de clasificacin.

    Luego de filtrar nuestra base de datos contamos con las siguientes variables:

    Correlacin

    ID

    Nombre Institucin

    Descripcin Tipo Sistema

    Comuna donde se imparte la carrera o programa

    Nombre Regin

    Cd. Carrera

    Carrera Genrica

    Horario

    rea Conocimiento

    Tipo Carrera

    Duracin (en semestres)

    Cd. Sede

    Valor de matrcula (1)

    Valor de arancel (1)

    Valor del Ttulo (1)

    Matrcula primer ao hombres

    Matrcula primer ao extranjeros

    Matrcula total mujeres

    Tabla3. Variables que siguen en el modelo

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Las variables que fueron eliminadas luego de la eliminacin por correlacin, son las

    siguientes:

    Correlacin

    Ao Inicio Actividades

    Matrcula primer ao mujeres

    Matrcula Primer Ao

    Matrcula total hombres

    Matrcula total extranjeros

    Matrcula Total

    Tabla 4.-Variables eliminadas por mtodo de correlacin

    Se ha decidido eliminar la variable Orden Geogrfico de la Regin (Norte a Sur) ya

    que es una variable repetitiva y no aporta mayor informacin.

    Luego de limpiar la base de datos necesitamos segmentar la informacin, esto con el

    mtodo Agglomerative clustering. Lo que hace este mtodo es ir formando grupos, de

    forma ascendente, hasta que al final del proceso todos los casos tratados estn

    englobados en un mismo conglomerado.

    Permite la construccin de un rbol de clasificacin, que recibe el nombre de

    dendrograma, en el cual se puede seguir de forma grfica el procedimiento de unin,

    mostrando que grupos se van uniendo, en qu nivel concreto lo hacen, as como el valor

    de la medida de asociacin entre los grupos cuando estos se agrupan.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Como resultado nos dividi los datos en dos segmentos, como se puede ver a

    continuacin:

    Figura 1.- Dendrograma de base de datos

    Una de las primeras cosas que podemos hacer es segmentar los productos en familias o

    grupos. Cuando empezamos a extraer los datos, es mejor dejar a un lado las variables

    clasificatorias y dejar que los datos determinan las clasificaciones o grupos naturales. La

    tcnica de agrupamiento que utilizamos anteriormente mencionada nos arrojo un

    nmero de segmentos a utilizar k=2.

    Luego de conocer previamente el nmero de conglomerados, utilizamos el mtodo K-

    Means (Kernel), este nos permite procesar un nmero ilimitado de casos. Su funcin es

    agrupar la informacin hasta formar grupos conglomerado de datos.

    Al Segmentar en dos grupos la base de datos obtenemos Cluster 0 y Cluster 1.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Cluster 0: 1450 Datos

    Cluster 1: 2396 Datos

    Nmero total de datos: 3846

    Para poder acceder a la tabla centroide, se transformaron todos los datos nominales a

    numricos.

    Luego se utiliz el mtodo clustering K-Mean junto con Perfomance para poder acceder

    a la tabla centroide.

    Cada vez que hablemos de una carrera o universidad podemos identificar rpidamente el

    cluster al cual pertenece.

    Debemos prestar mayor atencin en que atributos son las principales separaciones o

    mayores distancias de los cluster.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Rapidminer nos arrojo la tabla centroide, donde podemos identificar la divergencia entre

    los cluster en cada una de sus variables:

    Tabla 4. Tabla centroide

    Al utilizar k - means clustering , entonces tal identificacin es posible mediante el

    trazado de los centroides de cada atributos para los distintos grupos en un grfico

    paralelo.

  • INGENIERA CIVIL INDUSTRIAL

    INTELIGENCIA DE NEGOCIOS

    Grfico 21.- Aqu podemos ver como los grupos se separan en la variable Carrera

    genrica

    En el grfico podemos observar que por encima del atributo carreras genricas tiene

    centroide divergente, lo cual es bastante probable que esta variable sea el controlador de

    las agrupaciones.