03 Estudios de Casos MGPP 2012
Transcript of 03 Estudios de Casos MGPP 2012
-
8/13/2019 03 Estudios de Casos MGPP 2012
1/239
1
UNIVERSIDAD DE CHILE
MAGISTER EN GESTION Y POLITICASPBLICAS
EESSTTAADDSSTTIICCAAAAPPLLIICCAADDAAYYEECCOONNOOMMEETTRRAA
AAPPLLIICCAACCIIOONNEESSDDEESSPPSSSS
Profesora : Sara Arancibia C.Profesora Auxiliar: Carlos Andrade G
Primer Semestre 2012
-
8/13/2019 03 Estudios de Casos MGPP 2012
2/239
2
FORMULAS PARA TRIUNFAR
LA FORMULA BSICA. Los investigadores se han dedicado a averiguar cul ha sido la idea, elsecreto que ha llevado al triunfo a los grandes personajes de la historia.Y han encontrado una
frmula que todos los triunfadores practicaron, y sin la cual no habran llegado a ser grandesni famosos. Esta frmula consiste en los siguientes cinco puntos:
a) Dirigir el pensamiento hacia una meta fijaque se desea conseguir. Saber bien cul esesa meta que se desea alcanzar y no desviar la atencin de ella.
b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que seva siguiendo da por da, y que hace que nuestra actividad sea organizada y llena deentusiasmo.
c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo
ardiente es el ms importante motivador de las acciones. El deseo de lograr xitosconsigue la costumbre de conseguir xitos.
d) Adquirir una confianza grande en s mismo; confianza en las propias capacidades yhabilidades para lograr el xito, concedindole muchsima mayor importancia a lascualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota.
e) Dedicarse a una accin tenaz e incansable para lograr obtener la meta que se buscaconseguir, sin desanimarse por los obstculos, las crticas, las circunstancias adversas, olo negativo que los dems piensen, hagan o digan. Esa energa concentrada hacia laconsecucin de una meta, trae enormemente las oportunidades, las cuales no se dejan
atrapar por los que estn sin hacer nada, pero se acercan generosamente a quienes seatreven a atacar, a trabajar fuertemente por conseguir el xito.
Esta frmula bsica Meyer la llam El plan del xito personal a base de automotivacin,
para desarrollar al mximo el potencial de cada uno.
Meyer resume la frmula bsica en la siguiente frase:
Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente
creamos, y entusiastamente emprendamos, de una manera impresionantemente
favorable se transformar en algo placentero y beneficioso para nosotros
(Elicer Salesman. 100 Frmulas para llegar al xito)
Si una de tus metas es APRENDER aplica esta frmula y comienza con la mente abierta.La cualidad ms importante que afectar tu xito en el curso es tu ACTITUD. stadeterminar lo que ests dispuesto a hacer en el curso, y la calidad de ese esfuerzocontribuir de la manera ms significativa a tu xito.
-
8/13/2019 03 Estudios de Casos MGPP 2012
3/239
3
Contenido
I Anlisis Inicial de los datos y repaso de herramientas de SPSS.
II ANOVA de un factor.
Caso Enfermeras-
Caso Premio colegios ( SIMCE)
III Anlisis de regresin simple y modelos lin-log y log-lin
IV Anlisis de regresin mltiple
V Modelos de regresin mltiple con variables cualitativas (dummy)
VI Anlisis de regresin logstica
VII Anlisis factorial
-
8/13/2019 03 Estudios de Casos MGPP 2012
4/239
4
I Anlisis Inicial de los datos
Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mximapreocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe unaetapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de losdatos recabados.La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un granavance en la consecucin de resultados lgicos consistentes. Dichos problemas se puedensubsanar comenzando por una inspeccin visual de las representaciones grficas de los datos,completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidosbajo la denominacin de outliers) y finalizando con la comprobacin de que se cumplen ciertashiptesis de partida: en el caso de anlisis multivariable nos referimos a; normalidad, linealidad yhomocedasticidad, supuestos subyacentes en todos los mtodos multivariantes.
Representaciones grficas para el anlisis de datos
La difusin experimentada en los ltimos aos por los programas estadsticos ha facilitando laincorporacin de mdulos especficamente diseados para la inspeccin grfica de los datos.
El estudio de cada variable es fundamental para conocer sus caractersticas y comprobar si esoportuna y relevante su inclusin en el anlisis. Para ello se aconseja observar la forma de sudistribucin. Esto se consigue mediante el histograma, que representa grficamente los datosmostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluarla normalidad de la variable, se efectuar superponiendo la curva normal sobre la distribucin orealizando grficos P-P o Q-Q.
Mediante el grfico de dispersin se podr examinar la relacin entre dos o ms variables. Setrata de un grfico de puntos de datos basados en dos variables, representadas una en el ejehorizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una lnea recta sedebe a la existencia de correlacin lineal. Si los puntos siguen distintas formas la relacin nopodr calificarse de lineal. La inexistencia de relacin se podr constatar si la nube de puntos esaleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podr determinar medianteuna prueba de hiptesis si la correlacin entre dos variables de escala es significativa).
Mediante el grfico de cajas o boxplot se puede llevar a cabo un anlisis de las diferencias entregrupos, si lo que se pretende es apreciar la existencia de dos o ms grupos en una variablemtrica, como ocurre en el anlisis discriminante o en el anlisis de la varianza. Este grficodistribuye los datos de tal forma que los lmites superior e inferior de la caja marcan loscuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercercuartil; as, la caja contiene el 50 por ciento de los datos centrales de la distribucin. La medianase representa mediante una lnea dentro de la caja. Existir asimetra si la mediana se aproximaal final de la caja. El tamao de la caja depender de la distancia entre las observaciones.Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unaslneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos sepueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.
-
8/13/2019 03 Estudios de Casos MGPP 2012
5/239
5
Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable deleje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valoresextremos para la categora o variable.Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representacada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin
vienen definidos por una variable de definicin distinta.
OtraNegraBlanca
Raza del encuestado
20
15
10
5
0
N
merodeaosdeescolarizacin
693
688
765
960
961
1.404
804
634
718
1.448
695
244
620
596
621
821
735
Mujer
Hombre
Sexo del encuestado
Aos de escolarizacin por raza agrupados por sexo
OtraNegraBlanca
Raza del encuestado
20
15
10
5
0
Nmerodeaosdeescolarizacin
1.476
634
718
691
702
693
688
899
1.366
244
620
596 765
735
Aos de escolarizacin por raza
-
8/13/2019 03 Estudios de Casos MGPP 2012
6/239
6
Deteccin de variables con categoras mal codificadas
En muchos archivos de datos se detectan problemas en variables nominales con categoras enformato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizartablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin,
como por ejemplo la variable sexo podra presentar problemas si las categoras estn maldigitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tablade frecuencia aparecern como categoras diferentes. Para solucionar este problema serecomienda recodificar automticamente asignndole a las categoras de la variable un cdigonumrico y luego con recodificar en distinta variable asignar correctamente los cdigos.
Anlisis de datos ausentes
En este proceso de depuracin de datos (anterior a la utilizacin de los mtodos multivariables)el analista debe ser consciente de que se enfrenta a una informacin que puede no existir endeterminadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing
values. El porqu de la existencia de datos ausentes puede deberse a distintas razones comoerrores al codificar los datos e introducirlos en el computador, fallas del encuestador alcompletar el cuestionario, negacin del encuestado a responder ciertas preguntas calificadas decontrovertidas Razones comunes y muy habituales en todo proceso investigador.
El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en losresultados y sus efectos en el tamao de la muestra disponible para el anlisis, dado que estaausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesariodepurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos tericos de lainvestigacin no se alteran sustancialmente, una opcin sera suprimir aquellas variables y/o casosque peor se comportan respecto a los datos ausentes. En este caso el investigador deber
sopesar lo que gana con la exclusin de esta informacin y lo que pierde al no contarposteriormente en el anlisis multivariante con la misma. Mediante este proceder se asegura deque su matriz de datos est completa y posee observaciones vlidas.
Otra posibilidad sera la estimacin de valores ausentes empleando relaciones conocidas entrevalores vlidos de otras variables y/o casos de la muestra. Por tanto, se tratara de imputar osustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) enbase a otra informacin existente en la muestra.Un porcentaje bajo de valores missing no es un problema que influya decisivamente en losresultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el anlisis.No existe una estimacin respecto al porcentaje de missing que produce dificultades en unamuestra determinada.Segn Tabachnik y Fidell (1983) ms importante que el nmero de valores missing es laexistencia de un patrn de comportamiento en stos. En efecto, la presencia de missing que sedistribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemticaasociada a ciertas variables puede generar distorsin en los resultados.
La existencia de datos ausentes nunca debe impedir la aplicacin del anlisis multivariable olimitar la posibilidad de generalizar los resultados de una investigacin. La principal tarea delanalista consistir en identificar su presencia, y desempear las acciones necesarias paraminimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar cdigos como los siguientes.7= No procede, 8= No sabe , 9= No contesta
-
8/13/2019 03 Estudios de Casos MGPP 2012
7/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
8/239
8
Recodificar automticamente:
El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y decadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las
casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria demuchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena yotros requieren valores enteros consecutivos para los niveles de los factores.
La nueva variable, o variables, creadas por la recodificacin automtica conservantodas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que notienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valorrecodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor.
Los valores de cadena se recodifican por orden alfabtico, con las maysculasantes que las minsculas.
Los valores perdidos se recodifican como valores perdidos mayores que cualquiervalor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores noperdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido parala nueva variable.
Recodificar en la misma variable /distinta variable
El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo,podra agrupar los salarios en categoras que sean rangos de salarios.
El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores para una variablenueva.
Puede recodificar variables numricas en variables de cadena y viceversa.Si selecciona mltiples variables, todas deben ser del mismo tipo. No se
pueden recodificar juntas las variables numricas y de cadena.
Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, elanlisis de datos.
Supuestos subyacentes en los mtodos multivariables
Es lgico pensar que de una buena materia prima podremos obtener un buen producto; de igualmodo, de unos buenos datos obtendremos un buen anlisis. En este proceso de depuracin de lainformacin, el ltimo eslabn consiste en comprobar que se cumplen ciertas hiptesis de partida,puesto que asegurarn la consecucin de un anlisis multivariante ptimo. Estos anlisis secaracterizan por su gran complejidad al integrar y combinar numerosas variables que puedenproducir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible losdatos respeten ciertos supuestos.
-
8/13/2019 03 Estudios de Casos MGPP 2012
9/239
9
Normalidad
La hiptesis de partida que debe cumplir cualquier anlisis multivariable es la normalidad de losdatos. Por tanto, el investigador debera comenzar su anlisis evaluando la normalidad de todas ycada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, elresto de tests estadsticos diferenciadores de cada tcnica multivariable no sern vlidos,puesto que se requiere la normalidad para el uso de los estadsticos de la t y de la F.
La herramienta ms simple que sirve para diagnosticar la normalidad es el histograma,previamente explicado, mediante el cual se comparan los valores de los datos observados con ladistribucin normal. Adems de hacer esta comprobacin visual, se pueden utilizar los tests deasimetra y curtosis, disponibles en todos los programas en la parte de estadsticos descriptivosbsicos.
Sealar que en aquellas situaciones en las que las distribuciones sean no normales ser necesariala realizacin de transformaciones de los datos.
La condicin de distribucin normal se puede referir a una variable en particular o a un conjuntode variables. Para evaluar normalidad en una variable se estudia la forma de la distribucinmediante la prueba de Kolmogorov-Smirnov.
Evaluar distribucin normal en un conjunto de variables simultneamente no es fcil. En primertrmino, la representacin grfica de ms de tres variables en un plano es prcticamenteimposible. En segundo lugar, condicin necesaria de normalidad multivariable es que cada variablese distribuya normalmente, sin embargo, no es condicin suficiente. En efecto, que cada variable
separada se distribuya segn la ley normal no implica que todas juntas 10 hagan.
En la literatura se presentan diversas pruebas elaboradas para verificar normalidadmultivariable. No obstante, los paquetes de procesamiento de informacin no han incorporadotales pruebas. En la prctica el estudio de cada variable por .separado es la nica manera deexaminar limitadamente esta materia. Para estos efectos se utilizan diversos grficos.
Linealidad
Nuevamente y con la intencin de resolver problemas potenciales antes de comenzar con el
anlisis multivariable conviene examinar si las relaciones entre las variables que intervienen en elestudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de lavariable(s) dependiente(s) siempre que se produzca una modificacin en las variablesindependientes. Tcnicas estadsticas como la regresin mltiple, el anlisis factorial o lossistemas de ecuaciones estructurales se basan en medidas de correlacin. Esto significa que escondicin necesaria la existencia de asociaciones lineales entre variables para obtenercoeficientes de correlacin que las representen y ejecutar los modelos utilizando estas tcnicas.
La relacin lineal entre dos variables se representa a travs de una lnea recta; por tanto, paracomprobar que este supuesto se cumple basta con analizar los grficos de dispersin de lasvariables e intentar identificar si los datos siguen ese trazado lineal. Otra opcin es examinar los
residuos despus de efectuar un anlisis de regresin mltiple (como se ver en el Captulo 7),
-
8/13/2019 03 Estudios de Casos MGPP 2012
10/239
10
dado que stos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, laparte no lineal de la relacin.
En aquellos casos en que la consecucin de los datos sea no lineal se debe optar por transformaruna o ambas variables para conseguir la linealidad. Un procedimiento vlido es efectuar
transformaciones mediante la utilizacin de la raz cuadrada, o bien crear una nueva variable,denominada polinmica, que represente la parte no lineal de la relacin.
Homocedasticidad
La homocedasticidad es el ltimo supuesto que deben cumplir los datos antes de iniciar sutratamiento multidimensional. Concretamente, se verifica esta hiptesis cuando la varianza de loserrores es constante. Es decir, la variacin de la variable dependiente que se intenta explicar atravs de las variables independientes -finalidad de tcnicas como la regresin mltiple-, no seconcentra en un pequeo grupo de valores independientes. El objetivo es conseguir una dispersin
por igual de la varianza de la variable dependiente a lo largo del rango de los valores de lavariable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante unaperturbacin conocida como heterocedasticidad. Tcnicamente suele deberse a muestras en lasque aparecen asimetras importantes en los valores de las variables porque toman valoresanormalmente altos o bajos respecto a la media.
Se puede comprobar la existencia de homocedasticidad grficamente, observando que no hayningn punto que se aleje mucho del resto. Si, por el contrario, se constatan observacionesextremas habr que convertir esas variables en variables especiales que se llaman dummy oficticias. Esta transformacin de los datos de las variables hace que todos los valores tengan unefecto potencialmente igual en la prediccin.
De forma complementaria, todos los paquetes estadsticos vienen provistos de tests estadsticosde homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si lavarianza de la variable dependiente permanece constante.
El supuesto de homocedasticidad dice relacin con la dispersin de los datos. En particular, conla igualdad de varianzas en todos los grupos de la poblacin origen de la muestra. Lahomocedasticidad multivariable se evala en la matriz de varianzas y covarianzas.
Cabe destacar que en el contexto multivariable medir relacin entre pares de variables da lugara una matriz de correlaciones que presenta la relacin de todos los pares de variables. Para quelos resultados sean fiables las matrices no deben ser singulares ni multicolineales.
Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valoresextremadamente altos. La presencia de multicolinealidad es indicadora de relacin intensa entrepares de variables. El determinante de matrices con multicolinealidad es prximo a cero. Existesingularidad cuando el determinante de una matriz es cero.
El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. Elclculo de la inversa es necesario para efectuar el equivalente entre matrices a la divisin entrenmeros. Una matriz con determinante cero o prximo a cero no permite el clculo de su inversa-o un clculo fiable de sta. En consecuencia, no es posible efectuar el proceso matricial
equivalente a la divisin.
-
8/13/2019 03 Estudios de Casos MGPP 2012
11/239
11
Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidado singularidad. El procedimiento ms simple es borrar la variable que produce el problema.Solucin legtima dado que la presencia de una variable correlacionada con otra u otras indica questa es combinacin lineal de las dems y, en consecuencia, su eliminacin no significa prdida deinformacin. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo
que no participen en el modelo variables correlacionadas con otras previamente incluidas.
Respecto a las condiciones de aplicacin, ms importante que evaluar su cumplimiento, es saberen cada tcnica especfica cules son los efectos que genera la violacin de los supuestos. Enopinin de Harris (1975) las tcnicas multivariables no se ven seriamente afectadas cuando seviolan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientosresistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distri-buciones distintas a la ley normal.Bibliografa:Anlisis Estadstico Multivariable de Manuel Vivanco. Editorial UniversitariaAnlisis Multivariable para las Ciencias Sociales de Lvy. Editorial PearsonIntroduccin a la Econometra de Jeffrey Wooldridge. Editorial Thomson
Repaso de herramientas de SPSS
Considere el archivo consumo de agua potable.sav correspondiente a una muestra aleatoria dehogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del2005. Considere adems el archivo Ingresos hogares.sav correspondientes al ingreso familiar delhogar de los mismos hogares de la muestra considerada para el consumo de agua potable.Prepare un informe para un ejecutivo que necesita la siguiente informacin respecto al consumode agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos.
Suponga que se ha realizado la verificacin de los datos. Responda las siguientes preguntas:
a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que elgasto depende del lmite de sobreconsumo (LSC= 60 m3).El valor del m3de agua es $270 si el consumo es menor o igual al lmite de sobreconsumo(LSC=60m3)
Para los metros cbicos de agua que excede al LSC el valor por m 3es $560.
Mostrar la sintaxis correspondiente.
b) Mostrar una tabla que contenga elnmero de casos, la media, mediana, desv. estndar delgasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), ElBosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento.
c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20
-
8/13/2019 03 Estudios de Casos MGPP 2012
12/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
13/239
13
Para archivo consumo de agua potableSORT CASES BYid_hogar (A) .
Para archivo Ingresos hogaresSORT CASES BY
id_hogar (A) .A partir del archivo Consumo agua potable
MATCH FILES /FILE=*/FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav'/BY id_hogar.
EXECUTE.MEANS
TABLES=gasto ingreso BY comu/CELLS COUNT MEAN MEDIAN STDDEV
Otra forma: Hacer un cubo OLAP
USE ALL.COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22).VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .
OLAP CUBESgasto ingreso BY comu/CELLS=COUNT MEAN MEDIAN STDDEV/TITLE='Cubos OLAP'.
Informe
31 31
47854,1806 494340,11
21240,0000 285355,32
49861,12054 420754,9
33 33
48226,1576 498187,25
28116,8000 328828,24
48102,31021 393996,4
16 16
72221,1750 709947,18
51771,2000 536311,29
61026,33408 516956,7
831 831
50438,9338 526677,52
32440,0000 387124,20
47495,05844 382120,2
N
Media
Mediana
Desv. tp.
N
Media
Mediana
Desv. tp.
N
Media
Mediana
Desv. tp.
N
Media
Mediana
Desv. tp.
Comuna donde seencuentra el hogarCERRILLOS
EL BOSQUE
PROVIDENCIA
Total
gasto en
consumo deagua potable
Ingresodel hogar
Cubos OLAP
31 31
47854,1806 494340,11
21240,0000 285355,32
49861,12054 420754,873
33 33
48226,1576 498187,25
28116,8000 328828,24
48102,31021 393996,449
16 16
72221,1750 709947,18
51771,2000 536311,29
61026,33408 516956,682
80 80
52881,0200 539048,47
27198,4000 341093,04
N
Media
Mediana
Desv. tp.
N
Media
Mediana
Desv. tp.
N
MediaMediana
Desv. tp.
N
Media
Mediana
Comuna donde se
encuentra el hogar
CERRILLOS
EL BOSQUE
PROVIDENCIA
Total
gasto en consumo
de agua potable Ingreso del hogar
-
8/13/2019 03 Estudios de Casos MGPP 2012
14/239
14
c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20
-
8/13/2019 03 Estudios de Casos MGPP 2012
15/239
15
/COMPARE GROUP/STATISTICS EXTREME/MISSING LISTWISE/NOTOTAL.
i) Determine mediante un grfico si las variables gasto e ingreso siguen una tendencia lineal
Valores extremos
gasto_mean
Mayores
42 MACUL 5313,60
28 LA REINA 5248,80
73 SAN MIGUEL 5227,20
76 SAN RAMON 5216,40
45 MAIPU 5184,00
43 MACUL 15390,00
57 PROVIDENCIA 14382,00
32 LAS CONDES 14040,0026 LA P INTANA 13543,20
71 SAN JOAQUIN 12957,69
81 VITACURA 95301,87
58 PROVIDENCIA 92287,20
62 QUILICURA 88189,65
35 LO BARNECHEA 87406,61
16 HUECHURABA 82689,42
1
2
3
4
5
1
2
34
5
1
2
3
4
5
rangos de c onsumoBajo consumo
Consumo normal
Sobreconsumo
Nmerodel caso
Comuna donde seencuentra el hogar Valor
-
8/13/2019 03 Estudios de Casos MGPP 2012
16/239
16
PRUEBAS DE HIPOTESIS
f) Determine si existen diferencias significativas del gasto promedio en agua potable paralas comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.
La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las varianzas soniguales. De esta forma nos debemos fijar en la primera lnea de la tabla de la prueba T para la
igualdad de medias.
En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las medias son iguales.Esto tambin se puede observar del intervalo de confianza al 95% para la diferencia entre lasmedias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permitadescartar que la diferencia entre las medias sea cero, ie., que las medias son iguales.
j) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribucin
normal.Segn la prueba de K-S las variables no siguen una distribucin normal, dado que se rechaza lahiptesis de normalidad
Estadsticos de grupo
47 74515,74 58634,62025 8552,73838
30 95301,87 98739,12261 18027,2149
Comuna donde seencuentra el hogarLAS CONDES
VITACURA
gasto en consumode agua potable
N MediaDesviacin
tp.Error tp. de
la media
Prueba de muestras independientes
,988 ,324 -1,160 75 ,250 -20786,122 17917,04140 -56478,7 14906,45
-1,042 42,177 ,303 -20786,122 19953,19051 -61048,3 19476,03
Se han asumidovarianzas iguales
No se han asumidovarianzas iguales
gasto en consumode agua potable
F Sig.
Prueba de Levenepara la igualdad de
varianzas
t gl Sig. (bilateral)Diferenciade medias
Error tp. dela di ferenc ia Infer ior Sup erior
95% Intervalo deconfianza para la
diferencia
Prueba T para la igualdad de medias
Pruebas de normalidad
,140 831 ,000 ,934 831 ,000
,181 831 ,000 ,849 831 ,000
,150 831 ,000 ,873 831 ,000
N de Habitantesdel Hogar
Consumo de
Agua Potab le
Ingreso del hogar
Estadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Correccin de la significacin de Lillieforsa.
-
8/13/2019 03 Estudios de Casos MGPP 2012
17/239
17
-
8/13/2019 03 Estudios de Casos MGPP 2012
18/239
18
II Anlisis ANOVA de un factor
Estudio de Caso: Satisfaccin Laboral de Enfermeras.
A la Asociacin Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras queparece estarse previendo para el futuro. Para investigar el grado actual de satisfaccin con laprofesin entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia.Como parte de este estudio, se pidi a 50 enfermeras que indicaran su grado de satisfaccin enel trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos desatisfaccin fue medido en una escala de 0 a 100, y los mayores valores representan mayoresniveles de satisfaccin.
Los datos de la muestra se clasificaron segn el tipo de hospital de las enfermeras. Los tiposfueron privados, geritricos y universitarios. Para obtener los datos bajar el archivoENFERMERAS.SAV .
Responder las siguientes preguntas respaldando sus respuestas con las tablas y grficas de SPSSque considere convenientes.
a) Muestre un grfico que permita visualizar el grado de satisfaccin de las enfermerassegn tipo de hospital. Comente.
f)Con base en las tres variables de satisfaccin laboral (sin considerar el tipo de hospital)qu aspecto laboral satisface ms a las enfermeras? Cul parece ser el que menos lassatisface? En que reas, si es que las hay, siente usted que deben introducirsemejoras? Argumente con los estadsticos descriptivos y diagrama de tallo y hojas.
Describa sus razonamientos.
g)Determine un intervalo de confianza del 95% para la media de cada uno de losindicadores de satisfaccin laboral para la poblacin de enfermeras. Interprete.(Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%)
h)Para la variable satisfaccin con el trabajo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.
i) Para la variable satisfaccin con el sueldo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios
j) Determine si existe correlacin significativa entre los indicadores de satisfaccinlaboral. Argumente su respuesta.
k)Determine si las variables de satisfaccin; con el trabajo, con el sueldo, y conoportunidades de ascenso siguen una distribucin normal. Argumente su respuesta.
-
8/13/2019 03 Estudios de Casos MGPP 2012
19/239
19
Solucin:
l) El grfico agrupado muestra la media de los indicadores de satisfaccin laboral delas enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras delos tres tipos de hospital muestran un alto promedio en satisfaccin con su trabajo,alcanzando un valor aproximado a 80%. En los hospitales privados se observa que elindicador ms bajo en promedio es la satisfaccin con el sueldo 46% siendo adems elms bajo al comparar con hospitales geritricos y universitarios (los que indican unpromedio 55% y 62% respectivamente). La satisfaccin con oportunidades deascenso se observa similar en promedio entre los hospitales privados y geritricos(59 % en promedio) y algo menor para los hospitales universitarios ( 53% enpromedio)
Satisfaccin laboral de enfermeras
por tipo de hospital
Tipo Hospital
universitariosgeritricosprivados
ean
90
80
70
60
50
40
Satisfaccin con el
trabajo (%)
Satisfaccin con el
sueldo (%)
Satisfaccin con
oportunidades de asc
53
595962
55
46
808079
*** Grficos Barras. Resmenes para variables separables .GRAPH/BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi
/MISSING=LISTWISE REPORT.
m)Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que lamayora de las enfermeras muestran un alto nivel de satisfaccin con el trabajoalcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de lasenfermeras tienen un nivel de satisfaccin superior o igual a 82 con un mnimo 63. Eltallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfaccin con eltrabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90.
-
8/13/2019 03 Estudios de Casos MGPP 2012
20/239
20
Estadsticos
50 50 50
0 0 0
79,80 53,26 57,28
82,00 54,00 57,50
8,288 16,462 17,594
32 88 86
63 2 6
95 90 92
72,00 42,75 48,50
82,00 54,00 57,50
87,00 60,00 68,00
Vlidos
Perdidos
N
Media
Mediana
Desv. tp.
Rango
Mnimo
Mximo
25
50
75
Percentiles
Satisfaccincon el trabajo
(%)
Satisfaccincon el sueldo
(%)
Satisfaccincon
oportunidades de
ascenso (%)
Satisfaccin con el trabajo (%) Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 6 . 342,00 6 . 5914,00 7 . 011112222234446,00 7 . 5677898,00 8 . 22244444
12,00 8 . 5556677888995,00 9 . 000041,00 9 . 5
Stem width: 10Each leaf: 1 case(s)
La media para satisfaccin con el sueldo muestra un nivel moderado de 53,26. El 25% de las
enfermerasmuestra un nivel bajo de satisfaccin con el sueldo, hasta 42,5. La mitad de las enfermerasmuestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre51 y 80 observndose slo 2 valores extremos altos desde 89.
-
8/13/2019 03 Estudios de Casos MGPP 2012
21/239
21
Satisfaccin con el sueldo (%) Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 Extremes (==89)
Respecto al indicador satisfaccin con oportunidades de ascenso se observa levemente
superior al indicador de sueldo en media y mediana con valores 57,28 y 57,5respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 conniveles superiores a 90.
Satisfaccin con oportunidades de ascenso (%) Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 Extremes (=
-
8/13/2019 03 Estudios de Casos MGPP 2012
22/239
22
Se observa una mayor variabilidad en opinin entre las enfermeras en el indicador desatisfaccin con el sueldo con un rango 88 (diferencia entre el mximo y el mnimo ) y uncoeficiente de variacin 30,9% ( ( 16,46/53,26)*100) el cual determina el grado dedispersin de los datos relativo a su media .
Se recomienda estudiar estrategias para mejorar el rea que tiene relacin con elsueldo. Por ejemplo bonos de incentivo segn desempeo que mejoren el sueldo de lasenfermeras.
n)El intervalo de confianza para la media de satisfaccin con el trabajo para la poblacinde enfermeras indica que con un 95% de confianza la media de satisfaccin con eltrabajo estar entre 77,44 y 88,16.Asimismo el intervalo de confianza para la media de satisfaccin con el sueldo para lapoblacin de enfermeras indica que con un 95% de confianza la media de satisfaccin
con el sueldo estar entre 48,58 y 57,94.El intervalo de confianza para la media de satisfaccin con oportunidades de ascensopara la poblacin de enfermeras indica que con un 95% de confianza la media desatisfaccin con oportunidades de ascenso estar entre 52,28 y 62,28.
Descriptives
79,80
77,44
82,16
79,92
53,26
48,58
57,94
53,41
57,28
52,28
62,28
57,88
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
5% Trimmed Mean
Mean
Lower BoundUpper Bound
95% ConfidenceInterval for Mean
5% Trimmed Mean
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
5% Trimmed Mean
Satisfaccin con
el trabajo (%)
Satisfaccin con
el sueldo (%)
Satisfaccin con
oportunidades de
ascenso (%)
Statistic
o)Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2= 3Descriptivos
Satisfaccin con el trabajo (%)
19 79,32 8,035 1,843 75,44 83,19 64 90
17 80,41 9,702 2,353 75,42 85,40 63 95
14 79,71 7,269 1,943 75,52 83,91 69 90
50 79,80 8,288 1,172 77,44 82,16 63 95
privados
geritricos
universitarios
Total
N MediaDesviacin
tpic a Erro r tpico Lmi te inferi or Lmite
superior
Intervalo de confianza parala media al 95%
Mnimo Mx imo
La prueba entrega los descriptivos bsicos de la variable satisfaccin con el trabajopara la muestra por tipo de hospital
-
8/13/2019 03 Estudios de Casos MGPP 2012
23/239
23
Prueba de homogeneidad de varianzas
Satisfaccin con el trabajo (%)
,796 2 47 ,457
Estadsticode Levene gl1 gl2 Sig.
Para la variable satisfaccin en el trabajo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .
ANOVA
Satisfaccin con el trabajo (%)
10,920 2 5,460 ,076 ,926
3355,080 47 71,385
3366,000 49
Inter-grupos
Intra-grupos
Total
Suma decuadrados gl
Mediacuadrtica F Sig.
El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variablesatisfaccin con el trabajo no existen diferencias significativas entre las medias de lostres grupos de tipo de hospital; privados, geritricos y universitarios.
Comparaciones mltiple s
Variable dependiente: Satisfaccin con el trabajo (%)
HSD de Tukey
-1,10 2,821 ,920 -7,92 5,73
-,40 2,976 ,990 -7,60 6,80
1,10 2,821 ,920 -5,73 7,92,70 3,049 ,972 -6,68 8,08
,40 2,976 ,990 -6,80 7,60
-,70 3,049 ,972 -8,08 6,68
(J) Tipo Hospitalgeritricos
universitarios
privadosuniversitarios
privados
geritricos
(I) Tipo Hospitalprivados
geritricos
universitarios
Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or
Lmitesuperior
Intervalo de confianza al95%
La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existendiferencias significativas entre los grupos ( de a pares )
p)La prueba entrega los descriptivos bsicos de la variable satisfaccin con el sueldo parala muestra por tipo de hospital
Descriptivos
Satisfaccin con el sueldo (%)
19 45,79 15,343 3,520 38,39 53,18 2 66
17 54,65 15,301 3,711 46,78 62,51 27 76
14 61,71 15,696 4,195 52,65 70,78 36 90
50 53,26 16,462 2,328 48,58 57,94 2 90
privados
geritricos
universitarios
Total
N MediaDesviacin
tpic a Erro r tpico Lmi te inferi or Lmite
superior
Intervalo de confianza parala media al 95%
Mnimo Mximo
Prueba de homogeneidad de varianzas
Satisfaccin con el sueldo (%)
,120 2 47 ,887
Estadstico
de Levene gl1 gl2 Sig.
-
8/13/2019 03 Estudios de Casos MGPP 2012
24/239
24
Para la variable satisfaccin con el sueldo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .
ANOVA
Satisfaccin con el sueldo (%)
2093,723 2 1046,861 4,399 ,018
11185,897 47 237,998
13279,620 49
Inter-grupos
Intra-grupos
Total
Suma decuadrados gl
Mediacuadrtica F Sig.
El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significanciadel 0.05 para la variable satisfaccin con el sueldo. Por lo tanto existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.
La prueba de Tukey nos muestra que existen diferencias significativas entre las mediaslos hospitales privados y geritricos y entre los geritricos y universitarios, pero entrelos privados y universitarios no existen diferencias significativas
Comparaciones mltiples
Variable dependiente: Satisfaccin con el sueldo (%)
HSD de Tukey
-8,86 5,150 ,209 -21,32 3,61-15,92* 5,434 ,014 -29,08 -2,77
8,86 5,150 ,209 -3,61 21,32
-7,07 5,568 ,419 -20,54 6,41
15,92* 5,434 ,014 2,77 29,08
7,07 5,568 ,419 -6,41 20,54
(J) Tipo Hospital
geritricosuniversitarios
privados
universitarios
privados
geritricos
(I) Tipo Hospital
privados
geritricos
universitarios
Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or
Lmitesuperior
Intervalo de confianza al95%
La diferencia entre las medias es significativa al nivel .05.*.
q)La matriz de correlaciones bivariadas nos muestra que los tres indicadores no secorrelacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, porlo tanto no se rechaza Ho que establece que no hay correlacin entre las variables
Correlaciones
1 ,141 -,222
. ,329 ,122
50 50 50
,141 1 ,010
,329 . ,946
50 50 50
-,222 ,010 1
,122 ,946 .
50 50 50
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Satisfaccin conel trabajo (%)
Satisfaccin conel sueldo (%)
Satisfaccin conoportunidades deascenso (%)
Satisfaccincon el trabajo
(%)
Satisfaccincon el sueldo
(%)
Satisfaccincon
oportunidades de
ascenso (%)
-
8/13/2019 03 Estudios de Casos MGPP 2012
25/239
25
r)La prueba de Shapiro Wilk nos muestra que las variables satisfaccin con el sueldo ysatisfaccin con oportunidades de ascenso siguen una distribucin normal pues el nivelde significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la
distribucin se ajusta a una curva normal, en cambio la variable satisfaccin con eltrabajo no se ajusta a una distribucin normal
Pruebas de normalidad
,154 50 ,005 ,950 50 ,033
,121 50 ,064 ,976 50 ,414
,101 50 ,200* ,974 50 ,339
Satisfaccin conel trabajo (%)
Satisfaccin conel sueldo (%)
Satisfaccin conoportunidades deascenso (%)
Estadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Este es un lmite i nferior de la significac in verdadera.*.
Correccin de la significacin de Lillieforsa.
Grfico Q-Q normal de Satisfaccin con el trabajo (%)
Valor observado
10090807060
3
2
1
0
-1
-2
-3
-
8/13/2019 03 Estudios de Casos MGPP 2012
26/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
27/239
27
Estudio de caso: Premio Colegios 1
Objetivo del caso:
Utilizar herramientas de anlisis descriptivo e inferencial para conocer informacin til de launidad de anlisis, en este caso colegios y aplicar posibles criterios para asignar algn tipo debeneficio por segmentos o grupos con perfiles similares.
Enunciado del caso:
Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe enrelacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre losdiversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con unestmulo por los resultados de la prueba SIMCE de los segundos medios.
El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio deEducacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad dela educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas delcurriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden.
Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos MnimosObligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de unaprueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan undeterminado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE
2006. MINEDUC)Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2Medio del 2006. Algunas de las variables de inters son:
VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR
Idest Identificador del establecimiento
Regin Nombre de la Regin
Comuna Nombre de la comuna
ddca Dependencia CP: Corporacin PrivadaMC; Corporacin Municipal
MD; DAEM (Departamento deAdministracin de EducacinMunicipal)
PP: Particular Pagado
PS: Particular Subvencionado
TP
1PCaso elaborado por Sara Arancibia
-
8/13/2019 03 Estudios de Casos MGPP 2012
28/239
28
ruralida Caracterizacin del establecimiento 1= Rural
2=Urbano
socioeconmico Grupo socioeconmico del
establecimiento
A Bajo
B Medio BajoC Medio
D Medio Alto
E Alto
prom_len Promedio puntaje de lenguaje
prom_mat Promedio puntaje de matemticas
Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto conlos expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas ydefinir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegiosque se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegioscon puntajes promedios mayores o iguales al percentil 75 (para cada grupo).Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimientodefinido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural
y UrbanoLos grupos homogneos definidos por el grupo experto son,1: Municipal y Rural
2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano
Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con losexpertos para crear los grupos de colegios homogneos e identificar cules son losestablecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona(Norte, Central y Sur). Adems debe determinar si existen diferencias significativas entre lostipos de colegios y por dependencia
Para realizar su anlisis deber realizar las siguientes etapas:
1. Limpiar y ordenar la base de inters para el anlisisa) Crear la variable Dependencia considerando slo tres categoras:
Municipalizado, Privado y Subvencionadob) Crear la variable zona considerando Zona Norte, Centro y Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje
-
8/13/2019 03 Estudios de Casos MGPP 2012
29/239
29
d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.
e) Determinar para cada grupo el percentil 75.
f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.
2. Realizar un anlisis descriptivo de los datosa) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu
porcentaje representan del total? Qu tipo de dependencia se observa con mayor ymenor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia?b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250puntos; entre 251 y 300 puntos y superior a 300 puntosc) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de losMunicipalizados y Rurales?d) Qu porcentaje representa el total de colegios premiados respecto al total decolegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Quporcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiadosson de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu
porcentaje del total son premiados y del Sur?
e) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural yurbana?. Realice un grfico que permita observar la forma de la distribucin de lospuntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems undiagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar?
f) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano
g) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de ladistribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, ymuestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo.
h) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.
i) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.
3. Realizar pruebas de hiptesis
Asuma que la base de datos corresponde a la poblacin de todos los colegios que dieron la SIMCE
en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegiosconsiderados y realice pruebas de hiptesis que permita responder las siguientes preguntas.
-
8/13/2019 03 Estudios de Casos MGPP 2012
30/239
30
a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?b) Existen diferencias significativas entre los puntajes promedios de Matemticas pordependencia?c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Siexiste relacin determine si la relacin es alta, moderada o dbil.
4. Concluira) Realice resumidamente un anlisis descriptivo bsico para los colegios premiados usandomedidas de tendencia central y medidas de dispersin.
b) Sintetizar sus comentarios acerca de los vnculos que explica.c) Sugiera otra alternativa para determinar cmo premiar a los colegios por su rendimiento enla prueba SIMCE.
DESARROLLO:
1. Limpiar y ordenar la base de inters para el anlisis
a) Crear la variable Dependencia considerando slo tres categoras:Municipalizado, Privado y SubvencionadoEn primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con
formato cadena o string. Recodificaremos automticamente y luego llevaremos las cincocategoras slo a tres categoras.Para esto ir al Men: Transformar/ recodificacin automtica
Old Value New Value Value Label
CP 1 Corporacin PrivadaMC 2 Corporacin MunicipalMD 3 DAEMPP 4 Particular PagadoPS 5 Particular Subencionado
Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM enMunicipalizado y las categoras Corporacin Privada y Particular pagado en PrivadoPara esto ir al Men: Transformar/Recodificar en distinta variable
AUTORECODEVARIABLES=ddcia /INTO depend/PRINT.
-
8/13/2019 03 Estudios de Casos MGPP 2012
31/239
31
En definicin de la variableAsignar etiquetas de valor a los cdigos 1 al 31= Municipalizado2=Privado3=Subvencionado
b) Crear la variable zona considerando Zona; Norte, Centro y SurEn primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificarautomticamente.Men: Transformar/Recodificacin automtica
En el visor de resultados se puede observar los cdigos de cada categora
Old Value New Value Value Label
Regin de Aisn del General 1 Regin de Aisn del GeneralCarlos Ibaez del Campo 1 Carlos Ibaez del CampoRegin de Antofagasta 2 Regin de AntofagastaRegin de Atacama 3 Regin de AtacamaRegin de Coquimbo 4 Regin de CoquimboRegin de la Araucana 5 Regin de la Araucana
Regin de Los Lagos 6 Regin de Los LagosRegin de Magallanes y de la 7 Regin de Magallanes y de laAntrtica Chilena 7 Antrtica ChilenaRegin de Tarapac 8 Regin de TarapacRegin de Valparaso 9 Regin de ValparasoRegin del Biobo 10 Regin del BioboRegin del Libertador General 11 Regin del Libertador GeneralBernardo O' Higgins 11 Bernardo O' HigginsRegin del Maule 12 Regin del MauleRegin Metropolitana 13 Regin Metropolitana
Para crear las categoras de zona se recodificar en distintas variables
AUTORECODEVARIABLES=region /INTO reg/PRINT
RECODEdepend(4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia .
VARIABLE LABELS dependencia 'Tipo de dependencia'.
EXECUTE .
-
8/13/2019 03 Estudios de Casos MGPP 2012
32/239
32
Men: Transformar/Recodificar en distinta variable
En definicin de variables1= Norte2= Centro3= Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje
Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String ocadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiaren vista de variables el tipo String a numrico.
Para crear la variable puntprom seleccione Men: Transformar/CalcularVariable destino: puntpromTipo: numricoEtiqueta: Promedio de Matemticas y LenguajeExpresin: MEAN(prom_len,prom_mat)
d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.
Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida acdigo numrico con nombre caractDondecaract=1 Ruralcaract=2 Urbano
Men: Transformar/Recodificacin automtica
RECODEregion(1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona .
VARIABLE LABELS zona 'zona'.EXECUTE .
COMPUTE puntprom = MEAN(prom_len,prom_mat) .VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje ymatemticas.EXECUTE .
AUTORECODEVARIABLES=ruralida /INTO caract/PRINT.
-
8/13/2019 03 Estudios de Casos MGPP 2012
33/239
33
Ahora formamos los seis grupos segn criterio dado
Luego en la definicin de variables en valores se define:1: Municipal y Rural
2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano
e) Determinar para cada grupo el percentil 75.Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Men:Analizar/Frecuencias [Estadsticos]: Percentil 75
No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos.
f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.
Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
Creacin de la variable grupo*** Sintaxis Grupo ***.
IF (dependencia = 1 & caract = 1) grupo = 1 .IF (dependencia = 1 & caract = 2) grupo = 2 .IF (dependencia = 2 & caract = 1) grupo = 3 .IF (dependencia = 2 & caract = 2) grupo = 4 .IF (dependencia = 3 & caract = 1) grupo = 5 .IF (dependencia = 3 & caract = 2) grupo = 6 .
SORT CASES BY grupo .SPLIT FILE
LAYERED BY grupo .
FREQUENCIESVARIABLES=puntprom /FORMAT=NOTABLE/PERCENTILES= 75/ORDER= ANALYSIS .
-
8/13/2019 03 Estudios de Casos MGPP 2012
34/239
34
En definicin de variables se agrega la etiqueta de valor1=SI0=NO
2. Grficos
a) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano
Para realizar esta grfica se seleccionaMen: Grafico/barras/Para distintas variables/Agrupado
Estadsticos
puntaje promedio entre lenguaje y matemticas
68
0
225,6250
587
0
246,0000
19
0
322,0000
388
0
324,0000
86
0
246,3750
1171
0
286,0000
Vlidos
Perdidos
N
75Percentiles
Vlidos
Perdidos
N
75Percentiles
Vlidos
Perdidos
N
75Percentiles
Vlidos
Perdidos
N
75Percentiles
Vlidos
Perdidos
N
75Percentiles
Vlidos
Perdidos
N
75Percentiles
Municipalizado y Rural
Municipalizado y Urbano
Privado y Rural
Privado y Urbano
Subvencionado y Rural
Subvencionado y Urbano
*** Sintaxis Premio ***.
IF (grupo = 1 & puntprom >= 225.625) premio = 1 .IF (grupo = 1 & puntprom < 225.625) premio = 0 .IF (grupo = 2 & puntprom >= 246) premio = 1 .IF (grupo = 2 & puntprom < 246) premio = 0 .IF (grupo = 3 & puntprom >= 322.5) premio = 1 .IF (grupo = 3 & puntprom < 322.5) premio = 0 .
IF (grupo = 4 & puntprom >= 324) premio = 1 .IF (grupo = 4 & puntprom < 324) premio = 0 .IF (grupo = 5 & puntprom >= 246.375) premio = 1 .IF (grupo = 5 & puntprom < 246.375) premio = 0 .IF (grupo = 6 & puntprom >= 286) premio = 1 .IF (grupo = 6 & puntprom < 286) premio = 0 .
VARIABLE LABELS premio 'premio (SI=1, NO=0)' .EXECUTE .
GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia/MISSING=LISTWISE .
-
8/13/2019 03 Estudios de Casos MGPP 2012
35/239
35
Del grfico se observa que tanto para lenguaje como para matemticas los colegiosprivados tiene mejores resultados observndose sin embargo diferencias en casi 15puntos a favor del promedio de matemticas. Los colegios subvencionados presentanpuntajes intermedios si comparamos los privados y los municipalizados con puntajes entorno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor delpuntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajespromedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favorde lenguaje.Para responder a la pregunta si existen diferencias en los puntajes de lenguaje pordependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados
seleccionando resmenes para grupos de casos.
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
200
100
0
Media
256,9
306,1
226,6
259,5
291,3
235,5
prom_mat
prom_len
Media de puntajes de lenguaje y matemticas por dependencia
GRAPH
/BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract
-
8/13/2019 03 Estudios de Casos MGPP 2012
36/239
36
Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana,notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajoen los colegios rurales en relacin a los colegios urbanos.Para comparar el comportamiento en los resultados de ambas pruebas por dependenciaentre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dospaneles. Para esto vamos aMen: Grficos/ barras agrupadas/ resumen para distintas variables
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
250
200
150
100
50
0
Me
diaprom_
len
261,4
292,2
237,1 234
272,9
221,3
Urbano
Rural
Caracterizacin delestablecimiento
Media de puntajes promedios en lenguaje por dependencia agrupados porcaracterizacin Rural y Urbano
GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY
dependencia/PANEL ROWVAR=caract ROWOP=CROSS/MISSING=LISTWISE .
-
8/13/2019 03 Estudios de Casos MGPP 2012
37/239
37
El grfico nos muestra un comportamiento muy similar por dependencia entre losurbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en loscolegios privados, los puntajes intermedios en los subvencionados y los puntajes msbajos en los municipalizados.En todos los casos los urbanos presentan mayor puntaje promedio si se compara con lospuntajes de los colegios rurales.
g) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.
Para esto realizaremos un diagrama de cajas por grupo.Men: Analizar/ Explorar/grficos
Urbano
Rural
Caracterizacindelestab
lecimiento
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
200
100
0
Media
300
200
100
0
Media
224,7
286,8
210,6234
272,9
221,3
259,3
307
228,5261,4
292,2
237,1
prom_mat
prom_len
Media de puntajes de lenguaje y matemticas por dependencia para colegiosurbanos y rurales
EXAMINEVARIABLES=puntprom BY grupo/PLOT BOXPLOT HISTOGRAM/COMPARE GROUP/STATISTICS NONE/CINTERVAL 95
/MISSING LISTWISE/NOTOTAL.
-
8/13/2019 03 Estudios de Casos MGPP 2012
38/239
38
Subvencionadoy Urbano
Subvencionadoy Rural
Privado yUrbano
Privado y RuralMunicipalizadoy Urbano
Municipalizadoy Rural
Grupo
350
300
250
200
PuntajeSIMCEpromedio
1097
1657
1684
2173
2174
2176
853
1301
285
2175
Puntajes promedios SIMCE por grupo de colegios
Del grfico se puede apreciar que los mayores puntajes se concentran en los colegiosprivados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa
que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puedever que los puntajes ms bajos se concentran en los colegios municipalizados y ruralespresentando la menor de las medianas y es el grupo que presenta la menor variabilidaden los puntajes, es decir son bastante homogneos en cuanto al resultado promedioSIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que elgrupo de municipalizados urbanos a pesar de tener la mayora de los colegiosconcentrados en puntajes bajos es el nico grupo que presenta varios colegios conpuntajes atpicos y un extremo en la parte alta de puntajes. Respecto a lossubvencionados se ve clara diferencia entre los urbanos y rurales donde hay unamarcada diferencia a puntajes ms bajos en los colegios rurales.
Para obtener el diagrama de cajas para los premiados, primero se selecciona a loscolegios que obtuvieron premio y una vez filtrada la base se procede a realizar lagrfica.
USE ALL.COMPUTE filter_$=(premio = 1).VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .
-
8/13/2019 03 Estudios de Casos MGPP 2012
39/239
39
Es claro que la posicin de cada grupo en general se mantiene en relacin a la grficaanalizada anteriormente. Los puntajes de los premiados con mayor puntaje seconcentran en los privados, observndose muy concentrados, bastante homogneosentre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en
los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana delgrupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados esel que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajesatpicos superiores en el rango de puntajes del grupo de los privados. El 50% de loscolegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75)del grupo de municipalizados urbanos se comporta de una manera muy similar a loscolegios que se encuentran en la caja del rango intercuartil del grupo de subvencionadosrurales. Se observa ms notoriamente la diferencia en los puntajes de los colegiospremiados que pertenecen al grupo de los subvencionados rurales y los que pertenecena los subvencionados urbanos.
Subvencionadoy Urbano
Subvencionadoy Rural
Privado yUrbano
Privado y RuralMunicipalizadoy Urbano
Municipalizadoy Rural
Grupo
360
340
320
300
280
260
240
220
PuntajeSIMCEpro
medio
1097
2190
2175
2173
2174
2169
2172
285
Puntaje promedio para los colegios premiados por grupo de colegios
Si consideramos la base de datos como si fuera la poblacin de colegios que rinde laSIMCE, podramos decir que claramente se observa diferencias significativas entre lasmedias de puntajes entre los diferentes grupos de colegios.
-
8/13/2019 03 Estudios de Casos MGPP 2012
40/239
40
3. Pruebas de hiptesis
Asuma que la base de datos corresponde a la poblacin de todos los colegios que rindieron laprueba SIMCE en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20%
de los colegios considerados y realice pruebas de hiptesis que permita responder lassiguientes preguntas.En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Men: Seleccionar/Muestra aleatoria de datos
a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado quees una prueba paramtrica veremos previamente si se verifica la normalidad de la variablepuntprom en ambos grupos Rural y Urbano.Men: Analizar/ Explorar/ Grficos con prueba de normalidad
Pruebas de normalidad
,201 45 ,000 ,797 45 ,000
,078 425 ,000 ,964 425 ,000
Caracterizacin delestablecimientoRural
Urbano
puntaje promedio entrelenguaje y matemticas
Estadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Correccin de la significacin de Lillieforsa.
Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegiosrurales como urbanos se rechaza la hiptesis nula de normalidad, donde H 0: La variablepuntaje promedio distribuye normalSin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos siexisten valores extremos o atpicos y los filtraremos segn sea la cantidad 2, para luegosolicitar el coeficiente de asimetra. Si ste est cerca de cero se considerar que ladistribucin es simtrica y en consecuencia se podr aplicar la prueba T.
Si son muchos los casos extremos y atpicos seguramente la distribucin no ser simtrica y nopodramos aplicar la prueba T2
EXAMINEVARIABLES=puntprom BY caract /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES EXTREME/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.
Sintaxis
USE ALL.COMPUTE filter_$=(uniform(1)
-
8/13/2019 03 Estudios de Casos MGPP 2012
41/239
41
Para lo anterior consideremos el diagrama de cajas que se seleccion en el men explorar enla sintaxis anterior.
En la grfica se puede apreciar que hay valores atpicos y extremos en el grupo de colegiosrurales. Al editar la grfica se puede ver que dentro de los extremos aparecen trespromedios extremos con identificacin 1171, 754 y 760
Adems se puede apreciar dos atpicos con identificacin, 1190, 1195Filtremos estos cinco valores y verifiquemos si se cumple la asimetra
Men: Datos/Seleccionar casos
UrbanoRural
Caracterizacin del establecimiento
350,00
300,00
250,00
200,00
puntajepromed
ioentrelenguajeymatemticas
1190,00
1195,00
760,00
Media de puntajes promedios SIMCE por caracterizacin Rural y Urbano
USE ALL.COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest~= 1195).VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 &Idest ~= 1195 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).FILTER BY filter_$.
-
8/13/2019 03 Estudios de Casos MGPP 2012
42/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
43/239
43
Estadsticos de grupo
40 216,2125 16,63827 2,63074
425 260,4612 39,08043 1,89568
Caracterizacin delestablecimientoRural
Urbano
puntaje promedio entrelenguaje y m atemticas
N MediaDesviacin
tp.Error tp. de
la media
Prueba de muestras independientes
42,153 ,000 -7,095 463 ,000 -44,24868 6,23655 -56,50412 -31,99323
-13,646 87,838 ,000 -44,24868 3,24259 -50,69281 -37,80454
Se han asumidovarianzas iguales
No se han asumidovarianzas iguales
puntaje promedio entrelenguaje y matemticas
F Sig.
Prueba de Levene
para la igualdad devarianzas
t gl Sig. (bilateral)
Diferencia
de medias
Error tp. de
la di ferenc ia Infer ior Sup erior
95% Intervalo deconfianza para la
diferencia
Prueba T para la igualdad de medias
En la tabla de estadsticos de grupo se observa el nmero de casos por cada grupo en lamuestra y la media y dispersin del puntaje promedio para los datos de la muestra decolegios.La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado dela prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia esmenor a 0,05 se rechaza la hiptesis nula.
2
2
2
10 :H que indica que la varianza del puntaje promedio para el grupo Rural no difierede la varianza del puntaje promedio para el grupo Urbano.Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila dela tabla.
Dado que la significancia es menor a 0,05 se rechaza la hiptesis nula de igualdad de medias210 :H que indica que no hay diferencias significativas en las medias del promedio de
puntajes SIMCE para el grupo Rural y Urbano.Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media delos promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con unnivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95%para la diferencia de medias. En este caso la diferencia de medias para los promedios depuntajes entre los colegios urbanos y rurales est entre 38 puntos y 51 puntosaproximadamente con un 95 % de confianza.
b) Existen diferencias significativas entre las medias de los puntajes promedios deMatemticas por dependencia?
La variable dependencia es una variable nominal con tres categoras. Por tanto se trata de unaPrueba ANOVA de un factor, donde la hiptesis nula es 3210 :H es decir, las medias de los puntajes promedios de matemticas de los colegios municipalizados,privados y subvencionados no difieren significativamente entre s.
Previamente verificaremos la hiptesis de normalidad. Dado que la prueba es robusta adesviaciones de la normalidad por lo menos se debe verificar que los datos se comportan demanera simtrica.
Para verificar la normalidad, solicitamos la prueba de K-S en;
-
8/13/2019 03 Estudios de Casos MGPP 2012
44/239
44
Men: Analizar/ Explorar/ Grficos
Se obtiene la tabla con la prueba K-S
Pruebas de normalidad
,083 128 ,032 ,947 128 ,000
,120 82 ,005 ,948 82 ,002
,072 260 ,002 ,972 260 ,000
Tipo de dependenciaMunicipalizado
Privado
Subvencionado
prom_matEstadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Correccin de la significacin de Lillieforsa.
Claramente se observa que la variable puntaje de matemticas no distribuye normal en ninguno delos grupos de dependencia.Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo dedependencia.
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
400
350
300
250
200
150
prom_
mat
250,00
661,00
575,00
Media de puntajes promedios de matemticas por dependencia
EXAMINEVARIABLES=prom_mat BY dependencia /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.
-
8/13/2019 03 Estudios de Casos MGPP 2012
45/239
45
Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay trescolegios con valores atpicos, cuya identificacin corresponden a 250, 661 y 575.
Filtraremos estos valores
Men: Datos/ seleccionar
Ahora veamos los coeficientes de asimetra para comprobar que los datos distribuyen enforma simtrica en cada grupo.Men: Datos/ Segmentar archivo/ Frecuencias
Estadsticos
prom_mat
125
0
,309
82
0
-,592
260
0
,102
Vlidos
Perdidos
N
Asim etra
Vlidos
Perdidos
N
Asim etra
Vlidos
Perdidos
N
Asim etra
Municipalizado
Privado
Subvencionado
Se puede apreciar que los coeficientes de asimetra son cercanos a cero y por tanto podemosconsiderar las distribuciones simtricas para cada grupo de dependencia.Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos loscasos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor
USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575).VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .
SORT CASES BY dependencia .SPLIT FILE
LAYERED BY dependencia .FREQUENCIES
VARIABLES=prom_mat /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .
ONEWAYprom_mat BY dependencia/STATISTICS DESCRIPTIVES HOMOGENEITY
/MISSING ANALYSIS .
-
8/13/2019 03 Estudios de Casos MGPP 2012
46/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
47/239
47
Comparac iones mltiples
Variable dependiente: prom_mat
Games-Howell
-84,934* 4,824 ,000 -96,39 -73,48
-36,050* 3,371 ,000 -43,98 -28,12
84,934* 4,824 ,000 73,48 96,39
48,884* 5,206 ,000 36,56 61,21
36,050* 3,371 ,000 28,12 43,98
-48,884* 5,206 ,000 -61,21 -36,56
(J) Tipo de dependenciaPrivado
Subvencionado
Municipalizado
Subvencionado
Municipalizado
Privado
(I) Tipo de dependenciaMunicipalizado
Privado
Subvencionado
Diferencia de
medias (I-J) Error tpico Sig. Lmi te inferi or
Lmite
superior
Intervalo de confianza al95%
La diferencia entre las medias es significativa al nivel .05.*.
Dado que todas las significancias son menores a 0,05 se puede concluir que existendiferencias significativas en los puntajes promedios de matemticas entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza
para la diferencia de medias poblacionales del puntaje promedio de matemticas para cadapar de grupos considerados en el anlisis con un 95% de confianza.
c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?Repitiendo el mimo procedimiento para los puntajes de matemticas se realiza un diagrama decaja para ver los atpicos en los puntajes de lenguaje por dependencia obteniendo que existendos atpicos en el grupo de municipalizados y un caso atpico en los privados
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
250
200
prom_
len
54,00
661,00
250,00
Media de los puntajes promedio de lenguaje por dependencia
-
8/13/2019 03 Estudios de Casos MGPP 2012
48/239
48
Se filtran para luego pedir el coeficiente de asimetra.
Estadsticos
prom_len
126
0
,445
81
0
-,535
260
0-,024
Vlidos
Perdidos
N
Asim etra
Vlidos
Perdidos
N
Asim etra
Vlidos
Perdidos
N
Asim etra
Municipalizado
Privado
Subvencionado
Se puede observar que la variable puntaje promedio de lenguaje distribuye en formasimtrica en los tres grupos de dependencia pues los tres coeficientes de asimetra estncercanos a cero. Por tanto podemos aplicar la prueba ANOVA.Previamente consideramos todos los casos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor
En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hiptesis nulaes 23
2
2
2
10 :H . Es decir no existen diferencias significativas en la variabilidad delpuntaje promedio de lenguaje entre los tres grupos de dependencia
Prueba de homogeneidad de varianzas
prom_len
29,956 2 464 ,000
Estadsticode Levene gl1 gl2 Sig.
USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54).
VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .
SORT CASES BY dependencia .SPLIT FILE
LAYERED BY dependencia .FREQUENCIES
VARIABLES=prom_len /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .
ONEWAYprom_len BY dependencia
/STATISTICS DESCRIPTIVES HOMOGENEITY/MISSING ANALYSIS .
-
8/13/2019 03 Estudios de Casos MGPP 2012
49/239
49
De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hiptesisnula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exigeque se cumpla la hiptesis anterior).En este caso veremos la prueba de Welch, que representa una alternativa robusta alestadstico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en
Opciones activamos Welch, donde la hiptesis nula correspondiente es 3210 :H
Pruebas robustas de igualdad de las medias
prom_len
183,227 2 208,914 ,000WelchEstadstico
agl1 gl2 Sig.
Distribuidos en F asintticamente.a.
De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis de
igualdad de medias y en consecuencia hay diferencias significativas entre las medias delpuntaje promedio de lenguaje por dependencia.
Para conocer entre qu grupos de dependencia hay diferencias, solicitamos enPost-Hoc la opcin de Games-Howell que es un mtodo que se basa en la distribucin del rangoestudentizado y en un estadstico T. Es el mejor mtodo que permite controlar la tasa deerror en diferentes situaciones.
Comparac iones mltiples
Variable dependiente: prom_len
Games-Howell
-58,521* 3,265 ,000 -66,27 -50,77
-27,955* 2,396 ,000 -33,59 -22,32
58,521* 3,265 ,000 50,77 66,27
30,566* 3,452 ,000 22,40 38,74
27,955* 2,396 ,000 22,32 33,59
-30,566* 3,452 ,000 -38,74 -22,40
(J) Tipo de dependenciaPrivado
Subvencionado
Municipalizado
Subvencionado
Municipalizado
Privado
(I) Tipo de dependenciaMunicipalizado
Privado
Subvencionado
Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or
Lmitesuperior
Intervalo de confianza al95%
La diferencia entre las medias es significativa al nivel .05.*.
Dado que todas las significancias son menores a 0,05 se puede concluir que existen
diferencias significativas en los puntajes promedios de lenguaje entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianzapara la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par degrupos considerados en el anlisis con un 95% de confianza.
d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?.
Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestrasrelacionadas, donde la hiptesis nula corresponde a 0: 210H es decir la diferenciade las medias poblacionales del puntaje promedio de matemticas y de lenguaje es cero.
4Tanto el estadstico de Welch como el de Brown- Forsythe se distribuyen segn el modelo de
probabilidad F, pero con grados de libertad corregidos
-
8/13/2019 03 Estudios de Casos MGPP 2012
50/239
50
Previamente segmentaremos por dependencia.
Calcularemos la variable diferencia entre ambos puntajes difpunt. Luego veremos si ladiferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba Tpara muestras independientes es robusta a desviaciones de la normalidad, por tanto bastarafiltrar los casos extremos o atpicos si es que la cantidad es marginal y luego probar que essimtrica.Men; Transformar/CalcularLuego de calcular la diferencia se procede a verificar si distribuye normalMen; Analizar/ Explorar/ grficos
Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad dela variable diferencia entre los puntajes, en consecuencia se verifica la hiptesis de la prueba Tpara muestras relacionadas.Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a
una distribucin normal.
Pruebas de normalidadb
,053 128 ,200* ,995 128 ,942difpuntEstadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Este es un lmite inferior de la significacin verdadera.*.
Correccin de la significacin de Lillieforsa.
Tipo de dependencia = Municipalizadob.
Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante auna distribucin normal .
COMPUTE difpunt = prom_mat - prom_len .EXECUTE .
EXAMINEVARIABLES=difpunt /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.
SORT CASES BY dependencia .SPLIT FILE
SEPARATE BY dependencia .
-
8/13/2019 03 Estudios de Casos MGPP 2012
51/239
51
20,0010,000,00-10,00-20,00-30,00-40,00-50,00
difpunt
25
20
15
10
5
0
Frecuencia
Mean = -9,8125Std. Dev. = 12,76792N = 128
Tipo de dependencia= Municipalizado
Histograma
Pruebas de normalidadb
,097 82 ,054 ,978 82 ,173difpuntEstadstico gl Sig. Estadstico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Correccin de la significacin de Lillieforsa.
Tipo de dependencia = Privadob.
60,0040,0020,000,00-20,00-40,00
difpunt
20
15
10
5
0
Frecuencia
Mean = 16,6585Std. Dev. = 17,67276N = 82
Tipo de dependencia= Privado
Histograma
-
8/13/2019 03 Estudios de Casos MGPP 2012
52/239
-
8/13/2019 03 Estudios de Casos MGPP 2012
53/239
53
En primer lugar se aprecia la tabla con estadsticos bsicos de la muestra para colegios condependencia municipalizado, mostrando que las medias muestrales tienen una diferencia deaproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje.
Correlaciones de muestras relacionadasa
128 ,873 ,000prom_mat y prom_lenPar 1N Correlacin Sig.
Tipo de dependencia = Municipalizadoa.
La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemticas yde lenguaje se correlacionan linealmente, con una fuerza de asociacin positiva alta
Prueba de muestras relacionadasa
-9,813 12,768 1,129 -12,046 -7,579 -8,695 127 ,000prom_mat - prom_lenPar 1
MediaDesviacin
tp.Error tp. de
la media Inferior Superior
95% Intervalo deconfianza para la
diferencia
Diferencias relacionadas
t gl Sig. (bilateral)
Tipo de dependencia = Municipalizadoa.
De la prueba T para muestras relacionadas, se rechaza la hiptesis nula de igualdad de medias(diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferenciassignificativas entre el promedio de matemticas y el promedio de lenguaje para los colegiosmunicipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95%de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemticas
y la diferencia est entre aproximadamente 7,5 puntos y 12 puntos.De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios condependencia privado y subvencionado, obtenindose en ambos casos diferencias significativas
entre los promedios de matemticas y lenguaje.
e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Si existerelacin determine si la relacin es alta, moderada o dbil.Ambas variables pueden ser consideradas como nominales. En este caso la hiptesis nula a probaresH0: Las variables grupo socioeconmico del establecimiento es independiente de la dependenciadel colegio.En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto lafrecuencia observada y la frecuencia esperada.
-
8/13/2019 03 Estudios de Casos MGPP 2012
54/239
54
Tabla de contingencia Grupo Socioeconmico del establecimie nto * Tipo de depen dencia
56 2 40 98
26,7 17,1 54,2 98,0
57 9 53 119
32,4 20,8 65,8 119,0
13 1 101 115
31,3 20,1 63,6 11