03 Estudios de Casos MGPP 2012

8/13/2019 03 Estudios de Casos MGPP 2012

1/239

1

UNIVERSIDAD DE CHILE

MAGISTER EN GESTION Y POLITICASPBLICAS

EESSTTAADDSSTTIICCAAAAPPLLIICCAADDAAYYEECCOONNOOMMEETTRRAA

AAPPLLIICCAACCIIOONNEESSDDEESSPPSSSS

Profesora : Sara Arancibia C.Profesora Auxiliar: Carlos Andrade G

Primer Semestre 2012


2/239

2

FORMULAS PARA TRIUNFAR

LA FORMULA BSICA. Los investigadores se han dedicado a averiguar cul ha sido la idea, elsecreto que ha llevado al triunfo a los grandes personajes de la historia.Y han encontrado una

frmula que todos los triunfadores practicaron, y sin la cual no habran llegado a ser grandesni famosos. Esta frmula consiste en los siguientes cinco puntos:

a) Dirigir el pensamiento hacia una meta fijaque se desea conseguir. Saber bien cul esesa meta que se desea alcanzar y no desviar la atencin de ella.

b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que seva siguiendo da por da, y que hace que nuestra actividad sea organizada y llena deentusiasmo.

c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo

ardiente es el ms importante motivador de las acciones. El deseo de lograr xitosconsigue la costumbre de conseguir xitos.

d) Adquirir una confianza grande en s mismo; confianza en las propias capacidades yhabilidades para lograr el xito, concedindole muchsima mayor importancia a lascualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota.

e) Dedicarse a una accin tenaz e incansable para lograr obtener la meta que se buscaconseguir, sin desanimarse por los obstculos, las crticas, las circunstancias adversas, olo negativo que los dems piensen, hagan o digan. Esa energa concentrada hacia laconsecucin de una meta, trae enormemente las oportunidades, las cuales no se dejan

atrapar por los que estn sin hacer nada, pero se acercan generosamente a quienes seatreven a atacar, a trabajar fuertemente por conseguir el xito.

Esta frmula bsica Meyer la llam El plan del xito personal a base de automotivacin,

para desarrollar al mximo el potencial de cada uno.

Meyer resume la frmula bsica en la siguiente frase:

Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente

creamos, y entusiastamente emprendamos, de una manera impresionantemente

favorable se transformar en algo placentero y beneficioso para nosotros

(Elicer Salesman. 100 Frmulas para llegar al xito)

Si una de tus metas es APRENDER aplica esta frmula y comienza con la mente abierta.La cualidad ms importante que afectar tu xito en el curso es tu ACTITUD. stadeterminar lo que ests dispuesto a hacer en el curso, y la calidad de ese esfuerzocontribuir de la manera ms significativa a tu xito.


3/239

3

Contenido

I Anlisis Inicial de los datos y repaso de herramientas de SPSS.

II ANOVA de un factor.

Caso Enfermeras-

Caso Premio colegios ( SIMCE)

III Anlisis de regresin simple y modelos lin-log y log-lin

IV Anlisis de regresin mltiple

V Modelos de regresin mltiple con variables cualitativas (dummy)

VI Anlisis de regresin logstica

VII Anlisis factorial


4/239

4

I Anlisis Inicial de los datos

Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mximapreocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe unaetapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de losdatos recabados.La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un granavance en la consecucin de resultados lgicos consistentes. Dichos problemas se puedensubsanar comenzando por una inspeccin visual de las representaciones grficas de los datos,completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidosbajo la denominacin de outliers) y finalizando con la comprobacin de que se cumplen ciertashiptesis de partida: en el caso de anlisis multivariable nos referimos a; normalidad, linealidad yhomocedasticidad, supuestos subyacentes en todos los mtodos multivariantes.

Representaciones grficas para el anlisis de datos

La difusin experimentada en los ltimos aos por los programas estadsticos ha facilitando laincorporacin de mdulos especficamente diseados para la inspeccin grfica de los datos.

El estudio de cada variable es fundamental para conocer sus caractersticas y comprobar si esoportuna y relevante su inclusin en el anlisis. Para ello se aconseja observar la forma de sudistribucin. Esto se consigue mediante el histograma, que representa grficamente los datosmostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluarla normalidad de la variable, se efectuar superponiendo la curva normal sobre la distribucin orealizando grficos P-P o Q-Q.

Mediante el grfico de dispersin se podr examinar la relacin entre dos o ms variables. Setrata de un grfico de puntos de datos basados en dos variables, representadas una en el ejehorizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una lnea recta sedebe a la existencia de correlacin lineal. Si los puntos siguen distintas formas la relacin nopodr calificarse de lineal. La inexistencia de relacin se podr constatar si la nube de puntos esaleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podr determinar medianteuna prueba de hiptesis si la correlacin entre dos variables de escala es significativa).

Mediante el grfico de cajas o boxplot se puede llevar a cabo un anlisis de las diferencias entregrupos, si lo que se pretende es apreciar la existencia de dos o ms grupos en una variablemtrica, como ocurre en el anlisis discriminante o en el anlisis de la varianza. Este grficodistribuye los datos de tal forma que los lmites superior e inferior de la caja marcan loscuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercercuartil; as, la caja contiene el 50 por ciento de los datos centrales de la distribucin. La medianase representa mediante una lnea dentro de la caja. Existir asimetra si la mediana se aproximaal final de la caja. El tamao de la caja depender de la distancia entre las observaciones.Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unaslneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos sepueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.


5/239

5

Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable deleje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valoresextremos para la categora o variable.Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representacada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin

vienen definidos por una variable de definicin distinta.

OtraNegraBlanca

Raza del encuestado

20

15

10

5

0

N

merodeaosdeescolarizacin

693

688

765

960

961

1.404

804

634

718

1.448

695

244

620

596

621

821

735

Mujer

Hombre

Sexo del encuestado

Aos de escolarizacin por raza agrupados por sexo

OtraNegraBlanca

Raza del encuestado

20

15

10

5

0

Nmerodeaosdeescolarizacin

1.476

634

718

691

702

693

688

899

1.366

244

620

596 765

735

Aos de escolarizacin por raza


6/239

6

Deteccin de variables con categoras mal codificadas

En muchos archivos de datos se detectan problemas en variables nominales con categoras enformato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizartablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin,

como por ejemplo la variable sexo podra presentar problemas si las categoras estn maldigitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tablade frecuencia aparecern como categoras diferentes. Para solucionar este problema serecomienda recodificar automticamente asignndole a las categoras de la variable un cdigonumrico y luego con recodificar en distinta variable asignar correctamente los cdigos.

Anlisis de datos ausentes

En este proceso de depuracin de datos (anterior a la utilizacin de los mtodos multivariables)el analista debe ser consciente de que se enfrenta a una informacin que puede no existir endeterminadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing

values. El porqu de la existencia de datos ausentes puede deberse a distintas razones comoerrores al codificar los datos e introducirlos en el computador, fallas del encuestador alcompletar el cuestionario, negacin del encuestado a responder ciertas preguntas calificadas decontrovertidas Razones comunes y muy habituales en todo proceso investigador.

El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en losresultados y sus efectos en el tamao de la muestra disponible para el anlisis, dado que estaausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesariodepurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos tericos de lainvestigacin no se alteran sustancialmente, una opcin sera suprimir aquellas variables y/o casosque peor se comportan respecto a los datos ausentes. En este caso el investigador deber

sopesar lo que gana con la exclusin de esta informacin y lo que pierde al no contarposteriormente en el anlisis multivariante con la misma. Mediante este proceder se asegura deque su matriz de datos est completa y posee observaciones vlidas.

Otra posibilidad sera la estimacin de valores ausentes empleando relaciones conocidas entrevalores vlidos de otras variables y/o casos de la muestra. Por tanto, se tratara de imputar osustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) enbase a otra informacin existente en la muestra.Un porcentaje bajo de valores missing no es un problema que influya decisivamente en losresultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el anlisis.No existe una estimacin respecto al porcentaje de missing que produce dificultades en unamuestra determinada.Segn Tabachnik y Fidell (1983) ms importante que el nmero de valores missing es laexistencia de un patrn de comportamiento en stos. En efecto, la presencia de missing que sedistribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemticaasociada a ciertas variables puede generar distorsin en los resultados.

La existencia de datos ausentes nunca debe impedir la aplicacin del anlisis multivariable olimitar la posibilidad de generalizar los resultados de una investigacin. La principal tarea delanalista consistir en identificar su presencia, y desempear las acciones necesarias paraminimizar sus efectos.

En datos correspondientes a encuestas es habitual encontrar cdigos como los siguientes.7= No procede, 8= No sabe , 9= No contesta


7/239


8/239

8

Recodificar automticamente:

El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y decadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las

casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria demuchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena yotros requieren valores enteros consecutivos para los niveles de los factores.

La nueva variable, o variables, creadas por la recodificacin automtica conservantodas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que notienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valorrecodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor.

Los valores de cadena se recodifican por orden alfabtico, con las maysculasantes que las minsculas.

Los valores perdidos se recodifican como valores perdidos mayores que cualquiervalor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores noperdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido parala nueva variable.

Recodificar en la misma variable /distinta variable

El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo,podra agrupar los salarios en categoras que sean rangos de salarios.

El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores para una variablenueva.

Puede recodificar variables numricas en variables de cadena y viceversa.Si selecciona mltiples variables, todas deben ser del mismo tipo. No se

pueden recodificar juntas las variables numricas y de cadena.

Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, elanlisis de datos.

Supuestos subyacentes en los mtodos multivariables

Es lgico pensar que de una buena materia prima podremos obtener un buen producto; de igualmodo, de unos buenos datos obtendremos un buen anlisis. En este proceso de depuracin de lainformacin, el ltimo eslabn consiste en comprobar que se cumplen ciertas hiptesis de partida,puesto que asegurarn la consecucin de un anlisis multivariante ptimo. Estos anlisis secaracterizan por su gran complejidad al integrar y combinar numerosas variables que puedenproducir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible losdatos respeten ciertos supuestos.


9/239

9

Normalidad

La hiptesis de partida que debe cumplir cualquier anlisis multivariable es la normalidad de losdatos. Por tanto, el investigador debera comenzar su anlisis evaluando la normalidad de todas ycada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, elresto de tests estadsticos diferenciadores de cada tcnica multivariable no sern vlidos,puesto que se requiere la normalidad para el uso de los estadsticos de la t y de la F.

La herramienta ms simple que sirve para diagnosticar la normalidad es el histograma,previamente explicado, mediante el cual se comparan los valores de los datos observados con ladistribucin normal. Adems de hacer esta comprobacin visual, se pueden utilizar los tests deasimetra y curtosis, disponibles en todos los programas en la parte de estadsticos descriptivosbsicos.

Sealar que en aquellas situaciones en las que las distribuciones sean no normales ser necesariala realizacin de transformaciones de los datos.

La condicin de distribucin normal se puede referir a una variable en particular o a un conjuntode variables. Para evaluar normalidad en una variable se estudia la forma de la distribucinmediante la prueba de Kolmogorov-Smirnov.

Evaluar distribucin normal en un conjunto de variables simultneamente no es fcil. En primertrmino, la representacin grfica de ms de tres variables en un plano es prcticamenteimposible. En segundo lugar, condicin necesaria de normalidad multivariable es que cada variablese distribuya normalmente, sin embargo, no es condicin suficiente. En efecto, que cada variable

separada se distribuya segn la ley normal no implica que todas juntas 10 hagan.

En la literatura se presentan diversas pruebas elaboradas para verificar normalidadmultivariable. No obstante, los paquetes de procesamiento de informacin no han incorporadotales pruebas. En la prctica el estudio de cada variable por .separado es la nica manera deexaminar limitadamente esta materia. Para estos efectos se utilizan diversos grficos.

Linealidad

Nuevamente y con la intencin de resolver problemas potenciales antes de comenzar con el

anlisis multivariable conviene examinar si las relaciones entre las variables que intervienen en elestudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de lavariable(s) dependiente(s) siempre que se produzca una modificacin en las variablesindependientes. Tcnicas estadsticas como la regresin mltiple, el anlisis factorial o lossistemas de ecuaciones estructurales se basan en medidas de correlacin. Esto significa que escondicin necesaria la existencia de asociaciones lineales entre variables para obtenercoeficientes de correlacin que las representen y ejecutar los modelos utilizando estas tcnicas.

La relacin lineal entre dos variables se representa a travs de una lnea recta; por tanto, paracomprobar que este supuesto se cumple basta con analizar los grficos de dispersin de lasvariables e intentar identificar si los datos siguen ese trazado lineal. Otra opcin es examinar los

residuos despus de efectuar un anlisis de regresin mltiple (como se ver en el Captulo 7),


10/239

10

dado que stos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, laparte no lineal de la relacin.

En aquellos casos en que la consecucin de los datos sea no lineal se debe optar por transformaruna o ambas variables para conseguir la linealidad. Un procedimiento vlido es efectuar

transformaciones mediante la utilizacin de la raz cuadrada, o bien crear una nueva variable,denominada polinmica, que represente la parte no lineal de la relacin.

Homocedasticidad

La homocedasticidad es el ltimo supuesto que deben cumplir los datos antes de iniciar sutratamiento multidimensional. Concretamente, se verifica esta hiptesis cuando la varianza de loserrores es constante. Es decir, la variacin de la variable dependiente que se intenta explicar atravs de las variables independientes -finalidad de tcnicas como la regresin mltiple-, no seconcentra en un pequeo grupo de valores independientes. El objetivo es conseguir una dispersin

por igual de la varianza de la variable dependiente a lo largo del rango de los valores de lavariable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante unaperturbacin conocida como heterocedasticidad. Tcnicamente suele deberse a muestras en lasque aparecen asimetras importantes en los valores de las variables porque toman valoresanormalmente altos o bajos respecto a la media.

Se puede comprobar la existencia de homocedasticidad grficamente, observando que no hayningn punto que se aleje mucho del resto. Si, por el contrario, se constatan observacionesextremas habr que convertir esas variables en variables especiales que se llaman dummy oficticias. Esta transformacin de los datos de las variables hace que todos los valores tengan unefecto potencialmente igual en la prediccin.

De forma complementaria, todos los paquetes estadsticos vienen provistos de tests estadsticosde homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si lavarianza de la variable dependiente permanece constante.

El supuesto de homocedasticidad dice relacin con la dispersin de los datos. En particular, conla igualdad de varianzas en todos los grupos de la poblacin origen de la muestra. Lahomocedasticidad multivariable se evala en la matriz de varianzas y covarianzas.

Cabe destacar que en el contexto multivariable medir relacin entre pares de variables da lugara una matriz de correlaciones que presenta la relacin de todos los pares de variables. Para quelos resultados sean fiables las matrices no deben ser singulares ni multicolineales.

Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valoresextremadamente altos. La presencia de multicolinealidad es indicadora de relacin intensa entrepares de variables. El determinante de matrices con multicolinealidad es prximo a cero. Existesingularidad cuando el determinante de una matriz es cero.

El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. Elclculo de la inversa es necesario para efectuar el equivalente entre matrices a la divisin entrenmeros. Una matriz con determinante cero o prximo a cero no permite el clculo de su inversa-o un clculo fiable de sta. En consecuencia, no es posible efectuar el proceso matricial

equivalente a la divisin.


11/239

11

Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidado singularidad. El procedimiento ms simple es borrar la variable que produce el problema.Solucin legtima dado que la presencia de una variable correlacionada con otra u otras indica questa es combinacin lineal de las dems y, en consecuencia, su eliminacin no significa prdida deinformacin. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo

que no participen en el modelo variables correlacionadas con otras previamente incluidas.

Respecto a las condiciones de aplicacin, ms importante que evaluar su cumplimiento, es saberen cada tcnica especfica cules son los efectos que genera la violacin de los supuestos. Enopinin de Harris (1975) las tcnicas multivariables no se ven seriamente afectadas cuando seviolan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientosresistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distri-buciones distintas a la ley normal.Bibliografa:Anlisis Estadstico Multivariable de Manuel Vivanco. Editorial UniversitariaAnlisis Multivariable para las Ciencias Sociales de Lvy. Editorial PearsonIntroduccin a la Econometra de Jeffrey Wooldridge. Editorial Thomson

Repaso de herramientas de SPSS

Considere el archivo consumo de agua potable.sav correspondiente a una muestra aleatoria dehogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del2005. Considere adems el archivo Ingresos hogares.sav correspondientes al ingreso familiar delhogar de los mismos hogares de la muestra considerada para el consumo de agua potable.Prepare un informe para un ejecutivo que necesita la siguiente informacin respecto al consumode agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos.

Suponga que se ha realizado la verificacin de los datos. Responda las siguientes preguntas:

a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que elgasto depende del lmite de sobreconsumo (LSC= 60 m3).El valor del m3de agua es $270 si el consumo es menor o igual al lmite de sobreconsumo(LSC=60m3)

Para los metros cbicos de agua que excede al LSC el valor por m 3es $560.

Mostrar la sintaxis correspondiente.

b) Mostrar una tabla que contenga elnmero de casos, la media, mediana, desv. estndar delgasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), ElBosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento.

c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20


12/239


13/239

13

Para archivo consumo de agua potableSORT CASES BYid_hogar (A) .

Para archivo Ingresos hogaresSORT CASES BY

id_hogar (A) .A partir del archivo Consumo agua potable

MATCH FILES /FILE=*/FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav'/BY id_hogar.

EXECUTE.MEANS

TABLES=gasto ingreso BY comu/CELLS COUNT MEAN MEDIAN STDDEV

Otra forma: Hacer un cubo OLAP

USE ALL.COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22).VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'.

VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

OLAP CUBESgasto ingreso BY comu/CELLS=COUNT MEAN MEDIAN STDDEV/TITLE='Cubos OLAP'.

Informe

31 31

47854,1806 494340,11

21240,0000 285355,32

49861,12054 420754,9

33 33

48226,1576 498187,25

28116,8000 328828,24

48102,31021 393996,4

16 16

72221,1750 709947,18

51771,2000 536311,29

61026,33408 516956,7

831 831

50438,9338 526677,52

32440,0000 387124,20

47495,05844 382120,2

N

Media

Mediana

Desv. tp.

N

Media

Mediana

Desv. tp.

N

Media

Mediana

Desv. tp.

N

Media

Mediana

Desv. tp.

Comuna donde seencuentra el hogarCERRILLOS

EL BOSQUE

PROVIDENCIA

Total

gasto en

consumo deagua potable

Ingresodel hogar

Cubos OLAP

31 31

47854,1806 494340,11

21240,0000 285355,32

49861,12054 420754,873

33 33

48226,1576 498187,25

28116,8000 328828,24

48102,31021 393996,449

16 16

72221,1750 709947,18

51771,2000 536311,29

61026,33408 516956,682

80 80

52881,0200 539048,47

27198,4000 341093,04

N

Media

Mediana

Desv. tp.

N

Media

Mediana

Desv. tp.

N

MediaMediana

Desv. tp.

N

Media

Mediana

Comuna donde se

encuentra el hogar

CERRILLOS

EL BOSQUE

PROVIDENCIA

Total

gasto en consumo

de agua potable Ingreso del hogar


14/239

14

c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20


15/239

15

/COMPARE GROUP/STATISTICS EXTREME/MISSING LISTWISE/NOTOTAL.

i) Determine mediante un grfico si las variables gasto e ingreso siguen una tendencia lineal

Valores extremos

gasto_mean

Mayores

42 MACUL 5313,60

28 LA REINA 5248,80

73 SAN MIGUEL 5227,20

76 SAN RAMON 5216,40

45 MAIPU 5184,00

43 MACUL 15390,00

57 PROVIDENCIA 14382,00

32 LAS CONDES 14040,0026 LA P INTANA 13543,20

71 SAN JOAQUIN 12957,69

81 VITACURA 95301,87

58 PROVIDENCIA 92287,20

62 QUILICURA 88189,65

35 LO BARNECHEA 87406,61

16 HUECHURABA 82689,42

1

2

3

4

5

1

2

34

5

1

2

3

4

5

rangos de c onsumoBajo consumo

Consumo normal

Sobreconsumo

Nmerodel caso

Comuna donde seencuentra el hogar Valor


16/239

16

PRUEBAS DE HIPOTESIS

f) Determine si existen diferencias significativas del gasto promedio en agua potable paralas comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.

La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las varianzas soniguales. De esta forma nos debemos fijar en la primera lnea de la tabla de la prueba T para la

igualdad de medias.

En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las medias son iguales.Esto tambin se puede observar del intervalo de confianza al 95% para la diferencia entre lasmedias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permitadescartar que la diferencia entre las medias sea cero, ie., que las medias son iguales.

j) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribucin

normal.Segn la prueba de K-S las variables no siguen una distribucin normal, dado que se rechaza lahiptesis de normalidad

Estadsticos de grupo

47 74515,74 58634,62025 8552,73838

30 95301,87 98739,12261 18027,2149

Comuna donde seencuentra el hogarLAS CONDES

VITACURA

gasto en consumode agua potable

N MediaDesviacin

tp.Error tp. de

la media

Prueba de muestras independientes

,988 ,324 -1,160 75 ,250 -20786,122 17917,04140 -56478,7 14906,45

-1,042 42,177 ,303 -20786,122 19953,19051 -61048,3 19476,03

Se han asumidovarianzas iguales

No se han asumidovarianzas iguales

gasto en consumode agua potable

F Sig.

Prueba de Levenepara la igualdad de

varianzas

t gl Sig. (bilateral)Diferenciade medias

Error tp. dela di ferenc ia Infer ior Sup erior

95% Intervalo deconfianza para la

diferencia

Prueba T para la igualdad de medias

Pruebas de normalidad

,140 831 ,000 ,934 831 ,000

,181 831 ,000 ,849 831 ,000

,150 831 ,000 ,873 831 ,000

N de Habitantesdel Hogar

Consumo de

Agua Potab le

Ingreso del hogar

Estadstico gl Sig. Estadstico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Correccin de la significacin de Lillieforsa.


17/239

17


18/239

18

II Anlisis ANOVA de un factor

Estudio de Caso: Satisfaccin Laboral de Enfermeras.

A la Asociacin Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras queparece estarse previendo para el futuro. Para investigar el grado actual de satisfaccin con laprofesin entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia.Como parte de este estudio, se pidi a 50 enfermeras que indicaran su grado de satisfaccin enel trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos desatisfaccin fue medido en una escala de 0 a 100, y los mayores valores representan mayoresniveles de satisfaccin.

Los datos de la muestra se clasificaron segn el tipo de hospital de las enfermeras. Los tiposfueron privados, geritricos y universitarios. Para obtener los datos bajar el archivoENFERMERAS.SAV .

Responder las siguientes preguntas respaldando sus respuestas con las tablas y grficas de SPSSque considere convenientes.

a) Muestre un grfico que permita visualizar el grado de satisfaccin de las enfermerassegn tipo de hospital. Comente.

f)Con base en las tres variables de satisfaccin laboral (sin considerar el tipo de hospital)qu aspecto laboral satisface ms a las enfermeras? Cul parece ser el que menos lassatisface? En que reas, si es que las hay, siente usted que deben introducirsemejoras? Argumente con los estadsticos descriptivos y diagrama de tallo y hojas.

Describa sus razonamientos.

g)Determine un intervalo de confianza del 95% para la media de cada uno de losindicadores de satisfaccin laboral para la poblacin de enfermeras. Interprete.(Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%)

h)Para la variable satisfaccin con el trabajo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.

i) Para la variable satisfaccin con el sueldo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios

j) Determine si existe correlacin significativa entre los indicadores de satisfaccinlaboral. Argumente su respuesta.

k)Determine si las variables de satisfaccin; con el trabajo, con el sueldo, y conoportunidades de ascenso siguen una distribucin normal. Argumente su respuesta.


19/239

19

Solucin:

l) El grfico agrupado muestra la media de los indicadores de satisfaccin laboral delas enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras delos tres tipos de hospital muestran un alto promedio en satisfaccin con su trabajo,alcanzando un valor aproximado a 80%. En los hospitales privados se observa que elindicador ms bajo en promedio es la satisfaccin con el sueldo 46% siendo adems elms bajo al comparar con hospitales geritricos y universitarios (los que indican unpromedio 55% y 62% respectivamente). La satisfaccin con oportunidades deascenso se observa similar en promedio entre los hospitales privados y geritricos(59 % en promedio) y algo menor para los hospitales universitarios ( 53% enpromedio)

Satisfaccin laboral de enfermeras

por tipo de hospital

Tipo Hospital

universitariosgeritricosprivados

ean

90

80

70

60

50

40

Satisfaccin con el

trabajo (%)

Satisfaccin con el

sueldo (%)

Satisfaccin con

oportunidades de asc

53

595962

55

46

808079

*** Grficos Barras. Resmenes para variables separables .GRAPH/BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi

/MISSING=LISTWISE REPORT.

m)Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que lamayora de las enfermeras muestran un alto nivel de satisfaccin con el trabajoalcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de lasenfermeras tienen un nivel de satisfaccin superior o igual a 82 con un mnimo 63. Eltallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfaccin con eltrabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90.


20/239

20

Estadsticos

50 50 50

0 0 0

79,80 53,26 57,28

82,00 54,00 57,50

8,288 16,462 17,594

32 88 86

63 2 6

95 90 92

72,00 42,75 48,50

82,00 54,00 57,50

87,00 60,00 68,00

Vlidos

Perdidos

N

Media

Mediana

Desv. tp.

Rango

Mnimo

Mximo

25

50

75

Percentiles

Satisfaccincon el trabajo

(%)

Satisfaccincon el sueldo

(%)

Satisfaccincon

oportunidades de

ascenso (%)

Satisfaccin con el trabajo (%) Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 6 . 342,00 6 . 5914,00 7 . 011112222234446,00 7 . 5677898,00 8 . 22244444

12,00 8 . 5556677888995,00 9 . 000041,00 9 . 5

Stem width: 10Each leaf: 1 case(s)

La media para satisfaccin con el sueldo muestra un nivel moderado de 53,26. El 25% de las

enfermerasmuestra un nivel bajo de satisfaccin con el sueldo, hasta 42,5. La mitad de las enfermerasmuestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre51 y 80 observndose slo 2 valores extremos altos desde 89.


21/239

21

Satisfaccin con el sueldo (%) Stem-and-Leaf Plot


1,00 Extremes (==89)

Respecto al indicador satisfaccin con oportunidades de ascenso se observa levemente

superior al indicador de sueldo en media y mediana con valores 57,28 y 57,5respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 conniveles superiores a 90.

Satisfaccin con oportunidades de ascenso (%) Stem-and-Leaf Plot


2,00 Extremes (=


22/239

22

Se observa una mayor variabilidad en opinin entre las enfermeras en el indicador desatisfaccin con el sueldo con un rango 88 (diferencia entre el mximo y el mnimo ) y uncoeficiente de variacin 30,9% ( ( 16,46/53,26)*100) el cual determina el grado dedispersin de los datos relativo a su media .

Se recomienda estudiar estrategias para mejorar el rea que tiene relacin con elsueldo. Por ejemplo bonos de incentivo segn desempeo que mejoren el sueldo de lasenfermeras.

n)El intervalo de confianza para la media de satisfaccin con el trabajo para la poblacinde enfermeras indica que con un 95% de confianza la media de satisfaccin con eltrabajo estar entre 77,44 y 88,16.Asimismo el intervalo de confianza para la media de satisfaccin con el sueldo para lapoblacin de enfermeras indica que con un 95% de confianza la media de satisfaccin

con el sueldo estar entre 48,58 y 57,94.El intervalo de confianza para la media de satisfaccin con oportunidades de ascensopara la poblacin de enfermeras indica que con un 95% de confianza la media desatisfaccin con oportunidades de ascenso estar entre 52,28 y 62,28.

Descriptives

79,80

77,44

82,16

79,92

53,26

48,58

57,94

53,41

57,28

52,28

62,28

57,88

Mean

Lower Bound

Upper Bound

95% Confidence

Interval for Mean

5% Trimmed Mean

Mean

Lower BoundUpper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Mean

Lower Bound

Upper Bound

95% Confidence

Interval for Mean

5% Trimmed Mean

Satisfaccin con

el trabajo (%)

Satisfaccin con

el sueldo (%)

Satisfaccin con

oportunidades de

ascenso (%)

Statistic

o)Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2= 3Descriptivos

Satisfaccin con el trabajo (%)

19 79,32 8,035 1,843 75,44 83,19 64 90

17 80,41 9,702 2,353 75,42 85,40 63 95

14 79,71 7,269 1,943 75,52 83,91 69 90

50 79,80 8,288 1,172 77,44 82,16 63 95

privados

geritricos

universitarios

Total

N MediaDesviacin

tpic a Erro r tpico Lmi te inferi or Lmite

superior

Intervalo de confianza parala media al 95%

Mnimo Mx imo

La prueba entrega los descriptivos bsicos de la variable satisfaccin con el trabajopara la muestra por tipo de hospital


23/239

23

Prueba de homogeneidad de varianzas


,796 2 47 ,457

Estadsticode Levene gl1 gl2 Sig.

Para la variable satisfaccin en el trabajo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .

ANOVA


10,920 2 5,460 ,076 ,926

3355,080 47 71,385

3366,000 49

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrtica F Sig.

El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variablesatisfaccin con el trabajo no existen diferencias significativas entre las medias de lostres grupos de tipo de hospital; privados, geritricos y universitarios.

Comparaciones mltiple s

Variable dependiente: Satisfaccin con el trabajo (%)

HSD de Tukey

-1,10 2,821 ,920 -7,92 5,73

-,40 2,976 ,990 -7,60 6,80

1,10 2,821 ,920 -5,73 7,92,70 3,049 ,972 -6,68 8,08

,40 2,976 ,990 -6,80 7,60

-,70 3,049 ,972 -8,08 6,68

(J) Tipo Hospitalgeritricos

universitarios

privadosuniversitarios

privados

geritricos

(I) Tipo Hospitalprivados

geritricos

universitarios

Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or

Lmitesuperior

Intervalo de confianza al95%

La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existendiferencias significativas entre los grupos ( de a pares )

p)La prueba entrega los descriptivos bsicos de la variable satisfaccin con el sueldo parala muestra por tipo de hospital

Descriptivos

Satisfaccin con el sueldo (%)

19 45,79 15,343 3,520 38,39 53,18 2 66

17 54,65 15,301 3,711 46,78 62,51 27 76

14 61,71 15,696 4,195 52,65 70,78 36 90

50 53,26 16,462 2,328 48,58 57,94 2 90

privados

geritricos

universitarios

Total

N MediaDesviacin

tpic a Erro r tpico Lmi te inferi or Lmite

superior

Intervalo de confianza parala media al 95%

Mnimo Mximo



,120 2 47 ,887

Estadstico

de Levene gl1 gl2 Sig.


24/239

24

Para la variable satisfaccin con el sueldo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .

ANOVA


2093,723 2 1046,861 4,399 ,018

11185,897 47 237,998

13279,620 49

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrtica F Sig.

El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significanciadel 0.05 para la variable satisfaccin con el sueldo. Por lo tanto existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.

La prueba de Tukey nos muestra que existen diferencias significativas entre las mediaslos hospitales privados y geritricos y entre los geritricos y universitarios, pero entrelos privados y universitarios no existen diferencias significativas

Comparaciones mltiples

Variable dependiente: Satisfaccin con el sueldo (%)

HSD de Tukey

-8,86 5,150 ,209 -21,32 3,61-15,92* 5,434 ,014 -29,08 -2,77

8,86 5,150 ,209 -3,61 21,32

-7,07 5,568 ,419 -20,54 6,41

15,92* 5,434 ,014 2,77 29,08

7,07 5,568 ,419 -6,41 20,54

(J) Tipo Hospital

geritricosuniversitarios

privados

universitarios

privados

geritricos

(I) Tipo Hospital

privados

geritricos

universitarios


Lmitesuperior


La diferencia entre las medias es significativa al nivel .05.*.

q)La matriz de correlaciones bivariadas nos muestra que los tres indicadores no secorrelacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, porlo tanto no se rechaza Ho que establece que no hay correlacin entre las variables

Correlaciones

1 ,141 -,222

. ,329 ,122

50 50 50

,141 1 ,010

,329 . ,946

50 50 50

-,222 ,010 1

,122 ,946 .

50 50 50

Correlacin de Pearson

Sig. (bilateral)

N


Sig. (bilateral)

N


Sig. (bilateral)

N

Satisfaccin conel trabajo (%)

Satisfaccin conel sueldo (%)

Satisfaccin conoportunidades deascenso (%)

Satisfaccincon el trabajo

(%)

Satisfaccincon el sueldo

(%)

Satisfaccincon

oportunidades de

ascenso (%)


25/239

25

r)La prueba de Shapiro Wilk nos muestra que las variables satisfaccin con el sueldo ysatisfaccin con oportunidades de ascenso siguen una distribucin normal pues el nivelde significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la

distribucin se ajusta a una curva normal, en cambio la variable satisfaccin con eltrabajo no se ajusta a una distribucin normal


,154 50 ,005 ,950 50 ,033

,121 50 ,064 ,976 50 ,414

,101 50 ,200* ,974 50 ,339

Satisfaccin conel trabajo (%)

Satisfaccin conel sueldo (%)

Satisfaccin conoportunidades deascenso (%)


Kolmogorov-Smirnova

Shapiro-Wilk

Este es un lmite i nferior de la significac in verdadera.*.


Grfico Q-Q normal de Satisfaccin con el trabajo (%)

Valor observado

10090807060

3

2

1

0

-1

-2

-3


26/239


27/239

27

Estudio de caso: Premio Colegios 1

Objetivo del caso:

Utilizar herramientas de anlisis descriptivo e inferencial para conocer informacin til de launidad de anlisis, en este caso colegios y aplicar posibles criterios para asignar algn tipo debeneficio por segmentos o grupos con perfiles similares.

Enunciado del caso:

Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe enrelacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre losdiversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con unestmulo por los resultados de la prueba SIMCE de los segundos medios.

El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio deEducacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad dela educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas delcurriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden.

Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos MnimosObligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de unaprueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan undeterminado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE

2006. MINEDUC)Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2Medio del 2006. Algunas de las variables de inters son:

VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR

Idest Identificador del establecimiento

Regin Nombre de la Regin

Comuna Nombre de la comuna

ddca Dependencia CP: Corporacin PrivadaMC; Corporacin Municipal

MD; DAEM (Departamento deAdministracin de EducacinMunicipal)

PP: Particular Pagado

PS: Particular Subvencionado

TP

1PCaso elaborado por Sara Arancibia


28/239

28

ruralida Caracterizacin del establecimiento 1= Rural

2=Urbano

socioeconmico Grupo socioeconmico del

establecimiento

A Bajo

B Medio BajoC Medio

D Medio Alto

E Alto

prom_len Promedio puntaje de lenguaje

prom_mat Promedio puntaje de matemticas

Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto conlos expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas ydefinir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegiosque se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegioscon puntajes promedios mayores o iguales al percentil 75 (para cada grupo).Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimientodefinido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural

y UrbanoLos grupos homogneos definidos por el grupo experto son,1: Municipal y Rural

2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano

Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con losexpertos para crear los grupos de colegios homogneos e identificar cules son losestablecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona(Norte, Central y Sur). Adems debe determinar si existen diferencias significativas entre lostipos de colegios y por dependencia

Para realizar su anlisis deber realizar las siguientes etapas:

1. Limpiar y ordenar la base de inters para el anlisisa) Crear la variable Dependencia considerando slo tres categoras:

Municipalizado, Privado y Subvencionadob) Crear la variable zona considerando Zona Norte, Centro y Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje


29/239

29

d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.

e) Determinar para cada grupo el percentil 75.

f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.

2. Realizar un anlisis descriptivo de los datosa) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu

porcentaje representan del total? Qu tipo de dependencia se observa con mayor ymenor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia?b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250puntos; entre 251 y 300 puntos y superior a 300 puntosc) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de losMunicipalizados y Rurales?d) Qu porcentaje representa el total de colegios premiados respecto al total decolegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Quporcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiadosson de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu

porcentaje del total son premiados y del Sur?

e) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural yurbana?. Realice un grfico que permita observar la forma de la distribucin de lospuntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems undiagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar?

f) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano

g) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de ladistribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, ymuestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo.

h) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.

i) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.

3. Realizar pruebas de hiptesis

Asuma que la base de datos corresponde a la poblacin de todos los colegios que dieron la SIMCE

en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegiosconsiderados y realice pruebas de hiptesis que permita responder las siguientes preguntas.


30/239

30

a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?b) Existen diferencias significativas entre los puntajes promedios de Matemticas pordependencia?c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Siexiste relacin determine si la relacin es alta, moderada o dbil.

4. Concluira) Realice resumidamente un anlisis descriptivo bsico para los colegios premiados usandomedidas de tendencia central y medidas de dispersin.

b) Sintetizar sus comentarios acerca de los vnculos que explica.c) Sugiera otra alternativa para determinar cmo premiar a los colegios por su rendimiento enla prueba SIMCE.

DESARROLLO:

1. Limpiar y ordenar la base de inters para el anlisis

a) Crear la variable Dependencia considerando slo tres categoras:Municipalizado, Privado y SubvencionadoEn primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con

formato cadena o string. Recodificaremos automticamente y luego llevaremos las cincocategoras slo a tres categoras.Para esto ir al Men: Transformar/ recodificacin automtica

Old Value New Value Value Label

CP 1 Corporacin PrivadaMC 2 Corporacin MunicipalMD 3 DAEMPP 4 Particular PagadoPS 5 Particular Subencionado

Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM enMunicipalizado y las categoras Corporacin Privada y Particular pagado en PrivadoPara esto ir al Men: Transformar/Recodificar en distinta variable

AUTORECODEVARIABLES=ddcia /INTO depend/PRINT.


31/239

31

En definicin de la variableAsignar etiquetas de valor a los cdigos 1 al 31= Municipalizado2=Privado3=Subvencionado

b) Crear la variable zona considerando Zona; Norte, Centro y SurEn primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificarautomticamente.Men: Transformar/Recodificacin automtica

En el visor de resultados se puede observar los cdigos de cada categora

Old Value New Value Value Label

Regin de Aisn del General 1 Regin de Aisn del GeneralCarlos Ibaez del Campo 1 Carlos Ibaez del CampoRegin de Antofagasta 2 Regin de AntofagastaRegin de Atacama 3 Regin de AtacamaRegin de Coquimbo 4 Regin de CoquimboRegin de la Araucana 5 Regin de la Araucana

Regin de Los Lagos 6 Regin de Los LagosRegin de Magallanes y de la 7 Regin de Magallanes y de laAntrtica Chilena 7 Antrtica ChilenaRegin de Tarapac 8 Regin de TarapacRegin de Valparaso 9 Regin de ValparasoRegin del Biobo 10 Regin del BioboRegin del Libertador General 11 Regin del Libertador GeneralBernardo O' Higgins 11 Bernardo O' HigginsRegin del Maule 12 Regin del MauleRegin Metropolitana 13 Regin Metropolitana

Para crear las categoras de zona se recodificar en distintas variables

AUTORECODEVARIABLES=region /INTO reg/PRINT

RECODEdepend(4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia .

VARIABLE LABELS dependencia 'Tipo de dependencia'.

EXECUTE .


32/239

32

Men: Transformar/Recodificar en distinta variable

En definicin de variables1= Norte2= Centro3= Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje

Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String ocadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiaren vista de variables el tipo String a numrico.

Para crear la variable puntprom seleccione Men: Transformar/CalcularVariable destino: puntpromTipo: numricoEtiqueta: Promedio de Matemticas y LenguajeExpresin: MEAN(prom_len,prom_mat)

d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.

Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida acdigo numrico con nombre caractDondecaract=1 Ruralcaract=2 Urbano

Men: Transformar/Recodificacin automtica

RECODEregion(1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona .

VARIABLE LABELS zona 'zona'.EXECUTE .

COMPUTE puntprom = MEAN(prom_len,prom_mat) .VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje ymatemticas.EXECUTE .

AUTORECODEVARIABLES=ruralida /INTO caract/PRINT.


33/239

33

Ahora formamos los seis grupos segn criterio dado

Luego en la definicin de variables en valores se define:1: Municipal y Rural

2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano

e) Determinar para cada grupo el percentil 75.Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Men:Analizar/Frecuencias [Estadsticos]: Percentil 75

No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos.

f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.

Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)

Creacin de la variable grupo*** Sintaxis Grupo ***.

IF (dependencia = 1 & caract = 1) grupo = 1 .IF (dependencia = 1 & caract = 2) grupo = 2 .IF (dependencia = 2 & caract = 1) grupo = 3 .IF (dependencia = 2 & caract = 2) grupo = 4 .IF (dependencia = 3 & caract = 1) grupo = 5 .IF (dependencia = 3 & caract = 2) grupo = 6 .

SORT CASES BY grupo .SPLIT FILE

LAYERED BY grupo .

FREQUENCIESVARIABLES=puntprom /FORMAT=NOTABLE/PERCENTILES= 75/ORDER= ANALYSIS .


34/239

34

En definicin de variables se agrega la etiqueta de valor1=SI0=NO

2. Grficos

a) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano

Para realizar esta grfica se seleccionaMen: Grafico/barras/Para distintas variables/Agrupado

Estadsticos

puntaje promedio entre lenguaje y matemticas

68

0

225,6250

587

0

246,0000

19

0

322,0000

388

0

324,0000

86

0

246,3750

1171

0

286,0000

Vlidos

Perdidos

N

75Percentiles

Vlidos

Perdidos

N

75Percentiles

Vlidos

Perdidos

N

75Percentiles

Vlidos

Perdidos

N

75Percentiles

Vlidos

Perdidos

N

75Percentiles

Vlidos

Perdidos

N

75Percentiles

Municipalizado y Rural

Municipalizado y Urbano

Privado y Rural

Privado y Urbano

Subvencionado y Rural

Subvencionado y Urbano

*** Sintaxis Premio ***.

IF (grupo = 1 & puntprom >= 225.625) premio = 1 .IF (grupo = 1 & puntprom < 225.625) premio = 0 .IF (grupo = 2 & puntprom >= 246) premio = 1 .IF (grupo = 2 & puntprom < 246) premio = 0 .IF (grupo = 3 & puntprom >= 322.5) premio = 1 .IF (grupo = 3 & puntprom < 322.5) premio = 0 .

IF (grupo = 4 & puntprom >= 324) premio = 1 .IF (grupo = 4 & puntprom < 324) premio = 0 .IF (grupo = 5 & puntprom >= 246.375) premio = 1 .IF (grupo = 5 & puntprom < 246.375) premio = 0 .IF (grupo = 6 & puntprom >= 286) premio = 1 .IF (grupo = 6 & puntprom < 286) premio = 0 .

VARIABLE LABELS premio 'premio (SI=1, NO=0)' .EXECUTE .

GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia/MISSING=LISTWISE .


35/239

35

Del grfico se observa que tanto para lenguaje como para matemticas los colegiosprivados tiene mejores resultados observndose sin embargo diferencias en casi 15puntos a favor del promedio de matemticas. Los colegios subvencionados presentanpuntajes intermedios si comparamos los privados y los municipalizados con puntajes entorno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor delpuntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajespromedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favorde lenguaje.Para responder a la pregunta si existen diferencias en los puntajes de lenguaje pordependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados

seleccionando resmenes para grupos de casos.

SubvencionadoPrivadoMunicipalizado

Tipo de dependencia

300

200

100

0

Media

256,9

306,1

226,6

259,5

291,3

235,5

prom_mat

prom_len

Media de puntajes de lenguaje y matemticas por dependencia

GRAPH

/BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract


36/239

36

Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana,notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajoen los colegios rurales en relacin a los colegios urbanos.Para comparar el comportamiento en los resultados de ambas pruebas por dependenciaentre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dospaneles. Para esto vamos aMen: Grficos/ barras agrupadas/ resumen para distintas variables


Tipo de dependencia

300

250

200

150

100

50

0

Me

diaprom_

len

261,4

292,2

237,1 234

272,9

221,3

Urbano

Rural

Caracterizacin delestablecimiento

Media de puntajes promedios en lenguaje por dependencia agrupados porcaracterizacin Rural y Urbano

GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY

dependencia/PANEL ROWVAR=caract ROWOP=CROSS/MISSING=LISTWISE .


37/239

37

El grfico nos muestra un comportamiento muy similar por dependencia entre losurbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en loscolegios privados, los puntajes intermedios en los subvencionados y los puntajes msbajos en los municipalizados.En todos los casos los urbanos presentan mayor puntaje promedio si se compara con lospuntajes de los colegios rurales.

g) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.

Para esto realizaremos un diagrama de cajas por grupo.Men: Analizar/ Explorar/grficos

Urbano

Rural

Caracterizacindelestab

lecimiento


Tipo de dependencia

300

200

100

0

Media

300

200

100

0

Media

224,7

286,8

210,6234

272,9

221,3

259,3

307

228,5261,4

292,2

237,1

prom_mat

prom_len

Media de puntajes de lenguaje y matemticas por dependencia para colegiosurbanos y rurales

EXAMINEVARIABLES=puntprom BY grupo/PLOT BOXPLOT HISTOGRAM/COMPARE GROUP/STATISTICS NONE/CINTERVAL 95

/MISSING LISTWISE/NOTOTAL.


38/239

38

Subvencionadoy Urbano

Subvencionadoy Rural

Privado yUrbano

Privado y RuralMunicipalizadoy Urbano

Municipalizadoy Rural

Grupo

350

300

250

200

PuntajeSIMCEpromedio

1097

1657

1684

2173

2174

2176

853

1301

285

2175

Puntajes promedios SIMCE por grupo de colegios

Del grfico se puede apreciar que los mayores puntajes se concentran en los colegiosprivados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa

que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puedever que los puntajes ms bajos se concentran en los colegios municipalizados y ruralespresentando la menor de las medianas y es el grupo que presenta la menor variabilidaden los puntajes, es decir son bastante homogneos en cuanto al resultado promedioSIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que elgrupo de municipalizados urbanos a pesar de tener la mayora de los colegiosconcentrados en puntajes bajos es el nico grupo que presenta varios colegios conpuntajes atpicos y un extremo en la parte alta de puntajes. Respecto a lossubvencionados se ve clara diferencia entre los urbanos y rurales donde hay unamarcada diferencia a puntajes ms bajos en los colegios rurales.

Para obtener el diagrama de cajas para los premiados, primero se selecciona a loscolegios que obtuvieron premio y una vez filtrada la base se procede a realizar lagrfica.

USE ALL.COMPUTE filter_$=(premio = 1).VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .


39/239

39

Es claro que la posicin de cada grupo en general se mantiene en relacin a la grficaanalizada anteriormente. Los puntajes de los premiados con mayor puntaje seconcentran en los privados, observndose muy concentrados, bastante homogneosentre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en

los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana delgrupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados esel que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajesatpicos superiores en el rango de puntajes del grupo de los privados. El 50% de loscolegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75)del grupo de municipalizados urbanos se comporta de una manera muy similar a loscolegios que se encuentran en la caja del rango intercuartil del grupo de subvencionadosrurales. Se observa ms notoriamente la diferencia en los puntajes de los colegiospremiados que pertenecen al grupo de los subvencionados rurales y los que pertenecena los subvencionados urbanos.

Subvencionadoy Urbano

Subvencionadoy Rural

Privado yUrbano

Privado y RuralMunicipalizadoy Urbano

Municipalizadoy Rural

Grupo

360

340

320

300

280

260

240

220

PuntajeSIMCEpro

medio

1097

2190

2175

2173

2174

2169

2172

285

Puntaje promedio para los colegios premiados por grupo de colegios

Si consideramos la base de datos como si fuera la poblacin de colegios que rinde laSIMCE, podramos decir que claramente se observa diferencias significativas entre lasmedias de puntajes entre los diferentes grupos de colegios.


40/239

40

3. Pruebas de hiptesis

Asuma que la base de datos corresponde a la poblacin de todos los colegios que rindieron laprueba SIMCE en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20%

de los colegios considerados y realice pruebas de hiptesis que permita responder lassiguientes preguntas.En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Men: Seleccionar/Muestra aleatoria de datos

a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado quees una prueba paramtrica veremos previamente si se verifica la normalidad de la variablepuntprom en ambos grupos Rural y Urbano.Men: Analizar/ Explorar/ Grficos con prueba de normalidad


,201 45 ,000 ,797 45 ,000

,078 425 ,000 ,964 425 ,000

Caracterizacin delestablecimientoRural

Urbano

puntaje promedio entrelenguaje y matemticas


Kolmogorov-Smirnova

Shapiro-Wilk


Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegiosrurales como urbanos se rechaza la hiptesis nula de normalidad, donde H 0: La variablepuntaje promedio distribuye normalSin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos siexisten valores extremos o atpicos y los filtraremos segn sea la cantidad 2, para luegosolicitar el coeficiente de asimetra. Si ste est cerca de cero se considerar que ladistribucin es simtrica y en consecuencia se podr aplicar la prueba T.

Si son muchos los casos extremos y atpicos seguramente la distribucin no ser simtrica y nopodramos aplicar la prueba T2

EXAMINEVARIABLES=puntprom BY caract /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES EXTREME/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

Sintaxis

USE ALL.COMPUTE filter_$=(uniform(1)


41/239

41

Para lo anterior consideremos el diagrama de cajas que se seleccion en el men explorar enla sintaxis anterior.

En la grfica se puede apreciar que hay valores atpicos y extremos en el grupo de colegiosrurales. Al editar la grfica se puede ver que dentro de los extremos aparecen trespromedios extremos con identificacin 1171, 754 y 760

Adems se puede apreciar dos atpicos con identificacin, 1190, 1195Filtremos estos cinco valores y verifiquemos si se cumple la asimetra

Men: Datos/Seleccionar casos

UrbanoRural

Caracterizacin del establecimiento

350,00

300,00

250,00

200,00

puntajepromed

ioentrelenguajeymatemticas

1190,00

1195,00

760,00

Media de puntajes promedios SIMCE por caracterizacin Rural y Urbano

USE ALL.COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest~= 1195).VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 &Idest ~= 1195 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.

FORMAT filter_$ (f1.0).FILTER BY filter_$.


42/239


43/239

43

Estadsticos de grupo

40 216,2125 16,63827 2,63074

425 260,4612 39,08043 1,89568

Caracterizacin delestablecimientoRural

Urbano

puntaje promedio entrelenguaje y m atemticas

N MediaDesviacin

tp.Error tp. de

la media

Prueba de muestras independientes

42,153 ,000 -7,095 463 ,000 -44,24868 6,23655 -56,50412 -31,99323

-13,646 87,838 ,000 -44,24868 3,24259 -50,69281 -37,80454

Se han asumidovarianzas iguales

No se han asumidovarianzas iguales

puntaje promedio entrelenguaje y matemticas

F Sig.

Prueba de Levene

para la igualdad devarianzas

t gl Sig. (bilateral)

Diferencia

de medias

Error tp. de

la di ferenc ia Infer ior Sup erior


diferencia

Prueba T para la igualdad de medias

En la tabla de estadsticos de grupo se observa el nmero de casos por cada grupo en lamuestra y la media y dispersin del puntaje promedio para los datos de la muestra decolegios.La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado dela prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia esmenor a 0,05 se rechaza la hiptesis nula.

2

2

2

10 :H que indica que la varianza del puntaje promedio para el grupo Rural no difierede la varianza del puntaje promedio para el grupo Urbano.Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila dela tabla.

Dado que la significancia es menor a 0,05 se rechaza la hiptesis nula de igualdad de medias210 :H que indica que no hay diferencias significativas en las medias del promedio de

puntajes SIMCE para el grupo Rural y Urbano.Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media delos promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con unnivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95%para la diferencia de medias. En este caso la diferencia de medias para los promedios depuntajes entre los colegios urbanos y rurales est entre 38 puntos y 51 puntosaproximadamente con un 95 % de confianza.

b) Existen diferencias significativas entre las medias de los puntajes promedios deMatemticas por dependencia?

La variable dependencia es una variable nominal con tres categoras. Por tanto se trata de unaPrueba ANOVA de un factor, donde la hiptesis nula es 3210 :H es decir, las medias de los puntajes promedios de matemticas de los colegios municipalizados,privados y subvencionados no difieren significativamente entre s.

Previamente verificaremos la hiptesis de normalidad. Dado que la prueba es robusta adesviaciones de la normalidad por lo menos se debe verificar que los datos se comportan demanera simtrica.

Para verificar la normalidad, solicitamos la prueba de K-S en;


44/239

44

Men: Analizar/ Explorar/ Grficos

Se obtiene la tabla con la prueba K-S


,083 128 ,032 ,947 128 ,000

,120 82 ,005 ,948 82 ,002

,072 260 ,002 ,972 260 ,000

Tipo de dependenciaMunicipalizado

Privado

Subvencionado

prom_matEstadstico gl Sig. Estadstico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk


Claramente se observa que la variable puntaje de matemticas no distribuye normal en ninguno delos grupos de dependencia.Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo dedependencia.


Tipo de dependencia

400

350

300

250

200

150

prom_

mat

250,00

661,00

575,00

Media de puntajes promedios de matemticas por dependencia

EXAMINEVARIABLES=prom_mat BY dependencia /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT

/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.


45/239

45

Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay trescolegios con valores atpicos, cuya identificacin corresponden a 250, 661 y 575.

Filtraremos estos valores

Men: Datos/ seleccionar

Ahora veamos los coeficientes de asimetra para comprobar que los datos distribuyen enforma simtrica en cada grupo.Men: Datos/ Segmentar archivo/ Frecuencias

Estadsticos

prom_mat

125

0

,309

82

0

-,592

260

0

,102

Vlidos

Perdidos

N

Asim etra

Vlidos

Perdidos

N

Asim etra

Vlidos

Perdidos

N

Asim etra

Municipalizado

Privado

Subvencionado

Se puede apreciar que los coeficientes de asimetra son cercanos a cero y por tanto podemosconsiderar las distribuciones simtricas para cada grupo de dependencia.Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos loscasos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor

USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575).VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

SORT CASES BY dependencia .SPLIT FILE

LAYERED BY dependencia .FREQUENCIES

VARIABLES=prom_mat /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .

ONEWAYprom_mat BY dependencia/STATISTICS DESCRIPTIVES HOMOGENEITY

/MISSING ANALYSIS .


46/239


47/239

47

Comparac iones mltiples

Variable dependiente: prom_mat

Games-Howell

-84,934* 4,824 ,000 -96,39 -73,48

-36,050* 3,371 ,000 -43,98 -28,12

84,934* 4,824 ,000 73,48 96,39

48,884* 5,206 ,000 36,56 61,21

36,050* 3,371 ,000 28,12 43,98

-48,884* 5,206 ,000 -61,21 -36,56

(J) Tipo de dependenciaPrivado

Subvencionado

Municipalizado

Subvencionado

Municipalizado

Privado

(I) Tipo de dependenciaMunicipalizado

Privado

Subvencionado

Diferencia de

medias (I-J) Error tpico Sig. Lmi te inferi or

Lmite

superior



Dado que todas las significancias son menores a 0,05 se puede concluir que existendiferencias significativas en los puntajes promedios de matemticas entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza

para la diferencia de medias poblacionales del puntaje promedio de matemticas para cadapar de grupos considerados en el anlisis con un 95% de confianza.

c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?Repitiendo el mimo procedimiento para los puntajes de matemticas se realiza un diagrama decaja para ver los atpicos en los puntajes de lenguaje por dependencia obteniendo que existendos atpicos en el grupo de municipalizados y un caso atpico en los privados


Tipo de dependencia

300

250

200

prom_

len

54,00

661,00

250,00

Media de los puntajes promedio de lenguaje por dependencia


48/239

48

Se filtran para luego pedir el coeficiente de asimetra.

Estadsticos

prom_len

126

0

,445

81

0

-,535

260

0-,024

Vlidos

Perdidos

N

Asim etra

Vlidos

Perdidos

N

Asim etra

Vlidos

Perdidos

N

Asim etra

Municipalizado

Privado

Subvencionado

Se puede observar que la variable puntaje promedio de lenguaje distribuye en formasimtrica en los tres grupos de dependencia pues los tres coeficientes de asimetra estncercanos a cero. Por tanto podemos aplicar la prueba ANOVA.Previamente consideramos todos los casos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor

En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hiptesis nulaes 23

2

2

2

10 :H . Es decir no existen diferencias significativas en la variabilidad delpuntaje promedio de lenguaje entre los tres grupos de dependencia


prom_len

29,956 2 464 ,000

Estadsticode Levene gl1 gl2 Sig.

USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54).

VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .


LAYERED BY dependencia .FREQUENCIES

VARIABLES=prom_len /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .

ONEWAYprom_len BY dependencia

/STATISTICS DESCRIPTIVES HOMOGENEITY/MISSING ANALYSIS .


49/239

49

De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hiptesisnula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exigeque se cumpla la hiptesis anterior).En este caso veremos la prueba de Welch, que representa una alternativa robusta alestadstico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en

Opciones activamos Welch, donde la hiptesis nula correspondiente es 3210 :H

Pruebas robustas de igualdad de las medias

prom_len

183,227 2 208,914 ,000WelchEstadstico

agl1 gl2 Sig.

Distribuidos en F asintticamente.a.

De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis de

igualdad de medias y en consecuencia hay diferencias significativas entre las medias delpuntaje promedio de lenguaje por dependencia.

Para conocer entre qu grupos de dependencia hay diferencias, solicitamos enPost-Hoc la opcin de Games-Howell que es un mtodo que se basa en la distribucin del rangoestudentizado y en un estadstico T. Es el mejor mtodo que permite controlar la tasa deerror en diferentes situaciones.

Comparac iones mltiples

Variable dependiente: prom_len

Games-Howell

-58,521* 3,265 ,000 -66,27 -50,77

-27,955* 2,396 ,000 -33,59 -22,32

58,521* 3,265 ,000 50,77 66,27

30,566* 3,452 ,000 22,40 38,74

27,955* 2,396 ,000 22,32 33,59

-30,566* 3,452 ,000 -38,74 -22,40

(J) Tipo de dependenciaPrivado

Subvencionado

Municipalizado

Subvencionado

Municipalizado

Privado

(I) Tipo de dependenciaMunicipalizado

Privado

Subvencionado


Lmitesuperior



Dado que todas las significancias son menores a 0,05 se puede concluir que existen

diferencias significativas en los puntajes promedios de lenguaje entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianzapara la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par degrupos considerados en el anlisis con un 95% de confianza.

d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?.

Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestrasrelacionadas, donde la hiptesis nula corresponde a 0: 210H es decir la diferenciade las medias poblacionales del puntaje promedio de matemticas y de lenguaje es cero.

4Tanto el estadstico de Welch como el de Brown- Forsythe se distribuyen segn el modelo de

probabilidad F, pero con grados de libertad corregidos


50/239

50

Previamente segmentaremos por dependencia.

Calcularemos la variable diferencia entre ambos puntajes difpunt. Luego veremos si ladiferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba Tpara muestras independientes es robusta a desviaciones de la normalidad, por tanto bastarafiltrar los casos extremos o atpicos si es que la cantidad es marginal y luego probar que essimtrica.Men; Transformar/CalcularLuego de calcular la diferencia se procede a verificar si distribuye normalMen; Analizar/ Explorar/ grficos

Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad dela variable diferencia entre los puntajes, en consecuencia se verifica la hiptesis de la prueba Tpara muestras relacionadas.Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a

una distribucin normal.

Pruebas de normalidadb

,053 128 ,200* ,995 128 ,942difpuntEstadstico gl Sig. Estadstico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Este es un lmite inferior de la significacin verdadera.*.


Tipo de dependencia = Municipalizadob.

Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante auna distribucin normal .

COMPUTE difpunt = prom_mat - prom_len .EXECUTE .

EXAMINEVARIABLES=difpunt /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.


SEPARATE BY dependencia .


51/239

51

20,0010,000,00-10,00-20,00-30,00-40,00-50,00

difpunt

25

20

15

10

5

0

Frecuencia

Mean = -9,8125Std. Dev. = 12,76792N = 128

Tipo de dependencia= Municipalizado

Histograma

Pruebas de normalidadb

,097 82 ,054 ,978 82 ,173difpuntEstadstico gl Sig. Estadstico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk


Tipo de dependencia = Privadob.

60,0040,0020,000,00-20,00-40,00

difpunt

20

15

10

5

0

Frecuencia

Mean = 16,6585Std. Dev. = 17,67276N = 82

Tipo de dependencia= Privado

Histograma


52/239


53/239

53

En primer lugar se aprecia la tabla con estadsticos bsicos de la muestra para colegios condependencia municipalizado, mostrando que las medias muestrales tienen una diferencia deaproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje.

Correlaciones de muestras relacionadasa

128 ,873 ,000prom_mat y prom_lenPar 1N Correlacin Sig.

Tipo de dependencia = Municipalizadoa.

La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemticas yde lenguaje se correlacionan linealmente, con una fuerza de asociacin positiva alta

Prueba de muestras relacionadasa

-9,813 12,768 1,129 -12,046 -7,579 -8,695 127 ,000prom_mat - prom_lenPar 1

MediaDesviacin

tp.Error tp. de

la media Inferior Superior


diferencia

Diferencias relacionadas

t gl Sig. (bilateral)

Tipo de dependencia = Municipalizadoa.

De la prueba T para muestras relacionadas, se rechaza la hiptesis nula de igualdad de medias(diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferenciassignificativas entre el promedio de matemticas y el promedio de lenguaje para los colegiosmunicipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95%de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemticas

y la diferencia est entre aproximadamente 7,5 puntos y 12 puntos.De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios condependencia privado y subvencionado, obtenindose en ambos casos diferencias significativas

entre los promedios de matemticas y lenguaje.

e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Si existerelacin determine si la relacin es alta, moderada o dbil.Ambas variables pueden ser consideradas como nominales. En este caso la hiptesis nula a probaresH0: Las variables grupo socioeconmico del establecimiento es independiente de la dependenciadel colegio.En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto lafrecuencia observada y la frecuencia esperada.


54/239

54

Tabla de contingencia Grupo Socioeconmico del establecimie nto * Tipo de depen dencia

56 2 40 98

26,7 17,1 54,2 98,0

57 9 53 119

32,4 20,8 65,8 119,0

13 1 101 115

31,3 20,1 63,6 11

03 Estudios de Casos MGPP 2012

Documents

Transcript of 03 Estudios de Casos MGPP 2012