03 Estudios de Casos MGPP 2012

download 03 Estudios de Casos MGPP 2012

of 239

Transcript of 03 Estudios de Casos MGPP 2012

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    1/239

    1

    UNIVERSIDAD DE CHILE

    MAGISTER EN GESTION Y POLITICASPBLICAS

    EESSTTAADDSSTTIICCAAAAPPLLIICCAADDAAYYEECCOONNOOMMEETTRRAA

    AAPPLLIICCAACCIIOONNEESSDDEESSPPSSSS

    Profesora : Sara Arancibia C.Profesora Auxiliar: Carlos Andrade G

    Primer Semestre 2012

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    2/239

    2

    FORMULAS PARA TRIUNFAR

    LA FORMULA BSICA. Los investigadores se han dedicado a averiguar cul ha sido la idea, elsecreto que ha llevado al triunfo a los grandes personajes de la historia.Y han encontrado una

    frmula que todos los triunfadores practicaron, y sin la cual no habran llegado a ser grandesni famosos. Esta frmula consiste en los siguientes cinco puntos:

    a) Dirigir el pensamiento hacia una meta fijaque se desea conseguir. Saber bien cul esesa meta que se desea alcanzar y no desviar la atencin de ella.

    b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que seva siguiendo da por da, y que hace que nuestra actividad sea organizada y llena deentusiasmo.

    c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo

    ardiente es el ms importante motivador de las acciones. El deseo de lograr xitosconsigue la costumbre de conseguir xitos.

    d) Adquirir una confianza grande en s mismo; confianza en las propias capacidades yhabilidades para lograr el xito, concedindole muchsima mayor importancia a lascualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota.

    e) Dedicarse a una accin tenaz e incansable para lograr obtener la meta que se buscaconseguir, sin desanimarse por los obstculos, las crticas, las circunstancias adversas, olo negativo que los dems piensen, hagan o digan. Esa energa concentrada hacia laconsecucin de una meta, trae enormemente las oportunidades, las cuales no se dejan

    atrapar por los que estn sin hacer nada, pero se acercan generosamente a quienes seatreven a atacar, a trabajar fuertemente por conseguir el xito.

    Esta frmula bsica Meyer la llam El plan del xito personal a base de automotivacin,

    para desarrollar al mximo el potencial de cada uno.

    Meyer resume la frmula bsica en la siguiente frase:

    Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente

    creamos, y entusiastamente emprendamos, de una manera impresionantemente

    favorable se transformar en algo placentero y beneficioso para nosotros

    (Elicer Salesman. 100 Frmulas para llegar al xito)

    Si una de tus metas es APRENDER aplica esta frmula y comienza con la mente abierta.La cualidad ms importante que afectar tu xito en el curso es tu ACTITUD. stadeterminar lo que ests dispuesto a hacer en el curso, y la calidad de ese esfuerzocontribuir de la manera ms significativa a tu xito.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    3/239

    3

    Contenido

    I Anlisis Inicial de los datos y repaso de herramientas de SPSS.

    II ANOVA de un factor.

    Caso Enfermeras-

    Caso Premio colegios ( SIMCE)

    III Anlisis de regresin simple y modelos lin-log y log-lin

    IV Anlisis de regresin mltiple

    V Modelos de regresin mltiple con variables cualitativas (dummy)

    VI Anlisis de regresin logstica

    VII Anlisis factorial

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    4/239

    4

    I Anlisis Inicial de los datos

    Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mximapreocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe unaetapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de losdatos recabados.La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un granavance en la consecucin de resultados lgicos consistentes. Dichos problemas se puedensubsanar comenzando por una inspeccin visual de las representaciones grficas de los datos,completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidosbajo la denominacin de outliers) y finalizando con la comprobacin de que se cumplen ciertashiptesis de partida: en el caso de anlisis multivariable nos referimos a; normalidad, linealidad yhomocedasticidad, supuestos subyacentes en todos los mtodos multivariantes.

    Representaciones grficas para el anlisis de datos

    La difusin experimentada en los ltimos aos por los programas estadsticos ha facilitando laincorporacin de mdulos especficamente diseados para la inspeccin grfica de los datos.

    El estudio de cada variable es fundamental para conocer sus caractersticas y comprobar si esoportuna y relevante su inclusin en el anlisis. Para ello se aconseja observar la forma de sudistribucin. Esto se consigue mediante el histograma, que representa grficamente los datosmostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluarla normalidad de la variable, se efectuar superponiendo la curva normal sobre la distribucin orealizando grficos P-P o Q-Q.

    Mediante el grfico de dispersin se podr examinar la relacin entre dos o ms variables. Setrata de un grfico de puntos de datos basados en dos variables, representadas una en el ejehorizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una lnea recta sedebe a la existencia de correlacin lineal. Si los puntos siguen distintas formas la relacin nopodr calificarse de lineal. La inexistencia de relacin se podr constatar si la nube de puntos esaleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podr determinar medianteuna prueba de hiptesis si la correlacin entre dos variables de escala es significativa).

    Mediante el grfico de cajas o boxplot se puede llevar a cabo un anlisis de las diferencias entregrupos, si lo que se pretende es apreciar la existencia de dos o ms grupos en una variablemtrica, como ocurre en el anlisis discriminante o en el anlisis de la varianza. Este grficodistribuye los datos de tal forma que los lmites superior e inferior de la caja marcan loscuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercercuartil; as, la caja contiene el 50 por ciento de los datos centrales de la distribucin. La medianase representa mediante una lnea dentro de la caja. Existir asimetra si la mediana se aproximaal final de la caja. El tamao de la caja depender de la distancia entre las observaciones.Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unaslneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos sepueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    5/239

    5

    Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable deleje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valoresextremos para la categora o variable.Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representacada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin

    vienen definidos por una variable de definicin distinta.

    OtraNegraBlanca

    Raza del encuestado

    20

    15

    10

    5

    0

    N

    merodeaosdeescolarizacin

    693

    688

    765

    960

    961

    1.404

    804

    634

    718

    1.448

    695

    244

    620

    596

    621

    821

    735

    Mujer

    Hombre

    Sexo del encuestado

    Aos de escolarizacin por raza agrupados por sexo

    OtraNegraBlanca

    Raza del encuestado

    20

    15

    10

    5

    0

    Nmerodeaosdeescolarizacin

    1.476

    634

    718

    691

    702

    693

    688

    899

    1.366

    244

    620

    596 765

    735

    Aos de escolarizacin por raza

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    6/239

    6

    Deteccin de variables con categoras mal codificadas

    En muchos archivos de datos se detectan problemas en variables nominales con categoras enformato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizartablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin,

    como por ejemplo la variable sexo podra presentar problemas si las categoras estn maldigitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tablade frecuencia aparecern como categoras diferentes. Para solucionar este problema serecomienda recodificar automticamente asignndole a las categoras de la variable un cdigonumrico y luego con recodificar en distinta variable asignar correctamente los cdigos.

    Anlisis de datos ausentes

    En este proceso de depuracin de datos (anterior a la utilizacin de los mtodos multivariables)el analista debe ser consciente de que se enfrenta a una informacin que puede no existir endeterminadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing

    values. El porqu de la existencia de datos ausentes puede deberse a distintas razones comoerrores al codificar los datos e introducirlos en el computador, fallas del encuestador alcompletar el cuestionario, negacin del encuestado a responder ciertas preguntas calificadas decontrovertidas Razones comunes y muy habituales en todo proceso investigador.

    El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en losresultados y sus efectos en el tamao de la muestra disponible para el anlisis, dado que estaausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesariodepurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos tericos de lainvestigacin no se alteran sustancialmente, una opcin sera suprimir aquellas variables y/o casosque peor se comportan respecto a los datos ausentes. En este caso el investigador deber

    sopesar lo que gana con la exclusin de esta informacin y lo que pierde al no contarposteriormente en el anlisis multivariante con la misma. Mediante este proceder se asegura deque su matriz de datos est completa y posee observaciones vlidas.

    Otra posibilidad sera la estimacin de valores ausentes empleando relaciones conocidas entrevalores vlidos de otras variables y/o casos de la muestra. Por tanto, se tratara de imputar osustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) enbase a otra informacin existente en la muestra.Un porcentaje bajo de valores missing no es un problema que influya decisivamente en losresultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el anlisis.No existe una estimacin respecto al porcentaje de missing que produce dificultades en unamuestra determinada.Segn Tabachnik y Fidell (1983) ms importante que el nmero de valores missing es laexistencia de un patrn de comportamiento en stos. En efecto, la presencia de missing que sedistribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemticaasociada a ciertas variables puede generar distorsin en los resultados.

    La existencia de datos ausentes nunca debe impedir la aplicacin del anlisis multivariable olimitar la posibilidad de generalizar los resultados de una investigacin. La principal tarea delanalista consistir en identificar su presencia, y desempear las acciones necesarias paraminimizar sus efectos.

    En datos correspondientes a encuestas es habitual encontrar cdigos como los siguientes.7= No procede, 8= No sabe , 9= No contesta

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    7/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    8/239

    8

    Recodificar automticamente:

    El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y decadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las

    casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria demuchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena yotros requieren valores enteros consecutivos para los niveles de los factores.

    La nueva variable, o variables, creadas por la recodificacin automtica conservantodas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que notienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valorrecodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor.

    Los valores de cadena se recodifican por orden alfabtico, con las maysculasantes que las minsculas.

    Los valores perdidos se recodifican como valores perdidos mayores que cualquiervalor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores noperdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido parala nueva variable.

    Recodificar en la misma variable /distinta variable

    El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo,podra agrupar los salarios en categoras que sean rangos de salarios.

    El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de lasvariables existentes o agrupar rangos de valores existentes en nuevos valores para una variablenueva.

    Puede recodificar variables numricas en variables de cadena y viceversa.Si selecciona mltiples variables, todas deben ser del mismo tipo. No se

    pueden recodificar juntas las variables numricas y de cadena.

    Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, elanlisis de datos.

    Supuestos subyacentes en los mtodos multivariables

    Es lgico pensar que de una buena materia prima podremos obtener un buen producto; de igualmodo, de unos buenos datos obtendremos un buen anlisis. En este proceso de depuracin de lainformacin, el ltimo eslabn consiste en comprobar que se cumplen ciertas hiptesis de partida,puesto que asegurarn la consecucin de un anlisis multivariante ptimo. Estos anlisis secaracterizan por su gran complejidad al integrar y combinar numerosas variables que puedenproducir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible losdatos respeten ciertos supuestos.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    9/239

    9

    Normalidad

    La hiptesis de partida que debe cumplir cualquier anlisis multivariable es la normalidad de losdatos. Por tanto, el investigador debera comenzar su anlisis evaluando la normalidad de todas ycada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, elresto de tests estadsticos diferenciadores de cada tcnica multivariable no sern vlidos,puesto que se requiere la normalidad para el uso de los estadsticos de la t y de la F.

    La herramienta ms simple que sirve para diagnosticar la normalidad es el histograma,previamente explicado, mediante el cual se comparan los valores de los datos observados con ladistribucin normal. Adems de hacer esta comprobacin visual, se pueden utilizar los tests deasimetra y curtosis, disponibles en todos los programas en la parte de estadsticos descriptivosbsicos.

    Sealar que en aquellas situaciones en las que las distribuciones sean no normales ser necesariala realizacin de transformaciones de los datos.

    La condicin de distribucin normal se puede referir a una variable en particular o a un conjuntode variables. Para evaluar normalidad en una variable se estudia la forma de la distribucinmediante la prueba de Kolmogorov-Smirnov.

    Evaluar distribucin normal en un conjunto de variables simultneamente no es fcil. En primertrmino, la representacin grfica de ms de tres variables en un plano es prcticamenteimposible. En segundo lugar, condicin necesaria de normalidad multivariable es que cada variablese distribuya normalmente, sin embargo, no es condicin suficiente. En efecto, que cada variable

    separada se distribuya segn la ley normal no implica que todas juntas 10 hagan.

    En la literatura se presentan diversas pruebas elaboradas para verificar normalidadmultivariable. No obstante, los paquetes de procesamiento de informacin no han incorporadotales pruebas. En la prctica el estudio de cada variable por .separado es la nica manera deexaminar limitadamente esta materia. Para estos efectos se utilizan diversos grficos.

    Linealidad

    Nuevamente y con la intencin de resolver problemas potenciales antes de comenzar con el

    anlisis multivariable conviene examinar si las relaciones entre las variables que intervienen en elestudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de lavariable(s) dependiente(s) siempre que se produzca una modificacin en las variablesindependientes. Tcnicas estadsticas como la regresin mltiple, el anlisis factorial o lossistemas de ecuaciones estructurales se basan en medidas de correlacin. Esto significa que escondicin necesaria la existencia de asociaciones lineales entre variables para obtenercoeficientes de correlacin que las representen y ejecutar los modelos utilizando estas tcnicas.

    La relacin lineal entre dos variables se representa a travs de una lnea recta; por tanto, paracomprobar que este supuesto se cumple basta con analizar los grficos de dispersin de lasvariables e intentar identificar si los datos siguen ese trazado lineal. Otra opcin es examinar los

    residuos despus de efectuar un anlisis de regresin mltiple (como se ver en el Captulo 7),

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    10/239

    10

    dado que stos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, laparte no lineal de la relacin.

    En aquellos casos en que la consecucin de los datos sea no lineal se debe optar por transformaruna o ambas variables para conseguir la linealidad. Un procedimiento vlido es efectuar

    transformaciones mediante la utilizacin de la raz cuadrada, o bien crear una nueva variable,denominada polinmica, que represente la parte no lineal de la relacin.

    Homocedasticidad

    La homocedasticidad es el ltimo supuesto que deben cumplir los datos antes de iniciar sutratamiento multidimensional. Concretamente, se verifica esta hiptesis cuando la varianza de loserrores es constante. Es decir, la variacin de la variable dependiente que se intenta explicar atravs de las variables independientes -finalidad de tcnicas como la regresin mltiple-, no seconcentra en un pequeo grupo de valores independientes. El objetivo es conseguir una dispersin

    por igual de la varianza de la variable dependiente a lo largo del rango de los valores de lavariable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante unaperturbacin conocida como heterocedasticidad. Tcnicamente suele deberse a muestras en lasque aparecen asimetras importantes en los valores de las variables porque toman valoresanormalmente altos o bajos respecto a la media.

    Se puede comprobar la existencia de homocedasticidad grficamente, observando que no hayningn punto que se aleje mucho del resto. Si, por el contrario, se constatan observacionesextremas habr que convertir esas variables en variables especiales que se llaman dummy oficticias. Esta transformacin de los datos de las variables hace que todos los valores tengan unefecto potencialmente igual en la prediccin.

    De forma complementaria, todos los paquetes estadsticos vienen provistos de tests estadsticosde homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si lavarianza de la variable dependiente permanece constante.

    El supuesto de homocedasticidad dice relacin con la dispersin de los datos. En particular, conla igualdad de varianzas en todos los grupos de la poblacin origen de la muestra. Lahomocedasticidad multivariable se evala en la matriz de varianzas y covarianzas.

    Cabe destacar que en el contexto multivariable medir relacin entre pares de variables da lugara una matriz de correlaciones que presenta la relacin de todos los pares de variables. Para quelos resultados sean fiables las matrices no deben ser singulares ni multicolineales.

    Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valoresextremadamente altos. La presencia de multicolinealidad es indicadora de relacin intensa entrepares de variables. El determinante de matrices con multicolinealidad es prximo a cero. Existesingularidad cuando el determinante de una matriz es cero.

    El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. Elclculo de la inversa es necesario para efectuar el equivalente entre matrices a la divisin entrenmeros. Una matriz con determinante cero o prximo a cero no permite el clculo de su inversa-o un clculo fiable de sta. En consecuencia, no es posible efectuar el proceso matricial

    equivalente a la divisin.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    11/239

    11

    Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidado singularidad. El procedimiento ms simple es borrar la variable que produce el problema.Solucin legtima dado que la presencia de una variable correlacionada con otra u otras indica questa es combinacin lineal de las dems y, en consecuencia, su eliminacin no significa prdida deinformacin. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo

    que no participen en el modelo variables correlacionadas con otras previamente incluidas.

    Respecto a las condiciones de aplicacin, ms importante que evaluar su cumplimiento, es saberen cada tcnica especfica cules son los efectos que genera la violacin de los supuestos. Enopinin de Harris (1975) las tcnicas multivariables no se ven seriamente afectadas cuando seviolan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientosresistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distri-buciones distintas a la ley normal.Bibliografa:Anlisis Estadstico Multivariable de Manuel Vivanco. Editorial UniversitariaAnlisis Multivariable para las Ciencias Sociales de Lvy. Editorial PearsonIntroduccin a la Econometra de Jeffrey Wooldridge. Editorial Thomson

    Repaso de herramientas de SPSS

    Considere el archivo consumo de agua potable.sav correspondiente a una muestra aleatoria dehogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del2005. Considere adems el archivo Ingresos hogares.sav correspondientes al ingreso familiar delhogar de los mismos hogares de la muestra considerada para el consumo de agua potable.Prepare un informe para un ejecutivo que necesita la siguiente informacin respecto al consumode agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos.

    Suponga que se ha realizado la verificacin de los datos. Responda las siguientes preguntas:

    a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que elgasto depende del lmite de sobreconsumo (LSC= 60 m3).El valor del m3de agua es $270 si el consumo es menor o igual al lmite de sobreconsumo(LSC=60m3)

    Para los metros cbicos de agua que excede al LSC el valor por m 3es $560.

    Mostrar la sintaxis correspondiente.

    b) Mostrar una tabla que contenga elnmero de casos, la media, mediana, desv. estndar delgasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), ElBosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento.

    c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    12/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    13/239

    13

    Para archivo consumo de agua potableSORT CASES BYid_hogar (A) .

    Para archivo Ingresos hogaresSORT CASES BY

    id_hogar (A) .A partir del archivo Consumo agua potable

    MATCH FILES /FILE=*/FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav'/BY id_hogar.

    EXECUTE.MEANS

    TABLES=gasto ingreso BY comu/CELLS COUNT MEAN MEDIAN STDDEV

    Otra forma: Hacer un cubo OLAP

    USE ALL.COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22).VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'.

    VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

    OLAP CUBESgasto ingreso BY comu/CELLS=COUNT MEAN MEDIAN STDDEV/TITLE='Cubos OLAP'.

    Informe

    31 31

    47854,1806 494340,11

    21240,0000 285355,32

    49861,12054 420754,9

    33 33

    48226,1576 498187,25

    28116,8000 328828,24

    48102,31021 393996,4

    16 16

    72221,1750 709947,18

    51771,2000 536311,29

    61026,33408 516956,7

    831 831

    50438,9338 526677,52

    32440,0000 387124,20

    47495,05844 382120,2

    N

    Media

    Mediana

    Desv. tp.

    N

    Media

    Mediana

    Desv. tp.

    N

    Media

    Mediana

    Desv. tp.

    N

    Media

    Mediana

    Desv. tp.

    Comuna donde seencuentra el hogarCERRILLOS

    EL BOSQUE

    PROVIDENCIA

    Total

    gasto en

    consumo deagua potable

    Ingresodel hogar

    Cubos OLAP

    31 31

    47854,1806 494340,11

    21240,0000 285355,32

    49861,12054 420754,873

    33 33

    48226,1576 498187,25

    28116,8000 328828,24

    48102,31021 393996,449

    16 16

    72221,1750 709947,18

    51771,2000 536311,29

    61026,33408 516956,682

    80 80

    52881,0200 539048,47

    27198,4000 341093,04

    N

    Media

    Mediana

    Desv. tp.

    N

    Media

    Mediana

    Desv. tp.

    N

    MediaMediana

    Desv. tp.

    N

    Media

    Mediana

    Comuna donde se

    encuentra el hogar

    CERRILLOS

    EL BOSQUE

    PROVIDENCIA

    Total

    gasto en consumo

    de agua potable Ingreso del hogar

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    14/239

    14

    c) Crear una variable rangconsu que considere los hogares con sobreconsumo(consumo>60), con consumo normal (20

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    15/239

    15

    /COMPARE GROUP/STATISTICS EXTREME/MISSING LISTWISE/NOTOTAL.

    i) Determine mediante un grfico si las variables gasto e ingreso siguen una tendencia lineal

    Valores extremos

    gasto_mean

    Mayores

    42 MACUL 5313,60

    28 LA REINA 5248,80

    73 SAN MIGUEL 5227,20

    76 SAN RAMON 5216,40

    45 MAIPU 5184,00

    43 MACUL 15390,00

    57 PROVIDENCIA 14382,00

    32 LAS CONDES 14040,0026 LA P INTANA 13543,20

    71 SAN JOAQUIN 12957,69

    81 VITACURA 95301,87

    58 PROVIDENCIA 92287,20

    62 QUILICURA 88189,65

    35 LO BARNECHEA 87406,61

    16 HUECHURABA 82689,42

    1

    2

    3

    4

    5

    1

    2

    34

    5

    1

    2

    3

    4

    5

    rangos de c onsumoBajo consumo

    Consumo normal

    Sobreconsumo

    Nmerodel caso

    Comuna donde seencuentra el hogar Valor

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    16/239

    16

    PRUEBAS DE HIPOTESIS

    f) Determine si existen diferencias significativas del gasto promedio en agua potable paralas comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.

    La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las varianzas soniguales. De esta forma nos debemos fijar en la primera lnea de la tabla de la prueba T para la

    igualdad de medias.

    En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% deconfianza que no hay evidencias que permitan descartar la hiptesis de que las medias son iguales.Esto tambin se puede observar del intervalo de confianza al 95% para la diferencia entre lasmedias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permitadescartar que la diferencia entre las medias sea cero, ie., que las medias son iguales.

    j) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribucin

    normal.Segn la prueba de K-S las variables no siguen una distribucin normal, dado que se rechaza lahiptesis de normalidad

    Estadsticos de grupo

    47 74515,74 58634,62025 8552,73838

    30 95301,87 98739,12261 18027,2149

    Comuna donde seencuentra el hogarLAS CONDES

    VITACURA

    gasto en consumode agua potable

    N MediaDesviacin

    tp.Error tp. de

    la media

    Prueba de muestras independientes

    ,988 ,324 -1,160 75 ,250 -20786,122 17917,04140 -56478,7 14906,45

    -1,042 42,177 ,303 -20786,122 19953,19051 -61048,3 19476,03

    Se han asumidovarianzas iguales

    No se han asumidovarianzas iguales

    gasto en consumode agua potable

    F Sig.

    Prueba de Levenepara la igualdad de

    varianzas

    t gl Sig. (bilateral)Diferenciade medias

    Error tp. dela di ferenc ia Infer ior Sup erior

    95% Intervalo deconfianza para la

    diferencia

    Prueba T para la igualdad de medias

    Pruebas de normalidad

    ,140 831 ,000 ,934 831 ,000

    ,181 831 ,000 ,849 831 ,000

    ,150 831 ,000 ,873 831 ,000

    N de Habitantesdel Hogar

    Consumo de

    Agua Potab le

    Ingreso del hogar

    Estadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Correccin de la significacin de Lillieforsa.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    17/239

    17

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    18/239

    18

    II Anlisis ANOVA de un factor

    Estudio de Caso: Satisfaccin Laboral de Enfermeras.

    A la Asociacin Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras queparece estarse previendo para el futuro. Para investigar el grado actual de satisfaccin con laprofesin entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia.Como parte de este estudio, se pidi a 50 enfermeras que indicaran su grado de satisfaccin enel trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos desatisfaccin fue medido en una escala de 0 a 100, y los mayores valores representan mayoresniveles de satisfaccin.

    Los datos de la muestra se clasificaron segn el tipo de hospital de las enfermeras. Los tiposfueron privados, geritricos y universitarios. Para obtener los datos bajar el archivoENFERMERAS.SAV .

    Responder las siguientes preguntas respaldando sus respuestas con las tablas y grficas de SPSSque considere convenientes.

    a) Muestre un grfico que permita visualizar el grado de satisfaccin de las enfermerassegn tipo de hospital. Comente.

    f)Con base en las tres variables de satisfaccin laboral (sin considerar el tipo de hospital)qu aspecto laboral satisface ms a las enfermeras? Cul parece ser el que menos lassatisface? En que reas, si es que las hay, siente usted que deben introducirsemejoras? Argumente con los estadsticos descriptivos y diagrama de tallo y hojas.

    Describa sus razonamientos.

    g)Determine un intervalo de confianza del 95% para la media de cada uno de losindicadores de satisfaccin laboral para la poblacin de enfermeras. Interprete.(Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%)

    h)Para la variable satisfaccin con el trabajo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.

    i) Para la variable satisfaccin con el sueldo. Determine si existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios

    j) Determine si existe correlacin significativa entre los indicadores de satisfaccinlaboral. Argumente su respuesta.

    k)Determine si las variables de satisfaccin; con el trabajo, con el sueldo, y conoportunidades de ascenso siguen una distribucin normal. Argumente su respuesta.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    19/239

    19

    Solucin:

    l) El grfico agrupado muestra la media de los indicadores de satisfaccin laboral delas enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras delos tres tipos de hospital muestran un alto promedio en satisfaccin con su trabajo,alcanzando un valor aproximado a 80%. En los hospitales privados se observa que elindicador ms bajo en promedio es la satisfaccin con el sueldo 46% siendo adems elms bajo al comparar con hospitales geritricos y universitarios (los que indican unpromedio 55% y 62% respectivamente). La satisfaccin con oportunidades deascenso se observa similar en promedio entre los hospitales privados y geritricos(59 % en promedio) y algo menor para los hospitales universitarios ( 53% enpromedio)

    Satisfaccin laboral de enfermeras

    por tipo de hospital

    Tipo Hospital

    universitariosgeritricosprivados

    ean

    90

    80

    70

    60

    50

    40

    Satisfaccin con el

    trabajo (%)

    Satisfaccin con el

    sueldo (%)

    Satisfaccin con

    oportunidades de asc

    53

    595962

    55

    46

    808079

    *** Grficos Barras. Resmenes para variables separables .GRAPH/BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi

    /MISSING=LISTWISE REPORT.

    m)Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que lamayora de las enfermeras muestran un alto nivel de satisfaccin con el trabajoalcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de lasenfermeras tienen un nivel de satisfaccin superior o igual a 82 con un mnimo 63. Eltallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfaccin con eltrabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    20/239

    20

    Estadsticos

    50 50 50

    0 0 0

    79,80 53,26 57,28

    82,00 54,00 57,50

    8,288 16,462 17,594

    32 88 86

    63 2 6

    95 90 92

    72,00 42,75 48,50

    82,00 54,00 57,50

    87,00 60,00 68,00

    Vlidos

    Perdidos

    N

    Media

    Mediana

    Desv. tp.

    Rango

    Mnimo

    Mximo

    25

    50

    75

    Percentiles

    Satisfaccincon el trabajo

    (%)

    Satisfaccincon el sueldo

    (%)

    Satisfaccincon

    oportunidades de

    ascenso (%)

    Satisfaccin con el trabajo (%) Stem-and-Leaf Plot

    Frequency Stem & Leaf

    2,00 6 . 342,00 6 . 5914,00 7 . 011112222234446,00 7 . 5677898,00 8 . 22244444

    12,00 8 . 5556677888995,00 9 . 000041,00 9 . 5

    Stem width: 10Each leaf: 1 case(s)

    La media para satisfaccin con el sueldo muestra un nivel moderado de 53,26. El 25% de las

    enfermerasmuestra un nivel bajo de satisfaccin con el sueldo, hasta 42,5. La mitad de las enfermerasmuestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre51 y 80 observndose slo 2 valores extremos altos desde 89.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    21/239

    21

    Satisfaccin con el sueldo (%) Stem-and-Leaf Plot

    Frequency Stem & Leaf

    1,00 Extremes (==89)

    Respecto al indicador satisfaccin con oportunidades de ascenso se observa levemente

    superior al indicador de sueldo en media y mediana con valores 57,28 y 57,5respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 conniveles superiores a 90.

    Satisfaccin con oportunidades de ascenso (%) Stem-and-Leaf Plot

    Frequency Stem & Leaf

    2,00 Extremes (=

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    22/239

    22

    Se observa una mayor variabilidad en opinin entre las enfermeras en el indicador desatisfaccin con el sueldo con un rango 88 (diferencia entre el mximo y el mnimo ) y uncoeficiente de variacin 30,9% ( ( 16,46/53,26)*100) el cual determina el grado dedispersin de los datos relativo a su media .

    Se recomienda estudiar estrategias para mejorar el rea que tiene relacin con elsueldo. Por ejemplo bonos de incentivo segn desempeo que mejoren el sueldo de lasenfermeras.

    n)El intervalo de confianza para la media de satisfaccin con el trabajo para la poblacinde enfermeras indica que con un 95% de confianza la media de satisfaccin con eltrabajo estar entre 77,44 y 88,16.Asimismo el intervalo de confianza para la media de satisfaccin con el sueldo para lapoblacin de enfermeras indica que con un 95% de confianza la media de satisfaccin

    con el sueldo estar entre 48,58 y 57,94.El intervalo de confianza para la media de satisfaccin con oportunidades de ascensopara la poblacin de enfermeras indica que con un 95% de confianza la media desatisfaccin con oportunidades de ascenso estar entre 52,28 y 62,28.

    Descriptives

    79,80

    77,44

    82,16

    79,92

    53,26

    48,58

    57,94

    53,41

    57,28

    52,28

    62,28

    57,88

    Mean

    Lower Bound

    Upper Bound

    95% Confidence

    Interval for Mean

    5% Trimmed Mean

    Mean

    Lower BoundUpper Bound

    95% ConfidenceInterval for Mean

    5% Trimmed Mean

    Mean

    Lower Bound

    Upper Bound

    95% Confidence

    Interval for Mean

    5% Trimmed Mean

    Satisfaccin con

    el trabajo (%)

    Satisfaccin con

    el sueldo (%)

    Satisfaccin con

    oportunidades de

    ascenso (%)

    Statistic

    o)Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2= 3Descriptivos

    Satisfaccin con el trabajo (%)

    19 79,32 8,035 1,843 75,44 83,19 64 90

    17 80,41 9,702 2,353 75,42 85,40 63 95

    14 79,71 7,269 1,943 75,52 83,91 69 90

    50 79,80 8,288 1,172 77,44 82,16 63 95

    privados

    geritricos

    universitarios

    Total

    N MediaDesviacin

    tpic a Erro r tpico Lmi te inferi or Lmite

    superior

    Intervalo de confianza parala media al 95%

    Mnimo Mx imo

    La prueba entrega los descriptivos bsicos de la variable satisfaccin con el trabajopara la muestra por tipo de hospital

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    23/239

    23

    Prueba de homogeneidad de varianzas

    Satisfaccin con el trabajo (%)

    ,796 2 47 ,457

    Estadsticode Levene gl1 gl2 Sig.

    Para la variable satisfaccin en el trabajo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .

    ANOVA

    Satisfaccin con el trabajo (%)

    10,920 2 5,460 ,076 ,926

    3355,080 47 71,385

    3366,000 49

    Inter-grupos

    Intra-grupos

    Total

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variablesatisfaccin con el trabajo no existen diferencias significativas entre las medias de lostres grupos de tipo de hospital; privados, geritricos y universitarios.

    Comparaciones mltiple s

    Variable dependiente: Satisfaccin con el trabajo (%)

    HSD de Tukey

    -1,10 2,821 ,920 -7,92 5,73

    -,40 2,976 ,990 -7,60 6,80

    1,10 2,821 ,920 -5,73 7,92,70 3,049 ,972 -6,68 8,08

    ,40 2,976 ,990 -6,80 7,60

    -,70 3,049 ,972 -8,08 6,68

    (J) Tipo Hospitalgeritricos

    universitarios

    privadosuniversitarios

    privados

    geritricos

    (I) Tipo Hospitalprivados

    geritricos

    universitarios

    Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or

    Lmitesuperior

    Intervalo de confianza al95%

    La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existendiferencias significativas entre los grupos ( de a pares )

    p)La prueba entrega los descriptivos bsicos de la variable satisfaccin con el sueldo parala muestra por tipo de hospital

    Descriptivos

    Satisfaccin con el sueldo (%)

    19 45,79 15,343 3,520 38,39 53,18 2 66

    17 54,65 15,301 3,711 46,78 62,51 27 76

    14 61,71 15,696 4,195 52,65 70,78 36 90

    50 53,26 16,462 2,328 48,58 57,94 2 90

    privados

    geritricos

    universitarios

    Total

    N MediaDesviacin

    tpic a Erro r tpico Lmi te inferi or Lmite

    superior

    Intervalo de confianza parala media al 95%

    Mnimo Mximo

    Prueba de homogeneidad de varianzas

    Satisfaccin con el sueldo (%)

    ,120 2 47 ,887

    Estadstico

    de Levene gl1 gl2 Sig.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    24/239

    24

    Para la variable satisfaccin con el sueldo, la prueba de homogeneidad de varianzas nospermite no rechazar la hiptesis nula de igualdad de varianzas entre los tres tipos dehospital .

    ANOVA

    Satisfaccin con el sueldo (%)

    2093,723 2 1046,861 4,399 ,018

    11185,897 47 237,998

    13279,620 49

    Inter-grupos

    Intra-grupos

    Total

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdadde medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significanciadel 0.05 para la variable satisfaccin con el sueldo. Por lo tanto existen diferenciassignificativas entre las medias de los tres grupos de tipo de hospital; privados,geritricos y universitarios.

    La prueba de Tukey nos muestra que existen diferencias significativas entre las mediaslos hospitales privados y geritricos y entre los geritricos y universitarios, pero entrelos privados y universitarios no existen diferencias significativas

    Comparaciones mltiples

    Variable dependiente: Satisfaccin con el sueldo (%)

    HSD de Tukey

    -8,86 5,150 ,209 -21,32 3,61-15,92* 5,434 ,014 -29,08 -2,77

    8,86 5,150 ,209 -3,61 21,32

    -7,07 5,568 ,419 -20,54 6,41

    15,92* 5,434 ,014 2,77 29,08

    7,07 5,568 ,419 -6,41 20,54

    (J) Tipo Hospital

    geritricosuniversitarios

    privados

    universitarios

    privados

    geritricos

    (I) Tipo Hospital

    privados

    geritricos

    universitarios

    Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or

    Lmitesuperior

    Intervalo de confianza al95%

    La diferencia entre las medias es significativa al nivel .05.*.

    q)La matriz de correlaciones bivariadas nos muestra que los tres indicadores no secorrelacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, porlo tanto no se rechaza Ho que establece que no hay correlacin entre las variables

    Correlaciones

    1 ,141 -,222

    . ,329 ,122

    50 50 50

    ,141 1 ,010

    ,329 . ,946

    50 50 50

    -,222 ,010 1

    ,122 ,946 .

    50 50 50

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Satisfaccin conel trabajo (%)

    Satisfaccin conel sueldo (%)

    Satisfaccin conoportunidades deascenso (%)

    Satisfaccincon el trabajo

    (%)

    Satisfaccincon el sueldo

    (%)

    Satisfaccincon

    oportunidades de

    ascenso (%)

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    25/239

    25

    r)La prueba de Shapiro Wilk nos muestra que las variables satisfaccin con el sueldo ysatisfaccin con oportunidades de ascenso siguen una distribucin normal pues el nivelde significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la

    distribucin se ajusta a una curva normal, en cambio la variable satisfaccin con eltrabajo no se ajusta a una distribucin normal

    Pruebas de normalidad

    ,154 50 ,005 ,950 50 ,033

    ,121 50 ,064 ,976 50 ,414

    ,101 50 ,200* ,974 50 ,339

    Satisfaccin conel trabajo (%)

    Satisfaccin conel sueldo (%)

    Satisfaccin conoportunidades deascenso (%)

    Estadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Este es un lmite i nferior de la significac in verdadera.*.

    Correccin de la significacin de Lillieforsa.

    Grfico Q-Q normal de Satisfaccin con el trabajo (%)

    Valor observado

    10090807060

    3

    2

    1

    0

    -1

    -2

    -3

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    26/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    27/239

    27

    Estudio de caso: Premio Colegios 1

    Objetivo del caso:

    Utilizar herramientas de anlisis descriptivo e inferencial para conocer informacin til de launidad de anlisis, en este caso colegios y aplicar posibles criterios para asignar algn tipo debeneficio por segmentos o grupos con perfiles similares.

    Enunciado del caso:

    Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe enrelacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre losdiversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con unestmulo por los resultados de la prueba SIMCE de los segundos medios.

    El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio deEducacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad dela educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas delcurriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden.

    Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos MnimosObligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de unaprueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan undeterminado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE

    2006. MINEDUC)Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2Medio del 2006. Algunas de las variables de inters son:

    VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR

    Idest Identificador del establecimiento

    Regin Nombre de la Regin

    Comuna Nombre de la comuna

    ddca Dependencia CP: Corporacin PrivadaMC; Corporacin Municipal

    MD; DAEM (Departamento deAdministracin de EducacinMunicipal)

    PP: Particular Pagado

    PS: Particular Subvencionado

    TP

    1PCaso elaborado por Sara Arancibia

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    28/239

    28

    ruralida Caracterizacin del establecimiento 1= Rural

    2=Urbano

    socioeconmico Grupo socioeconmico del

    establecimiento

    A Bajo

    B Medio BajoC Medio

    D Medio Alto

    E Alto

    prom_len Promedio puntaje de lenguaje

    prom_mat Promedio puntaje de matemticas

    Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto conlos expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas ydefinir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegiosque se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegioscon puntajes promedios mayores o iguales al percentil 75 (para cada grupo).Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimientodefinido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural

    y UrbanoLos grupos homogneos definidos por el grupo experto son,1: Municipal y Rural

    2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano

    Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con losexpertos para crear los grupos de colegios homogneos e identificar cules son losestablecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona(Norte, Central y Sur). Adems debe determinar si existen diferencias significativas entre lostipos de colegios y por dependencia

    Para realizar su anlisis deber realizar las siguientes etapas:

    1. Limpiar y ordenar la base de inters para el anlisisa) Crear la variable Dependencia considerando slo tres categoras:

    Municipalizado, Privado y Subvencionadob) Crear la variable zona considerando Zona Norte, Centro y Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    29/239

    29

    d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.

    e) Determinar para cada grupo el percentil 75.

    f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.

    2. Realizar un anlisis descriptivo de los datosa) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu

    porcentaje representan del total? Qu tipo de dependencia se observa con mayor ymenor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia?b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250puntos; entre 251 y 300 puntos y superior a 300 puntosc) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de losMunicipalizados y Rurales?d) Qu porcentaje representa el total de colegios premiados respecto al total decolegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Quporcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiadosson de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu

    porcentaje del total son premiados y del Sur?

    e) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural yurbana?. Realice un grfico que permita observar la forma de la distribucin de lospuntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems undiagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar?

    f) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano

    g) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de ladistribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, ymuestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo.

    h) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.

    i) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.

    3. Realizar pruebas de hiptesis

    Asuma que la base de datos corresponde a la poblacin de todos los colegios que dieron la SIMCE

    en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegiosconsiderados y realice pruebas de hiptesis que permita responder las siguientes preguntas.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    30/239

    30

    a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?b) Existen diferencias significativas entre los puntajes promedios de Matemticas pordependencia?c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Siexiste relacin determine si la relacin es alta, moderada o dbil.

    4. Concluira) Realice resumidamente un anlisis descriptivo bsico para los colegios premiados usandomedidas de tendencia central y medidas de dispersin.

    b) Sintetizar sus comentarios acerca de los vnculos que explica.c) Sugiera otra alternativa para determinar cmo premiar a los colegios por su rendimiento enla prueba SIMCE.

    DESARROLLO:

    1. Limpiar y ordenar la base de inters para el anlisis

    a) Crear la variable Dependencia considerando slo tres categoras:Municipalizado, Privado y SubvencionadoEn primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con

    formato cadena o string. Recodificaremos automticamente y luego llevaremos las cincocategoras slo a tres categoras.Para esto ir al Men: Transformar/ recodificacin automtica

    Old Value New Value Value Label

    CP 1 Corporacin PrivadaMC 2 Corporacin MunicipalMD 3 DAEMPP 4 Particular PagadoPS 5 Particular Subencionado

    Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM enMunicipalizado y las categoras Corporacin Privada y Particular pagado en PrivadoPara esto ir al Men: Transformar/Recodificar en distinta variable

    AUTORECODEVARIABLES=ddcia /INTO depend/PRINT.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    31/239

    31

    En definicin de la variableAsignar etiquetas de valor a los cdigos 1 al 31= Municipalizado2=Privado3=Subvencionado

    b) Crear la variable zona considerando Zona; Norte, Centro y SurEn primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificarautomticamente.Men: Transformar/Recodificacin automtica

    En el visor de resultados se puede observar los cdigos de cada categora

    Old Value New Value Value Label

    Regin de Aisn del General 1 Regin de Aisn del GeneralCarlos Ibaez del Campo 1 Carlos Ibaez del CampoRegin de Antofagasta 2 Regin de AntofagastaRegin de Atacama 3 Regin de AtacamaRegin de Coquimbo 4 Regin de CoquimboRegin de la Araucana 5 Regin de la Araucana

    Regin de Los Lagos 6 Regin de Los LagosRegin de Magallanes y de la 7 Regin de Magallanes y de laAntrtica Chilena 7 Antrtica ChilenaRegin de Tarapac 8 Regin de TarapacRegin de Valparaso 9 Regin de ValparasoRegin del Biobo 10 Regin del BioboRegin del Libertador General 11 Regin del Libertador GeneralBernardo O' Higgins 11 Bernardo O' HigginsRegin del Maule 12 Regin del MauleRegin Metropolitana 13 Regin Metropolitana

    Para crear las categoras de zona se recodificar en distintas variables

    AUTORECODEVARIABLES=region /INTO reg/PRINT

    RECODEdepend(4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia .

    VARIABLE LABELS dependencia 'Tipo de dependencia'.

    EXECUTE .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    32/239

    32

    Men: Transformar/Recodificar en distinta variable

    En definicin de variables1= Norte2= Centro3= Surc) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica ylenguaje

    Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String ocadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiaren vista de variables el tipo String a numrico.

    Para crear la variable puntprom seleccione Men: Transformar/CalcularVariable destino: puntpromTipo: numricoEtiqueta: Promedio de Matemticas y LenguajeExpresin: MEAN(prom_len,prom_mat)

    d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto debercrear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segncorresponda.

    Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida acdigo numrico con nombre caractDondecaract=1 Ruralcaract=2 Urbano

    Men: Transformar/Recodificacin automtica

    RECODEregion(1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona .

    VARIABLE LABELS zona 'zona'.EXECUTE .

    COMPUTE puntprom = MEAN(prom_len,prom_mat) .VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje ymatemticas.EXECUTE .

    AUTORECODEVARIABLES=ruralida /INTO caract/PRINT.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    33/239

    33

    Ahora formamos los seis grupos segn criterio dado

    Luego en la definicin de variables en valores se define:1: Municipal y Rural

    2: Municipal y Urbano3: Privado y Rural4: Privado y Urbano5: Subvencionado y Rural6: Subvencionado y Urbano

    e) Determinar para cada grupo el percentil 75.Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Men:Analizar/Frecuencias [Estadsticos]: Percentil 75

    No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos.

    f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criteriomencionado 1=SI recibe premio y 0=NO recibe premio.

    Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)

    Creacin de la variable grupo*** Sintaxis Grupo ***.

    IF (dependencia = 1 & caract = 1) grupo = 1 .IF (dependencia = 1 & caract = 2) grupo = 2 .IF (dependencia = 2 & caract = 1) grupo = 3 .IF (dependencia = 2 & caract = 2) grupo = 4 .IF (dependencia = 3 & caract = 1) grupo = 5 .IF (dependencia = 3 & caract = 2) grupo = 6 .

    SORT CASES BY grupo .SPLIT FILE

    LAYERED BY grupo .

    FREQUENCIESVARIABLES=puntprom /FORMAT=NOTABLE/PERCENTILES= 75/ORDER= ANALYSIS .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    34/239

    34

    En definicin de variables se agrega la etiqueta de valor1=SI0=NO

    2. Grficos

    a) Determine mediante una grfica si hay diferencias entre las medias de los puntajes enlenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existendiferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural yurbano? Determine si el comportamiento de los resultados de puntajes de lenguaje ymatemticas es similar si se compara los segmentos rural y urbano

    Para realizar esta grfica se seleccionaMen: Grafico/barras/Para distintas variables/Agrupado

    Estadsticos

    puntaje promedio entre lenguaje y matemticas

    68

    0

    225,6250

    587

    0

    246,0000

    19

    0

    322,0000

    388

    0

    324,0000

    86

    0

    246,3750

    1171

    0

    286,0000

    Vlidos

    Perdidos

    N

    75Percentiles

    Vlidos

    Perdidos

    N

    75Percentiles

    Vlidos

    Perdidos

    N

    75Percentiles

    Vlidos

    Perdidos

    N

    75Percentiles

    Vlidos

    Perdidos

    N

    75Percentiles

    Vlidos

    Perdidos

    N

    75Percentiles

    Municipalizado y Rural

    Municipalizado y Urbano

    Privado y Rural

    Privado y Urbano

    Subvencionado y Rural

    Subvencionado y Urbano

    *** Sintaxis Premio ***.

    IF (grupo = 1 & puntprom >= 225.625) premio = 1 .IF (grupo = 1 & puntprom < 225.625) premio = 0 .IF (grupo = 2 & puntprom >= 246) premio = 1 .IF (grupo = 2 & puntprom < 246) premio = 0 .IF (grupo = 3 & puntprom >= 322.5) premio = 1 .IF (grupo = 3 & puntprom < 322.5) premio = 0 .

    IF (grupo = 4 & puntprom >= 324) premio = 1 .IF (grupo = 4 & puntprom < 324) premio = 0 .IF (grupo = 5 & puntprom >= 246.375) premio = 1 .IF (grupo = 5 & puntprom < 246.375) premio = 0 .IF (grupo = 6 & puntprom >= 286) premio = 1 .IF (grupo = 6 & puntprom < 286) premio = 0 .

    VARIABLE LABELS premio 'premio (SI=1, NO=0)' .EXECUTE .

    GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia/MISSING=LISTWISE .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    35/239

    35

    Del grfico se observa que tanto para lenguaje como para matemticas los colegiosprivados tiene mejores resultados observndose sin embargo diferencias en casi 15puntos a favor del promedio de matemticas. Los colegios subvencionados presentanpuntajes intermedios si comparamos los privados y los municipalizados con puntajes entorno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor delpuntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajespromedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favorde lenguaje.Para responder a la pregunta si existen diferencias en los puntajes de lenguaje pordependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados

    seleccionando resmenes para grupos de casos.

    SubvencionadoPrivadoMunicipalizado

    Tipo de dependencia

    300

    200

    100

    0

    Media

    256,9

    306,1

    226,6

    259,5

    291,3

    235,5

    prom_mat

    prom_len

    Media de puntajes de lenguaje y matemticas por dependencia

    GRAPH

    /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    36/239

    36

    Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana,notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajoen los colegios rurales en relacin a los colegios urbanos.Para comparar el comportamiento en los resultados de ambas pruebas por dependenciaentre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dospaneles. Para esto vamos aMen: Grficos/ barras agrupadas/ resumen para distintas variables

    SubvencionadoPrivadoMunicipalizado

    Tipo de dependencia

    300

    250

    200

    150

    100

    50

    0

    Me

    diaprom_

    len

    261,4

    292,2

    237,1 234

    272,9

    221,3

    Urbano

    Rural

    Caracterizacin delestablecimiento

    Media de puntajes promedios en lenguaje por dependencia agrupados porcaracterizacin Rural y Urbano

    GRAPH/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY

    dependencia/PANEL ROWVAR=caract ROWOP=CROSS/MISSING=LISTWISE .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    37/239

    37

    El grfico nos muestra un comportamiento muy similar por dependencia entre losurbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en loscolegios privados, los puntajes intermedios en los subvencionados y los puntajes msbajos en los municipalizados.En todos los casos los urbanos presentan mayor puntaje promedio si se compara con lospuntajes de los colegios rurales.

    g) Realice un grfico considerando a todos los colegios en estudio y otro grficoconsiderando slo el segmento de premiados, que permitan observar la posicin del grupoen relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete.

    Para esto realizaremos un diagrama de cajas por grupo.Men: Analizar/ Explorar/grficos

    Urbano

    Rural

    Caracterizacindelestab

    lecimiento

    SubvencionadoPrivadoMunicipalizado

    Tipo de dependencia

    300

    200

    100

    0

    Media

    300

    200

    100

    0

    Media

    224,7

    286,8

    210,6234

    272,9

    221,3

    259,3

    307

    228,5261,4

    292,2

    237,1

    prom_mat

    prom_len

    Media de puntajes de lenguaje y matemticas por dependencia para colegiosurbanos y rurales

    EXAMINEVARIABLES=puntprom BY grupo/PLOT BOXPLOT HISTOGRAM/COMPARE GROUP/STATISTICS NONE/CINTERVAL 95

    /MISSING LISTWISE/NOTOTAL.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    38/239

    38

    Subvencionadoy Urbano

    Subvencionadoy Rural

    Privado yUrbano

    Privado y RuralMunicipalizadoy Urbano

    Municipalizadoy Rural

    Grupo

    350

    300

    250

    200

    PuntajeSIMCEpromedio

    1097

    1657

    1684

    2173

    2174

    2176

    853

    1301

    285

    2175

    Puntajes promedios SIMCE por grupo de colegios

    Del grfico se puede apreciar que los mayores puntajes se concentran en los colegiosprivados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa

    que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puedever que los puntajes ms bajos se concentran en los colegios municipalizados y ruralespresentando la menor de las medianas y es el grupo que presenta la menor variabilidaden los puntajes, es decir son bastante homogneos en cuanto al resultado promedioSIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que elgrupo de municipalizados urbanos a pesar de tener la mayora de los colegiosconcentrados en puntajes bajos es el nico grupo que presenta varios colegios conpuntajes atpicos y un extremo en la parte alta de puntajes. Respecto a lossubvencionados se ve clara diferencia entre los urbanos y rurales donde hay unamarcada diferencia a puntajes ms bajos en los colegios rurales.

    Para obtener el diagrama de cajas para los premiados, primero se selecciona a loscolegios que obtuvieron premio y una vez filtrada la base se procede a realizar lagrfica.

    USE ALL.COMPUTE filter_$=(premio = 1).VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    39/239

    39

    Es claro que la posicin de cada grupo en general se mantiene en relacin a la grficaanalizada anteriormente. Los puntajes de los premiados con mayor puntaje seconcentran en los privados, observndose muy concentrados, bastante homogneosentre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en

    los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana delgrupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados esel que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajesatpicos superiores en el rango de puntajes del grupo de los privados. El 50% de loscolegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75)del grupo de municipalizados urbanos se comporta de una manera muy similar a loscolegios que se encuentran en la caja del rango intercuartil del grupo de subvencionadosrurales. Se observa ms notoriamente la diferencia en los puntajes de los colegiospremiados que pertenecen al grupo de los subvencionados rurales y los que pertenecena los subvencionados urbanos.

    Subvencionadoy Urbano

    Subvencionadoy Rural

    Privado yUrbano

    Privado y RuralMunicipalizadoy Urbano

    Municipalizadoy Rural

    Grupo

    360

    340

    320

    300

    280

    260

    240

    220

    PuntajeSIMCEpro

    medio

    1097

    2190

    2175

    2173

    2174

    2169

    2172

    285

    Puntaje promedio para los colegios premiados por grupo de colegios

    Si consideramos la base de datos como si fuera la poblacin de colegios que rinde laSIMCE, podramos decir que claramente se observa diferencias significativas entre lasmedias de puntajes entre los diferentes grupos de colegios.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    40/239

    40

    3. Pruebas de hiptesis

    Asuma que la base de datos corresponde a la poblacin de todos los colegios que rindieron laprueba SIMCE en el ao 2006. Considere una muestra aleatoria de aproximadamente el 20%

    de los colegios considerados y realice pruebas de hiptesis que permita responder lassiguientes preguntas.En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Men: Seleccionar/Muestra aleatoria de datos

    a) Existen diferencias significativas entre los puntajes promedios de la SIMCE entrelos colegios de tipo Rural y Urbano?Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado quees una prueba paramtrica veremos previamente si se verifica la normalidad de la variablepuntprom en ambos grupos Rural y Urbano.Men: Analizar/ Explorar/ Grficos con prueba de normalidad

    Pruebas de normalidad

    ,201 45 ,000 ,797 45 ,000

    ,078 425 ,000 ,964 425 ,000

    Caracterizacin delestablecimientoRural

    Urbano

    puntaje promedio entrelenguaje y matemticas

    Estadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Correccin de la significacin de Lillieforsa.

    Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegiosrurales como urbanos se rechaza la hiptesis nula de normalidad, donde H 0: La variablepuntaje promedio distribuye normalSin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos siexisten valores extremos o atpicos y los filtraremos segn sea la cantidad 2, para luegosolicitar el coeficiente de asimetra. Si ste est cerca de cero se considerar que ladistribucin es simtrica y en consecuencia se podr aplicar la prueba T.

    Si son muchos los casos extremos y atpicos seguramente la distribucin no ser simtrica y nopodramos aplicar la prueba T2

    EXAMINEVARIABLES=puntprom BY caract /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES EXTREME/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

    Sintaxis

    USE ALL.COMPUTE filter_$=(uniform(1)

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    41/239

    41

    Para lo anterior consideremos el diagrama de cajas que se seleccion en el men explorar enla sintaxis anterior.

    En la grfica se puede apreciar que hay valores atpicos y extremos en el grupo de colegiosrurales. Al editar la grfica se puede ver que dentro de los extremos aparecen trespromedios extremos con identificacin 1171, 754 y 760

    Adems se puede apreciar dos atpicos con identificacin, 1190, 1195Filtremos estos cinco valores y verifiquemos si se cumple la asimetra

    Men: Datos/Seleccionar casos

    UrbanoRural

    Caracterizacin del establecimiento

    350,00

    300,00

    250,00

    200,00

    puntajepromed

    ioentrelenguajeymatemticas

    1190,00

    1195,00

    760,00

    Media de puntajes promedios SIMCE por caracterizacin Rural y Urbano

    USE ALL.COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest~= 1195).VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 &Idest ~= 1195 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.

    FORMAT filter_$ (f1.0).FILTER BY filter_$.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    42/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    43/239

    43

    Estadsticos de grupo

    40 216,2125 16,63827 2,63074

    425 260,4612 39,08043 1,89568

    Caracterizacin delestablecimientoRural

    Urbano

    puntaje promedio entrelenguaje y m atemticas

    N MediaDesviacin

    tp.Error tp. de

    la media

    Prueba de muestras independientes

    42,153 ,000 -7,095 463 ,000 -44,24868 6,23655 -56,50412 -31,99323

    -13,646 87,838 ,000 -44,24868 3,24259 -50,69281 -37,80454

    Se han asumidovarianzas iguales

    No se han asumidovarianzas iguales

    puntaje promedio entrelenguaje y matemticas

    F Sig.

    Prueba de Levene

    para la igualdad devarianzas

    t gl Sig. (bilateral)

    Diferencia

    de medias

    Error tp. de

    la di ferenc ia Infer ior Sup erior

    95% Intervalo deconfianza para la

    diferencia

    Prueba T para la igualdad de medias

    En la tabla de estadsticos de grupo se observa el nmero de casos por cada grupo en lamuestra y la media y dispersin del puntaje promedio para los datos de la muestra decolegios.La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado dela prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia esmenor a 0,05 se rechaza la hiptesis nula.

    2

    2

    2

    10 :H que indica que la varianza del puntaje promedio para el grupo Rural no difierede la varianza del puntaje promedio para el grupo Urbano.Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila dela tabla.

    Dado que la significancia es menor a 0,05 se rechaza la hiptesis nula de igualdad de medias210 :H que indica que no hay diferencias significativas en las medias del promedio de

    puntajes SIMCE para el grupo Rural y Urbano.Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media delos promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con unnivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95%para la diferencia de medias. En este caso la diferencia de medias para los promedios depuntajes entre los colegios urbanos y rurales est entre 38 puntos y 51 puntosaproximadamente con un 95 % de confianza.

    b) Existen diferencias significativas entre las medias de los puntajes promedios deMatemticas por dependencia?

    La variable dependencia es una variable nominal con tres categoras. Por tanto se trata de unaPrueba ANOVA de un factor, donde la hiptesis nula es 3210 :H es decir, las medias de los puntajes promedios de matemticas de los colegios municipalizados,privados y subvencionados no difieren significativamente entre s.

    Previamente verificaremos la hiptesis de normalidad. Dado que la prueba es robusta adesviaciones de la normalidad por lo menos se debe verificar que los datos se comportan demanera simtrica.

    Para verificar la normalidad, solicitamos la prueba de K-S en;

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    44/239

    44

    Men: Analizar/ Explorar/ Grficos

    Se obtiene la tabla con la prueba K-S

    Pruebas de normalidad

    ,083 128 ,032 ,947 128 ,000

    ,120 82 ,005 ,948 82 ,002

    ,072 260 ,002 ,972 260 ,000

    Tipo de dependenciaMunicipalizado

    Privado

    Subvencionado

    prom_matEstadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Correccin de la significacin de Lillieforsa.

    Claramente se observa que la variable puntaje de matemticas no distribuye normal en ninguno delos grupos de dependencia.Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo dedependencia.

    SubvencionadoPrivadoMunicipalizado

    Tipo de dependencia

    400

    350

    300

    250

    200

    150

    prom_

    mat

    250,00

    661,00

    575,00

    Media de puntajes promedios de matemticas por dependencia

    EXAMINEVARIABLES=prom_mat BY dependencia /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT

    /COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    45/239

    45

    Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay trescolegios con valores atpicos, cuya identificacin corresponden a 250, 661 y 575.

    Filtraremos estos valores

    Men: Datos/ seleccionar

    Ahora veamos los coeficientes de asimetra para comprobar que los datos distribuyen enforma simtrica en cada grupo.Men: Datos/ Segmentar archivo/ Frecuencias

    Estadsticos

    prom_mat

    125

    0

    ,309

    82

    0

    -,592

    260

    0

    ,102

    Vlidos

    Perdidos

    N

    Asim etra

    Vlidos

    Perdidos

    N

    Asim etra

    Vlidos

    Perdidos

    N

    Asim etra

    Municipalizado

    Privado

    Subvencionado

    Se puede apreciar que los coeficientes de asimetra son cercanos a cero y por tanto podemosconsiderar las distribuciones simtricas para cada grupo de dependencia.Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos loscasos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor

    USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575).VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

    SORT CASES BY dependencia .SPLIT FILE

    LAYERED BY dependencia .FREQUENCIES

    VARIABLES=prom_mat /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .

    ONEWAYprom_mat BY dependencia/STATISTICS DESCRIPTIVES HOMOGENEITY

    /MISSING ANALYSIS .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    46/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    47/239

    47

    Comparac iones mltiples

    Variable dependiente: prom_mat

    Games-Howell

    -84,934* 4,824 ,000 -96,39 -73,48

    -36,050* 3,371 ,000 -43,98 -28,12

    84,934* 4,824 ,000 73,48 96,39

    48,884* 5,206 ,000 36,56 61,21

    36,050* 3,371 ,000 28,12 43,98

    -48,884* 5,206 ,000 -61,21 -36,56

    (J) Tipo de dependenciaPrivado

    Subvencionado

    Municipalizado

    Subvencionado

    Municipalizado

    Privado

    (I) Tipo de dependenciaMunicipalizado

    Privado

    Subvencionado

    Diferencia de

    medias (I-J) Error tpico Sig. Lmi te inferi or

    Lmite

    superior

    Intervalo de confianza al95%

    La diferencia entre las medias es significativa al nivel .05.*.

    Dado que todas las significancias son menores a 0,05 se puede concluir que existendiferencias significativas en los puntajes promedios de matemticas entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza

    para la diferencia de medias poblacionales del puntaje promedio de matemticas para cadapar de grupos considerados en el anlisis con un 95% de confianza.

    c) Existen diferencias significativas entre los puntajes promedios de Lenguaje pordependencia?Repitiendo el mimo procedimiento para los puntajes de matemticas se realiza un diagrama decaja para ver los atpicos en los puntajes de lenguaje por dependencia obteniendo que existendos atpicos en el grupo de municipalizados y un caso atpico en los privados

    SubvencionadoPrivadoMunicipalizado

    Tipo de dependencia

    300

    250

    200

    prom_

    len

    54,00

    661,00

    250,00

    Media de los puntajes promedio de lenguaje por dependencia

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    48/239

    48

    Se filtran para luego pedir el coeficiente de asimetra.

    Estadsticos

    prom_len

    126

    0

    ,445

    81

    0

    -,535

    260

    0-,024

    Vlidos

    Perdidos

    N

    Asim etra

    Vlidos

    Perdidos

    N

    Asim etra

    Vlidos

    Perdidos

    N

    Asim etra

    Municipalizado

    Privado

    Subvencionado

    Se puede observar que la variable puntaje promedio de lenguaje distribuye en formasimtrica en los tres grupos de dependencia pues los tres coeficientes de asimetra estncercanos a cero. Por tanto podemos aplicar la prueba ANOVA.Previamente consideramos todos los casos (sacar la segmentacin por dependencia).Men: Analizar/comparar medias/ ANOVA de un factor

    En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hiptesis nulaes 23

    2

    2

    2

    10 :H . Es decir no existen diferencias significativas en la variabilidad delpuntaje promedio de lenguaje entre los tres grupos de dependencia

    Prueba de homogeneidad de varianzas

    prom_len

    29,956 2 464 ,000

    Estadsticode Levene gl1 gl2 Sig.

    USE ALL.COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54).

    VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'.VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE .

    SORT CASES BY dependencia .SPLIT FILE

    LAYERED BY dependencia .FREQUENCIES

    VARIABLES=prom_len /FORMAT=NOTABLE/STATISTICS=SKEWNESS SESKEW/ORDER= ANALYSIS .

    ONEWAYprom_len BY dependencia

    /STATISTICS DESCRIPTIVES HOMOGENEITY/MISSING ANALYSIS .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    49/239

    49

    De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hiptesisnula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exigeque se cumpla la hiptesis anterior).En este caso veremos la prueba de Welch, que representa una alternativa robusta alestadstico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en

    Opciones activamos Welch, donde la hiptesis nula correspondiente es 3210 :H

    Pruebas robustas de igualdad de las medias

    prom_len

    183,227 2 208,914 ,000WelchEstadstico

    agl1 gl2 Sig.

    Distribuidos en F asintticamente.a.

    De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hiptesis de

    igualdad de medias y en consecuencia hay diferencias significativas entre las medias delpuntaje promedio de lenguaje por dependencia.

    Para conocer entre qu grupos de dependencia hay diferencias, solicitamos enPost-Hoc la opcin de Games-Howell que es un mtodo que se basa en la distribucin del rangoestudentizado y en un estadstico T. Es el mejor mtodo que permite controlar la tasa deerror en diferentes situaciones.

    Comparac iones mltiples

    Variable dependiente: prom_len

    Games-Howell

    -58,521* 3,265 ,000 -66,27 -50,77

    -27,955* 2,396 ,000 -33,59 -22,32

    58,521* 3,265 ,000 50,77 66,27

    30,566* 3,452 ,000 22,40 38,74

    27,955* 2,396 ,000 22,32 33,59

    -30,566* 3,452 ,000 -38,74 -22,40

    (J) Tipo de dependenciaPrivado

    Subvencionado

    Municipalizado

    Subvencionado

    Municipalizado

    Privado

    (I) Tipo de dependenciaMunicipalizado

    Privado

    Subvencionado

    Diferencia demedias (I-J) Error tpico Sig. Lmi te inferi or

    Lmitesuperior

    Intervalo de confianza al95%

    La diferencia entre las medias es significativa al nivel .05.*.

    Dado que todas las significancias son menores a 0,05 se puede concluir que existen

    diferencias significativas en los puntajes promedios de lenguaje entre todos los paresposibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianzapara la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par degrupos considerados en el anlisis con un 95% de confianza.

    d) Para cada grupo de dependencia, Existen diferencias significativas entre los promediosde lenguaje y matemticas?.

    Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestrasrelacionadas, donde la hiptesis nula corresponde a 0: 210H es decir la diferenciade las medias poblacionales del puntaje promedio de matemticas y de lenguaje es cero.

    4Tanto el estadstico de Welch como el de Brown- Forsythe se distribuyen segn el modelo de

    probabilidad F, pero con grados de libertad corregidos

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    50/239

    50

    Previamente segmentaremos por dependencia.

    Calcularemos la variable diferencia entre ambos puntajes difpunt. Luego veremos si ladiferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba Tpara muestras independientes es robusta a desviaciones de la normalidad, por tanto bastarafiltrar los casos extremos o atpicos si es que la cantidad es marginal y luego probar que essimtrica.Men; Transformar/CalcularLuego de calcular la diferencia se procede a verificar si distribuye normalMen; Analizar/ Explorar/ grficos

    Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad dela variable diferencia entre los puntajes, en consecuencia se verifica la hiptesis de la prueba Tpara muestras relacionadas.Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a

    una distribucin normal.

    Pruebas de normalidadb

    ,053 128 ,200* ,995 128 ,942difpuntEstadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Este es un lmite inferior de la significacin verdadera.*.

    Correccin de la significacin de Lillieforsa.

    Tipo de dependencia = Municipalizadob.

    Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante auna distribucin normal .

    COMPUTE difpunt = prom_mat - prom_len .EXECUTE .

    EXAMINEVARIABLES=difpunt /ID= Idest/PLOT BOXPLOT HISTOGRAM NPPLOT/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

    SORT CASES BY dependencia .SPLIT FILE

    SEPARATE BY dependencia .

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    51/239

    51

    20,0010,000,00-10,00-20,00-30,00-40,00-50,00

    difpunt

    25

    20

    15

    10

    5

    0

    Frecuencia

    Mean = -9,8125Std. Dev. = 12,76792N = 128

    Tipo de dependencia= Municipalizado

    Histograma

    Pruebas de normalidadb

    ,097 82 ,054 ,978 82 ,173difpuntEstadstico gl Sig. Estadstico gl Sig.

    Kolmogorov-Smirnova

    Shapiro-Wilk

    Correccin de la significacin de Lillieforsa.

    Tipo de dependencia = Privadob.

    60,0040,0020,000,00-20,00-40,00

    difpunt

    20

    15

    10

    5

    0

    Frecuencia

    Mean = 16,6585Std. Dev. = 17,67276N = 82

    Tipo de dependencia= Privado

    Histograma

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    52/239

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    53/239

    53

    En primer lugar se aprecia la tabla con estadsticos bsicos de la muestra para colegios condependencia municipalizado, mostrando que las medias muestrales tienen una diferencia deaproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje.

    Correlaciones de muestras relacionadasa

    128 ,873 ,000prom_mat y prom_lenPar 1N Correlacin Sig.

    Tipo de dependencia = Municipalizadoa.

    La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemticas yde lenguaje se correlacionan linealmente, con una fuerza de asociacin positiva alta

    Prueba de muestras relacionadasa

    -9,813 12,768 1,129 -12,046 -7,579 -8,695 127 ,000prom_mat - prom_lenPar 1

    MediaDesviacin

    tp.Error tp. de

    la media Inferior Superior

    95% Intervalo deconfianza para la

    diferencia

    Diferencias relacionadas

    t gl Sig. (bilateral)

    Tipo de dependencia = Municipalizadoa.

    De la prueba T para muestras relacionadas, se rechaza la hiptesis nula de igualdad de medias(diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferenciassignificativas entre el promedio de matemticas y el promedio de lenguaje para los colegiosmunicipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95%de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemticas

    y la diferencia est entre aproximadamente 7,5 puntos y 12 puntos.De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios condependencia privado y subvencionado, obtenindose en ambos casos diferencias significativas

    entre los promedios de matemticas y lenguaje.

    e) Existe relacin entre el grupo socioeconmico del establecimiento y la dependencia? Si existerelacin determine si la relacin es alta, moderada o dbil.Ambas variables pueden ser consideradas como nominales. En este caso la hiptesis nula a probaresH0: Las variables grupo socioeconmico del establecimiento es independiente de la dependenciadel colegio.En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto lafrecuencia observada y la frecuencia esperada.

  • 8/13/2019 03 Estudios de Casos MGPP 2012

    54/239

    54

    Tabla de contingencia Grupo Socioeconmico del establecimie nto * Tipo de depen dencia

    56 2 40 98

    26,7 17,1 54,2 98,0

    57 9 53 119

    32,4 20,8 65,8 119,0

    13 1 101 115

    31,3 20,1 63,6 11