Práctica 6 (Tema 8) Ponderación de una encuesta ejercicios_guia/practica6.pdfPonderación de una...
Transcript of Práctica 6 (Tema 8) Ponderación de una encuesta ejercicios_guia/practica6.pdfPonderación de una...
Práctica 6 (Tema 8)
Ponderación de una encuesta
Esta práctica detalla y explica los procedimientos para la obtención de datos en diseños
muestrales que necesitan ponderación. En primer lugar se comenta el diseño muestral
utilizado –en este caso un estudio preelectoral que necesita datos específicos por
circunscripciones- y posteriormente, en segundo lugar, se detallan los procedimientos de
activación de ponderaciones. La realización de la práctica resulta de especial interés para
adentrarse en el uso de diseños muestrales complejos.
A) Lectura de la ficha técnica y discusión del diseño muestral empleado
Para comenzar la práctica diríjase a la página del CIS, localice el Estudio 2.934. Preelectoral
elecciones autonómicas, 2012. Principado de Asturias. Lea detenidamente la ficha técnica
(fichero Ft2934.pdf). Se trata de un estudio preelectoral de las elecciones al Principado que se
celebraron en Marzo de 2012.
A efectos de la elección de los diputados de la Junta General del Principado de Asturias, esta
Comunidad se divide en tres circunscripciones electorales: Central, Occidental y Oriental. Para
las elecciones celebradas en Marzo de 2012 el total de 45 escaños correspondiente a cada
circunscripción es el siguiente:
Escaños Municipios Población Total
(01/01/2011)
Censo Electoral
Autonómicas 2012
Central 34 29 886.434 743.245 Occidental 6 32 120.029 104.327 Oriental 5 17 75.024 64.045
Total 45 78 1.081.487 911.617
Dentro de cada circunscripción los escaños se distribuyen según la Ley D´Hont. Con este
sistema electoral resulta necesaria la estimación de los diputados de forma separada para cada
circunscripción. Por ello, la encuesta preelectoral que realiza el CIS se compone de tres
submuestras, una por cada distrito, electoral.
Como indica la ficha técnica, la distribución del total de 1800 entrevistas se ha realizado de la
siguiente forma:
n e
Central 1180 ±2,91%
Occidental 320 ±5,59%
Oriental 300 ±5,77%
El CIS ofrece también los errores de cada submuestra –bajo el supuesto de muestreo aleatorio
simple del censo electoral- para el estadístico de la proporción en el caso más desfavorable o
de máxima varianza (P=Q=0,5) y un nivel de confianza del 95,45% (dos sigmas, Z=2). Podemos
comprobar estos datos, por ejemplo para la circunscripción central:
√
√
El sistema electoral del Principado determina que para optar al reparto de escaños las
formaciones electorales deberán tener más del 3% del voto válido. En función de ello se ha
establecido el tamaño muestral de la circunscripción Central. Errores superiores al 3%
dificultarían estimar siquiera si un partido puede o no optar a la distribución de escaños. Si
garantizamos un error menor del 3% podemos asegurar con una confianza superior al 95% qué
formaciones podrían optar a escaños en dichas circunscripción.
Evidentemente, esto es válido para la circunscripción central pero no para las otras dos
restantes que como puede comprobarse se han utilizado tamaños inferiores. Un tamaño
muestral cercano a 1200 entrevistas para cada una de las tres circunscripciones redundaría en
costes elevados. Téngase en cuenta que las circunscripciones de Occidente y de Oriente se
componen de población muy dispersa en el territorio lo cual exige trabajos de campo
complejos cuando se utiliza visita a domicilio. Como puede observarse el CIS ha optado por
tamaños muestrales reducidos en torno a las 300 entrevistas con unos errores inferiores al 5%.
Esta decisión añade imprecisión a la estimación de los escaños en sendas circunscripciones. No
obstante, este grado de error es en la práctica asumible por dos motivos:
-En primer lugar las tres cuartas partes de los escaños se concentran en la
circunscripción del centro, cuya estimación tiene errores estadísticos reducidos. Es
decir el grueso de la estimación se controla con niveles de alta precisión.
-En segundo lugar, el conocimiento de los resultados de las elecciones anteriores1,
permite ajustar el tamaño muestral. Los datos de elecciones anteriores perimten la
1 Las actas de los resultados de las elecciones anteriores celebradas en 2011 pueden consultarse en la siguiente dirección: http://www.juntaelectoralcentral.es/jelect/ASTURIAS_2011_Resultados.pdf
estimación de indicadores de competitividad electoral, que son una medida del
esfuerzo en votos que cuesta un escaño. Como puede verse en la tabla adjunta, las
formaciones extraparlamentarias de las circunscripciones Occidental y Oriental no
alcanzan en conjunto el 6% de los sufragios. Resulta extremadamente útil la
consideración de los umbrales máximo, proporción de votos que garantizan un escaño,
y umbral mínimo, porcentaje que por debajo de él resulta matemáticamente imposible
la obtención de un escaño2. En el caso de la circunscripción central, como los umbrales
son inferiores al límite legal, se considera como límite medio el mínimo legal. Es decir
cualquier partido que supere el 3% obtendrá automáticamente un escaño. Para las
circunscripciones Occidental y Oriental, sólo los partidos que superen un 6% de los
votos tendrán escaños.
Información sobre las elecciones anteriores e índices de competitividad electoral
Porcentaje de votos alcanzado por los partidos
que tuvieron más del 3% de
los votos válidos
Formaciones que tuvieron
escaño
Número de
escaños en liza
Umbral Máximo
Umbral Mínimo
Umbral Medio
Diferencia entre los
dos partidos
más votados
Centro 91,62% 4 34 2,9% 0,7 3,0% 1,74%
Occidental 94,04% 3 6 14,3% 5,6% 9,9% 11,52%
Oriental 93,94% 3 5 16,7% 6,7% 11,7% 2,04%
Una vez establecidos los tamaños muestrales de cada circunscripción se diseña el sistema de
selección de las unidades muestrales últimas3. El CIS ha seguido el procedimiento habitual,
estratificación de los municipios –conglomerados- por tamaño. En total se han seleccionado 51
municipios de los 78 que componen el Principado (conglomerados de primera etapa).
Número de municipios por tamaño distribuidos por circunscripciones
Central Occidental Oriental Total
Menor de 2000 10 17 8 35
De 2001 a 10000 4 11 7 22
De 10001 a 50000 11 4 2 17
De 50.001 a 100.000 2 --- --- 2
De 100001 a 500000 2 --- --- 2
Total 29 32 17 78
2 Para conocer la forma de cálculo de los umbrales, véase: Boix, C. y Riba, C. (2000): “Las bases sociales y
políticas de la abstención en las elecciones generales españolas: recursos individuales, movilización estratégica e instituciones electorales.” REIS, 90: 95-128. 3 Para conocer de forma detallada los procedimientos de trabajo del CIS puede consultarse: V. Martinez
(1999): “Diseño de encuestas de opinión: barómetro del CIS”. En: QÜESTIIÓ, 23-2:343-362
Distribución de los municipios seleccionados
Central Occidental Oriental Total
Menor de 2000 2 5 4 11
De 2001 a 10000 4 9 6 19
De 10001 a 50000 11 4 2 17
De 50.001 a 100.000 2 --- --- 2
De 100001 a 500000 2 --- --- 2
Total 29 32 17 51
Para la selección de los municipios se tienen en cuenta el número de entrevistas que se
asignará a cada municipio. Observe la siguiente tabla, en ella está la muestra distribuida de
forma proporcional a la población de cada estrato.
Afijación de las entrevistas por estratos de tamaño de municipio
Central Occidental Oriental
Menor de 2000 23 54 38
De 2001 a 10000 42 139 185
De 10001 a 50000 293 127 77
De 50.001 a 100.000 160 --- ---
De 100001 a 500000 662 --- ---
Total 1180 320 300
Las entrevistas se dividen en bloques de unas 10, de forma que cada uno de los bloques
conforma una ruta que será seguida por un entrevistador. En la medida de lo posible, cada
ruta se asigna a una sección censal. Las secciones censales son unidades territoriales
inframunicipales que contienen entre 500 y 2000 electores.
Ahora, si observamos los datos podemos apreciar que en la circunscripción Central al estrato
de menos de 2000 habitantes le corresponden 23 entrevistas. Con dicho número de
entrevistas se formarán dos rutas que serán asignadas a dos secciones censales, cada sección
se buscará en un municipio distinto. Por lo tanto harán falta 2 municipios, que serán sorteados
del conjunto de 10 que componen el estrato. En la circunscripción Occidental, las 54
entrevistas, dan lugar a 5 rutas y a la selección de 5 municipios, para la circunscripción Oriental
hará falta seleccionar a 4 municipios.
En los estratos de mayor tamaño poblacional, al ser reducido el número de municipios, no
suele hacerse selección considerándose la totalidad de los conglomerados, y seleccionando al
azar secciones censales con probabilidades proporcionales a su tamaño. Por ejemplo en el
estrato de mayores de 100.000 donde se encuentran Gijón y Oviedo se han seleccionado
ambos y las encuestas asignadas se distribuirán de forma proporcional a la población de cada
municipio.
Como norma general en cada estrato se seleccionan al menos dos municipios y el número de
municipios que se selecciona en el estrato será el resultante de dividir el número de
entrevistas correspondiente al estrato entre los siguientes cocientes de número de entrevistas
por municipio:
Mínimo Máximo
Menor de 2000 10 12
De 2001 a 10000 11 14
De 10001 a 50000 13 19
Mayor de 50.000 18 30
Una vez seleccionados los municipios, por sorteo, en cada estrato, se seleccionan también
aleatoriamente y con probabilidad proporcional a su tamaño las secciones censales –
conglomerados de segunda etapa-.
La tabla siguiente, muestra los 11 municipios que componen el estrato poblacional de entre
2.000 y 10.000 habitantes de la circunscripción Occidental. Para cada municipio se muestran
las secciones censales que lo componen. Los dos municipios que no han sido seleccionados se
muestran sombreados.
Municipios y secciones de la circunscripción Occidental. Estrato de 2.001 a 10.000 habitantes.
Municipio Sección Población Total Allande 3300101001 1.347 2.004
3300101002 657
Candamo 3301001001 664 2170
3301001002 630
3301001003 876 Castropol 3301701001 1.334 3762
3301701002 1.656
3301701003 772 Coaña 3301801001 981 3447
3301802001 917
3301802002 1.549 Cudillero 3302101001 748 5721
3302101003 820
3302101004 880
3302101005 672
3302101006 982
3302101007 1.025
3302101008 594 El Franco 3302301001 1.828 3.981
3302301002 692
3302301003 1.461 Navia 3304101001 742 9015
3304101002 1.182
3304101003 1.619
3304101004 598
3304101005 1.809
3304101007 645
3304101008 1.587
3304101009 833
Pravia 3305101001 2.069 8.995
3305101002 1.790
3305101003 1.114
3305101004 2.057
3305101005 674
3305101008 1.291
Salas 3305901001 1.657 5.782
3305901002 1.334
3305903001 1.210
3305904001 1.581
Tapia de Casariego 3307001001 1.839 4.045
3307001002 908
3307001003 618
3307001004 680
Vegadeo 3307401001 1.767 4.160
3307401002 1.522
3307401003 871
Como puede apreciarse, véase la tabla siguiente, en el ejemplo analizado se han seleccionado
una de cada tres secciones, de los municipios seleccionados.
Cuadro resumen de la distribución de las rutas en el estrato de 2.001 a 10.000 de la
circunscripción Occidental.
Municipio Población Total secciones n
Secciones seleccionadas
33001 Allande 2004 2 10 1 33017 Castropol 3762 3 10 1 33018 Coaña 3447 3 10 1 33021 Cudillero 5721 7 21 2 33023 Franco, El 3981 3 11 1 33041 Navia 9015 8 33 3 33059 Salas 5782 4 11 1 33070 Tapia de Casariego 4045 4 22 2 33074 Vegadeo 4160 3 11 1
Total
37 139 13
Los entrevistadores han ido visitando las viviendas pertenecientes a las secciones elegidas
buscando los perfiles asignados por cuotas de sexo y edad. Para las cuotas por edad se han
utilizado los siguientes grupos de edad:
18-24 25-34 35-44 45-54 55-64 >65
B) Cálculo de los coeficientes de ponderación.
Como puede apreciarse la afijación de las entrevistas por circunscripciones no ha sido
proporcional al peso que tiene la población en dichas circunscripciones. Es fácil comprender
que al utilizar los datos de la encuesta de forma conjunta, estamos sobrevalorando las
opiniones de los residentes en el Oriente de Asturias e infravalorando las opiniones de los
residentes en el triángulo metropolitano o en las cuencas mineras. Para evitar este importante
sesgo se utilizan coeficientes de ponderación. Veamos como se ha procedido a establecer los
coeficientes de ponderación.
El censo electoral de 2012 por circunscripciones en Asturias tiene la siguiente distribución:
Número de votantes
Proporción de votantes n
Proporción de n w
Centro 743245 0,815 1180 0,656 1,244
Occidente 104327 0,114 320 0,178 0,643 Oriente 64045 0,070 300 0,167 0,422
Total 911617 1,000 1800 1,000
Como podemos observar más del 80% de los votantes se concentra en la circunscripción
central, sin embargo el número de encuestas en dicho distrito es inferior. Por el contrario
mientras los votantes de la circunscripción Oriental representan un 7% el número de
entrevistas realizadas en dicha circunscripción es mayor de la sexta parte (16,7%). Como
sabemos el coeficiente de ponderación podemos obtenerlo mediante el cociente entre la
proporción de la población sobre la proporción de la muestra para cada estrato. Por ejemplo
en la circunscripción Central:
Activación de la ponderación
A continuación vamos a activar los coeficientes de ponderación para la obtención de
resultados que controlen la falta de proporcionalidad de las submuestras. Descargue el fichero
de microdatos de la encuesta: Estudio CIS nº 2.934 Preelectoral elecciones autonómicas, 2012.
Principado de Asturias. Una vez descargado, descomprimido y renombrados los ficheros
necesarios, ejecute el fichero de sintaxis (ES2934). (No olvide hacer los cambios en el comando
DATA LIST para indicar el path correcto en el que se encuentra el fichero de datos; unidad y
carpeta.)
Una de las variables, situadas al final del fichero se denomina PESO. Dicha variable está
definida en las columnas 134-138, es decir ocupa 5 posiciones. El número 3 entre paréntesis
quiere decir que las tres últimas columnas son los valores decimales.
Si observa la variable en la matriz de datos, esta toma los valores del coeficiente de
ponderación. A continuación de la variable PESO se encuentra la variable CIRCUN que se
refiere a la circunscripción electoral. En este caso el fichero contiene ya grabados los
coeficientes por los que se multiplicará cada cuestionario.
También debe notarse que el fichero de sintaxis contiene una nueva instrucción, situada
después de la declaración de valores perdidos (MISSING VALUE).
WEIGHT BY PESO.
La sintaxis de este comando es sencilla. WEIGHT BY –que significa ponderar por- la variable
que contenga los coeficientes, en este caso PESO.
Para desactivar la ponderación el comando será:
WEIGHT OFF.
También podemos acceder a dicho comando mediante menús: Seleccionar Datos: Ponderar
Casos
En la ventana que se abre seleccionar la variable de ponderación y aceptar. También podemos
desactivar la ponderación si indicamos la primera opción “No ponderar los casos”.
Es importante tener en cuenta que después de ejecutar la ponderación, bien mediante la
instrucción en el fichero de sintaxis o bien mediante los menús, en la barra inferior, el
programa nos advierte de la variable con la que se están ponderando los datos.
Vamos a comprobar los efectos de la ponderación, para ello vamos a solicitar las frecuencias
de la pregunta 31 “¿Cómo se definiría usted en política...?
Las respuestas sin ponderar y ponderadas son las siguientes:
n (sin ponderar)
% n´ (ponderados)
%
Conservador/a 358 19,9 304 16,9 Demócrata cristiano/a 108 6,0 120 6,7 Liberal 167 9,3 184 10,2 Progresista 114 6,3 134 7,4 Socialdemócrata 182 10,1 167 9,3 Socialista 308 17,1 305 17,0 Comunista 68 3,8 78 4,3 Nacionalista 15 ,8 18 1,0 Feminista 17 ,9 20 1,1 Ecologista 50 2,8 60 3,3 Otra respuesta 57 3,2 70 3,9 Apolítico/a 79 4,4 98 5,5 N.S. 237 13,2 205 11,4 N.C. 40 2,2 38 2,1
Total 1800 100,0 1800 100,0
Podemos examinar las diferencias de los resultados. Por ejemplo, si no hubiéramos ponderado
hubiéramos sobreestimado la proporción de conservadurismo e infraestimado la proporción
de progresismo. Es decir hubiéramos tenido una fotografía más a la derecha que la que
realmente define al conjunto del electorado asturiano.
La tabla siguiente que nos muestra las respuestas por circunscripción sin ponderar nos permite
observar el efecto que tiene la ponderación. Por ejemplo los 358 cuestionarios de la categoría
de conservadores se convierten en 304, una vez equilibrada la muestra, que únicamente
consiste en multiplicar cada cuestionario por su coeficiente.
=197,796+64,3+41,58=303,676304
Pregunta 31 por circunscripción. Datos sin ponderar
Central Occidental Oriental TOTAL
Conservador/a 159 100 99 358 Demócrata cristiano/a 87 13 8 108 Liberal 133 17 17 167 Progresista 102 8 4 114 Socialdemócrata 102 29 51 182 Socialista 197 60 51 308 Comunista 58 8 2 68 Nacionalista 14 1 0 15 Feminista 15 2 0 17 Ecologista 46 4 0 50 Otra respuesta 56 1 0 57 Apolítico/a 79 0 0 79 N.S. 109 69 59 237 N.C. 23 8 9 40
Total 1180 320 300 1800
Generación de la variable de ponderación
En algunos casos es posible que dichos coeficientes no vengan grabados. Podemos en dichos
casos generar una variable mediante los comandos COMPUTE ya conocido e IF que
explicaremos a continuación:
COMPUTE PESO=1.
IF (CIRCUNSCRIPCIÓN=1) PESO=1.244.
IF (CIRCUNSCRIPCIÓN=2) PESO=0.643.
IF (CIRCUNSCRIPCIÓN=3) PESO=0.420.
Con el comando COMPUTE hacemos una variable nueva que denominamos PESO y que
inicializamos con valor 1. A continuación utilizamos varias veces el comando IF –que es la
palabra que en inglés significa Sí condicional-. Si la circunscripción tiene valor 1 –fijémonos, en
la lista de valores, que circunscripción=1 significa que es Central, 2= Occidente y 3= Oriental-
entonces la variable peso toma el valor 1,244.
Una vez generada la variable PESO, podemos activar la ponderación mediante el comando
WEIGHT. Podemos añadir como última línea en el fichero de sintaxis simplemente:
WEIGHT BY PESO.
O también, seleccionar la opción desde los menús desplegables.