X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO
TRADICIONALES EN PLANES BÁSICOS DE MUESTREO
Carlos Henríquez-Roldán1, Daniela Hellman
2, Cristóbal Roco
3
1 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, profesor, Centro de
Estudios Estadísticos de la Universidad de Valparaíso, director – [email protected]
2 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería
en Estadística – [email protected]
3 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería
en Estadística – [email protected]
RESUMEN
¿De qué forma a través de simulaciones de Montecarlo se pueden comprender algunos conceptos del
muestreo? Estimadores, varianza de los estimadores, distribuciones muestrales, el efecto del diseño (Deff),
tamaños muestrales, errores de estimación y nivel de confianza son los temas a presentar para estimadores
poco tradicionales que permiten estimar la media de una población finita. El usuario común –no estadístico–
cree que la media muestral es el único estimador para la media poblacional. Se realizan simulaciones de
poblaciones hipotéticas para comparar cómo se comportan ciertos estimadores de la media poblacional bajo
tres planes de muestreo clásicos: mas (muestreo aleatorio simple), me (muestreo estratificado) y mc (muestreo
por conglomerados). Los estimadores que utilizan son: la media, la mediana, (mediana + media)/2, (mínimo +
máximo)/2 y (P25 + P75)/2. La distribución muestral de estos estimadores para poblaciones infinitas no es trivial
ya que involucran estadísticos de orden. Se generan datos desde dos distribuciones de probabilidad –una
tradicional y otra de colas pesadas – con el propósito de mostrar que no siempre la media muestral es el
estimador con menor varianza.
Sin tener un curso de inferencia los usuarios podrán comprender varios conceptos asociados al muestreo, los
que sirven para la formación de estadísticos y usuarios de la estadística. Para los planes de muestreo comunes:
mas, me y mc se introducen conceptos que por lo general se omiten al impartir una asignatura de estadística
para no estadísticos.
Para comparar el plan de muestreo en relación al mas se calcula el Deff para los otros planes de muestreo
propuestos (me y mc) para cada estimador.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Desarrollo
¿De qué forma se pueden incorporar las Tecnologías de la Información y Comunicación (TIC) para enseñar
conceptos del muestreo? He aquí un ejemplo. Se utiliza el software Stata, para facilitar la interacción del usuario
de la estadística con algunos conceptos del muestreo que no son necesariamente sencillos de digerir y de
comprender. La mayoría de los usuarios no estadísticos en sus pocas asignaturas de estadística tienen, a lo más
una sesión incompleta de muestreo, y con mucha suerte dos. Sin embargo, por la pregunta que con mayor
frecuencia tienen que acudir a un estadístico es “¿cuál es el tamaño muestral más pequeño que debo
seleccionar para que mi investigación tenga sentido y mis pares le den credibilidad a lo que estoy haciendo?” Lo
primero, que se debe clarificar es el rol del azar. Todas esas muestras seleccionadas en lugares concurridos no
tienen validez desde el punto de vista inferencial, ya que esas muestras no son representativas a la población en
estudio. Las simulaciones se realizan bajo el método de Montecarlo, que permite resolver problemas
matemáticos mediante la simulación de variables aleatorias. Se mostrarán resultados que se comportan de
manera impredecible aún con muestras aleatorias, incluso con muestras pequeñas. Si su muestra no es aleatoria
vaya a otra congregación, ni con las mejores bendiciones podrá obtener algún resultado con tales datos.
Básicamente se generan dos poblaciones finitas pero lo suficientemente grandes de por ejemplo, 20.000
unidades. La tradicional gaussiana y la otra, también simétrica, pero de colas pesadas, una Laplace (también
conocida como la doble exponencial).
La distribución gaussiana, más conocida como la distribución normal, trabaja con variables continuas y es una de
las más utilizadas por los usuarios de la estadística, caso particular es para muestras (Grandes n -> infinito)
provenientes de cualquier distribución al estandarizar (Restar la media y dividir por la desviación estándar), se
llega a una normal con media 0 y varianza 1 (Teorema central del límite), en este caso se utilizará una
generación de números aleatorios (20.000) provenientes de una distribución normal estándar (N(0,1)), y se
desfasará en 200, al igual que la distribución laplaciana, para observar de mejor manera los resultados que se
obtienen.
Los parámetros de interés serán las medias poblacionales, μG y μL, la variable de la población gaussiana, XG y la
respectiva variable XL de la población laplaciana, respectivamente, ambas finitas. Si se trabaja con la gaussiana
estándar ambos promedios deben estar próximos a 0, en este caso se desfaso y se centró en 200 para hacer una
mejor interpretación. Se seleccionarán muestras aleatorias de diferentes tamaños y en cada muestra se
propondrán varios estimadores para la media: 𝜇 1 = m, la media (muestral); 𝜇 2 = md, la mediana; 𝜇 3 = m_md, el
promedio entre la media y mediana; 𝜇 4 = mm, el promedio entre el mínimo y máximo; 𝜇 5 = p25p75, el promedio
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
entre los percentiles 25 y 75. Es decir, se proponen cinco estimadores para cada una de las medias (μG y μL).
Cabe destacar que calcular analíticamente las propiedades de los estimadores a utilizar, es de gran complejidad,
por lo que no se abordará en el desarrollo de este trabajo.
Formalmente, se debieran incluir notaciones adicionales para: distinguir desde que población provienen las
muestras aleatorias (gaussiana finita o laplaciana finita) y distinguir el plan de muestreo que se esté utilizando.
Las variables XG y XL, tienen sus varianzas y desviaciones estándares. La población gaussiana finita tiene una
varianza y desviación estándar próxima a uno. La población laplaciana finita debiera tener una varianza en torno
al dos (se usa el procedimiento descrito en Evans, Hastings y Peacock, 1993, para generar una doble exponencial
o distribución de Laplace como el logaritmo natural del cociente de dos distribuciones uniformes).
En este trabajo se presentan algunas propiedades de los estimadores propuestos (insesgamiento, consistencia y
varianza mínima) bajo tres planes de muestreo (mas, me y mc; respectivamente). Lohr (1999), Heeringa, West y
Berglund (2010) describen estos planes de muestreo básicos e introducen los planes de muestreo complejos
donde se pueden proyectar los resultados que se obtienen en este trabajo.
Muestreo Aleatorio Simple (mas): Consiste en extraer la muestra de individuos al azar desde la población sin
considerar los grupos, donde todos los individuos tienen la misma probabilidad de ser elegidos en la muestra.
Muestreo Estratificado (me): Desde cada uno de los grupos (estratos) se selecciona aleatoriamente una muestra
aleatoria simple, estos grupos deben ser homogéneos dentro y heterogéneos entre ellos.
Muestreo por Conglomerado (mc): Se seleccionan grupos al azar (los conglomerados) y de éstos conglomerados
se seleccionan muestras aleatorias simples de unidades, en algunos casos toca seleccionar todas las unidades
del grupo.
En Chile se han realizado seminarios con expertos internacionales, con el fin de tomar conciencia para
incorporar los planes de muestreo en los análisis –principalmente los denominados complejos. Con fines
ilustrativos se muestra lo que ocurriría cuando se omite el plan de muestreo (me y mc, en este caso) al realizar
los análisis que por lo general se incluyen en los software “por defecto”; es decir, cuando se ha seleccionado la
muestra por medio de un mas.
Utilizando la ecuación
𝑃 𝜇 − 𝜇 𝑛 ≤ 𝑒𝑒 ≥ 1 − 𝛼
donde μ fue establecido al momento de simular las poblaciones, los ee fueron especificados después de
disponer los cinco estimadores en las muestras simuladas, los 𝜇 𝑛 tendrán sus desviaciones estándares
denominadas error estándar de estimación, para estimar n, se debe encontrar un "1 − 𝛼” empírico que sea
satisfecho a partir de las simulaciones. Se logró realizar simulaciones en el software Stata (StataCorp, 2011) que
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
permitieron determinar los tamaños muestrales en principio y luego ratificar propiedades y características de los
planes de muestreo que puede llegar a comprender un usuario de la estadística que no necesariamente haya
cursado una asignatura de inferencia estadística.
Para calcular la precisión del muestreo utilizado con respecto al muestreo aleatorio simple (mas), se utiliza el
Efecto de Diseño; en donde se considera el muestreo aleatorio simple como patrón por su equiprobabilidad de
elegir cualquier suceso es aquí donde el azar aparece por completo y trabaja libremente.
El efecto de diseño (deff ≡ desing efect) es el cociente de dos medidas de precisión de un mismo estimador: en
el numerador va la medida de precisión del estimador bajo el plan de muestreo de interés y en el denominador
la precisión del mismo estimador bajo el plan de muestreo usado como referencia (el mas). Ambas medidas de
precisión –varianzas–se calculan con el mismo tamaño muestral Lohr (1999), Heeringa, West y Berglund (2010).
𝑫𝒆𝒇𝒇𝒏 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒑𝒍𝒂𝒏 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒆𝒐 = 𝑽𝒂𝒓𝒏(𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒑𝒍𝒂𝒏 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒐)
𝑽𝒂𝒓𝒏(𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒎𝒂𝒔)
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
RESULTADOS
Tabla 1: Desviaciones estándar de los estimadores señalados según el tamaño muestral (mas). --------------------------------------------------------------------------------------------------
---
| Desviación estándar desde un modelo de probabilidad:
| de Gauss | de Laplace
n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75
| (1) (2) 2 2 2 | (1) (2) 2 2 2
--------+---------------------------------------------+---------------------------------------------
50 | 0.142 0.177 0.152 0.337 0.157 | 0.201 0.155 0.165 0.900 0.203
100 | 0.099 0.119 0.103 0.293 0.108 | 0.143 0.108 0.116 0.867 0.141
150 | 0.081 0.103 0.087 0.279 0.089 | 0.111 0.085 0.090 0.863 0.111
200 | 0.070 0.089 0.076 0.262 0.078 | 0.102 0.074 0.082 0.844 0.099
250 | 0.066 0.081 0.070 0.263 0.072 | 0.092 0.065 0.072 0.836 0.091
300 | 0.057 0.071 0.061 0.250 0.065 | 0.080 0.058 0.064 0.827 0.080
350 | 0.052 0.065 0.055 0.260 0.058 | 0.074 0.054 0.059 0.812 0.074
400 | 0.049 0.063 0.053 0.239 0.054 | 0.071 0.051 0.056 0.776 0.069
450 | 0.046 0.058 0.049 0.239 0.052 | 0.067 0.049 0.054 0.752 0.066
500 | 0.043 0.054 0.046 0.227 0.049 | 0.064 0.046 0.051 0.755 0.064
550 | 0.042 0.055 0.046 0.237 0.048 | 0.058 0.044 0.048 0.764 0.059
600 | 0.039 0.050 0.042 0.234 0.043 | 0.059 0.041 0.047 0.710 0.059
650 | 0.040 0.051 0.044 0.219 0.045 | 0.057 0.040 0.046 0.713 0.057
700 | 0.037 0.048 0.040 0.231 0.043 | 0.054 0.039 0.043 0.702 0.054
750 | 0.035 0.044 0.038 0.223 0.039 | 0.050 0.037 0.040 0.678 0.050
800 | 0.035 0.045 0.038 0.217 0.040 | 0.048 0.034 0.038 0.678 0.049
850 | 0.033 0.043 0.036 0.214 0.039 | 0.046 0.034 0.037 0.641 0.046
900 | 0.033 0.041 0.035 0.215 0.036 | 0.046 0.034 0.037 0.651 0.044
950 | 0.032 0.041 0.035 0.214 0.036 | 0.047 0.033 0.038 0.630 0.046
1000 | 0.030 0.039 0.033 0.221 0.034 | 0.045 0.034 0.037 0.636 0.045
----------------------------------------------------------------------------------------------------
Tabla 2: Desviaciones estándar de los estimadores señalados según el tamaño muestral (me). --------------------------------------------------------------------------------------------------
| Desviación estándar desde un modelo de probabilidad:
| de Gauss | de Laplace
n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75
| (1) (2) 2 2 2 | (1) (2) 2 2 2
------+---------------------------------------------+---------------------------------------------
50 | 0.143 0.175 0.151 0.318 0.157 | 0.190 0.157 0.161 0.887 0.190
100 | 0.099 0.121 0.105 0.301 0.108 | 0.144 0.107 0.116 0.902 0.142
150 | 0.082 0.100 0.086 0.281 0.091 | 0.115 0.085 0.093 0.856 0.114
200 | 0.069 0.086 0.073 0.270 0.077 | 0.098 0.074 0.080 0.866 0.098
250 | 0.063 0.078 0.067 0.264 0.070 | 0.090 0.065 0.072 0.876 0.090
300 | 0.060 0.074 0.064 0.262 0.066 | 0.083 0.060 0.066 0.822 0.082
350 | 0.052 0.066 0.056 0.239 0.058 | 0.077 0.055 0.061 0.827 0.075
400 | 0.050 0.063 0.054 0.258 0.056 | 0.072 0.051 0.057 0.799 0.070
450 | 0.047 0.058 0.050 0.234 0.053 | 0.067 0.047 0.053 0.798 0.064
500 | 0.044 0.056 0.048 0.248 0.048 | 0.065 0.047 0.052 0.783 0.063
550 | 0.041 0.053 0.044 0.236 0.046 | 0.061 0.042 0.047 0.741 0.059
600 | 0.039 0.051 0.043 0.235 0.043 | 0.057 0.041 0.045 0.774 0.058
650 | 0.037 0.048 0.040 0.233 0.041 | 0.055 0.038 0.043 0.730 0.055
700 | 0.036 0.047 0.040 0.232 0.041 | 0.054 0.038 0.042 0.710 0.053
750 | 0.035 0.045 0.038 0.229 0.039 | 0.051 0.036 0.040 0.691 0.050
800 | 0.036 0.044 0.038 0.227 0.039 | 0.050 0.037 0.041 0.701 0.050
850 | 0.035 0.045 0.038 0.225 0.038 | 0.047 0.032 0.036 0.671 0.048
900 | 0.031 0.040 0.033 0.232 0.035 | 0.047 0.035 0.038 0.635 0.047
950 | 0.031 0.040 0.033 0.229 0.035 | 0.046 0.032 0.036 0.648 0.046
1000| 0.031 0.038 0.033 0.216 0.035 | 0.045 0.032 0.036 0.638 0.045
--------------------------------------------------------------------------------------------------
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Tabla 3: Desviaciones estándar de los estimadores señalados según el tamaño muestral (mc).
--------------------------------------------------------------------------------------------------
| Desviación estándar desde un modelo de probabilidad:
| de Gauss | de Laplace
n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75
| (1) (2) 2 2 2 | (1) (2) 2 2 2
------+---------------------------------------------+---------------------------------------------
50 | 0.141 0.171 0.148 0.337 0.155 | 0.202 0.159 0.168 0.909 0.204
100 | 0.103 0.133 0.113 0.299 0.114 | 0.142 0.107 0.116 0.895 0.143
150 | 0.077 0.098 0.083 0.268 0.086 | 0.118 0.087 0.096 0.900 0.117
200 | 0.069 0.089 0.075 0.270 0.076 | 0.096 0.072 0.078 0.848 0.097
250 | 0.061 0.077 0.065 0.267 0.068 | 0.091 0.063 0.072 0.830 0.089
300 | 0.056 0.071 0.060 0.265 0.061 | 0.080 0.059 0.065 0.845 0.077
350 | 0.053 0.066 0.057 0.249 0.060 | 0.077 0.054 0.060 0.784 0.075
400 | 0.049 0.062 0.053 0.243 0.054 | 0.068 0.049 0.053 0.791 0.069
450 | 0.046 0.057 0.049 0.239 0.050 | 0.066 0.048 0.053 0.758 0.066
500 | 0.044 0.056 0.047 0.243 0.049 | 0.062 0.044 0.049 0.741 0.064
550 | 0.043 0.055 0.046 0.233 0.049 | 0.059 0.042 0.047 0.725 0.057
600 | 0.042 0.052 0.045 0.233 0.046 | 0.057 0.040 0.045 0.760 0.056
650 | 0.039 0.049 0.042 0.226 0.044 | 0.053 0.039 0.042 0.749 0.054
700 | 0.037 0.047 0.040 0.228 0.042 | 0.051 0.037 0.041 0.705 0.052
750 | 0.035 0.044 0.037 0.231 0.040 | 0.050 0.036 0.040 0.684 0.050
800 | 0.035 0.044 0.037 0.223 0.038 | 0.046 0.034 0.037 0.696 0.049
850 | 0.035 0.043 0.037 0.231 0.039 | 0.045 0.032 0.036 0.658 0.047
900 | 0.032 0.041 0.034 0.214 0.036 | 0.045 0.031 0.035 0.675 0.044
950 | 0.030 0.041 0.034 0.228 0.034 | 0.042 0.030 0.033 0.638 0.043
1000| 0.030 0.039 0.032 0.230 0.035 | 0.042 0.031 0.033 0.637 0.041
--------------------------------------------------------------------------------------------------
De las tablas anteriores se pueden extraer algunas respuestas al problema planteado de cuál es el mejor
estimador. Se observan bajo los tres planes de muestreo utilizados (mas, me, mc), las desviaciones estándar
para cada uno de los cinco estimadores propuestos en el problema, y se observa como en sí son muy parecidos
entre ellos, el único que difiere y da a entender que es uno de los peores estimadores vistos es el promedio
entre mínimo y máximo, y el mejor se podrá determinar según la distribución bajo la cual se esté trabajando,
aunque las diferencias son mínimas si observamos el caso de la distribución Gaussiana se aprecia que el mejor
estimador es la media muestral por sobre los demás estimadores propuestos, como se señaló anteriormente, la
diferencia es mínima ya que difieren en el segundo decimal, en cambio para la distribución Laplaciana se tiene
que el mejor de los cinco estimadores, también con mínimas diferencias es la mediana. Todos los resultados
obtenidos se basaron en las simulaciones creadas en el software.
A continuación se presentan resultados a modo de gráficos, que nos pueden mostrar en parte lo que se está
buscando.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Plan de Muestreo Aleatorio simple
Gráfica 1: Dispersión media versus mediana para las dos distribuciones.
Gauss Laplace
Grafica 2: Distribución de frecuencia comparativa para los estimadores antes mencionados.
Gráfica 3: Dispersión media versus promedio entre mínimo y máximo.
Gauss Laplace
Gráfica 4: Distribución de frecuencia de los estimadores del gráfico 3.
199.8
200
200.2
199.8
200
200.2
199.65 199.8 200 200.2
199.65 199.8 200 200.2 199.65 199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
199
.82
00
200
.21
99
.82
00
200
.2
199.6199.7199.8 200 200.2
199.6199.7199.8 200 200.2 199.6199.7199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
Datos de distribución de Laplace
19
9199
.52
00
200
.52
01
19
9199
.52
00
200
.52
01
199 199.5 200 200.5 201
199 199.5 200 200.5 201 199 199.5 200 200.5 201
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
198.3
199.2
200
200.8
201.7
198.3
199.2
200
200.8
201.7
198 199 200 201 202
198 199 200 201 202 198 199 200 201 202
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
ale
ato
rio
sim
ple
200400
600800
1000
n
Datos de distribución de Laplace
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Plan de Muestreo Estratificado.
Gráfica 5: Dispersión media versus mediana para las dos distribuciones.
Gauss Laplace
Gráfica 6: Distribución de frecuencia de los estimadores mencionados anteriormente.
Gráfica 7
Gráfica 7: Dispersión media versus promedio entre mínimo y máximo.
Gauss Laplace
Gráfica 8: Distribución de frecuencia de los estimadores mencionados anteriormente.
199.8
200
200.2
199.8
200
200.2
199.7199.8 200 200.2
199.7199.8 200 200.2 199.7199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
19
9.8
20
02
00
.21
99
.82
00
20
0.2
199.5199.6199.7199.8 200 200.2
199.5199.6199.7199.8 200 200.2 199.5199.6199.7199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
Datos de distribución de Laplace
19
9199
.52
00
200
.52
01
19
9199
.52
00
200
.52
01
199 199.5 200 200.5 201
199 199.5 200 200.5 201 199 199.5 200 200.5 201
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
198.3
199.2
200
200.8
201.7
198.3
199.2
200
200.8
201.7
198 200 202
198 200 202 198 200 202
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
estr
atifica
do
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
estr
atifica
do
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
estr
atifica
do
200400
600800
1000
n
Datos de distribución de Laplace
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Plan de Muestreo por Conglomerado
Gráfica 9: Dispersión media versus mediana para las dos distribuciones.
Gauss Laplace
Gráfica 10: Distribución de frecuencia de los estimadores mencionados anteriormente.
Gráfica 11: Dispersión media versus promedio entre mínimo y máximo.
Gauss Laplace
Gráfica 12: Distribución de frecuencia de los estimadores mencionados anteriormente.
199.8
200
200.2
199.8
200
200.2
199.7 199.8 200 200.2
199.7 199.8 200 200.2 199.7 199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
19
9.8
20
02
00
.21
99
.82
00
20
0.2
199.5199.6199.7199.8 200 200.2
199.5199.6199.7199.8 200 200.2 199.5199.6199.7199.8 200 200.2
200 400 600
800 1000Me
dia
MedianaGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
199
.52
00
200
.5
Me
dia
na
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
Datos de distribución de Laplace
19
9199
.52
00
200
.52
01
19
9199
.52
00
200
.52
01
199 199.5 200 200.5 201
199 199.5 200 200.5 201 199 199.5 200 200.5 201
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
198.3
199.2
200
200.8
201.7
198.3
199.2
200
200.8
201.7
198 199 200 201 202
198 199 200 201 202 198 199 200 201 202
200 400 600
800 1000Me
dia
Promedio Mínimo y MáximoGraphs by n
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
Datos de distribución gaussiana
199
.52
00
200
.5
Me
dia
, m
ue
str
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
199
.52
00
200
.5
Pro
me
dio
Mín
imo
Má
xim
o,
mu
estr
eo
x c
on
glo
me
rad
o
200400
600800
1000
n
Datos de distribución de Laplace
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En las gráficas anteriores se aprecia claramente que el promedio entre el mínimo y máximo es un estimador
poco apropiado de utilizar para temas de estimación de una población, ya que su varianza es muy elevada lo que
puede dar como resultado una estimación errónea. La diferencia que existe entre la media y mediana en las
distribuciones es mínima, como se vió anteriormente en las tablas la diferencia se presenta en el segundo
decimal en la mayoría de los casos, pero gracias a este decimal podemos decir que para la distribución
Gaussiana el mejor estimador para estimar la media poblacional es la media muestral, y en la distribución
Laplaciana el mejor estimador es la mediana, se observa que estos presentan la característica de ser insesgados.
Para el cálculo del efecto de diseño haremos el cociente antes mencionado, entregando de mejor manera unas
tablas te comparación para los muestreos.
Tabla 4: Deff. Para la media, comparativa para los muestreos y por distribución. ------------------------------------------------------------
Efecto de diseño para la media.
de Gauss | de Laplace
n deff_m_me deff_m_mc | deff_m_me deff_m_mc
------------------------------|-----------------------------
50 1 1 | .9025 1
100 1 1 | 1 1
150 1 1 | 1 1.190083
200 1 1 | 1 1
250 .7346938 .7346938 | 1 1
300 1 1 | 1 1
350 1 1 | 1.306122 1.306122
400 1 1 | 1 1
450 1 1 | 1 1
500 1 1 | 1 1
550 1 1 | 1 1
600 1 1 | 1 1
650 1 1 | 1 .6944445
700 1 1 | 1 1
750 1 1 | 1 1
800 1 .5625 | 1 1
850 1.777778 1 | 1 1
900 1 1 | 1 1
950 1 1 | 1 .6399999
1000 1 1 | 1.5625 1
------------------------------------------------------------
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Tabla 5: Deff. Para la mediana, comparativa para los muestreos y por distribución. --------------------------------------------------------------
Efecto de diseño para la mediana.
de Gauss | de Laplace
n deff_md_me deff_md_mc | deff_md_me deff_md_mc
--------------------------------|-----------------------------
50 .8919753 .8919753 | 1.137778 1.137778
100 1 1.173611 | 1 1
150 1 1 | 1 1.265625
200 1 1 | 1 1
250 1 1 | 1 1
300 1 1 | 1 1
350 1.361111 1.361111 | 1.44 1
400 1 1 | 1 1
450 1 1 | 1 1
500 1.44 1.44 | 1 .6399999
550 1 1 | 1 1
600 1 1 | 1 1
650 1 1 | 1 1
700 1 1 | 1 1
750 1 1 | 1 1
800 .6399999 .6399999 | 1.777778 1
850 1 1 | 1 1
900 1 1 | 1 1
950 1 1 | 1 1
1000 1 1 | 1 1
--------------------------------------------------------------
Tabla 6: Deff. Para la el promedio entre media y mediana, comparativa para los muestreos y por distribución. ------------------------------------------------------------------------
Efecto de diseño para la (media+mediana)/2.
de Gauss | de Laplace
n deff_m_md_me deff_m_md_mc | deff_m_md_me deff_m_md_mc
------------------------------------|-----------------------------------
50 1 1 | .8858131 1
100 1 1.21 | 1 1
150 1 .7901233 | 1 1.234568
200 .7656251 .7656251 | 1 1
250 1 .7346938 | 1 1
300 1 1 | 1.361111 1
350 1 1 | 1 1
400 1 1 | 1 .6944445
450 1 1 | 1 1
500 1 1 | 1 1
550 .6399999 1 | 1 1
600 1 1 | 1 .6399999
650 1 1 | .6399999 .6399999
700 1 1 | 1 1
750 1 1 | 1 1
800 1 1 | 1 1
850 1 1 | 1 1
900 1 1 | 1 1
950 1 1 | 1 .5625
1000 1 1 | 1 .5625
------------------------------------------------------------------------
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Tabla 7: Deff. Para la el promedio entre mínimo y máximo, comparativa para los muestreos y por distribución. ------------------------------------------------------------------------
Efecto de diseño para la (mínimo+máximo)/2.
de Gauss | de Laplace
n deff_mm_me deff_mm_mc | deff_mm_me deff_mm_mc
------------------------------------|-----------------------------------
50 .8858131 1 | .9779013 1.022346
100 1.070155 1.070155 | 1.070155 1.070155
150 1 .929847 | 1 1.095186
200 1.078403 1.078403 | 1.072704 1.023951
250 1 1.078403 | 1.097506 .9763322
300 1.0816 1.0816 | .9760488 1.048774
350 .852071 .9245563 | 1.049992 .9272976
400 1.173611 1 | 1.05194 1.025805
450 .9184029 1 | 1.137778 1.026844
500 1.181474 1.088847 | 1.0816 .9735112
550 1 .9184029 | .948061 .9226109
600 1 1 | 1.176156 1.145804
650 1.092975 1.092975 | 1.057132 1.11585
700 1 1 | 1.028775 1.028775
750 1.092975 1.092975 | 1.029628 1
800 1.092975 1 | 1.059689 1.059689
850 1.199547 1.199547 | 1.095947 1.063477
900 1.199547 1 | .9694675 1.094438
950 1.199547 1.199547 | 1.0645 1.031998
1000 1 1.092975 | 1 1
------------------------------------------------------------------------
Tabla 8: Deff. Para la el promedio entre percentil 25 y percentil 75, comparativa para los muestreos y por distribución. -----------------------------------------------------------------------------------------
Efecto de diseño para la (percentil 25+percentil 75)/2.
de Gauss | de Laplace
n deff_p25_p75_me deff_p25_p75_mc | deff_p25_p75_me deff_p25_p75_mc
----------------------------------------------|------------------------------------------
50 1 1 | .9025 1.022346
100 1 1.070155 | 1 1.070155
150 1 .929847 | 1 1.095186
200 1 1.078403 | 1 1.023951
250 1 1.078403 | 1 .9763322
300 1.361111 1.0816 | 1 1.048774
350 1 .9245563 | 1 .9272976
400 1.44 1 | 1 1.025805
450 1 1 | .7346938 1.026844
500 1 1.088847 | 1 .9735112
550 1 .9184029 | 1 .9226109
600 1 1 | 1 1.145804
650 .6399999 1.092975 | .6944445 1.11585
700 1 1 | 1 1.028775
750 1 1.092975 | 1 1
800 1 1 | 1 1.059689
850 1 1.199547 | 1 1.063477
900 1 1 | 1.5625 1.094438
950 1 1.199547 | 1 1.031998
1000 1 1.092975 | 1 1
-----------------------------------------------------------------------------------------
Para estimar los deff de mejor manera se puede observar que donde se presenta más variación es en el
promedio del mínimo y máximo, de esta forma se puede graficar para observarlo de mejor manera.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Grafica 13: Efecto del diseño para el estimador (mínimo+máximo)/2 para el plan de muestreo por conglomerados según el tamaño de la
muestra.
Grafica 14: Efecto del diseño para el estimador (mínimo+máximo)/2 para el plan de muestreo estratificado según el tamaño de la muestra.
Para la población simulada específicamente en el estimador que se forma con el promedio entre el mínimo y
máximo coincide con los resultados obtenidos en los datos de un problema real, donde los grupos (vistos como
estratos o conglomerados) no aportaron a disminuir la varianza de los estimadores obtenida en un mas.
Se observa que el cociente de los Deff de la distribución Laplaciana, para el estimador antes mencionado
presenta menor varianza con respecto a la distribución Gaussiana, incluso para los diversos tamaños de
muestra.
En el caso de los demás estimadores se observa en las tablas que las varianzas de los muestreos (mc, me), son
similares a los valores de la varianza de un mas, esto nos muestra que para cualquier tipo de muestreo visto en
este documento los estimadores no tradicionales ocupados se comportan de buena manera para poder obtener
los resultados de la población.
CONCLUSIONES
.91
1.1
1.2
De
ff(m
m;
mu
estr
eo
x c
on
glo
me
rad
os
0 200 400 600 800 1000n
Distribucion Gaussiana
.9.9
5
1
1.0
51
.11
.15
De
ff(m
m;
mu
estr
eo
x c
on
glo
me
rad
os
0 200 400 600 800 1000n
Distribucion Laplace
.8.9
11
.11
.2
De
ff(m
m;
mu
estr
eo
estr
atifica
do
0 200 400 600 800 1000n
Distribucion Gaussiana.9
5
1
1.0
51
.11
.15
1.2
De
ff(m
m;
mu
estr
eo
estr
atifica
do
0 200 400 600 800 1000n
Distribucion Laplace
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Se observa que no siempre la media muestral es el mejor estimador para la media poblacional. Se observa
además que cuando los datos población finita se generan a partir de un modelo de probabilidad de Laplace la
mediana –como estimador de la media– presenta menor varianza en relación al promedio muestral. Esto quiere
decir que la mediana es insesgado y tiene menor varianza respecto a la media. Que en muestreos desde
poblaciones finitas no siempre se chequea el comportamiento de los datos; en este caso, se dispone de dos
poblaciones una proveniente del modelo gaussiano y la otra de Laplace. Los resultados son diferentes. Desde el
punto de vista pedagógico se debe promover el chequear la forma que tienen los datos.. Que la simulación de
Monte Carlo es una herramienta poderosa para mostrar conceptos del muestreo (básico, intermedio y
avanzado) tales como insesgamiento, estimadores de varianza mínima y consistencia de los estimadores. El Deff
es otro concepto que se puede explicar a través de las simulaciones.
A través de las poblaciones simuladas se pueden hacer observaciones sobre los comportamientos reales de
algunos datos, y así utilizar estimadores más potentes y con mejores características para estimar la media
poblacional, en este caso u otros parámetros en situaciones más generales que las aquí presentadas.
REFERENCIAS Evans, M., Hatings, N. and Peacock, B. (1993). Statistical Distributions. Second edition. NY, New York: John Wiley & Sons.
StataCorp (2011). Stata: Release 12. Statistical Software. TX, College Station: StataCorp LP
Heeringa, S. G., West, B. T. and Berglund, P. A. (2010). Applied Survey Data Analysis. FL, Boca de Raton: Chapman and Hall/CRC.
Lohr, S. L. (1999). Sampling: Design and Analysis. CA, Pacific Grove: Duxbury Press.
Top Related